This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
lib/CodeGen/SelectionDAG/
-
CodeGen/
-
SelectionDAG/
3/4
DAGCombiner.cpp
-
test/CodeGen/X86/
-
CodeGen/
-
X86/
-
aligned-variadic.ll
-
avg.ll
-
avx-load-store.ll
-
avx512-any_extend_load.ll
-
avx512-insert-extract.ll
-
avx512-intrinsics-upgrade.ll
-
avx512-mask-op.ll
-
bypass-slow-division-32.ll
-
combine-fcopysign.ll
-
combine-sdiv.ll
-
combine-srem.ll
-
constant-combines.ll
-
extract-insert.ll
-
illegal-bitfield-loadstore.ll
-
insertelement-ones.ll
-
jump_sign.ll
-
legalize-shift-64.ll
1/2
mmx-cvt.ll
-
movmsk.ll
1/3
not-and-simplify.ll
-
oddshuffles.ll
-
pr32282.ll
-
pr33844.ll
-
pr34592.ll
-
pr35765.ll
-
pr38185.ll
-
psubus.ll
-
sat-add.ll
1/1
shift-double-x86_64.ll
1/1
shift-double.ll
-
sse3.ll
1/1
unfold-masked-merge-scalar-constmask-innerouter.ll
-
unfold-masked-merge-scalar-constmask-interleavedbits.ll
-
unfold-masked-merge-scalar-constmask-interleavedbytehalves.ll
-
unfold-masked-merge-scalar-constmask-lowhigh.ll
-
urem-seteq-vec-nonsplat.ll
-
usub_sat_vec.ll
-
vec_extract-mmx.ll
-
vec_minmax_sint.ll
-
vec_minmax_uint.ll
-
vector-reduce-smax-widen.ll
-
vector-reduce-smax.ll
-
vector-reduce-smin-widen.ll
-
vector-reduce-smin.ll
-
vector-reduce-umax-widen.ll
-
vector-reduce-umax.ll
-
vector-reduce-umin-widen.ll
-
vector-reduce-umin.ll
-
vector-sext-widen.ll
-
vector-sext.ll
-
vector-shift-ashr-256.ll
-
vector-shift-ashr-sub128.ll
-
vector-shift-lshr-sub128.ll
-
vector-shift-shl-sub128.ll
-
vector-trunc-math-widen.ll
-
vector-trunc-math.ll
-
vector-trunc-packus-widen.ll
-
vector-trunc-packus.ll
-
vector-trunc-ssat-widen.ll
-
vector-trunc-ssat.ll
-
vector-trunc-usat-widen.ll
-
vector-trunc-usat.ll
-
vselect.ll
-
xor.ll
-
zext-logicop-shift-load.ll

Differential D33587

[DAGCombine] Do several rounds of combine.
Needs ReviewPublic

Authored by deadalnix on May 26 2017, 1:25 AM.

Download Raw Diff

Details

Reviewers

baldrick
hfinkel
efriedma
RKSimon
arsenm

Summary

DAGcombine does one pass over all nodes and then give up. This is suboptimal because one node's combine can expose a combine for another node.

Because some of the combines create infinite loops, we limit things to 3 rounds. Idealy, we like to continue combining as long as something is combinable, but that will require removing the combine that do and undo each others, so in the meantime, doing 3 rounds maximum seems like a good tradeof.

Diff Detail

Repository

rL LLVM

Build Status

Buildable 27359
Build 27358: arc lint + arc unit

Event Timeline

deadalnix created this revision.May 26 2017, 1:25 AM

Herald added subscribers: javed.absar, nhaehnle, wdng and 2 others. · View Herald TranscriptMay 26 2017, 1:25 AM

Improve checks in constant_sextload_v8i16_to_v8i32 .

Harbormaster completed remote builds in B6793: Diff 100373.May 26 2017, 1:34 AM

RKSimon edited reviewers, added: efriedma; removed: eli.friedman.May 26 2017, 2:27 AM

Effects on performance? How many of these cases are just where multiple nodes were created and not added to the worklist?

@RKSimon Most of these case aren't because node are not added to the worklist, but because of pattern that are somewhat deep - such as anything depending on KnownBits . Consider the following DAG:

C
|
B
|
A

Now imagine node A is visited and no combine was found. Then B and C are visited and C is transformed into D:

D
|
B
|
A

In this scenrio, A was already visited and isn't added back to the worklist, only B is. We could recursively add uses of uses to the worklist, but it turns out this is not very efficient as it require to add half of the DAG on average back in the worklist everytime a combine is done. Plus it wouldn't catch cases of combine based on getNodeIfExists and other various cases. Simply adding direct uses catches the most common cases, and having an extra pass over all nodes catches everything else, and is more economical as long as > 2 combine are node (on average).

As for performance (I assume you meant compile time performance impact) here are the time I get for a test suite run:

Without this patch:

real    2m41.665s
user    26m33.900s
sys     2m44.728s

With this patch:

real    2m42.729s
user    26m45.772s
sys     2m42.796s

It doesn't looks like the impact is that significant and it seems worth it to me.

In D33587#765476, @deadalnix wrote:
As for performance (I assume you meant compile time performance impact) here are the time I get for a test suite run:

Without this patch:
real    2m41.665s
user    26m33.900s
sys     2m44.728s
With this patch:
real    2m42.729s
user    26m45.772s
sys     2m42.796s
It doesn't looks like the impact is that significant and it seems worth it to me.

I think for things like this, a run of llc on an LTO'd clang .bc would be better to show if there's a problem.

Thank you,
Filipe

spatel added a subscriber: spatel.May 26 2017, 7:23 AM

I usually do not work with clang. Do you have instructions I can follow to get that bc file ?

In D33587#765703, @deadalnix wrote:

I usually do not work with clang. Do you have instructions I can follow to get that bc file ?

You need to build llvm+clang as mentioned on the getting started guide, but set LLVM_ENABLE_LTO=ON on cmake.
clang was an example of "a large code-base" with LTO. I'm ok with timings from other big programs (but clang is usually easier to compare with other people).

I'm getting a bunch of

/usr/bin/ranlib: TypeDatabaseVisitor.cpp.o: plugin needed to handle lto object

When doing so.

Alright so I ended up being able to create a lto build of clang. I'm not sure how to get the bc file to do the benchmarking.

So on the full clang bc, post optimization:

Without this patch:

real    9m26.373s
user    9m24.256s
sys     0m1.948s

With this patch:

real    9m44.870s
user    9m42.484s
sys     0m2.228s

Rebase, fix merge conflicts.

niravd added a subscriber: niravd.Jun 1 2017, 9:42 AM

arsenm added inline comments.Jun 1 2017, 11:52 AM

lib/CodeGen/SelectionDAG/DAGCombiner.cpp
1390–1393	Spelling

Spelling

Can we get same optimization results if we run DAG combiner pass multiple times instead of iterating in the pass internally?
If so, I think it is better to run the pass without the internal iteration multiple times for providing more flexibility to control the tradeoff between the code quality and the compilation time (e.g. based on optimization level).

If I read these numbers correctly, this makes Instruction selection ~ 4-5% slower on large testcases (in your case, an LTO build of clang).
This is, quite a bit, and I need requires further justifications (i.e. needs to be backed by the performance improvement we get on these testcases for the additional compile time we pay.

@inouehrs That wouldn't be the same as this will bail when no more combine is found.
@davide It's more like 3% as far as I can tell. The sad truth here, looking into it, is that there are a lot of combine that and undo themselves and most of the perf hit come from there. These transform are the very reason why i limited the number of iterations to begin with.

As far as benefit goes, it's very helpful for code that's legalized. I've been caring about this a lot lately, because I have workload that involve a lot of cryptography, and the gains are pretty substancial. In addition, I have various transform that I haven't published yet because they simply cannot kick in reliably without the mechanism in this diff. Any pattern that match over more than 2 level deep suffer from not having this patch.

One things that could be done is to only enable this when optimizations are on. We can then weed out the case that loop over time and enable it consistently when there are not so many of them anymore.

In D33587#770721, @deadalnix wrote:

@inouehrs That wouldn't be the same as this will bail when no more combine is found.
@davide It's more like 3% as far as I can tell. The sad truth here, looking into it, is that there are a lot of combine that and undo themselves and most of the perf hit come from there. These transform are the very reason why i limited the number of iterations to begin with.

As far as benefit goes, it's very helpful for code that's legalized. I've been caring about this a lot lately, because I have workload that involve a lot of cryptography, and the gains are pretty substancial. In addition, I have various transform that I haven't published yet because they simply cannot kick in reliably without the mechanism in this diff. Any pattern that match over more than 2 level deep suffer from not having this patch.

One things that could be done is to only enable this when optimizations are on. We can then weed out the case that loop over time and enable it consistently when there are not so many of them anymore.

This wouldn't actually help the worst case, i.e. LTO, when optimizations are almost always on.
I think the impact is still quite significant, and we should have numbers before trying to be more aggressive, as SelectionDAG is already very expensive.

It sounds like the underlying cause of this is related to the conversation on diamond nodes you started on llvm-dev. Reading your description I think I understnad the issue more and I believe have a solution that should fix the underlying issue without needing to loop on all nodes multiple times.

The problem with optimizations on a deeper DAG optimizations is that we cannot leverage the fact that we add both changed/new nodes and their users to guarantee that we consider the key node (i.e. the one that triggers the optimization). You can work around this by checking for the optimization from all nodes you match on. This will increase the number of times you check, but much less than revisiting all nodes. You should be able to avoid doing the check off of each node you match against, and only check alternating layers (which might let you only have to do the optimization check for the fork and join points in a diamond shape).

deadalnix mentioned this in D33840: [DAGCombine] Do not try to deduplicate commutative operations if both operand are the same..Jun 27 2017, 4:47 AM

@niravd Did you look at your alternative approach any further? @deadalnix has updated D33840 which was supposed to help reduce the performance impact but the results are mild at best.

@RKSimon I'll find a way to make that fast, or find an alternative like activating it only in some specific situations. In addition to solving my specific problem, it seems to improve numerous other things, especially for the AMD backend. In any case, I think D33840 is a good thing either way and we should proceed with it.

I'd like to ressurect this diff.

To me, it seems like the proper thing to do, at least at some optimisation level. As long as there are combine to do that we know how to do, we should be doign them.

I see a lot of people doing more and more clever pattern over time that are just not necessary as they are combinations of simpler patterns. This is a losing battle anyways because there is a combinatorial explosion. In addition, there are just many patterns that are just not very useful in isolation, but useful to put things in a canonical form that can be picked up later on. These types of transformations are not beneficial right now unless very simple.

I was able to write variosu patches that leverage this canonicalisation mechanism ad get great result for the uses cases I'm interested in (mostly cryptography, which involve a lot of big integer manipulation). I'm sure people interested in the performance of other type of code will find it beneficial as well. Ultimately I could do without this patch, but at the end, the alternative boils down to do something similar in specific cases - the ones I care about - instead of all cases, which seems like a big missed opportunity.

The results are better in numerous cases, terrific in some and there are little regressions in term of codegen quality. I'm happy to work on these regressions, but I'd like to ensure I'm not wasting my time if that patch has no chances to get in.

TL;DR: Not doing this is creating work and complexity in addition to making it prohibitively complex to do some optimisations. I think we should do this, at higher optimisation levels such as O2/O3.

Harbormaster completed remote builds in B27359: Diff 183737.Jan 26 2019, 5:42 PM

craig.topper added a subscriber: craig.topper.Jan 26 2019, 5:49 PM

craig.topper added inline comments.

lib/CodeGen/SelectionDAG/DAGCombiner.cpp
1437	Don't you need to reset CombineNodes on each iteration?

Have we looked into visiting the nodes bottom up instead of top down as is currently done. Would require an explicit topological sort instead of getting whatever order the previous legalizer step left us with.

Diffusion mentioned this in rL352303: [X86] Add a pattern for (i64 (and (anyext def32:), 0x00000000FFFFFFFF)) to….Jan 26 2019, 7:37 PM

I'm not sure how processing nodes bottom up really helps. Problems arise when you want to use patterns of depth > 2 because then direct parent.child are not processed again, even though such pattern may now be available. It seems to me that both top/down and bottom/up approaches would suffers from the same problem, but maybe there is something I'm missing.

lib/CodeGen/SelectionDAG/DAGCombiner.cpp
1437	Both would be correct but semantic obviously differ. Let me investigate this. Good catch.

Currently we largely visit nodes before their operands. So when we simplify the operands several layers down we don’t revisit the later nodes to match patterns. But if we visited the operands first, then the first visit of the later nodes would occur after. So we wouldn’t need to revisit them.

After thinking more about this, I do not think going bottom up is a good idea. All patterns match a node + its operands, and so benefit from operand to be combined themselves already. I do not think changing all the patterns to match use rather than operands is a good idea. This is a ton of work, and this is unclear there is any benefit at all.

lib/CodeGen/SelectionDAG/DAGCombiner.cpp
1437	So I was playing with reseting/not reseting this and even removing it altogether. The first thing worth noticing is that the intent here is very similar, but more limited in scope. However, result sometime differs depending on if this is executed or not. It is due to various patterns in there depends on execution order - something I've noticed before, for instance in D41235 . I do not think we need to reset it as all existing nodes are inserted at the start in the worklist, so this ends up only adding nodes to the worklist that have been created by a precedent successful combine. I notice zero codegen difference when reseting the set between iteration, so it seems to just create more work without any benefit.

For bottom up, I was referring to the order of the nodes in the initial work list. Not the patterns themselves. Right now we visit the last instruction in the basic block first. What if we visited nodes with no operands first and visited the last instruction last. That would match what IR instcombine does.

I get it now. We had a mismatched interpretation of which side is up, which side is down. If this is indeed the order in which nodes are processed, then it'd be beneficial to change this.

xbolva00 added a subscriber: xbolva00.Jan 27 2019, 10:12 AM

xbolva00 added inline comments.

test/CodeGen/X86/mmx-cvt.ll
271	Weird instruction increase
test/CodeGen/X86/not-and-simplify.ll
22	Bug?

RKSimon added inline comments.Jan 27 2019, 10:28 AM

test/CodeGen/X86/not-and-simplify.ll
22	Alive says its ok: https://rise4fun.com/Alive/MDFW And it replaces a load with a re-rematerializable constant

deadalnix marked 5 inline comments as done.Jan 27 2019, 6:51 PM

deadalnix added inline comments.

test/CodeGen/X86/mmx-cvt.ll
271	Yes. It looks like there are a few regressions, even though overall codegen looks better. I'm happy to investigate them, but I'd like to know if this is like to go forward in principle before investing too much effort that will be wasted.
test/CodeGen/X86/not-and-simplify.ll
22	I assume this is an improvement, right ?
test/CodeGen/X86/shift-double-x86_64.ll
16	I'm not sure what is going on here, I assume there is a bug somewhere.
test/CodeGen/X86/shift-double.ll
300	dito
test/CodeGen/X86/unfold-masked-merge-scalar-constmask-innerouter.ll
40	Is there any difference between these two in term of codegen ?

Have you done any compile time measurements of this? InstCombine already gets blamed for being a compile time problem. I'm worried about repeating that criticism with DAG combine.

Also do you have examples of the kinds of things that you're seeing in your workloads? Would be good to have test cases for those so we can understand them and so they don't regress in the future if we go forward with this.

Also why is only X86 showing changes from this?

deadalnix added a child revision: D57317: [DAGCombine] Deduplicate addcarry node using commutativity..Jan 28 2019, 2:34 AM

My concern about this that DAGCombine is a relatively expensive and doing it 3 times will make a nontrivial difference in large vector compute blocks. At the very minimum we'd want to disable the most expensive merge operations for most of the passes (store merge and maybe some vector combines).

The only reason this is necessary is that some transforms rely on looking deeper than it's operands to decide if it's valid which means it's triggering condition may change without it being put on the worklist. Last time this was beign discussed I suggested changing the key node in the such transforms so they were either the earliest or a user of the earliest node so DAG changes would happen before the transform was no longer considered.

Maybe we could do the dual and more aggressively add user nodes to the worklist on a combine. I've looked at a few test cases on the rebased patch and it initial glance at the debug trace seems to indicate are both due to a change that enables a SimplifyDemandedBits-based combine from a node a few steps deep. If we could add further descendants in those cases (or alternatively recenter the SimplifyBits combines on computationally earlier nodes) we may be able to fold this back down to one pass with only marginal additional work.

Hi @craig.topper ,

First about the kind of code I try to get to have better codegen, it's mostly about large integer manipulations. I already added a fair amount of reduced test cases in addcarry.ll/subcarry.ll . I'm at a stage where the pattern I have to work with are somewhat deep, see D57302 for an example. These patterns do not do anything useful if other transform cannot pick up from whee they left.

Hi @niravd ,

I wanted to collect some performance data today, but I ran into some problem to get to generate a large bc file of some existing program as LTO seems to be broken on my end for some reason. I did explore the idea of adding more descendant, for instance sext/zext seems to be valuable to punch through. But it seems to me like you would want to add more and more of these over time, and you'd end up with a complicated version of what we have here which misses opportunities.

You raise a good point though. This should only run iteration n if iteration n - 1 actually did change the DAG. You'd expect that the code shouldn't run 3 times that often, but in practice it does because there are a lot of transform that do A -> B -> A . This is why I limited to 3 and not anything more. I do think that investigating these and removing them over time is probably preferable.

I suggested changing the key node in the such transforms so they were either the earliest or a user of the earliest node so DAG changes would happen before the transform was no longer considered.

I do not think this is a very realistic path forward as there are numerous transform looking 2+ deep. As you rightly point out anything SimplifyDemandedBits based does so for instance.

I think as first step we can hide this behavior behind some flag which default to not doing the transform until we can tune things a bit more and figure out in what cases we want to do this? Would that be acceptable to you?

In D33587#1374753, @deadalnix wrote:

Hi @craig.topper ,

First about the kind of code I try to get to have better codegen, it's mostly about large integer manipulations. I already added a fair amount of reduced test cases in addcarry.ll/subcarry.ll . I'm at a stage where the pattern I have to work with are somewhat deep, see D57302 for an example. These patterns do not do anything useful if other transform cannot pick up from whee they left.

I don't see changes to addcarry.ll and subborrow.ll in this patch. So do we not have test cases from your workloads that show the benefit of this patch?

Are there non-X86 changes from this patch as well that haven't been captured here? Or is X86 somehow the only target affected by this?

In D33587#1374792, @craig.topper wrote:

I don't see changes to addcarry.ll and subborrow.ll in this patch. So do we not have test cases from your workloads that show the benefit of this patch?

That is because I have other transforms that have no effect without this patch. To be able to do anything more than what's already done, I need to linearize carries propagation as in D57302. Then I can do various transforms such as D57317 (I have others to submit). Without reworking the carry propagation, there is no hope of getting nice chains of adc (or whatever the equivalent is on the target) and without this, breaking diamond propagation doesn't work reliably as the patterns are too deep.

I can submit other patches, but at this time it only looks like it would clutter the review queue as they'd all depend on D57302 which doesn't work reliably without this one. As mentioned earlier, punching through zext/sext and other ops that often find themselves on the path of carries works as well for me, but it seems like a missed opportunity considering what we get out of SimplifyDemandedBits and alike.

Are there non-X86 changes from this patch as well that haven't been captured here? Or is X86 somehow the only target affected by this?

There are other changes. Most of them in the AMDGPU backend. I will get them sorted out before committing anything, but I would like that we decide of a path forward so I can avoid maintaining them manually for a long time. the x86 ones are easy to maintain thanks to utils/update_llc_test_checks.py

deadalnix mentioned this in D57367: [DAGCombine] Do several rounds of combine for nodes using SimplifyDemandedBits..Jan 28 2019, 7:08 PM

I was thinking about ways to reduce the overhead created by this change. I came up with D57367, which is an alternative that focuses on nodes likely to benefit from the change instead of the whole DAG. It misses several opportunity that exist in that patch, but it seems to be a tradeof worth doing.

deadalnix removed a child revision: D57317: [DAGCombine] Deduplicate addcarry node using commutativity..Jan 28 2019, 7:35 PM

deadalnix mentioned this in D57389: [X86] Improve use of SHLD/SHRD.Jan 29 2019, 7:43 AM

dmgreen added a subscriber: dmgreen.Jan 30 2019, 1:30 AM

RKSimon mentioned this in D57317: [DAGCombine] Deduplicate addcarry node using commutativity..Feb 7 2019, 4:44 AM

nikic added a subscriber: nikic.Feb 10 2019, 11:13 AM

Herald added a project: Restricted Project. · View Herald TranscriptFeb 10 2019, 11:13 AM

deadalnix mentioned this in rL355260: [X86] Improve use of SHLD/SHRD.Mar 1 2019, 6:43 PM

Diffusion mentioned this in rGf24abf651199: [X86] Improve use of SHLD/SHRD.Mar 1 2019, 6:46 PM

deadalnix added a child revision: D57317: [DAGCombine] Deduplicate addcarry node using commutativity..Jul 3 2019, 5:00 PM

deadalnix removed a child revision: D57317: [DAGCombine] Deduplicate addcarry node using commutativity..Jul 3 2019, 5:03 PM

arsenm resigned from this revision.Feb 13 2020, 4:43 PM

Herald added a subscriber: • wuzish. · View Herald TranscriptFeb 13 2020, 4:43 PM

deadalnix added a child revision: D57317: [DAGCombine] Deduplicate addcarry node using commutativity..May 1 2022, 2:11 PM

chfast added a subscriber: chfast.Aug 23 2022, 12:09 AM

Herald added a project: Restricted Project. · View Herald TranscriptAug 23 2022, 12:09 AM

Herald added subscribers: steven.zhang, pengfei. · View Herald Transcript

Revision Contents

Path

Size

lib/

CodeGen/

SelectionDAG/

DAGCombiner.cpp

150 lines

test/

CodeGen/

X86/

aligned-variadic.ll

5 lines

avg.ll

731 lines

avx-load-store.ll

4 lines

avx512-any_extend_load.ll

4 lines

avx512-insert-extract.ll

5 lines

avx512-intrinsics-upgrade.ll

3 lines

avx512-mask-op.ll

5 lines

bypass-slow-division-32.ll

9 lines

101 lines

105 lines

36 lines

6 lines

9 lines

illegal-bitfield-loadstore.ll

130 lines

insertelement-ones.ll

13 lines

4 lines

6 lines

7 lines

5 lines

3 lines

53 lines

18 lines

10 lines

2 lines

5 lines

17 lines

85 lines

22 lines

shift-double-x86_64.ll

22 lines

shift-double.ll

54 lines

sse3.ll

8 lines

unfold-masked-merge-scalar-constmask-innerouter.ll

4 lines

unfold-masked-merge-scalar-constmask-interleavedbits.ll

4 lines

unfold-masked-merge-scalar-constmask-interleavedbytehalves.ll

4 lines

unfold-masked-merge-scalar-constmask-lowhigh.ll

4 lines

urem-seteq-vec-nonsplat.ll

7 lines

114 lines

14 lines

170 lines

170 lines

vector-reduce-smax-widen.ll

173 lines

vector-reduce-smax.ll

173 lines

vector-reduce-smin-widen.ll

188 lines

vector-reduce-smin.ll

188 lines

vector-reduce-umax-widen.ll

173 lines

vector-reduce-umax.ll

173 lines

vector-reduce-umin-widen.ll

188 lines

vector-reduce-umin.ll

188 lines

vector-sext-widen.ll

6 lines

vector-sext.ll

6 lines

vector-shift-ashr-256.ll

2 lines

vector-shift-ashr-sub128.ll

15 lines

vector-shift-lshr-sub128.ll

18 lines

vector-shift-shl-sub128.ll

18 lines

vector-trunc-math-widen.ll

197 lines

vector-trunc-math.ll

197 lines

vector-trunc-packus-widen.ll

622 lines

vector-trunc-packus.ll

667 lines

vector-trunc-ssat-widen.ll

730 lines

vector-trunc-ssat.ll

723 lines

vector-trunc-usat-widen.ll

488 lines

vector-trunc-usat.ll

522 lines

vselect.ll

13 lines

xor.ll

9 lines

zext-logicop-shift-load.ll

1 line

Diff 183737

lib/CodeGen/SelectionDAG/DAGCombiner.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 1,376 Lines • ▼ Show 20 Lines
	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//

	void DAGCombiner::Run(CombineLevel AtLevel) {			void DAGCombiner::Run(CombineLevel AtLevel) {
	// set the instance variables, so that the various visit routines may use it.			// set the instance variables, so that the various visit routines may use it.
	Level = AtLevel;			Level = AtLevel;
	LegalOperations = Level >= AfterLegalizeVectorOps;			LegalOperations = Level >= AfterLegalizeVectorOps;
	LegalTypes = Level >= AfterLegalizeTypes;			LegalTypes = Level >= AfterLegalizeTypes;

	// Add all the dag nodes to the worklist.
	for (SDNode &Node : DAG.allnodes())
	AddToWorklist(&Node);

	// Create a dummy node (which is not added to allnodes), that adds a reference			// Create a dummy node (which is not added to allnodes), that adds a reference
	// to the root node, preventing it from being deleted, and tracking any			// to the root node, preventing it from being deleted, and tracking any
	// changes of the root.			// changes of the root.
	HandleSDNode Dummy(DAG.getRoot());			HandleSDNode Dummy(DAG.getRoot());

				for (unsigned Iteration = 0; Iteration < 3; Iteration++) {
				// Add all the dag nodes to the worklist.
				for (SDNode &Node : DAG.allnodes())
				AddToWorklist(&Node);
				arsenmUnsubmitted Done Reply Inline Actions Spelling arsenm: Spelling

				bool Changed = false;

	// While the worklist isn't empty, find a node and try to combine it.			// While the worklist isn't empty, find a node and try to combine it.
	while (!WorklistMap.empty()) {			while (!WorklistMap.empty()) {
	SDNode *N;			SDNode *N;
	// The Worklist holds the SDNodes in order, but it may contain null entries.			// The Worklist holds the SDNodes in order, but it may contain null entries.
	do {			do {
	N = Worklist.pop_back_val();			N = Worklist.pop_back_val();
	} while (!N);			} while (!N);

	bool GoodWorklistEntry = WorklistMap.erase(N);			bool GoodWorklistEntry = WorklistMap.erase(N);
	(void)GoodWorklistEntry;			(void)GoodWorklistEntry;
	assert(GoodWorklistEntry &&			assert(GoodWorklistEntry &&
	"Found a worklist entry without a corresponding map entry!");			"Found a worklist entry without a corresponding map entry!");

	// If N has no uses, it is dead. Make sure to revisit all N's operands once			// If N has no uses, it is dead. Make sure to revisit all N's operands once
	// N is deleted from the DAG, since they too may now be dead or may have a			// N is deleted from the DAG, since they too may now be dead or may have a
	// reduced number of uses, allowing other xforms.			// reduced number of uses, allowing other xforms.
	if (recursivelyDeleteUnusedNodes(N))			if (recursivelyDeleteUnusedNodes(N))
	continue;			continue;

	WorklistRemover DeadNodes(*this);			WorklistRemover DeadNodes(*this);

	// If this combine is running after legalizing the DAG, re-legalize any			// If this combine is running after legalizing the DAG, re-legalize any
	// nodes pulled off the worklist.			// nodes pulled off the worklist.
	if (Level == AfterLegalizeDAG) {			if (Level == AfterLegalizeDAG) {
	SmallSetVector<SDNode *, 16> UpdatedNodes;			SmallSetVector<SDNode *, 16> UpdatedNodes;
	bool NIsValid = DAG.LegalizeOp(N, UpdatedNodes);			bool NIsValid = DAG.LegalizeOp(N, UpdatedNodes);

	for (SDNode *LN : UpdatedNodes) {			for (SDNode *LN : UpdatedNodes) {
	AddToWorklist(LN);			AddToWorklist(LN);
	AddUsersToWorklist(LN);			AddUsersToWorklist(LN);
	}			}
	if (!NIsValid)			if (!NIsValid)
	continue;			continue;
	}			}

	LLVM_DEBUG(dbgs() << "\nCombining: "; N->dump(&DAG));			LLVM_DEBUG(dbgs() << "\nCombining: "; N->dump(&DAG));

	// Add any operands of the new node which have not yet been combined to the			// Add any operands of the new node which have not yet been combined to
	// worklist as well. Because the worklist uniques things already, this			// the worklist as well. Because the worklist uniques things already,
	// won't repeatedly process the same operand.			// this won't repeatedly process the same operand.
	CombinedNodes.insert(N);			CombinedNodes.insert(N);
				craig.topperUnsubmitted Not Done Reply Inline Actions Don't you need to reset CombineNodes on each iteration? craig.topper: Don't you need to reset CombineNodes on each iteration?
				deadalnixAuthorUnsubmitted Done Reply Inline Actions Both would be correct but semantic obviously differ. Let me investigate this. Good catch. deadalnix: Both would be correct but semantic obviously differ. Let me investigate this. Good catch.
				deadalnixAuthorUnsubmitted Done Reply Inline Actions So I was playing with reseting/not reseting this and even removing it altogether. The first thing worth noticing is that the intent here is very similar, but more limited in scope. However, result sometime differs depending on if this is executed or not. It is due to various patterns in there depends on execution order - something I've noticed before, for instance in D41235 . I do not think we need to reset it as all existing nodes are inserted at the start in the worklist, so this ends up only adding nodes to the worklist that have been created by a precedent successful combine. I notice zero codegen difference when reseting the set between iteration, so it seems to just create more work without any benefit. deadalnix: So I was playing with reseting/not reseting this and even removing it altogether. The first…
	for (const SDValue &ChildN : N->op_values())			for (const SDValue &ChildN : N->op_values())
	if (!CombinedNodes.count(ChildN.getNode()))			if (!CombinedNodes.count(ChildN.getNode()))
	AddToWorklist(ChildN.getNode());			AddToWorklist(ChildN.getNode());

	SDValue RV = combine(N);			SDValue RV = combine(N);

	if (!RV.getNode())			if (!RV.getNode())
	continue;			continue;

	++NodesCombined;			++NodesCombined;
				Changed = true;

	// If we get back the same node we passed in, rather than a new node or			// If we get back the same node we passed in, rather than a new node or
	// zero, we know that the node must have defined multiple values and			// zero, we know that the node must have defined multiple values and
	// CombineTo was used. Since CombineTo takes care of the worklist			// CombineTo was used. Since CombineTo takes care of the worklist
	// mechanics for us, we have no work to do in this case.			// mechanics for us, we have no work to do in this case.
	if (RV.getNode() == N)			if (RV.getNode() == N)
	continue;			continue;

	assert(N->getOpcode() != ISD::DELETED_NODE &&			assert(N->getOpcode() != ISD::DELETED_NODE &&
	RV.getOpcode() != ISD::DELETED_NODE &&			RV.getOpcode() != ISD::DELETED_NODE &&
	"Node was deleted but visit returned new node!");			"Node was deleted but visit returned new node!");

	LLVM_DEBUG(dbgs() << " ... into: "; RV.getNode()->dump(&DAG));			LLVM_DEBUG(dbgs() << " ... into: "; RV.getNode()->dump(&DAG));

	if (N->getNumValues() == RV.getNode()->getNumValues())			if (N->getNumValues() == RV.getNode()->getNumValues())
	DAG.ReplaceAllUsesWith(N, RV.getNode());			DAG.ReplaceAllUsesWith(N, RV.getNode());
	else {			else {
	assert(N->getValueType(0) == RV.getValueType() &&			assert(N->getValueType(0) == RV.getValueType() &&
	N->getNumValues() == 1 && "Type mismatch");			N->getNumValues() == 1 && "Type mismatch");
	DAG.ReplaceAllUsesWith(N, &RV);			DAG.ReplaceAllUsesWith(N, &RV);
	}			}

	// Push the new node and any users onto the worklist			// Push the new node and any users onto the worklist
	AddToWorklist(RV.getNode());			AddToWorklist(RV.getNode());
	AddUsersToWorklist(RV.getNode());			AddUsersToWorklist(RV.getNode());

	// Finally, if the node is now dead, remove it from the graph. The node			// Finally, if the node is now dead, remove it from the graph. The node
	// may not be dead if the replacement process recursively simplified to			// may not be dead if the replacement process recursively simplified to
	// something else needing this node. This will also take care of adding any			// something else needing this node. This will also take care of adding any
	// operands which have lost a user to the worklist.			// operands which have lost a user to the worklist.
	recursivelyDeleteUnusedNodes(N);			recursivelyDeleteUnusedNodes(N);
	}			}

				if (!Changed)
				break;
				}

	// If the root changed (e.g. it was a dead load, update the root).			// If the root changed (e.g. it was a dead load, update the root).
	DAG.setRoot(Dummy.getValue());			DAG.setRoot(Dummy.getValue());
	DAG.RemoveDeadNodes();			DAG.RemoveDeadNodes();
	}			}

	SDValue DAGCombiner::visit(SDNode *N) {			SDValue DAGCombiner::visit(SDNode *N) {
	switch (N->getOpcode()) {			switch (N->getOpcode()) {
	default: break;			default: break;
	▲ Show 20 Lines • Show All 17,944 Lines • Show Last 20 Lines

test/CodeGen/X86/aligned-variadic.ll

	Show All 23 Lines
	; X64-NEXT: movaps %xmm7, {{[0-9]+}}(%rsp)			; X64-NEXT: movaps %xmm7, {{[0-9]+}}(%rsp)
	; X64-NEXT: LBB0_2: ## %entry			; X64-NEXT: LBB0_2: ## %entry
	; X64-NEXT: movq %r9, {{[0-9]+}}(%rsp)			; X64-NEXT: movq %r9, {{[0-9]+}}(%rsp)
	; X64-NEXT: movq %r8, {{[0-9]+}}(%rsp)			; X64-NEXT: movq %r8, {{[0-9]+}}(%rsp)
	; X64-NEXT: movq %rcx, {{[0-9]+}}(%rsp)			; X64-NEXT: movq %rcx, {{[0-9]+}}(%rsp)
	; X64-NEXT: movq %rdx, {{[0-9]+}}(%rsp)			; X64-NEXT: movq %rdx, {{[0-9]+}}(%rsp)
	; X64-NEXT: movq %rsi, {{[0-9]+}}(%rsp)			; X64-NEXT: movq %rsi, {{[0-9]+}}(%rsp)
	; X64-NEXT: movq %rdi, (%rsp)			; X64-NEXT: movq %rdi, (%rsp)
				; X64-NEXT: movabsq $206158430208, %rax ## imm = 0x3000000000
				; X64-NEXT: movq %rax, {{[0-9]+}}(%rsp)
	; X64-NEXT: movq %rsp, %rax			; X64-NEXT: movq %rsp, %rax
	; X64-NEXT: movq %rax, {{[0-9]+}}(%rsp)			; X64-NEXT: movq %rax, {{[0-9]+}}(%rsp)
	; X64-NEXT: leaq {{[0-9]+}}(%rsp), %rax			; X64-NEXT: leaq {{[0-9]+}}(%rsp), %rax
	; X64-NEXT: movq %rax, {{[0-9]+}}(%rsp)			; X64-NEXT: movq %rax, {{[0-9]+}}(%rsp)
	; X64-NEXT: movabsq $206158430208, %rax ## imm = 0x3000000000
	; X64-NEXT: movq %rax, {{[0-9]+}}(%rsp)
	; X64-NEXT: addq $24, {{[0-9]+}}(%rsp)
	; X64-NEXT: leaq {{[0-9]+}}(%rsp), %rdi			; X64-NEXT: leaq {{[0-9]+}}(%rsp), %rdi
	; X64-NEXT: callq _qux			; X64-NEXT: callq _qux
	; X64-NEXT: addq $200, %rsp			; X64-NEXT: addq $200, %rsp
	; X64-NEXT: retq			; X64-NEXT: retq
	;			;
	; X32-LABEL: bar:			; X32-LABEL: bar:
	; X32: ## %bb.0: ## %entry			; X32: ## %bb.0: ## %entry
	; X32-NEXT: subl $44, %esp			; X32-NEXT: subl $44, %esp
	Show All 26 Lines

test/CodeGen/X86/avg.ll

	Show First 20 Lines • Show All 1,918 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pushq %r13			; SSE2-NEXT: pushq %r13
	; SSE2-NEXT: pushq %r12			; SSE2-NEXT: pushq %r12
	; SSE2-NEXT: pushq %rbx			; SSE2-NEXT: pushq %rbx
	; SSE2-NEXT: movaps (%rdi), %xmm0			; SSE2-NEXT: movaps (%rdi), %xmm0
	; SSE2-NEXT: movaps (%rsi), %xmm1			; SSE2-NEXT: movaps (%rsi), %xmm1
	; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax			; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE2-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; SSE2-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %r13d			; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %r11d
				; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
				; SSE2-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax			; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE2-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; SSE2-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax			; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE2-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; SSE2-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %r14d
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %r15d			; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %r15d
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %r12d			; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %r12d
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %r11d			; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %r13d
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %r10d			; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %r14d
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %r9d
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %ecx			; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %ecx
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %edi
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %ebp			; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %ebp
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %ebx			; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %ebx
				; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %esi
				; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %edi
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %edx			; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %edx
				; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %r8d
	; SSE2-NEXT: movaps %xmm1, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: movaps %xmm1, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %esi			; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %r9d
	; SSE2-NEXT: leal -1(%rdx,%rsi), %edx			; SSE2-NEXT: leal -1(%r8,%r9), %eax
	; SSE2-NEXT: movl %edx, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; SSE2-NEXT: movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
				; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
				; SSE2-NEXT: leal -1(%rdx,%rax), %eax
				; SSE2-NEXT: movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
				; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
				; SSE2-NEXT: leal -1(%rdi,%rax), %r10d
				; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
				; SSE2-NEXT: leal -1(%rsi,%rax), %r9d
				; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
				; SSE2-NEXT: leal -1(%rbx,%rax), %r8d
				; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
				; SSE2-NEXT: leal -1(%rbp,%rax), %ebp
				; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
				; SSE2-NEXT: leal -1(%rcx,%rax), %ecx
				; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
				; SSE2-NEXT: leal -1(%r14,%rax), %eax
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %edx			; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %edx
	; SSE2-NEXT: leal -1(%rbx,%rdx), %edx			; SSE2-NEXT: leal -1(%r13,%rdx), %r13d
	; SSE2-NEXT: movl %edx, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %edx			; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %edx
	; SSE2-NEXT: leal -1(%rbp,%rdx), %edx			; SSE2-NEXT: leal -1(%r12,%rdx), %r12d
	; SSE2-NEXT: movl %edx, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %edx			; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %edx
	; SSE2-NEXT: leal -1(%rdi,%rdx), %r8d			; SSE2-NEXT: leal -1(%r15,%rdx), %r15d
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %edx			; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %edx
	; SSE2-NEXT: leal -1(%rax,%rdx), %edi			; SSE2-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rsi # 8-byte Reload
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax			; SSE2-NEXT: leal -1(%rsi,%rdx), %r14d
	; SSE2-NEXT: leal -1(%rcx,%rax), %edx			; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %edx
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax			; SSE2-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rsi # 8-byte Reload
	; SSE2-NEXT: leal -1(%r9,%rax), %ecx			; SSE2-NEXT: leal -1(%rsi,%rdx), %edx
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %esi			; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %edi
	; SSE2-NEXT: leal -1(%r10,%rsi), %eax			; SSE2-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rsi # 8-byte Reload
				; SSE2-NEXT: leal -1(%rsi,%rdi), %edi
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %esi			; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %esi
	; SSE2-NEXT: leaq -1(%r11,%rsi), %rsi			; SSE2-NEXT: leal -1(%r11,%rsi), %esi
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %ebx			; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %r11d
	; SSE2-NEXT: leaq -1(%r12,%rbx), %r12			; SSE2-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rbx # 8-byte Reload
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %ebx			; SSE2-NEXT: leal -1(%rbx,%r11), %ebx
	; SSE2-NEXT: leaq -1(%r15,%rbx), %r15			; SSE2-NEXT: shrl %ebx
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %ebx			; SSE2-NEXT: movd %ebx, %xmm8
	; SSE2-NEXT: leaq -1(%r14,%rbx), %r14			; SSE2-NEXT: shrl %esi
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %ebx			; SSE2-NEXT: movd %esi, %xmm1
	; SSE2-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rbp # 8-byte Reload			; SSE2-NEXT: shrl %edi
	; SSE2-NEXT: leaq -1(%rbp,%rbx), %r11			; SSE2-NEXT: movd %edi, %xmm9
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %ebx			; SSE2-NEXT: shrl %edx
	; SSE2-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rbp # 8-byte Reload			; SSE2-NEXT: movd %edx, %xmm2
	; SSE2-NEXT: leaq -1(%rbp,%rbx), %r10			; SSE2-NEXT: shrl %r14d
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %ebx			; SSE2-NEXT: movd %r14d, %xmm10
	; SSE2-NEXT: leaq -1(%r13,%rbx), %r9			; SSE2-NEXT: shrl %r15d
	; SSE2-NEXT: movzbl -{{[0-9]+}}(%rsp), %ebx			; SSE2-NEXT: movd %r15d, %xmm5
	; SSE2-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %r13 # 8-byte Reload			; SSE2-NEXT: shrl %r12d
	; SSE2-NEXT: leaq -1(%r13,%rbx), %rbx			; SSE2-NEXT: movd %r12d, %xmm11
				; SSE2-NEXT: shrl %r13d
				; SSE2-NEXT: movd %r13d, %xmm7
	; SSE2-NEXT: shrl %eax			; SSE2-NEXT: shrl %eax
	; SSE2-NEXT: movd %eax, %xmm8			; SSE2-NEXT: movd %eax, %xmm12
	; SSE2-NEXT: shrl %ecx			; SSE2-NEXT: shrl %ecx
	; SSE2-NEXT: movd %ecx, %xmm15			; SSE2-NEXT: movd %ecx, %xmm3
	; SSE2-NEXT: shrl %edx			; SSE2-NEXT: shrl %ebp
	; SSE2-NEXT: movd %edx, %xmm9			; SSE2-NEXT: movd %ebp, %xmm13
	; SSE2-NEXT: shrl %edi
	; SSE2-NEXT: movd %edi, %xmm2
	; SSE2-NEXT: shrl %r8d			; SSE2-NEXT: shrl %r8d
	; SSE2-NEXT: movd %r8d, %xmm10			; SSE2-NEXT: movd %r8d, %xmm6
				; SSE2-NEXT: shrl %r9d
				; SSE2-NEXT: movd %r9d, %xmm14
				; SSE2-NEXT: shrl %r10d
				; SSE2-NEXT: movd %r10d, %xmm4
	; SSE2-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %eax # 4-byte Reload			; SSE2-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %eax # 4-byte Reload
	; SSE2-NEXT: shrl %eax			; SSE2-NEXT: shrl %eax
	; SSE2-NEXT: movd %eax, %xmm6			; SSE2-NEXT: movd %eax, %xmm15
	; SSE2-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %eax # 4-byte Reload			; SSE2-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %eax # 4-byte Reload
	; SSE2-NEXT: shrl %eax			; SSE2-NEXT: shrl %eax
	; SSE2-NEXT: movd %eax, %xmm11			; SSE2-NEXT: movd %eax, %xmm0
	; SSE2-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %eax # 4-byte Reload			; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm8[0],xmm1[1],xmm8[1],xmm1[2],xmm8[2],xmm1[3],xmm8[3],xmm1[4],xmm8[4],xmm1[5],xmm8[5],xmm1[6],xmm8[6],xmm1[7],xmm8[7]
	; SSE2-NEXT: shrl %eax
	; SSE2-NEXT: movd %eax, %xmm4
	; SSE2-NEXT: shrq %rsi
	; SSE2-NEXT: movd %esi, %xmm12
	; SSE2-NEXT: shrq %r12
	; SSE2-NEXT: movd %r12d, %xmm3
	; SSE2-NEXT: shrq %r15
	; SSE2-NEXT: movd %r15d, %xmm13
	; SSE2-NEXT: shrq %r14
	; SSE2-NEXT: movd %r14d, %xmm7
	; SSE2-NEXT: shrq %r11
	; SSE2-NEXT: movd %r11d, %xmm14
	; SSE2-NEXT: shrq %r10
	; SSE2-NEXT: movd %r10d, %xmm5
	; SSE2-NEXT: shrq %r9
	; SSE2-NEXT: movd %r9d, %xmm0
	; SSE2-NEXT: shrq %rbx
	; SSE2-NEXT: movd %ebx, %xmm1
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm15 = xmm15[0],xmm8[0],xmm15[1],xmm8[1],xmm15[2],xmm8[2],xmm15[3],xmm8[3],xmm15[4],xmm8[4],xmm15[5],xmm8[5],xmm15[6],xmm8[6],xmm15[7],xmm8[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm9[0],xmm2[1],xmm9[1],xmm2[2],xmm9[2],xmm2[3],xmm9[3],xmm2[4],xmm9[4],xmm2[5],xmm9[5],xmm2[6],xmm9[6],xmm2[7],xmm9[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm9[0],xmm2[1],xmm9[1],xmm2[2],xmm9[2],xmm2[3],xmm9[3],xmm2[4],xmm9[4],xmm2[5],xmm9[5],xmm2[6],xmm9[6],xmm2[7],xmm9[7]
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm15[0],xmm2[1],xmm15[1],xmm2[2],xmm15[2],xmm2[3],xmm15[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm10[0],xmm6[1],xmm10[1],xmm6[2],xmm10[2],xmm6[3],xmm10[3],xmm6[4],xmm10[4],xmm6[5],xmm10[5],xmm6[6],xmm10[6],xmm6[7],xmm10[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm10[0],xmm5[1],xmm10[1],xmm5[2],xmm10[2],xmm5[3],xmm10[3],xmm5[4],xmm10[4],xmm5[5],xmm10[5],xmm5[6],xmm10[6],xmm5[7],xmm10[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm11[0],xmm4[1],xmm11[1],xmm4[2],xmm11[2],xmm4[3],xmm11[3],xmm4[4],xmm11[4],xmm4[5],xmm11[5],xmm4[6],xmm11[6],xmm4[7],xmm11[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm7 = xmm7[0],xmm11[0],xmm7[1],xmm11[1],xmm7[2],xmm11[2],xmm7[3],xmm11[3],xmm7[4],xmm11[4],xmm7[5],xmm11[5],xmm7[6],xmm11[6],xmm7[7],xmm11[7]
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm4 = xmm4[0],xmm6[0],xmm4[1],xmm6[1],xmm4[2],xmm6[2],xmm4[3],xmm6[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm7 = xmm7[0],xmm5[0],xmm7[1],xmm5[1],xmm7[2],xmm5[2],xmm7[3],xmm5[3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm7 = xmm7[0],xmm2[0],xmm7[1],xmm2[1]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm12[0],xmm3[1],xmm12[1],xmm3[2],xmm12[2],xmm3[3],xmm12[3],xmm3[4],xmm12[4],xmm3[5],xmm12[5],xmm3[6],xmm12[6],xmm3[7],xmm12[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm12[0],xmm3[1],xmm12[1],xmm3[2],xmm12[2],xmm3[3],xmm12[3],xmm3[4],xmm12[4],xmm3[5],xmm12[5],xmm3[6],xmm12[6],xmm3[7],xmm12[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm7 = xmm7[0],xmm13[0],xmm7[1],xmm13[1],xmm7[2],xmm13[2],xmm7[3],xmm13[3],xmm7[4],xmm13[4],xmm7[5],xmm13[5],xmm7[6],xmm13[6],xmm7[7],xmm13[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm13[0],xmm6[1],xmm13[1],xmm6[2],xmm13[2],xmm6[3],xmm13[3],xmm6[4],xmm13[4],xmm6[5],xmm13[5],xmm6[6],xmm13[6],xmm6[7],xmm13[7]
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm7 = xmm7[0],xmm3[0],xmm7[1],xmm3[1],xmm7[2],xmm3[2],xmm7[3],xmm3[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm6 = xmm6[0],xmm3[0],xmm6[1],xmm3[1],xmm6[2],xmm3[2],xmm6[3],xmm3[3]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm14[0],xmm5[1],xmm14[1],xmm5[2],xmm14[2],xmm5[3],xmm14[3],xmm5[4],xmm14[4],xmm5[5],xmm14[5],xmm5[6],xmm14[6],xmm5[7],xmm14[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm14[0],xmm4[1],xmm14[1],xmm4[2],xmm14[2],xmm4[3],xmm14[3],xmm4[4],xmm14[4],xmm4[5],xmm14[5],xmm4[6],xmm14[6],xmm4[7],xmm14[7]
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm15[0],xmm0[1],xmm15[1],xmm0[2],xmm15[2],xmm0[3],xmm15[3],xmm0[4],xmm15[4],xmm0[5],xmm15[5],xmm0[6],xmm15[6],xmm0[7],xmm15[7]
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm5[0],xmm1[1],xmm5[1],xmm1[2],xmm5[2],xmm1[3],xmm5[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3]
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm7[0],xmm1[1],xmm7[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1]
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm4 = xmm4[0],xmm1[0]			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm7[0]
	; SSE2-NEXT: movdqu %xmm4, (%rax)			; SSE2-NEXT: movdqu %xmm0, (%rax)
	; SSE2-NEXT: popq %rbx			; SSE2-NEXT: popq %rbx
	; SSE2-NEXT: popq %r12			; SSE2-NEXT: popq %r12
	; SSE2-NEXT: popq %r13			; SSE2-NEXT: popq %r13
	; SSE2-NEXT: popq %r14			; SSE2-NEXT: popq %r14
	; SSE2-NEXT: popq %r15			; SSE2-NEXT: popq %r15
	; SSE2-NEXT: popq %rbp			; SSE2-NEXT: popq %rbp
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; AVX1-LABEL: not_avg_v16i8_wide_constants:			; AVX1-LABEL: not_avg_v16i8_wide_constants:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: pushq %rbp			; AVX1-NEXT: pushq %rbp
	; AVX1-NEXT: pushq %r15			; AVX1-NEXT: pushq %r15
	; AVX1-NEXT: pushq %r14			; AVX1-NEXT: pushq %r14
	; AVX1-NEXT: pushq %r13			; AVX1-NEXT: pushq %r13
	; AVX1-NEXT: pushq %r12			; AVX1-NEXT: pushq %r12
	; AVX1-NEXT: pushq %rbx			; AVX1-NEXT: pushq %rbx
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm4 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm5 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
	; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero			; AVX1-NEXT: vpmovzxbw {{.*#+}} xmm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
	; AVX1-NEXT: vpxor %xmm7, %xmm7, %xmm7			; AVX1-NEXT: vpxor %xmm6, %xmm6, %xmm6
	; AVX1-NEXT: vpunpckhwd {{.*#+}} xmm6 = xmm1[4],xmm7[4],xmm1[5],xmm7[5],xmm1[6],xmm7[6],xmm1[7],xmm7[7]			; AVX1-NEXT: vpunpckhwd {{.*#+}} xmm7 = xmm1[4],xmm6[4],xmm1[5],xmm6[5],xmm1[6],xmm6[6],xmm1[7],xmm6[7]
	; AVX1-NEXT: vpunpckhwd {{.*#+}} xmm2 = xmm0[4],xmm7[4],xmm0[5],xmm7[5],xmm0[6],xmm7[6],xmm0[7],xmm7[7]			; AVX1-NEXT: vpunpckhwd {{.*#+}} xmm3 = xmm0[4],xmm6[4],xmm0[5],xmm6[5],xmm0[6],xmm6[6],xmm0[7],xmm6[7]
	; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm5 = xmm2[2],xmm7[2],xmm2[3],xmm7[3]			; AVX1-NEXT: vpmovzxwd {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero
	; AVX1-NEXT: vpextrq $1, %xmm5, %r15
	; AVX1-NEXT: vmovq %xmm5, %r12
	; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero
	; AVX1-NEXT: vpextrq $1, %xmm2, %r11
	; AVX1-NEXT: vmovq %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Folded Spill
	; AVX1-NEXT: vpmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; AVX1-NEXT: vpmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm2 = xmm0[2],xmm7[2],xmm0[3],xmm7[3]			; AVX1-NEXT: vpunpckhwd {{.*#+}} xmm4 = xmm2[4],xmm6[4],xmm2[5],xmm6[5],xmm2[6],xmm6[6],xmm2[7],xmm6[7]
	; AVX1-NEXT: vpextrq $1, %xmm2, %r13			; AVX1-NEXT: vpunpckhwd {{.*#+}} xmm6 = xmm5[4],xmm6[4],xmm5[5],xmm6[5],xmm5[6],xmm6[6],xmm5[7],xmm6[7]
	; AVX1-NEXT: vmovq %xmm2, %r14			; AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero
	; AVX1-NEXT: vpmovzxwd {{.*#+}} xmm2 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero			; AVX1-NEXT: vpmovzxwd {{.*#+}} xmm5 = xmm5[0],zero,xmm5[1],zero,xmm5[2],zero,xmm5[3],zero
	; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero			; AVX1-NEXT: vmovd %xmm3, %r12d
	; AVX1-NEXT: vpunpckhwd {{.*#+}} xmm1 = xmm4[4],xmm7[4],xmm4[5],xmm7[5],xmm4[6],xmm7[6],xmm4[7],xmm7[7]			; AVX1-NEXT: vmovd %xmm6, %r13d
	; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm5 = xmm1[2],xmm7[2],xmm1[3],xmm7[3]			; AVX1-NEXT: vpextrd $1, %xmm3, %r10d
	; AVX1-NEXT: vpextrq $1, %xmm5, %rbx			; AVX1-NEXT: vpextrd $1, %xmm6, %r11d
	; AVX1-NEXT: vmovq %xmm5, %rdx			; AVX1-NEXT: vpextrd $2, %xmm3, %r9d
	; AVX1-NEXT: vpunpckhwd {{.*#+}} xmm5 = xmm3[4],xmm7[4],xmm3[5],xmm7[5],xmm3[6],xmm7[6],xmm3[7],xmm7[7]			; AVX1-NEXT: vpextrd $2, %xmm6, %ebx
	; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero
	; AVX1-NEXT: vpextrq $1, %xmm1, %r9
	; AVX1-NEXT: vmovq %xmm1, %r10
	; AVX1-NEXT: vpmovzxwd {{.*#+}} xmm1 = xmm4[0],zero,xmm4[1],zero,xmm4[2],zero,xmm4[3],zero
	; AVX1-NEXT: vpunpckhdq {{.*#+}} xmm4 = xmm1[2],xmm7[2],xmm1[3],xmm7[3]
	; AVX1-NEXT: vmovd %xmm6, %esi
	; AVX1-NEXT: vpextrd $1, %xmm6, %edi
	; AVX1-NEXT: vpextrd $2, %xmm6, %eax
	; AVX1-NEXT: vpextrd $3, %xmm6, %ebp
	; AVX1-NEXT: vpextrd $3, %xmm5, %ecx
	; AVX1-NEXT: leal -1(%rbp,%rcx), %ecx
	; AVX1-NEXT: movl %ecx, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; AVX1-NEXT: vpextrd $2, %xmm5, %ecx
	; AVX1-NEXT: leal -1(%rax,%rcx), %eax
	; AVX1-NEXT: movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; AVX1-NEXT: vpextrd $1, %xmm5, %ecx
	; AVX1-NEXT: leal -1(%rdi,%rcx), %eax
	; AVX1-NEXT: movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; AVX1-NEXT: vmovd %xmm5, %ecx
	; AVX1-NEXT: leal -1(%rsi,%rcx), %r8d
	; AVX1-NEXT: vpextrq $1, %xmm4, %rcx
	; AVX1-NEXT: leal -1(%r15,%rbx), %r15d
	; AVX1-NEXT: vmovq %xmm4, %rsi
	; AVX1-NEXT: vpmovzxwd {{.*#+}} xmm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
	; AVX1-NEXT: leal -1(%r12,%rdx), %edx
	; AVX1-NEXT: vmovd %xmm2, %r12d
	; AVX1-NEXT: leal -1(%r11,%r9), %r11d
	; AVX1-NEXT: vpextrd $1, %xmm2, %edi
	; AVX1-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
	; AVX1-NEXT: leal -1(%rax,%r10), %r10d
	; AVX1-NEXT: vpextrd $2, %xmm2, %ebx
	; AVX1-NEXT: leal -1(%r13,%rcx), %r9d
	; AVX1-NEXT: vpextrd $3, %xmm2, %ecx
	; AVX1-NEXT: leal -1(%r14,%rsi), %esi
	; AVX1-NEXT: vpextrd $3, %xmm3, %eax			; AVX1-NEXT: vpextrd $3, %xmm3, %eax
	; AVX1-NEXT: leal -1(%rcx,%rax), %ecx			; AVX1-NEXT: vpextrd $3, %xmm6, %edi
	; AVX1-NEXT: vpextrd $2, %xmm3, %eax			; AVX1-NEXT: vmovd %xmm7, %r8d
				; AVX1-NEXT: vmovd %xmm4, %esi
				; AVX1-NEXT: vpextrd $1, %xmm7, %r15d
				; AVX1-NEXT: vpextrd $1, %xmm4, %ecx
				; AVX1-NEXT: vpextrd $2, %xmm7, %r14d
				; AVX1-NEXT: vpextrd $3, %xmm7, %edx
				; AVX1-NEXT: vpextrd $3, %xmm4, %ebp
				; AVX1-NEXT: leal -1(%rdx,%rbp), %edx
				; AVX1-NEXT: movl %edx, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
				; AVX1-NEXT: vpextrd $2, %xmm4, %edx
				; AVX1-NEXT: leal -1(%r14,%rdx), %edx
				; AVX1-NEXT: movl %edx, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
				; AVX1-NEXT: vpextrd $2, %xmm0, %edx
				; AVX1-NEXT: movq %rdx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
				; AVX1-NEXT: leal -1(%r15,%rcx), %ecx
				; AVX1-NEXT: movl %ecx, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
				; AVX1-NEXT: vpextrd $3, %xmm0, %r15d
				; AVX1-NEXT: leal -1(%r8,%rsi), %r14d
				; AVX1-NEXT: vmovd %xmm1, %edx
				; AVX1-NEXT: leal -1(%rax,%rdi), %r8d
				; AVX1-NEXT: vpextrd $1, %xmm1, %esi
				; AVX1-NEXT: leal -1(%r9,%rbx), %ebp
				; AVX1-NEXT: vpextrd $2, %xmm1, %ebx
				; AVX1-NEXT: leal -1(%r10,%r11), %r10d
				; AVX1-NEXT: vpextrd $3, %xmm1, %ecx
				; AVX1-NEXT: leal -1(%r12,%r13), %r11d
				; AVX1-NEXT: vpextrd $3, %xmm2, %eax
				; AVX1-NEXT: leal -1(%rcx,%rax), %r9d
				; AVX1-NEXT: vpextrd $2, %xmm2, %eax
	; AVX1-NEXT: leal -1(%rbx,%rax), %ebx			; AVX1-NEXT: leal -1(%rbx,%rax), %ebx
	; AVX1-NEXT: vpextrd $1, %xmm3, %eax			; AVX1-NEXT: vpextrd $1, %xmm2, %eax
	; AVX1-NEXT: leal -1(%rdi,%rax), %eax			; AVX1-NEXT: leal -1(%rsi,%rax), %eax
	; AVX1-NEXT: vmovd %xmm3, %edi			; AVX1-NEXT: vmovd %xmm2, %ecx
	; AVX1-NEXT: leal -1(%r12,%rdi), %edi			; AVX1-NEXT: leal -1(%rdx,%rcx), %ecx
	; AVX1-NEXT: vpextrq $1, %xmm0, %r12			; AVX1-NEXT: vpextrd $3, %xmm5, %edx
	; AVX1-NEXT: vpmovzxdq {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero			; AVX1-NEXT: leal -1(%r15,%rdx), %edx
	; AVX1-NEXT: vpextrq $1, %xmm1, %r13			; AVX1-NEXT: vpextrd $2, %xmm5, %esi
	; AVX1-NEXT: leal -1(%r12,%r13), %r12d			; AVX1-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rdi # 8-byte Reload
	; AVX1-NEXT: vmovq %xmm0, %r13			; AVX1-NEXT: leal -1(%rdi,%rsi), %esi
	; AVX1-NEXT: vmovq %xmm1, %r14			; AVX1-NEXT: vpextrd $1, %xmm0, %r15d
	; AVX1-NEXT: leal -1(%r13,%r14), %ebp			; AVX1-NEXT: vpextrd $1, %xmm5, %r12d
	; AVX1-NEXT: shrl %ebp			; AVX1-NEXT: leal -1(%r15,%r12), %r15d
	; AVX1-NEXT: vmovd %ebp, %xmm0			; AVX1-NEXT: vmovd %xmm0, %r12d
	; AVX1-NEXT: shrl %r12d			; AVX1-NEXT: vmovd %xmm5, %r13d
	; AVX1-NEXT: vpinsrb $1, %r12d, %xmm0, %xmm0			; AVX1-NEXT: leal -1(%r12,%r13), %edi
				; AVX1-NEXT: shrl %edi
				; AVX1-NEXT: vmovd %edi, %xmm0
				; AVX1-NEXT: shrl %r15d
				; AVX1-NEXT: vpinsrb $1, %r15d, %xmm0, %xmm0
	; AVX1-NEXT: shrl %esi			; AVX1-NEXT: shrl %esi
	; AVX1-NEXT: vpinsrb $2, %esi, %xmm0, %xmm0			; AVX1-NEXT: vpinsrb $2, %esi, %xmm0, %xmm0
	; AVX1-NEXT: shrl %r9d
	; AVX1-NEXT: vpinsrb $3, %r9d, %xmm0, %xmm0
	; AVX1-NEXT: shrl %r10d
	; AVX1-NEXT: vpinsrb $4, %r10d, %xmm0, %xmm0
	; AVX1-NEXT: shrl %r11d
	; AVX1-NEXT: vpinsrb $5, %r11d, %xmm0, %xmm0
	; AVX1-NEXT: shrl %edx			; AVX1-NEXT: shrl %edx
	; AVX1-NEXT: vpinsrb $6, %edx, %xmm0, %xmm0			; AVX1-NEXT: vpinsrb $3, %edx, %xmm0, %xmm0
	; AVX1-NEXT: shrl %r15d			; AVX1-NEXT: shrl %r11d
	; AVX1-NEXT: vpinsrb $7, %r15d, %xmm0, %xmm0			; AVX1-NEXT: vpinsrb $4, %r11d, %xmm0, %xmm0
	; AVX1-NEXT: shrl %edi			; AVX1-NEXT: shrl %r10d
	; AVX1-NEXT: vpinsrb $8, %edi, %xmm0, %xmm0			; AVX1-NEXT: vpinsrb $5, %r10d, %xmm0, %xmm0
				; AVX1-NEXT: shrl %ebp
				; AVX1-NEXT: vpinsrb $6, %ebp, %xmm0, %xmm0
				; AVX1-NEXT: shrl %r8d
				; AVX1-NEXT: vpinsrb $7, %r8d, %xmm0, %xmm0
				; AVX1-NEXT: shrl %ecx
				; AVX1-NEXT: vpinsrb $8, %ecx, %xmm0, %xmm0
	; AVX1-NEXT: shrl %eax			; AVX1-NEXT: shrl %eax
	; AVX1-NEXT: vpinsrb $9, %eax, %xmm0, %xmm0			; AVX1-NEXT: vpinsrb $9, %eax, %xmm0, %xmm0
	; AVX1-NEXT: shrl %ebx			; AVX1-NEXT: shrl %ebx
	; AVX1-NEXT: vpinsrb $10, %ebx, %xmm0, %xmm0			; AVX1-NEXT: vpinsrb $10, %ebx, %xmm0, %xmm0
	; AVX1-NEXT: shrl %ecx			; AVX1-NEXT: shrl %r9d
	; AVX1-NEXT: vpinsrb $11, %ecx, %xmm0, %xmm0			; AVX1-NEXT: vpinsrb $11, %r9d, %xmm0, %xmm0
	; AVX1-NEXT: shrl %r8d			; AVX1-NEXT: shrl %r14d
	; AVX1-NEXT: vpinsrb $12, %r8d, %xmm0, %xmm0			; AVX1-NEXT: vpinsrb $12, %r14d, %xmm0, %xmm0
	; AVX1-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %eax # 4-byte Reload			; AVX1-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %eax # 4-byte Reload
	; AVX1-NEXT: shrl %eax			; AVX1-NEXT: shrl %eax
	; AVX1-NEXT: vpinsrb $13, %eax, %xmm0, %xmm0			; AVX1-NEXT: vpinsrb $13, %eax, %xmm0, %xmm0
	; AVX1-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %eax # 4-byte Reload			; AVX1-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %eax # 4-byte Reload
	; AVX1-NEXT: shrl %eax			; AVX1-NEXT: shrl %eax
	; AVX1-NEXT: vpinsrb $14, %eax, %xmm0, %xmm0			; AVX1-NEXT: vpinsrb $14, %eax, %xmm0, %xmm0
	; AVX1-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %eax # 4-byte Reload			; AVX1-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %eax # 4-byte Reload
	; AVX1-NEXT: shrl %eax			; AVX1-NEXT: shrl %eax
	Show All 10 Lines
	; AVX2-LABEL: not_avg_v16i8_wide_constants:			; AVX2-LABEL: not_avg_v16i8_wide_constants:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: pushq %rbp			; AVX2-NEXT: pushq %rbp
	; AVX2-NEXT: pushq %r15			; AVX2-NEXT: pushq %r15
	; AVX2-NEXT: pushq %r14			; AVX2-NEXT: pushq %r14
	; AVX2-NEXT: pushq %r13			; AVX2-NEXT: pushq %r13
	; AVX2-NEXT: pushq %r12			; AVX2-NEXT: pushq %r12
	; AVX2-NEXT: pushq %rbx			; AVX2-NEXT: pushq %rbx
				; AVX2-NEXT: vpmovzxbw {{.*#+}} ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
	; AVX2-NEXT: vpmovzxbw {{.*#+}} ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero			; AVX2-NEXT: vpmovzxbw {{.*#+}} ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
	; AVX2-NEXT: vpmovzxbw {{.*#+}} ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX2-NEXT: vpmovzxwd {{.*#+}} ymm2 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero			; AVX2-NEXT: vpmovzxwd {{.*#+}} ymm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
	; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm0			; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm3
	; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm4 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm8 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
	; AVX2-NEXT: vextracti128 $1, %ymm4, %xmm0			; AVX2-NEXT: vextracti128 $1, %ymm8, %xmm7
	; AVX2-NEXT: vpextrq $1, %xmm4, %r14			; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm11 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero
	; AVX2-NEXT: vmovq %xmm4, %r13			; AVX2-NEXT: vextracti128 $1, %ymm11, %xmm2
	; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero			; AVX2-NEXT: vpmovzxwd {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm4			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm3
	; AVX2-NEXT: vpextrq $1, %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Folded Spill			; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm14 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
	; AVX2-NEXT: vmovq %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Folded Spill			; AVX2-NEXT: vextracti128 $1, %ymm14, %xmm4
	; AVX2-NEXT: vmovq %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Folded Spill			; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm12 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; AVX2-NEXT: vpextrq $1, %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Folded Spill			; AVX2-NEXT: vextracti128 $1, %ymm12, %xmm6
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm1			; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0
				; AVX2-NEXT: vpmovzxwd {{.*#+}} ymm3 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
				; AVX2-NEXT: vextracti128 $1, %ymm3, %xmm0
				; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm9 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
				; AVX2-NEXT: vextracti128 $1, %ymm9, %xmm0
				; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm5 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
				; AVX2-NEXT: vextracti128 $1, %ymm5, %xmm15
	; AVX2-NEXT: vpmovzxwd {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero			; AVX2-NEXT: vpmovzxwd {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm3
	; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm6 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero			; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
	; AVX2-NEXT: vextracti128 $1, %ymm6, %xmm5			; AVX2-NEXT: vextracti128 $1, %ymm3, %xmm13
	; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm4 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero
	; AVX2-NEXT: vextracti128 $1, %ymm4, %xmm7
	; AVX2-NEXT: vpmovzxwd {{.*#+}} ymm2 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
	; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm1
	; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero			; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero
	; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero			; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm10
	; AVX2-NEXT: vmovd %xmm4, %r12d			; AVX2-NEXT: vmovd %xmm6, %r10d
				; AVX2-NEXT: vpextrd $2, %xmm6, %r13d
				; AVX2-NEXT: vmovd %xmm14, %eax
				; AVX2-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
				; AVX2-NEXT: vpextrd $2, %xmm14, %eax
				; AVX2-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
				; AVX2-NEXT: vmovd %xmm4, %r14d
	; AVX2-NEXT: vpextrd $2, %xmm4, %r15d			; AVX2-NEXT: vpextrd $2, %xmm4, %r15d
	; AVX2-NEXT: vextracti128 $1, %ymm2, %xmm4			; AVX2-NEXT: vmovd %xmm11, %r12d
	; AVX2-NEXT: vextracti128 $1, %ymm3, %xmm3			; AVX2-NEXT: vpextrd $2, %xmm11, %r11d
	; AVX2-NEXT: vpmovzxwd {{.*#+}} ymm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero			; AVX2-NEXT: vmovd %xmm2, %ebx
	; AVX2-NEXT: vmovd %xmm7, %ecx			; AVX2-NEXT: vpextrd $2, %xmm2, %eax
	; AVX2-NEXT: vpextrd $2, %xmm7, %edi			; AVX2-NEXT: vmovd %xmm8, %edx
	; AVX2-NEXT: vextracti128 $1, %ymm3, %xmm7			; AVX2-NEXT: vpextrd $2, %xmm8, %edi
	; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm7 = xmm7[0],zero,xmm7[1],zero,xmm7[2],zero,xmm7[3],zero			; AVX2-NEXT: vmovd %xmm7, %esi
	; AVX2-NEXT: vmovd %xmm6, %ebx			; AVX2-NEXT: vpextrd $2, %xmm7, %ebp
	; AVX2-NEXT: vpextrd $2, %xmm6, %esi			; AVX2-NEXT: vpextrd $2, %xmm0, %ecx
	; AVX2-NEXT: vextracti128 $1, %ymm7, %xmm6			; AVX2-NEXT: leal -1(%rbp,%rcx), %ecx
	; AVX2-NEXT: vpmovzxdq {{.*#+}} ymm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero			; AVX2-NEXT: movl %ecx, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; AVX2-NEXT: vmovd %xmm5, %edx			; AVX2-NEXT: vmovd %xmm0, %ecx
	; AVX2-NEXT: vpextrd $2, %xmm5, %ebp			; AVX2-NEXT: leal -1(%rsi,%rcx), %ecx
	; AVX2-NEXT: vextracti128 $1, %ymm3, %xmm5			; AVX2-NEXT: movl %ecx, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; AVX2-NEXT: vpextrd $2, %xmm6, %eax			; AVX2-NEXT: vpextrd $2, %xmm9, %ecx
	; AVX2-NEXT: leal -1(%rbp,%rax), %eax			; AVX2-NEXT: leal -1(%rdi,%rcx), %ecx
	; AVX2-NEXT: movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; AVX2-NEXT: movl %ecx, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; AVX2-NEXT: vmovd %xmm6, %eax			; AVX2-NEXT: vmovd %xmm9, %ecx
	; AVX2-NEXT: leal -1(%rdx,%rax), %eax			; AVX2-NEXT: leal -1(%rdx,%rcx), %r9d
	; AVX2-NEXT: movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; AVX2-NEXT: vpextrd $2, %xmm15, %ecx
	; AVX2-NEXT: vpextrd $2, %xmm7, %eax			; AVX2-NEXT: leal -1(%rax,%rcx), %r8d
	; AVX2-NEXT: leal -1(%rsi,%rax), %r11d			; AVX2-NEXT: vmovd %xmm15, %ecx
	; AVX2-NEXT: vmovd %xmm7, %eax			; AVX2-NEXT: leal -1(%rbx,%rcx), %ebp
	; AVX2-NEXT: leal -1(%rbx,%rax), %r10d			; AVX2-NEXT: vpextrd $2, %xmm5, %ecx
	; AVX2-NEXT: vpextrd $2, %xmm5, %eax			; AVX2-NEXT: leal -1(%r11,%rcx), %r11d
	; AVX2-NEXT: leal -1(%rdi,%rax), %r9d			; AVX2-NEXT: vmovd %xmm5, %ecx
	; AVX2-NEXT: vmovd %xmm5, %eax
	; AVX2-NEXT: leal -1(%rcx,%rax), %r8d
	; AVX2-NEXT: vpextrd $2, %xmm3, %eax
	; AVX2-NEXT: leal -1(%r15,%rax), %r15d
	; AVX2-NEXT: vmovd %xmm3, %ecx
	; AVX2-NEXT: leal -1(%r12,%rcx), %r12d			; AVX2-NEXT: leal -1(%r12,%rcx), %r12d
	; AVX2-NEXT: vpextrq $1, %xmm2, %rdx			; AVX2-NEXT: vpextrd $2, %xmm13, %ecx
				; AVX2-NEXT: leal -1(%r15,%rcx), %r15d
				; AVX2-NEXT: vmovd %xmm13, %ecx
				; AVX2-NEXT: leal -1(%r14,%rcx), %r14d
				; AVX2-NEXT: vpextrd $2, %xmm3, %ecx
	; AVX2-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload			; AVX2-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
	; AVX2-NEXT: leaq -1(%rax,%rdx), %rdx			; AVX2-NEXT: leal -1(%rax,%rcx), %ecx
	; AVX2-NEXT: vmovq %xmm2, %rsi			; AVX2-NEXT: vmovd %xmm3, %esi
	; AVX2-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload			; AVX2-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
	; AVX2-NEXT: leaq -1(%rax,%rsi), %rsi			; AVX2-NEXT: leal -1(%rax,%rsi), %esi
	; AVX2-NEXT: vmovq %xmm4, %rbx			; AVX2-NEXT: vpextrd $2, %xmm10, %edi
	; AVX2-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload			; AVX2-NEXT: leal -1(%r13,%rdi), %edi
	; AVX2-NEXT: leaq -1(%rax,%rbx), %rbx			; AVX2-NEXT: vmovd %xmm10, %edx
	; AVX2-NEXT: vpextrq $1, %xmm4, %rbp			; AVX2-NEXT: leal -1(%r10,%rdx), %edx
	; AVX2-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload			; AVX2-NEXT: vpextrd $2, %xmm12, %ebx
	; AVX2-NEXT: leaq -1(%rax,%rbp), %rbp			; AVX2-NEXT: vpextrd $2, %xmm1, %r13d
	; AVX2-NEXT: vmovq %xmm1, %rdi			; AVX2-NEXT: leal -1(%rbx,%r13), %ebx
	; AVX2-NEXT: leaq -1(%r13,%rdi), %rdi			; AVX2-NEXT: vmovd %xmm12, %r13d
	; AVX2-NEXT: vpextrq $1, %xmm1, %rax			; AVX2-NEXT: vmovd %xmm1, %r10d
	; AVX2-NEXT: leaq -1(%r14,%rax), %rax			; AVX2-NEXT: leal -1(%r13,%r10), %eax
	; AVX2-NEXT: vmovq %xmm0, %rcx			; AVX2-NEXT: shrl %eax
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm1			; AVX2-NEXT: vmovd %eax, %xmm0
	; AVX2-NEXT: vmovq %xmm1, %r13			; AVX2-NEXT: shrl %ebx
	; AVX2-NEXT: leaq -1(%rcx,%r13), %r13			; AVX2-NEXT: vpinsrb $1, %ebx, %xmm0, %xmm0
	; AVX2-NEXT: vpextrq $1, %xmm0, %rcx			; AVX2-NEXT: shrl %edx
	; AVX2-NEXT: vpextrq $1, %xmm1, %r14			; AVX2-NEXT: vpinsrb $2, %edx, %xmm0, %xmm0
	; AVX2-NEXT: leaq -1(%rcx,%r14), %rcx			; AVX2-NEXT: shrl %edi
	; AVX2-NEXT: shrq %rsi			; AVX2-NEXT: vpinsrb $3, %edi, %xmm0, %xmm0
	; AVX2-NEXT: vmovd %esi, %xmm0			; AVX2-NEXT: shrl %esi
	; AVX2-NEXT: shrq %rdx			; AVX2-NEXT: vpinsrb $4, %esi, %xmm0, %xmm0
	; AVX2-NEXT: vpinsrb $1, %edx, %xmm0, %xmm0			; AVX2-NEXT: shrl %ecx
	; AVX2-NEXT: shrq %rbx			; AVX2-NEXT: vpinsrb $5, %ecx, %xmm0, %xmm0
	; AVX2-NEXT: vpinsrb $2, %ebx, %xmm0, %xmm0			; AVX2-NEXT: shrl %r14d
	; AVX2-NEXT: shrq %rbp			; AVX2-NEXT: vpinsrb $6, %r14d, %xmm0, %xmm0
	; AVX2-NEXT: vpinsrb $3, %ebp, %xmm0, %xmm0			; AVX2-NEXT: shrl %r15d
	; AVX2-NEXT: shrq %rdi			; AVX2-NEXT: vpinsrb $7, %r15d, %xmm0, %xmm0
	; AVX2-NEXT: vpinsrb $4, %edi, %xmm0, %xmm0
	; AVX2-NEXT: shrq %rax
	; AVX2-NEXT: vpinsrb $5, %eax, %xmm0, %xmm0
	; AVX2-NEXT: shrq %r13
	; AVX2-NEXT: vpinsrb $6, %r13d, %xmm0, %xmm0
	; AVX2-NEXT: shrq %rcx
	; AVX2-NEXT: vpinsrb $7, %ecx, %xmm0, %xmm0
	; AVX2-NEXT: shrl %r12d			; AVX2-NEXT: shrl %r12d
	; AVX2-NEXT: vpinsrb $8, %r12d, %xmm0, %xmm0			; AVX2-NEXT: vpinsrb $8, %r12d, %xmm0, %xmm0
	; AVX2-NEXT: shrl %r15d			; AVX2-NEXT: shrl %r11d
	; AVX2-NEXT: vpinsrb $9, %r15d, %xmm0, %xmm0			; AVX2-NEXT: vpinsrb $9, %r11d, %xmm0, %xmm0
				; AVX2-NEXT: shrl %ebp
				; AVX2-NEXT: vpinsrb $10, %ebp, %xmm0, %xmm0
	; AVX2-NEXT: shrl %r8d			; AVX2-NEXT: shrl %r8d
	; AVX2-NEXT: vpinsrb $10, %r8d, %xmm0, %xmm0			; AVX2-NEXT: vpinsrb $11, %r8d, %xmm0, %xmm0
	; AVX2-NEXT: shrl %r9d			; AVX2-NEXT: shrl %r9d
	; AVX2-NEXT: vpinsrb $11, %r9d, %xmm0, %xmm0			; AVX2-NEXT: vpinsrb $12, %r9d, %xmm0, %xmm0
	; AVX2-NEXT: shrl %r10d			; AVX2-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %eax # 4-byte Reload
	; AVX2-NEXT: vpinsrb $12, %r10d, %xmm0, %xmm0			; AVX2-NEXT: shrl %eax
	; AVX2-NEXT: shrl %r11d			; AVX2-NEXT: vpinsrb $13, %eax, %xmm0, %xmm0
	; AVX2-NEXT: vpinsrb $13, %r11d, %xmm0, %xmm0
	; AVX2-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %eax # 4-byte Reload			; AVX2-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %eax # 4-byte Reload
	; AVX2-NEXT: shrl %eax			; AVX2-NEXT: shrl %eax
	; AVX2-NEXT: vpinsrb $14, %eax, %xmm0, %xmm0			; AVX2-NEXT: vpinsrb $14, %eax, %xmm0, %xmm0
	; AVX2-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %eax # 4-byte Reload			; AVX2-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %eax # 4-byte Reload
	; AVX2-NEXT: shrl %eax			; AVX2-NEXT: shrl %eax
	; AVX2-NEXT: vpinsrb $15, %eax, %xmm0, %xmm0			; AVX2-NEXT: vpinsrb $15, %eax, %xmm0, %xmm0
	; AVX2-NEXT: vmovdqu %xmm0, (%rax)			; AVX2-NEXT: vmovdqu %xmm0, (%rax)
	; AVX2-NEXT: popq %rbx			; AVX2-NEXT: popq %rbx
	; AVX2-NEXT: popq %r12			; AVX2-NEXT: popq %r12
	; AVX2-NEXT: popq %r13			; AVX2-NEXT: popq %r13
	; AVX2-NEXT: popq %r14			; AVX2-NEXT: popq %r14
	; AVX2-NEXT: popq %r15			; AVX2-NEXT: popq %r15
	; AVX2-NEXT: popq %rbp			; AVX2-NEXT: popq %rbp
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: not_avg_v16i8_wide_constants:			; AVX512-LABEL: not_avg_v16i8_wide_constants:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: pushq %rbp			; AVX512-NEXT: pushq %rbp
	; AVX512-NEXT: pushq %r15			; AVX512-NEXT: pushq %r15
	; AVX512-NEXT: pushq %r14			; AVX512-NEXT: pushq %r14
	; AVX512-NEXT: pushq %r13			; AVX512-NEXT: pushq %r13
	; AVX512-NEXT: pushq %r12			; AVX512-NEXT: pushq %r12
	; AVX512-NEXT: pushq %rbx			; AVX512-NEXT: pushq %rbx
				; AVX512-NEXT: vpmovzxbw {{.*#+}} ymm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
	; AVX512-NEXT: vpmovzxbw {{.*#+}} ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero			; AVX512-NEXT: vpmovzxbw {{.*#+}} ymm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero
	; AVX512-NEXT: vpmovzxbw {{.*#+}} ymm3 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero,mem[8],zero,mem[9],zero,mem[10],zero,mem[11],zero,mem[12],zero,mem[13],zero,mem[14],zero,mem[15],zero			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm2
	; AVX512-NEXT: vpmovzxwd {{.*#+}} ymm2 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero			; AVX512-NEXT: vpmovzxwd {{.*#+}} ymm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero,xmm2[4],zero,xmm2[5],zero,xmm2[6],zero,xmm2[7],zero
	; AVX512-NEXT: vextracti128 $1, %ymm2, %xmm0			; AVX512-NEXT: vextracti128 $1, %ymm2, %xmm3
	; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm4 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm8 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
	; AVX512-NEXT: vextracti128 $1, %ymm4, %xmm0			; AVX512-NEXT: vextracti128 $1, %ymm8, %xmm7
	; AVX512-NEXT: vpextrq $1, %xmm4, %r14			; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm11 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero
	; AVX512-NEXT: vmovq %xmm4, %r13			; AVX512-NEXT: vextracti128 $1, %ymm11, %xmm2
	; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero			; AVX512-NEXT: vpmovzxwd {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
	; AVX512-NEXT: vextracti128 $1, %ymm2, %xmm4			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm3
	; AVX512-NEXT: vpextrq $1, %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Folded Spill			; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm14 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
	; AVX512-NEXT: vmovq %xmm4, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Folded Spill			; AVX512-NEXT: vextracti128 $1, %ymm14, %xmm4
	; AVX512-NEXT: vmovq %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Folded Spill			; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm12 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
	; AVX512-NEXT: vpextrq $1, %xmm2, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Folded Spill			; AVX512-NEXT: vextracti128 $1, %ymm12, %xmm6
	; AVX512-NEXT: vextracti128 $1, %ymm1, %xmm1			; AVX512-NEXT: vextracti128 $1, %ymm1, %xmm0
				; AVX512-NEXT: vpmovzxwd {{.*#+}} ymm3 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero
				; AVX512-NEXT: vextracti128 $1, %ymm3, %xmm0
				; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm9 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero
				; AVX512-NEXT: vextracti128 $1, %ymm9, %xmm0
				; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm5 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
				; AVX512-NEXT: vextracti128 $1, %ymm5, %xmm15
	; AVX512-NEXT: vpmovzxwd {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero			; AVX512-NEXT: vpmovzxwd {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero,xmm1[4],zero,xmm1[5],zero,xmm1[6],zero,xmm1[7],zero
	; AVX512-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX512-NEXT: vextracti128 $1, %ymm1, %xmm3
	; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm6 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero			; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero
	; AVX512-NEXT: vextracti128 $1, %ymm6, %xmm5			; AVX512-NEXT: vextracti128 $1, %ymm3, %xmm13
	; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm4 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero
	; AVX512-NEXT: vextracti128 $1, %ymm4, %xmm7
	; AVX512-NEXT: vpmovzxwd {{.*#+}} ymm2 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero
	; AVX512-NEXT: vextracti128 $1, %ymm2, %xmm1
	; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero			; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero
	; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero			; AVX512-NEXT: vextracti128 $1, %ymm1, %xmm10
	; AVX512-NEXT: vmovd %xmm4, %r12d			; AVX512-NEXT: vmovd %xmm6, %r10d
				; AVX512-NEXT: vpextrd $2, %xmm6, %r13d
				; AVX512-NEXT: vmovd %xmm14, %eax
				; AVX512-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
				; AVX512-NEXT: vpextrd $2, %xmm14, %eax
				; AVX512-NEXT: movq %rax, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
				; AVX512-NEXT: vmovd %xmm4, %r14d
	; AVX512-NEXT: vpextrd $2, %xmm4, %r15d			; AVX512-NEXT: vpextrd $2, %xmm4, %r15d
	; AVX512-NEXT: vextracti128 $1, %ymm2, %xmm4			; AVX512-NEXT: vmovd %xmm11, %r12d
	; AVX512-NEXT: vextracti128 $1, %ymm3, %xmm3			; AVX512-NEXT: vpextrd $2, %xmm11, %r11d
	; AVX512-NEXT: vpmovzxwd {{.*#+}} ymm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero,xmm3[4],zero,xmm3[5],zero,xmm3[6],zero,xmm3[7],zero			; AVX512-NEXT: vmovd %xmm2, %ebx
	; AVX512-NEXT: vmovd %xmm7, %ecx			; AVX512-NEXT: vpextrd $2, %xmm2, %eax
	; AVX512-NEXT: vpextrd $2, %xmm7, %edi			; AVX512-NEXT: vmovd %xmm8, %edx
	; AVX512-NEXT: vextracti128 $1, %ymm3, %xmm7			; AVX512-NEXT: vpextrd $2, %xmm8, %edi
	; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm7 = xmm7[0],zero,xmm7[1],zero,xmm7[2],zero,xmm7[3],zero			; AVX512-NEXT: vmovd %xmm7, %esi
	; AVX512-NEXT: vmovd %xmm6, %ebx			; AVX512-NEXT: vpextrd $2, %xmm7, %ebp
	; AVX512-NEXT: vpextrd $2, %xmm6, %esi			; AVX512-NEXT: vpextrd $2, %xmm0, %ecx
	; AVX512-NEXT: vextracti128 $1, %ymm7, %xmm6			; AVX512-NEXT: leal -1(%rbp,%rcx), %ecx
	; AVX512-NEXT: vpmovzxdq {{.*#+}} ymm3 = xmm3[0],zero,xmm3[1],zero,xmm3[2],zero,xmm3[3],zero			; AVX512-NEXT: movl %ecx, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; AVX512-NEXT: vmovd %xmm5, %edx			; AVX512-NEXT: vmovd %xmm0, %ecx
	; AVX512-NEXT: vpextrd $2, %xmm5, %ebp			; AVX512-NEXT: leal -1(%rsi,%rcx), %ecx
	; AVX512-NEXT: vextracti128 $1, %ymm3, %xmm5			; AVX512-NEXT: movl %ecx, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; AVX512-NEXT: vpextrd $2, %xmm6, %eax			; AVX512-NEXT: vpextrd $2, %xmm9, %ecx
	; AVX512-NEXT: leal -1(%rbp,%rax), %eax			; AVX512-NEXT: leal -1(%rdi,%rcx), %ecx
	; AVX512-NEXT: movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; AVX512-NEXT: movl %ecx, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill
	; AVX512-NEXT: vmovd %xmm6, %eax			; AVX512-NEXT: vmovd %xmm9, %ecx
	; AVX512-NEXT: leal -1(%rdx,%rax), %eax			; AVX512-NEXT: leal -1(%rdx,%rcx), %r9d
	; AVX512-NEXT: movl %eax, {{[-0-9]+}}(%r{{[sb]}}p) # 4-byte Spill			; AVX512-NEXT: vpextrd $2, %xmm15, %ecx
	; AVX512-NEXT: vpextrd $2, %xmm7, %eax			; AVX512-NEXT: leal -1(%rax,%rcx), %r8d
	; AVX512-NEXT: leal -1(%rsi,%rax), %r11d			; AVX512-NEXT: vmovd %xmm15, %ecx
	; AVX512-NEXT: vmovd %xmm7, %eax			; AVX512-NEXT: leal -1(%rbx,%rcx), %ebp
	; AVX512-NEXT: leal -1(%rbx,%rax), %r10d			; AVX512-NEXT: vpextrd $2, %xmm5, %ecx
	; AVX512-NEXT: vpextrd $2, %xmm5, %eax			; AVX512-NEXT: leal -1(%r11,%rcx), %r11d
	; AVX512-NEXT: leal -1(%rdi,%rax), %r9d			; AVX512-NEXT: vmovd %xmm5, %ecx
	; AVX512-NEXT: vmovd %xmm5, %eax
	; AVX512-NEXT: leal -1(%rcx,%rax), %r8d
	; AVX512-NEXT: vpextrd $2, %xmm3, %eax
	; AVX512-NEXT: leal -1(%r15,%rax), %r15d
	; AVX512-NEXT: vmovd %xmm3, %ecx
	; AVX512-NEXT: leal -1(%r12,%rcx), %r12d			; AVX512-NEXT: leal -1(%r12,%rcx), %r12d
	; AVX512-NEXT: vpextrq $1, %xmm2, %rdx			; AVX512-NEXT: vpextrd $2, %xmm13, %ecx
	; AVX512-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload			; AVX512-NEXT: leal -1(%r15,%rcx), %r15d
	; AVX512-NEXT: leaq -1(%rax,%rdx), %rdx			; AVX512-NEXT: vmovd %xmm13, %ecx
	; AVX512-NEXT: vmovq %xmm2, %rsi			; AVX512-NEXT: leal -1(%r14,%rcx), %r14d
	; AVX512-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload			; AVX512-NEXT: vpextrd $2, %xmm3, %ecx
	; AVX512-NEXT: leaq -1(%rax,%rsi), %rsi
	; AVX512-NEXT: vmovq %xmm4, %rbx
	; AVX512-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload			; AVX512-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
	; AVX512-NEXT: leaq -1(%rax,%rbx), %rbx			; AVX512-NEXT: leal -1(%rax,%rcx), %ecx
	; AVX512-NEXT: vpextrq $1, %xmm4, %rbp			; AVX512-NEXT: vmovd %xmm3, %esi
	; AVX512-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload			; AVX512-NEXT: movq {{[-0-9]+}}(%r{{[sb]}}p), %rax # 8-byte Reload
	; AVX512-NEXT: leaq -1(%rax,%rbp), %rbp			; AVX512-NEXT: leal -1(%rax,%rsi), %esi
	; AVX512-NEXT: vmovq %xmm1, %rdi			; AVX512-NEXT: vpextrd $2, %xmm10, %edi
	; AVX512-NEXT: leaq -1(%r13,%rdi), %rdi			; AVX512-NEXT: leal -1(%r13,%rdi), %edi
	; AVX512-NEXT: vpextrq $1, %xmm1, %rax			; AVX512-NEXT: vmovd %xmm10, %edx
	; AVX512-NEXT: leaq -1(%r14,%rax), %rax			; AVX512-NEXT: leal -1(%r10,%rdx), %edx
	; AVX512-NEXT: vmovq %xmm0, %rcx			; AVX512-NEXT: vpextrd $2, %xmm12, %ebx
	; AVX512-NEXT: vextracti128 $1, %ymm1, %xmm1			; AVX512-NEXT: vpextrd $2, %xmm1, %r13d
	; AVX512-NEXT: vmovq %xmm1, %r13			; AVX512-NEXT: leal -1(%rbx,%r13), %ebx
	; AVX512-NEXT: leaq -1(%rcx,%r13), %r13			; AVX512-NEXT: vmovd %xmm12, %r13d
	; AVX512-NEXT: vpextrq $1, %xmm0, %rcx			; AVX512-NEXT: vmovd %xmm1, %r10d
	; AVX512-NEXT: vpextrq $1, %xmm1, %r14			; AVX512-NEXT: leal -1(%r13,%r10), %eax
	; AVX512-NEXT: leaq -1(%rcx,%r14), %rcx			; AVX512-NEXT: shrl %eax
	; AVX512-NEXT: shrq %rsi			; AVX512-NEXT: vmovd %eax, %xmm0
	; AVX512-NEXT: vmovd %esi, %xmm0			; AVX512-NEXT: shrl %ebx
	; AVX512-NEXT: shrq %rdx			; AVX512-NEXT: vpinsrb $1, %ebx, %xmm0, %xmm0
	; AVX512-NEXT: vpinsrb $1, %edx, %xmm0, %xmm0			; AVX512-NEXT: shrl %edx
	; AVX512-NEXT: shrq %rbx			; AVX512-NEXT: vpinsrb $2, %edx, %xmm0, %xmm0
	; AVX512-NEXT: vpinsrb $2, %ebx, %xmm0, %xmm0			; AVX512-NEXT: shrl %edi
	; AVX512-NEXT: shrq %rbp			; AVX512-NEXT: vpinsrb $3, %edi, %xmm0, %xmm0
	; AVX512-NEXT: vpinsrb $3, %ebp, %xmm0, %xmm0			; AVX512-NEXT: shrl %esi
	; AVX512-NEXT: shrq %rdi			; AVX512-NEXT: vpinsrb $4, %esi, %xmm0, %xmm0
	; AVX512-NEXT: vpinsrb $4, %edi, %xmm0, %xmm0			; AVX512-NEXT: shrl %ecx
	; AVX512-NEXT: shrq %rax			; AVX512-NEXT: vpinsrb $5, %ecx, %xmm0, %xmm0
	; AVX512-NEXT: vpinsrb $5, %eax, %xmm0, %xmm0			; AVX512-NEXT: shrl %r14d
	; AVX512-NEXT: shrq %r13			; AVX512-NEXT: vpinsrb $6, %r14d, %xmm0, %xmm0
	; AVX512-NEXT: vpinsrb $6, %r13d, %xmm0, %xmm0			; AVX512-NEXT: shrl %r15d
	; AVX512-NEXT: shrq %rcx			; AVX512-NEXT: vpinsrb $7, %r15d, %xmm0, %xmm0
	; AVX512-NEXT: vpinsrb $7, %ecx, %xmm0, %xmm0
	; AVX512-NEXT: shrl %r12d			; AVX512-NEXT: shrl %r12d
	; AVX512-NEXT: vpinsrb $8, %r12d, %xmm0, %xmm0			; AVX512-NEXT: vpinsrb $8, %r12d, %xmm0, %xmm0
	; AVX512-NEXT: shrl %r15d			; AVX512-NEXT: shrl %r11d
	; AVX512-NEXT: vpinsrb $9, %r15d, %xmm0, %xmm0			; AVX512-NEXT: vpinsrb $9, %r11d, %xmm0, %xmm0
				; AVX512-NEXT: shrl %ebp
				; AVX512-NEXT: vpinsrb $10, %ebp, %xmm0, %xmm0
	; AVX512-NEXT: shrl %r8d			; AVX512-NEXT: shrl %r8d
	; AVX512-NEXT: vpinsrb $10, %r8d, %xmm0, %xmm0			; AVX512-NEXT: vpinsrb $11, %r8d, %xmm0, %xmm0
	; AVX512-NEXT: shrl %r9d			; AVX512-NEXT: shrl %r9d
	; AVX512-NEXT: vpinsrb $11, %r9d, %xmm0, %xmm0			; AVX512-NEXT: vpinsrb $12, %r9d, %xmm0, %xmm0
	; AVX512-NEXT: shrl %r10d			; AVX512-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %eax # 4-byte Reload
	; AVX512-NEXT: vpinsrb $12, %r10d, %xmm0, %xmm0			; AVX512-NEXT: shrl %eax
	; AVX512-NEXT: shrl %r11d			; AVX512-NEXT: vpinsrb $13, %eax, %xmm0, %xmm0
	; AVX512-NEXT: vpinsrb $13, %r11d, %xmm0, %xmm0
	; AVX512-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %eax # 4-byte Reload			; AVX512-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %eax # 4-byte Reload
	; AVX512-NEXT: shrl %eax			; AVX512-NEXT: shrl %eax
	; AVX512-NEXT: vpinsrb $14, %eax, %xmm0, %xmm0			; AVX512-NEXT: vpinsrb $14, %eax, %xmm0, %xmm0
	; AVX512-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %eax # 4-byte Reload			; AVX512-NEXT: movl {{[-0-9]+}}(%r{{[sb]}}p), %eax # 4-byte Reload
	; AVX512-NEXT: shrl %eax			; AVX512-NEXT: shrl %eax
	; AVX512-NEXT: vpinsrb $15, %eax, %xmm0, %xmm0			; AVX512-NEXT: vpinsrb $15, %eax, %xmm0, %xmm0
	; AVX512-NEXT: vmovdqu %xmm0, (%rax)			; AVX512-NEXT: vmovdqu %xmm0, (%rax)
	; AVX512-NEXT: popq %rbx			; AVX512-NEXT: popq %rbx
	▲ Show 20 Lines • Show All 47 Lines • Show Last 20 Lines

test/CodeGen/X86/avx-load-store.ll

Show First 20 Lines • Show All 249 Lines • ▼ Show 20 Lines	cif_mixed_test_any_check:
unreachable		unreachable
}		}

define void @add8i32(<8 x i32>* %ret, <8 x i32>* %bp) nounwind {		define void @add8i32(<8 x i32>* %ret, <8 x i32>* %bp) nounwind {
; CHECK-LABEL: add8i32:		; CHECK-LABEL: add8i32:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vmovups (%rsi), %xmm0		; CHECK-NEXT: vmovups (%rsi), %xmm0
; CHECK-NEXT: vmovups 16(%rsi), %xmm1		; CHECK-NEXT: vmovups 16(%rsi), %xmm1
; CHECK-NEXT: vmovups %xmm0, (%rdi)
; CHECK-NEXT: vmovups %xmm1, 16(%rdi)		; CHECK-NEXT: vmovups %xmm1, 16(%rdi)
		; CHECK-NEXT: vmovups %xmm0, (%rdi)
; CHECK-NEXT: retq		; CHECK-NEXT: retq
;		;
; CHECK_O0-LABEL: add8i32:		; CHECK_O0-LABEL: add8i32:
; CHECK_O0: # %bb.0:		; CHECK_O0: # %bb.0:
; CHECK_O0-NEXT: vmovdqu (%rsi), %xmm0		; CHECK_O0-NEXT: vmovdqu (%rsi), %xmm0
; CHECK_O0-NEXT: vmovdqu 16(%rsi), %xmm1		; CHECK_O0-NEXT: vmovdqu 16(%rsi), %xmm1
; CHECK_O0-NEXT: # implicit-def: $ymm2		; CHECK_O0-NEXT: # implicit-def: $ymm2
; CHECK_O0-NEXT: vmovaps %xmm0, %xmm2		; CHECK_O0-NEXT: vmovaps %xmm0, %xmm2
Show All 27 Lines	; CHECK_O0-NEXT: retq
ret void		ret void
}		}

define void @add4i64a16(<4 x i64>* %ret, <4 x i64>* %bp) nounwind {		define void @add4i64a16(<4 x i64>* %ret, <4 x i64>* %bp) nounwind {
; CHECK-LABEL: add4i64a16:		; CHECK-LABEL: add4i64a16:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: vmovaps (%rsi), %xmm0		; CHECK-NEXT: vmovaps (%rsi), %xmm0
; CHECK-NEXT: vmovaps 16(%rsi), %xmm1		; CHECK-NEXT: vmovaps 16(%rsi), %xmm1
; CHECK-NEXT: vmovaps %xmm0, (%rdi)
; CHECK-NEXT: vmovaps %xmm1, 16(%rdi)		; CHECK-NEXT: vmovaps %xmm1, 16(%rdi)
		; CHECK-NEXT: vmovaps %xmm0, (%rdi)
; CHECK-NEXT: retq		; CHECK-NEXT: retq
;		;
; CHECK_O0-LABEL: add4i64a16:		; CHECK_O0-LABEL: add4i64a16:
; CHECK_O0: # %bb.0:		; CHECK_O0: # %bb.0:
; CHECK_O0-NEXT: vmovdqa (%rsi), %xmm0		; CHECK_O0-NEXT: vmovdqa (%rsi), %xmm0
; CHECK_O0-NEXT: vmovdqa 16(%rsi), %xmm1		; CHECK_O0-NEXT: vmovdqa 16(%rsi), %xmm1
; CHECK_O0-NEXT: # implicit-def: $ymm2		; CHECK_O0-NEXT: # implicit-def: $ymm2
; CHECK_O0-NEXT: vmovaps %xmm0, %xmm2		; CHECK_O0-NEXT: vmovaps %xmm0, %xmm2
Show All 10 Lines

test/CodeGen/X86/avx512-any_extend_load.ll

Show All 18 Lines	; ALL-NEXT: retq
store <8 x i8> %4, <8 x i8>* %ptr, align 1		store <8 x i8> %4, <8 x i8>* %ptr, align 1
ret void		ret void
}		}

define void @any_extend_load_v8i32(<8 x i8> * %ptr) {		define void @any_extend_load_v8i32(<8 x i8> * %ptr) {
; KNL-LABEL: any_extend_load_v8i32:		; KNL-LABEL: any_extend_load_v8i32:
; KNL: # %bb.0:		; KNL: # %bb.0:
; KNL-NEXT: vpmovzxbw {{.*#+}} xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero		; KNL-NEXT: vpmovzxbw {{.*#+}} xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero,mem[4],zero,mem[5],zero,mem[6],zero,mem[7],zero
; KNL-NEXT: vpaddw {{.*}}(%rip), %xmm0, %xmm0		; KNL-NEXT: vpaddb {{.*}}(%rip), %xmm0, %xmm0
; KNL-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]		; KNL-NEXT: vpackuswb %xmm0, %xmm0, %xmm0
; KNL-NEXT: vmovq %xmm0, (%rdi)		; KNL-NEXT: vmovq %xmm0, (%rdi)
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: any_extend_load_v8i32:		; SKX-LABEL: any_extend_load_v8i32:
; SKX: # %bb.0:		; SKX: # %bb.0:
; SKX-NEXT: vpmovzxbd {{.*#+}} ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero		; SKX-NEXT: vpmovzxbd {{.*#+}} ymm0 = mem[0],zero,zero,zero,mem[1],zero,zero,zero,mem[2],zero,zero,zero,mem[3],zero,zero,zero,mem[4],zero,zero,zero,mem[5],zero,zero,zero,mem[6],zero,zero,zero,mem[7],zero,zero,zero
; SKX-NEXT: vpaddd {{.*}}(%rip){1to8}, %ymm0, %ymm0		; SKX-NEXT: vpaddd {{.*}}(%rip){1to8}, %ymm0, %ymm0
; SKX-NEXT: vpmovdb %ymm0, (%rdi)		; SKX-NEXT: vpmovdb %ymm0, (%rdi)
Show All 34 Lines

test/CodeGen/X86/avx512-insert-extract.ll

Show First 20 Lines • Show All 544 Lines • ▼ Show 20 Lines	; CHECK-NEXT: retq
%r2 = insertelement <8 x i64> %r1, i64 %y, i32 3		%r2 = insertelement <8 x i64> %r1, i64 %y, i32 3
ret <8 x i64> %r2		ret <8 x i64> %r2
}		}

define <4 x i64> @insert_v4i64(<4 x i64> %x, i64 %y , i64* %ptr) {		define <4 x i64> @insert_v4i64(<4 x i64> %x, i64 %y , i64* %ptr) {
; CHECK-LABEL: insert_v4i64:		; CHECK-LABEL: insert_v4i64:
; CHECK: ## %bb.0:		; CHECK: ## %bb.0:
; CHECK-NEXT: vpinsrq $1, (%rsi), %xmm0, %xmm1		; CHECK-NEXT: vpinsrq $1, (%rsi), %xmm0, %xmm1
; CHECK-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm0		; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm0
; CHECK-NEXT: vpinsrq $1, %rdi, %xmm0, %xmm0		; CHECK-NEXT: vpinsrq $1, %rdi, %xmm0, %xmm0
; CHECK-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0		; CHECK-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%val = load i64, i64* %ptr		%val = load i64, i64* %ptr
%r1 = insertelement <4 x i64> %x, i64 %val, i32 1		%r1 = insertelement <4 x i64> %x, i64 %val, i32 1
%r2 = insertelement <4 x i64> %r1, i64 %y, i32 3		%r2 = insertelement <4 x i64> %r1, i64 %y, i32 3
ret <4 x i64> %r2		ret <4 x i64> %r2
Show All 25 Lines	; CHECK-NEXT: retq
%r2 = insertelement <16 x i32> %r1, i32 %y, i32 5		%r2 = insertelement <16 x i32> %r1, i32 %y, i32 5
ret <16 x i32> %r2		ret <16 x i32> %r2
}		}

define <8 x i32> @insert_v8i32(<8 x i32> %x, i32 %y, i32* %ptr) {		define <8 x i32> @insert_v8i32(<8 x i32> %x, i32 %y, i32* %ptr) {
; CHECK-LABEL: insert_v8i32:		; CHECK-LABEL: insert_v8i32:
; CHECK: ## %bb.0:		; CHECK: ## %bb.0:
; CHECK-NEXT: vpinsrd $1, (%rsi), %xmm0, %xmm1		; CHECK-NEXT: vpinsrd $1, (%rsi), %xmm0, %xmm1
; CHECK-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm0		; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm0
; CHECK-NEXT: vpinsrd $1, %edi, %xmm0, %xmm0		; CHECK-NEXT: vpinsrd $1, %edi, %xmm0, %xmm0
; CHECK-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0		; CHECK-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%val = load i32, i32* %ptr		%val = load i32, i32* %ptr
%r1 = insertelement <8 x i32> %x, i32 %val, i32 1		%r1 = insertelement <8 x i32> %x, i32 %val, i32 1
%r2 = insertelement <8 x i32> %r1, i32 %y, i32 5		%r2 = insertelement <8 x i32> %r1, i32 %y, i32 5
ret <8 x i32> %r2		ret <8 x i32> %r2
Show All 10 Lines	; CHECK-NEXT: retq
%r2 = insertelement <4 x i32> %r1, i32 %y, i32 3		%r2 = insertelement <4 x i32> %r1, i32 %y, i32 3
ret <4 x i32> %r2		ret <4 x i32> %r2
}		}

define <32 x i16> @insert_v32i16(<32 x i16> %x, i16 %y, i16* %ptr) {		define <32 x i16> @insert_v32i16(<32 x i16> %x, i16 %y, i16* %ptr) {
; KNL-LABEL: insert_v32i16:		; KNL-LABEL: insert_v32i16:
; KNL: ## %bb.0:		; KNL: ## %bb.0:
; KNL-NEXT: vpinsrw $1, (%rsi), %xmm0, %xmm2		; KNL-NEXT: vpinsrw $1, (%rsi), %xmm0, %xmm2
; KNL-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm0[4,5,6,7]
; KNL-NEXT: vextracti128 $1, %ymm0, %xmm0		; KNL-NEXT: vextracti128 $1, %ymm0, %xmm0
; KNL-NEXT: vpinsrw $1, %edi, %xmm0, %xmm0		; KNL-NEXT: vpinsrw $1, %edi, %xmm0, %xmm0
; KNL-NEXT: vinserti128 $1, %xmm0, %ymm2, %ymm0		; KNL-NEXT: vinserti128 $1, %xmm0, %ymm2, %ymm0
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: insert_v32i16:		; SKX-LABEL: insert_v32i16:
; SKX: ## %bb.0:		; SKX: ## %bb.0:
; SKX-NEXT: vpinsrw $1, (%rsi), %xmm0, %xmm1		; SKX-NEXT: vpinsrw $1, (%rsi), %xmm0, %xmm1
; SKX-NEXT: vinserti32x4 $0, %xmm1, %zmm0, %zmm1		; SKX-NEXT: vinserti32x4 $0, %xmm1, %zmm0, %zmm1
; SKX-NEXT: vextracti128 $1, %ymm0, %xmm0		; SKX-NEXT: vextracti128 $1, %ymm0, %xmm0
; SKX-NEXT: vpinsrw $1, %edi, %xmm0, %xmm0		; SKX-NEXT: vpinsrw $1, %edi, %xmm0, %xmm0
; SKX-NEXT: vinserti32x4 $1, %xmm0, %zmm1, %zmm0		; SKX-NEXT: vinserti32x4 $1, %xmm0, %zmm1, %zmm0
; SKX-NEXT: retq		; SKX-NEXT: retq
%val = load i16, i16* %ptr		%val = load i16, i16* %ptr
%r1 = insertelement <32 x i16> %x, i16 %val, i32 1		%r1 = insertelement <32 x i16> %x, i16 %val, i32 1
%r2 = insertelement <32 x i16> %r1, i16 %y, i32 9		%r2 = insertelement <32 x i16> %r1, i16 %y, i32 9
ret <32 x i16> %r2		ret <32 x i16> %r2
}		}

define <16 x i16> @insert_v16i16(<16 x i16> %x, i16 %y, i16* %ptr) {		define <16 x i16> @insert_v16i16(<16 x i16> %x, i16 %y, i16* %ptr) {
; CHECK-LABEL: insert_v16i16:		; CHECK-LABEL: insert_v16i16:
; CHECK: ## %bb.0:		; CHECK: ## %bb.0:
; CHECK-NEXT: vpinsrw $1, (%rsi), %xmm0, %xmm1		; CHECK-NEXT: vpinsrw $1, (%rsi), %xmm0, %xmm1
; CHECK-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm0		; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm0
; CHECK-NEXT: vpinsrw $1, %edi, %xmm0, %xmm0		; CHECK-NEXT: vpinsrw $1, %edi, %xmm0, %xmm0
; CHECK-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0		; CHECK-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%val = load i16, i16* %ptr		%val = load i16, i16* %ptr
%r1 = insertelement <16 x i16> %x, i16 %val, i32 1		%r1 = insertelement <16 x i16> %x, i16 %val, i32 1
%r2 = insertelement <16 x i16> %r1, i16 %y, i32 9		%r2 = insertelement <16 x i16> %r1, i16 %y, i32 9
ret <16 x i16> %r2		ret <16 x i16> %r2
Show All 34 Lines	; SKX-NEXT: retq
%r2 = insertelement <64 x i8> %r1, i8 %y, i32 50		%r2 = insertelement <64 x i8> %r1, i8 %y, i32 50
ret <64 x i8> %r2		ret <64 x i8> %r2
}		}

define <32 x i8> @insert_v32i8(<32 x i8> %x, i8 %y, i8* %ptr) {		define <32 x i8> @insert_v32i8(<32 x i8> %x, i8 %y, i8* %ptr) {
; CHECK-LABEL: insert_v32i8:		; CHECK-LABEL: insert_v32i8:
; CHECK: ## %bb.0:		; CHECK: ## %bb.0:
; CHECK-NEXT: vpinsrb $1, (%rsi), %xmm0, %xmm1		; CHECK-NEXT: vpinsrb $1, (%rsi), %xmm0, %xmm1
; CHECK-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm0		; CHECK-NEXT: vextracti128 $1, %ymm0, %xmm0
; CHECK-NEXT: vpinsrb $1, %edi, %xmm0, %xmm0		; CHECK-NEXT: vpinsrb $1, %edi, %xmm0, %xmm0
; CHECK-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0		; CHECK-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%val = load i8, i8* %ptr		%val = load i8, i8* %ptr
%r1 = insertelement <32 x i8> %x, i8 %val, i32 1		%r1 = insertelement <32 x i8> %x, i8 %val, i32 1
%r2 = insertelement <32 x i8> %r1, i8 %y, i32 17		%r2 = insertelement <32 x i8> %r1, i8 %y, i32 17
ret <32 x i8> %r2		ret <32 x i8> %r2
▲ Show 20 Lines • Show All 1,550 Lines • Show Last 20 Lines

test/CodeGen/X86/avx512-intrinsics-upgrade.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 6,133 Lines • ▼ Show 20 Lines
	; X86-NEXT: orl {{[0-9]+}}(%esp), %eax ## encoding: [0x0b,0x44,0x24,0x04]			; X86-NEXT: orl {{[0-9]+}}(%esp), %eax ## encoding: [0x0b,0x44,0x24,0x04]
	; X86-NEXT: andw {{[0-9]+}}(%esp), %ax ## encoding: [0x66,0x23,0x44,0x24,0x08]			; X86-NEXT: andw {{[0-9]+}}(%esp), %ax ## encoding: [0x66,0x23,0x44,0x24,0x08]
	; X86-NEXT: ## kill: def $ax killed $ax killed $eax			; X86-NEXT: ## kill: def $ax killed $ax killed $eax
	; X86-NEXT: retl ## encoding: [0xc3]			; X86-NEXT: retl ## encoding: [0xc3]
	;			;
	; X64-LABEL: test_kandn:			; X64-LABEL: test_kandn:
	; X64: ## %bb.0:			; X64: ## %bb.0:
	; X64-NEXT: movl %edi, %eax ## encoding: [0x89,0xf8]			; X64-NEXT: movl %edi, %eax ## encoding: [0x89,0xf8]
	; X64-NEXT: orl $-9, %eax ## encoding: [0x83,0xc8,0xf7]			; X64-NEXT: orl $65527, %eax ## encoding: [0x0d,0xf7,0xff,0x00,0x00]
				; X64-NEXT: ## imm = 0xFFF7
	; X64-NEXT: andl %esi, %eax ## encoding: [0x21,0xf0]			; X64-NEXT: andl %esi, %eax ## encoding: [0x21,0xf0]
	; X64-NEXT: ## kill: def $ax killed $ax killed $eax			; X64-NEXT: ## kill: def $ax killed $ax killed $eax
	; X64-NEXT: retq ## encoding: [0xc3]			; X64-NEXT: retq ## encoding: [0xc3]
	%t1 = call i16 @llvm.x86.avx512.kandn.w(i16 %a0, i16 8)			%t1 = call i16 @llvm.x86.avx512.kandn.w(i16 %a0, i16 8)
	%t2 = call i16 @llvm.x86.avx512.kandn.w(i16 %t1, i16 %a1)			%t2 = call i16 @llvm.x86.avx512.kandn.w(i16 %t1, i16 %a1)
	ret i16 %t2			ret i16 %t2
	}			}

	▲ Show 20 Lines • Show All 3,634 Lines • Show Last 20 Lines

test/CodeGen/X86/avx512-mask-op.ll

	Show First 20 Lines • Show All 67 Lines • ▼ Show 20 Lines
	; CHECK-LABEL: mask8_zext:			; CHECK-LABEL: mask8_zext:
	; CHECK: ## %bb.0:			; CHECK: ## %bb.0:
	; CHECK-NEXT: notb %dil			; CHECK-NEXT: notb %dil
	; CHECK-NEXT: movzbl %dil, %eax			; CHECK-NEXT: movzbl %dil, %eax
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	;			;
	; X86-LABEL: mask8_zext:			; X86-LABEL: mask8_zext:
	; X86: ## %bb.0:			; X86: ## %bb.0:
	; X86-NEXT: movb {{[0-9]+}}(%esp), %al			; X86-NEXT: movzbl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: notb %al			; X86-NEXT: xorl $255, %eax
	; X86-NEXT: movzbl %al, %eax
	; X86-NEXT: retl			; X86-NEXT: retl
	%m0 = bitcast i8 %x to <8 x i1>			%m0 = bitcast i8 %x to <8 x i1>
	%m1 = xor <8 x i1> %m0, <i1 -1, i1 -1, i1 -1, i1 -1, i1 -1, i1 -1, i1 -1, i1 -1>			%m1 = xor <8 x i1> %m0, <i1 -1, i1 -1, i1 -1, i1 -1, i1 -1, i1 -1, i1 -1, i1 -1>
	%m2 = bitcast <8 x i1> %m1 to i8			%m2 = bitcast <8 x i1> %m1 to i8
	%ret = zext i8 %m2 to i32			%ret = zext i8 %m2 to i32
	ret i32 %ret			ret i32 %ret
	}			}

	▲ Show 20 Lines • Show All 4,170 Lines • Show Last 20 Lines

test/CodeGen/X86/bypass-slow-division-32.ll

	Show First 20 Lines • Show All 173 Lines • ▼ Show 20 Lines
	; CHECK-LABEL: Test_use_divrem_reg_imm:			; CHECK-LABEL: Test_use_divrem_reg_imm:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: movl {{[0-9]+}}(%esp), %ecx			; CHECK-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; CHECK-NEXT: movl $1041204193, %edx # imm = 0x3E0F83E1			; CHECK-NEXT: movl $1041204193, %edx # imm = 0x3E0F83E1
	; CHECK-NEXT: movl %ecx, %eax			; CHECK-NEXT: movl %ecx, %eax
	; CHECK-NEXT: imull %edx			; CHECK-NEXT: imull %edx
	; CHECK-NEXT: movl %edx, %eax			; CHECK-NEXT: movl %edx, %eax
	; CHECK-NEXT: shrl $31, %eax			; CHECK-NEXT: shrl $31, %eax
	; CHECK-NEXT: sarl $3, %edx			; CHECK-NEXT: shrl $3, %edx
	; CHECK-NEXT: addl %eax, %edx			; CHECK-NEXT: addl %eax, %edx
	; CHECK-NEXT: movl %edx, %eax			; CHECK-NEXT: shll $5, %edx
	; CHECK-NEXT: shll $5, %eax			; CHECK-NEXT: subl %edx, %ecx
	; CHECK-NEXT: addl %edx, %eax
	; CHECK-NEXT: subl %eax, %ecx
	; CHECK-NEXT: addl %edx, %ecx
	; CHECK-NEXT: movl %ecx, %eax			; CHECK-NEXT: movl %ecx, %eax
	; CHECK-NEXT: retl			; CHECK-NEXT: retl
	%resultdiv = sdiv i32 %a, 33			%resultdiv = sdiv i32 %a, 33
	%resultrem = srem i32 %a, 33			%resultrem = srem i32 %a, 33
	%result = add i32 %resultdiv, %resultrem			%result = add i32 %resultdiv, %resultrem
	ret i32 %result			ret i32 %result
	}			}

	▲ Show 20 Lines • Show All 43 Lines • Show Last 20 Lines

test/CodeGen/X86/combine-fcopysign.ll

Show First 20 Lines • Show All 189 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
ret <4 x float> %2		ret <4 x float> %2
}		}

; copysign(x, fp_extend(y)) -> copysign(x, y)		; copysign(x, fp_extend(y)) -> copysign(x, y)
define <4 x double> @combine_vec_fcopysign_fpext_sgn(<4 x double> %x, <4 x float> %y) {		define <4 x double> @combine_vec_fcopysign_fpext_sgn(<4 x double> %x, <4 x float> %y) {
; SSE-LABEL: combine_vec_fcopysign_fpext_sgn:		; SSE-LABEL: combine_vec_fcopysign_fpext_sgn:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: movaps %xmm2, %xmm3		; SSE-NEXT: movaps %xmm2, %xmm3
; SSE-NEXT: movshdup {{.*#+}} xmm4 = xmm2[1,1,3,3]		; SSE-NEXT: cvtss2sd %xmm2, %xmm8
; SSE-NEXT: cvtss2sd %xmm2, %xmm5		; SSE-NEXT: movshdup {{.*#+}} xmm5 = xmm2[1,1,3,3]
; SSE-NEXT: movhlps {{.*#+}} xmm2 = xmm2[1,1]		; SSE-NEXT: movaps %xmm2, %xmm6
; SSE-NEXT: shufps {{.*#+}} xmm3 = xmm3[3,1,2,3]		; SSE-NEXT: unpckhpd {{.*#+}} xmm6 = xmm6[1],xmm2[1]
; SSE-NEXT: movaps {{.*#+}} xmm6 = [NaN,NaN]		; SSE-NEXT: shufps {{.*#+}} xmm3 = xmm3[3,1],xmm2[2,3]
; SSE-NEXT: cvtss2sd %xmm3, %xmm3		; SSE-NEXT: movaps {{.*#+}} xmm4 = [NaN,NaN]
; SSE-NEXT: movaps %xmm6, %xmm7
; SSE-NEXT: andnps %xmm3, %xmm7
; SSE-NEXT: movaps %xmm1, %xmm3
; SSE-NEXT: unpckhpd {{.*#+}} xmm3 = xmm3[1],xmm1[1]
; SSE-NEXT: andps %xmm6, %xmm3
; SSE-NEXT: orps %xmm3, %xmm7
; SSE-NEXT: andps %xmm6, %xmm1
; SSE-NEXT: cvtss2sd %xmm2, %xmm2
; SSE-NEXT: movaps %xmm6, %xmm3
; SSE-NEXT: andnps %xmm2, %xmm3
; SSE-NEXT: orps %xmm3, %xmm1
; SSE-NEXT: movlhps {{.*#+}} xmm1 = xmm1[0],xmm7[0]
; SSE-NEXT: movaps %xmm0, %xmm2		; SSE-NEXT: movaps %xmm0, %xmm2
; SSE-NEXT: unpckhpd {{.*#+}} xmm2 = xmm2[1],xmm0[1]		; SSE-NEXT: andps %xmm4, %xmm2
; SSE-NEXT: andps %xmm6, %xmm2		; SSE-NEXT: movaps %xmm4, %xmm7
; SSE-NEXT: xorps %xmm3, %xmm3		; SSE-NEXT: andnps %xmm8, %xmm7
; SSE-NEXT: cvtss2sd %xmm4, %xmm3		; SSE-NEXT: orps %xmm7, %xmm2
; SSE-NEXT: andps %xmm6, %xmm0		; SSE-NEXT: movhlps {{.*#+}} xmm0 = xmm0[1,1]
; SSE-NEXT: andnps %xmm3, %xmm6		; SSE-NEXT: andps %xmm4, %xmm0
; SSE-NEXT: orps %xmm2, %xmm6		; SSE-NEXT: cvtss2sd %xmm5, %xmm5
; SSE-NEXT: andps {{.*}}(%rip), %xmm5		; SSE-NEXT: movaps %xmm4, %xmm7
; SSE-NEXT: orps %xmm5, %xmm0		; SSE-NEXT: andnps %xmm5, %xmm7
; SSE-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm6[0]		; SSE-NEXT: orps %xmm0, %xmm7
		; SSE-NEXT: movlhps {{.*#+}} xmm2 = xmm2[0],xmm7[0]
		; SSE-NEXT: movaps %xmm1, %xmm0
		; SSE-NEXT: unpckhpd {{.*#+}} xmm0 = xmm0[1],xmm1[1]
		; SSE-NEXT: andps %xmm4, %xmm0
		; SSE-NEXT: cvtss2sd %xmm3, %xmm3
		; SSE-NEXT: movaps %xmm4, %xmm5
		; SSE-NEXT: andnps %xmm3, %xmm5
		; SSE-NEXT: orps %xmm0, %xmm5
		; SSE-NEXT: andps %xmm4, %xmm1
		; SSE-NEXT: xorps %xmm0, %xmm0
		; SSE-NEXT: cvtss2sd %xmm6, %xmm0
		; SSE-NEXT: andnps %xmm0, %xmm4
		; SSE-NEXT: orps %xmm4, %xmm1
		; SSE-NEXT: movlhps {{.*#+}} xmm1 = xmm1[0],xmm5[0]
		; SSE-NEXT: movaps %xmm2, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: combine_vec_fcopysign_fpext_sgn:		; AVX-LABEL: combine_vec_fcopysign_fpext_sgn:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vbroadcastsd {{.*#+}} ymm2 = [NaN,NaN,NaN,NaN]		; AVX-NEXT: vbroadcastsd {{.*#+}} ymm2 = [NaN,NaN,NaN,NaN]
; AVX-NEXT: vandps %ymm2, %ymm0, %ymm0		; AVX-NEXT: vandps %ymm2, %ymm0, %ymm0
; AVX-NEXT: vcvtps2pd %xmm1, %ymm1		; AVX-NEXT: vcvtps2pd %xmm1, %ymm1
; AVX-NEXT: vbroadcastsd {{.*#+}} ymm2 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]		; AVX-NEXT: vbroadcastsd {{.*#+}} ymm2 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
; AVX-NEXT: vandps %ymm2, %ymm1, %ymm1		; AVX-NEXT: vandps %ymm2, %ymm1, %ymm1
; AVX-NEXT: vorps %ymm1, %ymm0, %ymm0		; AVX-NEXT: vorps %ymm1, %ymm0, %ymm0
; AVX-NEXT: retq		; AVX-NEXT: retq
%1 = fpext <4 x float> %y to <4 x double>		%1 = fpext <4 x float> %y to <4 x double>
%2 = call <4 x double> @llvm.copysign.v4f64(<4 x double> %x, <4 x double> %1)		%2 = call <4 x double> @llvm.copysign.v4f64(<4 x double> %x, <4 x double> %1)
ret <4 x double> %2		ret <4 x double> %2
}		}

; copysign(x, fp_round(y)) -> copysign(x, y)		; copysign(x, fp_round(y)) -> copysign(x, y)
define <4 x float> @combine_vec_fcopysign_fptrunc_sgn(<4 x float> %x, <4 x double> %y) {		define <4 x float> @combine_vec_fcopysign_fptrunc_sgn(<4 x float> %x, <4 x double> %y) {
; SSE-LABEL: combine_vec_fcopysign_fptrunc_sgn:		; SSE-LABEL: combine_vec_fcopysign_fptrunc_sgn:
; SSE: # %bb.0:		; SSE: # %bb.0:
; SSE-NEXT: movaps %xmm0, %xmm3		; SSE-NEXT: movaps %xmm0, %xmm3
; SSE-NEXT: unpckhpd {{.*#+}} xmm3 = xmm3[1],xmm0[1]
; SSE-NEXT: movaps {{.*#+}} xmm4 = [NaN,NaN,NaN,NaN]		; SSE-NEXT: movaps {{.*#+}} xmm4 = [NaN,NaN,NaN,NaN]
; SSE-NEXT: andps %xmm4, %xmm3		; SSE-NEXT: andps %xmm4, %xmm0
; SSE-NEXT: cvtsd2ss %xmm2, %xmm5		; SSE-NEXT: cvtsd2ss %xmm1, %xmm5
; SSE-NEXT: movaps %xmm4, %xmm6		; SSE-NEXT: movaps %xmm4, %xmm6
; SSE-NEXT: andnps %xmm5, %xmm6		; SSE-NEXT: andnps %xmm5, %xmm6
; SSE-NEXT: orps %xmm3, %xmm6		; SSE-NEXT: orps %xmm6, %xmm0
; SSE-NEXT: movaps %xmm0, %xmm3		; SSE-NEXT: movshdup {{.*#+}} xmm5 = xmm3[1,1,3,3]
; SSE-NEXT: andps %xmm4, %xmm3
; SSE-NEXT: xorps %xmm5, %xmm5
; SSE-NEXT: cvtsd2ss %xmm1, %xmm5
; SSE-NEXT: movaps %xmm4, %xmm7
; SSE-NEXT: andnps %xmm5, %xmm7
; SSE-NEXT: orps %xmm7, %xmm3
; SSE-NEXT: movshdup {{.*#+}} xmm5 = xmm0[1,1,3,3]
; SSE-NEXT: andps %xmm4, %xmm5		; SSE-NEXT: andps %xmm4, %xmm5
; SSE-NEXT: movhlps {{.*#+}} xmm1 = xmm1[1,1]		; SSE-NEXT: movhlps {{.*#+}} xmm1 = xmm1[1,1]
; SSE-NEXT: cvtsd2ss %xmm1, %xmm1		; SSE-NEXT: cvtsd2ss %xmm1, %xmm1
; SSE-NEXT: andps {{.*}}(%rip), %xmm1		; SSE-NEXT: movaps %xmm4, %xmm6
; SSE-NEXT: orps %xmm5, %xmm1		; SSE-NEXT: andnps %xmm1, %xmm6
; SSE-NEXT: unpcklps {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1]		; SSE-NEXT: orps %xmm5, %xmm6
; SSE-NEXT: insertps {{.*#+}} xmm3 = xmm3[0,1],xmm6[0],xmm3[3]		; SSE-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1]
; SSE-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,1,2,3]		; SSE-NEXT: movaps %xmm3, %xmm1
; SSE-NEXT: andps %xmm4, %xmm0		; SSE-NEXT: unpckhpd {{.*#+}} xmm1 = xmm1[1],xmm3[1]
		; SSE-NEXT: andps %xmm4, %xmm1
		; SSE-NEXT: xorps %xmm5, %xmm5
		; SSE-NEXT: cvtsd2ss %xmm2, %xmm5
		; SSE-NEXT: movaps %xmm4, %xmm6
		; SSE-NEXT: andnps %xmm5, %xmm6
		; SSE-NEXT: orps %xmm1, %xmm6
		; SSE-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],xmm6[0],xmm0[3]
		; SSE-NEXT: shufps {{.*#+}} xmm3 = xmm3[3,1,2,3]
		; SSE-NEXT: andps %xmm4, %xmm3
; SSE-NEXT: movhlps {{.*#+}} xmm2 = xmm2[1,1]		; SSE-NEXT: movhlps {{.*#+}} xmm2 = xmm2[1,1]
; SSE-NEXT: xorps %xmm1, %xmm1		; SSE-NEXT: xorps %xmm1, %xmm1
; SSE-NEXT: cvtsd2ss %xmm2, %xmm1		; SSE-NEXT: cvtsd2ss %xmm2, %xmm1
; SSE-NEXT: andnps %xmm1, %xmm4		; SSE-NEXT: andnps %xmm1, %xmm4
; SSE-NEXT: orps %xmm0, %xmm4		; SSE-NEXT: orps %xmm3, %xmm4
; SSE-NEXT: insertps {{.*#+}} xmm3 = xmm3[0,1,2],xmm4[0]		; SSE-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm4[0]
; SSE-NEXT: movaps %xmm3, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: combine_vec_fcopysign_fptrunc_sgn:		; AVX-LABEL: combine_vec_fcopysign_fptrunc_sgn:
; AVX: # %bb.0:		; AVX: # %bb.0:
; AVX-NEXT: vbroadcastss {{.*#+}} xmm2 = [NaN,NaN,NaN,NaN]		; AVX-NEXT: vbroadcastss {{.*#+}} xmm2 = [NaN,NaN,NaN,NaN]
; AVX-NEXT: vandpd %xmm2, %xmm0, %xmm0		; AVX-NEXT: vandpd %xmm2, %xmm0, %xmm0
; AVX-NEXT: vcvtpd2ps %ymm1, %xmm1		; AVX-NEXT: vcvtpd2ps %ymm1, %xmm1
; AVX-NEXT: vbroadcastss {{.*#+}} xmm2 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]		; AVX-NEXT: vbroadcastss {{.*#+}} xmm2 = [-0.0E+0,-0.0E+0,-0.0E+0,-0.0E+0]
Show All 12 Lines

test/CodeGen/X86/combine-sdiv.ll

	Show First 20 Lines • Show All 1,168 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: psrad $3, %xmm2			; SSE41-NEXT: psrad $3, %xmm2
	; SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1],xmm4[2,3],xmm2[4,5],xmm4[6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1],xmm4[2,3],xmm2[4,5],xmm4[6,7]
	; SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm1[0,1],xmm2[2,3,4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm1[0,1],xmm2[2,3,4,5,6,7]
	; SSE41-NEXT: movdqa %xmm2, %xmm1			; SSE41-NEXT: movdqa %xmm2, %xmm1
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: combine_vec_sdiv_by_pow2b_v8i32:			; AVX1-LABEL: combine_vec_sdiv_by_pow2b_v8i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vpsrad $31, %xmm0, %xmm1
	; AVX1-NEXT: vpsrad $31, %xmm1, %xmm2			; AVX1-NEXT: vpsrld $28, %xmm1, %xmm2
	; AVX1-NEXT: vpsrld $28, %xmm2, %xmm3			; AVX1-NEXT: vpsrld $30, %xmm1, %xmm3
	; AVX1-NEXT: vpsrld $30, %xmm2, %xmm4			; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm3[0,1,2,3],xmm2[4,5,6,7]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm4[0,1,2,3],xmm3[4,5,6,7]			; AVX1-NEXT: vpsrld $29, %xmm1, %xmm1
	; AVX1-NEXT: vpsrld $29, %xmm2, %xmm2			; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1],xmm3[2,3],xmm2[4,5],xmm3[6,7]			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm1
	; AVX1-NEXT: vpaddd %xmm2, %xmm1, %xmm1
	; AVX1-NEXT: vpsrad $4, %xmm1, %xmm2			; AVX1-NEXT: vpsrad $4, %xmm1, %xmm2
	; AVX1-NEXT: vpsrad $2, %xmm1, %xmm3			; AVX1-NEXT: vpsrad $2, %xmm1, %xmm3
	; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm3[0,1,2,3],xmm2[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm3[0,1,2,3],xmm2[4,5,6,7]
	; AVX1-NEXT: vpsrad $3, %xmm1, %xmm3			; AVX1-NEXT: vpsrad $3, %xmm1, %xmm3
	; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm3[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm3[4,5,6,7]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,3],xmm1[4,5],xmm2[6,7]
	; AVX1-NEXT: vpsrad $31, %xmm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vpsrld $28, %xmm2, %xmm3			; AVX1-NEXT: vpsrad $31, %xmm2, %xmm3
	; AVX1-NEXT: vpsrld $30, %xmm2, %xmm4			; AVX1-NEXT: vpsrld $28, %xmm3, %xmm4
	; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm4[0,1,2,3],xmm3[4,5,6,7]			; AVX1-NEXT: vpsrld $30, %xmm3, %xmm5
	; AVX1-NEXT: vpsrld $29, %xmm2, %xmm2			; AVX1-NEXT: vpblendw {{.*#+}} xmm4 = xmm5[0,1,2,3],xmm4[4,5,6,7]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1],xmm3[2,3],xmm2[4,5],xmm3[6,7]			; AVX1-NEXT: vpsrld $29, %xmm3, %xmm3
	; AVX1-NEXT: vpaddd %xmm2, %xmm0, %xmm2			; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1],xmm4[2,3],xmm3[4,5],xmm4[6,7]
				; AVX1-NEXT: vpaddd %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpsrad $4, %xmm2, %xmm3			; AVX1-NEXT: vpsrad $4, %xmm2, %xmm3
	; AVX1-NEXT: vpsrad $2, %xmm2, %xmm4			; AVX1-NEXT: vpsrad $2, %xmm2, %xmm4
	; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm4[0,1,2,3],xmm3[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm4[0,1,2,3],xmm3[4,5,6,7]
	; AVX1-NEXT: vpsrad $3, %xmm2, %xmm4			; AVX1-NEXT: vpsrad $3, %xmm2, %xmm2
	; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm4[4,5,6,7]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1],xmm3[2,3],xmm2[4,5],xmm3[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1],xmm3[2,3],xmm2[4,5],xmm3[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm2, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3],ymm0[4],ymm1[5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm1[1,2,3],ymm0[4],ymm1[5,6,7]
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2ORLATER-LABEL: combine_vec_sdiv_by_pow2b_v8i32:			; AVX2ORLATER-LABEL: combine_vec_sdiv_by_pow2b_v8i32:
	; AVX2ORLATER: # %bb.0:			; AVX2ORLATER: # %bb.0:
	; AVX2ORLATER-NEXT: vpsrad $31, %ymm0, %ymm1			; AVX2ORLATER-NEXT: vpsrad $31, %ymm0, %ymm1
	; AVX2ORLATER-NEXT: vpsrlvd {{.*}}(%rip), %ymm1, %ymm1			; AVX2ORLATER-NEXT: vpsrlvd {{.*}}(%rip), %ymm1, %ymm1
	; AVX2ORLATER-NEXT: vpaddd %ymm1, %ymm0, %ymm1			; AVX2ORLATER-NEXT: vpaddd %ymm1, %ymm0, %ymm1
	▲ Show 20 Lines • Show All 177 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: pblendw {{.*#+}} xmm5 = xmm5[0,1],xmm6[2,3],xmm5[4,5],xmm6[6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm5 = xmm5[0,1],xmm6[2,3],xmm5[4,5],xmm6[6,7]
	; SSE41-NEXT: pblendw {{.*#+}} xmm5 = xmm3[0,1],xmm5[2,3,4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm5 = xmm3[0,1],xmm5[2,3,4,5,6,7]
	; SSE41-NEXT: movdqa %xmm4, %xmm2			; SSE41-NEXT: movdqa %xmm4, %xmm2
	; SSE41-NEXT: movdqa %xmm5, %xmm3			; SSE41-NEXT: movdqa %xmm5, %xmm3
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: combine_vec_sdiv_by_pow2b_v16i32:			; AVX1-LABEL: combine_vec_sdiv_by_pow2b_v16i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vpsrad $31, %xmm0, %xmm2
	; AVX1-NEXT: vpsrad $31, %xmm2, %xmm3			; AVX1-NEXT: vpsrld $28, %xmm2, %xmm3
	; AVX1-NEXT: vpsrld $28, %xmm3, %xmm4			; AVX1-NEXT: vpsrld $30, %xmm2, %xmm4
	; AVX1-NEXT: vpsrld $30, %xmm3, %xmm5			; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm4[0,1,2,3],xmm3[4,5,6,7]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm4 = xmm5[0,1,2,3],xmm4[4,5,6,7]			; AVX1-NEXT: vpsrld $29, %xmm2, %xmm2
	; AVX1-NEXT: vpsrld $29, %xmm3, %xmm3			; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1],xmm3[2,3],xmm2[4,5],xmm3[6,7]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1],xmm4[2,3],xmm3[4,5],xmm4[6,7]			; AVX1-NEXT: vpaddd %xmm2, %xmm0, %xmm2
	; AVX1-NEXT: vpaddd %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpsrad $4, %xmm2, %xmm3			; AVX1-NEXT: vpsrad $4, %xmm2, %xmm3
	; AVX1-NEXT: vpsrad $2, %xmm2, %xmm4			; AVX1-NEXT: vpsrad $2, %xmm2, %xmm4
	; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm4[0,1,2,3],xmm3[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm4[0,1,2,3],xmm3[4,5,6,7]
	; AVX1-NEXT: vpsrad $3, %xmm2, %xmm4			; AVX1-NEXT: vpsrad $3, %xmm2, %xmm4
	; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm4[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm4[4,5,6,7]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1],xmm3[2,3],xmm2[4,5],xmm3[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1],xmm3[2,3],xmm2[4,5],xmm3[6,7]
	; AVX1-NEXT: vpsrad $31, %xmm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vpsrld $28, %xmm3, %xmm4			; AVX1-NEXT: vpsrad $31, %xmm3, %xmm4
	; AVX1-NEXT: vpsrld $30, %xmm3, %xmm5			; AVX1-NEXT: vpsrld $28, %xmm4, %xmm5
	; AVX1-NEXT: vpblendw {{.*#+}} xmm4 = xmm5[0,1,2,3],xmm4[4,5,6,7]			; AVX1-NEXT: vpsrld $30, %xmm4, %xmm6
	; AVX1-NEXT: vpsrld $29, %xmm3, %xmm3			; AVX1-NEXT: vpblendw {{.*#+}} xmm5 = xmm6[0,1,2,3],xmm5[4,5,6,7]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1],xmm4[2,3],xmm3[4,5],xmm4[6,7]			; AVX1-NEXT: vpsrld $29, %xmm4, %xmm4
	; AVX1-NEXT: vpaddd %xmm3, %xmm0, %xmm3			; AVX1-NEXT: vpblendw {{.*#+}} xmm4 = xmm4[0,1],xmm5[2,3],xmm4[4,5],xmm5[6,7]
				; AVX1-NEXT: vpaddd %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpsrad $4, %xmm3, %xmm4			; AVX1-NEXT: vpsrad $4, %xmm3, %xmm4
	; AVX1-NEXT: vpsrad $2, %xmm3, %xmm5			; AVX1-NEXT: vpsrad $2, %xmm3, %xmm5
	; AVX1-NEXT: vpblendw {{.*#+}} xmm4 = xmm5[0,1,2,3],xmm4[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm4 = xmm5[0,1,2,3],xmm4[4,5,6,7]
	; AVX1-NEXT: vpsrad $3, %xmm3, %xmm5			; AVX1-NEXT: vpsrad $3, %xmm3, %xmm3
	; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1,2,3],xmm5[4,5,6,7]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1],xmm4[2,3],xmm3[4,5],xmm4[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1],xmm4[2,3],xmm3[4,5],xmm4[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm3, %ymm2			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm2[1,2,3],ymm0[4],ymm2[5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0],ymm2[1,2,3],ymm0[4],ymm2[5,6,7]
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX1-NEXT: vpsrad $31, %xmm1, %xmm2
	; AVX1-NEXT: vpsrad $31, %xmm2, %xmm3			; AVX1-NEXT: vpsrld $28, %xmm2, %xmm3
	; AVX1-NEXT: vpsrld $28, %xmm3, %xmm4			; AVX1-NEXT: vpsrld $30, %xmm2, %xmm4
	; AVX1-NEXT: vpsrld $30, %xmm3, %xmm5			; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm4[0,1,2,3],xmm3[4,5,6,7]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm4 = xmm5[0,1,2,3],xmm4[4,5,6,7]			; AVX1-NEXT: vpsrld $29, %xmm2, %xmm2
	; AVX1-NEXT: vpsrld $29, %xmm3, %xmm3			; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1],xmm3[2,3],xmm2[4,5],xmm3[6,7]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1],xmm4[2,3],xmm3[4,5],xmm4[6,7]			; AVX1-NEXT: vpaddd %xmm2, %xmm1, %xmm2
	; AVX1-NEXT: vpaddd %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpsrad $4, %xmm2, %xmm3			; AVX1-NEXT: vpsrad $4, %xmm2, %xmm3
	; AVX1-NEXT: vpsrad $2, %xmm2, %xmm4			; AVX1-NEXT: vpsrad $2, %xmm2, %xmm4
	; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm4[0,1,2,3],xmm3[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm4[0,1,2,3],xmm3[4,5,6,7]
	; AVX1-NEXT: vpsrad $3, %xmm2, %xmm4			; AVX1-NEXT: vpsrad $3, %xmm2, %xmm4
	; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm4[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm4[4,5,6,7]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1],xmm3[2,3],xmm2[4,5],xmm3[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm2[0,1],xmm3[2,3],xmm2[4,5],xmm3[6,7]
	; AVX1-NEXT: vpsrad $31, %xmm1, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	; AVX1-NEXT: vpsrld $28, %xmm3, %xmm4			; AVX1-NEXT: vpsrad $31, %xmm3, %xmm4
	; AVX1-NEXT: vpsrld $30, %xmm3, %xmm5			; AVX1-NEXT: vpsrld $28, %xmm4, %xmm5
	; AVX1-NEXT: vpblendw {{.*#+}} xmm4 = xmm5[0,1,2,3],xmm4[4,5,6,7]			; AVX1-NEXT: vpsrld $30, %xmm4, %xmm6
	; AVX1-NEXT: vpsrld $29, %xmm3, %xmm3			; AVX1-NEXT: vpblendw {{.*#+}} xmm5 = xmm6[0,1,2,3],xmm5[4,5,6,7]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1],xmm4[2,3],xmm3[4,5],xmm4[6,7]			; AVX1-NEXT: vpsrld $29, %xmm4, %xmm4
	; AVX1-NEXT: vpaddd %xmm3, %xmm1, %xmm3			; AVX1-NEXT: vpblendw {{.*#+}} xmm4 = xmm4[0,1],xmm5[2,3],xmm4[4,5],xmm5[6,7]
				; AVX1-NEXT: vpaddd %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpsrad $4, %xmm3, %xmm4			; AVX1-NEXT: vpsrad $4, %xmm3, %xmm4
	; AVX1-NEXT: vpsrad $2, %xmm3, %xmm5			; AVX1-NEXT: vpsrad $2, %xmm3, %xmm5
	; AVX1-NEXT: vpblendw {{.*#+}} xmm4 = xmm5[0,1,2,3],xmm4[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm4 = xmm5[0,1,2,3],xmm4[4,5,6,7]
	; AVX1-NEXT: vpsrad $3, %xmm3, %xmm5			; AVX1-NEXT: vpsrad $3, %xmm3, %xmm3
	; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1,2,3],xmm5[4,5,6,7]
	; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1],xmm4[2,3],xmm3[4,5],xmm4[6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm3[0,1],xmm4[2,3],xmm3[4,5],xmm4[6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm3, %ymm2			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm2, %ymm2
	; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0],ymm2[1,2,3],ymm1[4],ymm2[5,6,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0],ymm2[1,2,3],ymm1[4],ymm2[5,6,7]
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: combine_vec_sdiv_by_pow2b_v16i32:			; AVX2-LABEL: combine_vec_sdiv_by_pow2b_v16i32:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpsrad $31, %ymm0, %ymm2			; AVX2-NEXT: vpsrad $31, %ymm0, %ymm2
	; AVX2-NEXT: vbroadcasti128 {{.*#+}} ymm3 = [32,30,29,28,32,30,29,28]			; AVX2-NEXT: vbroadcasti128 {{.*#+}} ymm3 = [32,30,29,28,32,30,29,28]
	; AVX2-NEXT: # ymm3 = mem[0,1,0,1]			; AVX2-NEXT: # ymm3 = mem[0,1,0,1]
	▲ Show 20 Lines • Show All 1,677 Lines • Show Last 20 Lines

test/CodeGen/X86/combine-srem.ll

	Show First 20 Lines • Show All 220 Lines • ▼ Show 20 Lines

	define <4 x i32> @combine_vec_srem_by_pow2a_neg(<4 x i32> %x) {			define <4 x i32> @combine_vec_srem_by_pow2a_neg(<4 x i32> %x) {
	; SSE-LABEL: combine_vec_srem_by_pow2a_neg:			; SSE-LABEL: combine_vec_srem_by_pow2a_neg:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movdqa %xmm0, %xmm1			; SSE-NEXT: movdqa %xmm0, %xmm1
	; SSE-NEXT: psrad $31, %xmm1			; SSE-NEXT: psrad $31, %xmm1
	; SSE-NEXT: psrld $30, %xmm1			; SSE-NEXT: psrld $30, %xmm1
	; SSE-NEXT: paddd %xmm0, %xmm1			; SSE-NEXT: paddd %xmm0, %xmm1
	; SSE-NEXT: psrld $2, %xmm1			; SSE-NEXT: pand {{.*}}(%rip), %xmm1
	; SSE-NEXT: pxor %xmm2, %xmm2			; SSE-NEXT: psubd %xmm1, %xmm0
	; SSE-NEXT: psubd %xmm1, %xmm2
	; SSE-NEXT: pslld $2, %xmm2
	; SSE-NEXT: paddd %xmm2, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: combine_vec_srem_by_pow2a_neg:			; AVX1-LABEL: combine_vec_srem_by_pow2a_neg:
	; AVX: # %bb.0:			; AVX1: # %bb.0:
	; AVX-NEXT: vpsrad $31, %xmm0, %xmm1			; AVX1-NEXT: vpsrad $31, %xmm0, %xmm1
	; AVX-NEXT: vpsrld $30, %xmm1, %xmm1			; AVX1-NEXT: vpsrld $30, %xmm1, %xmm1
	; AVX-NEXT: vpaddd %xmm1, %xmm0, %xmm1			; AVX1-NEXT: vpaddd %xmm1, %xmm0, %xmm1
	; AVX-NEXT: vpsrld $2, %xmm1, %xmm1			; AVX1-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
	; AVX-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX1-NEXT: vpsubd %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpsubd %xmm1, %xmm2, %xmm1			; AVX1-NEXT: retq
	; AVX-NEXT: vpslld $2, %xmm1, %xmm1			;
	; AVX-NEXT: vpaddd %xmm1, %xmm0, %xmm0			; AVX2-LABEL: combine_vec_srem_by_pow2a_neg:
	; AVX-NEXT: retq			; AVX2: # %bb.0:
				; AVX2-NEXT: vpsrad $31, %xmm0, %xmm1
				; AVX2-NEXT: vpsrld $30, %xmm1, %xmm1
				; AVX2-NEXT: vpaddd %xmm1, %xmm0, %xmm1
				; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm2 = [4294967292,4294967292,4294967292,4294967292]
				; AVX2-NEXT: vpand %xmm2, %xmm1, %xmm1
				; AVX2-NEXT: vpsubd %xmm1, %xmm0, %xmm0
				; AVX2-NEXT: retq
	%1 = srem <4 x i32> %x, <i32 -4, i32 -4, i32 -4, i32 -4>			%1 = srem <4 x i32> %x, <i32 -4, i32 -4, i32 -4, i32 -4>
	ret <4 x i32> %1			ret <4 x i32> %1
	}			}

	define <4 x i32> @combine_vec_srem_by_pow2b(<4 x i32> %x) {			define <4 x i32> @combine_vec_srem_by_pow2b(<4 x i32> %x) {
	; SSE-LABEL: combine_vec_srem_by_pow2b:			; SSE-LABEL: combine_vec_srem_by_pow2b:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movdqa %xmm0, %xmm1			; SSE-NEXT: movdqa %xmm0, %xmm1
	▲ Show 20 Lines • Show All 180 Lines • Show Last 20 Lines

test/CodeGen/X86/constant-combines.ll

	Show All 9 Lines
	; The DAG combiner at one point contained bugs that given enough permutations			; The DAG combiner at one point contained bugs that given enough permutations
	; would incorrectly form an illegal operation for the last of these stores when			; would incorrectly form an illegal operation for the last of these stores when
	; it folded it to a zero too late to legalize the zero store operation. If this			; it folded it to a zero too late to legalize the zero store operation. If this
	; ever starts forming a zero store instead of movss, the test case has stopped			; ever starts forming a zero store instead of movss, the test case has stopped
	; being useful.			; being useful.
	;			;
	; CHECK-LABEL: PR22524:			; CHECK-LABEL: PR22524:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: xorl %eax, %eax
	; CHECK-NEXT: movd %eax, %xmm0
	; CHECK-NEXT: xorps %xmm1, %xmm1
	; CHECK-NEXT: mulss %xmm0, %xmm1
	; CHECK-NEXT: movq $0, (%rdi)			; CHECK-NEXT: movq $0, (%rdi)
	; CHECK-NEXT: movss %xmm1, 4(%rdi)			; CHECK-NEXT: movl $0, 4(%rdi)
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	%0 = getelementptr inbounds { float, float }, { float, float }* %arg, i32 0, i32 1			%0 = getelementptr inbounds { float, float }, { float, float }* %arg, i32 0, i32 1
	store float 0.000000e+00, float* %0, align 4			store float 0.000000e+00, float* %0, align 4
	%1 = getelementptr inbounds { float, float }, { float, float }* %arg, i64 0, i32 0			%1 = getelementptr inbounds { float, float }, { float, float }* %arg, i64 0, i32 0
	%2 = bitcast float* %1 to i64*			%2 = bitcast float* %1 to i64*
	%3 = load i64, i64* %2, align 8			%3 = load i64, i64* %2, align 8
	%4 = trunc i64 %3 to i32			%4 = trunc i64 %3 to i32
	Show All 9 Lines

test/CodeGen/X86/extract-insert.ll

	Show All 29 Lines

	; TODO: This should have folded to avoid vector ops, but the transform			; TODO: This should have folded to avoid vector ops, but the transform
	; is guarded by 'hasOneUse'. That limitation apparently makes some AMDGPU			; is guarded by 'hasOneUse'. That limitation apparently makes some AMDGPU
	; codegen better.			; codegen better.

	define i8 @extractelt_bitcast_extra_use(i32 %x, <4 x i8>* %p) nounwind {			define i8 @extractelt_bitcast_extra_use(i32 %x, <4 x i8>* %p) nounwind {
	; X86-LABEL: extractelt_bitcast_extra_use:			; X86-LABEL: extractelt_bitcast_extra_use:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: pushl %eax
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: movd %eax, %xmm0
	; X86-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-NEXT: movl %eax, (%ecx)			; X86-NEXT: movl %eax, (%ecx)
	; X86-NEXT: movd %xmm0, %eax
	; X86-NEXT: # kill: def $al killed $al killed $eax			; X86-NEXT: # kill: def $al killed $al killed $eax
	; X86-NEXT: popl %ecx
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: extractelt_bitcast_extra_use:			; X64-LABEL: extractelt_bitcast_extra_use:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movd %edi, %xmm0			; X64-NEXT: movl %edi, %eax
	; X64-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; X64-NEXT: movl %edi, (%rsi)			; X64-NEXT: movl %edi, (%rsi)
	; X64-NEXT: movd %xmm0, %eax
	; X64-NEXT: # kill: def $al killed $al killed $eax			; X64-NEXT: # kill: def $al killed $al killed $eax
	; X64-NEXT: retq			; X64-NEXT: retq
	%bc = bitcast i32 %x to <4 x i8>			%bc = bitcast i32 %x to <4 x i8>
	store <4 x i8> %bc, <4 x i8>* %p			store <4 x i8> %bc, <4 x i8>* %p
	%ext = extractelement <4 x i8> %bc, i32 0			%ext = extractelement <4 x i8> %bc, i32 0
	ret i8 %ext			ret i8 %ext
	}			}

	▲ Show 20 Lines • Show All 52 Lines • Show Last 20 Lines

test/CodeGen/X86/illegal-bitfield-loadstore.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-unknown-linux-gnu \| FileCheck %s --check-prefix=X86			; RUN: llc < %s -mtriple=i686-unknown-linux-gnu \| FileCheck %s --check-prefix=X86
	; RUN: llc < %s -mtriple=x86_64-unknown-linux-gnu \| FileCheck %s --check-prefix=X64			; RUN: llc < %s -mtriple=x86_64-unknown-linux-gnu \| FileCheck %s --check-prefix=X64

	define void @i24_or(i24* %a) {			define void @i24_or(i24* %a) {
	; X86-LABEL: i24_or:			; X86-LABEL: i24_or:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: movzwl (%ecx), %edx			; X86-NEXT: movzwl (%eax), %ecx
	; X86-NEXT: movzbl 2(%ecx), %eax			; X86-NEXT: orl $384, %ecx # imm = 0x180
	; X86-NEXT: movb %al, 2(%ecx)			; X86-NEXT: movw %cx, (%eax)
	; X86-NEXT: shll $16, %eax
	; X86-NEXT: orl %edx, %eax
	; X86-NEXT: orl $384, %eax # imm = 0x180
	; X86-NEXT: movw %ax, (%ecx)
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: i24_or:			; X64-LABEL: i24_or:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movzwl (%rdi), %eax			; X64-NEXT: movzwl (%rdi), %eax
	; X64-NEXT: movzbl 2(%rdi), %ecx			; X64-NEXT: orl $384, %eax # imm = 0x180
	; X64-NEXT: movb %cl, 2(%rdi)			; X64-NEXT: movw %ax, (%rdi)
	; X64-NEXT: shll $16, %ecx
	; X64-NEXT: orl %eax, %ecx
	; X64-NEXT: orl $384, %ecx # imm = 0x180
	; X64-NEXT: movw %cx, (%rdi)
	; X64-NEXT: retq			; X64-NEXT: retq
	%aa = load i24, i24* %a, align 1			%aa = load i24, i24* %a, align 1
	%b = or i24 %aa, 384			%b = or i24 %aa, 384
	store i24 %b, i24* %a, align 1			store i24 %b, i24* %a, align 1
	ret void			ret void
	}			}

	define void @i24_and_or(i24* %a) {			define void @i24_and_or(i24* %a) {
	; X86-LABEL: i24_and_or:			; X86-LABEL: i24_and_or:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: movzwl (%ecx), %edx			; X86-NEXT: movzwl (%eax), %ecx
	; X86-NEXT: movzbl 2(%ecx), %eax			; X86-NEXT: orl $384, %ecx # imm = 0x180
	; X86-NEXT: movb %al, 2(%ecx)			; X86-NEXT: andl $-128, %ecx
	; X86-NEXT: shll $16, %eax			; X86-NEXT: movw %cx, (%eax)
	; X86-NEXT: orl %edx, %eax
	; X86-NEXT: orl $384, %eax # imm = 0x180
	; X86-NEXT: andl $16777088, %eax # imm = 0xFFFF80
	; X86-NEXT: movw %ax, (%ecx)
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: i24_and_or:			; X64-LABEL: i24_and_or:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movzwl (%rdi), %eax			; X64-NEXT: movzwl (%rdi), %eax
	; X64-NEXT: movzbl 2(%rdi), %ecx			; X64-NEXT: orl $384, %eax # imm = 0x180
	; X64-NEXT: movb %cl, 2(%rdi)			; X64-NEXT: andl $-128, %eax
	; X64-NEXT: shll $16, %ecx			; X64-NEXT: movw %ax, (%rdi)
	; X64-NEXT: orl %eax, %ecx
	; X64-NEXT: orl $384, %ecx # imm = 0x180
	; X64-NEXT: andl $16777088, %ecx # imm = 0xFFFF80
	; X64-NEXT: movw %cx, (%rdi)
	; X64-NEXT: retq			; X64-NEXT: retq
	%b = load i24, i24* %a, align 1			%b = load i24, i24* %a, align 1
	%c = and i24 %b, -128			%c = and i24 %b, -128
	%d = or i24 %c, 384			%d = or i24 %c, 384
	store i24 %d, i24* %a, align 1			store i24 %d, i24* %a, align 1
	ret void			ret void
	}			}

	define void @i24_insert_bit(i24* %a, i1 zeroext %bit) {			define void @i24_insert_bit(i24* %a, i1 zeroext %bit) {
	; X86-LABEL: i24_insert_bit:			; X86-LABEL: i24_insert_bit:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: pushl %esi			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: .cfi_def_cfa_offset 8			; X86-NEXT: movzbl {{[0-9]+}}(%esp), %ecx
	; X86-NEXT: .cfi_offset %esi, -8			; X86-NEXT: movzwl (%eax), %edx
	; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-NEXT: shll $13, %ecx
	; X86-NEXT: movzbl {{[0-9]+}}(%esp), %edx			; X86-NEXT: andl $57343, %edx # imm = 0xDFFF
	; X86-NEXT: movzwl (%ecx), %esi			; X86-NEXT: orl %ecx, %edx
	; X86-NEXT: movzbl 2(%ecx), %eax			; X86-NEXT: movw %dx, (%eax)
	; X86-NEXT: movb %al, 2(%ecx)
	; X86-NEXT: shll $16, %eax
	; X86-NEXT: orl %esi, %eax
	; X86-NEXT: shll $13, %edx
	; X86-NEXT: andl $16769023, %eax # imm = 0xFFDFFF
	; X86-NEXT: orl %edx, %eax
	; X86-NEXT: movw %ax, (%ecx)
	; X86-NEXT: popl %esi
	; X86-NEXT: .cfi_def_cfa_offset 4
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: i24_insert_bit:			; X64-LABEL: i24_insert_bit:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movzwl (%rdi), %eax			; X64-NEXT: movzwl (%rdi), %eax
	; X64-NEXT: movzbl 2(%rdi), %ecx
	; X64-NEXT: movb %cl, 2(%rdi)
	; X64-NEXT: shll $16, %ecx
	; X64-NEXT: orl %eax, %ecx
	; X64-NEXT: shll $13, %esi			; X64-NEXT: shll $13, %esi
	; X64-NEXT: andl $16769023, %ecx # imm = 0xFFDFFF			; X64-NEXT: andl $57343, %eax # imm = 0xDFFF
	; X64-NEXT: orl %esi, %ecx			; X64-NEXT: orl %esi, %eax
	; X64-NEXT: movw %cx, (%rdi)			; X64-NEXT: movw %ax, (%rdi)
	; X64-NEXT: retq			; X64-NEXT: retq
	%extbit = zext i1 %bit to i24			%extbit = zext i1 %bit to i24
	%b = load i24, i24* %a, align 1			%b = load i24, i24* %a, align 1
	%extbit.shl = shl nuw nsw i24 %extbit, 13			%extbit.shl = shl nuw nsw i24 %extbit, 13
	%c = and i24 %b, -8193			%c = and i24 %b, -8193
	%d = or i24 %c, %extbit.shl			%d = or i24 %c, %extbit.shl
	store i24 %d, i24* %a, align 1			store i24 %d, i24* %a, align 1
	ret void			ret void
	}			}

	define void @i56_or(i56* %a) {			define void @i56_or(i56* %a) {
	; X86-LABEL: i56_or:			; X86-LABEL: i56_or:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: orl $384, (%eax) # imm = 0x180			; X86-NEXT: orl $384, (%eax) # imm = 0x180
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: i56_or:			; X64-LABEL: i56_or:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movzwl 4(%rdi), %eax			; X64-NEXT: movzwl 4(%rdi), %eax
	; X64-NEXT: movzbl 6(%rdi), %ecx
	; X64-NEXT: movb %cl, 6(%rdi)
	; X64-NEXT: # kill: def $ecx killed $ecx killed $rcx def $rcx
	; X64-NEXT: shll $16, %ecx
	; X64-NEXT: orl %eax, %ecx
	; X64-NEXT: shlq $32, %rcx
	; X64-NEXT: movl (%rdi), %eax
	; X64-NEXT: orq %rcx, %rax
	; X64-NEXT: orq $384, %rax # imm = 0x180
	; X64-NEXT: movl %eax, (%rdi)
	; X64-NEXT: shrq $32, %rax
	; X64-NEXT: movw %ax, 4(%rdi)			; X64-NEXT: movw %ax, 4(%rdi)
				; X64-NEXT: orl $384, (%rdi) # imm = 0x180
	; X64-NEXT: retq			; X64-NEXT: retq
	%aa = load i56, i56* %a, align 1			%aa = load i56, i56* %a, align 1
	%b = or i56 %aa, 384			%b = or i56 %aa, 384
	store i56 %b, i56* %a, align 1			store i56 %b, i56* %a, align 1
	ret void			ret void
	}			}

	define void @i56_and_or(i56* %a) {			define void @i56_and_or(i56* %a) {
	; X86-LABEL: i56_and_or:			; X86-LABEL: i56_and_or:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: movl $384, %ecx # imm = 0x180			; X86-NEXT: movl $384, %ecx # imm = 0x180
	; X86-NEXT: orl (%eax), %ecx			; X86-NEXT: orl (%eax), %ecx
	; X86-NEXT: andl $-128, %ecx			; X86-NEXT: andl $-128, %ecx
	; X86-NEXT: movl %ecx, (%eax)			; X86-NEXT: movl %ecx, (%eax)
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: i56_and_or:			; X64-LABEL: i56_and_or:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movzwl 4(%rdi), %eax			; X64-NEXT: movzwl 4(%rdi), %eax
	; X64-NEXT: movzbl 6(%rdi), %ecx			; X64-NEXT: movl $384, %ecx # imm = 0x180
	; X64-NEXT: movb %cl, 6(%rdi)			; X64-NEXT: orl (%rdi), %ecx
	; X64-NEXT: # kill: def $ecx killed $ecx killed $rcx def $rcx			; X64-NEXT: andl $-128, %ecx
	; X64-NEXT: shll $16, %ecx			; X64-NEXT: movw %ax, 4(%rdi)
	; X64-NEXT: orl %eax, %ecx
	; X64-NEXT: shlq $32, %rcx
	; X64-NEXT: movl (%rdi), %eax
	; X64-NEXT: orq %rcx, %rax
	; X64-NEXT: orq $384, %rax # imm = 0x180
	; X64-NEXT: movabsq $72057594037927808, %rcx # imm = 0xFFFFFFFFFFFF80
	; X64-NEXT: andq %rax, %rcx
	; X64-NEXT: movl %ecx, (%rdi)			; X64-NEXT: movl %ecx, (%rdi)
	; X64-NEXT: shrq $32, %rcx
	; X64-NEXT: movw %cx, 4(%rdi)
	; X64-NEXT: retq			; X64-NEXT: retq
	%b = load i56, i56* %a, align 1			%b = load i56, i56* %a, align 1
	%c = and i56 %b, -128			%c = and i56 %b, -128
	%d = or i56 %c, 384			%d = or i56 %c, 384
	store i56 %d, i56* %a, align 1			store i56 %d, i56* %a, align 1
	ret void			ret void
	}			}

	define void @i56_insert_bit(i56* %a, i1 zeroext %bit) {			define void @i56_insert_bit(i56* %a, i1 zeroext %bit) {
	; X86-LABEL: i56_insert_bit:			; X86-LABEL: i56_insert_bit:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: movzbl {{[0-9]+}}(%esp), %ecx			; X86-NEXT: movzbl {{[0-9]+}}(%esp), %ecx
	; X86-NEXT: shll $13, %ecx			; X86-NEXT: shll $13, %ecx
	; X86-NEXT: movl $-8193, %edx # imm = 0xDFFF			; X86-NEXT: movl $-8193, %edx # imm = 0xDFFF
	; X86-NEXT: andl (%eax), %edx			; X86-NEXT: andl (%eax), %edx
	; X86-NEXT: orl %ecx, %edx			; X86-NEXT: orl %ecx, %edx
	; X86-NEXT: movl %edx, (%eax)			; X86-NEXT: movl %edx, (%eax)
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: i56_insert_bit:			; X64-LABEL: i56_insert_bit:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movl %esi, %eax			; X64-NEXT: movzwl 4(%rdi), %eax
	; X64-NEXT: movzwl 4(%rdi), %ecx			; X64-NEXT: shll $13, %esi
	; X64-NEXT: movzbl 6(%rdi), %edx			; X64-NEXT: movl $-8193, %ecx # imm = 0xDFFF
	; X64-NEXT: movb %dl, 6(%rdi)			; X64-NEXT: andl (%rdi), %ecx
	; X64-NEXT: # kill: def $edx killed $edx killed $rdx def $rdx			; X64-NEXT: orl %esi, %ecx
	; X64-NEXT: shll $16, %edx			; X64-NEXT: movw %ax, 4(%rdi)
	; X64-NEXT: orl %ecx, %edx			; X64-NEXT: movl %ecx, (%rdi)
	; X64-NEXT: shlq $32, %rdx
	; X64-NEXT: movl (%rdi), %ecx
	; X64-NEXT: orq %rdx, %rcx
	; X64-NEXT: shlq $13, %rax
	; X64-NEXT: movabsq $72057594037919743, %rdx # imm = 0xFFFFFFFFFFDFFF
	; X64-NEXT: andq %rcx, %rdx
	; X64-NEXT: orq %rax, %rdx
	; X64-NEXT: movl %edx, (%rdi)
	; X64-NEXT: shrq $32, %rdx
	; X64-NEXT: movw %dx, 4(%rdi)
	; X64-NEXT: retq			; X64-NEXT: retq
	%extbit = zext i1 %bit to i56			%extbit = zext i1 %bit to i56
	%b = load i56, i56* %a, align 1			%b = load i56, i56* %a, align 1
	%extbit.shl = shl nuw nsw i56 %extbit, 13			%extbit.shl = shl nuw nsw i56 %extbit, 13
	%c = and i56 %b, -8193			%c = and i56 %b, -8193
	%d = or i56 %c, %extbit.shl			%d = or i56 %c, %extbit.shl
	store i56 %d, i56* %a, align 1			store i56 %d, i56* %a, align 1
	ret void			ret void
	}			}

test/CodeGen/X86/insertelement-ones.ll

	Show First 20 Lines • Show All 285 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vorps {{.*}}(%rip), %ymm0, %ymm0			; AVX1-NEXT: vorps {{.*}}(%rip), %ymm0, %ymm0
	; AVX1-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0			; AVX1-NEXT: vandps {{.*}}(%rip), %ymm0, %ymm0
	; AVX1-NEXT: vorps {{.*}}(%rip), %ymm0, %ymm0			; AVX1-NEXT: vorps {{.*}}(%rip), %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: insert_v16i16_x12345x789ABCDEx:			; AVX2-LABEL: insert_v16i16_x12345x789ABCDEx:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpcmpeqd %ymm1, %ymm1, %ymm1			; AVX2-NEXT: vpcmpeqd %ymm1, %ymm1, %ymm1
	; AVX2-NEXT: vpblendw {{.*#+}} ymm2 = ymm1[0],ymm0[1,2,3,4,5,6,7],ymm1[8],ymm0[9,10,11,12,13,14,15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm2 = ymm1[0],ymm0[1,2,3,4,5],ymm1[6],ymm0[7],ymm1[8],ymm0[9,10,11,12,13],ymm1[14],ymm0[15]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: vpblendw {{.*#+}} ymm2 = ymm2[0,1,2,3,4,5],ymm1[6],ymm2[7,8,9,10,11,12,13],ymm1[14],ymm2[15]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm2[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm1[7],ymm0[8,9,10,11,12,13,14],ymm1[15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm1[7],ymm0[8,9,10,11,12,13,14],ymm1[15]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm2[0,1,2,3],ymm0[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm2[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: insert_v16i16_x12345x789ABCDEx:			; AVX512-LABEL: insert_v16i16_x12345x789ABCDEx:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpcmpeqd %ymm1, %ymm1, %ymm1			; AVX512-NEXT: vpcmpeqd %ymm1, %ymm1, %ymm1
	; AVX512-NEXT: vpblendw {{.*#+}} ymm2 = ymm1[0],ymm0[1,2,3,4,5,6,7],ymm1[8],ymm0[9,10,11,12,13,14,15]			; AVX512-NEXT: vpblendw {{.*#+}} ymm2 = ymm1[0],ymm0[1,2,3,4,5],ymm1[6],ymm0[7],ymm1[8],ymm0[9,10,11,12,13],ymm1[14],ymm0[15]
	; AVX512-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm0[4,5,6,7]
	; AVX512-NEXT: vpblendw {{.*#+}} ymm2 = ymm2[0,1,2,3,4,5],ymm1[6],ymm2[7,8,9,10,11,12,13],ymm1[14],ymm2[15]
	; AVX512-NEXT: vpblendd {{.*#+}} ymm0 = ymm2[0,1,2,3],ymm0[4,5,6,7]
	; AVX512-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm1[7],ymm0[8,9,10,11,12,13,14],ymm1[15]			; AVX512-NEXT: vpblendw {{.*#+}} ymm0 = ymm0[0,1,2,3,4,5,6],ymm1[7],ymm0[8,9,10,11,12,13,14],ymm1[15]
	; AVX512-NEXT: vpblendd {{.*#+}} ymm0 = ymm2[0,1,2,3],ymm0[4,5,6,7]			; AVX512-NEXT: vpblendd {{.*#+}} ymm0 = ymm2[0,1,2,3],ymm0[4,5,6,7]
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = insertelement <16 x i16> %a, i16 -1, i32 0			%1 = insertelement <16 x i16> %a, i16 -1, i32 0
	%2 = insertelement <16 x i16> %1, i16 -1, i32 6			%2 = insertelement <16 x i16> %1, i16 -1, i32 6
	%3 = insertelement <16 x i16> %2, i16 -1, i32 15			%3 = insertelement <16 x i16> %2, i16 -1, i32 15
	ret <16 x i16> %3			ret <16 x i16> %3
	}			}
	▲ Show 20 Lines • Show All 127 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: pinsrb $15, %eax, %xmm1			; SSE41-NEXT: pinsrb $15, %eax, %xmm1
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: insert_v32i8_x123456789ABCDEzGHIJKLMNOPQRSTxx:			; AVX1-LABEL: insert_v32i8_x123456789ABCDEzGHIJKLMNOPQRSTxx:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: movl $255, %eax			; AVX1-NEXT: movl $255, %eax
	; AVX1-NEXT: vpinsrb $0, %eax, %xmm0, %xmm1			; AVX1-NEXT: vpinsrb $0, %eax, %xmm0, %xmm1
	; AVX1-NEXT: vpinsrb $15, %eax, %xmm1, %xmm1			; AVX1-NEXT: vpinsrb $15, %eax, %xmm1, %xmm1
	; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vpinsrb $14, %eax, %xmm0, %xmm0			; AVX1-NEXT: vpinsrb $14, %eax, %xmm0, %xmm0
	; AVX1-NEXT: vpinsrb $15, %eax, %xmm0, %xmm0			; AVX1-NEXT: vpinsrb $15, %eax, %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: insert_v32i8_x123456789ABCDEzGHIJKLMNOPQRSTxx:			; AVX2-LABEL: insert_v32i8_x123456789ABCDEzGHIJKLMNOPQRSTxx:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: movl $255, %eax			; AVX2-NEXT: movl $255, %eax
	; AVX2-NEXT: vpinsrb $0, %eax, %xmm0, %xmm1			; AVX2-NEXT: vpinsrb $0, %eax, %xmm0, %xmm1
	; AVX2-NEXT: vpinsrb $15, %eax, %xmm1, %xmm1			; AVX2-NEXT: vpinsrb $15, %eax, %xmm1, %xmm1
	; AVX2-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0
	; AVX2-NEXT: vpinsrb $14, %eax, %xmm0, %xmm0			; AVX2-NEXT: vpinsrb $14, %eax, %xmm0, %xmm0
	; AVX2-NEXT: vpinsrb $15, %eax, %xmm0, %xmm0			; AVX2-NEXT: vpinsrb $15, %eax, %xmm0, %xmm0
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: insert_v32i8_x123456789ABCDEzGHIJKLMNOPQRSTxx:			; AVX512-LABEL: insert_v32i8_x123456789ABCDEzGHIJKLMNOPQRSTxx:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: movl $255, %eax			; AVX512-NEXT: movl $255, %eax
	; AVX512-NEXT: vpinsrb $0, %eax, %xmm0, %xmm1			; AVX512-NEXT: vpinsrb $0, %eax, %xmm0, %xmm1
	; AVX512-NEXT: vpinsrb $15, %eax, %xmm1, %xmm1			; AVX512-NEXT: vpinsrb $15, %eax, %xmm1, %xmm1
	; AVX512-NEXT: vpblendd {{.*#+}} ymm1 = ymm1[0,1,2,3],ymm0[4,5,6,7]
	; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm0			; AVX512-NEXT: vextracti128 $1, %ymm0, %xmm0
	; AVX512-NEXT: vpinsrb $14, %eax, %xmm0, %xmm0			; AVX512-NEXT: vpinsrb $14, %eax, %xmm0, %xmm0
	; AVX512-NEXT: vpinsrb $15, %eax, %xmm0, %xmm0			; AVX512-NEXT: vpinsrb $15, %eax, %xmm0, %xmm0
	; AVX512-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0			; AVX512-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = insertelement <32 x i8> %a, i8 -1, i32 0			%1 = insertelement <32 x i8> %a, i8 -1, i32 0
	%2 = insertelement <32 x i8> %1, i8 -1, i32 15			%2 = insertelement <32 x i8> %1, i8 -1, i32 15
	%3 = insertelement <32 x i8> %2, i8 -1, i32 30			%3 = insertelement <32 x i8> %2, i8 -1, i32 30
	%4 = insertelement <32 x i8> %3, i8 -1, i32 31			%4 = insertelement <32 x i8> %3, i8 -1, i32 31
	ret <32 x i8> %4			ret <32 x i8> %4
	}			}

test/CodeGen/X86/jump_sign.ll

	Show First 20 Lines • Show All 232 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: # %bb.3: # %sw.bb			; CHECK-NEXT: # %bb.3: # %sw.bb
	; CHECK-NEXT: xorl %eax, %eax			; CHECK-NEXT: xorl %eax, %eax
	; CHECK-NEXT: testb %al, %al			; CHECK-NEXT: testb %al, %al
	; CHECK-NEXT: jne .LBB12_8			; CHECK-NEXT: jne .LBB12_8
	; CHECK-NEXT: # %bb.4: # %if.end29			; CHECK-NEXT: # %bb.4: # %if.end29
	; CHECK-NEXT: movzwl (%eax), %eax			; CHECK-NEXT: movzwl (%eax), %eax
	; CHECK-NEXT: movzwl %ax, %eax			; CHECK-NEXT: movzwl %ax, %eax
	; CHECK-NEXT: imull $52429, %eax, %ecx # imm = 0xCCCD			; CHECK-NEXT: imull $52429, %eax, %ecx # imm = 0xCCCD
	; CHECK-NEXT: shrl $19, %ecx			; CHECK-NEXT: shrl $18, %ecx
	; CHECK-NEXT: addl %ecx, %ecx			; CHECK-NEXT: andl $-2, %ecx
	; CHECK-NEXT: leal (%ecx,%ecx,4), %ecx			; CHECK-NEXT: leal (%ecx,%ecx,4), %ecx
	; CHECK-NEXT: cmpw %cx, %ax			; CHECK-NEXT: cmpw %cx, %ax
	; CHECK-NEXT: jne .LBB12_5			; CHECK-NEXT: jne .LBB12_5
	; CHECK-NEXT: .LBB12_8: # %if.then44			; CHECK-NEXT: .LBB12_8: # %if.then44
	; CHECK-NEXT: xorl %eax, %eax			; CHECK-NEXT: xorl %eax, %eax
	; CHECK-NEXT: testb %al, %al			; CHECK-NEXT: testb %al, %al
	; CHECK-NEXT: je .LBB12_9			; CHECK-NEXT: je .LBB12_9
	; CHECK-NEXT: # %bb.10: # %if.else.i104			; CHECK-NEXT: # %bb.10: # %if.else.i104
	▲ Show 20 Lines • Show All 183 Lines • Show Last 20 Lines

test/CodeGen/X86/legalize-shift-64.ll

	Show First 20 Lines • Show All 137 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: .cfi_def_cfa_offset 8			; CHECK-NEXT: .cfi_def_cfa_offset 8
	; CHECK-NEXT: .cfi_offset %ebp, -8			; CHECK-NEXT: .cfi_offset %ebp, -8
	; CHECK-NEXT: movl %esp, %ebp			; CHECK-NEXT: movl %esp, %ebp
	; CHECK-NEXT: .cfi_def_cfa_register %ebp			; CHECK-NEXT: .cfi_def_cfa_register %ebp
	; CHECK-NEXT: andl $-8, %esp			; CHECK-NEXT: andl $-8, %esp
	; CHECK-NEXT: subl $16, %esp			; CHECK-NEXT: subl $16, %esp
	; CHECK-NEXT: movl $1, {{[0-9]+}}(%esp)			; CHECK-NEXT: movl $1, {{[0-9]+}}(%esp)
	; CHECK-NEXT: movl {{[0-9]+}}(%esp), %eax			; CHECK-NEXT: movl {{[0-9]+}}(%esp), %eax
	; CHECK-NEXT: xorl %eax, %eax			; CHECK-NEXT: movb $1, %al
	; CHECK-NEXT: orl $0, %eax			; CHECK-NEXT: testb %al, %al
	; CHECK-NEXT: je .LBB5_3			; CHECK-NEXT: jne .LBB5_3
	; CHECK-NEXT: # %bb.1: # %if.then			; CHECK-NEXT: # %bb.1: # %if.then
	; CHECK-NEXT: movl $1, %eax			; CHECK-NEXT: movl $1, %eax
	; CHECK-NEXT: jmp .LBB5_2			; CHECK-NEXT: jmp .LBB5_2
	; CHECK-NEXT: .LBB5_3: # %if.end			; CHECK-NEXT: .LBB5_3: # %if.end
	; CHECK-NEXT: xorl %eax, %eax			; CHECK-NEXT: xorl %eax, %eax
	; CHECK-NEXT: .LBB5_2: # %if.then			; CHECK-NEXT: .LBB5_2: # %if.then
	; CHECK-NEXT: movl %ebp, %esp			; CHECK-NEXT: movl %ebp, %esp
	; CHECK-NEXT: popl %ebp			; CHECK-NEXT: popl %ebp
	Show All 20 Lines

test/CodeGen/X86/mmx-cvt.ll

	Show First 20 Lines • Show All 262 Lines • ▼ Show 20 Lines
	; X86-NEXT: pushl %ebp			; X86-NEXT: pushl %ebp
	; X86-NEXT: movl %esp, %ebp			; X86-NEXT: movl %esp, %ebp
	; X86-NEXT: andl $-8, %esp			; X86-NEXT: andl $-8, %esp
	; X86-NEXT: subl $8, %esp			; X86-NEXT: subl $8, %esp
	; X86-NEXT: movl 8(%ebp), %eax			; X86-NEXT: movl 8(%ebp), %eax
	; X86-NEXT: movq (%eax), %mm0			; X86-NEXT: movq (%eax), %mm0
	; X86-NEXT: paddd %mm0, %mm0			; X86-NEXT: paddd %mm0, %mm0
	; X86-NEXT: movq %mm0, (%esp)			; X86-NEXT: movq %mm0, (%esp)
	; X86-NEXT: cvtdq2pd (%esp), %xmm0			; X86-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
				xbolva00Unsubmitted Not Done Reply Inline Actions Weird instruction increase xbolva00: Weird instruction increase
				deadalnixAuthorUnsubmitted Done Reply Inline Actions Yes. It looks like there are a few regressions, even though overall codegen looks better. I'm happy to investigate them, but I'd like to know if this is like to go forward in principle before investing too much effort that will be wasted. deadalnix: Yes. It looks like there are a few regressions, even though overall codegen looks better. I'm…
				; X86-NEXT: cvtdq2pd %xmm0, %xmm0
	; X86-NEXT: movl %ebp, %esp			; X86-NEXT: movl %ebp, %esp
	; X86-NEXT: popl %ebp			; X86-NEXT: popl %ebp
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: sitofp_v2i32_v2f64:			; X64-LABEL: sitofp_v2i32_v2f64:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movq (%rdi), %mm0			; X64-NEXT: movq (%rdi), %mm0
	; X64-NEXT: paddd %mm0, %mm0			; X64-NEXT: paddd %mm0, %mm0
	; X64-NEXT: movq2dq %mm0, %xmm0			; X64-NEXT: movq %mm0, -{{[0-9]+}}(%rsp)
	; X64-NEXT: cvtdq2pd %xmm0, %xmm0			; X64-NEXT: cvtdq2pd -{{[0-9]+}}(%rsp), %xmm0
	; X64-NEXT: retq			; X64-NEXT: retq
	%2 = bitcast <1 x i64>* %0 to x86_mmx*			%2 = bitcast <1 x i64>* %0 to x86_mmx*
	%3 = load x86_mmx, x86_mmx* %2, align 8			%3 = load x86_mmx, x86_mmx* %2, align 8
	%4 = tail call x86_mmx @llvm.x86.mmx.padd.d(x86_mmx %3, x86_mmx %3)			%4 = tail call x86_mmx @llvm.x86.mmx.padd.d(x86_mmx %3, x86_mmx %3)
	%5 = bitcast x86_mmx %4 to i64			%5 = bitcast x86_mmx %4 to i64
	%6 = insertelement <2 x i64> undef, i64 %5, i32 0			%6 = insertelement <2 x i64> undef, i64 %5, i32 0
	%7 = bitcast <2 x i64> %6 to <4 x i32>			%7 = bitcast <2 x i64> %6 to <4 x i32>
	%8 = shufflevector <4 x i32> %7, <4 x i32> undef, <2 x i32> <i32 0, i32 1>			%8 = shufflevector <4 x i32> %7, <4 x i32> undef, <2 x i32> <i32 0, i32 1>
	▲ Show 20 Lines • Show All 80 Lines • Show Last 20 Lines

test/CodeGen/X86/movmsk.ll

	Show First 20 Lines • Show All 94 Lines • ▼ Show 20 Lines
	}			}

	; PR11570			; PR11570
	; FIXME: This should also use movmskps; we don't form the FGETSIGN node			; FIXME: This should also use movmskps; we don't form the FGETSIGN node
	; in this case, though.			; in this case, though.
	define void @float_call_signbit(double %n) {			define void @float_call_signbit(double %n) {
	; CHECK-LABEL: float_call_signbit:			; CHECK-LABEL: float_call_signbit:
	; CHECK: ## %bb.0: ## %entry			; CHECK: ## %bb.0: ## %entry
	; CHECK-NEXT: movq %xmm0, %rdi			; CHECK-NEXT: movmskpd %xmm0, %edi
	; CHECK-NEXT: shrq $63, %rdi			; CHECK-NEXT: andl $1, %edi
	; CHECK-NEXT: ## kill: def $edi killed $edi killed $rdi
	; CHECK-NEXT: jmp _float_call_signbit_callee ## TAILCALL			; CHECK-NEXT: jmp _float_call_signbit_callee ## TAILCALL
	entry:			entry:
	%t0 = bitcast double %n to i64			%t0 = bitcast double %n to i64
	%tobool.i.i.i.i = icmp slt i64 %t0, 0			%tobool.i.i.i.i = icmp slt i64 %t0, 0
	tail call void @float_call_signbit_callee(i1 zeroext %tobool.i.i.i.i)			tail call void @float_call_signbit_callee(i1 zeroext %tobool.i.i.i.i)
	ret void			ret void
	}			}
	declare void @float_call_signbit_callee(i1 zeroext)			declare void @float_call_signbit_callee(i1 zeroext)
	▲ Show 20 Lines • Show All 71 Lines • Show Last 20 Lines

test/CodeGen/X86/not-and-simplify.ll

Show All 13 Lines	; ALL-NEXT: retq
%sh = lshr i32 %x, 31		%sh = lshr i32 %x, 31
%not = xor i32 %sh, -1		%not = xor i32 %sh, -1
%and = and i32 %not, 1		%and = and i32 %not, 1
ret i32 %and		ret i32 %and
}		}

define <4 x i32> @shrink_xor_constant1_splat(<4 x i32> %x) {		define <4 x i32> @shrink_xor_constant1_splat(<4 x i32> %x) {
; ALL-LABEL: shrink_xor_constant1_splat:		; ALL-LABEL: shrink_xor_constant1_splat:
; ALL: # %bb.0:		; ALL: # %bb.0:
		xbolva00Unsubmitted Not Done Reply Inline Actions Bug? xbolva00: Bug?
		RKSimonUnsubmitted Not Done Reply Inline Actions Alive says its ok: https://rise4fun.com/Alive/MDFW And it replaces a load with a re-rematerializable constant RKSimon: Alive says its ok: https://rise4fun.com/Alive/MDFW And it replaces a load with a re…
		deadalnixAuthorUnsubmitted Done Reply Inline Actions I assume this is an improvement, right ? deadalnix: I assume this is an improvement, right ?
		; ALL-NEXT: pcmpeqd %xmm1, %xmm1
		; ALL-NEXT: pxor %xmm1, %xmm0
; ALL-NEXT: psrld $31, %xmm0		; ALL-NEXT: psrld $31, %xmm0
; ALL-NEXT: pxor {{.*}}(%rip), %xmm0
; ALL-NEXT: retq		; ALL-NEXT: retq
%sh = lshr <4 x i32> %x, <i32 31, i32 31, i32 31, i32 31>		%sh = lshr <4 x i32> %x, <i32 31, i32 31, i32 31, i32 31>
%not = xor <4 x i32> %sh, <i32 -1, i32 -1, i32 -1, i32 -1>		%not = xor <4 x i32> %sh, <i32 -1, i32 -1, i32 -1, i32 -1>
%and = and <4 x i32> %not, <i32 1, i32 1, i32 1, i32 1>		%and = and <4 x i32> %not, <i32 1, i32 1, i32 1, i32 1>
ret <4 x i32> %and		ret <4 x i32> %and
}		}

; Clear low bits via shift, set them with xor (not), then mask them off.		; Clear low bits via shift, set them with xor (not), then mask them off.
Show All 26 Lines

test/CodeGen/X86/oddshuffles.ll

	Show First 20 Lines • Show All 1,576 Lines • ▼ Show 20 Lines
	; SSE42-NEXT: movdqu %xmm5, 32(%rdi)			; SSE42-NEXT: movdqu %xmm5, 32(%rdi)
	; SSE42-NEXT: movdqu %xmm3, 16(%rdi)			; SSE42-NEXT: movdqu %xmm3, 16(%rdi)
	; SSE42-NEXT: movdqu %xmm0, (%rdi)			; SSE42-NEXT: movdqu %xmm0, (%rdi)
	; SSE42-NEXT: retq			; SSE42-NEXT: retq
	;			;
	; AVX1-LABEL: interleave_24i32_in:			; AVX1-LABEL: interleave_24i32_in:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovupd (%rsi), %ymm0			; AVX1-NEXT: vmovupd (%rsi), %ymm0
	; AVX1-NEXT: vmovupd (%rcx), %ymm1			; AVX1-NEXT: vmovups 16(%rcx), %xmm1
	; AVX1-NEXT: vmovups 16(%rcx), %xmm2			; AVX1-NEXT: vmovups (%rdx), %xmm2
	; AVX1-NEXT: vmovups (%rdx), %xmm3			; AVX1-NEXT: vmovups 16(%rdx), %xmm3
	; AVX1-NEXT: vmovups 16(%rdx), %xmm4			; AVX1-NEXT: vshufps {{.*#+}} xmm4 = xmm3[3,0],xmm1[3,0]
	; AVX1-NEXT: vshufps {{.*#+}} xmm5 = xmm4[3,0],xmm2[3,0]			; AVX1-NEXT: vshufps {{.*#+}} xmm4 = xmm1[2,1],xmm4[0,2]
	; AVX1-NEXT: vshufps {{.*#+}} xmm5 = xmm2[2,1],xmm5[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm1[1,0],xmm3[1,0]
	; AVX1-NEXT: vshufps {{.*#+}} xmm2 = xmm2[1,0],xmm4[1,0]			; AVX1-NEXT: vshufps {{.*#+}} xmm1 = xmm1[2,0],xmm3[2,2]
	; AVX1-NEXT: vshufps {{.*#+}} xmm2 = xmm2[2,0],xmm4[2,2]			; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1
	; AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm2, %ymm2			; AVX1-NEXT: vpermilpd {{.*#+}} ymm3 = ymm0[1,1,3,3]
	; AVX1-NEXT: vpermilpd {{.*#+}} ymm4 = ymm0[1,1,3,3]			; AVX1-NEXT: vperm2f128 {{.*#+}} ymm3 = ymm3[2,3,2,3]
	; AVX1-NEXT: vperm2f128 {{.*#+}} ymm4 = ymm4[2,3,2,3]			; AVX1-NEXT: vblendps {{.*#+}} ymm1 = ymm1[0,1],ymm3[2],ymm1[3,4],ymm3[5],ymm1[6,7]
	; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1],ymm4[2],ymm2[3,4],ymm4[5],ymm2[6,7]			; AVX1-NEXT: vmovups (%rsi), %xmm3
	; AVX1-NEXT: vmovups (%rsi), %xmm4			; AVX1-NEXT: vshufps {{.*#+}} xmm4 = xmm3[2,0],xmm2[2,0]
	; AVX1-NEXT: vshufps {{.*#+}} xmm5 = xmm4[2,0],xmm3[2,0]			; AVX1-NEXT: vshufps {{.*#+}} xmm4 = xmm2[1,1],xmm4[0,2]
	; AVX1-NEXT: vshufps {{.*#+}} xmm5 = xmm3[1,1],xmm5[0,2]			; AVX1-NEXT: vshufps {{.*#+}} xmm2 = xmm2[0,0],xmm3[0,0]
	; AVX1-NEXT: vshufps {{.*#+}} xmm3 = xmm3[0,0],xmm4[0,0]			; AVX1-NEXT: vshufps {{.*#+}} xmm2 = xmm2[2,0],xmm3[2,1]
	; AVX1-NEXT: vshufps {{.*#+}} xmm3 = xmm3[2,0],xmm4[2,1]			; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2
	; AVX1-NEXT: vinsertf128 $1, %xmm5, %ymm3, %ymm3			; AVX1-NEXT: vmovddup {{.*#+}} xmm3 = mem[0,0]
	; AVX1-NEXT: vmovddup {{.*#+}} xmm4 = xmm1[0,0]			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm3, %ymm3
	; AVX1-NEXT: vinsertf128 $1, %xmm4, %ymm4, %ymm4			; AVX1-NEXT: vblendps {{.*#+}} ymm2 = ymm2[0,1],ymm3[2],ymm2[3,4],ymm3[5],ymm2[6,7]
	; AVX1-NEXT: vblendps {{.*#+}} ymm3 = ymm3[0,1],ymm4[2],ymm3[3,4],ymm4[5],ymm3[6,7]			; AVX1-NEXT: vpermilpd {{.*#+}} ymm3 = mem[1,1,2,2]
	; AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,2,2]			; AVX1-NEXT: vpermilpd {{.*#+}} ymm0 = ymm0[1,0,2,2]
	; AVX1-NEXT: vpermilpd {{.*#+}} ymm1 = ymm1[1,1,2,2]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm3[0],ymm0[1],ymm3[2,3],ymm0[4],ymm3[5,6],ymm0[7]
	; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0],ymm0[1],ymm1[2,3],ymm0[4],ymm1[5,6],ymm0[7]			; AVX1-NEXT: vpermilps {{.*#+}} ymm3 = mem[0,0,3,3,4,4,7,7]
	; AVX1-NEXT: vpermilps {{.*#+}} ymm1 = mem[0,0,3,3,4,4,7,7]			; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm3[2],ymm0[3,4],ymm3[5],ymm0[6,7]
	; AVX1-NEXT: vblendps {{.*#+}} ymm0 = ymm0[0,1],ymm1[2],ymm0[3,4],ymm1[5],ymm0[6,7]
	; AVX1-NEXT: vmovups %ymm0, 32(%rdi)			; AVX1-NEXT: vmovups %ymm0, 32(%rdi)
	; AVX1-NEXT: vmovups %ymm3, (%rdi)			; AVX1-NEXT: vmovups %ymm2, (%rdi)
	; AVX1-NEXT: vmovups %ymm2, 64(%rdi)			; AVX1-NEXT: vmovups %ymm1, 64(%rdi)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: interleave_24i32_in:			; AVX2-SLOW-LABEL: interleave_24i32_in:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vmovups (%rsi), %ymm0			; AVX2-SLOW-NEXT: vmovups (%rsi), %ymm0
	; AVX2-SLOW-NEXT: vmovups (%rdx), %ymm1			; AVX2-SLOW-NEXT: vmovups (%rdx), %ymm1
	; AVX2-SLOW-NEXT: vmovups (%rcx), %ymm2			; AVX2-SLOW-NEXT: vmovups (%rcx), %ymm2
	▲ Show 20 Lines • Show All 148 Lines • Show Last 20 Lines

test/CodeGen/X86/pr32282.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-unknown-unknown -mcpu=skx \| FileCheck %s --check-prefix=X86			; RUN: llc < %s -mtriple=i686-unknown-unknown -mcpu=skx \| FileCheck %s --check-prefix=X86
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=skx \| FileCheck %s --check-prefix=X64			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=skx \| FileCheck %s --check-prefix=X64

	; Check for assert in foldMaskAndShiftToScale due to out of range mask scaling.			; Check for assert in foldMaskAndShiftToScale due to out of range mask scaling.

	@b = common global i8 zeroinitializer, align 1			@b = common global i8 zeroinitializer, align 1
	@c = common global i8 zeroinitializer, align 1			@c = common global i8 zeroinitializer, align 1
	@d = common global i64 zeroinitializer, align 8			@d = common global i64 zeroinitializer, align 8
	@e = common global i64 zeroinitializer, align 8			@e = common global i64 zeroinitializer, align 8

	define void @foo(i64 %x) nounwind {			define void @foo(i64 %x) nounwind {
	; X86-LABEL: foo:			; X86-LABEL: foo:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: pushl %eax			; X86-NEXT: pushl %eax
	; X86-NEXT: movl d, %eax			; X86-NEXT: movl d+4, %eax
	; X86-NEXT: notl %eax			; X86-NEXT: notl %eax
	; X86-NEXT: movl d+4, %ecx			; X86-NEXT: movl d, %ecx
	; X86-NEXT: notl %ecx			; X86-NEXT: notl %ecx
	; X86-NEXT: andl $701685459, %ecx # imm = 0x29D2DED3			; X86-NEXT: andl $-566231040, %ecx # imm = 0xDE400000
	; X86-NEXT: andl $-564453154, %eax # imm = 0xDE5B20DE			; X86-NEXT: andl $701685459, %eax # imm = 0x29D2DED3
	; X86-NEXT: shrdl $21, %ecx, %eax			; X86-NEXT: shrdl $21, %eax, %ecx
	; X86-NEXT: shrl $21, %ecx			; X86-NEXT: shrl $21, %eax
	; X86-NEXT: andl $-2, %eax			; X86-NEXT: addl $7, %ecx
	; X86-NEXT: addl $7, %eax
	; X86-NEXT: adcl $0, %ecx
	; X86-NEXT: pushl %ecx
	; X86-NEXT: pushl %eax			; X86-NEXT: pushl %eax
				; X86-NEXT: pushl %ecx
	; X86-NEXT: pushl {{[0-9]+}}(%esp)			; X86-NEXT: pushl {{[0-9]+}}(%esp)
	; X86-NEXT: pushl {{[0-9]+}}(%esp)			; X86-NEXT: pushl {{[0-9]+}}(%esp)
	; X86-NEXT: calll __divdi3			; X86-NEXT: calll __divdi3
	; X86-NEXT: addl $16, %esp			; X86-NEXT: addl $16, %esp
	; X86-NEXT: orl %eax, %edx			; X86-NEXT: orl %eax, %edx
	; X86-NEXT: setne {{[0-9]+}}(%esp)			; X86-NEXT: setne {{[0-9]+}}(%esp)
	; X86-NEXT: popl %eax			; X86-NEXT: popl %eax
	; X86-NEXT: retl			; X86-NEXT: retl
	▲ Show 20 Lines • Show All 52 Lines • Show Last 20 Lines

test/CodeGen/X86/pr33844.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -o - %s \| FileCheck %s			; RUN: llc -o - %s \| FileCheck %s

	target datalayout = "e-m:e-i64:64-f80:128-n8:16:32:64-S128"			target datalayout = "e-m:e-i64:64-f80:128-n8:16:32:64-S128"
	target triple = "x86_64-unknown-linux-gnu"			target triple = "x86_64-unknown-linux-gnu"

	@global = external global i32			@global = external global i32
	@global.1 = external global i64			@global.1 = external global i64

	define void @patatino() {			define void @patatino() {
	; CHECK-LABEL: patatino:			; CHECK-LABEL: patatino:
	; CHECK: # %bb.0: # %bb			; CHECK: # %bb.0: # %bb
	; CHECK-NEXT: movl {{.*}}(%rip), %eax			; CHECK-NEXT: andl $-536870912, {{.*}}(%rip) # imm = 0xE0000000
	; CHECK-NEXT: movl %eax, %ecx
	; CHECK-NEXT: shrl $31, %ecx
	; CHECK-NEXT: addl $2147483647, %ecx # imm = 0x7FFFFFFF
	; CHECK-NEXT: shrl $31, %ecx
	; CHECK-NEXT: andl $-2, %ecx
	; CHECK-NEXT: andl $-536870912, %eax # imm = 0xE0000000
	; CHECK-NEXT: orl %ecx, %eax
	; CHECK-NEXT: movl %eax, {{.*}}(%rip)
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	bb:			bb:
	%tmp = load i32, i32* @global			%tmp = load i32, i32* @global
	%tmp1 = lshr i32 %tmp, 31			%tmp1 = lshr i32 %tmp, 31
	%tmp2 = add nuw nsw i32 %tmp1, 2147483647			%tmp2 = add nuw nsw i32 %tmp1, 2147483647
	%tmp3 = load i64, i64* @global.1			%tmp3 = load i64, i64* @global.1
	%tmp4 = shl i64 %tmp3, 23			%tmp4 = shl i64 %tmp3, 23
	%tmp5 = add nsw i64 %tmp4, 8388639			%tmp5 = add nsw i64 %tmp4, 8388639
	Show All 9 Lines

test/CodeGen/X86/pr34592.ll

	Show All 15 Lines
	; CHECK-NEXT: vmovaps 176(%rbp), %ymm10			; CHECK-NEXT: vmovaps 176(%rbp), %ymm10
	; CHECK-NEXT: vmovaps 144(%rbp), %ymm11			; CHECK-NEXT: vmovaps 144(%rbp), %ymm11
	; CHECK-NEXT: vmovaps 112(%rbp), %ymm12			; CHECK-NEXT: vmovaps 112(%rbp), %ymm12
	; CHECK-NEXT: vmovaps 80(%rbp), %ymm13			; CHECK-NEXT: vmovaps 80(%rbp), %ymm13
	; CHECK-NEXT: vmovaps 48(%rbp), %ymm14			; CHECK-NEXT: vmovaps 48(%rbp), %ymm14
	; CHECK-NEXT: vmovaps 16(%rbp), %ymm15			; CHECK-NEXT: vmovaps 16(%rbp), %ymm15
	; CHECK-NEXT: vpblendd {{.*#+}} ymm2 = ymm6[0,1,2,3,4,5],ymm2[6,7]			; CHECK-NEXT: vpblendd {{.*#+}} ymm2 = ymm6[0,1,2,3,4,5],ymm2[6,7]
	; CHECK-NEXT: vmovaps %xmm9, %xmm6			; CHECK-NEXT: vmovaps %xmm9, %xmm6
	; CHECK-NEXT: vmovdqa %xmm6, %xmm9
	; CHECK-NEXT: # kill: def $ymm9 killed $xmm9
	; CHECK-NEXT: vmovaps %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; CHECK-NEXT: vmovaps %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; CHECK-NEXT: vxorps %xmm0, %xmm0, %xmm0			; CHECK-NEXT: vxorps %xmm0, %xmm0, %xmm0
	; CHECK-NEXT: vmovaps %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill			; CHECK-NEXT: vmovaps %ymm0, {{[-0-9]+}}(%r{{[sb]}}p) # 32-byte Spill
	; CHECK-NEXT: # implicit-def: $ymm0			; CHECK-NEXT: # implicit-def: $ymm0
	; CHECK-NEXT: vinserti128 $1, %xmm6, %ymm0, %ymm0			; CHECK-NEXT: vinserti128 $1, %xmm6, %ymm0, %ymm0
	; CHECK-NEXT: vpalignr {{.*#+}} ymm11 = ymm2[8,9,10,11,12,13,14,15],ymm11[0,1,2,3,4,5,6,7],ymm2[24,25,26,27,28,29,30,31],ymm11[16,17,18,19,20,21,22,23]			; CHECK-NEXT: vpalignr {{.*#+}} ymm11 = ymm2[8,9,10,11,12,13,14,15],ymm11[0,1,2,3,4,5,6,7],ymm2[24,25,26,27,28,29,30,31],ymm11[16,17,18,19,20,21,22,23]
	; CHECK-NEXT: vpermq {{.*#+}} ymm11 = ymm11[2,3,2,0]			; CHECK-NEXT: vpermq {{.*#+}} ymm11 = ymm11[2,3,2,0]
	; CHECK-NEXT: vpblendd {{.*#+}} ymm0 = ymm11[0,1,2,3],ymm0[4,5],ymm11[6,7]			; CHECK-NEXT: vpblendd {{.*#+}} ymm0 = ymm11[0,1,2,3],ymm0[4,5],ymm11[6,7]
	Show All 39 Lines

test/CodeGen/X86/pr35765.ll

	Show All 9 Lines
	; CHECK-LABEL: PR35765:			; CHECK-LABEL: PR35765:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: movb {{.*}}(%rip), %cl			; CHECK-NEXT: movb {{.*}}(%rip), %cl
	; CHECK-NEXT: addb $-118, %cl			; CHECK-NEXT: addb $-118, %cl
	; CHECK-NEXT: movl $4, %eax			; CHECK-NEXT: movl $4, %eax
	; CHECK-NEXT: shll %cl, %eax			; CHECK-NEXT: shll %cl, %eax
	; CHECK-NEXT: movzwl {{.*}}(%rip), %ecx			; CHECK-NEXT: movzwl {{.*}}(%rip), %ecx
	; CHECK-NEXT: movzwl {{.*}}(%rip), %edx			; CHECK-NEXT: movzwl {{.*}}(%rip), %edx
	; CHECK-NEXT: notl %edx			; CHECK-NEXT: xorl $2047, %edx # imm = 0x7FF
	; CHECK-NEXT: orl $63488, %edx # imm = 0xF800
	; CHECK-NEXT: movzwl %dx, %edx
	; CHECK-NEXT: orl %ecx, %edx			; CHECK-NEXT: orl %ecx, %edx
				; CHECK-NEXT: orl $63488, %edx # imm = 0xF800
	; CHECK-NEXT: xorl %eax, %edx			; CHECK-NEXT: xorl %eax, %edx
	; CHECK-NEXT: movslq %edx, %rax			; CHECK-NEXT: movslq %edx, %rax
	; CHECK-NEXT: movq %rax, {{.*}}(%rip)			; CHECK-NEXT: movq %rax, {{.*}}(%rip)
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	%bf.load.i = load i16, i16* bitcast ({ i8, i8 }* @s1 to i16*), align 2			%bf.load.i = load i16, i16* bitcast ({ i8, i8 }* @s1 to i16*), align 2
	%bf.clear.i = and i16 %bf.load.i, 2047			%bf.clear.i = and i16 %bf.load.i, 2047
	%conv.i = zext i16 %bf.clear.i to i32			%conv.i = zext i16 %bf.clear.i to i32
	Show All 15 Lines

test/CodeGen/X86/pr38185.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -o - %s -mtriple=x86_64--unknown-linux-gnu \| FileCheck %s			; RUN: llc -o - %s -mtriple=x86_64--unknown-linux-gnu \| FileCheck %s

	define void @foo(i32* %a, i32* %b, i32* noalias %c, i64 %s) {			define void @foo(i32* %a, i32* %b, i32* noalias %c, i64 %s) {
	; CHECK-LABEL: foo:			; CHECK-LABEL: foo:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: movq $0, -{{[0-9]+}}(%rsp)			; CHECK-NEXT: movq $0, -{{[0-9]+}}(%rsp)
	; CHECK-NEXT: jmp .LBB0_1			; CHECK-NEXT: jmp .LBB0_1
	; CHECK-NEXT: .p2align 4, 0x90			; CHECK-NEXT: .p2align 4, 0x90
	; CHECK-NEXT: .LBB0_2: # %body			; CHECK-NEXT: .LBB0_2: # %body
	; CHECK-NEXT: # in Loop: Header=BB0_1 Depth=1			; CHECK-NEXT: # in Loop: Header=BB0_1 Depth=1
	; CHECK-NEXT: movl $1, (%rdx,%r9,4)			; CHECK-NEXT: movl $1, (%rdx,%r8,4)
	; CHECK-NEXT: movzbl (%rdi,%r9,4), %r8d			; CHECK-NEXT: movl (%rdi,%r8,4), %eax
	; CHECK-NEXT: movzbl (%rsi,%r9,4), %eax			; CHECK-NEXT: andl (%rsi,%r8,4), %eax
	; CHECK-NEXT: andl %r8d, %eax
	; CHECK-NEXT: andl $1, %eax			; CHECK-NEXT: andl $1, %eax
	; CHECK-NEXT: movl %eax, (%rdi,%r9,4)			; CHECK-NEXT: movl %eax, (%rdi,%r8,4)
	; CHECK-NEXT: incq %r9			; CHECK-NEXT: incq %r8
	; CHECK-NEXT: movq %r9, -{{[0-9]+}}(%rsp)			; CHECK-NEXT: movq %r8, -{{[0-9]+}}(%rsp)
	; CHECK-NEXT: .LBB0_1: # %loop			; CHECK-NEXT: .LBB0_1: # %loop
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: movq -{{[0-9]+}}(%rsp), %r9			; CHECK-NEXT: movq -{{[0-9]+}}(%rsp), %r8
	; CHECK-NEXT: cmpq %rcx, %r9			; CHECK-NEXT: cmpq %rcx, %r8
	; CHECK-NEXT: jne .LBB0_2			; CHECK-NEXT: jne .LBB0_2
	; CHECK-NEXT: # %bb.3: # %endloop			; CHECK-NEXT: # %bb.3: # %endloop
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%i = alloca i64			%i = alloca i64
	store i64 0, i64* %i			store i64 0, i64* %i
	br label %loop			br label %loop

	loop:			loop:
	Show All 33 Lines

test/CodeGen/X86/psubus.ll

	Show First 20 Lines • Show All 1,664 Lines • ▼ Show 20 Lines
	; SSSE3-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1]
	; SSSE3-NEXT: movsd {{.*#+}} xmm3 = xmm1[0],xmm3[1]			; SSSE3-NEXT: movsd {{.*#+}} xmm3 = xmm1[0],xmm3[1]
	; SSSE3-NEXT: psubusw %xmm3, %xmm0			; SSSE3-NEXT: psubusw %xmm3, %xmm0
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: psubus_8i64_max:			; SSE41-LABEL: psubus_8i64_max:
	; SSE41: # %bb.0: # %vector.ph			; SSE41: # %bb.0: # %vector.ph
	; SSE41-NEXT: movdqa %xmm0, %xmm8			; SSE41-NEXT: movdqa %xmm0, %xmm8
	; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm4, %xmm0			; SSE41-NEXT: movdqa %xmm4, %xmm0
	; SSE41-NEXT: pxor %xmm6, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [9223372039002324991,9223372039002324991]			; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [9223372039002324991,9223372039002324991]
	; SSE41-NEXT: movdqa %xmm9, %xmm7			; SSE41-NEXT: movdqa %xmm5, %xmm7
				; SSE41-NEXT: pcmpeqd %xmm0, %xmm7
				; SSE41-NEXT: movdqa %xmm5, %xmm6
				; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
				; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
				; SSE41-NEXT: pand %xmm7, %xmm0
				; SSE41-NEXT: por %xmm6, %xmm0
				; SSE41-NEXT: movapd {{.*#+}} xmm6 = [65535,65535]
				; SSE41-NEXT: movapd %xmm6, %xmm10
				; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm10
				; SSE41-NEXT: movdqa %xmm3, %xmm0
				; SSE41-NEXT: pxor %xmm9, %xmm0
				; SSE41-NEXT: movdqa %xmm5, %xmm4
				; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
				; SSE41-NEXT: movdqa %xmm5, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm7			; SSE41-NEXT: pcmpgtd %xmm0, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm7[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm7[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm7, %xmm0			; SSE41-NEXT: por %xmm7, %xmm0
	; SSE41-NEXT: movapd {{.*#+}} xmm7 = [65535,65535]			; SSE41-NEXT: movapd %xmm6, %xmm4
	; SSE41-NEXT: movapd %xmm7, %xmm5
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm5
	; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm6, %xmm0
	; SSE41-NEXT: movdqa %xmm9, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm10 = xmm4[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm10, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm4
	; SSE41-NEXT: packusdw %xmm5, %xmm4			; SSE41-NEXT: packusdw %xmm10, %xmm4
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: pxor %xmm6, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm9, %xmm3			; SSE41-NEXT: movdqa %xmm5, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm3			; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm3[0,0,2,2]			; SSE41-NEXT: movdqa %xmm5, %xmm7
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm7[0,0,2,2]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0			; SSE41-NEXT: por %xmm7, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm3			; SSE41-NEXT: movapd %xmm6, %xmm3
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3
	; SSE41-NEXT: pxor %xmm1, %xmm6			; SSE41-NEXT: pxor %xmm1, %xmm9
	; SSE41-NEXT: movdqa %xmm9, %xmm2			; SSE41-NEXT: movdqa %xmm5, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm6, %xmm2			; SSE41-NEXT: pcmpeqd %xmm9, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm9, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm6			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm6
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm7			; SSE41-NEXT: packusdw %xmm3, %xmm6
	; SSE41-NEXT: packusdw %xmm3, %xmm7			; SSE41-NEXT: packusdw %xmm4, %xmm6
	; SSE41-NEXT: packusdw %xmm4, %xmm7			; SSE41-NEXT: psubusw %xmm6, %xmm8
	; SSE41-NEXT: psubusw %xmm7, %xmm8
	; SSE41-NEXT: movdqa %xmm8, %xmm0			; SSE41-NEXT: movdqa %xmm8, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: psubus_8i64_max:			; AVX1-LABEL: psubus_8i64_max:
	; AVX1: # %bb.0: # %vector.ph			; AVX1: # %bb.0: # %vector.ph
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm3
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [9223372036854775808,9223372036854775808]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [9223372036854775808,9223372036854775808]
	; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3
	▲ Show 20 Lines • Show All 998 Lines • Show Last 20 Lines

test/CodeGen/X86/sat-add.ll

	Show First 20 Lines • Show All 584 Lines • ▼ Show 20 Lines
	; SSE41-LABEL: unsigned_sat_constant_v2i64_using_min:			; SSE41-LABEL: unsigned_sat_constant_v2i64_using_min:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm1			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: movapd {{.*#+}} xmm2 = [18446744073709551573,18446744073709551573]			; SSE41-NEXT: movapd {{.*#+}} xmm2 = [18446744073709551573,18446744073709551573]
	; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: pxor %xmm1, %xmm0			; SSE41-NEXT: pxor %xmm1, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [9223372034707292117,9223372034707292117]			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [9223372034707292117,9223372034707292117]
	; SSE41-NEXT: movdqa %xmm3, %xmm4			; SSE41-NEXT: movdqa %xmm3, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm3
	; SSE41-NEXT: pcmpeqd %xmm3, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2
	; SSE41-NEXT: paddq {{.*}}(%rip), %xmm2			; SSE41-NEXT: paddq {{.*}}(%rip), %xmm2
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	%c = icmp ult <2 x i64> %x, <i64 -43, i64 -43>			%c = icmp ult <2 x i64> %x, <i64 -43, i64 -43>
	%s = select <2 x i1> %c, <2 x i64> %x, <2 x i64> <i64 -43, i64 -43>			%s = select <2 x i1> %c, <2 x i64> %x, <2 x i64> <i64 -43, i64 -43>
	%r = add <2 x i64> %s, <i64 42, i64 42>			%r = add <2 x i64> %s, <i64 42, i64 42>
	ret <2 x i64> %r			ret <2 x i64> %r
	▲ Show 20 Lines • Show All 274 Lines • ▼ Show 20 Lines
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: pcmpeqd %xmm3, %xmm3			; SSE41-NEXT: pcmpeqd %xmm3, %xmm3
	; SSE41-NEXT: pxor %xmm1, %xmm3			; SSE41-NEXT: pxor %xmm1, %xmm3
	; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: pxor %xmm2, %xmm0			; SSE41-NEXT: pxor %xmm2, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [9223372034707292159,9223372034707292159]			; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [9223372034707292159,9223372034707292159]
	; SSE41-NEXT: pxor %xmm1, %xmm4			; SSE41-NEXT: pxor %xmm1, %xmm4
	; SSE41-NEXT: movdqa %xmm4, %xmm5			; SSE41-NEXT: movdqa %xmm4, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm5			; SSE41-NEXT: pcmpeqd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm4			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[1,1,3,3]			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3
	; SSE41-NEXT: paddq %xmm1, %xmm3			; SSE41-NEXT: paddq %xmm1, %xmm3
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	%noty = xor <2 x i64> %y, <i64 -1, i64 -1>			%noty = xor <2 x i64> %y, <i64 -1, i64 -1>
	%c = icmp ult <2 x i64> %x, %noty			%c = icmp ult <2 x i64> %x, %noty
	%s = select <2 x i1> %c, <2 x i64> %x, <2 x i64> %noty			%s = select <2 x i1> %c, <2 x i64> %x, <2 x i64> %noty
	%r = add <2 x i64> %s, %y			%r = add <2 x i64> %s, %y
	▲ Show 20 Lines • Show All 50 Lines • Show Last 20 Lines

test/CodeGen/X86/shift-double-x86_64.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown \| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-unknown \| FileCheck %s

	; SHLD/SHRD manual shifts			; SHLD/SHRD manual shifts

	define i64 @test1(i64 %hi, i64 %lo, i64 %bits) nounwind {			define i64 @test1(i64 %hi, i64 %lo, i64 %bits) nounwind {
	; CHECK-LABEL: test1:			; CHECK-LABEL: test1:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: movq %rdx, %rcx
	; CHECK-NEXT: movq %rdi, %rax			; CHECK-NEXT: movq %rdi, %rax
	; CHECK-NEXT: andl $63, %ecx			; CHECK-NEXT: movl %edx, %ecx
	; CHECK-NEXT: # kill: def $cl killed $cl killed $rcx			; CHECK-NEXT: andb $63, %cl
	; CHECK-NEXT: shldq %cl, %rsi, %rax			; CHECK-NEXT: negb %cl
				; CHECK-NEXT: shrq %cl, %rsi
				; CHECK-NEXT: movl %edx, %ecx
				; CHECK-NEXT: shlq %cl, %rax
				; CHECK-NEXT: orq %rsi, %rax
				deadalnixAuthorUnsubmitted Done Reply Inline Actions I'm not sure what is going on here, I assume there is a bug somewhere. deadalnix: I'm not sure what is going on here, I assume there is a bug somewhere.
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%and = and i64 %bits, 63			%and = and i64 %bits, 63
	%and64 = sub i64 64, %and			%and64 = sub i64 64, %and
	%sh_lo = lshr i64 %lo, %and64			%sh_lo = lshr i64 %lo, %and64
	%sh_hi = shl i64 %hi, %and			%sh_hi = shl i64 %hi, %and
	%sh = or i64 %sh_lo, %sh_hi			%sh = or i64 %sh_lo, %sh_hi
	ret i64 %sh			ret i64 %sh
	}			}

	define i64 @test2(i64 %hi, i64 %lo, i64 %bits) nounwind {			define i64 @test2(i64 %hi, i64 %lo, i64 %bits) nounwind {
	; CHECK-LABEL: test2:			; CHECK-LABEL: test2:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: movq %rdx, %rcx
	; CHECK-NEXT: movq %rsi, %rax			; CHECK-NEXT: movq %rsi, %rax
	; CHECK-NEXT: andl $63, %ecx			; CHECK-NEXT: movl %edx, %ecx
	; CHECK-NEXT: # kill: def $cl killed $cl killed $rcx			; CHECK-NEXT: andb $63, %cl
	; CHECK-NEXT: shrdq %cl, %rdi, %rax			; CHECK-NEXT: negb %cl
				; CHECK-NEXT: shlq %cl, %rdi
				; CHECK-NEXT: movl %edx, %ecx
				; CHECK-NEXT: shrq %cl, %rax
				; CHECK-NEXT: orq %rdi, %rax
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%and = and i64 %bits, 63			%and = and i64 %bits, 63
	%and64 = sub i64 64, %and			%and64 = sub i64 64, %and
	%sh_lo = shl i64 %hi, %and64			%sh_lo = shl i64 %hi, %and64
	%sh_hi = lshr i64 %lo, %and			%sh_hi = lshr i64 %lo, %and
	%sh = or i64 %sh_lo, %sh_hi			%sh = or i64 %sh_lo, %sh_hi
	ret i64 %sh			ret i64 %sh
	}			}
	▲ Show 20 Lines • Show All 78 Lines • Show Last 20 Lines

test/CodeGen/X86/shift-double.ll

Show First 20 Lines • Show All 280 Lines • ▼ Show 20 Lines	; X64-NEXT: retq
ret i64 %lshr		ret i64 %lshr
}		}

; SHLD/SHRD manual shifts		; SHLD/SHRD manual shifts

define i32 @test11(i32 %hi, i32 %lo, i32 %bits) nounwind {		define i32 @test11(i32 %hi, i32 %lo, i32 %bits) nounwind {
; X86-LABEL: test11:		; X86-LABEL: test11:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: movl {{[0-9]+}}(%esp), %edx		; X86-NEXT: pushl %esi
; X86-NEXT: movl {{[0-9]+}}(%esp), %eax		; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx		; X86-NEXT: movl {{[0-9]+}}(%esp), %esi
; X86-NEXT: andl $31, %ecx		; X86-NEXT: movb {{[0-9]+}}(%esp), %dl
; X86-NEXT: # kill: def $cl killed $cl killed $ecx		; X86-NEXT: movl %edx, %ecx
; X86-NEXT: shldl %cl, %edx, %eax		; X86-NEXT: andb $31, %cl
		; X86-NEXT: negb %cl
		; X86-NEXT: shrl %cl, %esi
		; X86-NEXT: movl %edx, %ecx
		; X86-NEXT: shll %cl, %eax
		; X86-NEXT: orl %esi, %eax
		; X86-NEXT: popl %esi
		deadalnixAuthorUnsubmitted Done Reply Inline Actions dito deadalnix: dito
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: test11:		; X64-LABEL: test11:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: movl %edx, %ecx
; X64-NEXT: movl %edi, %eax		; X64-NEXT: movl %edi, %eax
; X64-NEXT: andl $31, %ecx		; X64-NEXT: movl %edx, %ecx
; X64-NEXT: # kill: def $cl killed $cl killed $ecx		; X64-NEXT: andb $31, %cl
; X64-NEXT: shldl %cl, %esi, %eax		; X64-NEXT: negb %cl
		; X64-NEXT: shrl %cl, %esi
		; X64-NEXT: movl %edx, %ecx
		; X64-NEXT: shll %cl, %eax
		; X64-NEXT: orl %esi, %eax
; X64-NEXT: retq		; X64-NEXT: retq
%and = and i32 %bits, 31		%and = and i32 %bits, 31
%and32 = sub i32 32, %and		%and32 = sub i32 32, %and
%sh_lo = lshr i32 %lo, %and32		%sh_lo = lshr i32 %lo, %and32
%sh_hi = shl i32 %hi, %and		%sh_hi = shl i32 %hi, %and
%sh = or i32 %sh_lo, %sh_hi		%sh = or i32 %sh_lo, %sh_hi
ret i32 %sh		ret i32 %sh
}		}

define i32 @test12(i32 %hi, i32 %lo, i32 %bits) nounwind {		define i32 @test12(i32 %hi, i32 %lo, i32 %bits) nounwind {
; X86-LABEL: test12:		; X86-LABEL: test12:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: movl {{[0-9]+}}(%esp), %edx		; X86-NEXT: pushl %esi
; X86-NEXT: movl {{[0-9]+}}(%esp), %eax		; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx		; X86-NEXT: movl {{[0-9]+}}(%esp), %esi
; X86-NEXT: andl $31, %ecx		; X86-NEXT: movb {{[0-9]+}}(%esp), %dl
; X86-NEXT: # kill: def $cl killed $cl killed $ecx		; X86-NEXT: movl %edx, %ecx
; X86-NEXT: shrdl %cl, %edx, %eax		; X86-NEXT: andb $31, %cl
		; X86-NEXT: negb %cl
		; X86-NEXT: shll %cl, %esi
		; X86-NEXT: movl %edx, %ecx
		; X86-NEXT: shrl %cl, %eax
		; X86-NEXT: orl %esi, %eax
		; X86-NEXT: popl %esi
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: test12:		; X64-LABEL: test12:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: movl %edx, %ecx
; X64-NEXT: movl %esi, %eax		; X64-NEXT: movl %esi, %eax
; X64-NEXT: andl $31, %ecx		; X64-NEXT: movl %edx, %ecx
; X64-NEXT: # kill: def $cl killed $cl killed $ecx		; X64-NEXT: andb $31, %cl
; X64-NEXT: shrdl %cl, %edi, %eax		; X64-NEXT: negb %cl
		; X64-NEXT: shll %cl, %edi
		; X64-NEXT: movl %edx, %ecx
		; X64-NEXT: shrl %cl, %eax
		; X64-NEXT: orl %edi, %eax
; X64-NEXT: retq		; X64-NEXT: retq
%and = and i32 %bits, 31		%and = and i32 %bits, 31
%and32 = sub i32 32, %and		%and32 = sub i32 32, %and
%sh_lo = shl i32 %hi, %and32		%sh_lo = shl i32 %hi, %and32
%sh_hi = lshr i32 %lo, %and		%sh_hi = lshr i32 %lo, %and
%sh = or i32 %sh_lo, %sh_hi		%sh = or i32 %sh_lo, %sh_hi
ret i32 %sh		ret i32 %sh
}		}
▲ Show 20 Lines • Show All 170 Lines • Show Last 20 Lines

test/CodeGen/X86/sse3.ll

Show First 20 Lines • Show All 390 Lines • ▼ Show 20 Lines	entry:
%tmp9 = shufflevector <16 x i8> %tmp8, <16 x i8> %T0, <16 x i32> < i32 0, i32 1, i32 2, i32 17, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef , i32 undef >		%tmp9 = shufflevector <16 x i8> %tmp8, <16 x i8> %T0, <16 x i32> < i32 0, i32 1, i32 2, i32 17, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef , i32 undef >
ret <16 x i8> %tmp9		ret <16 x i8> %tmp9
}		}

; rdar://8520311		; rdar://8520311
define <4 x i32> @t17() nounwind {		define <4 x i32> @t17() nounwind {
; X86-LABEL: t17:		; X86-LABEL: t17:
; X86: # %bb.0: # %entry		; X86: # %bb.0: # %entry
; X86-NEXT: movddup {{.*#+}} xmm0 = mem[0,0]		; X86-NEXT: pshufd {{.*#+}} xmm0 = mem[0,1,0,1]
; X86-NEXT: andpd {{\.LCPI.*}}, %xmm0		; X86-NEXT: pand {{\.LCPI.*}}, %xmm0
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: t17:		; X64-LABEL: t17:
; X64: # %bb.0: # %entry		; X64: # %bb.0: # %entry
; X64-NEXT: movddup {{.*#+}} xmm0 = mem[0,0]		; X64-NEXT: pshufd {{.*#+}} xmm0 = mem[0,1,0,1]
; X64-NEXT: andpd {{.*}}(%rip), %xmm0		; X64-NEXT: pand {{.*}}(%rip), %xmm0
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%tmp1 = load <4 x float>, <4 x float>* undef, align 16		%tmp1 = load <4 x float>, <4 x float>* undef, align 16
%tmp2 = shufflevector <4 x float> %tmp1, <4 x float> undef, <4 x i32> <i32 4, i32 1, i32 2, i32 3>		%tmp2 = shufflevector <4 x float> %tmp1, <4 x float> undef, <4 x i32> <i32 4, i32 1, i32 2, i32 3>
%tmp3 = load <4 x float>, <4 x float>* undef, align 16		%tmp3 = load <4 x float>, <4 x float>* undef, align 16
%tmp4 = shufflevector <4 x float> %tmp2, <4 x float> undef, <4 x i32> <i32 undef, i32 undef, i32 0, i32 1>		%tmp4 = shufflevector <4 x float> %tmp2, <4 x float> undef, <4 x i32> <i32 undef, i32 undef, i32 0, i32 1>
%tmp5 = bitcast <4 x float> %tmp3 to <4 x i32>		%tmp5 = bitcast <4 x float> %tmp3 to <4 x i32>
%tmp6 = shufflevector <4 x i32> %tmp5, <4 x i32> undef, <4 x i32> <i32 undef, i32 undef, i32 0, i32 1>		%tmp6 = shufflevector <4 x i32> %tmp5, <4 x i32> undef, <4 x i32> <i32 undef, i32 undef, i32 0, i32 1>
%tmp7 = and <4 x i32> %tmp6, <i32 undef, i32 undef, i32 -1, i32 0>		%tmp7 = and <4 x i32> %tmp6, <i32 undef, i32 undef, i32 -1, i32 0>
ret <4 x i32> %tmp7		ret <4 x i32> %tmp7
}		}

test/CodeGen/X86/unfold-masked-merge-scalar-constmask-innerouter.ll

	Show All 31 Lines
	}			}

	define i16 @out16_constmask(i16 %x, i16 %y) {			define i16 @out16_constmask(i16 %x, i16 %y) {
	; CHECK-NOBMI-LABEL: out16_constmask:			; CHECK-NOBMI-LABEL: out16_constmask:
	; CHECK-NOBMI: # %bb.0:			; CHECK-NOBMI: # %bb.0:
	; CHECK-NOBMI-NEXT: # kill: def $esi killed $esi def $rsi			; CHECK-NOBMI-NEXT: # kill: def $esi killed $esi def $rsi
	; CHECK-NOBMI-NEXT: # kill: def $edi killed $edi def $rdi			; CHECK-NOBMI-NEXT: # kill: def $edi killed $edi def $rdi
	; CHECK-NOBMI-NEXT: andl $4080, %edi # imm = 0xFF0			; CHECK-NOBMI-NEXT: andl $4080, %edi # imm = 0xFF0
	; CHECK-NOBMI-NEXT: andl $-4081, %esi # imm = 0xF00F			; CHECK-NOBMI-NEXT: andl $61455, %esi # imm = 0xF00F
				deadalnixAuthorUnsubmitted Done Reply Inline Actions Is there any difference between these two in term of codegen ? deadalnix: Is there any difference between these two in term of codegen ?
	; CHECK-NOBMI-NEXT: leal (%rsi,%rdi), %eax			; CHECK-NOBMI-NEXT: leal (%rsi,%rdi), %eax
	; CHECK-NOBMI-NEXT: # kill: def $ax killed $ax killed $eax			; CHECK-NOBMI-NEXT: # kill: def $ax killed $ax killed $eax
	; CHECK-NOBMI-NEXT: retq			; CHECK-NOBMI-NEXT: retq
	;			;
	; CHECK-BMI-LABEL: out16_constmask:			; CHECK-BMI-LABEL: out16_constmask:
	; CHECK-BMI: # %bb.0:			; CHECK-BMI: # %bb.0:
	; CHECK-BMI-NEXT: # kill: def $esi killed $esi def $rsi			; CHECK-BMI-NEXT: # kill: def $esi killed $esi def $rsi
	; CHECK-BMI-NEXT: # kill: def $edi killed $edi def $rdi			; CHECK-BMI-NEXT: # kill: def $edi killed $edi def $rdi
	; CHECK-BMI-NEXT: andl $4080, %edi # imm = 0xFF0			; CHECK-BMI-NEXT: andl $4080, %edi # imm = 0xFF0
	; CHECK-BMI-NEXT: andl $-4081, %esi # imm = 0xF00F			; CHECK-BMI-NEXT: andl $61455, %esi # imm = 0xF00F
	; CHECK-BMI-NEXT: leal (%rsi,%rdi), %eax			; CHECK-BMI-NEXT: leal (%rsi,%rdi), %eax
	; CHECK-BMI-NEXT: # kill: def $ax killed $ax killed $eax			; CHECK-BMI-NEXT: # kill: def $ax killed $ax killed $eax
	; CHECK-BMI-NEXT: retq			; CHECK-BMI-NEXT: retq
	%mx = and i16 %x, 4080			%mx = and i16 %x, 4080
	%my = and i16 %y, -4081			%my = and i16 %y, -4081
	%r = or i16 %mx, %my			%r = or i16 %mx, %my
	ret i16 %r			ret i16 %r
	}			}
	▲ Show 20 Lines • Show All 406 Lines • Show Last 20 Lines

test/CodeGen/X86/unfold-masked-merge-scalar-constmask-interleavedbits.ll

	Show All 31 Lines
	}			}

	define i16 @out16_constmask(i16 %x, i16 %y) {			define i16 @out16_constmask(i16 %x, i16 %y) {
	; CHECK-NOBMI-LABEL: out16_constmask:			; CHECK-NOBMI-LABEL: out16_constmask:
	; CHECK-NOBMI: # %bb.0:			; CHECK-NOBMI: # %bb.0:
	; CHECK-NOBMI-NEXT: # kill: def $esi killed $esi def $rsi			; CHECK-NOBMI-NEXT: # kill: def $esi killed $esi def $rsi
	; CHECK-NOBMI-NEXT: # kill: def $edi killed $edi def $rdi			; CHECK-NOBMI-NEXT: # kill: def $edi killed $edi def $rdi
	; CHECK-NOBMI-NEXT: andl $21845, %edi # imm = 0x5555			; CHECK-NOBMI-NEXT: andl $21845, %edi # imm = 0x5555
	; CHECK-NOBMI-NEXT: andl $-21846, %esi # imm = 0xAAAA			; CHECK-NOBMI-NEXT: andl $43690, %esi # imm = 0xAAAA
	; CHECK-NOBMI-NEXT: leal (%rsi,%rdi), %eax			; CHECK-NOBMI-NEXT: leal (%rsi,%rdi), %eax
	; CHECK-NOBMI-NEXT: # kill: def $ax killed $ax killed $eax			; CHECK-NOBMI-NEXT: # kill: def $ax killed $ax killed $eax
	; CHECK-NOBMI-NEXT: retq			; CHECK-NOBMI-NEXT: retq
	;			;
	; CHECK-BMI-LABEL: out16_constmask:			; CHECK-BMI-LABEL: out16_constmask:
	; CHECK-BMI: # %bb.0:			; CHECK-BMI: # %bb.0:
	; CHECK-BMI-NEXT: # kill: def $esi killed $esi def $rsi			; CHECK-BMI-NEXT: # kill: def $esi killed $esi def $rsi
	; CHECK-BMI-NEXT: # kill: def $edi killed $edi def $rdi			; CHECK-BMI-NEXT: # kill: def $edi killed $edi def $rdi
	; CHECK-BMI-NEXT: andl $21845, %edi # imm = 0x5555			; CHECK-BMI-NEXT: andl $21845, %edi # imm = 0x5555
	; CHECK-BMI-NEXT: andl $-21846, %esi # imm = 0xAAAA			; CHECK-BMI-NEXT: andl $43690, %esi # imm = 0xAAAA
	; CHECK-BMI-NEXT: leal (%rsi,%rdi), %eax			; CHECK-BMI-NEXT: leal (%rsi,%rdi), %eax
	; CHECK-BMI-NEXT: # kill: def $ax killed $ax killed $eax			; CHECK-BMI-NEXT: # kill: def $ax killed $ax killed $eax
	; CHECK-BMI-NEXT: retq			; CHECK-BMI-NEXT: retq
	%mx = and i16 %x, 21845			%mx = and i16 %x, 21845
	%my = and i16 %y, -21846			%my = and i16 %y, -21846
	%r = or i16 %mx, %my			%r = or i16 %mx, %my
	ret i16 %r			ret i16 %r
	}			}
	▲ Show 20 Lines • Show All 406 Lines • Show Last 20 Lines

test/CodeGen/X86/unfold-masked-merge-scalar-constmask-interleavedbytehalves.ll

	Show All 31 Lines
	}			}

	define i16 @out16_constmask(i16 %x, i16 %y) {			define i16 @out16_constmask(i16 %x, i16 %y) {
	; CHECK-NOBMI-LABEL: out16_constmask:			; CHECK-NOBMI-LABEL: out16_constmask:
	; CHECK-NOBMI: # %bb.0:			; CHECK-NOBMI: # %bb.0:
	; CHECK-NOBMI-NEXT: # kill: def $esi killed $esi def $rsi			; CHECK-NOBMI-NEXT: # kill: def $esi killed $esi def $rsi
	; CHECK-NOBMI-NEXT: # kill: def $edi killed $edi def $rdi			; CHECK-NOBMI-NEXT: # kill: def $edi killed $edi def $rdi
	; CHECK-NOBMI-NEXT: andl $3855, %edi # imm = 0xF0F			; CHECK-NOBMI-NEXT: andl $3855, %edi # imm = 0xF0F
	; CHECK-NOBMI-NEXT: andl $-3856, %esi # imm = 0xF0F0			; CHECK-NOBMI-NEXT: andl $61680, %esi # imm = 0xF0F0
	; CHECK-NOBMI-NEXT: leal (%rsi,%rdi), %eax			; CHECK-NOBMI-NEXT: leal (%rsi,%rdi), %eax
	; CHECK-NOBMI-NEXT: # kill: def $ax killed $ax killed $eax			; CHECK-NOBMI-NEXT: # kill: def $ax killed $ax killed $eax
	; CHECK-NOBMI-NEXT: retq			; CHECK-NOBMI-NEXT: retq
	;			;
	; CHECK-BMI-LABEL: out16_constmask:			; CHECK-BMI-LABEL: out16_constmask:
	; CHECK-BMI: # %bb.0:			; CHECK-BMI: # %bb.0:
	; CHECK-BMI-NEXT: # kill: def $esi killed $esi def $rsi			; CHECK-BMI-NEXT: # kill: def $esi killed $esi def $rsi
	; CHECK-BMI-NEXT: # kill: def $edi killed $edi def $rdi			; CHECK-BMI-NEXT: # kill: def $edi killed $edi def $rdi
	; CHECK-BMI-NEXT: andl $3855, %edi # imm = 0xF0F			; CHECK-BMI-NEXT: andl $3855, %edi # imm = 0xF0F
	; CHECK-BMI-NEXT: andl $-3856, %esi # imm = 0xF0F0			; CHECK-BMI-NEXT: andl $61680, %esi # imm = 0xF0F0
	; CHECK-BMI-NEXT: leal (%rsi,%rdi), %eax			; CHECK-BMI-NEXT: leal (%rsi,%rdi), %eax
	; CHECK-BMI-NEXT: # kill: def $ax killed $ax killed $eax			; CHECK-BMI-NEXT: # kill: def $ax killed $ax killed $eax
	; CHECK-BMI-NEXT: retq			; CHECK-BMI-NEXT: retq
	%mx = and i16 %x, 3855			%mx = and i16 %x, 3855
	%my = and i16 %y, -3856			%my = and i16 %y, -3856
	%r = or i16 %mx, %my			%r = or i16 %mx, %my
	ret i16 %r			ret i16 %r
	}			}
	▲ Show 20 Lines • Show All 406 Lines • Show Last 20 Lines

test/CodeGen/X86/unfold-masked-merge-scalar-constmask-lowhigh.ll

Show All 29 Lines	; CHECK-BMI-NEXT: retq
%r = or i8 %mx, %my		%r = or i8 %mx, %my
ret i8 %r		ret i8 %r
}		}

define i16 @out16_constmask(i16 %x, i16 %y) {		define i16 @out16_constmask(i16 %x, i16 %y) {
; CHECK-NOBMI-LABEL: out16_constmask:		; CHECK-NOBMI-LABEL: out16_constmask:
; CHECK-NOBMI: # %bb.0:		; CHECK-NOBMI: # %bb.0:
; CHECK-NOBMI-NEXT: movzbl %dil, %eax		; CHECK-NOBMI-NEXT: movzbl %dil, %eax
; CHECK-NOBMI-NEXT: andl $-256, %esi		; CHECK-NOBMI-NEXT: andl $65280, %esi # imm = 0xFF00
; CHECK-NOBMI-NEXT: orl %esi, %eax		; CHECK-NOBMI-NEXT: orl %esi, %eax
; CHECK-NOBMI-NEXT: # kill: def $ax killed $ax killed $eax		; CHECK-NOBMI-NEXT: # kill: def $ax killed $ax killed $eax
; CHECK-NOBMI-NEXT: retq		; CHECK-NOBMI-NEXT: retq
;		;
; CHECK-BMI-LABEL: out16_constmask:		; CHECK-BMI-LABEL: out16_constmask:
; CHECK-BMI: # %bb.0:		; CHECK-BMI: # %bb.0:
; CHECK-BMI-NEXT: movzbl %dil, %eax		; CHECK-BMI-NEXT: movzbl %dil, %eax
; CHECK-BMI-NEXT: andl $-256, %esi		; CHECK-BMI-NEXT: andl $65280, %esi # imm = 0xFF00
; CHECK-BMI-NEXT: orl %esi, %eax		; CHECK-BMI-NEXT: orl %esi, %eax
; CHECK-BMI-NEXT: # kill: def $ax killed $ax killed $eax		; CHECK-BMI-NEXT: # kill: def $ax killed $ax killed $eax
; CHECK-BMI-NEXT: retq		; CHECK-BMI-NEXT: retq
%mx = and i16 %x, 255		%mx = and i16 %x, 255
%my = and i16 %y, -256		%my = and i16 %y, -256
%r = or i16 %mx, %my		%r = or i16 %mx, %my
ret i16 %r		ret i16 %r
}		}
▲ Show 20 Lines • Show All 376 Lines • Show Last 20 Lines

test/CodeGen/X86/urem-seteq-vec-nonsplat.ll

	Show First 20 Lines • Show All 118 Lines • ▼ Show 20 Lines
	; CHECK-AVX512VL-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]			; CHECK-AVX512VL-NEXT: vpshufd {{.*#+}} xmm2 = xmm1[1,1,3,3]
	; CHECK-AVX512VL-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]			; CHECK-AVX512VL-NEXT: vpshufd {{.*#+}} xmm3 = xmm0[1,1,3,3]
	; CHECK-AVX512VL-NEXT: vpmuludq %xmm2, %xmm3, %xmm2			; CHECK-AVX512VL-NEXT: vpmuludq %xmm2, %xmm3, %xmm2
	; CHECK-AVX512VL-NEXT: vpmuludq %xmm1, %xmm0, %xmm1			; CHECK-AVX512VL-NEXT: vpmuludq %xmm1, %xmm0, %xmm1
	; CHECK-AVX512VL-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; CHECK-AVX512VL-NEXT: vpshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; CHECK-AVX512VL-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3]			; CHECK-AVX512VL-NEXT: vpblendd {{.*#+}} xmm1 = xmm1[0],xmm2[1],xmm1[2],xmm2[3]
	; CHECK-AVX512VL-NEXT: vpsubd %xmm1, %xmm0, %xmm2			; CHECK-AVX512VL-NEXT: vpsubd %xmm1, %xmm0, %xmm2
	; CHECK-AVX512VL-NEXT: vpmuludq {{.*}}(%rip), %xmm2, %xmm2			; CHECK-AVX512VL-NEXT: vpmuludq {{.*}}(%rip), %xmm2, %xmm2
	; CHECK-AVX512VL-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]			; CHECK-AVX512VL-NEXT: vpsrlq $32, %xmm2, %xmm2
	; CHECK-AVX512VL-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; CHECK-AVX512VL-NEXT: vpblendd {{.*#+}} xmm2 = xmm2[0],xmm3[1],xmm2[2],xmm3[3]
	; CHECK-AVX512VL-NEXT: vpaddd %xmm1, %xmm2, %xmm1			; CHECK-AVX512VL-NEXT: vpaddd %xmm1, %xmm2, %xmm1
	; CHECK-AVX512VL-NEXT: vpsrlvd {{.*}}(%rip), %xmm1, %xmm1			; CHECK-AVX512VL-NEXT: vpsrlvd {{.*}}(%rip), %xmm1, %xmm1
	; CHECK-AVX512VL-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1			; CHECK-AVX512VL-NEXT: vpmulld {{.*}}(%rip), %xmm1, %xmm1
	; CHECK-AVX512VL-NEXT: vpsubd %xmm1, %xmm0, %xmm0			; CHECK-AVX512VL-NEXT: vpsubd %xmm1, %xmm0, %xmm0
	; CHECK-AVX512VL-NEXT: vpcmpeqd %xmm3, %xmm0, %xmm0			; CHECK-AVX512VL-NEXT: vpxor %xmm1, %xmm1, %xmm1
				; CHECK-AVX512VL-NEXT: vpcmpeqd %xmm1, %xmm0, %xmm0
	; CHECK-AVX512VL-NEXT: vpsrld $31, %xmm0, %xmm0			; CHECK-AVX512VL-NEXT: vpsrld $31, %xmm0, %xmm0
	; CHECK-AVX512VL-NEXT: retq			; CHECK-AVX512VL-NEXT: retq
	%urem = urem <4 x i32> %X, <i32 3, i32 5, i32 7, i32 9>			%urem = urem <4 x i32> %X, <i32 3, i32 5, i32 7, i32 9>
	%cmp = icmp eq <4 x i32> %urem, <i32 0, i32 0, i32 0, i32 0>			%cmp = icmp eq <4 x i32> %urem, <i32 0, i32 0, i32 0, i32 0>
	%ret = zext <4 x i1> %cmp to <4 x i32>			%ret = zext <4 x i1> %cmp to <4 x i32>
	ret <4 x i32> %ret			ret <4 x i32> %ret
	}			}

	▲ Show 20 Lines • Show All 770 Lines • Show Last 20 Lines

test/CodeGen/X86/usub_sat_vec.ll

	Show First 20 Lines • Show All 675 Lines • ▼ Show 20 Lines
	; SSSE3-NEXT: psubq %xmm1, %xmm0			; SSSE3-NEXT: psubq %xmm1, %xmm0
	; SSSE3-NEXT: psrlq $32, %xmm0			; SSSE3-NEXT: psrlq $32, %xmm0
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: v2i32:			; SSE41-LABEL: v2i32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: psllq $32, %xmm1			; SSE41-NEXT: psllq $32, %xmm1
	; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm1, %xmm3			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm0, %xmm3			; SSE41-NEXT: pxor %xmm3, %xmm0
	; SSE41-NEXT: psllq $32, %xmm2			; SSE41-NEXT: psllq $32, %xmm2
	; SSE41-NEXT: pxor %xmm2, %xmm0			; SSE41-NEXT: pxor %xmm2, %xmm3
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: movdqa %xmm3, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm3
	; SSE41-NEXT: pcmpeqd %xmm3, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: movdqa %xmm1, %xmm3			; SSE41-NEXT: movdqa %xmm1, %xmm3
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3
	; SSE41-NEXT: psubq %xmm1, %xmm3			; SSE41-NEXT: psubq %xmm1, %xmm3
	; SSE41-NEXT: psrlq $32, %xmm3			; SSE41-NEXT: psrlq $32, %xmm3
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: v2i32:			; AVX1-LABEL: v2i32:
	▲ Show 20 Lines • Show All 328 Lines • ▼ Show 20 Lines
	; SSSE3-NEXT: pandn %xmm1, %xmm3			; SSSE3-NEXT: pandn %xmm1, %xmm3
	; SSSE3-NEXT: por %xmm3, %xmm0			; SSSE3-NEXT: por %xmm3, %xmm0
	; SSSE3-NEXT: psubq %xmm1, %xmm0			; SSSE3-NEXT: psubq %xmm1, %xmm0
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: v2i64:			; SSE41-LABEL: v2i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm1, %xmm3			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm0, %xmm3			; SSE41-NEXT: pxor %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm2, %xmm0			; SSE41-NEXT: pxor %xmm2, %xmm3
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: movdqa %xmm3, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm3
	; SSE41-NEXT: pcmpeqd %xmm3, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: movdqa %xmm1, %xmm3			; SSE41-NEXT: movdqa %xmm1, %xmm3
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3
	; SSE41-NEXT: psubq %xmm1, %xmm3			; SSE41-NEXT: psubq %xmm1, %xmm3
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: v2i64:			; AVX1-LABEL: v2i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	▲ Show 20 Lines • Show All 101 Lines • ▼ Show 20 Lines
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm2, %xmm5			; SSE41-NEXT: movdqa %xmm2, %xmm5
	; SSE41-NEXT: pxor %xmm6, %xmm5			; SSE41-NEXT: pxor %xmm6, %xmm5
	; SSE41-NEXT: movdqa %xmm0, %xmm7			; SSE41-NEXT: movdqa %xmm0, %xmm7
	; SSE41-NEXT: pxor %xmm6, %xmm7			; SSE41-NEXT: pxor %xmm6, %xmm7
	; SSE41-NEXT: movdqa %xmm7, %xmm0			; SSE41-NEXT: movdqa %xmm7, %xmm0
	; SSE41-NEXT: pcmpgtd %xmm5, %xmm0			; SSE41-NEXT: pcmpeqd %xmm5, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm8 = xmm0[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm5, %xmm7
	; SSE41-NEXT: pcmpeqd %xmm5, %xmm7			; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm7[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm7[1,1,3,3]			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: pand %xmm8, %xmm5			; SSE41-NEXT: por %xmm7, %xmm0
	; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm2, %xmm5			; SSE41-NEXT: movdqa %xmm2, %xmm5
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm5			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm5
	; SSE41-NEXT: psubq %xmm2, %xmm5			; SSE41-NEXT: psubq %xmm2, %xmm5
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm6, %xmm0			; SSE41-NEXT: pxor %xmm6, %xmm0
	; SSE41-NEXT: pxor %xmm1, %xmm6			; SSE41-NEXT: pxor %xmm1, %xmm6
	; SSE41-NEXT: movdqa %xmm6, %xmm2			; SSE41-NEXT: movdqa %xmm6, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm6			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: movdqa %xmm3, %xmm2			; SSE41-NEXT: movdqa %xmm3, %xmm2
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2
	; SSE41-NEXT: psubq %xmm3, %xmm2			; SSE41-NEXT: psubq %xmm3, %xmm2
	; SSE41-NEXT: movdqa %xmm5, %xmm0			; SSE41-NEXT: movdqa %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm2, %xmm1			; SSE41-NEXT: movdqa %xmm2, %xmm1
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: v4i64:			; AVX1-LABEL: v4i64:
	▲ Show 20 Lines • Show All 173 Lines • ▼ Show 20 Lines
	;			;
	; SSE41-LABEL: v8i64:			; SSE41-LABEL: v8i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm1, %xmm8			; SSE41-NEXT: movdqa %xmm1, %xmm8
	; SSE41-NEXT: movdqa %xmm0, %xmm11			; SSE41-NEXT: movdqa %xmm0, %xmm11
	; SSE41-NEXT: movdqa {{.*#+}} xmm10 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm10 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm4, %xmm9			; SSE41-NEXT: movdqa %xmm4, %xmm9
	; SSE41-NEXT: pxor %xmm10, %xmm9			; SSE41-NEXT: pxor %xmm10, %xmm9
	; SSE41-NEXT: movdqa %xmm0, %xmm1			; SSE41-NEXT: movdqa %xmm0, %xmm12
	; SSE41-NEXT: pxor %xmm10, %xmm1			; SSE41-NEXT: pxor %xmm10, %xmm12
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm12, %xmm0
	; SSE41-NEXT: pcmpgtd %xmm9, %xmm0			; SSE41-NEXT: pcmpeqd %xmm9, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm12 = xmm0[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm9, %xmm12
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm12[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm1, %xmm0
	; SSE41-NEXT: pand %xmm12, %xmm1			; SSE41-NEXT: por %xmm12, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: movdqa %xmm4, %xmm9			; SSE41-NEXT: movdqa %xmm4, %xmm9
	; SSE41-NEXT: blendvpd %xmm0, %xmm11, %xmm9			; SSE41-NEXT: blendvpd %xmm0, %xmm11, %xmm9
	; SSE41-NEXT: psubq %xmm4, %xmm9			; SSE41-NEXT: psubq %xmm4, %xmm9
	; SSE41-NEXT: movdqa %xmm5, %xmm0			; SSE41-NEXT: movdqa %xmm5, %xmm0
	; SSE41-NEXT: pxor %xmm10, %xmm0			; SSE41-NEXT: pxor %xmm10, %xmm0
	; SSE41-NEXT: movdqa %xmm8, %xmm1			; SSE41-NEXT: movdqa %xmm8, %xmm1
	; SSE41-NEXT: pxor %xmm10, %xmm1			; SSE41-NEXT: pxor %xmm10, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm4			; SSE41-NEXT: movdqa %xmm1, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm11 = xmm4[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pand %xmm11, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: movdqa %xmm5, %xmm1			; SSE41-NEXT: movdqa %xmm5, %xmm1
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm1
	; SSE41-NEXT: psubq %xmm5, %xmm1			; SSE41-NEXT: psubq %xmm5, %xmm1
	; SSE41-NEXT: movdqa %xmm6, %xmm0			; SSE41-NEXT: movdqa %xmm6, %xmm0
	; SSE41-NEXT: pxor %xmm10, %xmm0			; SSE41-NEXT: pxor %xmm10, %xmm0
	; SSE41-NEXT: movdqa %xmm2, %xmm4			; SSE41-NEXT: movdqa %xmm2, %xmm4
	; SSE41-NEXT: pxor %xmm10, %xmm4			; SSE41-NEXT: pxor %xmm10, %xmm4
	; SSE41-NEXT: movdqa %xmm4, %xmm5			; SSE41-NEXT: movdqa %xmm4, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm5			; SSE41-NEXT: pcmpeqd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm8 = xmm5[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm4			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[1,1,3,3]			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: pand %xmm8, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm6, %xmm4			; SSE41-NEXT: movdqa %xmm6, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm4
	; SSE41-NEXT: psubq %xmm6, %xmm4			; SSE41-NEXT: psubq %xmm6, %xmm4
	; SSE41-NEXT: movdqa %xmm7, %xmm0			; SSE41-NEXT: movdqa %xmm7, %xmm0
	; SSE41-NEXT: pxor %xmm10, %xmm0			; SSE41-NEXT: pxor %xmm10, %xmm0
	; SSE41-NEXT: pxor %xmm3, %xmm10			; SSE41-NEXT: pxor %xmm3, %xmm10
	; SSE41-NEXT: movdqa %xmm10, %xmm2			; SSE41-NEXT: movdqa %xmm10, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm10
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm10			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm10[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm10[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: por %xmm10, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: movdqa %xmm7, %xmm5			; SSE41-NEXT: movdqa %xmm7, %xmm5
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm5			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm5
	; SSE41-NEXT: psubq %xmm7, %xmm5			; SSE41-NEXT: psubq %xmm7, %xmm5
	; SSE41-NEXT: movdqa %xmm9, %xmm0			; SSE41-NEXT: movdqa %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm4, %xmm2			; SSE41-NEXT: movdqa %xmm4, %xmm2
	; SSE41-NEXT: movdqa %xmm5, %xmm3			; SSE41-NEXT: movdqa %xmm5, %xmm3
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 96 Lines • Show Last 20 Lines

test/CodeGen/X86/vec_extract-mmx.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-unknown -mattr=+mmx,+sse2 \| FileCheck %s --check-prefix=X32			; RUN: llc < %s -mtriple=i686-unknown -mattr=+mmx,+sse2 \| FileCheck %s --check-prefix=X32
	; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+mmx,+sse2 \| FileCheck %s --check-prefix=X64			; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+mmx,+sse2 \| FileCheck %s --check-prefix=X64

	define i32 @test0(<1 x i64>* %v4) nounwind {			define i32 @test0(<1 x i64>* %v4) nounwind {
	; X32-LABEL: test0:			; X32-LABEL: test0:
	; X32: # %bb.0: # %entry			; X32: # %bb.0: # %entry
	; X32-NEXT: pushl %ebp			; X32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-NEXT: movl %esp, %ebp			; X32-NEXT: pshufw $238, (%eax), %mm0 # mm0 = mem[2,3,2,3]
	; X32-NEXT: andl $-8, %esp
	; X32-NEXT: subl $8, %esp
	; X32-NEXT: movl 8(%ebp), %eax
	; X32-NEXT: movl (%eax), %ecx
	; X32-NEXT: movl 4(%eax), %eax
	; X32-NEXT: movl %eax, {{[0-9]+}}(%esp)
	; X32-NEXT: movl %ecx, (%esp)
	; X32-NEXT: pshufw $238, (%esp), %mm0 # mm0 = mem[2,3,2,3]
	; X32-NEXT: movd %mm0, %eax			; X32-NEXT: movd %mm0, %eax
	; X32-NEXT: addl $32, %eax			; X32-NEXT: addl $32, %eax
	; X32-NEXT: movl %ebp, %esp
	; X32-NEXT: popl %ebp
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: test0:			; X64-LABEL: test0:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: pshufw $238, (%rdi), %mm0 # mm0 = mem[2,3,2,3]			; X64-NEXT: pshufw $238, (%rdi), %mm0 # mm0 = mem[2,3,2,3]
	; X64-NEXT: movd %mm0, %eax			; X64-NEXT: movd %mm0, %eax
	; X64-NEXT: addl $32, %eax			; X64-NEXT: addl $32, %eax
	; X64-NEXT: retq			; X64-NEXT: retq
	▲ Show 20 Lines • Show All 122 Lines • Show Last 20 Lines

test/CodeGen/X86/vec_minmax_sint.ll

	Show All 28 Lines
	; SSE2-NEXT: pand %xmm3, %xmm0			; SSE2-NEXT: pand %xmm3, %xmm0
	; SSE2-NEXT: pandn %xmm1, %xmm3			; SSE2-NEXT: pandn %xmm1, %xmm3
	; SSE2-NEXT: por %xmm3, %xmm0			; SSE2-NEXT: por %xmm3, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: max_gt_v2i64:			; SSE41-LABEL: max_gt_v2i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm1, %xmm3			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm0, %xmm3			; SSE41-NEXT: pxor %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm2, %xmm0			; SSE41-NEXT: pxor %xmm2, %xmm3
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: movdqa %xmm3, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm3
	; SSE41-NEXT: pcmpeqd %xmm3, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm0			; SSE41-NEXT: movapd %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; SSE42-LABEL: max_gt_v2i64:			; SSE42-LABEL: max_gt_v2i64:
	; SSE42: # %bb.0:			; SSE42: # %bb.0:
	; SSE42-NEXT: movdqa %xmm0, %xmm2			; SSE42-NEXT: movdqa %xmm0, %xmm2
	; SSE42-NEXT: pcmpgtq %xmm1, %xmm0			; SSE42-NEXT: pcmpgtq %xmm1, %xmm0
	▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm2, %xmm6			; SSE41-NEXT: movdqa %xmm2, %xmm6
	; SSE41-NEXT: pxor %xmm5, %xmm6			; SSE41-NEXT: pxor %xmm5, %xmm6
	; SSE41-NEXT: movdqa %xmm0, %xmm7			; SSE41-NEXT: movdqa %xmm0, %xmm7
	; SSE41-NEXT: pxor %xmm5, %xmm7			; SSE41-NEXT: pxor %xmm5, %xmm7
	; SSE41-NEXT: movdqa %xmm7, %xmm0			; SSE41-NEXT: movdqa %xmm7, %xmm0
	; SSE41-NEXT: pcmpgtd %xmm6, %xmm0			; SSE41-NEXT: pcmpeqd %xmm6, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm8 = xmm0[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm6, %xmm7
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm7			; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm7[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm7[1,1,3,3]			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: pand %xmm8, %xmm6			; SSE41-NEXT: por %xmm7, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: pxor %xmm1, %xmm5			; SSE41-NEXT: pxor %xmm1, %xmm5
	; SSE41-NEXT: movdqa %xmm5, %xmm4			; SSE41-NEXT: movdqa %xmm5, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm5			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[1,1,3,3]			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3
	; SSE41-NEXT: movapd %xmm2, %xmm0			; SSE41-NEXT: movapd %xmm2, %xmm0
	; SSE41-NEXT: movapd %xmm3, %xmm1			; SSE41-NEXT: movapd %xmm3, %xmm1
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; SSE42-LABEL: max_gt_v4i64:			; SSE42-LABEL: max_gt_v4i64:
	; SSE42: # %bb.0:			; SSE42: # %bb.0:
	; SSE42-NEXT: movdqa %xmm0, %xmm4			; SSE42-NEXT: movdqa %xmm0, %xmm4
	▲ Show 20 Lines • Show All 265 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pand %xmm3, %xmm0			; SSE2-NEXT: pand %xmm3, %xmm0
	; SSE2-NEXT: pandn %xmm1, %xmm3			; SSE2-NEXT: pandn %xmm1, %xmm3
	; SSE2-NEXT: por %xmm3, %xmm0			; SSE2-NEXT: por %xmm3, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: max_ge_v2i64:			; SSE41-LABEL: max_ge_v2i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm1, %xmm3			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm0, %xmm3			; SSE41-NEXT: pxor %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm2, %xmm0			; SSE41-NEXT: pxor %xmm2, %xmm3
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: movdqa %xmm3, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm3
	; SSE41-NEXT: pcmpeqd %xmm3, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm0			; SSE41-NEXT: movapd %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; SSE42-LABEL: max_ge_v2i64:			; SSE42-LABEL: max_ge_v2i64:
	; SSE42: # %bb.0:			; SSE42: # %bb.0:
	; SSE42-NEXT: movdqa %xmm0, %xmm2			; SSE42-NEXT: movdqa %xmm0, %xmm2
	; SSE42-NEXT: pcmpgtq %xmm1, %xmm0			; SSE42-NEXT: pcmpgtq %xmm1, %xmm0
	▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm2, %xmm6			; SSE41-NEXT: movdqa %xmm2, %xmm6
	; SSE41-NEXT: pxor %xmm5, %xmm6			; SSE41-NEXT: pxor %xmm5, %xmm6
	; SSE41-NEXT: movdqa %xmm0, %xmm7			; SSE41-NEXT: movdqa %xmm0, %xmm7
	; SSE41-NEXT: pxor %xmm5, %xmm7			; SSE41-NEXT: pxor %xmm5, %xmm7
	; SSE41-NEXT: movdqa %xmm7, %xmm0			; SSE41-NEXT: movdqa %xmm7, %xmm0
	; SSE41-NEXT: pcmpgtd %xmm6, %xmm0			; SSE41-NEXT: pcmpeqd %xmm6, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm8 = xmm0[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm6, %xmm7
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm7			; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm7[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm7[1,1,3,3]			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: pand %xmm8, %xmm6			; SSE41-NEXT: por %xmm7, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: pxor %xmm1, %xmm5			; SSE41-NEXT: pxor %xmm1, %xmm5
	; SSE41-NEXT: movdqa %xmm5, %xmm4			; SSE41-NEXT: movdqa %xmm5, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm5			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[1,1,3,3]			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3
	; SSE41-NEXT: movapd %xmm2, %xmm0			; SSE41-NEXT: movapd %xmm2, %xmm0
	; SSE41-NEXT: movapd %xmm3, %xmm1			; SSE41-NEXT: movapd %xmm3, %xmm1
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; SSE42-LABEL: max_ge_v4i64:			; SSE42-LABEL: max_ge_v4i64:
	; SSE42: # %bb.0:			; SSE42: # %bb.0:
	; SSE42-NEXT: movdqa %xmm0, %xmm4			; SSE42-NEXT: movdqa %xmm0, %xmm4
	▲ Show 20 Lines • Show All 265 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pand %xmm3, %xmm0			; SSE2-NEXT: pand %xmm3, %xmm0
	; SSE2-NEXT: pandn %xmm1, %xmm3			; SSE2-NEXT: pandn %xmm1, %xmm3
	; SSE2-NEXT: por %xmm3, %xmm0			; SSE2-NEXT: por %xmm3, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: min_lt_v2i64:			; SSE41-LABEL: min_lt_v2i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm2, %xmm3			; SSE41-NEXT: pxor %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm0, %xmm3			; SSE41-NEXT: pxor %xmm1, %xmm3
	; SSE41-NEXT: pxor %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm4
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm4			; SSE41-NEXT: pcmpgtd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm3, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm0			; SSE41-NEXT: movapd %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; SSE42-LABEL: min_lt_v2i64:			; SSE42-LABEL: min_lt_v2i64:
	; SSE42: # %bb.0:			; SSE42: # %bb.0:
	; SSE42-NEXT: movdqa %xmm0, %xmm2			; SSE42-NEXT: movdqa %xmm0, %xmm2
	; SSE42-NEXT: movdqa %xmm1, %xmm0			; SSE42-NEXT: movdqa %xmm1, %xmm0
	▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines
	; SSE41-LABEL: min_lt_v4i64:			; SSE41-LABEL: min_lt_v4i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648]
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm2, %xmm6			; SSE41-NEXT: movdqa %xmm2, %xmm6
	; SSE41-NEXT: pxor %xmm5, %xmm6			; SSE41-NEXT: pxor %xmm5, %xmm6
	; SSE41-NEXT: movdqa %xmm6, %xmm7			; SSE41-NEXT: movdqa %xmm6, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm7			; SSE41-NEXT: pcmpeqd %xmm0, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm8 = xmm7[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm6			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[1,1,3,3]			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: pand %xmm8, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: por %xmm7, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: pxor %xmm3, %xmm5			; SSE41-NEXT: pxor %xmm3, %xmm5
	; SSE41-NEXT: movdqa %xmm5, %xmm4			; SSE41-NEXT: movdqa %xmm5, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm5			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[1,1,3,3]			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3
	; SSE41-NEXT: movapd %xmm2, %xmm0			; SSE41-NEXT: movapd %xmm2, %xmm0
	; SSE41-NEXT: movapd %xmm3, %xmm1			; SSE41-NEXT: movapd %xmm3, %xmm1
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; SSE42-LABEL: min_lt_v4i64:			; SSE42-LABEL: min_lt_v4i64:
	; SSE42: # %bb.0:			; SSE42: # %bb.0:
	; SSE42-NEXT: movdqa %xmm0, %xmm4			; SSE42-NEXT: movdqa %xmm0, %xmm4
	▲ Show 20 Lines • Show All 260 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pand %xmm3, %xmm0			; SSE2-NEXT: pand %xmm3, %xmm0
	; SSE2-NEXT: pandn %xmm1, %xmm3			; SSE2-NEXT: pandn %xmm1, %xmm3
	; SSE2-NEXT: por %xmm3, %xmm0			; SSE2-NEXT: por %xmm3, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: min_le_v2i64:			; SSE41-LABEL: min_le_v2i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm2, %xmm3			; SSE41-NEXT: pxor %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm0, %xmm3			; SSE41-NEXT: pxor %xmm1, %xmm3
	; SSE41-NEXT: pxor %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm4
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm4			; SSE41-NEXT: pcmpgtd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm3, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm0			; SSE41-NEXT: movapd %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; SSE42-LABEL: min_le_v2i64:			; SSE42-LABEL: min_le_v2i64:
	; SSE42: # %bb.0:			; SSE42: # %bb.0:
	; SSE42-NEXT: movdqa %xmm0, %xmm2			; SSE42-NEXT: movdqa %xmm0, %xmm2
	; SSE42-NEXT: movdqa %xmm1, %xmm0			; SSE42-NEXT: movdqa %xmm1, %xmm0
	▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines
	; SSE41-LABEL: min_le_v4i64:			; SSE41-LABEL: min_le_v4i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648]
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm2, %xmm6			; SSE41-NEXT: movdqa %xmm2, %xmm6
	; SSE41-NEXT: pxor %xmm5, %xmm6			; SSE41-NEXT: pxor %xmm5, %xmm6
	; SSE41-NEXT: movdqa %xmm6, %xmm7			; SSE41-NEXT: movdqa %xmm6, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm7			; SSE41-NEXT: pcmpeqd %xmm0, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm8 = xmm7[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm6			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[1,1,3,3]			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: pand %xmm8, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: por %xmm7, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: pxor %xmm3, %xmm5			; SSE41-NEXT: pxor %xmm3, %xmm5
	; SSE41-NEXT: movdqa %xmm5, %xmm4			; SSE41-NEXT: movdqa %xmm5, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm5			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[1,1,3,3]			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3
	; SSE41-NEXT: movapd %xmm2, %xmm0			; SSE41-NEXT: movapd %xmm2, %xmm0
	; SSE41-NEXT: movapd %xmm3, %xmm1			; SSE41-NEXT: movapd %xmm3, %xmm1
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; SSE42-LABEL: min_le_v4i64:			; SSE42-LABEL: min_le_v4i64:
	; SSE42: # %bb.0:			; SSE42: # %bb.0:
	; SSE42-NEXT: movdqa %xmm0, %xmm4			; SSE42-NEXT: movdqa %xmm0, %xmm4
	▲ Show 20 Lines • Show All 732 Lines • Show Last 20 Lines

test/CodeGen/X86/vec_minmax_uint.ll

	Show All 28 Lines
	; SSE2-NEXT: pand %xmm3, %xmm0			; SSE2-NEXT: pand %xmm3, %xmm0
	; SSE2-NEXT: pandn %xmm1, %xmm3			; SSE2-NEXT: pandn %xmm1, %xmm3
	; SSE2-NEXT: por %xmm3, %xmm0			; SSE2-NEXT: por %xmm3, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: max_gt_v2i64:			; SSE41-LABEL: max_gt_v2i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm1, %xmm3			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm0, %xmm3			; SSE41-NEXT: pxor %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm2, %xmm0			; SSE41-NEXT: pxor %xmm2, %xmm3
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: movdqa %xmm3, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm3
	; SSE41-NEXT: pcmpeqd %xmm3, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm0			; SSE41-NEXT: movapd %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; SSE42-LABEL: max_gt_v2i64:			; SSE42-LABEL: max_gt_v2i64:
	; SSE42: # %bb.0:			; SSE42: # %bb.0:
	; SSE42-NEXT: movdqa %xmm0, %xmm2			; SSE42-NEXT: movdqa %xmm0, %xmm2
	; SSE42-NEXT: movdqa {{.*#+}} xmm0 = [9223372036854775808,9223372036854775808]			; SSE42-NEXT: movdqa {{.*#+}} xmm0 = [9223372036854775808,9223372036854775808]
	▲ Show 20 Lines • Show All 75 Lines • ▼ Show 20 Lines
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm2, %xmm6			; SSE41-NEXT: movdqa %xmm2, %xmm6
	; SSE41-NEXT: pxor %xmm5, %xmm6			; SSE41-NEXT: pxor %xmm5, %xmm6
	; SSE41-NEXT: movdqa %xmm0, %xmm7			; SSE41-NEXT: movdqa %xmm0, %xmm7
	; SSE41-NEXT: pxor %xmm5, %xmm7			; SSE41-NEXT: pxor %xmm5, %xmm7
	; SSE41-NEXT: movdqa %xmm7, %xmm0			; SSE41-NEXT: movdqa %xmm7, %xmm0
	; SSE41-NEXT: pcmpgtd %xmm6, %xmm0			; SSE41-NEXT: pcmpeqd %xmm6, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm8 = xmm0[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm6, %xmm7
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm7			; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm7[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm7[1,1,3,3]			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: pand %xmm8, %xmm6			; SSE41-NEXT: por %xmm7, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: pxor %xmm1, %xmm5			; SSE41-NEXT: pxor %xmm1, %xmm5
	; SSE41-NEXT: movdqa %xmm5, %xmm4			; SSE41-NEXT: movdqa %xmm5, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm5			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[1,1,3,3]			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3
	; SSE41-NEXT: movapd %xmm2, %xmm0			; SSE41-NEXT: movapd %xmm2, %xmm0
	; SSE41-NEXT: movapd %xmm3, %xmm1			; SSE41-NEXT: movapd %xmm3, %xmm1
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; SSE42-LABEL: max_gt_v4i64:			; SSE42-LABEL: max_gt_v4i64:
	; SSE42: # %bb.0:			; SSE42: # %bb.0:
	; SSE42-NEXT: movdqa %xmm0, %xmm4			; SSE42-NEXT: movdqa %xmm0, %xmm4
	▲ Show 20 Lines • Show All 283 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pand %xmm3, %xmm0			; SSE2-NEXT: pand %xmm3, %xmm0
	; SSE2-NEXT: pandn %xmm1, %xmm3			; SSE2-NEXT: pandn %xmm1, %xmm3
	; SSE2-NEXT: por %xmm3, %xmm0			; SSE2-NEXT: por %xmm3, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: max_ge_v2i64:			; SSE41-LABEL: max_ge_v2i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm1, %xmm3			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm0, %xmm3			; SSE41-NEXT: pxor %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm2, %xmm0			; SSE41-NEXT: pxor %xmm2, %xmm3
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: movdqa %xmm3, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm3
	; SSE41-NEXT: pcmpeqd %xmm3, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm0			; SSE41-NEXT: movapd %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; SSE42-LABEL: max_ge_v2i64:			; SSE42-LABEL: max_ge_v2i64:
	; SSE42: # %bb.0:			; SSE42: # %bb.0:
	; SSE42-NEXT: movdqa %xmm0, %xmm2			; SSE42-NEXT: movdqa %xmm0, %xmm2
	; SSE42-NEXT: movdqa {{.*#+}} xmm0 = [9223372036854775808,9223372036854775808]			; SSE42-NEXT: movdqa {{.*#+}} xmm0 = [9223372036854775808,9223372036854775808]
	▲ Show 20 Lines • Show All 75 Lines • ▼ Show 20 Lines
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm2, %xmm6			; SSE41-NEXT: movdqa %xmm2, %xmm6
	; SSE41-NEXT: pxor %xmm5, %xmm6			; SSE41-NEXT: pxor %xmm5, %xmm6
	; SSE41-NEXT: movdqa %xmm0, %xmm7			; SSE41-NEXT: movdqa %xmm0, %xmm7
	; SSE41-NEXT: pxor %xmm5, %xmm7			; SSE41-NEXT: pxor %xmm5, %xmm7
	; SSE41-NEXT: movdqa %xmm7, %xmm0			; SSE41-NEXT: movdqa %xmm7, %xmm0
	; SSE41-NEXT: pcmpgtd %xmm6, %xmm0			; SSE41-NEXT: pcmpeqd %xmm6, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm8 = xmm0[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm6, %xmm7
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm7			; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm7[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm7[1,1,3,3]			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: pand %xmm8, %xmm6			; SSE41-NEXT: por %xmm7, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: pxor %xmm1, %xmm5			; SSE41-NEXT: pxor %xmm1, %xmm5
	; SSE41-NEXT: movdqa %xmm5, %xmm4			; SSE41-NEXT: movdqa %xmm5, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm5			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[1,1,3,3]			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3
	; SSE41-NEXT: movapd %xmm2, %xmm0			; SSE41-NEXT: movapd %xmm2, %xmm0
	; SSE41-NEXT: movapd %xmm3, %xmm1			; SSE41-NEXT: movapd %xmm3, %xmm1
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; SSE42-LABEL: max_ge_v4i64:			; SSE42-LABEL: max_ge_v4i64:
	; SSE42: # %bb.0:			; SSE42: # %bb.0:
	; SSE42-NEXT: movdqa %xmm0, %xmm4			; SSE42-NEXT: movdqa %xmm0, %xmm4
	▲ Show 20 Lines • Show All 283 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pand %xmm3, %xmm0			; SSE2-NEXT: pand %xmm3, %xmm0
	; SSE2-NEXT: pandn %xmm1, %xmm3			; SSE2-NEXT: pandn %xmm1, %xmm3
	; SSE2-NEXT: por %xmm3, %xmm0			; SSE2-NEXT: por %xmm3, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: min_lt_v2i64:			; SSE41-LABEL: min_lt_v2i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm2, %xmm3			; SSE41-NEXT: pxor %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm0, %xmm3			; SSE41-NEXT: pxor %xmm1, %xmm3
	; SSE41-NEXT: pxor %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm4
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm4			; SSE41-NEXT: pcmpgtd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm3, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm0			; SSE41-NEXT: movapd %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; SSE42-LABEL: min_lt_v2i64:			; SSE42-LABEL: min_lt_v2i64:
	; SSE42: # %bb.0:			; SSE42: # %bb.0:
	; SSE42-NEXT: movdqa %xmm0, %xmm2			; SSE42-NEXT: movdqa %xmm0, %xmm2
	; SSE42-NEXT: movdqa {{.*#+}} xmm0 = [9223372036854775808,9223372036854775808]			; SSE42-NEXT: movdqa {{.*#+}} xmm0 = [9223372036854775808,9223372036854775808]
	▲ Show 20 Lines • Show All 74 Lines • ▼ Show 20 Lines
	; SSE41-LABEL: min_lt_v4i64:			; SSE41-LABEL: min_lt_v4i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm2, %xmm6			; SSE41-NEXT: movdqa %xmm2, %xmm6
	; SSE41-NEXT: pxor %xmm5, %xmm6			; SSE41-NEXT: pxor %xmm5, %xmm6
	; SSE41-NEXT: movdqa %xmm6, %xmm7			; SSE41-NEXT: movdqa %xmm6, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm7			; SSE41-NEXT: pcmpeqd %xmm0, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm8 = xmm7[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm6			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[1,1,3,3]			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: pand %xmm8, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: por %xmm7, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: pxor %xmm3, %xmm5			; SSE41-NEXT: pxor %xmm3, %xmm5
	; SSE41-NEXT: movdqa %xmm5, %xmm4			; SSE41-NEXT: movdqa %xmm5, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm5			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[1,1,3,3]			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3
	; SSE41-NEXT: movapd %xmm2, %xmm0			; SSE41-NEXT: movapd %xmm2, %xmm0
	; SSE41-NEXT: movapd %xmm3, %xmm1			; SSE41-NEXT: movapd %xmm3, %xmm1
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; SSE42-LABEL: min_lt_v4i64:			; SSE42-LABEL: min_lt_v4i64:
	; SSE42: # %bb.0:			; SSE42: # %bb.0:
	; SSE42-NEXT: movdqa %xmm0, %xmm4			; SSE42-NEXT: movdqa %xmm0, %xmm4
	▲ Show 20 Lines • Show All 283 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pand %xmm3, %xmm0			; SSE2-NEXT: pand %xmm3, %xmm0
	; SSE2-NEXT: pandn %xmm1, %xmm3			; SSE2-NEXT: pandn %xmm1, %xmm3
	; SSE2-NEXT: por %xmm3, %xmm0			; SSE2-NEXT: por %xmm3, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: min_le_v2i64:			; SSE41-LABEL: min_le_v2i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm2, %xmm3			; SSE41-NEXT: pxor %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm0, %xmm3			; SSE41-NEXT: pxor %xmm1, %xmm3
	; SSE41-NEXT: pxor %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm4
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm4			; SSE41-NEXT: pcmpgtd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm3, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm0			; SSE41-NEXT: movapd %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; SSE42-LABEL: min_le_v2i64:			; SSE42-LABEL: min_le_v2i64:
	; SSE42: # %bb.0:			; SSE42: # %bb.0:
	; SSE42-NEXT: movdqa %xmm0, %xmm2			; SSE42-NEXT: movdqa %xmm0, %xmm2
	; SSE42-NEXT: movdqa {{.*#+}} xmm0 = [9223372036854775808,9223372036854775808]			; SSE42-NEXT: movdqa {{.*#+}} xmm0 = [9223372036854775808,9223372036854775808]
	▲ Show 20 Lines • Show All 74 Lines • ▼ Show 20 Lines
	; SSE41-LABEL: min_le_v4i64:			; SSE41-LABEL: min_le_v4i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm2, %xmm6			; SSE41-NEXT: movdqa %xmm2, %xmm6
	; SSE41-NEXT: pxor %xmm5, %xmm6			; SSE41-NEXT: pxor %xmm5, %xmm6
	; SSE41-NEXT: movdqa %xmm6, %xmm7			; SSE41-NEXT: movdqa %xmm6, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm7			; SSE41-NEXT: pcmpeqd %xmm0, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm8 = xmm7[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm6			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[1,1,3,3]			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: pand %xmm8, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: por %xmm7, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: pxor %xmm3, %xmm5			; SSE41-NEXT: pxor %xmm3, %xmm5
	; SSE41-NEXT: movdqa %xmm5, %xmm4			; SSE41-NEXT: movdqa %xmm5, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm5			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[1,1,3,3]			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3
	; SSE41-NEXT: movapd %xmm2, %xmm0			; SSE41-NEXT: movapd %xmm2, %xmm0
	; SSE41-NEXT: movapd %xmm3, %xmm1			; SSE41-NEXT: movapd %xmm3, %xmm1
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; SSE42-LABEL: min_le_v4i64:			; SSE42-LABEL: min_le_v4i64:
	; SSE42: # %bb.0:			; SSE42: # %bb.0:
	; SSE42-NEXT: movdqa %xmm0, %xmm4			; SSE42-NEXT: movdqa %xmm0, %xmm4
	▲ Show 20 Lines • Show All 755 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-reduce-smax-widen.ll

	Show All 35 Lines
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm1			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
	; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: pxor %xmm3, %xmm4			; SSE41-NEXT: pxor %xmm3, %xmm4
	; SSE41-NEXT: pxor %xmm2, %xmm3			; SSE41-NEXT: pxor %xmm2, %xmm3
	; SSE41-NEXT: movdqa %xmm4, %xmm0			; SSE41-NEXT: movdqa %xmm4, %xmm0
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm0			; SSE41-NEXT: pcmpeqd %xmm3, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm0[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm3, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm4, %xmm3			; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm4[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: pand %xmm5, %xmm3			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2
	; SSE41-NEXT: movq %xmm2, %rax			; SSE41-NEXT: movq %xmm2, %rax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v2i64:			; AVX-LABEL: test_v2i64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2			; AVX-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2
	▲ Show 20 Lines • Show All 61 Lines • ▼ Show 20 Lines
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm1, %xmm4			; SSE41-NEXT: movdqa %xmm1, %xmm4
	; SSE41-NEXT: pxor %xmm3, %xmm4			; SSE41-NEXT: pxor %xmm3, %xmm4
	; SSE41-NEXT: movdqa %xmm0, %xmm5			; SSE41-NEXT: movdqa %xmm0, %xmm5
	; SSE41-NEXT: pxor %xmm3, %xmm5			; SSE41-NEXT: pxor %xmm3, %xmm5
	; SSE41-NEXT: movdqa %xmm5, %xmm0			; SSE41-NEXT: movdqa %xmm5, %xmm0
	; SSE41-NEXT: pcmpgtd %xmm4, %xmm0			; SSE41-NEXT: pcmpeqd %xmm4, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm0[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm4, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm4, %xmm5			; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm5[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm5[1,1,3,3]			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pand %xmm6, %xmm4			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm4
	; SSE41-NEXT: pxor %xmm3, %xmm0			; SSE41-NEXT: pxor %xmm3, %xmm4
	; SSE41-NEXT: pxor %xmm2, %xmm3			; SSE41-NEXT: pxor %xmm2, %xmm3
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: movdqa %xmm4, %xmm5
				; SSE41-NEXT: pcmpeqd %xmm3, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm4			; SSE41-NEXT: pcmpgtd %xmm3, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,3,3]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2
	; SSE41-NEXT: movq %xmm2, %rax			; SSE41-NEXT: movq %xmm2, %rax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v4i64:			; AVX1-LABEL: test_v4i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	▲ Show 20 Lines • Show All 116 Lines • ▼ Show 20 Lines
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm2, %xmm6			; SSE41-NEXT: movdqa %xmm2, %xmm6
	; SSE41-NEXT: pxor %xmm5, %xmm6			; SSE41-NEXT: pxor %xmm5, %xmm6
	; SSE41-NEXT: movdqa %xmm0, %xmm7			; SSE41-NEXT: movdqa %xmm0, %xmm7
	; SSE41-NEXT: pxor %xmm5, %xmm7			; SSE41-NEXT: pxor %xmm5, %xmm7
	; SSE41-NEXT: movdqa %xmm7, %xmm0			; SSE41-NEXT: movdqa %xmm7, %xmm0
	; SSE41-NEXT: pcmpgtd %xmm6, %xmm0			; SSE41-NEXT: pcmpeqd %xmm6, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm8 = xmm0[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm6, %xmm7
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm7			; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm7[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm7[1,1,3,3]			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: pand %xmm8, %xmm6			; SSE41-NEXT: por %xmm7, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm1, %xmm4			; SSE41-NEXT: movdqa %xmm1, %xmm4
	; SSE41-NEXT: pxor %xmm5, %xmm4			; SSE41-NEXT: pxor %xmm5, %xmm4
	; SSE41-NEXT: movdqa %xmm4, %xmm6			; SSE41-NEXT: movdqa %xmm4, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm6			; SSE41-NEXT: pcmpeqd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm6[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm4			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[1,1,3,3]			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3
	; SSE41-NEXT: movapd %xmm3, %xmm0			; SSE41-NEXT: movapd %xmm3, %xmm0
	; SSE41-NEXT: xorpd %xmm5, %xmm0			; SSE41-NEXT: xorpd %xmm5, %xmm0
	; SSE41-NEXT: movapd %xmm2, %xmm1			; SSE41-NEXT: movapd %xmm2, %xmm1
	; SSE41-NEXT: xorpd %xmm5, %xmm1			; SSE41-NEXT: xorpd %xmm5, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm4			; SSE41-NEXT: movapd %xmm1, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm3[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm3[2,3,0,1]
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm2
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm2
	; SSE41-NEXT: pxor %xmm1, %xmm5			; SSE41-NEXT: pxor %xmm1, %xmm5
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm2, %xmm4
				; SSE41-NEXT: pcmpeqd %xmm5, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm5, %xmm2			; SSE41-NEXT: pcmpgtd %xmm5, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[1,1,3,3]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1
	; SSE41-NEXT: movq %xmm1, %rax			; SSE41-NEXT: movq %xmm1, %rax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v8i64:			; AVX1-LABEL: test_v8i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	▲ Show 20 Lines • Show All 170 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: por %xmm2, %xmm3			; SSE2-NEXT: por %xmm2, %xmm3
	; SSE2-NEXT: movq %xmm3, %rax			; SSE2-NEXT: movq %xmm3, %rax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v16i64:			; SSE41-LABEL: test_v16i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm8			; SSE41-NEXT: movdqa %xmm0, %xmm8
	; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm5, %xmm10			; SSE41-NEXT: movdqa %xmm5, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm10
	; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm0, %xmm11			; SSE41-NEXT: movdqa %xmm1, %xmm10
	; SSE41-NEXT: pcmpgtd %xmm10, %xmm11			; SSE41-NEXT: pxor %xmm9, %xmm10
	; SSE41-NEXT: pshufd {{.*#+}} xmm12 = xmm11[0,0,2,2]			; SSE41-NEXT: movdqa %xmm10, %xmm11
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0			; SSE41-NEXT: pcmpeqd %xmm0, %xmm11
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm10
	; SSE41-NEXT: pand %xmm12, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm10[0,0,2,2]
	; SSE41-NEXT: por %xmm11, %xmm0			; SSE41-NEXT: pand %xmm11, %xmm0
				; SSE41-NEXT: por %xmm10, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm5			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm5
	; SSE41-NEXT: movdqa %xmm7, %xmm0			; SSE41-NEXT: movdqa %xmm7, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm3, %xmm1			; SSE41-NEXT: movdqa %xmm3, %xmm1
	; SSE41-NEXT: pxor %xmm9, %xmm1			; SSE41-NEXT: pxor %xmm9, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm10			; SSE41-NEXT: movdqa %xmm1, %xmm10
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm10			; SSE41-NEXT: pcmpeqd %xmm0, %xmm10
	; SSE41-NEXT: pshufd {{.*#+}} xmm11 = xmm10[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm10, %xmm0
	; SSE41-NEXT: pand %xmm11, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm10, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm7			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm7
	; SSE41-NEXT: movdqa %xmm4, %xmm1			; SSE41-NEXT: movdqa %xmm4, %xmm1
	; SSE41-NEXT: pxor %xmm9, %xmm1			; SSE41-NEXT: pxor %xmm9, %xmm1
	; SSE41-NEXT: movdqa %xmm8, %xmm3			; SSE41-NEXT: movdqa %xmm8, %xmm3
	; SSE41-NEXT: pxor %xmm9, %xmm3			; SSE41-NEXT: pxor %xmm9, %xmm3
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pcmpgtd %xmm1, %xmm0			; SSE41-NEXT: pcmpeqd %xmm1, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm10 = xmm0[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm1, %xmm3
	; SSE41-NEXT: pcmpeqd %xmm1, %xmm3			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm3[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm3[1,1,3,3]			; SSE41-NEXT: pand %xmm1, %xmm0
	; SSE41-NEXT: pand %xmm10, %xmm1			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm4
	; SSE41-NEXT: movdqa %xmm6, %xmm0			; SSE41-NEXT: movdqa %xmm6, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm2, %xmm1			; SSE41-NEXT: movdqa %xmm2, %xmm1
	; SSE41-NEXT: pxor %xmm9, %xmm1			; SSE41-NEXT: pxor %xmm9, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm3			; SSE41-NEXT: movdqa %xmm1, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm3			; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm8 = xmm3[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: pand %xmm8, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm6			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm6
	; SSE41-NEXT: movapd %xmm6, %xmm0			; SSE41-NEXT: movapd %xmm6, %xmm0
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm0
	; SSE41-NEXT: movapd %xmm4, %xmm1			; SSE41-NEXT: movapd %xmm4, %xmm1
	; SSE41-NEXT: xorpd %xmm9, %xmm1			; SSE41-NEXT: xorpd %xmm9, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm2			; SSE41-NEXT: movapd %xmm1, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm6			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm6
	; SSE41-NEXT: movapd %xmm7, %xmm0			; SSE41-NEXT: movapd %xmm7, %xmm0
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm0
	; SSE41-NEXT: movapd %xmm5, %xmm1			; SSE41-NEXT: movapd %xmm5, %xmm1
	; SSE41-NEXT: xorpd %xmm9, %xmm1			; SSE41-NEXT: xorpd %xmm9, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm2			; SSE41-NEXT: movapd %xmm1, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm7			; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm7
	; SSE41-NEXT: movapd %xmm7, %xmm0			; SSE41-NEXT: movapd %xmm7, %xmm0
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm0
	; SSE41-NEXT: movapd %xmm6, %xmm1			; SSE41-NEXT: movapd %xmm6, %xmm1
	; SSE41-NEXT: xorpd %xmm9, %xmm1			; SSE41-NEXT: xorpd %xmm9, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm2			; SSE41-NEXT: movapd %xmm1, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm7			; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm7[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm7[2,3,0,1]
	; SSE41-NEXT: movdqa %xmm7, %xmm0			; SSE41-NEXT: movdqa %xmm7, %xmm2
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm2
	; SSE41-NEXT: pxor %xmm1, %xmm9			; SSE41-NEXT: pxor %xmm1, %xmm9
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm2, %xmm3
				; SSE41-NEXT: pcmpeqd %xmm9, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm9, %xmm2			; SSE41-NEXT: pcmpgtd %xmm9, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm9
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm9[1,1,3,3]
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm1
	; SSE41-NEXT: movq %xmm1, %rax			; SSE41-NEXT: movq %xmm1, %rax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v16i64:			; AVX1-LABEL: test_v16i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	▲ Show 20 Lines • Show All 1,400 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-reduce-smax.ll

	Show All 35 Lines
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm1			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
	; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: pxor %xmm3, %xmm4			; SSE41-NEXT: pxor %xmm3, %xmm4
	; SSE41-NEXT: pxor %xmm2, %xmm3			; SSE41-NEXT: pxor %xmm2, %xmm3
	; SSE41-NEXT: movdqa %xmm4, %xmm0			; SSE41-NEXT: movdqa %xmm4, %xmm0
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm0			; SSE41-NEXT: pcmpeqd %xmm3, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm0[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm3, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm4, %xmm3			; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm4[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: pand %xmm5, %xmm3			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2
	; SSE41-NEXT: movq %xmm2, %rax			; SSE41-NEXT: movq %xmm2, %rax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v2i64:			; AVX-LABEL: test_v2i64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2			; AVX-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2
	▲ Show 20 Lines • Show All 61 Lines • ▼ Show 20 Lines
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm1, %xmm4			; SSE41-NEXT: movdqa %xmm1, %xmm4
	; SSE41-NEXT: pxor %xmm3, %xmm4			; SSE41-NEXT: pxor %xmm3, %xmm4
	; SSE41-NEXT: movdqa %xmm0, %xmm5			; SSE41-NEXT: movdqa %xmm0, %xmm5
	; SSE41-NEXT: pxor %xmm3, %xmm5			; SSE41-NEXT: pxor %xmm3, %xmm5
	; SSE41-NEXT: movdqa %xmm5, %xmm0			; SSE41-NEXT: movdqa %xmm5, %xmm0
	; SSE41-NEXT: pcmpgtd %xmm4, %xmm0			; SSE41-NEXT: pcmpeqd %xmm4, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm0[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm4, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm4, %xmm5			; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm5[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm5[1,1,3,3]			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pand %xmm6, %xmm4			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm4
	; SSE41-NEXT: pxor %xmm3, %xmm0			; SSE41-NEXT: pxor %xmm3, %xmm4
	; SSE41-NEXT: pxor %xmm2, %xmm3			; SSE41-NEXT: pxor %xmm2, %xmm3
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: movdqa %xmm4, %xmm5
				; SSE41-NEXT: pcmpeqd %xmm3, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm4			; SSE41-NEXT: pcmpgtd %xmm3, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,3,3]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2
	; SSE41-NEXT: movq %xmm2, %rax			; SSE41-NEXT: movq %xmm2, %rax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v4i64:			; AVX1-LABEL: test_v4i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	▲ Show 20 Lines • Show All 116 Lines • ▼ Show 20 Lines
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm2, %xmm6			; SSE41-NEXT: movdqa %xmm2, %xmm6
	; SSE41-NEXT: pxor %xmm5, %xmm6			; SSE41-NEXT: pxor %xmm5, %xmm6
	; SSE41-NEXT: movdqa %xmm0, %xmm7			; SSE41-NEXT: movdqa %xmm0, %xmm7
	; SSE41-NEXT: pxor %xmm5, %xmm7			; SSE41-NEXT: pxor %xmm5, %xmm7
	; SSE41-NEXT: movdqa %xmm7, %xmm0			; SSE41-NEXT: movdqa %xmm7, %xmm0
	; SSE41-NEXT: pcmpgtd %xmm6, %xmm0			; SSE41-NEXT: pcmpeqd %xmm6, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm8 = xmm0[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm6, %xmm7
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm7			; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm7[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm7[1,1,3,3]			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: pand %xmm8, %xmm6			; SSE41-NEXT: por %xmm7, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm1, %xmm4			; SSE41-NEXT: movdqa %xmm1, %xmm4
	; SSE41-NEXT: pxor %xmm5, %xmm4			; SSE41-NEXT: pxor %xmm5, %xmm4
	; SSE41-NEXT: movdqa %xmm4, %xmm6			; SSE41-NEXT: movdqa %xmm4, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm6			; SSE41-NEXT: pcmpeqd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm6[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm4			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[1,1,3,3]			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3
	; SSE41-NEXT: movapd %xmm3, %xmm0			; SSE41-NEXT: movapd %xmm3, %xmm0
	; SSE41-NEXT: xorpd %xmm5, %xmm0			; SSE41-NEXT: xorpd %xmm5, %xmm0
	; SSE41-NEXT: movapd %xmm2, %xmm1			; SSE41-NEXT: movapd %xmm2, %xmm1
	; SSE41-NEXT: xorpd %xmm5, %xmm1			; SSE41-NEXT: xorpd %xmm5, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm4			; SSE41-NEXT: movapd %xmm1, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm3[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm3[2,3,0,1]
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm2
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm2
	; SSE41-NEXT: pxor %xmm1, %xmm5			; SSE41-NEXT: pxor %xmm1, %xmm5
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm2, %xmm4
				; SSE41-NEXT: pcmpeqd %xmm5, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm5, %xmm2			; SSE41-NEXT: pcmpgtd %xmm5, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[1,1,3,3]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1
	; SSE41-NEXT: movq %xmm1, %rax			; SSE41-NEXT: movq %xmm1, %rax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v8i64:			; AVX1-LABEL: test_v8i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	▲ Show 20 Lines • Show All 170 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: por %xmm2, %xmm3			; SSE2-NEXT: por %xmm2, %xmm3
	; SSE2-NEXT: movq %xmm3, %rax			; SSE2-NEXT: movq %xmm3, %rax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v16i64:			; SSE41-LABEL: test_v16i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm8			; SSE41-NEXT: movdqa %xmm0, %xmm8
	; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm5, %xmm10			; SSE41-NEXT: movdqa %xmm5, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm10
	; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm0, %xmm11			; SSE41-NEXT: movdqa %xmm1, %xmm10
	; SSE41-NEXT: pcmpgtd %xmm10, %xmm11			; SSE41-NEXT: pxor %xmm9, %xmm10
	; SSE41-NEXT: pshufd {{.*#+}} xmm12 = xmm11[0,0,2,2]			; SSE41-NEXT: movdqa %xmm10, %xmm11
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0			; SSE41-NEXT: pcmpeqd %xmm0, %xmm11
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm10
	; SSE41-NEXT: pand %xmm12, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm10[0,0,2,2]
	; SSE41-NEXT: por %xmm11, %xmm0			; SSE41-NEXT: pand %xmm11, %xmm0
				; SSE41-NEXT: por %xmm10, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm5			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm5
	; SSE41-NEXT: movdqa %xmm7, %xmm0			; SSE41-NEXT: movdqa %xmm7, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm3, %xmm1			; SSE41-NEXT: movdqa %xmm3, %xmm1
	; SSE41-NEXT: pxor %xmm9, %xmm1			; SSE41-NEXT: pxor %xmm9, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm10			; SSE41-NEXT: movdqa %xmm1, %xmm10
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm10			; SSE41-NEXT: pcmpeqd %xmm0, %xmm10
	; SSE41-NEXT: pshufd {{.*#+}} xmm11 = xmm10[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm10, %xmm0
	; SSE41-NEXT: pand %xmm11, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm10, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm7			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm7
	; SSE41-NEXT: movdqa %xmm4, %xmm1			; SSE41-NEXT: movdqa %xmm4, %xmm1
	; SSE41-NEXT: pxor %xmm9, %xmm1			; SSE41-NEXT: pxor %xmm9, %xmm1
	; SSE41-NEXT: movdqa %xmm8, %xmm3			; SSE41-NEXT: movdqa %xmm8, %xmm3
	; SSE41-NEXT: pxor %xmm9, %xmm3			; SSE41-NEXT: pxor %xmm9, %xmm3
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pcmpgtd %xmm1, %xmm0			; SSE41-NEXT: pcmpeqd %xmm1, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm10 = xmm0[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm1, %xmm3
	; SSE41-NEXT: pcmpeqd %xmm1, %xmm3			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm3[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm3[1,1,3,3]			; SSE41-NEXT: pand %xmm1, %xmm0
	; SSE41-NEXT: pand %xmm10, %xmm1			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm4
	; SSE41-NEXT: movdqa %xmm6, %xmm0			; SSE41-NEXT: movdqa %xmm6, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm2, %xmm1			; SSE41-NEXT: movdqa %xmm2, %xmm1
	; SSE41-NEXT: pxor %xmm9, %xmm1			; SSE41-NEXT: pxor %xmm9, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm3			; SSE41-NEXT: movdqa %xmm1, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm3			; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm8 = xmm3[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: pand %xmm8, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm6			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm6
	; SSE41-NEXT: movapd %xmm6, %xmm0			; SSE41-NEXT: movapd %xmm6, %xmm0
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm0
	; SSE41-NEXT: movapd %xmm4, %xmm1			; SSE41-NEXT: movapd %xmm4, %xmm1
	; SSE41-NEXT: xorpd %xmm9, %xmm1			; SSE41-NEXT: xorpd %xmm9, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm2			; SSE41-NEXT: movapd %xmm1, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm6			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm6
	; SSE41-NEXT: movapd %xmm7, %xmm0			; SSE41-NEXT: movapd %xmm7, %xmm0
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm0
	; SSE41-NEXT: movapd %xmm5, %xmm1			; SSE41-NEXT: movapd %xmm5, %xmm1
	; SSE41-NEXT: xorpd %xmm9, %xmm1			; SSE41-NEXT: xorpd %xmm9, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm2			; SSE41-NEXT: movapd %xmm1, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm7			; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm7
	; SSE41-NEXT: movapd %xmm7, %xmm0			; SSE41-NEXT: movapd %xmm7, %xmm0
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm0
	; SSE41-NEXT: movapd %xmm6, %xmm1			; SSE41-NEXT: movapd %xmm6, %xmm1
	; SSE41-NEXT: xorpd %xmm9, %xmm1			; SSE41-NEXT: xorpd %xmm9, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm2			; SSE41-NEXT: movapd %xmm1, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm7			; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm7[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm7[2,3,0,1]
	; SSE41-NEXT: movdqa %xmm7, %xmm0			; SSE41-NEXT: movdqa %xmm7, %xmm2
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm2
	; SSE41-NEXT: pxor %xmm1, %xmm9			; SSE41-NEXT: pxor %xmm1, %xmm9
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm2, %xmm3
				; SSE41-NEXT: pcmpeqd %xmm9, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm9, %xmm2			; SSE41-NEXT: pcmpgtd %xmm9, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm9
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm9[1,1,3,3]
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm1
	; SSE41-NEXT: movq %xmm1, %rax			; SSE41-NEXT: movq %xmm1, %rax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v16i64:			; AVX1-LABEL: test_v16i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	▲ Show 20 Lines • Show All 1,747 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-reduce-smin-widen.ll

	Show All 30 Lines
	; SSE2-NEXT: por %xmm0, %xmm3			; SSE2-NEXT: por %xmm0, %xmm3
	; SSE2-NEXT: movq %xmm3, %rax			; SSE2-NEXT: movq %xmm3, %rax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v2i64:			; SSE41-LABEL: test_v2i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm1			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
	; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm1, %xmm3			; SSE41-NEXT: pxor %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm0, %xmm3			; SSE41-NEXT: pxor %xmm2, %xmm3
	; SSE41-NEXT: pxor %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm4
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm4			; SSE41-NEXT: pcmpgtd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm3, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2
	; SSE41-NEXT: movq %xmm2, %rax			; SSE41-NEXT: movq %xmm2, %rax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v2i64:			; AVX-LABEL: test_v2i64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm2			; AVX-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm2
	▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	; SSE41-LABEL: test_v4i64:			; SSE41-LABEL: test_v4i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [2147483648,2147483648]
	; SSE41-NEXT: pxor %xmm3, %xmm0			; SSE41-NEXT: pxor %xmm3, %xmm0
	; SSE41-NEXT: movdqa %xmm1, %xmm4			; SSE41-NEXT: movdqa %xmm1, %xmm4
	; SSE41-NEXT: pxor %xmm3, %xmm4			; SSE41-NEXT: pxor %xmm3, %xmm4
	; SSE41-NEXT: movdqa %xmm4, %xmm5			; SSE41-NEXT: movdqa %xmm4, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm5			; SSE41-NEXT: pcmpeqd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm4			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[1,1,3,3]			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm3, %xmm0			; SSE41-NEXT: pxor %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm2, %xmm3			; SSE41-NEXT: pxor %xmm2, %xmm3
	; SSE41-NEXT: movdqa %xmm3, %xmm4			; SSE41-NEXT: movdqa %xmm3, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm3
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm3			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,3,3]			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2
	; SSE41-NEXT: movq %xmm2, %rax			; SSE41-NEXT: movq %xmm2, %rax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v4i64:			; AVX1-LABEL: test_v4i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2			; AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2
	▲ Show 20 Lines • Show All 107 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pand %xmm3, %xmm1			; SSE2-NEXT: pand %xmm3, %xmm1
	; SSE2-NEXT: pandn %xmm0, %xmm3			; SSE2-NEXT: pandn %xmm0, %xmm3
	; SSE2-NEXT: por %xmm1, %xmm3			; SSE2-NEXT: por %xmm1, %xmm3
	; SSE2-NEXT: movq %xmm3, %rax			; SSE2-NEXT: movq %xmm3, %rax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v8i64:			; SSE41-LABEL: test_v8i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm8			; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm3, %xmm6			; SSE41-NEXT: movdqa %xmm3, %xmm6
	; SSE41-NEXT: pxor %xmm5, %xmm6			; SSE41-NEXT: pxor %xmm5, %xmm6
	; SSE41-NEXT: movdqa %xmm6, %xmm7			; SSE41-NEXT: movdqa %xmm6, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm7			; SSE41-NEXT: pcmpeqd %xmm0, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm7[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm6			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[1,1,3,3]			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: por %xmm7, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3
	; SSE41-NEXT: movdqa %xmm8, %xmm0			; SSE41-NEXT: movdqa %xmm4, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm2, %xmm1			; SSE41-NEXT: movdqa %xmm2, %xmm1
	; SSE41-NEXT: pxor %xmm5, %xmm1			; SSE41-NEXT: pxor %xmm5, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm4			; SSE41-NEXT: movdqa %xmm1, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2
	; SSE41-NEXT: movapd %xmm2, %xmm0			; SSE41-NEXT: movapd %xmm2, %xmm0
	; SSE41-NEXT: xorpd %xmm5, %xmm0			; SSE41-NEXT: xorpd %xmm5, %xmm0
	; SSE41-NEXT: movapd %xmm3, %xmm1			; SSE41-NEXT: movapd %xmm3, %xmm1
	; SSE41-NEXT: xorpd %xmm5, %xmm1			; SSE41-NEXT: xorpd %xmm5, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm4			; SSE41-NEXT: movapd %xmm1, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm3[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm3[2,3,0,1]
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: pxor %xmm1, %xmm5			; SSE41-NEXT: pxor %xmm1, %xmm5
	; SSE41-NEXT: movdqa %xmm5, %xmm2			; SSE41-NEXT: movdqa %xmm5, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm5			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1
	; SSE41-NEXT: movq %xmm1, %rax			; SSE41-NEXT: movq %xmm1, %rax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v8i64:			; AVX1-LABEL: test_v8i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	▲ Show 20 Lines • Show All 168 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: por %xmm2, %xmm3			; SSE2-NEXT: por %xmm2, %xmm3
	; SSE2-NEXT: movq %xmm3, %rax			; SSE2-NEXT: movq %xmm3, %rax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v16i64:			; SSE41-LABEL: test_v16i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm8			; SSE41-NEXT: movdqa %xmm0, %xmm8
	; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm2, %xmm10			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm10
	; SSE41-NEXT: movdqa %xmm6, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm0, %xmm11			; SSE41-NEXT: movdqa %xmm6, %xmm10
	; SSE41-NEXT: pcmpgtd %xmm10, %xmm11			; SSE41-NEXT: pxor %xmm9, %xmm10
	; SSE41-NEXT: pshufd {{.*#+}} xmm12 = xmm11[0,0,2,2]			; SSE41-NEXT: movdqa %xmm10, %xmm11
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0			; SSE41-NEXT: pcmpeqd %xmm0, %xmm11
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm10
	; SSE41-NEXT: pand %xmm12, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm10[0,0,2,2]
	; SSE41-NEXT: por %xmm11, %xmm0			; SSE41-NEXT: pand %xmm11, %xmm0
				; SSE41-NEXT: por %xmm10, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm6			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm6
	; SSE41-NEXT: movdqa %xmm8, %xmm0			; SSE41-NEXT: movdqa %xmm8, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm4, %xmm2			; SSE41-NEXT: movdqa %xmm4, %xmm2
	; SSE41-NEXT: pxor %xmm9, %xmm2			; SSE41-NEXT: pxor %xmm9, %xmm2
	; SSE41-NEXT: movdqa %xmm2, %xmm10			; SSE41-NEXT: movdqa %xmm2, %xmm10
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm10			; SSE41-NEXT: pcmpeqd %xmm0, %xmm10
	; SSE41-NEXT: pshufd {{.*#+}} xmm11 = xmm10[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm2
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm2			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,1,3,3]			; SSE41-NEXT: pand %xmm10, %xmm0
	; SSE41-NEXT: pand %xmm11, %xmm0			; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: por %xmm10, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm4
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm7, %xmm2			; SSE41-NEXT: movdqa %xmm7, %xmm2
	; SSE41-NEXT: pxor %xmm9, %xmm2			; SSE41-NEXT: pxor %xmm9, %xmm2
	; SSE41-NEXT: movdqa %xmm2, %xmm8			; SSE41-NEXT: movdqa %xmm2, %xmm8
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm8			; SSE41-NEXT: pcmpeqd %xmm0, %xmm8
	; SSE41-NEXT: pshufd {{.*#+}} xmm10 = xmm8[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm2
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm2			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,1,3,3]			; SSE41-NEXT: pand %xmm8, %xmm0
	; SSE41-NEXT: pand %xmm10, %xmm0			; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: por %xmm8, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm7			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm7
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm5, %xmm2			; SSE41-NEXT: movdqa %xmm5, %xmm2
	; SSE41-NEXT: pxor %xmm9, %xmm2			; SSE41-NEXT: pxor %xmm9, %xmm2
	; SSE41-NEXT: movdqa %xmm2, %xmm3			; SSE41-NEXT: movdqa %xmm2, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm3			; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm8 = xmm3[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm2
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm2			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,1,3,3]			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: pand %xmm8, %xmm0			; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm5			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm5
	; SSE41-NEXT: movapd %xmm5, %xmm0			; SSE41-NEXT: movapd %xmm5, %xmm0
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm1			; SSE41-NEXT: movapd %xmm7, %xmm1
	; SSE41-NEXT: xorpd %xmm9, %xmm1			; SSE41-NEXT: xorpd %xmm9, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm2			; SSE41-NEXT: movapd %xmm1, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm7			; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm7
	; SSE41-NEXT: movapd %xmm4, %xmm0			; SSE41-NEXT: movapd %xmm4, %xmm0
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm0
	; SSE41-NEXT: movapd %xmm6, %xmm1			; SSE41-NEXT: movapd %xmm6, %xmm1
	; SSE41-NEXT: xorpd %xmm9, %xmm1			; SSE41-NEXT: xorpd %xmm9, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm2			; SSE41-NEXT: movapd %xmm1, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm6			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm6
	; SSE41-NEXT: movapd %xmm6, %xmm0			; SSE41-NEXT: movapd %xmm6, %xmm0
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm1			; SSE41-NEXT: movapd %xmm7, %xmm1
	; SSE41-NEXT: xorpd %xmm9, %xmm1			; SSE41-NEXT: xorpd %xmm9, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm2			; SSE41-NEXT: movapd %xmm1, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm7			; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm7[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm7[2,3,0,1]
	; SSE41-NEXT: movdqa %xmm7, %xmm0			; SSE41-NEXT: movdqa %xmm7, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: pxor %xmm1, %xmm9			; SSE41-NEXT: pxor %xmm1, %xmm9
	; SSE41-NEXT: movdqa %xmm9, %xmm2			; SSE41-NEXT: movdqa %xmm9, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm9
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm9			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm9[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm9[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: por %xmm9, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm1
	; SSE41-NEXT: movq %xmm1, %rax			; SSE41-NEXT: movq %xmm1, %rax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v16i64:			; AVX1-LABEL: test_v16i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm5			; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm5
	▲ Show 20 Lines • Show All 1,398 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-reduce-smin.ll

	Show All 30 Lines
	; SSE2-NEXT: por %xmm0, %xmm3			; SSE2-NEXT: por %xmm0, %xmm3
	; SSE2-NEXT: movq %xmm3, %rax			; SSE2-NEXT: movq %xmm3, %rax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v2i64:			; SSE41-LABEL: test_v2i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm1			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
	; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm1, %xmm3			; SSE41-NEXT: pxor %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm0, %xmm3			; SSE41-NEXT: pxor %xmm2, %xmm3
	; SSE41-NEXT: pxor %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm4
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm4			; SSE41-NEXT: pcmpgtd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm3, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2
	; SSE41-NEXT: movq %xmm2, %rax			; SSE41-NEXT: movq %xmm2, %rax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v2i64:			; AVX-LABEL: test_v2i64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm2			; AVX-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm2
	▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	; SSE41-LABEL: test_v4i64:			; SSE41-LABEL: test_v4i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [2147483648,2147483648]
	; SSE41-NEXT: pxor %xmm3, %xmm0			; SSE41-NEXT: pxor %xmm3, %xmm0
	; SSE41-NEXT: movdqa %xmm1, %xmm4			; SSE41-NEXT: movdqa %xmm1, %xmm4
	; SSE41-NEXT: pxor %xmm3, %xmm4			; SSE41-NEXT: pxor %xmm3, %xmm4
	; SSE41-NEXT: movdqa %xmm4, %xmm5			; SSE41-NEXT: movdqa %xmm4, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm5			; SSE41-NEXT: pcmpeqd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm4			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[1,1,3,3]			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm3, %xmm0			; SSE41-NEXT: pxor %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm2, %xmm3			; SSE41-NEXT: pxor %xmm2, %xmm3
	; SSE41-NEXT: movdqa %xmm3, %xmm4			; SSE41-NEXT: movdqa %xmm3, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm3
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm3			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,3,3]			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2
	; SSE41-NEXT: movq %xmm2, %rax			; SSE41-NEXT: movq %xmm2, %rax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v4i64:			; AVX1-LABEL: test_v4i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2			; AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2
	▲ Show 20 Lines • Show All 107 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pand %xmm3, %xmm1			; SSE2-NEXT: pand %xmm3, %xmm1
	; SSE2-NEXT: pandn %xmm0, %xmm3			; SSE2-NEXT: pandn %xmm0, %xmm3
	; SSE2-NEXT: por %xmm1, %xmm3			; SSE2-NEXT: por %xmm1, %xmm3
	; SSE2-NEXT: movq %xmm3, %rax			; SSE2-NEXT: movq %xmm3, %rax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v8i64:			; SSE41-LABEL: test_v8i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm8			; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm3, %xmm6			; SSE41-NEXT: movdqa %xmm3, %xmm6
	; SSE41-NEXT: pxor %xmm5, %xmm6			; SSE41-NEXT: pxor %xmm5, %xmm6
	; SSE41-NEXT: movdqa %xmm6, %xmm7			; SSE41-NEXT: movdqa %xmm6, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm7			; SSE41-NEXT: pcmpeqd %xmm0, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm7[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm6			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[1,1,3,3]			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: por %xmm7, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3
	; SSE41-NEXT: movdqa %xmm8, %xmm0			; SSE41-NEXT: movdqa %xmm4, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm2, %xmm1			; SSE41-NEXT: movdqa %xmm2, %xmm1
	; SSE41-NEXT: pxor %xmm5, %xmm1			; SSE41-NEXT: pxor %xmm5, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm4			; SSE41-NEXT: movdqa %xmm1, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2
	; SSE41-NEXT: movapd %xmm2, %xmm0			; SSE41-NEXT: movapd %xmm2, %xmm0
	; SSE41-NEXT: xorpd %xmm5, %xmm0			; SSE41-NEXT: xorpd %xmm5, %xmm0
	; SSE41-NEXT: movapd %xmm3, %xmm1			; SSE41-NEXT: movapd %xmm3, %xmm1
	; SSE41-NEXT: xorpd %xmm5, %xmm1			; SSE41-NEXT: xorpd %xmm5, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm4			; SSE41-NEXT: movapd %xmm1, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm3[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm3[2,3,0,1]
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: pxor %xmm1, %xmm5			; SSE41-NEXT: pxor %xmm1, %xmm5
	; SSE41-NEXT: movdqa %xmm5, %xmm2			; SSE41-NEXT: movdqa %xmm5, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm5			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1
	; SSE41-NEXT: movq %xmm1, %rax			; SSE41-NEXT: movq %xmm1, %rax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v8i64:			; AVX1-LABEL: test_v8i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	▲ Show 20 Lines • Show All 168 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: por %xmm2, %xmm3			; SSE2-NEXT: por %xmm2, %xmm3
	; SSE2-NEXT: movq %xmm3, %rax			; SSE2-NEXT: movq %xmm3, %rax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v16i64:			; SSE41-LABEL: test_v16i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm8			; SSE41-NEXT: movdqa %xmm0, %xmm8
	; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm2, %xmm10			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm10
	; SSE41-NEXT: movdqa %xmm6, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm0, %xmm11			; SSE41-NEXT: movdqa %xmm6, %xmm10
	; SSE41-NEXT: pcmpgtd %xmm10, %xmm11			; SSE41-NEXT: pxor %xmm9, %xmm10
	; SSE41-NEXT: pshufd {{.*#+}} xmm12 = xmm11[0,0,2,2]			; SSE41-NEXT: movdqa %xmm10, %xmm11
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0			; SSE41-NEXT: pcmpeqd %xmm0, %xmm11
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm10
	; SSE41-NEXT: pand %xmm12, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm10[0,0,2,2]
	; SSE41-NEXT: por %xmm11, %xmm0			; SSE41-NEXT: pand %xmm11, %xmm0
				; SSE41-NEXT: por %xmm10, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm6			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm6
	; SSE41-NEXT: movdqa %xmm8, %xmm0			; SSE41-NEXT: movdqa %xmm8, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm4, %xmm2			; SSE41-NEXT: movdqa %xmm4, %xmm2
	; SSE41-NEXT: pxor %xmm9, %xmm2			; SSE41-NEXT: pxor %xmm9, %xmm2
	; SSE41-NEXT: movdqa %xmm2, %xmm10			; SSE41-NEXT: movdqa %xmm2, %xmm10
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm10			; SSE41-NEXT: pcmpeqd %xmm0, %xmm10
	; SSE41-NEXT: pshufd {{.*#+}} xmm11 = xmm10[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm2
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm2			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,1,3,3]			; SSE41-NEXT: pand %xmm10, %xmm0
	; SSE41-NEXT: pand %xmm11, %xmm0			; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: por %xmm10, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm4
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm7, %xmm2			; SSE41-NEXT: movdqa %xmm7, %xmm2
	; SSE41-NEXT: pxor %xmm9, %xmm2			; SSE41-NEXT: pxor %xmm9, %xmm2
	; SSE41-NEXT: movdqa %xmm2, %xmm8			; SSE41-NEXT: movdqa %xmm2, %xmm8
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm8			; SSE41-NEXT: pcmpeqd %xmm0, %xmm8
	; SSE41-NEXT: pshufd {{.*#+}} xmm10 = xmm8[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm2
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm2			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,1,3,3]			; SSE41-NEXT: pand %xmm8, %xmm0
	; SSE41-NEXT: pand %xmm10, %xmm0			; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: por %xmm8, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm7			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm7
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm5, %xmm2			; SSE41-NEXT: movdqa %xmm5, %xmm2
	; SSE41-NEXT: pxor %xmm9, %xmm2			; SSE41-NEXT: pxor %xmm9, %xmm2
	; SSE41-NEXT: movdqa %xmm2, %xmm3			; SSE41-NEXT: movdqa %xmm2, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm3			; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm8 = xmm3[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm2
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm2			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,1,3,3]			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: pand %xmm8, %xmm0			; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm5			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm5
	; SSE41-NEXT: movapd %xmm5, %xmm0			; SSE41-NEXT: movapd %xmm5, %xmm0
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm1			; SSE41-NEXT: movapd %xmm7, %xmm1
	; SSE41-NEXT: xorpd %xmm9, %xmm1			; SSE41-NEXT: xorpd %xmm9, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm2			; SSE41-NEXT: movapd %xmm1, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm7			; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm7
	; SSE41-NEXT: movapd %xmm4, %xmm0			; SSE41-NEXT: movapd %xmm4, %xmm0
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm0
	; SSE41-NEXT: movapd %xmm6, %xmm1			; SSE41-NEXT: movapd %xmm6, %xmm1
	; SSE41-NEXT: xorpd %xmm9, %xmm1			; SSE41-NEXT: xorpd %xmm9, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm2			; SSE41-NEXT: movapd %xmm1, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm6			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm6
	; SSE41-NEXT: movapd %xmm6, %xmm0			; SSE41-NEXT: movapd %xmm6, %xmm0
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm1			; SSE41-NEXT: movapd %xmm7, %xmm1
	; SSE41-NEXT: xorpd %xmm9, %xmm1			; SSE41-NEXT: xorpd %xmm9, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm2			; SSE41-NEXT: movapd %xmm1, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm7			; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm7[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm7[2,3,0,1]
	; SSE41-NEXT: movdqa %xmm7, %xmm0			; SSE41-NEXT: movdqa %xmm7, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: pxor %xmm1, %xmm9			; SSE41-NEXT: pxor %xmm1, %xmm9
	; SSE41-NEXT: movdqa %xmm9, %xmm2			; SSE41-NEXT: movdqa %xmm9, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm9
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm9			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm9[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm9[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: por %xmm9, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm1
	; SSE41-NEXT: movq %xmm1, %rax			; SSE41-NEXT: movq %xmm1, %rax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v16i64:			; AVX1-LABEL: test_v16i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm5			; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm5
	▲ Show 20 Lines • Show All 1,745 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-reduce-umax-widen.ll

	Show All 35 Lines
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm1			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
	; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: pxor %xmm3, %xmm4			; SSE41-NEXT: pxor %xmm3, %xmm4
	; SSE41-NEXT: pxor %xmm2, %xmm3			; SSE41-NEXT: pxor %xmm2, %xmm3
	; SSE41-NEXT: movdqa %xmm4, %xmm0			; SSE41-NEXT: movdqa %xmm4, %xmm0
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm0			; SSE41-NEXT: pcmpeqd %xmm3, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm0[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm3, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm4, %xmm3			; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm4[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: pand %xmm5, %xmm3			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2
	; SSE41-NEXT: movq %xmm2, %rax			; SSE41-NEXT: movq %xmm2, %rax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v2i64:			; AVX-LABEL: test_v2i64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]			; AVX-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
	▲ Show 20 Lines • Show All 64 Lines • ▼ Show 20 Lines
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm1, %xmm4			; SSE41-NEXT: movdqa %xmm1, %xmm4
	; SSE41-NEXT: pxor %xmm3, %xmm4			; SSE41-NEXT: pxor %xmm3, %xmm4
	; SSE41-NEXT: movdqa %xmm0, %xmm5			; SSE41-NEXT: movdqa %xmm0, %xmm5
	; SSE41-NEXT: pxor %xmm3, %xmm5			; SSE41-NEXT: pxor %xmm3, %xmm5
	; SSE41-NEXT: movdqa %xmm5, %xmm0			; SSE41-NEXT: movdqa %xmm5, %xmm0
	; SSE41-NEXT: pcmpgtd %xmm4, %xmm0			; SSE41-NEXT: pcmpeqd %xmm4, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm0[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm4, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm4, %xmm5			; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm5[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm5[1,1,3,3]			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pand %xmm6, %xmm4			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm4
	; SSE41-NEXT: pxor %xmm3, %xmm0			; SSE41-NEXT: pxor %xmm3, %xmm4
	; SSE41-NEXT: pxor %xmm2, %xmm3			; SSE41-NEXT: pxor %xmm2, %xmm3
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: movdqa %xmm4, %xmm5
				; SSE41-NEXT: pcmpeqd %xmm3, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm4			; SSE41-NEXT: pcmpgtd %xmm3, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,3,3]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2
	; SSE41-NEXT: movq %xmm2, %rax			; SSE41-NEXT: movq %xmm2, %rax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v4i64:			; AVX1-LABEL: test_v4i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	▲ Show 20 Lines • Show All 126 Lines • ▼ Show 20 Lines
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm2, %xmm6			; SSE41-NEXT: movdqa %xmm2, %xmm6
	; SSE41-NEXT: pxor %xmm5, %xmm6			; SSE41-NEXT: pxor %xmm5, %xmm6
	; SSE41-NEXT: movdqa %xmm0, %xmm7			; SSE41-NEXT: movdqa %xmm0, %xmm7
	; SSE41-NEXT: pxor %xmm5, %xmm7			; SSE41-NEXT: pxor %xmm5, %xmm7
	; SSE41-NEXT: movdqa %xmm7, %xmm0			; SSE41-NEXT: movdqa %xmm7, %xmm0
	; SSE41-NEXT: pcmpgtd %xmm6, %xmm0			; SSE41-NEXT: pcmpeqd %xmm6, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm8 = xmm0[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm6, %xmm7
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm7			; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm7[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm7[1,1,3,3]			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: pand %xmm8, %xmm6			; SSE41-NEXT: por %xmm7, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm1, %xmm4			; SSE41-NEXT: movdqa %xmm1, %xmm4
	; SSE41-NEXT: pxor %xmm5, %xmm4			; SSE41-NEXT: pxor %xmm5, %xmm4
	; SSE41-NEXT: movdqa %xmm4, %xmm6			; SSE41-NEXT: movdqa %xmm4, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm6			; SSE41-NEXT: pcmpeqd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm6[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm4			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[1,1,3,3]			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3
	; SSE41-NEXT: movapd %xmm3, %xmm0			; SSE41-NEXT: movapd %xmm3, %xmm0
	; SSE41-NEXT: xorpd %xmm5, %xmm0			; SSE41-NEXT: xorpd %xmm5, %xmm0
	; SSE41-NEXT: movapd %xmm2, %xmm1			; SSE41-NEXT: movapd %xmm2, %xmm1
	; SSE41-NEXT: xorpd %xmm5, %xmm1			; SSE41-NEXT: xorpd %xmm5, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm4			; SSE41-NEXT: movapd %xmm1, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm3[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm3[2,3,0,1]
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm2
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm2
	; SSE41-NEXT: pxor %xmm1, %xmm5			; SSE41-NEXT: pxor %xmm1, %xmm5
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm2, %xmm4
				; SSE41-NEXT: pcmpeqd %xmm5, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm5, %xmm2			; SSE41-NEXT: pcmpgtd %xmm5, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[1,1,3,3]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1
	; SSE41-NEXT: movq %xmm1, %rax			; SSE41-NEXT: movq %xmm1, %rax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v8i64:			; AVX1-LABEL: test_v8i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	▲ Show 20 Lines • Show All 186 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: por %xmm2, %xmm3			; SSE2-NEXT: por %xmm2, %xmm3
	; SSE2-NEXT: movq %xmm3, %rax			; SSE2-NEXT: movq %xmm3, %rax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v16i64:			; SSE41-LABEL: test_v16i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm8			; SSE41-NEXT: movdqa %xmm0, %xmm8
	; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm5, %xmm10			; SSE41-NEXT: movdqa %xmm5, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm10
	; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm0, %xmm11			; SSE41-NEXT: movdqa %xmm1, %xmm10
	; SSE41-NEXT: pcmpgtd %xmm10, %xmm11			; SSE41-NEXT: pxor %xmm9, %xmm10
	; SSE41-NEXT: pshufd {{.*#+}} xmm12 = xmm11[0,0,2,2]			; SSE41-NEXT: movdqa %xmm10, %xmm11
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0			; SSE41-NEXT: pcmpeqd %xmm0, %xmm11
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm10
	; SSE41-NEXT: pand %xmm12, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm10[0,0,2,2]
	; SSE41-NEXT: por %xmm11, %xmm0			; SSE41-NEXT: pand %xmm11, %xmm0
				; SSE41-NEXT: por %xmm10, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm5			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm5
	; SSE41-NEXT: movdqa %xmm7, %xmm0			; SSE41-NEXT: movdqa %xmm7, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm3, %xmm1			; SSE41-NEXT: movdqa %xmm3, %xmm1
	; SSE41-NEXT: pxor %xmm9, %xmm1			; SSE41-NEXT: pxor %xmm9, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm10			; SSE41-NEXT: movdqa %xmm1, %xmm10
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm10			; SSE41-NEXT: pcmpeqd %xmm0, %xmm10
	; SSE41-NEXT: pshufd {{.*#+}} xmm11 = xmm10[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm10, %xmm0
	; SSE41-NEXT: pand %xmm11, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm10, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm7			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm7
	; SSE41-NEXT: movdqa %xmm4, %xmm1			; SSE41-NEXT: movdqa %xmm4, %xmm1
	; SSE41-NEXT: pxor %xmm9, %xmm1			; SSE41-NEXT: pxor %xmm9, %xmm1
	; SSE41-NEXT: movdqa %xmm8, %xmm3			; SSE41-NEXT: movdqa %xmm8, %xmm3
	; SSE41-NEXT: pxor %xmm9, %xmm3			; SSE41-NEXT: pxor %xmm9, %xmm3
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pcmpgtd %xmm1, %xmm0			; SSE41-NEXT: pcmpeqd %xmm1, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm10 = xmm0[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm1, %xmm3
	; SSE41-NEXT: pcmpeqd %xmm1, %xmm3			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm3[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm3[1,1,3,3]			; SSE41-NEXT: pand %xmm1, %xmm0
	; SSE41-NEXT: pand %xmm10, %xmm1			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm4
	; SSE41-NEXT: movdqa %xmm6, %xmm0			; SSE41-NEXT: movdqa %xmm6, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm2, %xmm1			; SSE41-NEXT: movdqa %xmm2, %xmm1
	; SSE41-NEXT: pxor %xmm9, %xmm1			; SSE41-NEXT: pxor %xmm9, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm3			; SSE41-NEXT: movdqa %xmm1, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm3			; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm8 = xmm3[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: pand %xmm8, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm6			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm6
	; SSE41-NEXT: movapd %xmm6, %xmm0			; SSE41-NEXT: movapd %xmm6, %xmm0
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm0
	; SSE41-NEXT: movapd %xmm4, %xmm1			; SSE41-NEXT: movapd %xmm4, %xmm1
	; SSE41-NEXT: xorpd %xmm9, %xmm1			; SSE41-NEXT: xorpd %xmm9, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm2			; SSE41-NEXT: movapd %xmm1, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm6			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm6
	; SSE41-NEXT: movapd %xmm7, %xmm0			; SSE41-NEXT: movapd %xmm7, %xmm0
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm0
	; SSE41-NEXT: movapd %xmm5, %xmm1			; SSE41-NEXT: movapd %xmm5, %xmm1
	; SSE41-NEXT: xorpd %xmm9, %xmm1			; SSE41-NEXT: xorpd %xmm9, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm2			; SSE41-NEXT: movapd %xmm1, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm7			; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm7
	; SSE41-NEXT: movapd %xmm7, %xmm0			; SSE41-NEXT: movapd %xmm7, %xmm0
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm0
	; SSE41-NEXT: movapd %xmm6, %xmm1			; SSE41-NEXT: movapd %xmm6, %xmm1
	; SSE41-NEXT: xorpd %xmm9, %xmm1			; SSE41-NEXT: xorpd %xmm9, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm2			; SSE41-NEXT: movapd %xmm1, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm7			; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm7[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm7[2,3,0,1]
	; SSE41-NEXT: movdqa %xmm7, %xmm0			; SSE41-NEXT: movdqa %xmm7, %xmm2
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm2
	; SSE41-NEXT: pxor %xmm1, %xmm9			; SSE41-NEXT: pxor %xmm1, %xmm9
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm2, %xmm3
				; SSE41-NEXT: pcmpeqd %xmm9, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm9, %xmm2			; SSE41-NEXT: pcmpgtd %xmm9, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm9
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm9[1,1,3,3]
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm1
	; SSE41-NEXT: movq %xmm1, %rax			; SSE41-NEXT: movq %xmm1, %rax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v16i64:			; AVX1-LABEL: test_v16i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	▲ Show 20 Lines • Show All 1,573 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-reduce-umax.ll

	Show All 35 Lines
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm1			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
	; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: pxor %xmm3, %xmm4			; SSE41-NEXT: pxor %xmm3, %xmm4
	; SSE41-NEXT: pxor %xmm2, %xmm3			; SSE41-NEXT: pxor %xmm2, %xmm3
	; SSE41-NEXT: movdqa %xmm4, %xmm0			; SSE41-NEXT: movdqa %xmm4, %xmm0
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm0			; SSE41-NEXT: pcmpeqd %xmm3, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm0[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm3, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm4, %xmm3			; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm4[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: pand %xmm5, %xmm3			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2
	; SSE41-NEXT: movq %xmm2, %rax			; SSE41-NEXT: movq %xmm2, %rax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v2i64:			; AVX-LABEL: test_v2i64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]			; AVX-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
	▲ Show 20 Lines • Show All 64 Lines • ▼ Show 20 Lines
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm1, %xmm4			; SSE41-NEXT: movdqa %xmm1, %xmm4
	; SSE41-NEXT: pxor %xmm3, %xmm4			; SSE41-NEXT: pxor %xmm3, %xmm4
	; SSE41-NEXT: movdqa %xmm0, %xmm5			; SSE41-NEXT: movdqa %xmm0, %xmm5
	; SSE41-NEXT: pxor %xmm3, %xmm5			; SSE41-NEXT: pxor %xmm3, %xmm5
	; SSE41-NEXT: movdqa %xmm5, %xmm0			; SSE41-NEXT: movdqa %xmm5, %xmm0
	; SSE41-NEXT: pcmpgtd %xmm4, %xmm0			; SSE41-NEXT: pcmpeqd %xmm4, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm0[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm4, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm4, %xmm5			; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm5[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm5[1,1,3,3]			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pand %xmm6, %xmm4			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm4
	; SSE41-NEXT: pxor %xmm3, %xmm0			; SSE41-NEXT: pxor %xmm3, %xmm4
	; SSE41-NEXT: pxor %xmm2, %xmm3			; SSE41-NEXT: pxor %xmm2, %xmm3
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: movdqa %xmm4, %xmm5
				; SSE41-NEXT: pcmpeqd %xmm3, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm4			; SSE41-NEXT: pcmpgtd %xmm3, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,3,3]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2
	; SSE41-NEXT: movq %xmm2, %rax			; SSE41-NEXT: movq %xmm2, %rax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v4i64:			; AVX1-LABEL: test_v4i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	▲ Show 20 Lines • Show All 126 Lines • ▼ Show 20 Lines
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm2, %xmm6			; SSE41-NEXT: movdqa %xmm2, %xmm6
	; SSE41-NEXT: pxor %xmm5, %xmm6			; SSE41-NEXT: pxor %xmm5, %xmm6
	; SSE41-NEXT: movdqa %xmm0, %xmm7			; SSE41-NEXT: movdqa %xmm0, %xmm7
	; SSE41-NEXT: pxor %xmm5, %xmm7			; SSE41-NEXT: pxor %xmm5, %xmm7
	; SSE41-NEXT: movdqa %xmm7, %xmm0			; SSE41-NEXT: movdqa %xmm7, %xmm0
	; SSE41-NEXT: pcmpgtd %xmm6, %xmm0			; SSE41-NEXT: pcmpeqd %xmm6, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm8 = xmm0[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm6, %xmm7
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm7			; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm7[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm7[1,1,3,3]			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: pand %xmm8, %xmm6			; SSE41-NEXT: por %xmm7, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm1, %xmm4			; SSE41-NEXT: movdqa %xmm1, %xmm4
	; SSE41-NEXT: pxor %xmm5, %xmm4			; SSE41-NEXT: pxor %xmm5, %xmm4
	; SSE41-NEXT: movdqa %xmm4, %xmm6			; SSE41-NEXT: movdqa %xmm4, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm6			; SSE41-NEXT: pcmpeqd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm6[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm4			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[1,1,3,3]			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3
	; SSE41-NEXT: movapd %xmm3, %xmm0			; SSE41-NEXT: movapd %xmm3, %xmm0
	; SSE41-NEXT: xorpd %xmm5, %xmm0			; SSE41-NEXT: xorpd %xmm5, %xmm0
	; SSE41-NEXT: movapd %xmm2, %xmm1			; SSE41-NEXT: movapd %xmm2, %xmm1
	; SSE41-NEXT: xorpd %xmm5, %xmm1			; SSE41-NEXT: xorpd %xmm5, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm4			; SSE41-NEXT: movapd %xmm1, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm3[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm3[2,3,0,1]
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm2
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm2
	; SSE41-NEXT: pxor %xmm1, %xmm5			; SSE41-NEXT: pxor %xmm1, %xmm5
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm2, %xmm4
				; SSE41-NEXT: pcmpeqd %xmm5, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm5, %xmm2			; SSE41-NEXT: pcmpgtd %xmm5, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[1,1,3,3]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1
	; SSE41-NEXT: movq %xmm1, %rax			; SSE41-NEXT: movq %xmm1, %rax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v8i64:			; AVX1-LABEL: test_v8i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	▲ Show 20 Lines • Show All 186 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: por %xmm2, %xmm3			; SSE2-NEXT: por %xmm2, %xmm3
	; SSE2-NEXT: movq %xmm3, %rax			; SSE2-NEXT: movq %xmm3, %rax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v16i64:			; SSE41-LABEL: test_v16i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm8			; SSE41-NEXT: movdqa %xmm0, %xmm8
	; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm5, %xmm10			; SSE41-NEXT: movdqa %xmm5, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm10
	; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm0, %xmm11			; SSE41-NEXT: movdqa %xmm1, %xmm10
	; SSE41-NEXT: pcmpgtd %xmm10, %xmm11			; SSE41-NEXT: pxor %xmm9, %xmm10
	; SSE41-NEXT: pshufd {{.*#+}} xmm12 = xmm11[0,0,2,2]			; SSE41-NEXT: movdqa %xmm10, %xmm11
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0			; SSE41-NEXT: pcmpeqd %xmm0, %xmm11
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm10
	; SSE41-NEXT: pand %xmm12, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm10[0,0,2,2]
	; SSE41-NEXT: por %xmm11, %xmm0			; SSE41-NEXT: pand %xmm11, %xmm0
				; SSE41-NEXT: por %xmm10, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm5			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm5
	; SSE41-NEXT: movdqa %xmm7, %xmm0			; SSE41-NEXT: movdqa %xmm7, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm3, %xmm1			; SSE41-NEXT: movdqa %xmm3, %xmm1
	; SSE41-NEXT: pxor %xmm9, %xmm1			; SSE41-NEXT: pxor %xmm9, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm10			; SSE41-NEXT: movdqa %xmm1, %xmm10
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm10			; SSE41-NEXT: pcmpeqd %xmm0, %xmm10
	; SSE41-NEXT: pshufd {{.*#+}} xmm11 = xmm10[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm10, %xmm0
	; SSE41-NEXT: pand %xmm11, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm10, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm7			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm7
	; SSE41-NEXT: movdqa %xmm4, %xmm1			; SSE41-NEXT: movdqa %xmm4, %xmm1
	; SSE41-NEXT: pxor %xmm9, %xmm1			; SSE41-NEXT: pxor %xmm9, %xmm1
	; SSE41-NEXT: movdqa %xmm8, %xmm3			; SSE41-NEXT: movdqa %xmm8, %xmm3
	; SSE41-NEXT: pxor %xmm9, %xmm3			; SSE41-NEXT: pxor %xmm9, %xmm3
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pcmpgtd %xmm1, %xmm0			; SSE41-NEXT: pcmpeqd %xmm1, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm10 = xmm0[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm1, %xmm3
	; SSE41-NEXT: pcmpeqd %xmm1, %xmm3			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm3[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm3[1,1,3,3]			; SSE41-NEXT: pand %xmm1, %xmm0
	; SSE41-NEXT: pand %xmm10, %xmm1			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm4
	; SSE41-NEXT: movdqa %xmm6, %xmm0			; SSE41-NEXT: movdqa %xmm6, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm2, %xmm1			; SSE41-NEXT: movdqa %xmm2, %xmm1
	; SSE41-NEXT: pxor %xmm9, %xmm1			; SSE41-NEXT: pxor %xmm9, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm3			; SSE41-NEXT: movdqa %xmm1, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm3			; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm8 = xmm3[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: pand %xmm8, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm6			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm6
	; SSE41-NEXT: movapd %xmm6, %xmm0			; SSE41-NEXT: movapd %xmm6, %xmm0
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm0
	; SSE41-NEXT: movapd %xmm4, %xmm1			; SSE41-NEXT: movapd %xmm4, %xmm1
	; SSE41-NEXT: xorpd %xmm9, %xmm1			; SSE41-NEXT: xorpd %xmm9, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm2			; SSE41-NEXT: movapd %xmm1, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm6			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm6
	; SSE41-NEXT: movapd %xmm7, %xmm0			; SSE41-NEXT: movapd %xmm7, %xmm0
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm0
	; SSE41-NEXT: movapd %xmm5, %xmm1			; SSE41-NEXT: movapd %xmm5, %xmm1
	; SSE41-NEXT: xorpd %xmm9, %xmm1			; SSE41-NEXT: xorpd %xmm9, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm2			; SSE41-NEXT: movapd %xmm1, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm7			; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm7
	; SSE41-NEXT: movapd %xmm7, %xmm0			; SSE41-NEXT: movapd %xmm7, %xmm0
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm0
	; SSE41-NEXT: movapd %xmm6, %xmm1			; SSE41-NEXT: movapd %xmm6, %xmm1
	; SSE41-NEXT: xorpd %xmm9, %xmm1			; SSE41-NEXT: xorpd %xmm9, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm2			; SSE41-NEXT: movapd %xmm1, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm7			; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm7[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm7[2,3,0,1]
	; SSE41-NEXT: movdqa %xmm7, %xmm0			; SSE41-NEXT: movdqa %xmm7, %xmm2
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm2
	; SSE41-NEXT: pxor %xmm1, %xmm9			; SSE41-NEXT: pxor %xmm1, %xmm9
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm2, %xmm3
				; SSE41-NEXT: pcmpeqd %xmm9, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm9, %xmm2			; SSE41-NEXT: pcmpgtd %xmm9, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm9
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm9[1,1,3,3]
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm1
	; SSE41-NEXT: movq %xmm1, %rax			; SSE41-NEXT: movq %xmm1, %rax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v16i64:			; AVX1-LABEL: test_v16i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	▲ Show 20 Lines • Show All 1,816 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-reduce-umin-widen.ll

	Show All 30 Lines
	; SSE2-NEXT: por %xmm0, %xmm3			; SSE2-NEXT: por %xmm0, %xmm3
	; SSE2-NEXT: movq %xmm3, %rax			; SSE2-NEXT: movq %xmm3, %rax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v2i64:			; SSE41-LABEL: test_v2i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm1			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
	; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm1, %xmm3			; SSE41-NEXT: pxor %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm0, %xmm3			; SSE41-NEXT: pxor %xmm2, %xmm3
	; SSE41-NEXT: pxor %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm4
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm4			; SSE41-NEXT: pcmpgtd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm3, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2
	; SSE41-NEXT: movq %xmm2, %rax			; SSE41-NEXT: movq %xmm2, %rax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v2i64:			; AVX-LABEL: test_v2i64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]			; AVX-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
	▲ Show 20 Lines • Show All 63 Lines • ▼ Show 20 Lines
	; SSE41-LABEL: test_v4i64:			; SSE41-LABEL: test_v4i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: pxor %xmm3, %xmm0			; SSE41-NEXT: pxor %xmm3, %xmm0
	; SSE41-NEXT: movdqa %xmm1, %xmm4			; SSE41-NEXT: movdqa %xmm1, %xmm4
	; SSE41-NEXT: pxor %xmm3, %xmm4			; SSE41-NEXT: pxor %xmm3, %xmm4
	; SSE41-NEXT: movdqa %xmm4, %xmm5			; SSE41-NEXT: movdqa %xmm4, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm5			; SSE41-NEXT: pcmpeqd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm4			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[1,1,3,3]			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm3, %xmm0			; SSE41-NEXT: pxor %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm2, %xmm3			; SSE41-NEXT: pxor %xmm2, %xmm3
	; SSE41-NEXT: movdqa %xmm3, %xmm4			; SSE41-NEXT: movdqa %xmm3, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm3
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm3			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,3,3]			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2
	; SSE41-NEXT: movq %xmm2, %rax			; SSE41-NEXT: movq %xmm2, %rax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v4i64:			; AVX1-LABEL: test_v4i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
	▲ Show 20 Lines • Show All 117 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pand %xmm3, %xmm1			; SSE2-NEXT: pand %xmm3, %xmm1
	; SSE2-NEXT: pandn %xmm0, %xmm3			; SSE2-NEXT: pandn %xmm0, %xmm3
	; SSE2-NEXT: por %xmm1, %xmm3			; SSE2-NEXT: por %xmm1, %xmm3
	; SSE2-NEXT: movq %xmm3, %rax			; SSE2-NEXT: movq %xmm3, %rax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v8i64:			; SSE41-LABEL: test_v8i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm8			; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm3, %xmm6			; SSE41-NEXT: movdqa %xmm3, %xmm6
	; SSE41-NEXT: pxor %xmm5, %xmm6			; SSE41-NEXT: pxor %xmm5, %xmm6
	; SSE41-NEXT: movdqa %xmm6, %xmm7			; SSE41-NEXT: movdqa %xmm6, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm7			; SSE41-NEXT: pcmpeqd %xmm0, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm7[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm6			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[1,1,3,3]			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: por %xmm7, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3
	; SSE41-NEXT: movdqa %xmm8, %xmm0			; SSE41-NEXT: movdqa %xmm4, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm2, %xmm1			; SSE41-NEXT: movdqa %xmm2, %xmm1
	; SSE41-NEXT: pxor %xmm5, %xmm1			; SSE41-NEXT: pxor %xmm5, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm4			; SSE41-NEXT: movdqa %xmm1, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2
	; SSE41-NEXT: movapd %xmm2, %xmm0			; SSE41-NEXT: movapd %xmm2, %xmm0
	; SSE41-NEXT: xorpd %xmm5, %xmm0			; SSE41-NEXT: xorpd %xmm5, %xmm0
	; SSE41-NEXT: movapd %xmm3, %xmm1			; SSE41-NEXT: movapd %xmm3, %xmm1
	; SSE41-NEXT: xorpd %xmm5, %xmm1			; SSE41-NEXT: xorpd %xmm5, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm4			; SSE41-NEXT: movapd %xmm1, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm3[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm3[2,3,0,1]
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: pxor %xmm1, %xmm5			; SSE41-NEXT: pxor %xmm1, %xmm5
	; SSE41-NEXT: movdqa %xmm5, %xmm2			; SSE41-NEXT: movdqa %xmm5, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm5			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1
	; SSE41-NEXT: movq %xmm1, %rax			; SSE41-NEXT: movq %xmm1, %rax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v8i64:			; AVX1-LABEL: test_v8i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [9223372036854775808,9223372036854775808]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [9223372036854775808,9223372036854775808]
	▲ Show 20 Lines • Show All 184 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: por %xmm2, %xmm3			; SSE2-NEXT: por %xmm2, %xmm3
	; SSE2-NEXT: movq %xmm3, %rax			; SSE2-NEXT: movq %xmm3, %rax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v16i64:			; SSE41-LABEL: test_v16i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm8			; SSE41-NEXT: movdqa %xmm0, %xmm8
	; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm2, %xmm10			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm10
	; SSE41-NEXT: movdqa %xmm6, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm0, %xmm11			; SSE41-NEXT: movdqa %xmm6, %xmm10
	; SSE41-NEXT: pcmpgtd %xmm10, %xmm11			; SSE41-NEXT: pxor %xmm9, %xmm10
	; SSE41-NEXT: pshufd {{.*#+}} xmm12 = xmm11[0,0,2,2]			; SSE41-NEXT: movdqa %xmm10, %xmm11
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0			; SSE41-NEXT: pcmpeqd %xmm0, %xmm11
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm10
	; SSE41-NEXT: pand %xmm12, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm10[0,0,2,2]
	; SSE41-NEXT: por %xmm11, %xmm0			; SSE41-NEXT: pand %xmm11, %xmm0
				; SSE41-NEXT: por %xmm10, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm6			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm6
	; SSE41-NEXT: movdqa %xmm8, %xmm0			; SSE41-NEXT: movdqa %xmm8, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm4, %xmm2			; SSE41-NEXT: movdqa %xmm4, %xmm2
	; SSE41-NEXT: pxor %xmm9, %xmm2			; SSE41-NEXT: pxor %xmm9, %xmm2
	; SSE41-NEXT: movdqa %xmm2, %xmm10			; SSE41-NEXT: movdqa %xmm2, %xmm10
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm10			; SSE41-NEXT: pcmpeqd %xmm0, %xmm10
	; SSE41-NEXT: pshufd {{.*#+}} xmm11 = xmm10[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm2
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm2			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,1,3,3]			; SSE41-NEXT: pand %xmm10, %xmm0
	; SSE41-NEXT: pand %xmm11, %xmm0			; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: por %xmm10, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm4
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm7, %xmm2			; SSE41-NEXT: movdqa %xmm7, %xmm2
	; SSE41-NEXT: pxor %xmm9, %xmm2			; SSE41-NEXT: pxor %xmm9, %xmm2
	; SSE41-NEXT: movdqa %xmm2, %xmm8			; SSE41-NEXT: movdqa %xmm2, %xmm8
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm8			; SSE41-NEXT: pcmpeqd %xmm0, %xmm8
	; SSE41-NEXT: pshufd {{.*#+}} xmm10 = xmm8[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm2
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm2			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,1,3,3]			; SSE41-NEXT: pand %xmm8, %xmm0
	; SSE41-NEXT: pand %xmm10, %xmm0			; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: por %xmm8, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm7			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm7
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm5, %xmm2			; SSE41-NEXT: movdqa %xmm5, %xmm2
	; SSE41-NEXT: pxor %xmm9, %xmm2			; SSE41-NEXT: pxor %xmm9, %xmm2
	; SSE41-NEXT: movdqa %xmm2, %xmm3			; SSE41-NEXT: movdqa %xmm2, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm3			; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm8 = xmm3[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm2
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm2			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,1,3,3]			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: pand %xmm8, %xmm0			; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm5			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm5
	; SSE41-NEXT: movapd %xmm5, %xmm0			; SSE41-NEXT: movapd %xmm5, %xmm0
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm1			; SSE41-NEXT: movapd %xmm7, %xmm1
	; SSE41-NEXT: xorpd %xmm9, %xmm1			; SSE41-NEXT: xorpd %xmm9, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm2			; SSE41-NEXT: movapd %xmm1, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm7			; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm7
	; SSE41-NEXT: movapd %xmm4, %xmm0			; SSE41-NEXT: movapd %xmm4, %xmm0
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm0
	; SSE41-NEXT: movapd %xmm6, %xmm1			; SSE41-NEXT: movapd %xmm6, %xmm1
	; SSE41-NEXT: xorpd %xmm9, %xmm1			; SSE41-NEXT: xorpd %xmm9, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm2			; SSE41-NEXT: movapd %xmm1, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm6			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm6
	; SSE41-NEXT: movapd %xmm6, %xmm0			; SSE41-NEXT: movapd %xmm6, %xmm0
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm1			; SSE41-NEXT: movapd %xmm7, %xmm1
	; SSE41-NEXT: xorpd %xmm9, %xmm1			; SSE41-NEXT: xorpd %xmm9, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm2			; SSE41-NEXT: movapd %xmm1, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm7			; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm7[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm7[2,3,0,1]
	; SSE41-NEXT: movdqa %xmm7, %xmm0			; SSE41-NEXT: movdqa %xmm7, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: pxor %xmm1, %xmm9			; SSE41-NEXT: pxor %xmm1, %xmm9
	; SSE41-NEXT: movdqa %xmm9, %xmm2			; SSE41-NEXT: movdqa %xmm9, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm9
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm9			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm9[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm9[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: por %xmm9, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm1
	; SSE41-NEXT: movq %xmm1, %rax			; SSE41-NEXT: movq %xmm1, %rax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v16i64:			; AVX1-LABEL: test_v16i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm5			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm5
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [9223372036854775808,9223372036854775808]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [9223372036854775808,9223372036854775808]
	▲ Show 20 Lines • Show All 1,377 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-reduce-umin.ll

	Show All 30 Lines
	; SSE2-NEXT: por %xmm0, %xmm3			; SSE2-NEXT: por %xmm0, %xmm3
	; SSE2-NEXT: movq %xmm3, %rax			; SSE2-NEXT: movq %xmm3, %rax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v2i64:			; SSE41-LABEL: test_v2i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm1			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm0[2,3,0,1]
	; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm1, %xmm3			; SSE41-NEXT: pxor %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm0, %xmm3			; SSE41-NEXT: pxor %xmm2, %xmm3
	; SSE41-NEXT: pxor %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm4
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm4			; SSE41-NEXT: pcmpgtd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm3, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2
	; SSE41-NEXT: movq %xmm2, %rax			; SSE41-NEXT: movq %xmm2, %rax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX-LABEL: test_v2i64:			; AVX-LABEL: test_v2i64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]			; AVX-NEXT: vpshufd {{.*#+}} xmm1 = xmm0[2,3,0,1]
	; AVX-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]			; AVX-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
	▲ Show 20 Lines • Show All 63 Lines • ▼ Show 20 Lines
	; SSE41-LABEL: test_v4i64:			; SSE41-LABEL: test_v4i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: pxor %xmm3, %xmm0			; SSE41-NEXT: pxor %xmm3, %xmm0
	; SSE41-NEXT: movdqa %xmm1, %xmm4			; SSE41-NEXT: movdqa %xmm1, %xmm4
	; SSE41-NEXT: pxor %xmm3, %xmm4			; SSE41-NEXT: pxor %xmm3, %xmm4
	; SSE41-NEXT: movdqa %xmm4, %xmm5			; SSE41-NEXT: movdqa %xmm4, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm5			; SSE41-NEXT: pcmpeqd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm4			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[1,1,3,3]			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[2,3,0,1]
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm3, %xmm0			; SSE41-NEXT: pxor %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm2, %xmm3			; SSE41-NEXT: pxor %xmm2, %xmm3
	; SSE41-NEXT: movdqa %xmm3, %xmm4			; SSE41-NEXT: movdqa %xmm3, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm3
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm3			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,3,3]			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2
	; SSE41-NEXT: movq %xmm2, %rax			; SSE41-NEXT: movq %xmm2, %rax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v4i64:			; AVX1-LABEL: test_v4i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808]
	▲ Show 20 Lines • Show All 117 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pand %xmm3, %xmm1			; SSE2-NEXT: pand %xmm3, %xmm1
	; SSE2-NEXT: pandn %xmm0, %xmm3			; SSE2-NEXT: pandn %xmm0, %xmm3
	; SSE2-NEXT: por %xmm1, %xmm3			; SSE2-NEXT: por %xmm1, %xmm3
	; SSE2-NEXT: movq %xmm3, %rax			; SSE2-NEXT: movq %xmm3, %rax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v8i64:			; SSE41-LABEL: test_v8i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm8			; SSE41-NEXT: movdqa %xmm0, %xmm4
	; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm3, %xmm6			; SSE41-NEXT: movdqa %xmm3, %xmm6
	; SSE41-NEXT: pxor %xmm5, %xmm6			; SSE41-NEXT: pxor %xmm5, %xmm6
	; SSE41-NEXT: movdqa %xmm6, %xmm7			; SSE41-NEXT: movdqa %xmm6, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm7			; SSE41-NEXT: pcmpeqd %xmm0, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm7[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm6			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[1,1,3,3]			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: por %xmm7, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3
	; SSE41-NEXT: movdqa %xmm8, %xmm0			; SSE41-NEXT: movdqa %xmm4, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm2, %xmm1			; SSE41-NEXT: movdqa %xmm2, %xmm1
	; SSE41-NEXT: pxor %xmm5, %xmm1			; SSE41-NEXT: pxor %xmm5, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm4			; SSE41-NEXT: movdqa %xmm1, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2
	; SSE41-NEXT: movapd %xmm2, %xmm0			; SSE41-NEXT: movapd %xmm2, %xmm0
	; SSE41-NEXT: xorpd %xmm5, %xmm0			; SSE41-NEXT: xorpd %xmm5, %xmm0
	; SSE41-NEXT: movapd %xmm3, %xmm1			; SSE41-NEXT: movapd %xmm3, %xmm1
	; SSE41-NEXT: xorpd %xmm5, %xmm1			; SSE41-NEXT: xorpd %xmm5, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm4			; SSE41-NEXT: movapd %xmm1, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm3[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm3[2,3,0,1]
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: pxor %xmm1, %xmm5			; SSE41-NEXT: pxor %xmm1, %xmm5
	; SSE41-NEXT: movdqa %xmm5, %xmm2			; SSE41-NEXT: movdqa %xmm5, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm5			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1
	; SSE41-NEXT: movq %xmm1, %rax			; SSE41-NEXT: movq %xmm1, %rax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v8i64:			; AVX1-LABEL: test_v8i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [9223372036854775808,9223372036854775808]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [9223372036854775808,9223372036854775808]
	▲ Show 20 Lines • Show All 184 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: por %xmm2, %xmm3			; SSE2-NEXT: por %xmm2, %xmm3
	; SSE2-NEXT: movq %xmm3, %rax			; SSE2-NEXT: movq %xmm3, %rax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: test_v16i64:			; SSE41-LABEL: test_v16i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm8			; SSE41-NEXT: movdqa %xmm0, %xmm8
	; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm2, %xmm10			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm10
	; SSE41-NEXT: movdqa %xmm6, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm0, %xmm11			; SSE41-NEXT: movdqa %xmm6, %xmm10
	; SSE41-NEXT: pcmpgtd %xmm10, %xmm11			; SSE41-NEXT: pxor %xmm9, %xmm10
	; SSE41-NEXT: pshufd {{.*#+}} xmm12 = xmm11[0,0,2,2]			; SSE41-NEXT: movdqa %xmm10, %xmm11
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0			; SSE41-NEXT: pcmpeqd %xmm0, %xmm11
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm10
	; SSE41-NEXT: pand %xmm12, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm10[0,0,2,2]
	; SSE41-NEXT: por %xmm11, %xmm0			; SSE41-NEXT: pand %xmm11, %xmm0
				; SSE41-NEXT: por %xmm10, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm6			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm6
	; SSE41-NEXT: movdqa %xmm8, %xmm0			; SSE41-NEXT: movdqa %xmm8, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm4, %xmm2			; SSE41-NEXT: movdqa %xmm4, %xmm2
	; SSE41-NEXT: pxor %xmm9, %xmm2			; SSE41-NEXT: pxor %xmm9, %xmm2
	; SSE41-NEXT: movdqa %xmm2, %xmm10			; SSE41-NEXT: movdqa %xmm2, %xmm10
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm10			; SSE41-NEXT: pcmpeqd %xmm0, %xmm10
	; SSE41-NEXT: pshufd {{.*#+}} xmm11 = xmm10[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm2
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm2			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,1,3,3]			; SSE41-NEXT: pand %xmm10, %xmm0
	; SSE41-NEXT: pand %xmm11, %xmm0			; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: por %xmm10, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm4
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm7, %xmm2			; SSE41-NEXT: movdqa %xmm7, %xmm2
	; SSE41-NEXT: pxor %xmm9, %xmm2			; SSE41-NEXT: pxor %xmm9, %xmm2
	; SSE41-NEXT: movdqa %xmm2, %xmm8			; SSE41-NEXT: movdqa %xmm2, %xmm8
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm8			; SSE41-NEXT: pcmpeqd %xmm0, %xmm8
	; SSE41-NEXT: pshufd {{.*#+}} xmm10 = xmm8[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm2
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm2			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,1,3,3]			; SSE41-NEXT: pand %xmm8, %xmm0
	; SSE41-NEXT: pand %xmm10, %xmm0			; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: por %xmm8, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm7			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm7
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm5, %xmm2			; SSE41-NEXT: movdqa %xmm5, %xmm2
	; SSE41-NEXT: pxor %xmm9, %xmm2			; SSE41-NEXT: pxor %xmm9, %xmm2
	; SSE41-NEXT: movdqa %xmm2, %xmm3			; SSE41-NEXT: movdqa %xmm2, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm3			; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm8 = xmm3[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm2
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm2			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,1,3,3]			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: pand %xmm8, %xmm0			; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm5			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm5
	; SSE41-NEXT: movapd %xmm5, %xmm0			; SSE41-NEXT: movapd %xmm5, %xmm0
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm1			; SSE41-NEXT: movapd %xmm7, %xmm1
	; SSE41-NEXT: xorpd %xmm9, %xmm1			; SSE41-NEXT: xorpd %xmm9, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm2			; SSE41-NEXT: movapd %xmm1, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm7			; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm7
	; SSE41-NEXT: movapd %xmm4, %xmm0			; SSE41-NEXT: movapd %xmm4, %xmm0
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm0
	; SSE41-NEXT: movapd %xmm6, %xmm1			; SSE41-NEXT: movapd %xmm6, %xmm1
	; SSE41-NEXT: xorpd %xmm9, %xmm1			; SSE41-NEXT: xorpd %xmm9, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm2			; SSE41-NEXT: movapd %xmm1, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm6			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm6
	; SSE41-NEXT: movapd %xmm6, %xmm0			; SSE41-NEXT: movapd %xmm6, %xmm0
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm1			; SSE41-NEXT: movapd %xmm7, %xmm1
	; SSE41-NEXT: xorpd %xmm9, %xmm1			; SSE41-NEXT: xorpd %xmm9, %xmm1
	; SSE41-NEXT: movapd %xmm1, %xmm2			; SSE41-NEXT: movapd %xmm1, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm1			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm7			; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm7[2,3,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm7[2,3,0,1]
	; SSE41-NEXT: movdqa %xmm7, %xmm0			; SSE41-NEXT: movdqa %xmm7, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: pxor %xmm1, %xmm9			; SSE41-NEXT: pxor %xmm1, %xmm9
	; SSE41-NEXT: movdqa %xmm9, %xmm2			; SSE41-NEXT: movdqa %xmm9, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm9
	; SSE41-NEXT: pcmpeqd %xmm0, %xmm9			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm9[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm9[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: por %xmm9, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm1
	; SSE41-NEXT: movq %xmm1, %rax			; SSE41-NEXT: movq %xmm1, %rax
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: test_v16i64:			; AVX1-LABEL: test_v16i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm5			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm5
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [9223372036854775808,9223372036854775808]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [9223372036854775808,9223372036854775808]
	▲ Show 20 Lines • Show All 1,620 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-sext-widen.ll

	Show First 20 Lines • Show All 1,700 Lines • ▼ Show 20 Lines
	%X = load <4 x i8>, <4 x i8>* %ptr			%X = load <4 x i8>, <4 x i8>* %ptr
	%Y = sext <4 x i8> %X to <4 x i32>			%Y = sext <4 x i8> %X to <4 x i32>
	ret <4 x i32> %Y			ret <4 x i32> %Y
	}			}

	define <4 x i64> @load_sext_4i1_to_4i64(<4 x i1> *%ptr) {			define <4 x i64> @load_sext_4i1_to_4i64(<4 x i1> *%ptr) {
	; SSE2-LABEL: load_sext_4i1_to_4i64:			; SSE2-LABEL: load_sext_4i1_to_4i64:
	; SSE2: # %bb.0: # %entry			; SSE2: # %bb.0: # %entry
	; SSE2-NEXT: movl (%rdi), %eax			; SSE2-NEXT: movzbl (%rdi), %eax
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $3, %ecx			; SSE2-NEXT: shrl $3, %ecx
	; SSE2-NEXT: movd %ecx, %xmm0			; SSE2-NEXT: movd %ecx, %xmm0
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $2, %ecx			; SSE2-NEXT: shrl $2, %ecx
	; SSE2-NEXT: movd %ecx, %xmm1			; SSE2-NEXT: movd %ecx, %xmm1
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSE2-NEXT: movd %eax, %xmm2			; SSE2-NEXT: movd %eax, %xmm2
	Show All 9 Lines
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[2,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[2,1,3,3]
	; SSE2-NEXT: psllq $63, %xmm1			; SSE2-NEXT: psllq $63, %xmm1
	; SSE2-NEXT: psrad $31, %xmm1			; SSE2-NEXT: psrad $31, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: load_sext_4i1_to_4i64:			; SSSE3-LABEL: load_sext_4i1_to_4i64:
	; SSSE3: # %bb.0: # %entry			; SSSE3: # %bb.0: # %entry
	; SSSE3-NEXT: movl (%rdi), %eax			; SSSE3-NEXT: movzbl (%rdi), %eax
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $3, %ecx			; SSSE3-NEXT: shrl $3, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm0			; SSSE3-NEXT: movd %ecx, %xmm0
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $2, %ecx			; SSSE3-NEXT: shrl $2, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm1			; SSSE3-NEXT: movd %ecx, %xmm1
	; SSSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSSE3-NEXT: movd %eax, %xmm2			; SSSE3-NEXT: movd %eax, %xmm2
	Show All 9 Lines
	; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm2[2,1,3,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm2[2,1,3,3]
	; SSSE3-NEXT: psllq $63, %xmm1			; SSSE3-NEXT: psllq $63, %xmm1
	; SSSE3-NEXT: psrad $31, %xmm1			; SSSE3-NEXT: psrad $31, %xmm1
	; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: load_sext_4i1_to_4i64:			; SSE41-LABEL: load_sext_4i1_to_4i64:
	; SSE41: # %bb.0: # %entry			; SSE41: # %bb.0: # %entry
	; SSE41-NEXT: movl (%rdi), %eax			; SSE41-NEXT: movzbl (%rdi), %eax
	; SSE41-NEXT: movl %eax, %ecx			; SSE41-NEXT: movl %eax, %ecx
	; SSE41-NEXT: shrl %ecx			; SSE41-NEXT: shrl %ecx
	; SSE41-NEXT: movd %eax, %xmm1			; SSE41-NEXT: movd %eax, %xmm1
	; SSE41-NEXT: pinsrd $1, %ecx, %xmm1			; SSE41-NEXT: pinsrd $1, %ecx, %xmm1
	; SSE41-NEXT: movl %eax, %ecx			; SSE41-NEXT: movl %eax, %ecx
	; SSE41-NEXT: shrl $2, %ecx			; SSE41-NEXT: shrl $2, %ecx
	; SSE41-NEXT: pinsrd $2, %ecx, %xmm1			; SSE41-NEXT: pinsrd $2, %ecx, %xmm1
	; SSE41-NEXT: shrl $3, %eax			; SSE41-NEXT: shrl $3, %eax
	▲ Show 20 Lines • Show All 4,130 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-sext.ll

	Show First 20 Lines • Show All 1,700 Lines • ▼ Show 20 Lines
	%X = load <4 x i8>, <4 x i8>* %ptr			%X = load <4 x i8>, <4 x i8>* %ptr
	%Y = sext <4 x i8> %X to <4 x i32>			%Y = sext <4 x i8> %X to <4 x i32>
	ret <4 x i32> %Y			ret <4 x i32> %Y
	}			}

	define <4 x i64> @load_sext_4i1_to_4i64(<4 x i1> *%ptr) {			define <4 x i64> @load_sext_4i1_to_4i64(<4 x i1> *%ptr) {
	; SSE2-LABEL: load_sext_4i1_to_4i64:			; SSE2-LABEL: load_sext_4i1_to_4i64:
	; SSE2: # %bb.0: # %entry			; SSE2: # %bb.0: # %entry
	; SSE2-NEXT: movl (%rdi), %eax			; SSE2-NEXT: movzbl (%rdi), %eax
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $3, %ecx			; SSE2-NEXT: shrl $3, %ecx
	; SSE2-NEXT: movd %ecx, %xmm0			; SSE2-NEXT: movd %ecx, %xmm0
	; SSE2-NEXT: movl %eax, %ecx			; SSE2-NEXT: movl %eax, %ecx
	; SSE2-NEXT: shrl $2, %ecx			; SSE2-NEXT: shrl $2, %ecx
	; SSE2-NEXT: movd %ecx, %xmm1			; SSE2-NEXT: movd %ecx, %xmm1
	; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSE2-NEXT: movd %eax, %xmm2			; SSE2-NEXT: movd %eax, %xmm2
	Show All 9 Lines
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[2,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm2[2,1,3,3]
	; SSE2-NEXT: psllq $63, %xmm1			; SSE2-NEXT: psllq $63, %xmm1
	; SSE2-NEXT: psrad $31, %xmm1			; SSE2-NEXT: psrad $31, %xmm1
	; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: load_sext_4i1_to_4i64:			; SSSE3-LABEL: load_sext_4i1_to_4i64:
	; SSSE3: # %bb.0: # %entry			; SSSE3: # %bb.0: # %entry
	; SSSE3-NEXT: movl (%rdi), %eax			; SSSE3-NEXT: movzbl (%rdi), %eax
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $3, %ecx			; SSSE3-NEXT: shrl $3, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm0			; SSSE3-NEXT: movd %ecx, %xmm0
	; SSSE3-NEXT: movl %eax, %ecx			; SSSE3-NEXT: movl %eax, %ecx
	; SSSE3-NEXT: shrl $2, %ecx			; SSSE3-NEXT: shrl $2, %ecx
	; SSSE3-NEXT: movd %ecx, %xmm1			; SSSE3-NEXT: movd %ecx, %xmm1
	; SSSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
	; SSSE3-NEXT: movd %eax, %xmm2			; SSSE3-NEXT: movd %eax, %xmm2
	Show All 9 Lines
	; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm2[2,1,3,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm2[2,1,3,3]
	; SSSE3-NEXT: psllq $63, %xmm1			; SSSE3-NEXT: psllq $63, %xmm1
	; SSSE3-NEXT: psrad $31, %xmm1			; SSSE3-NEXT: psrad $31, %xmm1
	; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3]
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: load_sext_4i1_to_4i64:			; SSE41-LABEL: load_sext_4i1_to_4i64:
	; SSE41: # %bb.0: # %entry			; SSE41: # %bb.0: # %entry
	; SSE41-NEXT: movl (%rdi), %eax			; SSE41-NEXT: movzbl (%rdi), %eax
	; SSE41-NEXT: movl %eax, %ecx			; SSE41-NEXT: movl %eax, %ecx
	; SSE41-NEXT: shrl %ecx			; SSE41-NEXT: shrl %ecx
	; SSE41-NEXT: movd %eax, %xmm1			; SSE41-NEXT: movd %eax, %xmm1
	; SSE41-NEXT: pinsrd $1, %ecx, %xmm1			; SSE41-NEXT: pinsrd $1, %ecx, %xmm1
	; SSE41-NEXT: movl %eax, %ecx			; SSE41-NEXT: movl %eax, %ecx
	; SSE41-NEXT: shrl $2, %ecx			; SSE41-NEXT: shrl $2, %ecx
	; SSE41-NEXT: pinsrd $2, %ecx, %xmm1			; SSE41-NEXT: pinsrd $2, %ecx, %xmm1
	; SSE41-NEXT: shrl $3, %eax			; SSE41-NEXT: shrl $3, %eax
	▲ Show 20 Lines • Show All 4,148 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-shift-ashr-256.ll

	Show First 20 Lines • Show All 1,178 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpmulhw {{.*}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpmulhw {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: constant_shift_v16i16:			; AVX2-LABEL: constant_shift_v16i16:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpmulhw {{.*}}(%rip), %ymm0, %ymm1			; AVX2-NEXT: vpmulhw {{.*}}(%rip), %ymm0, %ymm1
	; AVX2-NEXT: vpblendw {{.*#+}} ymm2 = ymm0[0],ymm1[1,2,3,4,5,6,7],ymm0[8],ymm1[9,10,11,12,13,14,15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm2 = ymm0[0],ymm1[1,2,3,4,5,6,7],ymm0[8],ymm1[9,10,11,12,13,14,15]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm1[4,5,6,7]
	; AVX2-NEXT: vpsraw $1, %ymm0, %ymm0			; AVX2-NEXT: vpsraw $1, %ymm0, %ymm0
	; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm2[0],ymm0[1],ymm2[2,3,4,5,6,7,8],ymm0[9],ymm2[10,11,12,13,14,15]			; AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm2[0],ymm0[1],ymm2[2,3,4,5,6,7,8],ymm0[9],ymm2[10,11,12,13,14,15]
	; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]			; AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; XOPAVX1-LABEL: constant_shift_v16i16:			; XOPAVX1-LABEL: constant_shift_v16i16:
	; XOPAVX1: # %bb.0:			; XOPAVX1: # %bb.0:
	; XOPAVX1-NEXT: vpshaw {{.*}}(%rip), %xmm0, %xmm1			; XOPAVX1-NEXT: vpshaw {{.*}}(%rip), %xmm0, %xmm1
	▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
	; X32-AVX1-NEXT: vpmulhw {{\.LCPI.*}}, %xmm0, %xmm0			; X32-AVX1-NEXT: vpmulhw {{\.LCPI.*}}, %xmm0, %xmm0
	; X32-AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; X32-AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; X32-AVX1-NEXT: retl			; X32-AVX1-NEXT: retl
	;			;
	; X32-AVX2-LABEL: constant_shift_v16i16:			; X32-AVX2-LABEL: constant_shift_v16i16:
	; X32-AVX2: # %bb.0:			; X32-AVX2: # %bb.0:
	; X32-AVX2-NEXT: vpmulhw {{\.LCPI.*}}, %ymm0, %ymm1			; X32-AVX2-NEXT: vpmulhw {{\.LCPI.*}}, %ymm0, %ymm1
	; X32-AVX2-NEXT: vpblendw {{.*#+}} ymm2 = ymm0[0],ymm1[1,2,3,4,5,6,7],ymm0[8],ymm1[9,10,11,12,13,14,15]			; X32-AVX2-NEXT: vpblendw {{.*#+}} ymm2 = ymm0[0],ymm1[1,2,3,4,5,6,7],ymm0[8],ymm1[9,10,11,12,13,14,15]
	; X32-AVX2-NEXT: vpblendd {{.*#+}} ymm2 = ymm2[0,1,2,3],ymm1[4,5,6,7]
	; X32-AVX2-NEXT: vpsraw $1, %ymm0, %ymm0			; X32-AVX2-NEXT: vpsraw $1, %ymm0, %ymm0
	; X32-AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm2[0],ymm0[1],ymm2[2,3,4,5,6,7,8],ymm0[9],ymm2[10,11,12,13,14,15]			; X32-AVX2-NEXT: vpblendw {{.*#+}} ymm0 = ymm2[0],ymm0[1],ymm2[2,3,4,5,6,7,8],ymm0[9],ymm2[10,11,12,13,14,15]
	; X32-AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]			; X32-AVX2-NEXT: vpblendd {{.*#+}} ymm0 = ymm0[0,1,2,3],ymm1[4,5,6,7]
	; X32-AVX2-NEXT: retl			; X32-AVX2-NEXT: retl
	%shift = ashr <16 x i16> %a, <i16 0, i16 1, i16 2, i16 3, i16 4, i16 5, i16 6, i16 7, i16 8, i16 9, i16 10, i16 11, i16 12, i16 13, i16 14, i16 15>			%shift = ashr <16 x i16> %a, <i16 0, i16 1, i16 2, i16 3, i16 4, i16 5, i16 6, i16 7, i16 8, i16 9, i16 10, i16 11, i16 12, i16 13, i16 14, i16 15>
	ret <16 x i16> %shift			ret <16 x i16> %shift
	}			}

	▲ Show 20 Lines • Show All 409 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-shift-ashr-sub128.ll

	Show First 20 Lines • Show All 2,496 Lines • ▼ Show 20 Lines
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]			; X32-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]
	; X32-SSE-NEXT: psrad $24, %xmm0			; X32-SSE-NEXT: psrad $24, %xmm0
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]			; X32-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
	; X32-SSE-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X32-SSE-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; X32-SSE-NEXT: movdqa {{.*#+}} xmm1 = [2,0,0,0,0,0,0,0,3,0,0,0,0,0,0,0]			; X32-SSE-NEXT: movdqa {{.*#+}} xmm1 = [2,0,0,0,0,0,0,0,3,0,0,0,0,0,0,0]
	; X32-SSE-NEXT: movdqa {{.*#+}} xmm2 = [0,2147483648,0,2147483648]			; X32-SSE-NEXT: movdqa {{.*#+}} xmm2 = [0,2147483648,0,2147483648]
	; X32-SSE-NEXT: movdqa %xmm2, %xmm3			; X32-SSE-NEXT: movdqa %xmm2, %xmm3
	; X32-SSE-NEXT: psrlq %xmm1, %xmm3			; X32-SSE-NEXT: psrlq %xmm1, %xmm3
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm4 = xmm1[2,3,0,1]			; X32-SSE-NEXT: movdqa {{.*#+}} xmm4 = [3,0,2,0]
	; X32-SSE-NEXT: psrlq %xmm4, %xmm2			; X32-SSE-NEXT: psrlq %xmm4, %xmm2
	; X32-SSE-NEXT: movsd {{.*#+}} xmm2 = xmm3[0],xmm2[1]			; X32-SSE-NEXT: movsd {{.*#+}} xmm2 = xmm3[0],xmm2[1]
	; X32-SSE-NEXT: movdqa %xmm0, %xmm3			; X32-SSE-NEXT: movdqa %xmm0, %xmm3
	; X32-SSE-NEXT: psrlq %xmm1, %xmm3			; X32-SSE-NEXT: psrlq %xmm1, %xmm3
	; X32-SSE-NEXT: psrlq %xmm4, %xmm0			; X32-SSE-NEXT: psrlq %xmm4, %xmm0
	; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm3[0],xmm0[1]			; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm3[0],xmm0[1]
	; X32-SSE-NEXT: xorpd %xmm2, %xmm0			; X32-SSE-NEXT: xorpd %xmm2, %xmm0
	; X32-SSE-NEXT: psubq %xmm2, %xmm0			; X32-SSE-NEXT: psubq %xmm2, %xmm0
	▲ Show 20 Lines • Show All 396 Lines • ▼ Show 20 Lines
	; X32-SSE-NEXT: movdqa %xmm0, %xmm1			; X32-SSE-NEXT: movdqa %xmm0, %xmm1
	; X32-SSE-NEXT: psrad $31, %xmm1			; X32-SSE-NEXT: psrad $31, %xmm1
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]			; X32-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,3,2,3]
	; X32-SSE-NEXT: psrad $24, %xmm0			; X32-SSE-NEXT: psrad $24, %xmm0
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]			; X32-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,3,2,3]
	; X32-SSE-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]			; X32-SSE-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; X32-SSE-NEXT: movdqa {{.*#+}} xmm1 = [3,0,0,0,0,0,0,0,3,0,0,0,0,0,0,0]			; X32-SSE-NEXT: movdqa {{.*#+}} xmm1 = [3,0,0,0,0,0,0,0,3,0,0,0,0,0,0,0]
	; X32-SSE-NEXT: movdqa {{.*#+}} xmm2 = [0,2147483648,0,2147483648]			; X32-SSE-NEXT: movdqa {{.*#+}} xmm2 = [0,2147483648,0,2147483648]
	; X32-SSE-NEXT: movdqa %xmm2, %xmm3			; X32-SSE-NEXT: psrlq %xmm1, %xmm2
	; X32-SSE-NEXT: psrlq %xmm1, %xmm3			; X32-SSE-NEXT: movsd {{.*#+}} xmm2 = xmm2[0,1]
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm4 = xmm1[2,3,0,1]			; X32-SSE-NEXT: psrlq %xmm1, %xmm0
	; X32-SSE-NEXT: psrlq %xmm4, %xmm2			; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm0[0,1]
	; X32-SSE-NEXT: movsd {{.*#+}} xmm2 = xmm3[0],xmm2[1]
	; X32-SSE-NEXT: movdqa %xmm0, %xmm3
	; X32-SSE-NEXT: psrlq %xmm1, %xmm3
	; X32-SSE-NEXT: psrlq %xmm4, %xmm0
	; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm3[0],xmm0[1]
	; X32-SSE-NEXT: xorpd %xmm2, %xmm0			; X32-SSE-NEXT: xorpd %xmm2, %xmm0
	; X32-SSE-NEXT: psubq %xmm2, %xmm0			; X32-SSE-NEXT: psubq %xmm2, %xmm0
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	%shift = ashr <2 x i8> %a, <i8 3, i8 3>			%shift = ashr <2 x i8> %a, <i8 3, i8 3>
	ret <2 x i8> %shift			ret <2 x i8> %shift
	}			}

test/CodeGen/X86/vector-shift-lshr-sub128.ll

	Show First 20 Lines • Show All 2,025 Lines • ▼ Show 20 Lines
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX512VL-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX512VL-NEXT: vpsrlvq {{.*}}(%rip), %xmm0, %xmm0			; AVX512VL-NEXT: vpsrlvq {{.*}}(%rip), %xmm0, %xmm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; X32-SSE-LABEL: constant_shift_v2i8:			; X32-SSE-LABEL: constant_shift_v2i8:
	; X32-SSE: # %bb.0:			; X32-SSE: # %bb.0:
	; X32-SSE-NEXT: pand {{\.LCPI.*}}, %xmm0			; X32-SSE-NEXT: pand {{\.LCPI.*}}, %xmm0
	; X32-SSE-NEXT: movdqa {{.*#+}} xmm1 = [2,0,0,0,0,0,0,0,3,0,0,0,0,0,0,0]			; X32-SSE-NEXT: movdqa %xmm0, %xmm1
	; X32-SSE-NEXT: movdqa %xmm0, %xmm2			; X32-SSE-NEXT: psrlq {{\.LCPI.*}}, %xmm1
	; X32-SSE-NEXT: psrlq %xmm1, %xmm2			; X32-SSE-NEXT: psrlq {{\.LCPI.*}}, %xmm0
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]			; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]
	; X32-SSE-NEXT: psrlq %xmm1, %xmm0
	; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm2[0],xmm0[1]
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	%shift = lshr <2 x i8> %a, <i8 2, i8 3>			%shift = lshr <2 x i8> %a, <i8 2, i8 3>
	ret <2 x i8> %shift			ret <2 x i8> %shift
	}			}

	;			;
	; Uniform Constant Shifts			; Uniform Constant Shifts
	;			;
	▲ Show 20 Lines • Show All 275 Lines • ▼ Show 20 Lines
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0			; AVX512VL-NEXT: vpand {{.*}}(%rip), %xmm0, %xmm0
	; AVX512VL-NEXT: vpsrlq $3, %xmm0, %xmm0			; AVX512VL-NEXT: vpsrlq $3, %xmm0, %xmm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; X32-SSE-LABEL: splatconstant_shift_v2i8:			; X32-SSE-LABEL: splatconstant_shift_v2i8:
	; X32-SSE: # %bb.0:			; X32-SSE: # %bb.0:
	; X32-SSE-NEXT: pand {{\.LCPI.*}}, %xmm0			; X32-SSE-NEXT: pand {{\.LCPI.*}}, %xmm0
	; X32-SSE-NEXT: movdqa {{.*#+}} xmm1 = [3,0,0,0,0,0,0,0,3,0,0,0,0,0,0,0]			; X32-SSE-NEXT: psrlq {{\.LCPI.*}}, %xmm0
	; X32-SSE-NEXT: movdqa %xmm0, %xmm2			; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm0[0,1]
	; X32-SSE-NEXT: psrlq %xmm1, %xmm2
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
	; X32-SSE-NEXT: psrlq %xmm1, %xmm0
	; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm2[0],xmm0[1]
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	%shift = lshr <2 x i8> %a, <i8 3, i8 3>			%shift = lshr <2 x i8> %a, <i8 3, i8 3>
	ret <2 x i8> %shift			ret <2 x i8> %shift
	}			}

test/CodeGen/X86/vector-shift-shl-sub128.ll

	Show First 20 Lines • Show All 1,483 Lines • ▼ Show 20 Lines
	;			;
	; AVX512VL-LABEL: constant_shift_v2i8:			; AVX512VL-LABEL: constant_shift_v2i8:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vpsllvq {{.*}}(%rip), %xmm0, %xmm0			; AVX512VL-NEXT: vpsllvq {{.*}}(%rip), %xmm0, %xmm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; X32-SSE-LABEL: constant_shift_v2i8:			; X32-SSE-LABEL: constant_shift_v2i8:
	; X32-SSE: # %bb.0:			; X32-SSE: # %bb.0:
	; X32-SSE-NEXT: movdqa {{.*#+}} xmm1 = [2,0,0,0,0,0,0,0,3,0,0,0,0,0,0,0]			; X32-SSE-NEXT: movdqa %xmm0, %xmm1
	; X32-SSE-NEXT: movdqa %xmm0, %xmm2			; X32-SSE-NEXT: psllq {{\.LCPI.*}}, %xmm1
	; X32-SSE-NEXT: psllq %xmm1, %xmm2			; X32-SSE-NEXT: psllq {{\.LCPI.*}}, %xmm0
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]			; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]
	; X32-SSE-NEXT: psllq %xmm1, %xmm0
	; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm2[0],xmm0[1]
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	%shift = shl <2 x i8> %a, <i8 2, i8 3>			%shift = shl <2 x i8> %a, <i8 2, i8 3>
	ret <2 x i8> %shift			ret <2 x i8> %shift
	}			}

	;			;
	; Uniform Constant Shifts			; Uniform Constant Shifts
	;			;
	▲ Show 20 Lines • Show All 192 Lines • ▼ Show 20 Lines
	;			;
	; AVX512VL-LABEL: splatconstant_shift_v2i8:			; AVX512VL-LABEL: splatconstant_shift_v2i8:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vpsllq $3, %xmm0, %xmm0			; AVX512VL-NEXT: vpsllq $3, %xmm0, %xmm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; X32-SSE-LABEL: splatconstant_shift_v2i8:			; X32-SSE-LABEL: splatconstant_shift_v2i8:
	; X32-SSE: # %bb.0:			; X32-SSE: # %bb.0:
	; X32-SSE-NEXT: movdqa {{.*#+}} xmm1 = [3,0,0,0,0,0,0,0,3,0,0,0,0,0,0,0]			; X32-SSE-NEXT: psllq {{\.LCPI.*}}, %xmm0
	; X32-SSE-NEXT: movdqa %xmm0, %xmm2			; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm0[0,1]
	; X32-SSE-NEXT: psllq %xmm1, %xmm2
	; X32-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,0,1]
	; X32-SSE-NEXT: psllq %xmm1, %xmm0
	; X32-SSE-NEXT: movsd {{.*#+}} xmm0 = xmm2[0],xmm0[1]
	; X32-SSE-NEXT: retl			; X32-SSE-NEXT: retl
	%shift = shl <2 x i8> %a, <i8 3, i8 3>			%shift = shl <2 x i8> %a, <i8 3, i8 3>
	ret <2 x i8> %shift			ret <2 x i8> %shift
	}			}

test/CodeGen/X86/vector-trunc-math-widen.ll

	Show First 20 Lines • Show All 2,025 Lines • ▼ Show 20 Lines
	; SSE-NEXT: pand %xmm8, %xmm0			; SSE-NEXT: pand %xmm8, %xmm0
	; SSE-NEXT: packuswb %xmm1, %xmm0			; SSE-NEXT: packuswb %xmm1, %xmm0
	; SSE-NEXT: packuswb %xmm2, %xmm0			; SSE-NEXT: packuswb %xmm2, %xmm0
	; SSE-NEXT: packuswb %xmm4, %xmm0			; SSE-NEXT: packuswb %xmm4, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_mul_v16i64_v16i8:			; AVX1-LABEL: trunc_mul_v16i64_v16i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm8			; AVX1-NEXT: vpmuludq %xmm4, %xmm0, %xmm8
	; AVX1-NEXT: vpmuludq %xmm4, %xmm8, %xmm8			; AVX1-NEXT: vextractf128 $1, %ymm4, %xmm4
	; AVX1-NEXT: vpsrlq $32, %xmm4, %xmm9
	; AVX1-NEXT: vpmuludq %xmm9, %xmm0, %xmm9
	; AVX1-NEXT: vpaddq %xmm8, %xmm9, %xmm8
	; AVX1-NEXT: vpsllq $32, %xmm8, %xmm8
	; AVX1-NEXT: vpmuludq %xmm4, %xmm0, %xmm9
	; AVX1-NEXT: vpaddq %xmm8, %xmm9, %xmm8
	; AVX1-NEXT: vextractf128 $1, %ymm4, %xmm9
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm4			; AVX1-NEXT: vpmuludq %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vpmuludq %xmm9, %xmm4, %xmm10
	; AVX1-NEXT: vpsrlq $32, %xmm9, %xmm4
	; AVX1-NEXT: vpmuludq %xmm4, %xmm0, %xmm4
	; AVX1-NEXT: vpaddq %xmm10, %xmm4, %xmm4
	; AVX1-NEXT: vpsllq $32, %xmm4, %xmm4
	; AVX1-NEXT: vpmuludq %xmm9, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm4, %xmm0, %xmm9
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm4
	; AVX1-NEXT: vpmuludq %xmm5, %xmm4, %xmm4
	; AVX1-NEXT: vpsrlq $32, %xmm5, %xmm0
	; AVX1-NEXT: vpmuludq %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpaddq %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vpsllq $32, %xmm0, %xmm0
	; AVX1-NEXT: vpmuludq %xmm5, %xmm1, %xmm4			; AVX1-NEXT: vpmuludq %xmm5, %xmm1, %xmm4
	; AVX1-NEXT: vpaddq %xmm0, %xmm4, %xmm10			; AVX1-NEXT: vextractf128 $1, %ymm5, %xmm5
	; AVX1-NEXT: vextractf128 $1, %ymm5, %xmm0
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm5			; AVX1-NEXT: vpmuludq %xmm5, %xmm1, %xmm1
	; AVX1-NEXT: vpmuludq %xmm0, %xmm5, %xmm5			; AVX1-NEXT: vpmuludq %xmm6, %xmm2, %xmm5
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm4			; AVX1-NEXT: vextractf128 $1, %ymm6, %xmm6
	; AVX1-NEXT: vpmuludq %xmm4, %xmm1, %xmm4
	; AVX1-NEXT: vpaddq %xmm5, %xmm4, %xmm4
	; AVX1-NEXT: vpsllq $32, %xmm4, %xmm4
	; AVX1-NEXT: vpmuludq %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpaddq %xmm4, %xmm0, %xmm1
	; AVX1-NEXT: vpsrlq $32, %xmm2, %xmm0
	; AVX1-NEXT: vpmuludq %xmm6, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlq $32, %xmm6, %xmm4
	; AVX1-NEXT: vpmuludq %xmm4, %xmm2, %xmm4
	; AVX1-NEXT: vpaddq %xmm0, %xmm4, %xmm0
	; AVX1-NEXT: vpsllq $32, %xmm0, %xmm0
	; AVX1-NEXT: vpmuludq %xmm6, %xmm2, %xmm4
	; AVX1-NEXT: vpaddq %xmm0, %xmm4, %xmm5
	; AVX1-NEXT: vextractf128 $1, %ymm6, %xmm0
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm2
	; AVX1-NEXT: vpsrlq $32, %xmm2, %xmm4			; AVX1-NEXT: vpmuludq %xmm6, %xmm2, %xmm2
	; AVX1-NEXT: vpmuludq %xmm0, %xmm4, %xmm4			; AVX1-NEXT: vpmuludq %xmm7, %xmm3, %xmm6
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm6			; AVX1-NEXT: vextractf128 $1, %ymm7, %xmm7
	; AVX1-NEXT: vpmuludq %xmm6, %xmm2, %xmm6
	; AVX1-NEXT: vpaddq %xmm4, %xmm6, %xmm4
	; AVX1-NEXT: vpsllq $32, %xmm4, %xmm4
	; AVX1-NEXT: vpmuludq %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpaddq %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlq $32, %xmm3, %xmm2
	; AVX1-NEXT: vpmuludq %xmm7, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlq $32, %xmm7, %xmm4
	; AVX1-NEXT: vpmuludq %xmm4, %xmm3, %xmm4
	; AVX1-NEXT: vpaddq %xmm2, %xmm4, %xmm2
	; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX1-NEXT: vpmuludq %xmm7, %xmm3, %xmm4
	; AVX1-NEXT: vpaddq %xmm2, %xmm4, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm7, %xmm4
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm3
	; AVX1-NEXT: vpsrlq $32, %xmm3, %xmm6			; AVX1-NEXT: vpmuludq %xmm7, %xmm3, %xmm3
	; AVX1-NEXT: vpmuludq %xmm4, %xmm6, %xmm6			; AVX1-NEXT: vmovddup {{.*#+}} xmm7 = [1.2598673968951787E-321,1.2598673968951787E-321]
	; AVX1-NEXT: vpsrlq $32, %xmm4, %xmm7			; AVX1-NEXT: # xmm7 = mem[0,0]
	; AVX1-NEXT: vpmuludq %xmm7, %xmm3, %xmm7			; AVX1-NEXT: vpand %xmm7, %xmm3, %xmm3
	; AVX1-NEXT: vpaddq %xmm6, %xmm7, %xmm6			; AVX1-NEXT: vpand %xmm7, %xmm6, %xmm6
	; AVX1-NEXT: vpsllq $32, %xmm6, %xmm6			; AVX1-NEXT: vpackusdw %xmm3, %xmm6, %xmm3
	; AVX1-NEXT: vpmuludq %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpand %xmm7, %xmm2, %xmm2
	; AVX1-NEXT: vpaddq %xmm6, %xmm3, %xmm3			; AVX1-NEXT: vpand %xmm7, %xmm5, %xmm5
	; AVX1-NEXT: vmovddup {{.*#+}} xmm4 = [1.2598673968951787E-321,1.2598673968951787E-321]			; AVX1-NEXT: vpackusdw %xmm2, %xmm5, %xmm2
	; AVX1-NEXT: # xmm4 = mem[0,0]
	; AVX1-NEXT: vpand %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpackusdw %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpackusdw %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm7, %xmm1, %xmm1
	; AVX1-NEXT: vpand %xmm4, %xmm5, %xmm3			; AVX1-NEXT: vpand %xmm7, %xmm4, %xmm3
				; AVX1-NEXT: vpackusdw %xmm1, %xmm3, %xmm1
				; AVX1-NEXT: vpand %xmm7, %xmm0, %xmm0
				; AVX1-NEXT: vpand %xmm7, %xmm8, %xmm3
	; AVX1-NEXT: vpackusdw %xmm0, %xmm3, %xmm0			; AVX1-NEXT: vpackusdw %xmm0, %xmm3, %xmm0
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm4, %xmm1, %xmm1			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm4, %xmm10, %xmm2
	; AVX1-NEXT: vpackusdw %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpand %xmm4, %xmm9, %xmm2
	; AVX1-NEXT: vpand %xmm4, %xmm8, %xmm3
	; AVX1-NEXT: vpackusdw %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpackusdw %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpackuswb %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_mul_v16i64_v16i8:			; AVX2-SLOW-LABEL: trunc_mul_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm7 = ymm7[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm7 = ymm7[0,2,2,3,4,6,6,7]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm7 = ymm7[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm7 = ymm7[0,2,2,3]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[0,2,2,3,4,6,6,7]
	▲ Show 20 Lines • Show All 491 Lines • ▼ Show 20 Lines
	; SSE-NEXT: packuswb %xmm4, %xmm0			; SSE-NEXT: packuswb %xmm4, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_mul_const_v16i64_v16i8:			; AVX1-LABEL: trunc_mul_const_v16i64_v16i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: movl $1, %eax			; AVX1-NEXT: movl $1, %eax
	; AVX1-NEXT: vmovq %rax, %xmm4			; AVX1-NEXT: vmovq %rax, %xmm4
	; AVX1-NEXT: vpslldq {{.*#+}} xmm4 = zero,zero,zero,zero,zero,zero,zero,zero,xmm4[0,1,2,3,4,5,6,7]			; AVX1-NEXT: vpslldq {{.*#+}} xmm4 = zero,zero,zero,zero,zero,zero,zero,zero,xmm4[0,1,2,3,4,5,6,7]
	; AVX1-NEXT: vpmuludq %xmm4, %xmm0, %xmm5			; AVX1-NEXT: vpmuludq %xmm4, %xmm0, %xmm8
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm6
	; AVX1-NEXT: vpmuludq %xmm4, %xmm6, %xmm4
	; AVX1-NEXT: vpsllq $32, %xmm4, %xmm4
	; AVX1-NEXT: vpaddq %xmm4, %xmm5, %xmm8
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [2,3]			; AVX1-NEXT: vpmuludq {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vpmuludq %xmm5, %xmm0, %xmm6			; AVX1-NEXT: vpmuludq {{.*}}(%rip), %xmm1, %xmm5
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm0
	; AVX1-NEXT: vpmuludq %xmm5, %xmm0, %xmm0
	; AVX1-NEXT: vpsllq $32, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm0, %xmm6, %xmm9
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [4,5]
	; AVX1-NEXT: vpmuludq %xmm5, %xmm1, %xmm6
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm7
	; AVX1-NEXT: vpmuludq %xmm5, %xmm7, %xmm5
	; AVX1-NEXT: vpsllq $32, %xmm5, %xmm5
	; AVX1-NEXT: vpaddq %xmm5, %xmm6, %xmm5
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [6,7]			; AVX1-NEXT: vpmuludq {{.*}}(%rip), %xmm1, %xmm1
	; AVX1-NEXT: vpmuludq %xmm6, %xmm1, %xmm7			; AVX1-NEXT: vpmuludq {{.*}}(%rip), %xmm2, %xmm6
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm1
	; AVX1-NEXT: vpmuludq %xmm6, %xmm1, %xmm1
	; AVX1-NEXT: vpsllq $32, %xmm1, %xmm1
	; AVX1-NEXT: vpaddq %xmm1, %xmm7, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [8,9]
	; AVX1-NEXT: vpmuludq %xmm6, %xmm2, %xmm7
	; AVX1-NEXT: vpsrlq $32, %xmm2, %xmm4
	; AVX1-NEXT: vpmuludq %xmm6, %xmm4, %xmm4
	; AVX1-NEXT: vpsllq $32, %xmm4, %xmm4
	; AVX1-NEXT: vpaddq %xmm4, %xmm7, %xmm4
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [10,11]			; AVX1-NEXT: vpmuludq {{.*}}(%rip), %xmm2, %xmm2
	; AVX1-NEXT: vpmuludq %xmm6, %xmm2, %xmm7			; AVX1-NEXT: vpmuludq {{.*}}(%rip), %xmm3, %xmm7
	; AVX1-NEXT: vpsrlq $32, %xmm2, %xmm2
	; AVX1-NEXT: vpmuludq %xmm6, %xmm2, %xmm2
	; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX1-NEXT: vpaddq %xmm2, %xmm7, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [12,13]
	; AVX1-NEXT: vpmuludq %xmm6, %xmm3, %xmm7
	; AVX1-NEXT: vpsrlq $32, %xmm3, %xmm0
	; AVX1-NEXT: vpmuludq %xmm6, %xmm0, %xmm0
	; AVX1-NEXT: vpsllq $32, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm0, %xmm7, %xmm0
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm3
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [14,15]			; AVX1-NEXT: vpmuludq {{.*}}(%rip), %xmm3, %xmm3
	; AVX1-NEXT: vpmuludq %xmm6, %xmm3, %xmm7			; AVX1-NEXT: vmovddup {{.*#+}} xmm4 = [1.2598673968951787E-321,1.2598673968951787E-321]
	; AVX1-NEXT: vpsrlq $32, %xmm3, %xmm3			; AVX1-NEXT: # xmm4 = mem[0,0]
	; AVX1-NEXT: vpmuludq %xmm6, %xmm3, %xmm3			; AVX1-NEXT: vpand %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpsllq $32, %xmm3, %xmm3			; AVX1-NEXT: vpand %xmm4, %xmm7, %xmm7
	; AVX1-NEXT: vpaddq %xmm3, %xmm7, %xmm3			; AVX1-NEXT: vpackusdw %xmm3, %xmm7, %xmm3
	; AVX1-NEXT: vmovddup {{.*#+}} xmm6 = [1.2598673968951787E-321,1.2598673968951787E-321]			; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: # xmm6 = mem[0,0]			; AVX1-NEXT: vpand %xmm4, %xmm6, %xmm6
	; AVX1-NEXT: vpand %xmm6, %xmm3, %xmm3			; AVX1-NEXT: vpackusdw %xmm2, %xmm6, %xmm2
	; AVX1-NEXT: vpand %xmm6, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm4, %xmm1, %xmm1
	; AVX1-NEXT: vpand %xmm6, %xmm2, %xmm2			; AVX1-NEXT: vpand %xmm4, %xmm5, %xmm3
	; AVX1-NEXT: vpand %xmm6, %xmm4, %xmm3			; AVX1-NEXT: vpackusdw %xmm1, %xmm3, %xmm1
	; AVX1-NEXT: vpackusdw %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm0, %xmm2, %xmm0			; AVX1-NEXT: vpand %xmm4, %xmm8, %xmm3
	; AVX1-NEXT: vpand %xmm6, %xmm1, %xmm1			; AVX1-NEXT: vpackusdw %xmm0, %xmm3, %xmm0
	; AVX1-NEXT: vpand %xmm6, %xmm5, %xmm2			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm6, %xmm9, %xmm2
	; AVX1-NEXT: vpand %xmm6, %xmm8, %xmm3
	; AVX1-NEXT: vpackusdw %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpackusdw %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpackuswb %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_mul_const_v16i64_v16i8:			; AVX2-SLOW-LABEL: trunc_mul_const_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm2 = ymm2[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm2 = ymm2[0,2,2,3,4,6,6,7]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-SLOW-NEXT: vpmulld {{.*}}(%rip), %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpmulld {{.*}}(%rip), %xmm2, %xmm2
	▲ Show 20 Lines • Show All 2,683 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-trunc-math.ll

	Show First 20 Lines • Show All 2,025 Lines • ▼ Show 20 Lines
	; SSE-NEXT: pand %xmm8, %xmm0			; SSE-NEXT: pand %xmm8, %xmm0
	; SSE-NEXT: packuswb %xmm1, %xmm0			; SSE-NEXT: packuswb %xmm1, %xmm0
	; SSE-NEXT: packuswb %xmm2, %xmm0			; SSE-NEXT: packuswb %xmm2, %xmm0
	; SSE-NEXT: packuswb %xmm4, %xmm0			; SSE-NEXT: packuswb %xmm4, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_mul_v16i64_v16i8:			; AVX1-LABEL: trunc_mul_v16i64_v16i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm8			; AVX1-NEXT: vpmuludq %xmm4, %xmm0, %xmm8
	; AVX1-NEXT: vpmuludq %xmm4, %xmm8, %xmm8			; AVX1-NEXT: vextractf128 $1, %ymm4, %xmm4
	; AVX1-NEXT: vpsrlq $32, %xmm4, %xmm9
	; AVX1-NEXT: vpmuludq %xmm9, %xmm0, %xmm9
	; AVX1-NEXT: vpaddq %xmm8, %xmm9, %xmm8
	; AVX1-NEXT: vpsllq $32, %xmm8, %xmm8
	; AVX1-NEXT: vpmuludq %xmm4, %xmm0, %xmm9
	; AVX1-NEXT: vpaddq %xmm8, %xmm9, %xmm8
	; AVX1-NEXT: vextractf128 $1, %ymm4, %xmm9
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm4			; AVX1-NEXT: vpmuludq %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vpmuludq %xmm9, %xmm4, %xmm10
	; AVX1-NEXT: vpsrlq $32, %xmm9, %xmm4
	; AVX1-NEXT: vpmuludq %xmm4, %xmm0, %xmm4
	; AVX1-NEXT: vpaddq %xmm10, %xmm4, %xmm4
	; AVX1-NEXT: vpsllq $32, %xmm4, %xmm4
	; AVX1-NEXT: vpmuludq %xmm9, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm4, %xmm0, %xmm9
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm4
	; AVX1-NEXT: vpmuludq %xmm5, %xmm4, %xmm4
	; AVX1-NEXT: vpsrlq $32, %xmm5, %xmm0
	; AVX1-NEXT: vpmuludq %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpaddq %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vpsllq $32, %xmm0, %xmm0
	; AVX1-NEXT: vpmuludq %xmm5, %xmm1, %xmm4			; AVX1-NEXT: vpmuludq %xmm5, %xmm1, %xmm4
	; AVX1-NEXT: vpaddq %xmm0, %xmm4, %xmm10			; AVX1-NEXT: vextractf128 $1, %ymm5, %xmm5
	; AVX1-NEXT: vextractf128 $1, %ymm5, %xmm0
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm5			; AVX1-NEXT: vpmuludq %xmm5, %xmm1, %xmm1
	; AVX1-NEXT: vpmuludq %xmm0, %xmm5, %xmm5			; AVX1-NEXT: vpmuludq %xmm6, %xmm2, %xmm5
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm4			; AVX1-NEXT: vextractf128 $1, %ymm6, %xmm6
	; AVX1-NEXT: vpmuludq %xmm4, %xmm1, %xmm4
	; AVX1-NEXT: vpaddq %xmm5, %xmm4, %xmm4
	; AVX1-NEXT: vpsllq $32, %xmm4, %xmm4
	; AVX1-NEXT: vpmuludq %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vpaddq %xmm4, %xmm0, %xmm1
	; AVX1-NEXT: vpsrlq $32, %xmm2, %xmm0
	; AVX1-NEXT: vpmuludq %xmm6, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlq $32, %xmm6, %xmm4
	; AVX1-NEXT: vpmuludq %xmm4, %xmm2, %xmm4
	; AVX1-NEXT: vpaddq %xmm0, %xmm4, %xmm0
	; AVX1-NEXT: vpsllq $32, %xmm0, %xmm0
	; AVX1-NEXT: vpmuludq %xmm6, %xmm2, %xmm4
	; AVX1-NEXT: vpaddq %xmm0, %xmm4, %xmm5
	; AVX1-NEXT: vextractf128 $1, %ymm6, %xmm0
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm2
	; AVX1-NEXT: vpsrlq $32, %xmm2, %xmm4			; AVX1-NEXT: vpmuludq %xmm6, %xmm2, %xmm2
	; AVX1-NEXT: vpmuludq %xmm0, %xmm4, %xmm4			; AVX1-NEXT: vpmuludq %xmm7, %xmm3, %xmm6
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm6			; AVX1-NEXT: vextractf128 $1, %ymm7, %xmm7
	; AVX1-NEXT: vpmuludq %xmm6, %xmm2, %xmm6
	; AVX1-NEXT: vpaddq %xmm4, %xmm6, %xmm4
	; AVX1-NEXT: vpsllq $32, %xmm4, %xmm4
	; AVX1-NEXT: vpmuludq %xmm0, %xmm2, %xmm0
	; AVX1-NEXT: vpaddq %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlq $32, %xmm3, %xmm2
	; AVX1-NEXT: vpmuludq %xmm7, %xmm2, %xmm2
	; AVX1-NEXT: vpsrlq $32, %xmm7, %xmm4
	; AVX1-NEXT: vpmuludq %xmm4, %xmm3, %xmm4
	; AVX1-NEXT: vpaddq %xmm2, %xmm4, %xmm2
	; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX1-NEXT: vpmuludq %xmm7, %xmm3, %xmm4
	; AVX1-NEXT: vpaddq %xmm2, %xmm4, %xmm2
	; AVX1-NEXT: vextractf128 $1, %ymm7, %xmm4
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm3
	; AVX1-NEXT: vpsrlq $32, %xmm3, %xmm6			; AVX1-NEXT: vpmuludq %xmm7, %xmm3, %xmm3
	; AVX1-NEXT: vpmuludq %xmm4, %xmm6, %xmm6			; AVX1-NEXT: vmovddup {{.*#+}} xmm7 = [1.2598673968951787E-321,1.2598673968951787E-321]
	; AVX1-NEXT: vpsrlq $32, %xmm4, %xmm7			; AVX1-NEXT: # xmm7 = mem[0,0]
	; AVX1-NEXT: vpmuludq %xmm7, %xmm3, %xmm7			; AVX1-NEXT: vpand %xmm7, %xmm3, %xmm3
	; AVX1-NEXT: vpaddq %xmm6, %xmm7, %xmm6			; AVX1-NEXT: vpand %xmm7, %xmm6, %xmm6
	; AVX1-NEXT: vpsllq $32, %xmm6, %xmm6			; AVX1-NEXT: vpackusdw %xmm3, %xmm6, %xmm3
	; AVX1-NEXT: vpmuludq %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpand %xmm7, %xmm2, %xmm2
	; AVX1-NEXT: vpaddq %xmm6, %xmm3, %xmm3			; AVX1-NEXT: vpand %xmm7, %xmm5, %xmm5
	; AVX1-NEXT: vmovddup {{.*#+}} xmm4 = [1.2598673968951787E-321,1.2598673968951787E-321]			; AVX1-NEXT: vpackusdw %xmm2, %xmm5, %xmm2
	; AVX1-NEXT: # xmm4 = mem[0,0]
	; AVX1-NEXT: vpand %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: vpackusdw %xmm3, %xmm2, %xmm2			; AVX1-NEXT: vpackusdw %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm7, %xmm1, %xmm1
	; AVX1-NEXT: vpand %xmm4, %xmm5, %xmm3			; AVX1-NEXT: vpand %xmm7, %xmm4, %xmm3
				; AVX1-NEXT: vpackusdw %xmm1, %xmm3, %xmm1
				; AVX1-NEXT: vpand %xmm7, %xmm0, %xmm0
				; AVX1-NEXT: vpand %xmm7, %xmm8, %xmm3
	; AVX1-NEXT: vpackusdw %xmm0, %xmm3, %xmm0			; AVX1-NEXT: vpackusdw %xmm0, %xmm3, %xmm0
	; AVX1-NEXT: vpackusdw %xmm2, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm4, %xmm1, %xmm1			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm4, %xmm10, %xmm2
	; AVX1-NEXT: vpackusdw %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpand %xmm4, %xmm9, %xmm2
	; AVX1-NEXT: vpand %xmm4, %xmm8, %xmm3
	; AVX1-NEXT: vpackusdw %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpackusdw %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpackuswb %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_mul_v16i64_v16i8:			; AVX2-SLOW-LABEL: trunc_mul_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm7 = ymm7[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm7 = ymm7[0,2,2,3,4,6,6,7]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm7 = ymm7[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm7 = ymm7[0,2,2,3]
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm3 = ymm3[0,2,2,3,4,6,6,7]
	▲ Show 20 Lines • Show All 491 Lines • ▼ Show 20 Lines
	; SSE-NEXT: packuswb %xmm4, %xmm0			; SSE-NEXT: packuswb %xmm4, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_mul_const_v16i64_v16i8:			; AVX1-LABEL: trunc_mul_const_v16i64_v16i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: movl $1, %eax			; AVX1-NEXT: movl $1, %eax
	; AVX1-NEXT: vmovq %rax, %xmm4			; AVX1-NEXT: vmovq %rax, %xmm4
	; AVX1-NEXT: vpslldq {{.*#+}} xmm4 = zero,zero,zero,zero,zero,zero,zero,zero,xmm4[0,1,2,3,4,5,6,7]			; AVX1-NEXT: vpslldq {{.*#+}} xmm4 = zero,zero,zero,zero,zero,zero,zero,zero,xmm4[0,1,2,3,4,5,6,7]
	; AVX1-NEXT: vpmuludq %xmm4, %xmm0, %xmm5			; AVX1-NEXT: vpmuludq %xmm4, %xmm0, %xmm8
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm6
	; AVX1-NEXT: vpmuludq %xmm4, %xmm6, %xmm4
	; AVX1-NEXT: vpsllq $32, %xmm4, %xmm4
	; AVX1-NEXT: vpaddq %xmm4, %xmm5, %xmm8
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [2,3]			; AVX1-NEXT: vpmuludq {{.*}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vpmuludq %xmm5, %xmm0, %xmm6			; AVX1-NEXT: vpmuludq {{.*}}(%rip), %xmm1, %xmm5
	; AVX1-NEXT: vpsrlq $32, %xmm0, %xmm0
	; AVX1-NEXT: vpmuludq %xmm5, %xmm0, %xmm0
	; AVX1-NEXT: vpsllq $32, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm0, %xmm6, %xmm9
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [4,5]
	; AVX1-NEXT: vpmuludq %xmm5, %xmm1, %xmm6
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm7
	; AVX1-NEXT: vpmuludq %xmm5, %xmm7, %xmm5
	; AVX1-NEXT: vpsllq $32, %xmm5, %xmm5
	; AVX1-NEXT: vpaddq %xmm5, %xmm6, %xmm5
	; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [6,7]			; AVX1-NEXT: vpmuludq {{.*}}(%rip), %xmm1, %xmm1
	; AVX1-NEXT: vpmuludq %xmm6, %xmm1, %xmm7			; AVX1-NEXT: vpmuludq {{.*}}(%rip), %xmm2, %xmm6
	; AVX1-NEXT: vpsrlq $32, %xmm1, %xmm1
	; AVX1-NEXT: vpmuludq %xmm6, %xmm1, %xmm1
	; AVX1-NEXT: vpsllq $32, %xmm1, %xmm1
	; AVX1-NEXT: vpaddq %xmm1, %xmm7, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [8,9]
	; AVX1-NEXT: vpmuludq %xmm6, %xmm2, %xmm7
	; AVX1-NEXT: vpsrlq $32, %xmm2, %xmm4
	; AVX1-NEXT: vpmuludq %xmm6, %xmm4, %xmm4
	; AVX1-NEXT: vpsllq $32, %xmm4, %xmm4
	; AVX1-NEXT: vpaddq %xmm4, %xmm7, %xmm4
	; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm2, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [10,11]			; AVX1-NEXT: vpmuludq {{.*}}(%rip), %xmm2, %xmm2
	; AVX1-NEXT: vpmuludq %xmm6, %xmm2, %xmm7			; AVX1-NEXT: vpmuludq {{.*}}(%rip), %xmm3, %xmm7
	; AVX1-NEXT: vpsrlq $32, %xmm2, %xmm2
	; AVX1-NEXT: vpmuludq %xmm6, %xmm2, %xmm2
	; AVX1-NEXT: vpsllq $32, %xmm2, %xmm2
	; AVX1-NEXT: vpaddq %xmm2, %xmm7, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [12,13]
	; AVX1-NEXT: vpmuludq %xmm6, %xmm3, %xmm7
	; AVX1-NEXT: vpsrlq $32, %xmm3, %xmm0
	; AVX1-NEXT: vpmuludq %xmm6, %xmm0, %xmm0
	; AVX1-NEXT: vpsllq $32, %xmm0, %xmm0
	; AVX1-NEXT: vpaddq %xmm0, %xmm7, %xmm0
	; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm3, %xmm3
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [14,15]			; AVX1-NEXT: vpmuludq {{.*}}(%rip), %xmm3, %xmm3
	; AVX1-NEXT: vpmuludq %xmm6, %xmm3, %xmm7			; AVX1-NEXT: vmovddup {{.*#+}} xmm4 = [1.2598673968951787E-321,1.2598673968951787E-321]
	; AVX1-NEXT: vpsrlq $32, %xmm3, %xmm3			; AVX1-NEXT: # xmm4 = mem[0,0]
	; AVX1-NEXT: vpmuludq %xmm6, %xmm3, %xmm3			; AVX1-NEXT: vpand %xmm4, %xmm3, %xmm3
	; AVX1-NEXT: vpsllq $32, %xmm3, %xmm3			; AVX1-NEXT: vpand %xmm4, %xmm7, %xmm7
	; AVX1-NEXT: vpaddq %xmm3, %xmm7, %xmm3			; AVX1-NEXT: vpackusdw %xmm3, %xmm7, %xmm3
	; AVX1-NEXT: vmovddup {{.*#+}} xmm6 = [1.2598673968951787E-321,1.2598673968951787E-321]			; AVX1-NEXT: vpand %xmm4, %xmm2, %xmm2
	; AVX1-NEXT: # xmm6 = mem[0,0]			; AVX1-NEXT: vpand %xmm4, %xmm6, %xmm6
	; AVX1-NEXT: vpand %xmm6, %xmm3, %xmm3			; AVX1-NEXT: vpackusdw %xmm2, %xmm6, %xmm2
	; AVX1-NEXT: vpand %xmm6, %xmm0, %xmm0			; AVX1-NEXT: vpackusdw %xmm3, %xmm2, %xmm2
	; AVX1-NEXT: vpackusdw %xmm3, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm4, %xmm1, %xmm1
	; AVX1-NEXT: vpand %xmm6, %xmm2, %xmm2			; AVX1-NEXT: vpand %xmm4, %xmm5, %xmm3
	; AVX1-NEXT: vpand %xmm6, %xmm4, %xmm3			; AVX1-NEXT: vpackusdw %xmm1, %xmm3, %xmm1
	; AVX1-NEXT: vpackusdw %xmm2, %xmm3, %xmm2			; AVX1-NEXT: vpand %xmm4, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm0, %xmm2, %xmm0			; AVX1-NEXT: vpand %xmm4, %xmm8, %xmm3
	; AVX1-NEXT: vpand %xmm6, %xmm1, %xmm1			; AVX1-NEXT: vpackusdw %xmm0, %xmm3, %xmm0
	; AVX1-NEXT: vpand %xmm6, %xmm5, %xmm2			; AVX1-NEXT: vpackusdw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpackusdw %xmm1, %xmm2, %xmm1			; AVX1-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX1-NEXT: vpand %xmm6, %xmm9, %xmm2
	; AVX1-NEXT: vpand %xmm6, %xmm8, %xmm3
	; AVX1-NEXT: vpackusdw %xmm2, %xmm3, %xmm2
	; AVX1-NEXT: vpackusdw %xmm1, %xmm2, %xmm1
	; AVX1-NEXT: vpackuswb %xmm0, %xmm1, %xmm0
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-SLOW-LABEL: trunc_mul_const_v16i64_v16i8:			; AVX2-SLOW-LABEL: trunc_mul_const_v16i64_v16i8:
	; AVX2-SLOW: # %bb.0:			; AVX2-SLOW: # %bb.0:
	; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm2 = ymm2[0,2,2,3,4,6,6,7]			; AVX2-SLOW-NEXT: vpshufd {{.*#+}} ymm2 = ymm2[0,2,2,3,4,6,6,7]
	; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]			; AVX2-SLOW-NEXT: vpermq {{.*#+}} ymm2 = ymm2[0,2,2,3]
	; AVX2-SLOW-NEXT: vpmulld {{.*}}(%rip), %xmm2, %xmm2			; AVX2-SLOW-NEXT: vpmulld {{.*}}(%rip), %xmm2, %xmm2
	▲ Show 20 Lines • Show All 2,683 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-trunc-packus-widen.ll

	Show First 20 Lines • Show All 129 Lines • ▼ Show 20 Lines
	; SSE41-LABEL: trunc_packus_v4i64_v4i32:			; SSE41-LABEL: trunc_packus_v4i64_v4i32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: movapd {{.*#+}} xmm4 = [4294967295,4294967295]			; SSE41-NEXT: movapd {{.*#+}} xmm4 = [4294967295,4294967295]
	; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [2147483648,2147483648]
	; SSE41-NEXT: pxor %xmm3, %xmm0			; SSE41-NEXT: pxor %xmm3, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [2147483647,2147483647]			; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [2147483647,2147483647]
	; SSE41-NEXT: movdqa %xmm6, %xmm5			; SSE41-NEXT: movdqa %xmm6, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm5			; SSE41-NEXT: pcmpeqd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm5[0,0,2,2]			; SSE41-NEXT: movdqa %xmm6, %xmm7
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm7[0,0,2,2]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm5, %xmm0			; SSE41-NEXT: por %xmm7, %xmm0
	; SSE41-NEXT: movapd %xmm4, %xmm5			; SSE41-NEXT: movapd %xmm4, %xmm5
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm5			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm5
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm3, %xmm0			; SSE41-NEXT: pxor %xmm3, %xmm0
	; SSE41-NEXT: movdqa %xmm6, %xmm2			; SSE41-NEXT: movdqa %xmm6, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm4
	; SSE41-NEXT: xorpd %xmm1, %xmm1			; SSE41-NEXT: xorpd %xmm1, %xmm1
	; SSE41-NEXT: movapd %xmm4, %xmm0			; SSE41-NEXT: movapd %xmm4, %xmm2
	; SSE41-NEXT: xorpd %xmm3, %xmm0			; SSE41-NEXT: xorpd %xmm3, %xmm2
	; SSE41-NEXT: movapd %xmm0, %xmm2			; SSE41-NEXT: movapd %xmm2, %xmm6
				; SSE41-NEXT: pcmpeqd %xmm3, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm2			; SSE41-NEXT: pcmpgtd %xmm3, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm2[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm3, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: pxor %xmm2, %xmm2			; SSE41-NEXT: pxor %xmm2, %xmm2
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2
	; SSE41-NEXT: movapd %xmm5, %xmm0			; SSE41-NEXT: movapd %xmm5, %xmm4
	; SSE41-NEXT: xorpd %xmm3, %xmm0			; SSE41-NEXT: xorpd %xmm3, %xmm4
	; SSE41-NEXT: movapd %xmm0, %xmm4			; SSE41-NEXT: movapd %xmm4, %xmm6
				; SSE41-NEXT: pcmpeqd %xmm3, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm4			; SSE41-NEXT: pcmpgtd %xmm3, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm3, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm1
	; SSE41-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]			; SSE41-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_packus_v4i64_v4i32:			; AVX1-LABEL: trunc_packus_v4i64_v4i32:
	▲ Show 20 Lines • Show All 299 Lines • ▼ Show 20 Lines
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,1,3,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,1,3,3]
	; SSSE3-NEXT: por %xmm6, %xmm0			; SSSE3-NEXT: por %xmm6, %xmm0
	; SSSE3-NEXT: pand %xmm5, %xmm0			; SSSE3-NEXT: pand %xmm5, %xmm0
	; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm3[0,2]			; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm3[0,2]
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: trunc_packus_v8i64_v8i32:			; SSE41-LABEL: trunc_packus_v8i64_v8i32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: movdqa %xmm0, %xmm9
	; SSE41-NEXT: movapd {{.*#+}} xmm7 = [4294967295,4294967295]			; SSE41-NEXT: movapd {{.*#+}} xmm7 = [4294967295,4294967295]
	; SSE41-NEXT: movdqa {{.*#+}} xmm10 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm10 = [2147483648,2147483648]
	; SSE41-NEXT: pxor %xmm10, %xmm0			; SSE41-NEXT: pxor %xmm10, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm11 = [2147483647,2147483647]			; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483647,2147483647]
	; SSE41-NEXT: movdqa %xmm11, %xmm6			; SSE41-NEXT: movdqa %xmm5, %xmm4
				; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
				; SSE41-NEXT: movdqa %xmm5, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm6			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm6[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm11, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm8			; SSE41-NEXT: movapd %xmm7, %xmm8
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm8			; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm8
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm10, %xmm0			; SSE41-NEXT: pxor %xmm10, %xmm0
	; SSE41-NEXT: movdqa %xmm11, %xmm4			; SSE41-NEXT: movdqa %xmm5, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: movdqa %xmm5, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm11, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm9			; SSE41-NEXT: movapd %xmm7, %xmm9
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm9			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm9
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: pxor %xmm10, %xmm0			; SSE41-NEXT: pxor %xmm10, %xmm0
	; SSE41-NEXT: movdqa %xmm11, %xmm1			; SSE41-NEXT: movdqa %xmm5, %xmm1
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm1			; SSE41-NEXT: pcmpeqd %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm1[0,0,2,2]			; SSE41-NEXT: movdqa %xmm5, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm11, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm1, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm4			; SSE41-NEXT: movapd %xmm7, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm4
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm10, %xmm0			; SSE41-NEXT: pxor %xmm10, %xmm0
	; SSE41-NEXT: movdqa %xmm11, %xmm1			; SSE41-NEXT: movdqa %xmm5, %xmm1
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm1			; SSE41-NEXT: pcmpeqd %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm11, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pand %xmm1, %xmm0
	; SSE41-NEXT: pand %xmm2, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm7			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm7
	; SSE41-NEXT: pxor %xmm2, %xmm2			; SSE41-NEXT: xorpd %xmm2, %xmm2
	; SSE41-NEXT: movapd %xmm7, %xmm0			; SSE41-NEXT: movapd %xmm7, %xmm1
	; SSE41-NEXT: xorpd %xmm10, %xmm0			; SSE41-NEXT: xorpd %xmm10, %xmm1
	; SSE41-NEXT: movapd %xmm0, %xmm1			; SSE41-NEXT: movapd %xmm1, %xmm3
				; SSE41-NEXT: pcmpeqd %xmm10, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm10, %xmm1			; SSE41-NEXT: pcmpgtd %xmm10, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm3, %xmm3			; SSE41-NEXT: pxor %xmm3, %xmm3
	; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm3
	; SSE41-NEXT: movapd %xmm4, %xmm0			; SSE41-NEXT: movapd %xmm4, %xmm1
	; SSE41-NEXT: xorpd %xmm10, %xmm0			; SSE41-NEXT: xorpd %xmm10, %xmm1
	; SSE41-NEXT: movapd %xmm0, %xmm1			; SSE41-NEXT: movapd %xmm1, %xmm5
				; SSE41-NEXT: pcmpeqd %xmm10, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm10, %xmm1			; SSE41-NEXT: pcmpgtd %xmm10, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm1, %xmm1			; SSE41-NEXT: pxor %xmm1, %xmm1
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm1
	; SSE41-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm3[0,2]			; SSE41-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm3[0,2]
	; SSE41-NEXT: movapd %xmm9, %xmm0			; SSE41-NEXT: movapd %xmm9, %xmm3
	; SSE41-NEXT: xorpd %xmm10, %xmm0			; SSE41-NEXT: xorpd %xmm10, %xmm3
	; SSE41-NEXT: movapd %xmm0, %xmm3			; SSE41-NEXT: movapd %xmm3, %xmm4
				; SSE41-NEXT: pcmpeqd %xmm10, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm10, %xmm3			; SSE41-NEXT: pcmpgtd %xmm10, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm3, %xmm3			; SSE41-NEXT: pxor %xmm3, %xmm3
	; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm3
	; SSE41-NEXT: movapd %xmm8, %xmm0			; SSE41-NEXT: movapd %xmm8, %xmm4
	; SSE41-NEXT: xorpd %xmm10, %xmm0			; SSE41-NEXT: xorpd %xmm10, %xmm4
	; SSE41-NEXT: movapd %xmm0, %xmm4			; SSE41-NEXT: movapd %xmm4, %xmm5
				; SSE41-NEXT: pcmpeqd %xmm10, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm10, %xmm4			; SSE41-NEXT: pcmpgtd %xmm10, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm2
	; SSE41-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,2],xmm3[0,2]			; SSE41-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,2],xmm3[0,2]
	; SSE41-NEXT: movaps %xmm2, %xmm0			; SSE41-NEXT: movaps %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_packus_v8i64_v8i32:			; AVX1-LABEL: trunc_packus_v8i64_v8i32:
	▲ Show 20 Lines • Show All 312 Lines • ▼ Show 20 Lines
	;			;
	; SSE41-LABEL: trunc_packus_v8i64_v8i16:			; SSE41-LABEL: trunc_packus_v8i64_v8i16:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm9			; SSE41-NEXT: movdqa %xmm0, %xmm9
	; SSE41-NEXT: movapd {{.*#+}} xmm7 = [65535,65535]			; SSE41-NEXT: movapd {{.*#+}} xmm7 = [65535,65535]
	; SSE41-NEXT: movdqa {{.*#+}} xmm10 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm10 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: pxor %xmm10, %xmm0			; SSE41-NEXT: pxor %xmm10, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [2147549183,2147549183]			; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [2147549183,2147549183]
	; SSE41-NEXT: movdqa %xmm6, %xmm4			; SSE41-NEXT: movdqa %xmm4, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: movdqa %xmm4, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm8			; SSE41-NEXT: movapd %xmm7, %xmm8
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm8			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm8
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm10, %xmm0			; SSE41-NEXT: pxor %xmm10, %xmm0
	; SSE41-NEXT: movdqa %xmm6, %xmm2			; SSE41-NEXT: movdqa %xmm4, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,0,2,2]			; SSE41-NEXT: movdqa %xmm4, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm2			; SSE41-NEXT: movapd %xmm7, %xmm2
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm2
	; SSE41-NEXT: movdqa %xmm9, %xmm0			; SSE41-NEXT: movdqa %xmm9, %xmm0
	; SSE41-NEXT: pxor %xmm10, %xmm0			; SSE41-NEXT: pxor %xmm10, %xmm0
	; SSE41-NEXT: movdqa %xmm6, %xmm3			; SSE41-NEXT: movdqa %xmm4, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm3			; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]			; SSE41-NEXT: movdqa %xmm4, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm4			; SSE41-NEXT: movapd %xmm7, %xmm6
	; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm6
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm10, %xmm0			; SSE41-NEXT: pxor %xmm10, %xmm0
	; SSE41-NEXT: movdqa %xmm6, %xmm3			; SSE41-NEXT: movdqa %xmm4, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm3			; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm3[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm7			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm7
	; SSE41-NEXT: pxor %xmm3, %xmm3			; SSE41-NEXT: pxor %xmm3, %xmm3
	; SSE41-NEXT: movapd %xmm7, %xmm0			; SSE41-NEXT: movapd %xmm7, %xmm1
	; SSE41-NEXT: xorpd %xmm10, %xmm0			; SSE41-NEXT: xorpd %xmm10, %xmm1
	; SSE41-NEXT: movapd %xmm0, %xmm1			; SSE41-NEXT: movapd %xmm1, %xmm4
				; SSE41-NEXT: pcmpeqd %xmm10, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm10, %xmm1			; SSE41-NEXT: pcmpgtd %xmm10, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm5			; SSE41-NEXT: pxor %xmm4, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm5			; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm4
	; SSE41-NEXT: movapd %xmm4, %xmm0			; SSE41-NEXT: movapd %xmm6, %xmm1
	; SSE41-NEXT: xorpd %xmm10, %xmm0			; SSE41-NEXT: xorpd %xmm10, %xmm1
	; SSE41-NEXT: movapd %xmm0, %xmm1			; SSE41-NEXT: movapd %xmm1, %xmm5
				; SSE41-NEXT: pcmpeqd %xmm10, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm10, %xmm1			; SSE41-NEXT: pcmpgtd %xmm10, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm1, %xmm1			; SSE41-NEXT: pxor %xmm1, %xmm1
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm1
	; SSE41-NEXT: packusdw %xmm5, %xmm1			; SSE41-NEXT: packusdw %xmm4, %xmm1
	; SSE41-NEXT: movapd %xmm2, %xmm0			; SSE41-NEXT: movapd %xmm2, %xmm4
	; SSE41-NEXT: xorpd %xmm10, %xmm0			; SSE41-NEXT: xorpd %xmm10, %xmm4
	; SSE41-NEXT: movapd %xmm0, %xmm4			; SSE41-NEXT: movapd %xmm4, %xmm5
				; SSE41-NEXT: pcmpeqd %xmm10, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm10, %xmm4			; SSE41-NEXT: pcmpgtd %xmm10, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: pxor %xmm4, %xmm4			; SSE41-NEXT: pxor %xmm4, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm4
	; SSE41-NEXT: movapd %xmm8, %xmm0			; SSE41-NEXT: movapd %xmm8, %xmm2
	; SSE41-NEXT: xorpd %xmm10, %xmm0			; SSE41-NEXT: xorpd %xmm10, %xmm2
	; SSE41-NEXT: movapd %xmm0, %xmm2			; SSE41-NEXT: movapd %xmm2, %xmm5
				; SSE41-NEXT: pcmpeqd %xmm10, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm10, %xmm2			; SSE41-NEXT: pcmpgtd %xmm10, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm2[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm3
	; SSE41-NEXT: packusdw %xmm4, %xmm3			; SSE41-NEXT: packusdw %xmm4, %xmm3
	; SSE41-NEXT: packusdw %xmm3, %xmm1			; SSE41-NEXT: packusdw %xmm3, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 544 Lines • ▼ Show 20 Lines
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm9			; SSE41-NEXT: movdqa %xmm0, %xmm9
	; SSE41-NEXT: movapd {{.*#+}} xmm8 = [255,255]			; SSE41-NEXT: movapd {{.*#+}} xmm8 = [255,255]
	; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm6, %xmm0			; SSE41-NEXT: pxor %xmm6, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483903,2147483903]			; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483903,2147483903]
	; SSE41-NEXT: movdqa %xmm5, %xmm4			; SSE41-NEXT: movdqa %xmm5, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm4[0,0,2,2]			; SSE41-NEXT: movdqa %xmm5, %xmm7
	; SSE41-NEXT: pcmpeqd %xmm5, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm7[0,0,2,2]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm7, %xmm0
	; SSE41-NEXT: movapd %xmm8, %xmm10			; SSE41-NEXT: movapd %xmm8, %xmm10
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm10			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm10
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: pxor %xmm6, %xmm0			; SSE41-NEXT: pxor %xmm6, %xmm0
	; SSE41-NEXT: movdqa %xmm5, %xmm3			; SSE41-NEXT: movdqa %xmm5, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm3			; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]			; SSE41-NEXT: movdqa %xmm5, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm5, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: movapd %xmm8, %xmm3			; SSE41-NEXT: movapd %xmm8, %xmm3
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm6, %xmm0			; SSE41-NEXT: pxor %xmm6, %xmm0
	; SSE41-NEXT: movdqa %xmm5, %xmm2			; SSE41-NEXT: movdqa %xmm5, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,0,2,2]			; SSE41-NEXT: movdqa %xmm5, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm5, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: movapd %xmm8, %xmm4			; SSE41-NEXT: movapd %xmm8, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm4
	; SSE41-NEXT: movdqa %xmm9, %xmm0			; SSE41-NEXT: movdqa %xmm9, %xmm0
	; SSE41-NEXT: pxor %xmm6, %xmm0			; SSE41-NEXT: pxor %xmm6, %xmm0
	; SSE41-NEXT: movdqa %xmm5, %xmm1			; SSE41-NEXT: movdqa %xmm5, %xmm1
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm1			; SSE41-NEXT: pcmpeqd %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm5, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pand %xmm1, %xmm0
	; SSE41-NEXT: pand %xmm2, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: movapd %xmm8, %xmm5			; SSE41-NEXT: movapd %xmm8, %xmm5
	; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm5			; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm5
	; SSE41-NEXT: movapd %xmm5, %xmm0			; SSE41-NEXT: movapd %xmm5, %xmm1
	; SSE41-NEXT: xorpd %xmm6, %xmm0			; SSE41-NEXT: xorpd %xmm6, %xmm1
	; SSE41-NEXT: movapd %xmm0, %xmm1			; SSE41-NEXT: movapd %xmm1, %xmm2
				; SSE41-NEXT: pcmpeqd %xmm6, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm6, %xmm1			; SSE41-NEXT: pcmpgtd %xmm6, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm2, %xmm0			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm2, %xmm2			; SSE41-NEXT: pxor %xmm2, %xmm2
	; SSE41-NEXT: pxor %xmm1, %xmm1			; SSE41-NEXT: pxor %xmm1, %xmm1
	; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm1
	; SSE41-NEXT: movapd %xmm4, %xmm0			; SSE41-NEXT: movapd %xmm4, %xmm5
	; SSE41-NEXT: xorpd %xmm6, %xmm0			; SSE41-NEXT: xorpd %xmm6, %xmm5
	; SSE41-NEXT: movapd %xmm0, %xmm5			; SSE41-NEXT: movapd %xmm5, %xmm7
				; SSE41-NEXT: pcmpeqd %xmm6, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm6, %xmm5			; SSE41-NEXT: pcmpgtd %xmm6, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm5[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: por %xmm5, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm5			; SSE41-NEXT: pxor %xmm5, %xmm5
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm5			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm5
	; SSE41-NEXT: movapd %xmm3, %xmm0			; SSE41-NEXT: movapd %xmm3, %xmm4
	; SSE41-NEXT: xorpd %xmm6, %xmm0			; SSE41-NEXT: xorpd %xmm6, %xmm4
	; SSE41-NEXT: movapd %xmm0, %xmm4			; SSE41-NEXT: movapd %xmm4, %xmm7
				; SSE41-NEXT: pcmpeqd %xmm6, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm6, %xmm4			; SSE41-NEXT: pcmpgtd %xmm6, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm4[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: pxor %xmm4, %xmm4			; SSE41-NEXT: pxor %xmm4, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm4
	; SSE41-NEXT: movapd %xmm10, %xmm0			; SSE41-NEXT: movapd %xmm10, %xmm3
	; SSE41-NEXT: xorpd %xmm6, %xmm0			; SSE41-NEXT: xorpd %xmm6, %xmm3
	; SSE41-NEXT: movapd %xmm0, %xmm3			; SSE41-NEXT: movapd %xmm3, %xmm7
				; SSE41-NEXT: pcmpeqd %xmm6, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm6, %xmm3			; SSE41-NEXT: pcmpgtd %xmm6, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm3[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm10, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm10, %xmm2
	; SSE41-NEXT: andpd %xmm8, %xmm2			; SSE41-NEXT: andpd %xmm8, %xmm2
	; SSE41-NEXT: andpd %xmm8, %xmm4			; SSE41-NEXT: andpd %xmm8, %xmm4
	; SSE41-NEXT: packusdw %xmm2, %xmm4			; SSE41-NEXT: packusdw %xmm2, %xmm4
	; SSE41-NEXT: andpd %xmm8, %xmm5			; SSE41-NEXT: andpd %xmm8, %xmm5
	; SSE41-NEXT: andpd %xmm8, %xmm1			; SSE41-NEXT: andpd %xmm8, %xmm1
	▲ Show 20 Lines • Show All 312 Lines • ▼ Show 20 Lines
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm9			; SSE41-NEXT: movdqa %xmm0, %xmm9
	; SSE41-NEXT: movapd {{.*#+}} xmm8 = [255,255]			; SSE41-NEXT: movapd {{.*#+}} xmm8 = [255,255]
	; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm6, %xmm0			; SSE41-NEXT: pxor %xmm6, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483903,2147483903]			; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483903,2147483903]
	; SSE41-NEXT: movdqa %xmm5, %xmm4			; SSE41-NEXT: movdqa %xmm5, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm4[0,0,2,2]			; SSE41-NEXT: movdqa %xmm5, %xmm7
	; SSE41-NEXT: pcmpeqd %xmm5, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm7[0,0,2,2]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm7, %xmm0
	; SSE41-NEXT: movapd %xmm8, %xmm10			; SSE41-NEXT: movapd %xmm8, %xmm10
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm10			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm10
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: pxor %xmm6, %xmm0			; SSE41-NEXT: pxor %xmm6, %xmm0
	; SSE41-NEXT: movdqa %xmm5, %xmm3			; SSE41-NEXT: movdqa %xmm5, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm3			; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]			; SSE41-NEXT: movdqa %xmm5, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm5, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: movapd %xmm8, %xmm3			; SSE41-NEXT: movapd %xmm8, %xmm3
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm6, %xmm0			; SSE41-NEXT: pxor %xmm6, %xmm0
	; SSE41-NEXT: movdqa %xmm5, %xmm2			; SSE41-NEXT: movdqa %xmm5, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,0,2,2]			; SSE41-NEXT: movdqa %xmm5, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm5, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: movapd %xmm8, %xmm4			; SSE41-NEXT: movapd %xmm8, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm4
	; SSE41-NEXT: movdqa %xmm9, %xmm0			; SSE41-NEXT: movdqa %xmm9, %xmm0
	; SSE41-NEXT: pxor %xmm6, %xmm0			; SSE41-NEXT: pxor %xmm6, %xmm0
	; SSE41-NEXT: movdqa %xmm5, %xmm1			; SSE41-NEXT: movdqa %xmm5, %xmm1
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm1			; SSE41-NEXT: pcmpeqd %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm5, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pand %xmm1, %xmm0
	; SSE41-NEXT: pand %xmm2, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: movapd %xmm8, %xmm5			; SSE41-NEXT: movapd %xmm8, %xmm5
	; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm5			; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm5
	; SSE41-NEXT: movapd %xmm5, %xmm0			; SSE41-NEXT: movapd %xmm5, %xmm1
	; SSE41-NEXT: xorpd %xmm6, %xmm0			; SSE41-NEXT: xorpd %xmm6, %xmm1
	; SSE41-NEXT: movapd %xmm0, %xmm1			; SSE41-NEXT: movapd %xmm1, %xmm2
				; SSE41-NEXT: pcmpeqd %xmm6, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm6, %xmm1			; SSE41-NEXT: pcmpgtd %xmm6, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm2, %xmm0			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm2, %xmm2			; SSE41-NEXT: pxor %xmm2, %xmm2
	; SSE41-NEXT: pxor %xmm1, %xmm1			; SSE41-NEXT: pxor %xmm1, %xmm1
	; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm1
	; SSE41-NEXT: movapd %xmm4, %xmm0			; SSE41-NEXT: movapd %xmm4, %xmm5
	; SSE41-NEXT: xorpd %xmm6, %xmm0			; SSE41-NEXT: xorpd %xmm6, %xmm5
	; SSE41-NEXT: movapd %xmm0, %xmm5			; SSE41-NEXT: movapd %xmm5, %xmm7
				; SSE41-NEXT: pcmpeqd %xmm6, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm6, %xmm5			; SSE41-NEXT: pcmpgtd %xmm6, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm5[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: por %xmm5, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm5			; SSE41-NEXT: pxor %xmm5, %xmm5
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm5			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm5
	; SSE41-NEXT: movapd %xmm3, %xmm0			; SSE41-NEXT: movapd %xmm3, %xmm4
	; SSE41-NEXT: xorpd %xmm6, %xmm0			; SSE41-NEXT: xorpd %xmm6, %xmm4
	; SSE41-NEXT: movapd %xmm0, %xmm4			; SSE41-NEXT: movapd %xmm4, %xmm7
				; SSE41-NEXT: pcmpeqd %xmm6, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm6, %xmm4			; SSE41-NEXT: pcmpgtd %xmm6, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm4[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: pxor %xmm4, %xmm4			; SSE41-NEXT: pxor %xmm4, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm4
	; SSE41-NEXT: movapd %xmm10, %xmm0			; SSE41-NEXT: movapd %xmm10, %xmm3
	; SSE41-NEXT: xorpd %xmm6, %xmm0			; SSE41-NEXT: xorpd %xmm6, %xmm3
	; SSE41-NEXT: movapd %xmm0, %xmm3			; SSE41-NEXT: movapd %xmm3, %xmm7
				; SSE41-NEXT: pcmpeqd %xmm6, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm6, %xmm3			; SSE41-NEXT: pcmpgtd %xmm6, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm3[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm10, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm10, %xmm2
	; SSE41-NEXT: andpd %xmm8, %xmm2			; SSE41-NEXT: andpd %xmm8, %xmm2
	; SSE41-NEXT: andpd %xmm8, %xmm4			; SSE41-NEXT: andpd %xmm8, %xmm4
	; SSE41-NEXT: packusdw %xmm2, %xmm4			; SSE41-NEXT: packusdw %xmm2, %xmm4
	; SSE41-NEXT: andpd %xmm8, %xmm5			; SSE41-NEXT: andpd %xmm8, %xmm5
	; SSE41-NEXT: andpd %xmm8, %xmm1			; SSE41-NEXT: andpd %xmm8, %xmm1
	▲ Show 20 Lines • Show All 502 Lines • ▼ Show 20 Lines
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm8			; SSE41-NEXT: movdqa %xmm0, %xmm8
	; SSE41-NEXT: movapd {{.*#+}} xmm11 = [255,255]			; SSE41-NEXT: movapd {{.*#+}} xmm11 = [255,255]
	; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm6, %xmm0			; SSE41-NEXT: movdqa %xmm6, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm12 = [2147483903,2147483903]			; SSE41-NEXT: movdqa {{.*#+}} xmm12 = [2147483903,2147483903]
	; SSE41-NEXT: movdqa %xmm12, %xmm10			; SSE41-NEXT: movdqa %xmm12, %xmm10
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm10			; SSE41-NEXT: pcmpeqd %xmm0, %xmm10
	; SSE41-NEXT: pshufd {{.*#+}} xmm13 = xmm10[0,0,2,2]			; SSE41-NEXT: movdqa %xmm12, %xmm13
	; SSE41-NEXT: pcmpeqd %xmm12, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm13
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm13[0,0,2,2]
	; SSE41-NEXT: pand %xmm13, %xmm0			; SSE41-NEXT: pand %xmm10, %xmm0
	; SSE41-NEXT: por %xmm10, %xmm0			; SSE41-NEXT: por %xmm13, %xmm0
	; SSE41-NEXT: movapd %xmm11, %xmm10			; SSE41-NEXT: movapd %xmm11, %xmm10
	; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm10			; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm10
	; SSE41-NEXT: movdqa %xmm7, %xmm0			; SSE41-NEXT: movdqa %xmm7, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
				; SSE41-NEXT: movdqa %xmm12, %xmm13
				; SSE41-NEXT: pcmpeqd %xmm0, %xmm13
	; SSE41-NEXT: movdqa %xmm12, %xmm6			; SSE41-NEXT: movdqa %xmm12, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm6			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm13 = xmm6[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm12, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm13, %xmm0			; SSE41-NEXT: pand %xmm13, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm11, %xmm13			; SSE41-NEXT: movapd %xmm11, %xmm13
	; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm13			; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm13
	; SSE41-NEXT: movdqa %xmm4, %xmm0			; SSE41-NEXT: movdqa %xmm4, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm12, %xmm6			; SSE41-NEXT: movdqa %xmm12, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm6			; SSE41-NEXT: pcmpeqd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm6[0,0,2,2]			; SSE41-NEXT: movdqa %xmm12, %xmm7
	; SSE41-NEXT: pcmpeqd %xmm12, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm7[0,0,2,2]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0			; SSE41-NEXT: por %xmm7, %xmm0
	; SSE41-NEXT: movapd %xmm11, %xmm14			; SSE41-NEXT: movapd %xmm11, %xmm14
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm14			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm14
	; SSE41-NEXT: movdqa %xmm5, %xmm0			; SSE41-NEXT: movdqa %xmm5, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm12, %xmm4			; SSE41-NEXT: movdqa %xmm12, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE41-NEXT: movdqa %xmm12, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm12, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm11, %xmm15			; SSE41-NEXT: movapd %xmm11, %xmm15
	; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm15			; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm15
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm12, %xmm5			; SSE41-NEXT: movdqa %xmm12, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm5			; SSE41-NEXT: pcmpeqd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]			; SSE41-NEXT: movdqa %xmm12, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm12, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm5, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm11, %xmm5			; SSE41-NEXT: movapd %xmm11, %xmm5
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm5			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm5
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm12, %xmm2			; SSE41-NEXT: movdqa %xmm12, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm2[0,0,2,2]			; SSE41-NEXT: movdqa %xmm12, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm12, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm11, %xmm6			; SSE41-NEXT: movapd %xmm11, %xmm6
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm6			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm6
	; SSE41-NEXT: movdqa %xmm8, %xmm0			; SSE41-NEXT: movdqa %xmm8, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm12, %xmm2			; SSE41-NEXT: movdqa %xmm12, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: movdqa %xmm12, %xmm3
	; SSE41-NEXT: pcmpeqd %xmm12, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: movapd %xmm11, %xmm3			; SSE41-NEXT: movapd %xmm11, %xmm3
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm3
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm12, %xmm2			; SSE41-NEXT: movdqa %xmm12, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm12
	; SSE41-NEXT: pcmpeqd %xmm12, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm12[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: por %xmm12, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm11			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm11
	; SSE41-NEXT: pxor %xmm2, %xmm2			; SSE41-NEXT: pxor %xmm2, %xmm2
	; SSE41-NEXT: movapd %xmm11, %xmm0			; SSE41-NEXT: movapd %xmm11, %xmm1
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm1
	; SSE41-NEXT: movapd %xmm0, %xmm1			; SSE41-NEXT: movapd %xmm1, %xmm7
				; SSE41-NEXT: pcmpeqd %xmm9, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm9, %xmm1			; SSE41-NEXT: pcmpgtd %xmm9, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm7, %xmm7			; SSE41-NEXT: pxor %xmm7, %xmm7
	; SSE41-NEXT: blendvpd %xmm0, %xmm11, %xmm7			; SSE41-NEXT: blendvpd %xmm0, %xmm11, %xmm7
	; SSE41-NEXT: movapd %xmm3, %xmm0			; SSE41-NEXT: movapd %xmm3, %xmm1
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm1
	; SSE41-NEXT: movapd %xmm0, %xmm1			; SSE41-NEXT: movapd %xmm1, %xmm4
				; SSE41-NEXT: pcmpeqd %xmm9, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm9, %xmm1			; SSE41-NEXT: pcmpgtd %xmm9, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm1, %xmm1			; SSE41-NEXT: pxor %xmm1, %xmm1
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1
	; SSE41-NEXT: packusdw %xmm7, %xmm1			; SSE41-NEXT: packusdw %xmm7, %xmm1
	; SSE41-NEXT: movapd %xmm6, %xmm0			; SSE41-NEXT: movapd %xmm6, %xmm3
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm3
	; SSE41-NEXT: movapd %xmm0, %xmm3			; SSE41-NEXT: movapd %xmm3, %xmm4
				; SSE41-NEXT: pcmpeqd %xmm9, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm9, %xmm3			; SSE41-NEXT: pcmpgtd %xmm9, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm3, %xmm3			; SSE41-NEXT: pxor %xmm3, %xmm3
	; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm3
	; SSE41-NEXT: movapd %xmm5, %xmm0			; SSE41-NEXT: movapd %xmm5, %xmm4
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm4
	; SSE41-NEXT: movapd %xmm0, %xmm4			; SSE41-NEXT: movapd %xmm4, %xmm6
				; SSE41-NEXT: pcmpeqd %xmm9, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm9, %xmm4			; SSE41-NEXT: pcmpgtd %xmm9, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: pxor %xmm4, %xmm4			; SSE41-NEXT: pxor %xmm4, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm4
	; SSE41-NEXT: packusdw %xmm3, %xmm4			; SSE41-NEXT: packusdw %xmm3, %xmm4
	; SSE41-NEXT: packusdw %xmm4, %xmm1			; SSE41-NEXT: packusdw %xmm4, %xmm1
	; SSE41-NEXT: movapd %xmm15, %xmm0			; SSE41-NEXT: movapd %xmm15, %xmm3
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm3
	; SSE41-NEXT: movapd %xmm0, %xmm3			; SSE41-NEXT: movapd %xmm3, %xmm4
				; SSE41-NEXT: pcmpeqd %xmm9, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm9, %xmm3			; SSE41-NEXT: pcmpgtd %xmm9, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm4, %xmm4			; SSE41-NEXT: pxor %xmm4, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm15, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm15, %xmm4
	; SSE41-NEXT: movapd %xmm14, %xmm0			; SSE41-NEXT: movapd %xmm14, %xmm3
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm3
	; SSE41-NEXT: movapd %xmm0, %xmm3			; SSE41-NEXT: movapd %xmm3, %xmm5
				; SSE41-NEXT: pcmpeqd %xmm9, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm9, %xmm3			; SSE41-NEXT: pcmpgtd %xmm9, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm3[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm3, %xmm3			; SSE41-NEXT: pxor %xmm3, %xmm3
	; SSE41-NEXT: blendvpd %xmm0, %xmm14, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm14, %xmm3
	; SSE41-NEXT: packusdw %xmm4, %xmm3			; SSE41-NEXT: packusdw %xmm4, %xmm3
	; SSE41-NEXT: movapd %xmm13, %xmm0			; SSE41-NEXT: movapd %xmm13, %xmm4
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm4
	; SSE41-NEXT: movapd %xmm0, %xmm4			; SSE41-NEXT: movapd %xmm4, %xmm5
				; SSE41-NEXT: pcmpeqd %xmm9, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm9, %xmm4			; SSE41-NEXT: pcmpgtd %xmm9, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: pxor %xmm4, %xmm4			; SSE41-NEXT: pxor %xmm4, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm13, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm13, %xmm4
	; SSE41-NEXT: movapd %xmm10, %xmm0			; SSE41-NEXT: movapd %xmm10, %xmm5
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm5
	; SSE41-NEXT: movapd %xmm0, %xmm5			; SSE41-NEXT: movapd %xmm5, %xmm6
				; SSE41-NEXT: pcmpeqd %xmm9, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm9, %xmm5			; SSE41-NEXT: pcmpgtd %xmm9, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm5, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm10, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm10, %xmm2
	; SSE41-NEXT: packusdw %xmm4, %xmm2			; SSE41-NEXT: packusdw %xmm4, %xmm2
	; SSE41-NEXT: packusdw %xmm2, %xmm3			; SSE41-NEXT: packusdw %xmm2, %xmm3
	; SSE41-NEXT: packuswb %xmm3, %xmm1			; SSE41-NEXT: packuswb %xmm3, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	▲ Show 20 Lines • Show All 429 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-trunc-packus.ll

	Show First 20 Lines • Show All 129 Lines • ▼ Show 20 Lines
	; SSE41-LABEL: trunc_packus_v4i64_v4i32:			; SSE41-LABEL: trunc_packus_v4i64_v4i32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: movapd {{.*#+}} xmm4 = [4294967295,4294967295]			; SSE41-NEXT: movapd {{.*#+}} xmm4 = [4294967295,4294967295]
	; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [2147483648,2147483648]
	; SSE41-NEXT: pxor %xmm3, %xmm0			; SSE41-NEXT: pxor %xmm3, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [2147483647,2147483647]			; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [2147483647,2147483647]
	; SSE41-NEXT: movdqa %xmm6, %xmm5			; SSE41-NEXT: movdqa %xmm6, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm5			; SSE41-NEXT: pcmpeqd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm5[0,0,2,2]			; SSE41-NEXT: movdqa %xmm6, %xmm7
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm7[0,0,2,2]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm5, %xmm0			; SSE41-NEXT: por %xmm7, %xmm0
	; SSE41-NEXT: movapd %xmm4, %xmm5			; SSE41-NEXT: movapd %xmm4, %xmm5
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm5			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm5
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm3, %xmm0			; SSE41-NEXT: pxor %xmm3, %xmm0
	; SSE41-NEXT: movdqa %xmm6, %xmm2			; SSE41-NEXT: movdqa %xmm6, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm4
	; SSE41-NEXT: xorpd %xmm1, %xmm1			; SSE41-NEXT: xorpd %xmm1, %xmm1
	; SSE41-NEXT: movapd %xmm4, %xmm0			; SSE41-NEXT: movapd %xmm4, %xmm2
	; SSE41-NEXT: xorpd %xmm3, %xmm0			; SSE41-NEXT: xorpd %xmm3, %xmm2
	; SSE41-NEXT: movapd %xmm0, %xmm2			; SSE41-NEXT: movapd %xmm2, %xmm6
				; SSE41-NEXT: pcmpeqd %xmm3, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm2			; SSE41-NEXT: pcmpgtd %xmm3, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm2[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm3, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: pxor %xmm2, %xmm2			; SSE41-NEXT: pxor %xmm2, %xmm2
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2
	; SSE41-NEXT: movapd %xmm5, %xmm0			; SSE41-NEXT: movapd %xmm5, %xmm4
	; SSE41-NEXT: xorpd %xmm3, %xmm0			; SSE41-NEXT: xorpd %xmm3, %xmm4
	; SSE41-NEXT: movapd %xmm0, %xmm4			; SSE41-NEXT: movapd %xmm4, %xmm6
				; SSE41-NEXT: pcmpeqd %xmm3, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm4			; SSE41-NEXT: pcmpgtd %xmm3, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm3, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm1
	; SSE41-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]			; SSE41-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_packus_v4i64_v4i32:			; AVX1-LABEL: trunc_packus_v4i64_v4i32:
	▲ Show 20 Lines • Show All 299 Lines • ▼ Show 20 Lines
	; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,1,3,3]			; SSSE3-NEXT: pshufd {{.*#+}} xmm0 = xmm2[1,1,3,3]
	; SSSE3-NEXT: por %xmm6, %xmm0			; SSSE3-NEXT: por %xmm6, %xmm0
	; SSSE3-NEXT: pand %xmm5, %xmm0			; SSSE3-NEXT: pand %xmm5, %xmm0
	; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm3[0,2]			; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm3[0,2]
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: trunc_packus_v8i64_v8i32:			; SSE41-LABEL: trunc_packus_v8i64_v8i32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: movdqa %xmm0, %xmm9
	; SSE41-NEXT: movapd {{.*#+}} xmm7 = [4294967295,4294967295]			; SSE41-NEXT: movapd {{.*#+}} xmm7 = [4294967295,4294967295]
	; SSE41-NEXT: movdqa {{.*#+}} xmm10 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm10 = [2147483648,2147483648]
	; SSE41-NEXT: pxor %xmm10, %xmm0			; SSE41-NEXT: pxor %xmm10, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm11 = [2147483647,2147483647]			; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483647,2147483647]
	; SSE41-NEXT: movdqa %xmm11, %xmm6			; SSE41-NEXT: movdqa %xmm5, %xmm4
				; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
				; SSE41-NEXT: movdqa %xmm5, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm6			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm6[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm11, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm8			; SSE41-NEXT: movapd %xmm7, %xmm8
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm8			; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm8
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm10, %xmm0			; SSE41-NEXT: pxor %xmm10, %xmm0
	; SSE41-NEXT: movdqa %xmm11, %xmm4			; SSE41-NEXT: movdqa %xmm5, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: movdqa %xmm5, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm11, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm9			; SSE41-NEXT: movapd %xmm7, %xmm9
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm9			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm9
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: pxor %xmm10, %xmm0			; SSE41-NEXT: pxor %xmm10, %xmm0
	; SSE41-NEXT: movdqa %xmm11, %xmm1			; SSE41-NEXT: movdqa %xmm5, %xmm1
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm1			; SSE41-NEXT: pcmpeqd %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm1[0,0,2,2]			; SSE41-NEXT: movdqa %xmm5, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm11, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm1, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm4			; SSE41-NEXT: movapd %xmm7, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm4
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm10, %xmm0			; SSE41-NEXT: pxor %xmm10, %xmm0
	; SSE41-NEXT: movdqa %xmm11, %xmm1			; SSE41-NEXT: movdqa %xmm5, %xmm1
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm1			; SSE41-NEXT: pcmpeqd %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm11, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pand %xmm1, %xmm0
	; SSE41-NEXT: pand %xmm2, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm7			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm7
	; SSE41-NEXT: pxor %xmm2, %xmm2			; SSE41-NEXT: xorpd %xmm2, %xmm2
	; SSE41-NEXT: movapd %xmm7, %xmm0			; SSE41-NEXT: movapd %xmm7, %xmm1
	; SSE41-NEXT: xorpd %xmm10, %xmm0			; SSE41-NEXT: xorpd %xmm10, %xmm1
	; SSE41-NEXT: movapd %xmm0, %xmm1			; SSE41-NEXT: movapd %xmm1, %xmm3
				; SSE41-NEXT: pcmpeqd %xmm10, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm10, %xmm1			; SSE41-NEXT: pcmpgtd %xmm10, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm3, %xmm3			; SSE41-NEXT: pxor %xmm3, %xmm3
	; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm3
	; SSE41-NEXT: movapd %xmm4, %xmm0			; SSE41-NEXT: movapd %xmm4, %xmm1
	; SSE41-NEXT: xorpd %xmm10, %xmm0			; SSE41-NEXT: xorpd %xmm10, %xmm1
	; SSE41-NEXT: movapd %xmm0, %xmm1			; SSE41-NEXT: movapd %xmm1, %xmm5
				; SSE41-NEXT: pcmpeqd %xmm10, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm10, %xmm1			; SSE41-NEXT: pcmpgtd %xmm10, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm1, %xmm1			; SSE41-NEXT: pxor %xmm1, %xmm1
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm1
	; SSE41-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm3[0,2]			; SSE41-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm3[0,2]
	; SSE41-NEXT: movapd %xmm9, %xmm0			; SSE41-NEXT: movapd %xmm9, %xmm3
	; SSE41-NEXT: xorpd %xmm10, %xmm0			; SSE41-NEXT: xorpd %xmm10, %xmm3
	; SSE41-NEXT: movapd %xmm0, %xmm3			; SSE41-NEXT: movapd %xmm3, %xmm4
				; SSE41-NEXT: pcmpeqd %xmm10, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm10, %xmm3			; SSE41-NEXT: pcmpgtd %xmm10, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm3, %xmm3			; SSE41-NEXT: pxor %xmm3, %xmm3
	; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm3
	; SSE41-NEXT: movapd %xmm8, %xmm0			; SSE41-NEXT: movapd %xmm8, %xmm4
	; SSE41-NEXT: xorpd %xmm10, %xmm0			; SSE41-NEXT: xorpd %xmm10, %xmm4
	; SSE41-NEXT: movapd %xmm0, %xmm4			; SSE41-NEXT: movapd %xmm4, %xmm5
				; SSE41-NEXT: pcmpeqd %xmm10, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm10, %xmm4			; SSE41-NEXT: pcmpgtd %xmm10, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm2
	; SSE41-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,2],xmm3[0,2]			; SSE41-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,2],xmm3[0,2]
	; SSE41-NEXT: movaps %xmm2, %xmm0			; SSE41-NEXT: movaps %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_packus_v8i64_v8i32:			; AVX1-LABEL: trunc_packus_v8i64_v8i32:
	▲ Show 20 Lines • Show All 312 Lines • ▼ Show 20 Lines
	;			;
	; SSE41-LABEL: trunc_packus_v8i64_v8i16:			; SSE41-LABEL: trunc_packus_v8i64_v8i16:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm9			; SSE41-NEXT: movdqa %xmm0, %xmm9
	; SSE41-NEXT: movapd {{.*#+}} xmm7 = [65535,65535]			; SSE41-NEXT: movapd {{.*#+}} xmm7 = [65535,65535]
	; SSE41-NEXT: movdqa {{.*#+}} xmm10 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm10 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: pxor %xmm10, %xmm0			; SSE41-NEXT: pxor %xmm10, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [2147549183,2147549183]			; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [2147549183,2147549183]
	; SSE41-NEXT: movdqa %xmm6, %xmm4			; SSE41-NEXT: movdqa %xmm4, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: movdqa %xmm4, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm8			; SSE41-NEXT: movapd %xmm7, %xmm8
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm8			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm8
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm10, %xmm0			; SSE41-NEXT: pxor %xmm10, %xmm0
	; SSE41-NEXT: movdqa %xmm6, %xmm2			; SSE41-NEXT: movdqa %xmm4, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,0,2,2]			; SSE41-NEXT: movdqa %xmm4, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm2			; SSE41-NEXT: movapd %xmm7, %xmm2
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm2
	; SSE41-NEXT: movdqa %xmm9, %xmm0			; SSE41-NEXT: movdqa %xmm9, %xmm0
	; SSE41-NEXT: pxor %xmm10, %xmm0			; SSE41-NEXT: pxor %xmm10, %xmm0
	; SSE41-NEXT: movdqa %xmm6, %xmm3			; SSE41-NEXT: movdqa %xmm4, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm3			; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]			; SSE41-NEXT: movdqa %xmm4, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm4			; SSE41-NEXT: movapd %xmm7, %xmm6
	; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm6
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm10, %xmm0			; SSE41-NEXT: pxor %xmm10, %xmm0
	; SSE41-NEXT: movdqa %xmm6, %xmm3			; SSE41-NEXT: movdqa %xmm4, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm3			; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm3[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm7			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm7
	; SSE41-NEXT: pxor %xmm3, %xmm3			; SSE41-NEXT: pxor %xmm3, %xmm3
	; SSE41-NEXT: movapd %xmm7, %xmm0			; SSE41-NEXT: movapd %xmm7, %xmm1
	; SSE41-NEXT: xorpd %xmm10, %xmm0			; SSE41-NEXT: xorpd %xmm10, %xmm1
	; SSE41-NEXT: movapd %xmm0, %xmm1			; SSE41-NEXT: movapd %xmm1, %xmm4
				; SSE41-NEXT: pcmpeqd %xmm10, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm10, %xmm1			; SSE41-NEXT: pcmpgtd %xmm10, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm5			; SSE41-NEXT: pxor %xmm4, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm5			; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm4
	; SSE41-NEXT: movapd %xmm4, %xmm0			; SSE41-NEXT: movapd %xmm6, %xmm1
	; SSE41-NEXT: xorpd %xmm10, %xmm0			; SSE41-NEXT: xorpd %xmm10, %xmm1
	; SSE41-NEXT: movapd %xmm0, %xmm1			; SSE41-NEXT: movapd %xmm1, %xmm5
				; SSE41-NEXT: pcmpeqd %xmm10, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm10, %xmm1			; SSE41-NEXT: pcmpgtd %xmm10, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm1, %xmm1			; SSE41-NEXT: pxor %xmm1, %xmm1
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm1
	; SSE41-NEXT: packusdw %xmm5, %xmm1			; SSE41-NEXT: packusdw %xmm4, %xmm1
	; SSE41-NEXT: movapd %xmm2, %xmm0			; SSE41-NEXT: movapd %xmm2, %xmm4
	; SSE41-NEXT: xorpd %xmm10, %xmm0			; SSE41-NEXT: xorpd %xmm10, %xmm4
	; SSE41-NEXT: movapd %xmm0, %xmm4			; SSE41-NEXT: movapd %xmm4, %xmm5
				; SSE41-NEXT: pcmpeqd %xmm10, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm10, %xmm4			; SSE41-NEXT: pcmpgtd %xmm10, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: pxor %xmm4, %xmm4			; SSE41-NEXT: pxor %xmm4, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm4
	; SSE41-NEXT: movapd %xmm8, %xmm0			; SSE41-NEXT: movapd %xmm8, %xmm2
	; SSE41-NEXT: xorpd %xmm10, %xmm0			; SSE41-NEXT: xorpd %xmm10, %xmm2
	; SSE41-NEXT: movapd %xmm0, %xmm2			; SSE41-NEXT: movapd %xmm2, %xmm5
				; SSE41-NEXT: pcmpeqd %xmm10, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm10, %xmm2			; SSE41-NEXT: pcmpgtd %xmm10, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm2[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm3
	; SSE41-NEXT: packusdw %xmm4, %xmm3			; SSE41-NEXT: packusdw %xmm4, %xmm3
	; SSE41-NEXT: packusdw %xmm3, %xmm1			; SSE41-NEXT: packusdw %xmm3, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 532 Lines • ▼ Show 20 Lines
	;			;
	; SSE41-LABEL: trunc_packus_v8i64_v8i8:			; SSE41-LABEL: trunc_packus_v8i64_v8i8:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm9			; SSE41-NEXT: movdqa %xmm0, %xmm9
	; SSE41-NEXT: movapd {{.*#+}} xmm7 = [255,255]			; SSE41-NEXT: movapd {{.*#+}} xmm7 = [255,255]
	; SSE41-NEXT: movdqa {{.*#+}} xmm10 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm10 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: pxor %xmm10, %xmm0			; SSE41-NEXT: pxor %xmm10, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [2147483903,2147483903]			; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [2147483903,2147483903]
	; SSE41-NEXT: movdqa %xmm6, %xmm4			; SSE41-NEXT: movdqa %xmm4, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: movdqa %xmm4, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm8			; SSE41-NEXT: movapd %xmm7, %xmm8
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm8			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm8
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm10, %xmm0			; SSE41-NEXT: pxor %xmm10, %xmm0
	; SSE41-NEXT: movdqa %xmm6, %xmm2			; SSE41-NEXT: movdqa %xmm4, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,0,2,2]			; SSE41-NEXT: movdqa %xmm4, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm2			; SSE41-NEXT: movapd %xmm7, %xmm2
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm2
	; SSE41-NEXT: movdqa %xmm9, %xmm0			; SSE41-NEXT: movdqa %xmm9, %xmm0
	; SSE41-NEXT: pxor %xmm10, %xmm0			; SSE41-NEXT: pxor %xmm10, %xmm0
	; SSE41-NEXT: movdqa %xmm6, %xmm3			; SSE41-NEXT: movdqa %xmm4, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm3			; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]			; SSE41-NEXT: movdqa %xmm4, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm4			; SSE41-NEXT: movapd %xmm7, %xmm6
	; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm6
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm10, %xmm0			; SSE41-NEXT: pxor %xmm10, %xmm0
	; SSE41-NEXT: movdqa %xmm6, %xmm3			; SSE41-NEXT: movdqa %xmm4, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm3			; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm3[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm7			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm7
	; SSE41-NEXT: pxor %xmm3, %xmm3			; SSE41-NEXT: pxor %xmm3, %xmm3
	; SSE41-NEXT: movapd %xmm7, %xmm0			; SSE41-NEXT: movapd %xmm7, %xmm1
	; SSE41-NEXT: xorpd %xmm10, %xmm0			; SSE41-NEXT: xorpd %xmm10, %xmm1
	; SSE41-NEXT: movapd %xmm0, %xmm1			; SSE41-NEXT: movapd %xmm1, %xmm4
				; SSE41-NEXT: pcmpeqd %xmm10, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm10, %xmm1			; SSE41-NEXT: pcmpgtd %xmm10, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm5			; SSE41-NEXT: pxor %xmm4, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm5			; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm4
	; SSE41-NEXT: movapd %xmm4, %xmm0			; SSE41-NEXT: movapd %xmm6, %xmm1
	; SSE41-NEXT: xorpd %xmm10, %xmm0			; SSE41-NEXT: xorpd %xmm10, %xmm1
	; SSE41-NEXT: movapd %xmm0, %xmm1			; SSE41-NEXT: movapd %xmm1, %xmm5
				; SSE41-NEXT: pcmpeqd %xmm10, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm10, %xmm1			; SSE41-NEXT: pcmpgtd %xmm10, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm1, %xmm1			; SSE41-NEXT: pxor %xmm1, %xmm1
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm1
	; SSE41-NEXT: packusdw %xmm5, %xmm1			; SSE41-NEXT: packusdw %xmm4, %xmm1
	; SSE41-NEXT: movapd %xmm2, %xmm0			; SSE41-NEXT: movapd %xmm2, %xmm4
	; SSE41-NEXT: xorpd %xmm10, %xmm0			; SSE41-NEXT: xorpd %xmm10, %xmm4
	; SSE41-NEXT: movapd %xmm0, %xmm4			; SSE41-NEXT: movapd %xmm4, %xmm5
				; SSE41-NEXT: pcmpeqd %xmm10, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm10, %xmm4			; SSE41-NEXT: pcmpgtd %xmm10, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: pxor %xmm4, %xmm4			; SSE41-NEXT: pxor %xmm4, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm4
	; SSE41-NEXT: movapd %xmm8, %xmm0			; SSE41-NEXT: movapd %xmm8, %xmm2
	; SSE41-NEXT: xorpd %xmm10, %xmm0			; SSE41-NEXT: xorpd %xmm10, %xmm2
	; SSE41-NEXT: movapd %xmm0, %xmm2			; SSE41-NEXT: movapd %xmm2, %xmm5
				; SSE41-NEXT: pcmpeqd %xmm10, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm10, %xmm2			; SSE41-NEXT: pcmpgtd %xmm10, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm2[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm3
	; SSE41-NEXT: packusdw %xmm4, %xmm3			; SSE41-NEXT: packusdw %xmm4, %xmm3
	; SSE41-NEXT: packusdw %xmm3, %xmm1			; SSE41-NEXT: packusdw %xmm3, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 292 Lines • ▼ Show 20 Lines
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm9			; SSE41-NEXT: movdqa %xmm0, %xmm9
	; SSE41-NEXT: movapd {{.*#+}} xmm8 = [255,255]			; SSE41-NEXT: movapd {{.*#+}} xmm8 = [255,255]
	; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm6, %xmm0			; SSE41-NEXT: pxor %xmm6, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483903,2147483903]			; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483903,2147483903]
	; SSE41-NEXT: movdqa %xmm5, %xmm4			; SSE41-NEXT: movdqa %xmm5, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm4[0,0,2,2]			; SSE41-NEXT: movdqa %xmm5, %xmm7
	; SSE41-NEXT: pcmpeqd %xmm5, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm7[0,0,2,2]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm7, %xmm0
	; SSE41-NEXT: movapd %xmm8, %xmm10			; SSE41-NEXT: movapd %xmm8, %xmm10
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm10			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm10
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: pxor %xmm6, %xmm0			; SSE41-NEXT: pxor %xmm6, %xmm0
	; SSE41-NEXT: movdqa %xmm5, %xmm3			; SSE41-NEXT: movdqa %xmm5, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm3			; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]			; SSE41-NEXT: movdqa %xmm5, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm5, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: movapd %xmm8, %xmm3			; SSE41-NEXT: movapd %xmm8, %xmm3
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm6, %xmm0			; SSE41-NEXT: pxor %xmm6, %xmm0
	; SSE41-NEXT: movdqa %xmm5, %xmm2			; SSE41-NEXT: movdqa %xmm5, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,0,2,2]			; SSE41-NEXT: movdqa %xmm5, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm5, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: movapd %xmm8, %xmm4			; SSE41-NEXT: movapd %xmm8, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm4
	; SSE41-NEXT: movdqa %xmm9, %xmm0			; SSE41-NEXT: movdqa %xmm9, %xmm0
	; SSE41-NEXT: pxor %xmm6, %xmm0			; SSE41-NEXT: pxor %xmm6, %xmm0
	; SSE41-NEXT: movdqa %xmm5, %xmm1			; SSE41-NEXT: movdqa %xmm5, %xmm1
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm1			; SSE41-NEXT: pcmpeqd %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm5, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pand %xmm1, %xmm0
	; SSE41-NEXT: pand %xmm2, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: movapd %xmm8, %xmm5			; SSE41-NEXT: movapd %xmm8, %xmm5
	; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm5			; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm5
	; SSE41-NEXT: movapd %xmm5, %xmm0			; SSE41-NEXT: movapd %xmm5, %xmm1
	; SSE41-NEXT: xorpd %xmm6, %xmm0			; SSE41-NEXT: xorpd %xmm6, %xmm1
	; SSE41-NEXT: movapd %xmm0, %xmm1			; SSE41-NEXT: movapd %xmm1, %xmm2
				; SSE41-NEXT: pcmpeqd %xmm6, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm6, %xmm1			; SSE41-NEXT: pcmpgtd %xmm6, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm2, %xmm0			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm2, %xmm2			; SSE41-NEXT: pxor %xmm2, %xmm2
	; SSE41-NEXT: pxor %xmm1, %xmm1			; SSE41-NEXT: pxor %xmm1, %xmm1
	; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm1
	; SSE41-NEXT: movapd %xmm4, %xmm0			; SSE41-NEXT: movapd %xmm4, %xmm5
	; SSE41-NEXT: xorpd %xmm6, %xmm0			; SSE41-NEXT: xorpd %xmm6, %xmm5
	; SSE41-NEXT: movapd %xmm0, %xmm5			; SSE41-NEXT: movapd %xmm5, %xmm7
				; SSE41-NEXT: pcmpeqd %xmm6, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm6, %xmm5			; SSE41-NEXT: pcmpgtd %xmm6, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm5[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: por %xmm5, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm5			; SSE41-NEXT: pxor %xmm5, %xmm5
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm5			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm5
	; SSE41-NEXT: movapd %xmm3, %xmm0			; SSE41-NEXT: movapd %xmm3, %xmm4
	; SSE41-NEXT: xorpd %xmm6, %xmm0			; SSE41-NEXT: xorpd %xmm6, %xmm4
	; SSE41-NEXT: movapd %xmm0, %xmm4			; SSE41-NEXT: movapd %xmm4, %xmm7
				; SSE41-NEXT: pcmpeqd %xmm6, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm6, %xmm4			; SSE41-NEXT: pcmpgtd %xmm6, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm4[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: pxor %xmm4, %xmm4			; SSE41-NEXT: pxor %xmm4, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm4
	; SSE41-NEXT: movapd %xmm10, %xmm0			; SSE41-NEXT: movapd %xmm10, %xmm3
	; SSE41-NEXT: xorpd %xmm6, %xmm0			; SSE41-NEXT: xorpd %xmm6, %xmm3
	; SSE41-NEXT: movapd %xmm0, %xmm3			; SSE41-NEXT: movapd %xmm3, %xmm7
				; SSE41-NEXT: pcmpeqd %xmm6, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm6, %xmm3			; SSE41-NEXT: pcmpgtd %xmm6, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm3[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm10, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm10, %xmm2
	; SSE41-NEXT: andpd %xmm8, %xmm2			; SSE41-NEXT: andpd %xmm8, %xmm2
	; SSE41-NEXT: andpd %xmm8, %xmm4			; SSE41-NEXT: andpd %xmm8, %xmm4
	; SSE41-NEXT: packusdw %xmm2, %xmm4			; SSE41-NEXT: packusdw %xmm2, %xmm4
	; SSE41-NEXT: andpd %xmm8, %xmm5			; SSE41-NEXT: andpd %xmm8, %xmm5
	; SSE41-NEXT: andpd %xmm8, %xmm1			; SSE41-NEXT: andpd %xmm8, %xmm1
	Show All 40 Lines
	; AVX1-NEXT: vpackuswb %xmm0, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm0, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, (%rdi)			; AVX1-NEXT: vmovq %xmm0, (%rdi)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_packus_v8i64_v8i8_store:			; AVX2-LABEL: trunc_packus_v8i64_v8i8_store:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [255,255,255,255]			; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [255,255,255,255]
	; AVX2-NEXT: vpcmpgtq %ymm1, %ymm2, %ymm3
	; AVX2-NEXT: vblendvpd %ymm3, %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpcmpgtq %ymm0, %ymm2, %ymm3			; AVX2-NEXT: vpcmpgtq %ymm0, %ymm2, %ymm3
	; AVX2-NEXT: vblendvpd %ymm3, %ymm0, %ymm2, %ymm0			; AVX2-NEXT: vblendvpd %ymm3, %ymm0, %ymm2, %ymm0
				; AVX2-NEXT: vpcmpgtq %ymm1, %ymm2, %ymm3
				; AVX2-NEXT: vblendvpd %ymm3, %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2			; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
	; AVX2-NEXT: vpcmpgtq %ymm2, %ymm0, %ymm3			; AVX2-NEXT: vpcmpgtq %ymm2, %ymm1, %ymm3
	; AVX2-NEXT: vpand %ymm0, %ymm3, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm3, %ymm1
	; AVX2-NEXT: vpcmpgtq %ymm2, %ymm1, %ymm2			; AVX2-NEXT: vpcmpgtq %ymm2, %ymm0, %ymm2
	; AVX2-NEXT: vpand %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vpand %ymm0, %ymm2, %ymm0
				; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm2
				; AVX2-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2			; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm2
	; AVX2-NEXT: vpackusdw %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vpackusdw %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
	; AVX2-NEXT: vpshufb %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm3
	; AVX2-NEXT: vpackusdw %xmm3, %xmm0, %xmm0
	; AVX2-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX2-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; AVX2-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]
	; AVX2-NEXT: vmovq %xmm0, (%rdi)			; AVX2-NEXT: vmovq %xmm0, (%rdi)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_packus_v8i64_v8i8_store:			; AVX512-LABEL: trunc_packus_v8i64_v8i8_store:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpxor %xmm1, %xmm1, %xmm1			; AVX512-NEXT: vpxor %xmm1, %xmm1, %xmm1
	; AVX512-NEXT: vpmaxsq %zmm1, %zmm0, %zmm0			; AVX512-NEXT: vpmaxsq %zmm1, %zmm0, %zmm0
	▲ Show 20 Lines • Show All 426 Lines • ▼ Show 20 Lines
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm8			; SSE41-NEXT: movdqa %xmm0, %xmm8
	; SSE41-NEXT: movapd {{.*#+}} xmm11 = [255,255]			; SSE41-NEXT: movapd {{.*#+}} xmm11 = [255,255]
	; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm6, %xmm0			; SSE41-NEXT: movdqa %xmm6, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm12 = [2147483903,2147483903]			; SSE41-NEXT: movdqa {{.*#+}} xmm12 = [2147483903,2147483903]
	; SSE41-NEXT: movdqa %xmm12, %xmm10			; SSE41-NEXT: movdqa %xmm12, %xmm10
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm10			; SSE41-NEXT: pcmpeqd %xmm0, %xmm10
	; SSE41-NEXT: pshufd {{.*#+}} xmm13 = xmm10[0,0,2,2]			; SSE41-NEXT: movdqa %xmm12, %xmm13
	; SSE41-NEXT: pcmpeqd %xmm12, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm13
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm13[0,0,2,2]
	; SSE41-NEXT: pand %xmm13, %xmm0			; SSE41-NEXT: pand %xmm10, %xmm0
	; SSE41-NEXT: por %xmm10, %xmm0			; SSE41-NEXT: por %xmm13, %xmm0
	; SSE41-NEXT: movapd %xmm11, %xmm10			; SSE41-NEXT: movapd %xmm11, %xmm10
	; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm10			; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm10
	; SSE41-NEXT: movdqa %xmm7, %xmm0			; SSE41-NEXT: movdqa %xmm7, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
				; SSE41-NEXT: movdqa %xmm12, %xmm13
				; SSE41-NEXT: pcmpeqd %xmm0, %xmm13
	; SSE41-NEXT: movdqa %xmm12, %xmm6			; SSE41-NEXT: movdqa %xmm12, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm6			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm13 = xmm6[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm12, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm13, %xmm0			; SSE41-NEXT: pand %xmm13, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm11, %xmm13			; SSE41-NEXT: movapd %xmm11, %xmm13
	; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm13			; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm13
	; SSE41-NEXT: movdqa %xmm4, %xmm0			; SSE41-NEXT: movdqa %xmm4, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm12, %xmm6			; SSE41-NEXT: movdqa %xmm12, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm6			; SSE41-NEXT: pcmpeqd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm6[0,0,2,2]			; SSE41-NEXT: movdqa %xmm12, %xmm7
	; SSE41-NEXT: pcmpeqd %xmm12, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm7[0,0,2,2]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0			; SSE41-NEXT: por %xmm7, %xmm0
	; SSE41-NEXT: movapd %xmm11, %xmm14			; SSE41-NEXT: movapd %xmm11, %xmm14
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm14			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm14
	; SSE41-NEXT: movdqa %xmm5, %xmm0			; SSE41-NEXT: movdqa %xmm5, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm12, %xmm4			; SSE41-NEXT: movdqa %xmm12, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE41-NEXT: movdqa %xmm12, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm12, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm11, %xmm15			; SSE41-NEXT: movapd %xmm11, %xmm15
	; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm15			; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm15
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm12, %xmm5			; SSE41-NEXT: movdqa %xmm12, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm5			; SSE41-NEXT: pcmpeqd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]			; SSE41-NEXT: movdqa %xmm12, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm12, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm5, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm11, %xmm5			; SSE41-NEXT: movapd %xmm11, %xmm5
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm5			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm5
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm12, %xmm2			; SSE41-NEXT: movdqa %xmm12, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm2[0,0,2,2]			; SSE41-NEXT: movdqa %xmm12, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm12, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm11, %xmm6			; SSE41-NEXT: movapd %xmm11, %xmm6
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm6			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm6
	; SSE41-NEXT: movdqa %xmm8, %xmm0			; SSE41-NEXT: movdqa %xmm8, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm12, %xmm2			; SSE41-NEXT: movdqa %xmm12, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: movdqa %xmm12, %xmm3
	; SSE41-NEXT: pcmpeqd %xmm12, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: movapd %xmm11, %xmm3			; SSE41-NEXT: movapd %xmm11, %xmm3
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm3
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm12, %xmm2			; SSE41-NEXT: movdqa %xmm12, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm12
	; SSE41-NEXT: pcmpeqd %xmm12, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm12[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: por %xmm12, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm11			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm11
	; SSE41-NEXT: pxor %xmm2, %xmm2			; SSE41-NEXT: pxor %xmm2, %xmm2
	; SSE41-NEXT: movapd %xmm11, %xmm0			; SSE41-NEXT: movapd %xmm11, %xmm1
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm1
	; SSE41-NEXT: movapd %xmm0, %xmm1			; SSE41-NEXT: movapd %xmm1, %xmm7
				; SSE41-NEXT: pcmpeqd %xmm9, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm9, %xmm1			; SSE41-NEXT: pcmpgtd %xmm9, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm7, %xmm7			; SSE41-NEXT: pxor %xmm7, %xmm7
	; SSE41-NEXT: blendvpd %xmm0, %xmm11, %xmm7			; SSE41-NEXT: blendvpd %xmm0, %xmm11, %xmm7
	; SSE41-NEXT: movapd %xmm3, %xmm0			; SSE41-NEXT: movapd %xmm3, %xmm1
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm1
	; SSE41-NEXT: movapd %xmm0, %xmm1			; SSE41-NEXT: movapd %xmm1, %xmm4
				; SSE41-NEXT: pcmpeqd %xmm9, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm9, %xmm1			; SSE41-NEXT: pcmpgtd %xmm9, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm1, %xmm1			; SSE41-NEXT: pxor %xmm1, %xmm1
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1
	; SSE41-NEXT: packusdw %xmm7, %xmm1			; SSE41-NEXT: packusdw %xmm7, %xmm1
	; SSE41-NEXT: movapd %xmm6, %xmm0			; SSE41-NEXT: movapd %xmm6, %xmm3
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm3
	; SSE41-NEXT: movapd %xmm0, %xmm3			; SSE41-NEXT: movapd %xmm3, %xmm4
				; SSE41-NEXT: pcmpeqd %xmm9, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm9, %xmm3			; SSE41-NEXT: pcmpgtd %xmm9, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm3, %xmm3			; SSE41-NEXT: pxor %xmm3, %xmm3
	; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm3
	; SSE41-NEXT: movapd %xmm5, %xmm0			; SSE41-NEXT: movapd %xmm5, %xmm4
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm4
	; SSE41-NEXT: movapd %xmm0, %xmm4			; SSE41-NEXT: movapd %xmm4, %xmm6
				; SSE41-NEXT: pcmpeqd %xmm9, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm9, %xmm4			; SSE41-NEXT: pcmpgtd %xmm9, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: pxor %xmm4, %xmm4			; SSE41-NEXT: pxor %xmm4, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm4
	; SSE41-NEXT: packusdw %xmm3, %xmm4			; SSE41-NEXT: packusdw %xmm3, %xmm4
	; SSE41-NEXT: packusdw %xmm4, %xmm1			; SSE41-NEXT: packusdw %xmm4, %xmm1
	; SSE41-NEXT: movapd %xmm15, %xmm0			; SSE41-NEXT: movapd %xmm15, %xmm3
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm3
	; SSE41-NEXT: movapd %xmm0, %xmm3			; SSE41-NEXT: movapd %xmm3, %xmm4
				; SSE41-NEXT: pcmpeqd %xmm9, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm9, %xmm3			; SSE41-NEXT: pcmpgtd %xmm9, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm4, %xmm4			; SSE41-NEXT: pxor %xmm4, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm15, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm15, %xmm4
	; SSE41-NEXT: movapd %xmm14, %xmm0			; SSE41-NEXT: movapd %xmm14, %xmm3
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm3
	; SSE41-NEXT: movapd %xmm0, %xmm3			; SSE41-NEXT: movapd %xmm3, %xmm5
				; SSE41-NEXT: pcmpeqd %xmm9, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm9, %xmm3			; SSE41-NEXT: pcmpgtd %xmm9, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm3[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm3, %xmm3			; SSE41-NEXT: pxor %xmm3, %xmm3
	; SSE41-NEXT: blendvpd %xmm0, %xmm14, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm14, %xmm3
	; SSE41-NEXT: packusdw %xmm4, %xmm3			; SSE41-NEXT: packusdw %xmm4, %xmm3
	; SSE41-NEXT: movapd %xmm13, %xmm0			; SSE41-NEXT: movapd %xmm13, %xmm4
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm4
	; SSE41-NEXT: movapd %xmm0, %xmm4			; SSE41-NEXT: movapd %xmm4, %xmm5
				; SSE41-NEXT: pcmpeqd %xmm9, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm9, %xmm4			; SSE41-NEXT: pcmpgtd %xmm9, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: pxor %xmm4, %xmm4			; SSE41-NEXT: pxor %xmm4, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm13, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm13, %xmm4
	; SSE41-NEXT: movapd %xmm10, %xmm0			; SSE41-NEXT: movapd %xmm10, %xmm5
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm5
	; SSE41-NEXT: movapd %xmm0, %xmm5			; SSE41-NEXT: movapd %xmm5, %xmm6
				; SSE41-NEXT: pcmpeqd %xmm9, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm9, %xmm5			; SSE41-NEXT: pcmpgtd %xmm9, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm5, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm10, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm10, %xmm2
	; SSE41-NEXT: packusdw %xmm4, %xmm2			; SSE41-NEXT: packusdw %xmm4, %xmm2
	; SSE41-NEXT: packusdw %xmm2, %xmm3			; SSE41-NEXT: packusdw %xmm2, %xmm3
	; SSE41-NEXT: packuswb %xmm3, %xmm1			; SSE41-NEXT: packuswb %xmm3, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	▲ Show 20 Lines • Show All 492 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-trunc-ssat-widen.ll

	Show First 20 Lines • Show All 139 Lines • ▼ Show 20 Lines
	; SSE41-LABEL: trunc_ssat_v4i64_v4i32:			; SSE41-LABEL: trunc_ssat_v4i64_v4i32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: movapd {{.*#+}} xmm4 = [2147483647,2147483647]			; SSE41-NEXT: movapd {{.*#+}} xmm4 = [2147483647,2147483647]
	; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [2147483648,2147483648]
	; SSE41-NEXT: pxor %xmm3, %xmm0			; SSE41-NEXT: pxor %xmm3, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [4294967295,4294967295]			; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [4294967295,4294967295]
	; SSE41-NEXT: movdqa %xmm6, %xmm5			; SSE41-NEXT: movdqa %xmm6, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm5			; SSE41-NEXT: pcmpeqd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm5[0,0,2,2]			; SSE41-NEXT: movdqa %xmm6, %xmm7
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm7[0,0,2,2]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm5, %xmm0			; SSE41-NEXT: por %xmm7, %xmm0
	; SSE41-NEXT: movapd %xmm4, %xmm5			; SSE41-NEXT: movapd %xmm4, %xmm5
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm5			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm5
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm3, %xmm0			; SSE41-NEXT: pxor %xmm3, %xmm0
	; SSE41-NEXT: movdqa %xmm6, %xmm2			; SSE41-NEXT: movdqa %xmm6, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm4
	; SSE41-NEXT: movapd {{.*#+}} xmm1 = [18446744071562067968,18446744071562067968]			; SSE41-NEXT: movapd {{.*#+}} xmm1 = [18446744071562067968,18446744071562067968]
	; SSE41-NEXT: movapd %xmm4, %xmm0			; SSE41-NEXT: movapd %xmm4, %xmm2
	; SSE41-NEXT: xorpd %xmm3, %xmm0			; SSE41-NEXT: xorpd %xmm3, %xmm2
	; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [18446744069414584320,18446744069414584320]			; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [18446744069414584320,18446744069414584320]
	; SSE41-NEXT: movapd %xmm0, %xmm6			; SSE41-NEXT: movapd %xmm2, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm2, %xmm6			; SSE41-NEXT: pcmpeqd %xmm6, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm6[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm6, %xmm2
	; SSE41-NEXT: pcmpeqd %xmm2, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0			; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: movapd %xmm1, %xmm6			; SSE41-NEXT: movapd %xmm1, %xmm2
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm6			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2
	; SSE41-NEXT: xorpd %xmm5, %xmm3			; SSE41-NEXT: xorpd %xmm5, %xmm3
	; SSE41-NEXT: movapd %xmm3, %xmm4			; SSE41-NEXT: movapd %xmm3, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm2, %xmm4			; SSE41-NEXT: pcmpeqd %xmm6, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm4[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm6, %xmm3
	; SSE41-NEXT: pcmpeqd %xmm2, %xmm3			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,3,3]			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm1
	; SSE41-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm6[0,2]			; SSE41-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_ssat_v4i64_v4i32:			; AVX1-LABEL: trunc_ssat_v4i64_v4i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovapd {{.*#+}} ymm1 = [2147483647,2147483647,2147483647,2147483647]			; AVX1-NEXT: vmovapd {{.*#+}} ymm1 = [2147483647,2147483647,2147483647,2147483647]
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [2147483647,2147483647]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [2147483647,2147483647]
	▲ Show 20 Lines • Show All 311 Lines • ▼ Show 20 Lines
	; SSSE3-NEXT: pand %xmm0, %xmm5			; SSSE3-NEXT: pand %xmm0, %xmm5
	; SSSE3-NEXT: pandn %xmm8, %xmm0			; SSSE3-NEXT: pandn %xmm8, %xmm0
	; SSSE3-NEXT: por %xmm5, %xmm0			; SSSE3-NEXT: por %xmm5, %xmm0
	; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm3[0,2]			; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm3[0,2]
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: trunc_ssat_v8i64_v8i32:			; SSE41-LABEL: trunc_ssat_v8i64_v8i32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: movdqa %xmm0, %xmm9
	; SSE41-NEXT: movapd {{.*#+}} xmm7 = [2147483647,2147483647]			; SSE41-NEXT: movapd {{.*#+}} xmm10 = [2147483647,2147483647]
	; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648]
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm10 = [4294967295,4294967295]			; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [4294967295,4294967295]
	; SSE41-NEXT: movdqa %xmm10, %xmm6			; SSE41-NEXT: movdqa %xmm4, %xmm7
				; SSE41-NEXT: pcmpeqd %xmm0, %xmm7
				; SSE41-NEXT: movdqa %xmm4, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm6			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm8 = xmm6[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm8, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm8			; SSE41-NEXT: movapd %xmm10, %xmm8
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm8			; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm8
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm10, %xmm4			; SSE41-NEXT: movdqa %xmm4, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE41-NEXT: movdqa %xmm4, %xmm7
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm7[0,0,2,2]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm7, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm9			; SSE41-NEXT: movapd %xmm10, %xmm9
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm9			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm9
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm10, %xmm1			; SSE41-NEXT: movdqa %xmm4, %xmm1
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm1			; SSE41-NEXT: pcmpeqd %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm1[0,0,2,2]			; SSE41-NEXT: movdqa %xmm4, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm1, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm4			; SSE41-NEXT: movapd %xmm10, %xmm6
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm6
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm10, %xmm1			; SSE41-NEXT: movdqa %xmm4, %xmm1
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm1			; SSE41-NEXT: pcmpeqd %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pand %xmm1, %xmm0
	; SSE41-NEXT: pand %xmm2, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm10
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm7
	; SSE41-NEXT: movapd {{.*#+}} xmm2 = [18446744071562067968,18446744071562067968]			; SSE41-NEXT: movapd {{.*#+}} xmm2 = [18446744071562067968,18446744071562067968]
	; SSE41-NEXT: movapd %xmm7, %xmm0			; SSE41-NEXT: movapd %xmm10, %xmm1
	; SSE41-NEXT: xorpd %xmm5, %xmm0			; SSE41-NEXT: xorpd %xmm5, %xmm1
	; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [18446744069414584320,18446744069414584320]			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [18446744069414584320,18446744069414584320]
	; SSE41-NEXT: movapd %xmm0, %xmm1			; SSE41-NEXT: movapd %xmm1, %xmm4
				; SSE41-NEXT: pcmpeqd %xmm3, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm1			; SSE41-NEXT: pcmpgtd %xmm3, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm3, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: movapd %xmm2, %xmm6			; SSE41-NEXT: movapd %xmm2, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm6			; SSE41-NEXT: blendvpd %xmm0, %xmm10, %xmm4
	; SSE41-NEXT: movapd %xmm4, %xmm0			; SSE41-NEXT: movapd %xmm6, %xmm1
	; SSE41-NEXT: xorpd %xmm5, %xmm0			; SSE41-NEXT: xorpd %xmm5, %xmm1
	; SSE41-NEXT: movapd %xmm0, %xmm1			; SSE41-NEXT: movapd %xmm1, %xmm7
				; SSE41-NEXT: pcmpeqd %xmm3, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm1			; SSE41-NEXT: pcmpgtd %xmm3, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm3, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: movapd %xmm2, %xmm1			; SSE41-NEXT: movapd %xmm2, %xmm1
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm1
	; SSE41-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm6[0,2]			; SSE41-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm4[0,2]
	; SSE41-NEXT: movapd %xmm9, %xmm0			; SSE41-NEXT: movapd %xmm9, %xmm4
	; SSE41-NEXT: xorpd %xmm5, %xmm0			; SSE41-NEXT: xorpd %xmm5, %xmm4
	; SSE41-NEXT: movapd %xmm0, %xmm4			; SSE41-NEXT: movapd %xmm4, %xmm6
				; SSE41-NEXT: pcmpeqd %xmm3, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm4			; SSE41-NEXT: pcmpgtd %xmm3, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm3, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: movapd %xmm2, %xmm4			; SSE41-NEXT: movapd %xmm2, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm4
	; SSE41-NEXT: xorpd %xmm8, %xmm5			; SSE41-NEXT: xorpd %xmm8, %xmm5
	; SSE41-NEXT: movapd %xmm5, %xmm6			; SSE41-NEXT: movapd %xmm5, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm6			; SSE41-NEXT: pcmpeqd %xmm3, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm6[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm3, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm3, %xmm5			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[1,1,3,3]			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm2
	; SSE41-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[0,2]			; SSE41-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[0,2]
	; SSE41-NEXT: movaps %xmm2, %xmm0			; SSE41-NEXT: movaps %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_ssat_v8i64_v8i32:			; AVX1-LABEL: trunc_ssat_v8i64_v8i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovapd {{.*#+}} ymm2 = [2147483647,2147483647,2147483647,2147483647]			; AVX1-NEXT: vmovapd {{.*#+}} ymm2 = [2147483647,2147483647,2147483647,2147483647]
	▲ Show 20 Lines • Show All 309 Lines • ▼ Show 20 Lines
	; SSSE3-NEXT: por %xmm5, %xmm1			; SSSE3-NEXT: por %xmm5, %xmm1
	; SSSE3-NEXT: packssdw %xmm3, %xmm1			; SSSE3-NEXT: packssdw %xmm3, %xmm1
	; SSSE3-NEXT: packssdw %xmm1, %xmm0			; SSSE3-NEXT: packssdw %xmm1, %xmm0
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: trunc_ssat_v8i64_v8i16:			; SSE41-LABEL: trunc_ssat_v8i64_v8i16:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm10			; SSE41-NEXT: movdqa %xmm0, %xmm10
	; SSE41-NEXT: movapd {{.*#+}} xmm7 = [32767,32767]			; SSE41-NEXT: movapd {{.*#+}} xmm11 = [32767,32767]
	; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm11 = [2147516415,2147516415]			; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [2147516415,2147516415]
	; SSE41-NEXT: movdqa %xmm11, %xmm6			; SSE41-NEXT: movdqa %xmm4, %xmm7
				; SSE41-NEXT: pcmpeqd %xmm0, %xmm7
				; SSE41-NEXT: movdqa %xmm4, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm6			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm6[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm11, %xmm0			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm8			; SSE41-NEXT: movapd %xmm11, %xmm8
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm8			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm8
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm11, %xmm2			; SSE41-NEXT: movdqa %xmm4, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,0,2,2]			; SSE41-NEXT: movdqa %xmm4, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm11, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm9			; SSE41-NEXT: movapd %xmm11, %xmm9
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm9			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm9
	; SSE41-NEXT: movdqa %xmm10, %xmm0			; SSE41-NEXT: movdqa %xmm10, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm11, %xmm2			; SSE41-NEXT: movdqa %xmm4, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: movdqa %xmm4, %xmm3
	; SSE41-NEXT: pcmpeqd %xmm11, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm2			; SSE41-NEXT: movapd %xmm11, %xmm2
	; SSE41-NEXT: blendvpd %xmm0, %xmm10, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm10, %xmm2
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm11, %xmm3			; SSE41-NEXT: movdqa %xmm4, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm3			; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm11, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm11
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm7
	; SSE41-NEXT: movapd {{.*#+}} xmm3 = [18446744073709518848,18446744073709518848]			; SSE41-NEXT: movapd {{.*#+}} xmm3 = [18446744073709518848,18446744073709518848]
	; SSE41-NEXT: movapd %xmm7, %xmm0			; SSE41-NEXT: movapd %xmm11, %xmm1
	; SSE41-NEXT: xorpd %xmm5, %xmm0			; SSE41-NEXT: xorpd %xmm5, %xmm1
	; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [18446744071562035200,18446744071562035200]			; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [18446744071562035200,18446744071562035200]
	; SSE41-NEXT: movapd %xmm0, %xmm1			; SSE41-NEXT: movapd %xmm1, %xmm6
				; SSE41-NEXT: pcmpeqd %xmm4, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm4, %xmm1			; SSE41-NEXT: pcmpgtd %xmm4, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm4, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: movapd %xmm3, %xmm6			; SSE41-NEXT: movapd %xmm3, %xmm6
	; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm6			; SSE41-NEXT: blendvpd %xmm0, %xmm11, %xmm6
	; SSE41-NEXT: movapd %xmm2, %xmm0			; SSE41-NEXT: movapd %xmm2, %xmm1
	; SSE41-NEXT: xorpd %xmm5, %xmm0			; SSE41-NEXT: xorpd %xmm5, %xmm1
	; SSE41-NEXT: movapd %xmm0, %xmm1			; SSE41-NEXT: movapd %xmm1, %xmm7
				; SSE41-NEXT: pcmpeqd %xmm4, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm4, %xmm1			; SSE41-NEXT: pcmpgtd %xmm4, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm4, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: movapd %xmm3, %xmm1			; SSE41-NEXT: movapd %xmm3, %xmm1
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1
	; SSE41-NEXT: packssdw %xmm6, %xmm1			; SSE41-NEXT: packssdw %xmm6, %xmm1
	; SSE41-NEXT: movapd %xmm9, %xmm0			; SSE41-NEXT: movapd %xmm9, %xmm2
	; SSE41-NEXT: xorpd %xmm5, %xmm0			; SSE41-NEXT: xorpd %xmm5, %xmm2
	; SSE41-NEXT: movapd %xmm0, %xmm2			; SSE41-NEXT: movapd %xmm2, %xmm6
				; SSE41-NEXT: pcmpeqd %xmm4, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm4, %xmm2			; SSE41-NEXT: pcmpgtd %xmm4, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm2[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm4, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: movapd %xmm3, %xmm2			; SSE41-NEXT: movapd %xmm3, %xmm2
	; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm2
	; SSE41-NEXT: xorpd %xmm8, %xmm5			; SSE41-NEXT: xorpd %xmm8, %xmm5
	; SSE41-NEXT: movapd %xmm5, %xmm6			; SSE41-NEXT: movapd %xmm5, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm4, %xmm6			; SSE41-NEXT: pcmpeqd %xmm4, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm6[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm4, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm4, %xmm5			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[1,1,3,3]			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm3
	; SSE41-NEXT: packssdw %xmm2, %xmm3			; SSE41-NEXT: packssdw %xmm2, %xmm3
	; SSE41-NEXT: packssdw %xmm3, %xmm1			; SSE41-NEXT: packssdw %xmm3, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_ssat_v8i64_v8i16:			; AVX1-LABEL: trunc_ssat_v8i64_v8i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	▲ Show 20 Lines • Show All 402 Lines • ▼ Show 20 Lines
	; SSSE3-NEXT: packuswb %xmm7, %xmm0			; SSSE3-NEXT: packuswb %xmm7, %xmm0
	; SSSE3-NEXT: packuswb %xmm2, %xmm0			; SSSE3-NEXT: packuswb %xmm2, %xmm0
	; SSSE3-NEXT: packuswb %xmm0, %xmm0			; SSSE3-NEXT: packuswb %xmm0, %xmm0
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: trunc_ssat_v8i64_v8i8:			; SSE41-LABEL: trunc_ssat_v8i64_v8i8:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm8			; SSE41-NEXT: movdqa %xmm0, %xmm8
	; SSE41-NEXT: movapd {{.*#+}} xmm7 = [127,127]			; SSE41-NEXT: movapd {{.*#+}} xmm11 = [127,127]
	; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm10 = [2147483775,2147483775]			; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [2147483775,2147483775]
	; SSE41-NEXT: movdqa %xmm10, %xmm6			; SSE41-NEXT: movdqa %xmm6, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm6			; SSE41-NEXT: pcmpeqd %xmm0, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm6[0,0,2,2]			; SSE41-NEXT: movdqa %xmm6, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm9			; SSE41-NEXT: movapd %xmm11, %xmm9
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm9			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm9
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm10, %xmm3			; SSE41-NEXT: movdqa %xmm6, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm3			; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]			; SSE41-NEXT: movdqa %xmm6, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm11			; SSE41-NEXT: movapd %xmm11, %xmm10
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm11			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm10
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm10, %xmm2			; SSE41-NEXT: movdqa %xmm6, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,0,2,2]			; SSE41-NEXT: movdqa %xmm6, %xmm3
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm6			; SSE41-NEXT: movapd %xmm11, %xmm3
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm6			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3
	; SSE41-NEXT: movdqa %xmm8, %xmm0			; SSE41-NEXT: movdqa %xmm8, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm10, %xmm1			; SSE41-NEXT: movdqa %xmm6, %xmm1
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm1			; SSE41-NEXT: pcmpeqd %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pand %xmm1, %xmm0
	; SSE41-NEXT: pand %xmm2, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm11
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm7
	; SSE41-NEXT: movapd {{.*#+}} xmm2 = [18446744073709551488,18446744073709551488]			; SSE41-NEXT: movapd {{.*#+}} xmm2 = [18446744073709551488,18446744073709551488]
	; SSE41-NEXT: movapd %xmm7, %xmm0			; SSE41-NEXT: movapd %xmm11, %xmm1
	; SSE41-NEXT: xorpd %xmm5, %xmm0			; SSE41-NEXT: xorpd %xmm5, %xmm1
	; SSE41-NEXT: movdqa {{.*#+}} xmm8 = [18446744071562067840,18446744071562067840]			; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [18446744071562067840,18446744071562067840]
	; SSE41-NEXT: movapd %xmm0, %xmm1			; SSE41-NEXT: movapd %xmm1, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm8, %xmm1			; SSE41-NEXT: pcmpeqd %xmm4, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm1[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm4, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm8, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: movapd %xmm2, %xmm1			; SSE41-NEXT: movapd %xmm2, %xmm1
	; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm11, %xmm1
	; SSE41-NEXT: movapd %xmm6, %xmm0			; SSE41-NEXT: movapd %xmm3, %xmm6
	; SSE41-NEXT: xorpd %xmm5, %xmm0			; SSE41-NEXT: xorpd %xmm5, %xmm6
	; SSE41-NEXT: movapd %xmm0, %xmm3			; SSE41-NEXT: movapd %xmm6, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm8, %xmm3			; SSE41-NEXT: pcmpeqd %xmm4, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm3[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm4, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm8, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm2, %xmm7			; SSE41-NEXT: movapd %xmm2, %xmm7
	; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm7			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm7
	; SSE41-NEXT: movapd %xmm11, %xmm0			; SSE41-NEXT: movapd %xmm10, %xmm3
	; SSE41-NEXT: xorpd %xmm5, %xmm0			; SSE41-NEXT: xorpd %xmm5, %xmm3
	; SSE41-NEXT: movapd %xmm0, %xmm3			; SSE41-NEXT: movapd %xmm3, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm8, %xmm3			; SSE41-NEXT: pcmpeqd %xmm4, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm3[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm4, %xmm3
	; SSE41-NEXT: pcmpeqd %xmm8, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: movapd %xmm2, %xmm3			; SSE41-NEXT: movapd %xmm2, %xmm3
	; SSE41-NEXT: blendvpd %xmm0, %xmm11, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm10, %xmm3
	; SSE41-NEXT: xorpd %xmm9, %xmm5			; SSE41-NEXT: xorpd %xmm9, %xmm5
	; SSE41-NEXT: movapd %xmm5, %xmm6			; SSE41-NEXT: movapd %xmm5, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm8, %xmm6			; SSE41-NEXT: pcmpeqd %xmm4, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm6[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm4, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm8, %xmm5			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[1,1,3,3]			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm2
	; SSE41-NEXT: movapd {{.*#+}} xmm0 = [255,0,0,0,0,0,0,0,255,0,0,0,0,0,0,0]			; SSE41-NEXT: movapd {{.*#+}} xmm0 = [255,0,0,0,0,0,0,0,255,0,0,0,0,0,0,0]
	; SSE41-NEXT: andpd %xmm0, %xmm2			; SSE41-NEXT: andpd %xmm0, %xmm2
	; SSE41-NEXT: andpd %xmm0, %xmm3			; SSE41-NEXT: andpd %xmm0, %xmm3
	; SSE41-NEXT: packusdw %xmm2, %xmm3			; SSE41-NEXT: packusdw %xmm2, %xmm3
	; SSE41-NEXT: andpd %xmm0, %xmm7			; SSE41-NEXT: andpd %xmm0, %xmm7
	; SSE41-NEXT: andpd %xmm0, %xmm1			; SSE41-NEXT: andpd %xmm0, %xmm1
	; SSE41-NEXT: packusdw %xmm7, %xmm1			; SSE41-NEXT: packusdw %xmm7, %xmm1
	▲ Show 20 Lines • Show All 327 Lines • ▼ Show 20 Lines
	; SSSE3-NEXT: packuswb %xmm2, %xmm0			; SSSE3-NEXT: packuswb %xmm2, %xmm0
	; SSSE3-NEXT: packuswb %xmm0, %xmm0			; SSSE3-NEXT: packuswb %xmm0, %xmm0
	; SSSE3-NEXT: movq %xmm0, (%rdi)			; SSSE3-NEXT: movq %xmm0, (%rdi)
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: trunc_ssat_v8i64_v8i8_store:			; SSE41-LABEL: trunc_ssat_v8i64_v8i8_store:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm8			; SSE41-NEXT: movdqa %xmm0, %xmm8
	; SSE41-NEXT: movapd {{.*#+}} xmm7 = [127,127]			; SSE41-NEXT: movapd {{.*#+}} xmm11 = [127,127]
	; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm10 = [2147483775,2147483775]			; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [2147483775,2147483775]
	; SSE41-NEXT: movdqa %xmm10, %xmm6			; SSE41-NEXT: movdqa %xmm6, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm6			; SSE41-NEXT: pcmpeqd %xmm0, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm6[0,0,2,2]			; SSE41-NEXT: movdqa %xmm6, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm9			; SSE41-NEXT: movapd %xmm11, %xmm9
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm9			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm9
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm10, %xmm3			; SSE41-NEXT: movdqa %xmm6, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm3			; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]			; SSE41-NEXT: movdqa %xmm6, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm11			; SSE41-NEXT: movapd %xmm11, %xmm10
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm11			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm10
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm10, %xmm2			; SSE41-NEXT: movdqa %xmm6, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,0,2,2]			; SSE41-NEXT: movdqa %xmm6, %xmm3
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm6			; SSE41-NEXT: movapd %xmm11, %xmm3
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm6			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3
	; SSE41-NEXT: movdqa %xmm8, %xmm0			; SSE41-NEXT: movdqa %xmm8, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm10, %xmm1			; SSE41-NEXT: movdqa %xmm6, %xmm1
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm1			; SSE41-NEXT: pcmpeqd %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pand %xmm1, %xmm0
	; SSE41-NEXT: pand %xmm2, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm11
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm7
	; SSE41-NEXT: movapd {{.*#+}} xmm1 = [18446744073709551488,18446744073709551488]			; SSE41-NEXT: movapd {{.*#+}} xmm1 = [18446744073709551488,18446744073709551488]
	; SSE41-NEXT: movapd %xmm7, %xmm0			; SSE41-NEXT: movapd %xmm11, %xmm2
	; SSE41-NEXT: xorpd %xmm5, %xmm0			; SSE41-NEXT: xorpd %xmm5, %xmm2
	; SSE41-NEXT: movdqa {{.*#+}} xmm8 = [18446744071562067840,18446744071562067840]			; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [18446744071562067840,18446744071562067840]
	; SSE41-NEXT: movapd %xmm0, %xmm2			; SSE41-NEXT: movapd %xmm2, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm8, %xmm2			; SSE41-NEXT: pcmpeqd %xmm4, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm4, %xmm2
	; SSE41-NEXT: pcmpeqd %xmm8, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: movapd %xmm1, %xmm2			; SSE41-NEXT: movapd %xmm1, %xmm2
	; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm11, %xmm2
	; SSE41-NEXT: movapd %xmm6, %xmm0			; SSE41-NEXT: movapd %xmm3, %xmm6
	; SSE41-NEXT: xorpd %xmm5, %xmm0			; SSE41-NEXT: xorpd %xmm5, %xmm6
	; SSE41-NEXT: movapd %xmm0, %xmm3			; SSE41-NEXT: movapd %xmm6, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm8, %xmm3			; SSE41-NEXT: pcmpeqd %xmm4, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm3[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm4, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm8, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm1, %xmm7			; SSE41-NEXT: movapd %xmm1, %xmm7
	; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm7			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm7
	; SSE41-NEXT: movapd %xmm11, %xmm0			; SSE41-NEXT: movapd %xmm10, %xmm3
	; SSE41-NEXT: xorpd %xmm5, %xmm0			; SSE41-NEXT: xorpd %xmm5, %xmm3
	; SSE41-NEXT: movapd %xmm0, %xmm3			; SSE41-NEXT: movapd %xmm3, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm8, %xmm3			; SSE41-NEXT: pcmpeqd %xmm4, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm3[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm4, %xmm3
	; SSE41-NEXT: pcmpeqd %xmm8, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: movapd %xmm1, %xmm3			; SSE41-NEXT: movapd %xmm1, %xmm3
	; SSE41-NEXT: blendvpd %xmm0, %xmm11, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm10, %xmm3
	; SSE41-NEXT: xorpd %xmm9, %xmm5			; SSE41-NEXT: xorpd %xmm9, %xmm5
	; SSE41-NEXT: movapd %xmm5, %xmm6			; SSE41-NEXT: movapd %xmm5, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm8, %xmm6			; SSE41-NEXT: pcmpeqd %xmm4, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm6[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm4, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm8, %xmm5			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[1,1,3,3]			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm1
	; SSE41-NEXT: movapd {{.*#+}} xmm0 = [255,0,0,0,0,0,0,0,255,0,0,0,0,0,0,0]			; SSE41-NEXT: movapd {{.*#+}} xmm0 = [255,0,0,0,0,0,0,0,255,0,0,0,0,0,0,0]
	; SSE41-NEXT: andpd %xmm0, %xmm1			; SSE41-NEXT: andpd %xmm0, %xmm1
	; SSE41-NEXT: andpd %xmm0, %xmm3			; SSE41-NEXT: andpd %xmm0, %xmm3
	; SSE41-NEXT: packusdw %xmm1, %xmm3			; SSE41-NEXT: packusdw %xmm1, %xmm3
	; SSE41-NEXT: andpd %xmm0, %xmm7			; SSE41-NEXT: andpd %xmm0, %xmm7
	; SSE41-NEXT: andpd %xmm0, %xmm2			; SSE41-NEXT: andpd %xmm0, %xmm2
	; SSE41-NEXT: packusdw %xmm7, %xmm2			; SSE41-NEXT: packusdw %xmm7, %xmm2
	▲ Show 20 Lines • Show All 536 Lines • ▼ Show 20 Lines
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm8			; SSE41-NEXT: movdqa %xmm0, %xmm8
	; SSE41-NEXT: movapd {{.*#+}} xmm11 = [127,127]			; SSE41-NEXT: movapd {{.*#+}} xmm11 = [127,127]
	; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm6, %xmm0			; SSE41-NEXT: movdqa %xmm6, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm12 = [2147483775,2147483775]			; SSE41-NEXT: movdqa {{.*#+}} xmm12 = [2147483775,2147483775]
	; SSE41-NEXT: movdqa %xmm12, %xmm10			; SSE41-NEXT: movdqa %xmm12, %xmm10
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm10			; SSE41-NEXT: pcmpeqd %xmm0, %xmm10
	; SSE41-NEXT: pshufd {{.*#+}} xmm13 = xmm10[0,0,2,2]			; SSE41-NEXT: movdqa %xmm12, %xmm13
	; SSE41-NEXT: pcmpeqd %xmm12, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm13
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm13[0,0,2,2]
	; SSE41-NEXT: pand %xmm13, %xmm0			; SSE41-NEXT: pand %xmm10, %xmm0
	; SSE41-NEXT: por %xmm10, %xmm0			; SSE41-NEXT: por %xmm13, %xmm0
	; SSE41-NEXT: movapd %xmm11, %xmm10			; SSE41-NEXT: movapd %xmm11, %xmm10
	; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm10			; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm10
	; SSE41-NEXT: movdqa %xmm7, %xmm0			; SSE41-NEXT: movdqa %xmm7, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
				; SSE41-NEXT: movdqa %xmm12, %xmm13
				; SSE41-NEXT: pcmpeqd %xmm0, %xmm13
	; SSE41-NEXT: movdqa %xmm12, %xmm6			; SSE41-NEXT: movdqa %xmm12, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm6			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm13 = xmm6[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm12, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm13, %xmm0			; SSE41-NEXT: pand %xmm13, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm11, %xmm13			; SSE41-NEXT: movapd %xmm11, %xmm13
	; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm13			; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm13
	; SSE41-NEXT: movdqa %xmm4, %xmm0			; SSE41-NEXT: movdqa %xmm4, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm12, %xmm6			; SSE41-NEXT: movdqa %xmm12, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm6			; SSE41-NEXT: pcmpeqd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm6[0,0,2,2]			; SSE41-NEXT: movdqa %xmm12, %xmm7
	; SSE41-NEXT: pcmpeqd %xmm12, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm7[0,0,2,2]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0			; SSE41-NEXT: por %xmm7, %xmm0
	; SSE41-NEXT: movapd %xmm11, %xmm14			; SSE41-NEXT: movapd %xmm11, %xmm14
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm14			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm14
	; SSE41-NEXT: movdqa %xmm5, %xmm0			; SSE41-NEXT: movdqa %xmm5, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm12, %xmm4			; SSE41-NEXT: movdqa %xmm12, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE41-NEXT: movdqa %xmm12, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm12, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm11, %xmm15			; SSE41-NEXT: movapd %xmm11, %xmm15
	; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm15			; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm15
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm12, %xmm5			; SSE41-NEXT: movdqa %xmm12, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm5			; SSE41-NEXT: pcmpeqd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]			; SSE41-NEXT: movdqa %xmm12, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm12, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm5, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm11, %xmm5			; SSE41-NEXT: movapd %xmm11, %xmm5
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm5			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm5
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm12, %xmm2			; SSE41-NEXT: movdqa %xmm12, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm2[0,0,2,2]			; SSE41-NEXT: movdqa %xmm12, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm12, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm11, %xmm6			; SSE41-NEXT: movapd %xmm11, %xmm6
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm6			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm6
	; SSE41-NEXT: movdqa %xmm8, %xmm0			; SSE41-NEXT: movdqa %xmm8, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm12, %xmm2			; SSE41-NEXT: movdqa %xmm12, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: movdqa %xmm12, %xmm3
	; SSE41-NEXT: pcmpeqd %xmm12, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: movapd %xmm11, %xmm7			; SSE41-NEXT: movapd %xmm11, %xmm7
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm7			; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm7
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm12, %xmm2			; SSE41-NEXT: movdqa %xmm12, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm12
	; SSE41-NEXT: pcmpeqd %xmm12, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm12[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: por %xmm12, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm11			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm11
	; SSE41-NEXT: movapd {{.*#+}} xmm2 = [18446744073709551488,18446744073709551488]			; SSE41-NEXT: movapd {{.*#+}} xmm2 = [18446744073709551488,18446744073709551488]
	; SSE41-NEXT: movapd %xmm11, %xmm0			; SSE41-NEXT: movapd %xmm11, %xmm1
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm1
	; SSE41-NEXT: movdqa {{.*#+}} xmm8 = [18446744071562067840,18446744071562067840]			; SSE41-NEXT: movdqa {{.*#+}} xmm8 = [18446744071562067840,18446744071562067840]
	; SSE41-NEXT: movapd %xmm0, %xmm1			; SSE41-NEXT: movapd %xmm1, %xmm4
				; SSE41-NEXT: pcmpeqd %xmm8, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm8, %xmm1			; SSE41-NEXT: pcmpgtd %xmm8, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm8, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: movapd %xmm2, %xmm4			; SSE41-NEXT: movapd %xmm2, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm11, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm11, %xmm4
	; SSE41-NEXT: movapd %xmm7, %xmm0			; SSE41-NEXT: movapd %xmm7, %xmm1
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm1
	; SSE41-NEXT: movapd %xmm0, %xmm1			; SSE41-NEXT: movapd %xmm1, %xmm3
				; SSE41-NEXT: pcmpeqd %xmm8, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm8, %xmm1			; SSE41-NEXT: pcmpgtd %xmm8, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm8, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: movapd %xmm2, %xmm1			; SSE41-NEXT: movapd %xmm2, %xmm1
	; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm1
	; SSE41-NEXT: packssdw %xmm4, %xmm1			; SSE41-NEXT: packssdw %xmm4, %xmm1
	; SSE41-NEXT: movapd %xmm6, %xmm0			; SSE41-NEXT: movapd %xmm6, %xmm3
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm3
	; SSE41-NEXT: movapd %xmm0, %xmm3			; SSE41-NEXT: movapd %xmm3, %xmm4
				; SSE41-NEXT: pcmpeqd %xmm8, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm8, %xmm3			; SSE41-NEXT: pcmpgtd %xmm8, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm8, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: movapd %xmm2, %xmm3			; SSE41-NEXT: movapd %xmm2, %xmm3
	; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm3
	; SSE41-NEXT: movapd %xmm5, %xmm0			; SSE41-NEXT: movapd %xmm5, %xmm4
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm4
	; SSE41-NEXT: movapd %xmm0, %xmm4			; SSE41-NEXT: movapd %xmm4, %xmm6
				; SSE41-NEXT: pcmpeqd %xmm8, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm8, %xmm4			; SSE41-NEXT: pcmpgtd %xmm8, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm8, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: movapd %xmm2, %xmm4			; SSE41-NEXT: movapd %xmm2, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm4
	; SSE41-NEXT: packssdw %xmm3, %xmm4			; SSE41-NEXT: packssdw %xmm3, %xmm4
	; SSE41-NEXT: packssdw %xmm4, %xmm1			; SSE41-NEXT: packssdw %xmm4, %xmm1
	; SSE41-NEXT: movapd %xmm15, %xmm0			; SSE41-NEXT: movapd %xmm15, %xmm3
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm3
	; SSE41-NEXT: movapd %xmm0, %xmm3			; SSE41-NEXT: movapd %xmm3, %xmm4
				; SSE41-NEXT: pcmpeqd %xmm8, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm8, %xmm3			; SSE41-NEXT: pcmpgtd %xmm8, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm8, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: movapd %xmm2, %xmm3			; SSE41-NEXT: movapd %xmm2, %xmm3
	; SSE41-NEXT: blendvpd %xmm0, %xmm15, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm15, %xmm3
	; SSE41-NEXT: movapd %xmm14, %xmm0			; SSE41-NEXT: movapd %xmm14, %xmm4
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm4
	; SSE41-NEXT: movapd %xmm0, %xmm4			; SSE41-NEXT: movapd %xmm4, %xmm5
				; SSE41-NEXT: pcmpeqd %xmm8, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm8, %xmm4			; SSE41-NEXT: pcmpgtd %xmm8, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm8, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: movapd %xmm2, %xmm4			; SSE41-NEXT: movapd %xmm2, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm14, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm14, %xmm4
	; SSE41-NEXT: packssdw %xmm3, %xmm4			; SSE41-NEXT: packssdw %xmm3, %xmm4
	; SSE41-NEXT: movapd %xmm13, %xmm0			; SSE41-NEXT: movapd %xmm13, %xmm3
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm3
	; SSE41-NEXT: movapd %xmm0, %xmm3			; SSE41-NEXT: movapd %xmm3, %xmm5
				; SSE41-NEXT: pcmpeqd %xmm8, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm8, %xmm3			; SSE41-NEXT: pcmpgtd %xmm8, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm3[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm8, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: movapd %xmm2, %xmm3			; SSE41-NEXT: movapd %xmm2, %xmm3
	; SSE41-NEXT: blendvpd %xmm0, %xmm13, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm13, %xmm3
	; SSE41-NEXT: xorpd %xmm10, %xmm9			; SSE41-NEXT: xorpd %xmm10, %xmm9
	; SSE41-NEXT: movapd %xmm9, %xmm5			; SSE41-NEXT: movapd %xmm9, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm8, %xmm5			; SSE41-NEXT: pcmpeqd %xmm8, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm8, %xmm9
	; SSE41-NEXT: pcmpeqd %xmm8, %xmm9			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm9[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm9[1,1,3,3]			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: por %xmm9, %xmm0
	; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm10, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm10, %xmm2
	; SSE41-NEXT: packssdw %xmm3, %xmm2			; SSE41-NEXT: packssdw %xmm3, %xmm2
	; SSE41-NEXT: packssdw %xmm2, %xmm4			; SSE41-NEXT: packssdw %xmm2, %xmm4
	; SSE41-NEXT: packsswb %xmm4, %xmm1			; SSE41-NEXT: packsswb %xmm4, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_ssat_v16i64_v16i8:			; AVX1-LABEL: trunc_ssat_v16i64_v16i8:
	▲ Show 20 Lines • Show All 415 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-trunc-ssat.ll

	Show First 20 Lines • Show All 139 Lines • ▼ Show 20 Lines
	; SSE41-LABEL: trunc_ssat_v4i64_v4i32:			; SSE41-LABEL: trunc_ssat_v4i64_v4i32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: movapd {{.*#+}} xmm4 = [2147483647,2147483647]			; SSE41-NEXT: movapd {{.*#+}} xmm4 = [2147483647,2147483647]
	; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [2147483648,2147483648]
	; SSE41-NEXT: pxor %xmm3, %xmm0			; SSE41-NEXT: pxor %xmm3, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [4294967295,4294967295]			; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [4294967295,4294967295]
	; SSE41-NEXT: movdqa %xmm6, %xmm5			; SSE41-NEXT: movdqa %xmm6, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm5			; SSE41-NEXT: pcmpeqd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm5[0,0,2,2]			; SSE41-NEXT: movdqa %xmm6, %xmm7
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm7[0,0,2,2]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm5, %xmm0			; SSE41-NEXT: por %xmm7, %xmm0
	; SSE41-NEXT: movapd %xmm4, %xmm5			; SSE41-NEXT: movapd %xmm4, %xmm5
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm5			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm5
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm3, %xmm0			; SSE41-NEXT: pxor %xmm3, %xmm0
	; SSE41-NEXT: movdqa %xmm6, %xmm2			; SSE41-NEXT: movdqa %xmm6, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm6, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm4
	; SSE41-NEXT: movapd {{.*#+}} xmm1 = [18446744071562067968,18446744071562067968]			; SSE41-NEXT: movapd {{.*#+}} xmm1 = [18446744071562067968,18446744071562067968]
	; SSE41-NEXT: movapd %xmm4, %xmm0			; SSE41-NEXT: movapd %xmm4, %xmm2
	; SSE41-NEXT: xorpd %xmm3, %xmm0			; SSE41-NEXT: xorpd %xmm3, %xmm2
	; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [18446744069414584320,18446744069414584320]			; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [18446744069414584320,18446744069414584320]
	; SSE41-NEXT: movapd %xmm0, %xmm6			; SSE41-NEXT: movapd %xmm2, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm2, %xmm6			; SSE41-NEXT: pcmpeqd %xmm6, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm6[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm6, %xmm2
	; SSE41-NEXT: pcmpeqd %xmm2, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0			; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: movapd %xmm1, %xmm6			; SSE41-NEXT: movapd %xmm1, %xmm2
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm6			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2
	; SSE41-NEXT: xorpd %xmm5, %xmm3			; SSE41-NEXT: xorpd %xmm5, %xmm3
	; SSE41-NEXT: movapd %xmm3, %xmm4			; SSE41-NEXT: movapd %xmm3, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm2, %xmm4			; SSE41-NEXT: pcmpeqd %xmm6, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm4[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm6, %xmm3
	; SSE41-NEXT: pcmpeqd %xmm2, %xmm3			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[1,1,3,3]			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm1
	; SSE41-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm6[0,2]			; SSE41-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm2[0,2]
	; SSE41-NEXT: movaps %xmm1, %xmm0			; SSE41-NEXT: movaps %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_ssat_v4i64_v4i32:			; AVX1-LABEL: trunc_ssat_v4i64_v4i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovapd {{.*#+}} ymm1 = [2147483647,2147483647,2147483647,2147483647]			; AVX1-NEXT: vmovapd {{.*#+}} ymm1 = [2147483647,2147483647,2147483647,2147483647]
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [2147483647,2147483647]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [2147483647,2147483647]
	▲ Show 20 Lines • Show All 311 Lines • ▼ Show 20 Lines
	; SSSE3-NEXT: pand %xmm0, %xmm5			; SSSE3-NEXT: pand %xmm0, %xmm5
	; SSSE3-NEXT: pandn %xmm8, %xmm0			; SSSE3-NEXT: pandn %xmm8, %xmm0
	; SSSE3-NEXT: por %xmm5, %xmm0			; SSSE3-NEXT: por %xmm5, %xmm0
	; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm3[0,2]			; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm3[0,2]
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: trunc_ssat_v8i64_v8i32:			; SSE41-LABEL: trunc_ssat_v8i64_v8i32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: movdqa %xmm0, %xmm9
	; SSE41-NEXT: movapd {{.*#+}} xmm7 = [2147483647,2147483647]			; SSE41-NEXT: movapd {{.*#+}} xmm10 = [2147483647,2147483647]
	; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648]
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm10 = [4294967295,4294967295]			; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [4294967295,4294967295]
	; SSE41-NEXT: movdqa %xmm10, %xmm6			; SSE41-NEXT: movdqa %xmm4, %xmm7
				; SSE41-NEXT: pcmpeqd %xmm0, %xmm7
				; SSE41-NEXT: movdqa %xmm4, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm6			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm8 = xmm6[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm8, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm8			; SSE41-NEXT: movapd %xmm10, %xmm8
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm8			; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm8
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm10, %xmm4			; SSE41-NEXT: movdqa %xmm4, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE41-NEXT: movdqa %xmm4, %xmm7
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm7[0,0,2,2]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm7, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm9			; SSE41-NEXT: movapd %xmm10, %xmm9
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm9			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm9
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm10, %xmm1			; SSE41-NEXT: movdqa %xmm4, %xmm1
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm1			; SSE41-NEXT: pcmpeqd %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm1[0,0,2,2]			; SSE41-NEXT: movdqa %xmm4, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm1, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm4			; SSE41-NEXT: movapd %xmm10, %xmm6
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm6
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm10, %xmm1			; SSE41-NEXT: movdqa %xmm4, %xmm1
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm1			; SSE41-NEXT: pcmpeqd %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pand %xmm1, %xmm0
	; SSE41-NEXT: pand %xmm2, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm10
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm7
	; SSE41-NEXT: movapd {{.*#+}} xmm2 = [18446744071562067968,18446744071562067968]			; SSE41-NEXT: movapd {{.*#+}} xmm2 = [18446744071562067968,18446744071562067968]
	; SSE41-NEXT: movapd %xmm7, %xmm0			; SSE41-NEXT: movapd %xmm10, %xmm1
	; SSE41-NEXT: xorpd %xmm5, %xmm0			; SSE41-NEXT: xorpd %xmm5, %xmm1
	; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [18446744069414584320,18446744069414584320]			; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [18446744069414584320,18446744069414584320]
	; SSE41-NEXT: movapd %xmm0, %xmm1			; SSE41-NEXT: movapd %xmm1, %xmm4
				; SSE41-NEXT: pcmpeqd %xmm3, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm1			; SSE41-NEXT: pcmpgtd %xmm3, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm3, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: movapd %xmm2, %xmm6			; SSE41-NEXT: movapd %xmm2, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm6			; SSE41-NEXT: blendvpd %xmm0, %xmm10, %xmm4
	; SSE41-NEXT: movapd %xmm4, %xmm0			; SSE41-NEXT: movapd %xmm6, %xmm1
	; SSE41-NEXT: xorpd %xmm5, %xmm0			; SSE41-NEXT: xorpd %xmm5, %xmm1
	; SSE41-NEXT: movapd %xmm0, %xmm1			; SSE41-NEXT: movapd %xmm1, %xmm7
				; SSE41-NEXT: pcmpeqd %xmm3, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm1			; SSE41-NEXT: pcmpgtd %xmm3, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm3, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: movapd %xmm2, %xmm1			; SSE41-NEXT: movapd %xmm2, %xmm1
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm1
	; SSE41-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm6[0,2]			; SSE41-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,2],xmm4[0,2]
	; SSE41-NEXT: movapd %xmm9, %xmm0			; SSE41-NEXT: movapd %xmm9, %xmm4
	; SSE41-NEXT: xorpd %xmm5, %xmm0			; SSE41-NEXT: xorpd %xmm5, %xmm4
	; SSE41-NEXT: movapd %xmm0, %xmm4			; SSE41-NEXT: movapd %xmm4, %xmm6
				; SSE41-NEXT: pcmpeqd %xmm3, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm4			; SSE41-NEXT: pcmpgtd %xmm3, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm3, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: movapd %xmm2, %xmm4			; SSE41-NEXT: movapd %xmm2, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm4
	; SSE41-NEXT: xorpd %xmm8, %xmm5			; SSE41-NEXT: xorpd %xmm8, %xmm5
	; SSE41-NEXT: movapd %xmm5, %xmm6			; SSE41-NEXT: movapd %xmm5, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm6			; SSE41-NEXT: pcmpeqd %xmm3, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm6[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm3, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm3, %xmm5			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[1,1,3,3]			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm2
	; SSE41-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[0,2]			; SSE41-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,2],xmm4[0,2]
	; SSE41-NEXT: movaps %xmm2, %xmm0			; SSE41-NEXT: movaps %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_ssat_v8i64_v8i32:			; AVX1-LABEL: trunc_ssat_v8i64_v8i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovapd {{.*#+}} ymm2 = [2147483647,2147483647,2147483647,2147483647]			; AVX1-NEXT: vmovapd {{.*#+}} ymm2 = [2147483647,2147483647,2147483647,2147483647]
	▲ Show 20 Lines • Show All 309 Lines • ▼ Show 20 Lines
	; SSSE3-NEXT: por %xmm5, %xmm1			; SSSE3-NEXT: por %xmm5, %xmm1
	; SSSE3-NEXT: packssdw %xmm3, %xmm1			; SSSE3-NEXT: packssdw %xmm3, %xmm1
	; SSSE3-NEXT: packssdw %xmm1, %xmm0			; SSSE3-NEXT: packssdw %xmm1, %xmm0
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: trunc_ssat_v8i64_v8i16:			; SSE41-LABEL: trunc_ssat_v8i64_v8i16:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm10			; SSE41-NEXT: movdqa %xmm0, %xmm10
	; SSE41-NEXT: movapd {{.*#+}} xmm7 = [32767,32767]			; SSE41-NEXT: movapd {{.*#+}} xmm11 = [32767,32767]
	; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm11 = [2147516415,2147516415]			; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [2147516415,2147516415]
	; SSE41-NEXT: movdqa %xmm11, %xmm6			; SSE41-NEXT: movdqa %xmm4, %xmm7
				; SSE41-NEXT: pcmpeqd %xmm0, %xmm7
				; SSE41-NEXT: movdqa %xmm4, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm6			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm6[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm11, %xmm0			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm8			; SSE41-NEXT: movapd %xmm11, %xmm8
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm8			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm8
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm11, %xmm2			; SSE41-NEXT: movdqa %xmm4, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,0,2,2]			; SSE41-NEXT: movdqa %xmm4, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm11, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm9			; SSE41-NEXT: movapd %xmm11, %xmm9
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm9			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm9
	; SSE41-NEXT: movdqa %xmm10, %xmm0			; SSE41-NEXT: movdqa %xmm10, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm11, %xmm2			; SSE41-NEXT: movdqa %xmm4, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: movdqa %xmm4, %xmm3
	; SSE41-NEXT: pcmpeqd %xmm11, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm2			; SSE41-NEXT: movapd %xmm11, %xmm2
	; SSE41-NEXT: blendvpd %xmm0, %xmm10, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm10, %xmm2
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm11, %xmm3			; SSE41-NEXT: movdqa %xmm4, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm3			; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm11, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm11
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm7
	; SSE41-NEXT: movapd {{.*#+}} xmm3 = [18446744073709518848,18446744073709518848]			; SSE41-NEXT: movapd {{.*#+}} xmm3 = [18446744073709518848,18446744073709518848]
	; SSE41-NEXT: movapd %xmm7, %xmm0			; SSE41-NEXT: movapd %xmm11, %xmm1
	; SSE41-NEXT: xorpd %xmm5, %xmm0			; SSE41-NEXT: xorpd %xmm5, %xmm1
	; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [18446744071562035200,18446744071562035200]			; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [18446744071562035200,18446744071562035200]
	; SSE41-NEXT: movapd %xmm0, %xmm1			; SSE41-NEXT: movapd %xmm1, %xmm6
				; SSE41-NEXT: pcmpeqd %xmm4, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm4, %xmm1			; SSE41-NEXT: pcmpgtd %xmm4, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm4, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: movapd %xmm3, %xmm6			; SSE41-NEXT: movapd %xmm3, %xmm6
	; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm6			; SSE41-NEXT: blendvpd %xmm0, %xmm11, %xmm6
	; SSE41-NEXT: movapd %xmm2, %xmm0			; SSE41-NEXT: movapd %xmm2, %xmm1
	; SSE41-NEXT: xorpd %xmm5, %xmm0			; SSE41-NEXT: xorpd %xmm5, %xmm1
	; SSE41-NEXT: movapd %xmm0, %xmm1			; SSE41-NEXT: movapd %xmm1, %xmm7
				; SSE41-NEXT: pcmpeqd %xmm4, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm4, %xmm1			; SSE41-NEXT: pcmpgtd %xmm4, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm4, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: movapd %xmm3, %xmm1			; SSE41-NEXT: movapd %xmm3, %xmm1
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1
	; SSE41-NEXT: packssdw %xmm6, %xmm1			; SSE41-NEXT: packssdw %xmm6, %xmm1
	; SSE41-NEXT: movapd %xmm9, %xmm0			; SSE41-NEXT: movapd %xmm9, %xmm2
	; SSE41-NEXT: xorpd %xmm5, %xmm0			; SSE41-NEXT: xorpd %xmm5, %xmm2
	; SSE41-NEXT: movapd %xmm0, %xmm2			; SSE41-NEXT: movapd %xmm2, %xmm6
				; SSE41-NEXT: pcmpeqd %xmm4, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm4, %xmm2			; SSE41-NEXT: pcmpgtd %xmm4, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm2[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm4, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: movapd %xmm3, %xmm2			; SSE41-NEXT: movapd %xmm3, %xmm2
	; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm2
	; SSE41-NEXT: xorpd %xmm8, %xmm5			; SSE41-NEXT: xorpd %xmm8, %xmm5
	; SSE41-NEXT: movapd %xmm5, %xmm6			; SSE41-NEXT: movapd %xmm5, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm4, %xmm6			; SSE41-NEXT: pcmpeqd %xmm4, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm6[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm4, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm4, %xmm5			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[1,1,3,3]			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm3
	; SSE41-NEXT: packssdw %xmm2, %xmm3			; SSE41-NEXT: packssdw %xmm2, %xmm3
	; SSE41-NEXT: packssdw %xmm3, %xmm1			; SSE41-NEXT: packssdw %xmm3, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_ssat_v8i64_v8i16:			; AVX1-LABEL: trunc_ssat_v8i64_v8i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	▲ Show 20 Lines • Show All 390 Lines • ▼ Show 20 Lines
	; SSSE3-NEXT: por %xmm5, %xmm1			; SSSE3-NEXT: por %xmm5, %xmm1
	; SSSE3-NEXT: packssdw %xmm3, %xmm1			; SSSE3-NEXT: packssdw %xmm3, %xmm1
	; SSSE3-NEXT: packssdw %xmm1, %xmm0			; SSSE3-NEXT: packssdw %xmm1, %xmm0
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: trunc_ssat_v8i64_v8i8:			; SSE41-LABEL: trunc_ssat_v8i64_v8i8:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm10			; SSE41-NEXT: movdqa %xmm0, %xmm10
	; SSE41-NEXT: movapd {{.*#+}} xmm7 = [127,127]			; SSE41-NEXT: movapd {{.*#+}} xmm11 = [127,127]
	; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm11 = [2147483775,2147483775]			; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [2147483775,2147483775]
	; SSE41-NEXT: movdqa %xmm11, %xmm6			; SSE41-NEXT: movdqa %xmm4, %xmm7
				; SSE41-NEXT: pcmpeqd %xmm0, %xmm7
				; SSE41-NEXT: movdqa %xmm4, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm6			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm6[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm11, %xmm0			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm8			; SSE41-NEXT: movapd %xmm11, %xmm8
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm8			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm8
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm11, %xmm2			; SSE41-NEXT: movdqa %xmm4, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,0,2,2]			; SSE41-NEXT: movdqa %xmm4, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm11, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm9			; SSE41-NEXT: movapd %xmm11, %xmm9
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm9			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm9
	; SSE41-NEXT: movdqa %xmm10, %xmm0			; SSE41-NEXT: movdqa %xmm10, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm11, %xmm2			; SSE41-NEXT: movdqa %xmm4, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: movdqa %xmm4, %xmm3
	; SSE41-NEXT: pcmpeqd %xmm11, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm2			; SSE41-NEXT: movapd %xmm11, %xmm2
	; SSE41-NEXT: blendvpd %xmm0, %xmm10, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm10, %xmm2
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm11, %xmm3			; SSE41-NEXT: movdqa %xmm4, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm3			; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm11, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm11
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm7
	; SSE41-NEXT: movapd {{.*#+}} xmm3 = [18446744073709551488,18446744073709551488]			; SSE41-NEXT: movapd {{.*#+}} xmm3 = [18446744073709551488,18446744073709551488]
	; SSE41-NEXT: movapd %xmm7, %xmm0			; SSE41-NEXT: movapd %xmm11, %xmm1
	; SSE41-NEXT: xorpd %xmm5, %xmm0			; SSE41-NEXT: xorpd %xmm5, %xmm1
	; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [18446744071562067840,18446744071562067840]			; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [18446744071562067840,18446744071562067840]
	; SSE41-NEXT: movapd %xmm0, %xmm1			; SSE41-NEXT: movapd %xmm1, %xmm6
				; SSE41-NEXT: pcmpeqd %xmm4, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm4, %xmm1			; SSE41-NEXT: pcmpgtd %xmm4, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm4, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: movapd %xmm3, %xmm6			; SSE41-NEXT: movapd %xmm3, %xmm6
	; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm6			; SSE41-NEXT: blendvpd %xmm0, %xmm11, %xmm6
	; SSE41-NEXT: movapd %xmm2, %xmm0			; SSE41-NEXT: movapd %xmm2, %xmm1
	; SSE41-NEXT: xorpd %xmm5, %xmm0			; SSE41-NEXT: xorpd %xmm5, %xmm1
	; SSE41-NEXT: movapd %xmm0, %xmm1			; SSE41-NEXT: movapd %xmm1, %xmm7
				; SSE41-NEXT: pcmpeqd %xmm4, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm4, %xmm1			; SSE41-NEXT: pcmpgtd %xmm4, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm4, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: movapd %xmm3, %xmm1			; SSE41-NEXT: movapd %xmm3, %xmm1
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1
	; SSE41-NEXT: packssdw %xmm6, %xmm1			; SSE41-NEXT: packssdw %xmm6, %xmm1
	; SSE41-NEXT: movapd %xmm9, %xmm0			; SSE41-NEXT: movapd %xmm9, %xmm2
	; SSE41-NEXT: xorpd %xmm5, %xmm0			; SSE41-NEXT: xorpd %xmm5, %xmm2
	; SSE41-NEXT: movapd %xmm0, %xmm2			; SSE41-NEXT: movapd %xmm2, %xmm6
				; SSE41-NEXT: pcmpeqd %xmm4, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm4, %xmm2			; SSE41-NEXT: pcmpgtd %xmm4, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm2[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm4, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: movapd %xmm3, %xmm2			; SSE41-NEXT: movapd %xmm3, %xmm2
	; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm2
	; SSE41-NEXT: xorpd %xmm8, %xmm5			; SSE41-NEXT: xorpd %xmm8, %xmm5
	; SSE41-NEXT: movapd %xmm5, %xmm6			; SSE41-NEXT: movapd %xmm5, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm4, %xmm6			; SSE41-NEXT: pcmpeqd %xmm4, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm6[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm4, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm4, %xmm5			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[1,1,3,3]			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm3
	; SSE41-NEXT: packssdw %xmm2, %xmm3			; SSE41-NEXT: packssdw %xmm2, %xmm3
	; SSE41-NEXT: packssdw %xmm3, %xmm1			; SSE41-NEXT: packssdw %xmm3, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_ssat_v8i64_v8i8:			; AVX1-LABEL: trunc_ssat_v8i64_v8i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	▲ Show 20 Lines • Show All 306 Lines • ▼ Show 20 Lines
	; SSSE3-NEXT: packuswb %xmm2, %xmm0			; SSSE3-NEXT: packuswb %xmm2, %xmm0
	; SSSE3-NEXT: packuswb %xmm0, %xmm0			; SSSE3-NEXT: packuswb %xmm0, %xmm0
	; SSSE3-NEXT: movq %xmm0, (%rdi)			; SSSE3-NEXT: movq %xmm0, (%rdi)
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: trunc_ssat_v8i64_v8i8_store:			; SSE41-LABEL: trunc_ssat_v8i64_v8i8_store:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm8			; SSE41-NEXT: movdqa %xmm0, %xmm8
	; SSE41-NEXT: movapd {{.*#+}} xmm7 = [127,127]			; SSE41-NEXT: movapd {{.*#+}} xmm11 = [127,127]
	; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm10 = [2147483775,2147483775]			; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [2147483775,2147483775]
	; SSE41-NEXT: movdqa %xmm10, %xmm6			; SSE41-NEXT: movdqa %xmm6, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm6			; SSE41-NEXT: pcmpeqd %xmm0, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm6[0,0,2,2]			; SSE41-NEXT: movdqa %xmm6, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm9			; SSE41-NEXT: movapd %xmm11, %xmm9
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm9			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm9
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm10, %xmm3			; SSE41-NEXT: movdqa %xmm6, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm3			; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]			; SSE41-NEXT: movdqa %xmm6, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm11			; SSE41-NEXT: movapd %xmm11, %xmm10
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm11			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm10
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm10, %xmm2			; SSE41-NEXT: movdqa %xmm6, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,0,2,2]			; SSE41-NEXT: movdqa %xmm6, %xmm3
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: movapd %xmm7, %xmm6			; SSE41-NEXT: movapd %xmm11, %xmm3
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm6			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3
	; SSE41-NEXT: movdqa %xmm8, %xmm0			; SSE41-NEXT: movdqa %xmm8, %xmm0
	; SSE41-NEXT: pxor %xmm5, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm10, %xmm1			; SSE41-NEXT: movdqa %xmm6, %xmm1
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm1			; SSE41-NEXT: pcmpeqd %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm10, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pand %xmm1, %xmm0
	; SSE41-NEXT: pand %xmm2, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm11
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm7
	; SSE41-NEXT: movapd {{.*#+}} xmm1 = [18446744073709551488,18446744073709551488]			; SSE41-NEXT: movapd {{.*#+}} xmm1 = [18446744073709551488,18446744073709551488]
	; SSE41-NEXT: movapd %xmm7, %xmm0			; SSE41-NEXT: movapd %xmm11, %xmm2
	; SSE41-NEXT: xorpd %xmm5, %xmm0			; SSE41-NEXT: xorpd %xmm5, %xmm2
	; SSE41-NEXT: movdqa {{.*#+}} xmm8 = [18446744071562067840,18446744071562067840]			; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [18446744071562067840,18446744071562067840]
	; SSE41-NEXT: movapd %xmm0, %xmm2			; SSE41-NEXT: movapd %xmm2, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm8, %xmm2			; SSE41-NEXT: pcmpeqd %xmm4, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm4, %xmm2
	; SSE41-NEXT: pcmpeqd %xmm8, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: movapd %xmm1, %xmm2			; SSE41-NEXT: movapd %xmm1, %xmm2
	; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm11, %xmm2
	; SSE41-NEXT: movapd %xmm6, %xmm0			; SSE41-NEXT: movapd %xmm3, %xmm6
	; SSE41-NEXT: xorpd %xmm5, %xmm0			; SSE41-NEXT: xorpd %xmm5, %xmm6
	; SSE41-NEXT: movapd %xmm0, %xmm3			; SSE41-NEXT: movapd %xmm6, %xmm7
	; SSE41-NEXT: pcmpgtd %xmm8, %xmm3			; SSE41-NEXT: pcmpeqd %xmm4, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm3[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm4, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm8, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm1, %xmm7			; SSE41-NEXT: movapd %xmm1, %xmm7
	; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm7			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm7
	; SSE41-NEXT: movapd %xmm11, %xmm0			; SSE41-NEXT: movapd %xmm10, %xmm3
	; SSE41-NEXT: xorpd %xmm5, %xmm0			; SSE41-NEXT: xorpd %xmm5, %xmm3
	; SSE41-NEXT: movapd %xmm0, %xmm3			; SSE41-NEXT: movapd %xmm3, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm8, %xmm3			; SSE41-NEXT: pcmpeqd %xmm4, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm3[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm4, %xmm3
	; SSE41-NEXT: pcmpeqd %xmm8, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: movapd %xmm1, %xmm3			; SSE41-NEXT: movapd %xmm1, %xmm3
	; SSE41-NEXT: blendvpd %xmm0, %xmm11, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm10, %xmm3
	; SSE41-NEXT: xorpd %xmm9, %xmm5			; SSE41-NEXT: xorpd %xmm9, %xmm5
	; SSE41-NEXT: movapd %xmm5, %xmm6			; SSE41-NEXT: movapd %xmm5, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm8, %xmm6			; SSE41-NEXT: pcmpeqd %xmm4, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm6[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm4, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm8, %xmm5			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[1,1,3,3]			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm1
	; SSE41-NEXT: movapd {{.*#+}} xmm0 = [255,0,0,0,0,0,0,0,255,0,0,0,0,0,0,0]			; SSE41-NEXT: movapd {{.*#+}} xmm0 = [255,0,0,0,0,0,0,0,255,0,0,0,0,0,0,0]
	; SSE41-NEXT: andpd %xmm0, %xmm1			; SSE41-NEXT: andpd %xmm0, %xmm1
	; SSE41-NEXT: andpd %xmm0, %xmm3			; SSE41-NEXT: andpd %xmm0, %xmm3
	; SSE41-NEXT: packusdw %xmm1, %xmm3			; SSE41-NEXT: packusdw %xmm1, %xmm3
	; SSE41-NEXT: andpd %xmm0, %xmm7			; SSE41-NEXT: andpd %xmm0, %xmm7
	; SSE41-NEXT: andpd %xmm0, %xmm2			; SSE41-NEXT: andpd %xmm0, %xmm2
	; SSE41-NEXT: packusdw %xmm7, %xmm2			; SSE41-NEXT: packusdw %xmm7, %xmm2
	▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpackuswb %xmm0, %xmm0, %xmm0			; AVX1-NEXT: vpackuswb %xmm0, %xmm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, (%rdi)			; AVX1-NEXT: vmovq %xmm0, (%rdi)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_ssat_v8i64_v8i8_store:			; AVX2-LABEL: trunc_ssat_v8i64_v8i8_store:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [127,127,127,127]			; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [127,127,127,127]
	; AVX2-NEXT: vpcmpgtq %ymm1, %ymm2, %ymm3
	; AVX2-NEXT: vblendvpd %ymm3, %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpcmpgtq %ymm0, %ymm2, %ymm3			; AVX2-NEXT: vpcmpgtq %ymm0, %ymm2, %ymm3
	; AVX2-NEXT: vblendvpd %ymm3, %ymm0, %ymm2, %ymm0			; AVX2-NEXT: vblendvpd %ymm3, %ymm0, %ymm2, %ymm0
				; AVX2-NEXT: vpcmpgtq %ymm1, %ymm2, %ymm3
				; AVX2-NEXT: vblendvpd %ymm3, %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [18446744073709551488,18446744073709551488,18446744073709551488,18446744073709551488]			; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [18446744073709551488,18446744073709551488,18446744073709551488,18446744073709551488]
	; AVX2-NEXT: vpcmpgtq %ymm2, %ymm0, %ymm3
	; AVX2-NEXT: vblendvpd %ymm3, %ymm0, %ymm2, %ymm0
	; AVX2-NEXT: vpcmpgtq %ymm2, %ymm1, %ymm3			; AVX2-NEXT: vpcmpgtq %ymm2, %ymm1, %ymm3
	; AVX2-NEXT: vblendvpd %ymm3, %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vblendvpd %ymm3, %ymm1, %ymm2, %ymm1
				; AVX2-NEXT: vpcmpgtq %ymm2, %ymm0, %ymm3
				; AVX2-NEXT: vblendvpd %ymm3, %ymm0, %ymm2, %ymm0
				; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm2
				; AVX2-NEXT: vpackssdw %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-NEXT: vpackssdw %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vpackssdw %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
	; AVX2-NEXT: vpshufb %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX2-NEXT: vpackssdw %xmm3, %xmm0, %xmm0
	; AVX2-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX2-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; AVX2-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]
	; AVX2-NEXT: vmovq %xmm0, (%rdi)			; AVX2-NEXT: vmovq %xmm0, (%rdi)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_ssat_v8i64_v8i8_store:			; AVX512-LABEL: trunc_ssat_v8i64_v8i8_store:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovsqb %zmm0, (%rdi)			; AVX512-NEXT: vpmovsqb %zmm0, (%rdi)
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	▲ Show 20 Lines • Show All 458 Lines • ▼ Show 20 Lines
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm8			; SSE41-NEXT: movdqa %xmm0, %xmm8
	; SSE41-NEXT: movapd {{.*#+}} xmm11 = [127,127]			; SSE41-NEXT: movapd {{.*#+}} xmm11 = [127,127]
	; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [2147483648,2147483648]			; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [2147483648,2147483648]
	; SSE41-NEXT: movdqa %xmm6, %xmm0			; SSE41-NEXT: movdqa %xmm6, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm12 = [2147483775,2147483775]			; SSE41-NEXT: movdqa {{.*#+}} xmm12 = [2147483775,2147483775]
	; SSE41-NEXT: movdqa %xmm12, %xmm10			; SSE41-NEXT: movdqa %xmm12, %xmm10
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm10			; SSE41-NEXT: pcmpeqd %xmm0, %xmm10
	; SSE41-NEXT: pshufd {{.*#+}} xmm13 = xmm10[0,0,2,2]			; SSE41-NEXT: movdqa %xmm12, %xmm13
	; SSE41-NEXT: pcmpeqd %xmm12, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm13
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm13[0,0,2,2]
	; SSE41-NEXT: pand %xmm13, %xmm0			; SSE41-NEXT: pand %xmm10, %xmm0
	; SSE41-NEXT: por %xmm10, %xmm0			; SSE41-NEXT: por %xmm13, %xmm0
	; SSE41-NEXT: movapd %xmm11, %xmm10			; SSE41-NEXT: movapd %xmm11, %xmm10
	; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm10			; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm10
	; SSE41-NEXT: movdqa %xmm7, %xmm0			; SSE41-NEXT: movdqa %xmm7, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
				; SSE41-NEXT: movdqa %xmm12, %xmm13
				; SSE41-NEXT: pcmpeqd %xmm0, %xmm13
	; SSE41-NEXT: movdqa %xmm12, %xmm6			; SSE41-NEXT: movdqa %xmm12, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm6			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm13 = xmm6[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm12, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm13, %xmm0			; SSE41-NEXT: pand %xmm13, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm11, %xmm13			; SSE41-NEXT: movapd %xmm11, %xmm13
	; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm13			; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm13
	; SSE41-NEXT: movdqa %xmm4, %xmm0			; SSE41-NEXT: movdqa %xmm4, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm12, %xmm6			; SSE41-NEXT: movdqa %xmm12, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm6			; SSE41-NEXT: pcmpeqd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm6[0,0,2,2]			; SSE41-NEXT: movdqa %xmm12, %xmm7
	; SSE41-NEXT: pcmpeqd %xmm12, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm7[0,0,2,2]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0			; SSE41-NEXT: por %xmm7, %xmm0
	; SSE41-NEXT: movapd %xmm11, %xmm14			; SSE41-NEXT: movapd %xmm11, %xmm14
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm14			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm14
	; SSE41-NEXT: movdqa %xmm5, %xmm0			; SSE41-NEXT: movdqa %xmm5, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm12, %xmm4			; SSE41-NEXT: movdqa %xmm12, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE41-NEXT: movdqa %xmm12, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm12, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm11, %xmm15			; SSE41-NEXT: movapd %xmm11, %xmm15
	; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm15			; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm15
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm12, %xmm5			; SSE41-NEXT: movdqa %xmm12, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm5			; SSE41-NEXT: pcmpeqd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]			; SSE41-NEXT: movdqa %xmm12, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm12, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm5, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm11, %xmm5			; SSE41-NEXT: movapd %xmm11, %xmm5
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm5			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm5
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm12, %xmm2			; SSE41-NEXT: movdqa %xmm12, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm2[0,0,2,2]			; SSE41-NEXT: movdqa %xmm12, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm12, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm11, %xmm6			; SSE41-NEXT: movapd %xmm11, %xmm6
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm6			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm6
	; SSE41-NEXT: movdqa %xmm8, %xmm0			; SSE41-NEXT: movdqa %xmm8, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm12, %xmm2			; SSE41-NEXT: movdqa %xmm12, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: movdqa %xmm12, %xmm3
	; SSE41-NEXT: pcmpeqd %xmm12, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: movapd %xmm11, %xmm7			; SSE41-NEXT: movapd %xmm11, %xmm7
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm7			; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm7
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm9, %xmm0			; SSE41-NEXT: pxor %xmm9, %xmm0
	; SSE41-NEXT: movdqa %xmm12, %xmm2			; SSE41-NEXT: movdqa %xmm12, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm12
	; SSE41-NEXT: pcmpeqd %xmm12, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm12[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: por %xmm12, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm11			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm11
	; SSE41-NEXT: movapd {{.*#+}} xmm2 = [18446744073709551488,18446744073709551488]			; SSE41-NEXT: movapd {{.*#+}} xmm2 = [18446744073709551488,18446744073709551488]
	; SSE41-NEXT: movapd %xmm11, %xmm0			; SSE41-NEXT: movapd %xmm11, %xmm1
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm1
	; SSE41-NEXT: movdqa {{.*#+}} xmm8 = [18446744071562067840,18446744071562067840]			; SSE41-NEXT: movdqa {{.*#+}} xmm8 = [18446744071562067840,18446744071562067840]
	; SSE41-NEXT: movapd %xmm0, %xmm1			; SSE41-NEXT: movapd %xmm1, %xmm4
				; SSE41-NEXT: pcmpeqd %xmm8, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm8, %xmm1			; SSE41-NEXT: pcmpgtd %xmm8, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm8, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: movapd %xmm2, %xmm4			; SSE41-NEXT: movapd %xmm2, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm11, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm11, %xmm4
	; SSE41-NEXT: movapd %xmm7, %xmm0			; SSE41-NEXT: movapd %xmm7, %xmm1
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm1
	; SSE41-NEXT: movapd %xmm0, %xmm1			; SSE41-NEXT: movapd %xmm1, %xmm3
				; SSE41-NEXT: pcmpeqd %xmm8, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm8, %xmm1			; SSE41-NEXT: pcmpgtd %xmm8, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm8, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: movapd %xmm2, %xmm1			; SSE41-NEXT: movapd %xmm2, %xmm1
	; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm1
	; SSE41-NEXT: packssdw %xmm4, %xmm1			; SSE41-NEXT: packssdw %xmm4, %xmm1
	; SSE41-NEXT: movapd %xmm6, %xmm0			; SSE41-NEXT: movapd %xmm6, %xmm3
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm3
	; SSE41-NEXT: movapd %xmm0, %xmm3			; SSE41-NEXT: movapd %xmm3, %xmm4
				; SSE41-NEXT: pcmpeqd %xmm8, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm8, %xmm3			; SSE41-NEXT: pcmpgtd %xmm8, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm8, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: movapd %xmm2, %xmm3			; SSE41-NEXT: movapd %xmm2, %xmm3
	; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm3
	; SSE41-NEXT: movapd %xmm5, %xmm0			; SSE41-NEXT: movapd %xmm5, %xmm4
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm4
	; SSE41-NEXT: movapd %xmm0, %xmm4			; SSE41-NEXT: movapd %xmm4, %xmm6
				; SSE41-NEXT: pcmpeqd %xmm8, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm8, %xmm4			; SSE41-NEXT: pcmpgtd %xmm8, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm8, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: movapd %xmm2, %xmm4			; SSE41-NEXT: movapd %xmm2, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm4
	; SSE41-NEXT: packssdw %xmm3, %xmm4			; SSE41-NEXT: packssdw %xmm3, %xmm4
	; SSE41-NEXT: packssdw %xmm4, %xmm1			; SSE41-NEXT: packssdw %xmm4, %xmm1
	; SSE41-NEXT: movapd %xmm15, %xmm0			; SSE41-NEXT: movapd %xmm15, %xmm3
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm3
	; SSE41-NEXT: movapd %xmm0, %xmm3			; SSE41-NEXT: movapd %xmm3, %xmm4
				; SSE41-NEXT: pcmpeqd %xmm8, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm8, %xmm3			; SSE41-NEXT: pcmpgtd %xmm8, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm8, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: movapd %xmm2, %xmm3			; SSE41-NEXT: movapd %xmm2, %xmm3
	; SSE41-NEXT: blendvpd %xmm0, %xmm15, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm15, %xmm3
	; SSE41-NEXT: movapd %xmm14, %xmm0			; SSE41-NEXT: movapd %xmm14, %xmm4
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm4
	; SSE41-NEXT: movapd %xmm0, %xmm4			; SSE41-NEXT: movapd %xmm4, %xmm5
				; SSE41-NEXT: pcmpeqd %xmm8, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm8, %xmm4			; SSE41-NEXT: pcmpgtd %xmm8, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm8, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: movapd %xmm2, %xmm4			; SSE41-NEXT: movapd %xmm2, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm14, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm14, %xmm4
	; SSE41-NEXT: packssdw %xmm3, %xmm4			; SSE41-NEXT: packssdw %xmm3, %xmm4
	; SSE41-NEXT: movapd %xmm13, %xmm0			; SSE41-NEXT: movapd %xmm13, %xmm3
	; SSE41-NEXT: xorpd %xmm9, %xmm0			; SSE41-NEXT: xorpd %xmm9, %xmm3
	; SSE41-NEXT: movapd %xmm0, %xmm3			; SSE41-NEXT: movapd %xmm3, %xmm5
				; SSE41-NEXT: pcmpeqd %xmm8, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm8, %xmm3			; SSE41-NEXT: pcmpgtd %xmm8, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm3[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm8, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: movapd %xmm2, %xmm3			; SSE41-NEXT: movapd %xmm2, %xmm3
	; SSE41-NEXT: blendvpd %xmm0, %xmm13, %xmm3			; SSE41-NEXT: blendvpd %xmm0, %xmm13, %xmm3
	; SSE41-NEXT: xorpd %xmm10, %xmm9			; SSE41-NEXT: xorpd %xmm10, %xmm9
	; SSE41-NEXT: movapd %xmm9, %xmm5			; SSE41-NEXT: movapd %xmm9, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm8, %xmm5			; SSE41-NEXT: pcmpeqd %xmm8, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm8, %xmm9
	; SSE41-NEXT: pcmpeqd %xmm8, %xmm9			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm9[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm9[1,1,3,3]			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: por %xmm9, %xmm0
	; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm10, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm10, %xmm2
	; SSE41-NEXT: packssdw %xmm3, %xmm2			; SSE41-NEXT: packssdw %xmm3, %xmm2
	; SSE41-NEXT: packssdw %xmm2, %xmm4			; SSE41-NEXT: packssdw %xmm2, %xmm4
	; SSE41-NEXT: packsswb %xmm4, %xmm1			; SSE41-NEXT: packsswb %xmm4, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_ssat_v16i64_v16i8:			; AVX1-LABEL: trunc_ssat_v16i64_v16i8:
	▲ Show 20 Lines • Show All 486 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-trunc-usat-widen.ll

	Show First 20 Lines • Show All 81 Lines • ▼ Show 20 Lines
	; SSE41-LABEL: trunc_usat_v4i64_v4i32:			; SSE41-LABEL: trunc_usat_v4i64_v4i32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm2, %xmm3			; SSE41-NEXT: movdqa %xmm2, %xmm3
	; SSE41-NEXT: pxor %xmm0, %xmm3			; SSE41-NEXT: pxor %xmm0, %xmm3
	; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [9223372039002259455,9223372039002259455]			; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [9223372039002259455,9223372039002259455]
	; SSE41-NEXT: movdqa %xmm4, %xmm5			; SSE41-NEXT: movdqa %xmm4, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm5			; SSE41-NEXT: pcmpeqd %xmm3, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]			; SSE41-NEXT: movdqa %xmm4, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm4, %xmm3			; SSE41-NEXT: pcmpgtd %xmm3, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm6[0,0,2,2]
	; SSE41-NEXT: pand %xmm6, %xmm3			; SSE41-NEXT: pand %xmm5, %xmm3
	; SSE41-NEXT: por %xmm5, %xmm3			; SSE41-NEXT: por %xmm6, %xmm3
	; SSE41-NEXT: pxor %xmm1, %xmm0			; SSE41-NEXT: pxor %xmm1, %xmm0
	; SSE41-NEXT: movdqa %xmm4, %xmm5			; SSE41-NEXT: movdqa %xmm4, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm5			; SSE41-NEXT: pcmpeqd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm4, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: movapd {{.*#+}} xmm4 = [4294967295,4294967295]			; SSE41-NEXT: movapd {{.*#+}} xmm4 = [4294967295,4294967295]
	; SSE41-NEXT: movapd {{.*#+}} xmm5 = [4294967295,429496729]			; SSE41-NEXT: movapd {{.*#+}} xmm5 = [4294967295,429496729]
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm5			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm5
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm4
	; SSE41-NEXT: shufps {{.*#+}} xmm4 = xmm4[0,2],xmm5[0,2]			; SSE41-NEXT: shufps {{.*#+}} xmm4 = xmm4[0,2],xmm5[0,2]
	; SSE41-NEXT: movaps %xmm4, %xmm0			; SSE41-NEXT: movaps %xmm4, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	▲ Show 20 Lines • Show All 211 Lines • ▼ Show 20 Lines
	; SSSE3-NEXT: por %xmm1, %xmm0			; SSSE3-NEXT: por %xmm1, %xmm0
	; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm4[0,2]			; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm4[0,2]
	; SSSE3-NEXT: movaps %xmm3, %xmm1			; SSSE3-NEXT: movaps %xmm3, %xmm1
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: trunc_usat_v8i64_v8i32:			; SSE41-LABEL: trunc_usat_v8i64_v8i32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm8			; SSE41-NEXT: movdqa %xmm0, %xmm8
	; SSE41-NEXT: movapd {{.*#+}} xmm6 = [4294967295,4294967295]			; SSE41-NEXT: movapd {{.*#+}} xmm9 = [4294967295,4294967295]
	; SSE41-NEXT: movdqa {{.*#+}} xmm7 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm7, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [9223372039002259455,9223372039002259455]			; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [9223372039002259455,9223372039002259455]
	; SSE41-NEXT: movdqa %xmm9, %xmm4			; SSE41-NEXT: movdqa %xmm4, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: movdqa %xmm4, %xmm7
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm7[0,0,2,2]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm7, %xmm0
	; SSE41-NEXT: movapd %xmm6, %xmm5			; SSE41-NEXT: movapd %xmm9, %xmm6
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm5			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm6
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: pxor %xmm7, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm9, %xmm3			; SSE41-NEXT: movdqa %xmm4, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm3			; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]			; SSE41-NEXT: movdqa %xmm4, %xmm7
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm7[0,0,2,2]
	; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: movapd %xmm6, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm4
	; SSE41-NEXT: shufps {{.*#+}} xmm4 = xmm4[0,2],xmm5[0,2]
	; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm7, %xmm0
	; SSE41-NEXT: movdqa %xmm9, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm7, %xmm0
	; SSE41-NEXT: movapd %xmm6, %xmm2			; SSE41-NEXT: movapd %xmm9, %xmm3
				; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3
				; SSE41-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,2],xmm6[0,2]
				; SSE41-NEXT: movdqa %xmm1, %xmm0
				; SSE41-NEXT: pxor %xmm5, %xmm0
				; SSE41-NEXT: movdqa %xmm4, %xmm2
				; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
				; SSE41-NEXT: movdqa %xmm4, %xmm6
				; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
				; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
				; SSE41-NEXT: pand %xmm2, %xmm0
				; SSE41-NEXT: por %xmm6, %xmm0
				; SSE41-NEXT: movapd %xmm9, %xmm2
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2
	; SSE41-NEXT: pxor %xmm8, %xmm7			; SSE41-NEXT: pxor %xmm8, %xmm5
	; SSE41-NEXT: movdqa %xmm9, %xmm1			; SSE41-NEXT: movdqa %xmm4, %xmm1
	; SSE41-NEXT: pcmpgtd %xmm7, %xmm1			; SSE41-NEXT: pcmpeqd %xmm5, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm1[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm5, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm7			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm7[1,1,3,3]			; SSE41-NEXT: pand %xmm1, %xmm0
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm9
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm6			; SSE41-NEXT: shufps {{.*#+}} xmm9 = xmm9[0,2],xmm2[0,2]
	; SSE41-NEXT: shufps {{.*#+}} xmm6 = xmm6[0,2],xmm2[0,2]			; SSE41-NEXT: movaps %xmm9, %xmm0
	; SSE41-NEXT: movaps %xmm6, %xmm0			; SSE41-NEXT: movaps %xmm3, %xmm1
	; SSE41-NEXT: movaps %xmm4, %xmm1
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_usat_v8i64_v8i32:			; AVX1-LABEL: trunc_usat_v8i64_v8i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovapd {{.*#+}} ymm2 = [4294967295,4294967295,4294967295,4294967295]			; AVX1-NEXT: vmovapd {{.*#+}} ymm2 = [4294967295,4294967295,4294967295,4294967295]
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [9223372036854775808,9223372036854775808]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [9223372036854775808,9223372036854775808]
	; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3
	▲ Show 20 Lines • Show All 203 Lines • ▼ Show 20 Lines
	; SSSE3-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,1,0,2,4,5,6,7]			; SSSE3-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,1,0,2,4,5,6,7]
	; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; SSSE3-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]			; SSSE3-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: trunc_usat_v8i64_v8i16:			; SSE41-LABEL: trunc_usat_v8i64_v8i16:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm8			; SSE41-NEXT: movdqa %xmm0, %xmm8
	; SSE41-NEXT: movapd {{.*#+}} xmm5 = [65535,65535]			; SSE41-NEXT: movapd {{.*#+}} xmm9 = [65535,65535]
	; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm7 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm6, %xmm0			; SSE41-NEXT: pxor %xmm7, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [9223372039002324991,9223372039002324991]			; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [9223372039002324991,9223372039002324991]
	; SSE41-NEXT: movdqa %xmm9, %xmm7			; SSE41-NEXT: movdqa %xmm4, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm7			; SSE41-NEXT: pcmpeqd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm7[0,0,2,2]			; SSE41-NEXT: movdqa %xmm4, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm7, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm5, %xmm4			; SSE41-NEXT: movapd %xmm9, %xmm5
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm5
	; SSE41-NEXT: movdqa %xmm8, %xmm0			; SSE41-NEXT: movdqa %xmm8, %xmm0
	; SSE41-NEXT: pxor %xmm6, %xmm0			; SSE41-NEXT: pxor %xmm7, %xmm0
	; SSE41-NEXT: movdqa %xmm9, %xmm1			; SSE41-NEXT: movdqa %xmm4, %xmm1
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm1			; SSE41-NEXT: pcmpeqd %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm1[0,0,2,2]			; SSE41-NEXT: movdqa %xmm4, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm1, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm5, %xmm1			; SSE41-NEXT: movapd %xmm9, %xmm1
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm1
	; SSE41-NEXT: packusdw %xmm4, %xmm1			; SSE41-NEXT: packusdw %xmm5, %xmm1
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm6, %xmm0			; SSE41-NEXT: pxor %xmm7, %xmm0
	; SSE41-NEXT: movdqa %xmm9, %xmm4			; SSE41-NEXT: movdqa %xmm4, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm4[0,0,2,2]			; SSE41-NEXT: movdqa %xmm4, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
				; SSE41-NEXT: por %xmm6, %xmm0
				; SSE41-NEXT: movapd %xmm9, %xmm5
				; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm5
				; SSE41-NEXT: pxor %xmm2, %xmm7
				; SSE41-NEXT: movdqa %xmm4, %xmm3
				; SSE41-NEXT: pcmpeqd %xmm7, %xmm3
				; SSE41-NEXT: pcmpgtd %xmm7, %xmm4
				; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
				; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: movapd %xmm5, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm9
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm4			; SSE41-NEXT: packusdw %xmm5, %xmm9
	; SSE41-NEXT: pxor %xmm2, %xmm6			; SSE41-NEXT: packusdw %xmm9, %xmm1
	; SSE41-NEXT: movdqa %xmm9, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm6, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm3[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[1,1,3,3]
	; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm5
	; SSE41-NEXT: packusdw %xmm4, %xmm5
	; SSE41-NEXT: packusdw %xmm5, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_usat_v8i64_v8i16:			; AVX1-LABEL: trunc_usat_v8i64_v8i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovapd {{.*#+}} ymm2 = [65535,65535,65535,65535]			; AVX1-NEXT: vmovapd {{.*#+}} ymm2 = [65535,65535,65535,65535]
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [9223372036854775808,9223372036854775808]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [9223372036854775808,9223372036854775808]
	▲ Show 20 Lines • Show All 426 Lines • ▼ Show 20 Lines
	; SSSE3-NEXT: pand %xmm8, %xmm0			; SSSE3-NEXT: pand %xmm8, %xmm0
	; SSSE3-NEXT: packuswb %xmm4, %xmm0			; SSSE3-NEXT: packuswb %xmm4, %xmm0
	; SSSE3-NEXT: packuswb %xmm1, %xmm0			; SSSE3-NEXT: packuswb %xmm1, %xmm0
	; SSSE3-NEXT: packuswb %xmm0, %xmm0			; SSSE3-NEXT: packuswb %xmm0, %xmm0
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: trunc_usat_v8i64_v8i8:			; SSE41-LABEL: trunc_usat_v8i64_v8i8:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm5			; SSE41-NEXT: movdqa %xmm0, %xmm9
	; SSE41-NEXT: movapd {{.*#+}} xmm8 = [255,255]			; SSE41-NEXT: movapd {{.*#+}} xmm8 = [255,255]
	; SSE41-NEXT: movdqa {{.*#+}} xmm7 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm10 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: pxor %xmm7, %xmm0			; SSE41-NEXT: pxor %xmm10, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [9223372039002259711,9223372039002259711]			; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [9223372039002259711,9223372039002259711]
	; SSE41-NEXT: movdqa %xmm9, %xmm4			; SSE41-NEXT: movdqa %xmm5, %xmm4
				; SSE41-NEXT: pcmpeqd %xmm0, %xmm4
				; SSE41-NEXT: movdqa %xmm5, %xmm7
				; SSE41-NEXT: pcmpgtd %xmm0, %xmm7
				; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm7[0,0,2,2]
				; SSE41-NEXT: pand %xmm4, %xmm0
				; SSE41-NEXT: por %xmm7, %xmm0
				; SSE41-NEXT: movapd %xmm8, %xmm7
				; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm7
				; SSE41-NEXT: movdqa %xmm1, %xmm0
				; SSE41-NEXT: pxor %xmm10, %xmm0
				; SSE41-NEXT: movdqa %xmm5, %xmm6
				; SSE41-NEXT: pcmpeqd %xmm0, %xmm6
				; SSE41-NEXT: movdqa %xmm5, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: movapd %xmm8, %xmm4			; SSE41-NEXT: movapd %xmm8, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm4
	; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm7, %xmm0
	; SSE41-NEXT: movdqa %xmm9, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: movapd %xmm8, %xmm5
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm5
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: pxor %xmm7, %xmm0			; SSE41-NEXT: pxor %xmm10, %xmm0
	; SSE41-NEXT: movdqa %xmm9, %xmm1			; SSE41-NEXT: movdqa %xmm5, %xmm1
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm1			; SSE41-NEXT: pcmpeqd %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm1[0,0,2,2]			; SSE41-NEXT: movdqa %xmm5, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: pand %xmm1, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm8, %xmm1			; SSE41-NEXT: movapd %xmm8, %xmm1
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1
	; SSE41-NEXT: pxor %xmm3, %xmm7			; SSE41-NEXT: pxor %xmm3, %xmm10
	; SSE41-NEXT: movdqa %xmm9, %xmm2			; SSE41-NEXT: movdqa %xmm5, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm7, %xmm2			; SSE41-NEXT: pcmpeqd %xmm10, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm10, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm7			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm7[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: movapd %xmm8, %xmm2			; SSE41-NEXT: movapd %xmm8, %xmm2
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm2
	; SSE41-NEXT: andpd %xmm8, %xmm2			; SSE41-NEXT: andpd %xmm8, %xmm2
	; SSE41-NEXT: andpd %xmm8, %xmm1			; SSE41-NEXT: andpd %xmm8, %xmm1
	; SSE41-NEXT: packusdw %xmm2, %xmm1			; SSE41-NEXT: packusdw %xmm2, %xmm1
	; SSE41-NEXT: andpd %xmm8, %xmm5
	; SSE41-NEXT: andpd %xmm8, %xmm4			; SSE41-NEXT: andpd %xmm8, %xmm4
	; SSE41-NEXT: packusdw %xmm5, %xmm4			; SSE41-NEXT: andpd %xmm8, %xmm7
	; SSE41-NEXT: packusdw %xmm1, %xmm4			; SSE41-NEXT: packusdw %xmm4, %xmm7
	; SSE41-NEXT: packuswb %xmm4, %xmm4			; SSE41-NEXT: packusdw %xmm1, %xmm7
	; SSE41-NEXT: movdqa %xmm4, %xmm0			; SSE41-NEXT: packuswb %xmm7, %xmm7
				; SSE41-NEXT: movdqa %xmm7, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_usat_v8i64_v8i8:			; AVX1-LABEL: trunc_usat_v8i64_v8i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovapd {{.*#+}} ymm2 = [255,255,255,255]			; AVX1-NEXT: vmovapd {{.*#+}} ymm2 = [255,255,255,255]
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [9223372036854775808,9223372036854775808]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [9223372036854775808,9223372036854775808]
	; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3
	▲ Show 20 Lines • Show All 194 Lines • ▼ Show 20 Lines
	; SSSE3-NEXT: packuswb %xmm0, %xmm5			; SSSE3-NEXT: packuswb %xmm0, %xmm5
	; SSSE3-NEXT: packuswb %xmm1, %xmm5			; SSSE3-NEXT: packuswb %xmm1, %xmm5
	; SSSE3-NEXT: packuswb %xmm5, %xmm5			; SSSE3-NEXT: packuswb %xmm5, %xmm5
	; SSSE3-NEXT: movq %xmm5, (%rdi)			; SSSE3-NEXT: movq %xmm5, (%rdi)
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: trunc_usat_v8i64_v8i8_store:			; SSE41-LABEL: trunc_usat_v8i64_v8i8_store:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: movdqa %xmm0, %xmm9
	; SSE41-NEXT: movapd {{.*#+}} xmm8 = [255,255]			; SSE41-NEXT: movapd {{.*#+}} xmm8 = [255,255]
	; SSE41-NEXT: movdqa {{.*#+}} xmm7 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm10 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: pxor %xmm7, %xmm0			; SSE41-NEXT: pxor %xmm10, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [9223372039002259711,9223372039002259711]			; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [9223372039002259711,9223372039002259711]
	; SSE41-NEXT: movdqa %xmm9, %xmm6			; SSE41-NEXT: movdqa %xmm4, %xmm6
				; SSE41-NEXT: pcmpeqd %xmm0, %xmm6
				; SSE41-NEXT: movdqa %xmm4, %xmm7
				; SSE41-NEXT: pcmpgtd %xmm0, %xmm7
				; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm7[0,0,2,2]
				; SSE41-NEXT: pand %xmm6, %xmm0
				; SSE41-NEXT: por %xmm7, %xmm0
				; SSE41-NEXT: movapd %xmm8, %xmm7
				; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm7
				; SSE41-NEXT: movdqa %xmm1, %xmm0
				; SSE41-NEXT: pxor %xmm10, %xmm0
				; SSE41-NEXT: movdqa %xmm4, %xmm5
				; SSE41-NEXT: pcmpeqd %xmm0, %xmm5
				; SSE41-NEXT: movdqa %xmm4, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm6			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm6[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm8, %xmm6			; SSE41-NEXT: movapd %xmm8, %xmm6
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm6			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm6
	; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm7, %xmm0
	; SSE41-NEXT: movdqa %xmm9, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: movapd %xmm8, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm4
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: pxor %xmm7, %xmm0			; SSE41-NEXT: pxor %xmm10, %xmm0
	; SSE41-NEXT: movdqa %xmm9, %xmm1			; SSE41-NEXT: movdqa %xmm4, %xmm1
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm1			; SSE41-NEXT: pcmpeqd %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm1[0,0,2,2]			; SSE41-NEXT: movdqa %xmm4, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm1, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: movapd %xmm8, %xmm1			; SSE41-NEXT: movapd %xmm8, %xmm1
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1
	; SSE41-NEXT: pxor %xmm3, %xmm7			; SSE41-NEXT: pxor %xmm3, %xmm10
	; SSE41-NEXT: movdqa %xmm9, %xmm2			; SSE41-NEXT: movdqa %xmm4, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm7, %xmm2			; SSE41-NEXT: pcmpeqd %xmm10, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm10, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm7			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm7[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: movapd %xmm8, %xmm2			; SSE41-NEXT: movapd %xmm8, %xmm2
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm2
	; SSE41-NEXT: andpd %xmm8, %xmm2			; SSE41-NEXT: andpd %xmm8, %xmm2
	; SSE41-NEXT: andpd %xmm8, %xmm1			; SSE41-NEXT: andpd %xmm8, %xmm1
	; SSE41-NEXT: packusdw %xmm2, %xmm1			; SSE41-NEXT: packusdw %xmm2, %xmm1
	; SSE41-NEXT: andpd %xmm8, %xmm4
	; SSE41-NEXT: andpd %xmm8, %xmm6			; SSE41-NEXT: andpd %xmm8, %xmm6
	; SSE41-NEXT: packusdw %xmm4, %xmm6			; SSE41-NEXT: andpd %xmm8, %xmm7
	; SSE41-NEXT: packusdw %xmm1, %xmm6			; SSE41-NEXT: packusdw %xmm6, %xmm7
	; SSE41-NEXT: packuswb %xmm6, %xmm6			; SSE41-NEXT: packusdw %xmm1, %xmm7
	; SSE41-NEXT: movq %xmm6, (%rdi)			; SSE41-NEXT: packuswb %xmm7, %xmm7
				; SSE41-NEXT: movq %xmm7, (%rdi)
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_usat_v8i64_v8i8_store:			; AVX1-LABEL: trunc_usat_v8i64_v8i8_store:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovapd {{.*#+}} ymm2 = [255,255,255,255]			; AVX1-NEXT: vmovapd {{.*#+}} ymm2 = [255,255,255,255]
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [9223372036854775808,9223372036854775808]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [9223372036854775808,9223372036854775808]
	; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3
	▲ Show 20 Lines • Show All 298 Lines • ▼ Show 20 Lines
	; SSSE3-NEXT: packuswb %xmm2, %xmm1			; SSSE3-NEXT: packuswb %xmm2, %xmm1
	; SSSE3-NEXT: packuswb %xmm1, %xmm0			; SSSE3-NEXT: packuswb %xmm1, %xmm0
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: trunc_usat_v16i64_v16i8:			; SSE41-LABEL: trunc_usat_v16i64_v16i8:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm8			; SSE41-NEXT: movdqa %xmm0, %xmm8
	; SSE41-NEXT: movapd {{.*#+}} xmm9 = [255,255]			; SSE41-NEXT: movapd {{.*#+}} xmm9 = [255,255]
	; SSE41-NEXT: movdqa {{.*#+}} xmm10 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm11 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm10, %xmm0			; SSE41-NEXT: pxor %xmm11, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm11 = [9223372039002259711,9223372039002259711]			; SSE41-NEXT: movdqa {{.*#+}} xmm10 = [9223372039002259711,9223372039002259711]
	; SSE41-NEXT: movdqa %xmm11, %xmm12			; SSE41-NEXT: movdqa %xmm10, %xmm12
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm12			; SSE41-NEXT: pcmpeqd %xmm0, %xmm12
	; SSE41-NEXT: pshufd {{.*#+}} xmm13 = xmm12[0,0,2,2]			; SSE41-NEXT: movdqa %xmm10, %xmm13
	; SSE41-NEXT: pcmpeqd %xmm11, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm13
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm13[0,0,2,2]
	; SSE41-NEXT: pand %xmm13, %xmm0			; SSE41-NEXT: pand %xmm12, %xmm0
	; SSE41-NEXT: por %xmm12, %xmm0			; SSE41-NEXT: por %xmm13, %xmm0
	; SSE41-NEXT: movapd %xmm9, %xmm12			; SSE41-NEXT: movapd %xmm9, %xmm12
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm12			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm12
	; SSE41-NEXT: movdqa %xmm8, %xmm0			; SSE41-NEXT: movdqa %xmm8, %xmm0
	; SSE41-NEXT: pxor %xmm10, %xmm0			; SSE41-NEXT: pxor %xmm11, %xmm0
	; SSE41-NEXT: movdqa %xmm11, %xmm1			; SSE41-NEXT: movdqa %xmm10, %xmm13
				; SSE41-NEXT: pcmpeqd %xmm0, %xmm13
				; SSE41-NEXT: movdqa %xmm10, %xmm1
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm1			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm13 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm11, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm13, %xmm0			; SSE41-NEXT: pand %xmm13, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: movapd %xmm9, %xmm13			; SSE41-NEXT: movapd %xmm9, %xmm13
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm13			; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm13
	; SSE41-NEXT: packusdw %xmm12, %xmm13			; SSE41-NEXT: packusdw %xmm12, %xmm13
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm10, %xmm0			; SSE41-NEXT: pxor %xmm11, %xmm0
	; SSE41-NEXT: movdqa %xmm11, %xmm1			; SSE41-NEXT: movdqa %xmm10, %xmm8
				; SSE41-NEXT: pcmpeqd %xmm0, %xmm8
				; SSE41-NEXT: movdqa %xmm10, %xmm1
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm1			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm8 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm11, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm8, %xmm0			; SSE41-NEXT: pand %xmm8, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: movapd %xmm9, %xmm1			; SSE41-NEXT: movapd %xmm9, %xmm8
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm8
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: pxor %xmm10, %xmm0			; SSE41-NEXT: pxor %xmm11, %xmm0
	; SSE41-NEXT: movdqa %xmm11, %xmm3			; SSE41-NEXT: movdqa %xmm10, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm3			; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm8 = xmm3[0,0,2,2]			; SSE41-NEXT: movdqa %xmm10, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm11, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm8, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: movapd %xmm9, %xmm3
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3
	; SSE41-NEXT: packusdw %xmm1, %xmm3
	; SSE41-NEXT: packusdw %xmm3, %xmm13
	; SSE41-NEXT: movdqa %xmm5, %xmm0
	; SSE41-NEXT: pxor %xmm10, %xmm0
	; SSE41-NEXT: movdqa %xmm11, %xmm1
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm1			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm11, %xmm0			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: movapd %xmm9, %xmm1			; SSE41-NEXT: movapd %xmm9, %xmm1
	; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1
	; SSE41-NEXT: movdqa %xmm4, %xmm0			; SSE41-NEXT: packusdw %xmm8, %xmm1
	; SSE41-NEXT: pxor %xmm10, %xmm0			; SSE41-NEXT: packusdw %xmm1, %xmm13
	; SSE41-NEXT: movdqa %xmm11, %xmm2			; SSE41-NEXT: movdqa %xmm5, %xmm0
				; SSE41-NEXT: pxor %xmm11, %xmm0
				; SSE41-NEXT: movdqa %xmm10, %xmm1
				; SSE41-NEXT: pcmpeqd %xmm0, %xmm1
				; SSE41-NEXT: movdqa %xmm10, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpgtd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm11, %xmm0			; SSE41-NEXT: pand %xmm1, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm2, %xmm0
				; SSE41-NEXT: movapd %xmm9, %xmm1
				; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm1
				; SSE41-NEXT: movdqa %xmm4, %xmm0
				; SSE41-NEXT: pxor %xmm11, %xmm0
				; SSE41-NEXT: movdqa %xmm10, %xmm2
				; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
				; SSE41-NEXT: movdqa %xmm10, %xmm3
				; SSE41-NEXT: pcmpgtd %xmm0, %xmm3
				; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
				; SSE41-NEXT: pand %xmm2, %xmm0
				; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: movapd %xmm9, %xmm2			; SSE41-NEXT: movapd %xmm9, %xmm2
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2
	; SSE41-NEXT: packusdw %xmm1, %xmm2			; SSE41-NEXT: packusdw %xmm1, %xmm2
	; SSE41-NEXT: movdqa %xmm7, %xmm0			; SSE41-NEXT: movdqa %xmm7, %xmm0
	; SSE41-NEXT: pxor %xmm10, %xmm0			; SSE41-NEXT: pxor %xmm11, %xmm0
	; SSE41-NEXT: movdqa %xmm11, %xmm1			; SSE41-NEXT: movdqa %xmm10, %xmm1
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm1			; SSE41-NEXT: pcmpeqd %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm1[0,0,2,2]			; SSE41-NEXT: movdqa %xmm10, %xmm3
	; SSE41-NEXT: pcmpeqd %xmm11, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: pand %xmm1, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: movapd %xmm9, %xmm1			; SSE41-NEXT: movapd %xmm9, %xmm1
	; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm1
	; SSE41-NEXT: pxor %xmm6, %xmm10			; SSE41-NEXT: pxor %xmm6, %xmm11
	; SSE41-NEXT: movdqa %xmm11, %xmm3			; SSE41-NEXT: movdqa %xmm10, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm10, %xmm3			; SSE41-NEXT: pcmpeqd %xmm11, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm11, %xmm10
	; SSE41-NEXT: pcmpeqd %xmm11, %xmm10			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm10[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm10[1,1,3,3]			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: por %xmm10, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm9			; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm9
	; SSE41-NEXT: packusdw %xmm1, %xmm9			; SSE41-NEXT: packusdw %xmm1, %xmm9
	; SSE41-NEXT: packusdw %xmm9, %xmm2			; SSE41-NEXT: packusdw %xmm9, %xmm2
	; SSE41-NEXT: packuswb %xmm2, %xmm13			; SSE41-NEXT: packuswb %xmm2, %xmm13
	; SSE41-NEXT: movdqa %xmm13, %xmm0			; SSE41-NEXT: movdqa %xmm13, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_usat_v16i64_v16i8:			; AVX1-LABEL: trunc_usat_v16i64_v16i8:
	▲ Show 20 Lines • Show All 661 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-trunc-usat.ll

	Show First 20 Lines • Show All 81 Lines • ▼ Show 20 Lines
	; SSE41-LABEL: trunc_usat_v4i64_v4i32:			; SSE41-LABEL: trunc_usat_v4i64_v4i32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm2, %xmm3			; SSE41-NEXT: movdqa %xmm2, %xmm3
	; SSE41-NEXT: pxor %xmm0, %xmm3			; SSE41-NEXT: pxor %xmm0, %xmm3
	; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [9223372039002259455,9223372039002259455]			; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [9223372039002259455,9223372039002259455]
	; SSE41-NEXT: movdqa %xmm4, %xmm5			; SSE41-NEXT: movdqa %xmm4, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm3, %xmm5			; SSE41-NEXT: pcmpeqd %xmm3, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]			; SSE41-NEXT: movdqa %xmm4, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm4, %xmm3			; SSE41-NEXT: pcmpgtd %xmm3, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm6[0,0,2,2]
	; SSE41-NEXT: pand %xmm6, %xmm3			; SSE41-NEXT: pand %xmm5, %xmm3
	; SSE41-NEXT: por %xmm5, %xmm3			; SSE41-NEXT: por %xmm6, %xmm3
	; SSE41-NEXT: pxor %xmm1, %xmm0			; SSE41-NEXT: pxor %xmm1, %xmm0
	; SSE41-NEXT: movdqa %xmm4, %xmm5			; SSE41-NEXT: movdqa %xmm4, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm5			; SSE41-NEXT: pcmpeqd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm5[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm4, %xmm0			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: pand %xmm6, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: movapd {{.*#+}} xmm4 = [4294967295,4294967295]			; SSE41-NEXT: movapd {{.*#+}} xmm4 = [4294967295,4294967295]
	; SSE41-NEXT: movapd {{.*#+}} xmm5 = [4294967295,429496729]			; SSE41-NEXT: movapd {{.*#+}} xmm5 = [4294967295,429496729]
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm5			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm5
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm4
	; SSE41-NEXT: shufps {{.*#+}} xmm4 = xmm4[0,2],xmm5[0,2]			; SSE41-NEXT: shufps {{.*#+}} xmm4 = xmm4[0,2],xmm5[0,2]
	; SSE41-NEXT: movaps %xmm4, %xmm0			; SSE41-NEXT: movaps %xmm4, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	▲ Show 20 Lines • Show All 211 Lines • ▼ Show 20 Lines
	; SSSE3-NEXT: por %xmm1, %xmm0			; SSSE3-NEXT: por %xmm1, %xmm0
	; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm4[0,2]			; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,2],xmm4[0,2]
	; SSSE3-NEXT: movaps %xmm3, %xmm1			; SSSE3-NEXT: movaps %xmm3, %xmm1
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: trunc_usat_v8i64_v8i32:			; SSE41-LABEL: trunc_usat_v8i64_v8i32:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm8			; SSE41-NEXT: movdqa %xmm0, %xmm8
	; SSE41-NEXT: movapd {{.*#+}} xmm6 = [4294967295,4294967295]			; SSE41-NEXT: movapd {{.*#+}} xmm9 = [4294967295,4294967295]
	; SSE41-NEXT: movdqa {{.*#+}} xmm7 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm7, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [9223372039002259455,9223372039002259455]			; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [9223372039002259455,9223372039002259455]
	; SSE41-NEXT: movdqa %xmm9, %xmm4			; SSE41-NEXT: movdqa %xmm4, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]			; SSE41-NEXT: movdqa %xmm4, %xmm7
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm7[0,0,2,2]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm6, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm7, %xmm0
	; SSE41-NEXT: movapd %xmm6, %xmm5			; SSE41-NEXT: movapd %xmm9, %xmm6
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm5			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm6
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: pxor %xmm7, %xmm0			; SSE41-NEXT: pxor %xmm5, %xmm0
	; SSE41-NEXT: movdqa %xmm9, %xmm3			; SSE41-NEXT: movdqa %xmm4, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm3			; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]			; SSE41-NEXT: movdqa %xmm4, %xmm7
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm7
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm7[0,0,2,2]
	; SSE41-NEXT: pand %xmm4, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: movapd %xmm6, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm4
	; SSE41-NEXT: shufps {{.*#+}} xmm4 = xmm4[0,2],xmm5[0,2]
	; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm7, %xmm0
	; SSE41-NEXT: movdqa %xmm9, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm7, %xmm0
	; SSE41-NEXT: movapd %xmm6, %xmm2			; SSE41-NEXT: movapd %xmm9, %xmm3
				; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3
				; SSE41-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,2],xmm6[0,2]
				; SSE41-NEXT: movdqa %xmm1, %xmm0
				; SSE41-NEXT: pxor %xmm5, %xmm0
				; SSE41-NEXT: movdqa %xmm4, %xmm2
				; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
				; SSE41-NEXT: movdqa %xmm4, %xmm6
				; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
				; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
				; SSE41-NEXT: pand %xmm2, %xmm0
				; SSE41-NEXT: por %xmm6, %xmm0
				; SSE41-NEXT: movapd %xmm9, %xmm2
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm2
	; SSE41-NEXT: pxor %xmm8, %xmm7			; SSE41-NEXT: pxor %xmm8, %xmm5
	; SSE41-NEXT: movdqa %xmm9, %xmm1			; SSE41-NEXT: movdqa %xmm4, %xmm1
	; SSE41-NEXT: pcmpgtd %xmm7, %xmm1			; SSE41-NEXT: pcmpeqd %xmm5, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm1[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm5, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm7			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm7[1,1,3,3]			; SSE41-NEXT: pand %xmm1, %xmm0
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm9
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm6			; SSE41-NEXT: shufps {{.*#+}} xmm9 = xmm9[0,2],xmm2[0,2]
	; SSE41-NEXT: shufps {{.*#+}} xmm6 = xmm6[0,2],xmm2[0,2]			; SSE41-NEXT: movaps %xmm9, %xmm0
	; SSE41-NEXT: movaps %xmm6, %xmm0			; SSE41-NEXT: movaps %xmm3, %xmm1
	; SSE41-NEXT: movaps %xmm4, %xmm1
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_usat_v8i64_v8i32:			; AVX1-LABEL: trunc_usat_v8i64_v8i32:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovapd {{.*#+}} ymm2 = [4294967295,4294967295,4294967295,4294967295]			; AVX1-NEXT: vmovapd {{.*#+}} ymm2 = [4294967295,4294967295,4294967295,4294967295]
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [9223372036854775808,9223372036854775808]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [9223372036854775808,9223372036854775808]
	; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3
	▲ Show 20 Lines • Show All 203 Lines • ▼ Show 20 Lines
	; SSSE3-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,1,0,2,4,5,6,7]			; SSSE3-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,1,0,2,4,5,6,7]
	; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
	; SSSE3-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]			; SSSE3-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: trunc_usat_v8i64_v8i16:			; SSE41-LABEL: trunc_usat_v8i64_v8i16:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm8			; SSE41-NEXT: movdqa %xmm0, %xmm8
	; SSE41-NEXT: movapd {{.*#+}} xmm5 = [65535,65535]			; SSE41-NEXT: movapd {{.*#+}} xmm9 = [65535,65535]
	; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm7 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm6, %xmm0			; SSE41-NEXT: pxor %xmm7, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [9223372039002324991,9223372039002324991]			; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [9223372039002324991,9223372039002324991]
	; SSE41-NEXT: movdqa %xmm9, %xmm7			; SSE41-NEXT: movdqa %xmm4, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm7			; SSE41-NEXT: pcmpeqd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm7[0,0,2,2]			; SSE41-NEXT: movdqa %xmm4, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm7, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm5, %xmm4			; SSE41-NEXT: movapd %xmm9, %xmm5
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm5
	; SSE41-NEXT: movdqa %xmm8, %xmm0			; SSE41-NEXT: movdqa %xmm8, %xmm0
	; SSE41-NEXT: pxor %xmm6, %xmm0			; SSE41-NEXT: pxor %xmm7, %xmm0
	; SSE41-NEXT: movdqa %xmm9, %xmm1			; SSE41-NEXT: movdqa %xmm4, %xmm1
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm1			; SSE41-NEXT: pcmpeqd %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm1[0,0,2,2]			; SSE41-NEXT: movdqa %xmm4, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm1, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm5, %xmm1			; SSE41-NEXT: movapd %xmm9, %xmm1
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm1
	; SSE41-NEXT: packusdw %xmm4, %xmm1			; SSE41-NEXT: packusdw %xmm5, %xmm1
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm6, %xmm0			; SSE41-NEXT: pxor %xmm7, %xmm0
	; SSE41-NEXT: movdqa %xmm9, %xmm4			; SSE41-NEXT: movdqa %xmm4, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm4[0,0,2,2]			; SSE41-NEXT: movdqa %xmm4, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
				; SSE41-NEXT: por %xmm6, %xmm0
				; SSE41-NEXT: movapd %xmm9, %xmm5
				; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm5
				; SSE41-NEXT: pxor %xmm2, %xmm7
				; SSE41-NEXT: movdqa %xmm4, %xmm3
				; SSE41-NEXT: pcmpeqd %xmm7, %xmm3
				; SSE41-NEXT: pcmpgtd %xmm7, %xmm4
				; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
				; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: movapd %xmm5, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm9
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm4			; SSE41-NEXT: packusdw %xmm5, %xmm9
	; SSE41-NEXT: pxor %xmm2, %xmm6			; SSE41-NEXT: packusdw %xmm9, %xmm1
	; SSE41-NEXT: movdqa %xmm9, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm6, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm3[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[1,1,3,3]
	; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm5
	; SSE41-NEXT: packusdw %xmm4, %xmm5
	; SSE41-NEXT: packusdw %xmm5, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_usat_v8i64_v8i16:			; AVX1-LABEL: trunc_usat_v8i64_v8i16:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovapd {{.*#+}} ymm2 = [65535,65535,65535,65535]			; AVX1-NEXT: vmovapd {{.*#+}} ymm2 = [65535,65535,65535,65535]
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [9223372036854775808,9223372036854775808]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [9223372036854775808,9223372036854775808]
	▲ Show 20 Lines • Show All 417 Lines • ▼ Show 20 Lines
	; SSSE3-NEXT: por %xmm2, %xmm1			; SSSE3-NEXT: por %xmm2, %xmm1
	; SSSE3-NEXT: packuswb %xmm4, %xmm1			; SSSE3-NEXT: packuswb %xmm4, %xmm1
	; SSSE3-NEXT: packuswb %xmm1, %xmm0			; SSSE3-NEXT: packuswb %xmm1, %xmm0
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: trunc_usat_v8i64_v8i8:			; SSE41-LABEL: trunc_usat_v8i64_v8i8:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm8			; SSE41-NEXT: movdqa %xmm0, %xmm8
	; SSE41-NEXT: movapd {{.*#+}} xmm5 = [255,255]			; SSE41-NEXT: movapd {{.*#+}} xmm9 = [255,255]
	; SSE41-NEXT: movdqa {{.*#+}} xmm6 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm7 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm6, %xmm0			; SSE41-NEXT: pxor %xmm7, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [9223372039002259711,9223372039002259711]			; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [9223372039002259711,9223372039002259711]
	; SSE41-NEXT: movdqa %xmm9, %xmm7			; SSE41-NEXT: movdqa %xmm4, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm7			; SSE41-NEXT: pcmpeqd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm7[0,0,2,2]			; SSE41-NEXT: movdqa %xmm4, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm7, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm5, %xmm4			; SSE41-NEXT: movapd %xmm9, %xmm5
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm5
	; SSE41-NEXT: movdqa %xmm8, %xmm0			; SSE41-NEXT: movdqa %xmm8, %xmm0
	; SSE41-NEXT: pxor %xmm6, %xmm0			; SSE41-NEXT: pxor %xmm7, %xmm0
	; SSE41-NEXT: movdqa %xmm9, %xmm1			; SSE41-NEXT: movdqa %xmm4, %xmm1
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm1			; SSE41-NEXT: pcmpeqd %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm1[0,0,2,2]			; SSE41-NEXT: movdqa %xmm4, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm1, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm5, %xmm1			; SSE41-NEXT: movapd %xmm9, %xmm1
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm1
	; SSE41-NEXT: packusdw %xmm4, %xmm1			; SSE41-NEXT: packusdw %xmm5, %xmm1
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm6, %xmm0			; SSE41-NEXT: pxor %xmm7, %xmm0
	; SSE41-NEXT: movdqa %xmm9, %xmm4			; SSE41-NEXT: movdqa %xmm4, %xmm5
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4			; SSE41-NEXT: pcmpeqd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm4[0,0,2,2]			; SSE41-NEXT: movdqa %xmm4, %xmm6
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pand %xmm7, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
				; SSE41-NEXT: por %xmm6, %xmm0
				; SSE41-NEXT: movapd %xmm9, %xmm5
				; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm5
				; SSE41-NEXT: pxor %xmm2, %xmm7
				; SSE41-NEXT: movdqa %xmm4, %xmm3
				; SSE41-NEXT: pcmpeqd %xmm7, %xmm3
				; SSE41-NEXT: pcmpgtd %xmm7, %xmm4
				; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
				; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: movapd %xmm5, %xmm4			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm9
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm4			; SSE41-NEXT: packusdw %xmm5, %xmm9
	; SSE41-NEXT: pxor %xmm2, %xmm6			; SSE41-NEXT: packusdw %xmm9, %xmm1
	; SSE41-NEXT: movdqa %xmm9, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm6, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm3[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[1,1,3,3]
	; SSE41-NEXT: pand %xmm7, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm5
	; SSE41-NEXT: packusdw %xmm4, %xmm5
	; SSE41-NEXT: packusdw %xmm5, %xmm1
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_usat_v8i64_v8i8:			; AVX1-LABEL: trunc_usat_v8i64_v8i8:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovapd {{.*#+}} ymm2 = [255,255,255,255]			; AVX1-NEXT: vmovapd {{.*#+}} ymm2 = [255,255,255,255]
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [9223372036854775808,9223372036854775808]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [9223372036854775808,9223372036854775808]
	▲ Show 20 Lines • Show All 181 Lines • ▼ Show 20 Lines
	; SSSE3-NEXT: packuswb %xmm0, %xmm5			; SSSE3-NEXT: packuswb %xmm0, %xmm5
	; SSSE3-NEXT: packuswb %xmm1, %xmm5			; SSSE3-NEXT: packuswb %xmm1, %xmm5
	; SSSE3-NEXT: packuswb %xmm5, %xmm5			; SSSE3-NEXT: packuswb %xmm5, %xmm5
	; SSSE3-NEXT: movq %xmm5, (%rdi)			; SSSE3-NEXT: movq %xmm5, (%rdi)
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: trunc_usat_v8i64_v8i8_store:			; SSE41-LABEL: trunc_usat_v8i64_v8i8_store:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm4			; SSE41-NEXT: movdqa %xmm0, %xmm9
	; SSE41-NEXT: movapd {{.*#+}} xmm8 = [255,255]			; SSE41-NEXT: movapd {{.*#+}} xmm8 = [255,255]
	; SSE41-NEXT: movdqa {{.*#+}} xmm7 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm10 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: pxor %xmm7, %xmm0			; SSE41-NEXT: pxor %xmm10, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm9 = [9223372039002259711,9223372039002259711]			; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [9223372039002259711,9223372039002259711]
	; SSE41-NEXT: movdqa %xmm9, %xmm6			; SSE41-NEXT: movdqa %xmm4, %xmm6
				; SSE41-NEXT: pcmpeqd %xmm0, %xmm6
				; SSE41-NEXT: movdqa %xmm4, %xmm7
				; SSE41-NEXT: pcmpgtd %xmm0, %xmm7
				; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm7[0,0,2,2]
				; SSE41-NEXT: pand %xmm6, %xmm0
				; SSE41-NEXT: por %xmm7, %xmm0
				; SSE41-NEXT: movapd %xmm8, %xmm7
				; SSE41-NEXT: blendvpd %xmm0, %xmm9, %xmm7
				; SSE41-NEXT: movdqa %xmm1, %xmm0
				; SSE41-NEXT: pxor %xmm10, %xmm0
				; SSE41-NEXT: movdqa %xmm4, %xmm5
				; SSE41-NEXT: pcmpeqd %xmm0, %xmm5
				; SSE41-NEXT: movdqa %xmm4, %xmm6
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm6			; SSE41-NEXT: pcmpgtd %xmm0, %xmm6
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm6[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm6[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm6, %xmm0			; SSE41-NEXT: por %xmm6, %xmm0
	; SSE41-NEXT: movapd %xmm8, %xmm6			; SSE41-NEXT: movapd %xmm8, %xmm6
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm6			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm6
	; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm7, %xmm0
	; SSE41-NEXT: movdqa %xmm9, %xmm4
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm4
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm5, %xmm0
	; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: movapd %xmm8, %xmm4
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm4
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: pxor %xmm7, %xmm0			; SSE41-NEXT: pxor %xmm10, %xmm0
	; SSE41-NEXT: movdqa %xmm9, %xmm1			; SSE41-NEXT: movdqa %xmm4, %xmm1
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm1			; SSE41-NEXT: pcmpeqd %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm1[0,0,2,2]			; SSE41-NEXT: movdqa %xmm4, %xmm5
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm5
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: pand %xmm1, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm5, %xmm0
	; SSE41-NEXT: movapd %xmm8, %xmm1			; SSE41-NEXT: movapd %xmm8, %xmm1
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1
	; SSE41-NEXT: pxor %xmm3, %xmm7			; SSE41-NEXT: pxor %xmm3, %xmm10
	; SSE41-NEXT: movdqa %xmm9, %xmm2			; SSE41-NEXT: movdqa %xmm4, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm7, %xmm2			; SSE41-NEXT: pcmpeqd %xmm10, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm2[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm10, %xmm4
	; SSE41-NEXT: pcmpeqd %xmm9, %xmm7			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm4[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm7[1,1,3,3]			; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: pand %xmm5, %xmm0			; SSE41-NEXT: por %xmm4, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: movapd %xmm8, %xmm2			; SSE41-NEXT: movapd %xmm8, %xmm2
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm2
	; SSE41-NEXT: andpd %xmm8, %xmm2			; SSE41-NEXT: andpd %xmm8, %xmm2
	; SSE41-NEXT: andpd %xmm8, %xmm1			; SSE41-NEXT: andpd %xmm8, %xmm1
	; SSE41-NEXT: packusdw %xmm2, %xmm1			; SSE41-NEXT: packusdw %xmm2, %xmm1
	; SSE41-NEXT: andpd %xmm8, %xmm4
	; SSE41-NEXT: andpd %xmm8, %xmm6			; SSE41-NEXT: andpd %xmm8, %xmm6
	; SSE41-NEXT: packusdw %xmm4, %xmm6			; SSE41-NEXT: andpd %xmm8, %xmm7
	; SSE41-NEXT: packusdw %xmm1, %xmm6			; SSE41-NEXT: packusdw %xmm6, %xmm7
	; SSE41-NEXT: packuswb %xmm6, %xmm6			; SSE41-NEXT: packusdw %xmm1, %xmm7
	; SSE41-NEXT: movq %xmm6, (%rdi)			; SSE41-NEXT: packuswb %xmm7, %xmm7
				; SSE41-NEXT: movq %xmm7, (%rdi)
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_usat_v8i64_v8i8_store:			; AVX1-LABEL: trunc_usat_v8i64_v8i8_store:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vmovapd {{.*#+}} ymm2 = [255,255,255,255]			; AVX1-NEXT: vmovapd {{.*#+}} ymm2 = [255,255,255,255]
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [9223372036854775808,9223372036854775808]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [9223372036854775808,9223372036854775808]
	; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3			; AVX1-NEXT: vpxor %xmm4, %xmm3, %xmm3
	Show All 25 Lines
	; AVX1-NEXT: vmovq %xmm0, (%rdi)			; AVX1-NEXT: vmovq %xmm0, (%rdi)
	; AVX1-NEXT: vzeroupper			; AVX1-NEXT: vzeroupper
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: trunc_usat_v8i64_v8i8_store:			; AVX2-LABEL: trunc_usat_v8i64_v8i8_store:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vbroadcastsd {{.*#+}} ymm2 = [255,255,255,255]			; AVX2-NEXT: vbroadcastsd {{.*#+}} ymm2 = [255,255,255,255]
	; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm3 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]			; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm3 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]
	; AVX2-NEXT: vpxor %ymm3, %ymm0, %ymm4			; AVX2-NEXT: vpxor %ymm3, %ymm1, %ymm4
	; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm5 = [9223372036854776063,9223372036854776063,9223372036854776063,9223372036854776063]			; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm5 = [9223372036854776063,9223372036854776063,9223372036854776063,9223372036854776063]
	; AVX2-NEXT: vpcmpgtq %ymm4, %ymm5, %ymm4			; AVX2-NEXT: vpcmpgtq %ymm4, %ymm5, %ymm4
	; AVX2-NEXT: vblendvpd %ymm4, %ymm0, %ymm2, %ymm0			; AVX2-NEXT: vblendvpd %ymm4, %ymm1, %ymm2, %ymm1
	; AVX2-NEXT: vpxor %ymm3, %ymm1, %ymm3			; AVX2-NEXT: vpxor %ymm3, %ymm0, %ymm3
	; AVX2-NEXT: vpcmpgtq %ymm3, %ymm5, %ymm3			; AVX2-NEXT: vpcmpgtq %ymm3, %ymm5, %ymm3
	; AVX2-NEXT: vblendvpd %ymm3, %ymm1, %ymm2, %ymm1			; AVX2-NEXT: vblendvpd %ymm3, %ymm0, %ymm2, %ymm0
				; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm2
				; AVX2-NEXT: vpackusdw %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm2			; AVX2-NEXT: vextractf128 $1, %ymm1, %xmm2
	; AVX2-NEXT: vpackusdw %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vpackusdw %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
	; AVX2-NEXT: vpshufb %xmm2, %xmm1, %xmm1			; AVX2-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; AVX2-NEXT: vextractf128 $1, %ymm0, %xmm3
	; AVX2-NEXT: vpackusdw %xmm3, %xmm0, %xmm0
	; AVX2-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; AVX2-NEXT: vpunpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; AVX2-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]
	; AVX2-NEXT: vmovq %xmm0, (%rdi)			; AVX2-NEXT: vmovq %xmm0, (%rdi)
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: trunc_usat_v8i64_v8i8_store:			; AVX512-LABEL: trunc_usat_v8i64_v8i8_store:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: vpmovusqb %zmm0, (%rdi)			; AVX512-NEXT: vpmovusqb %zmm0, (%rdi)
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	▲ Show 20 Lines • Show All 239 Lines • ▼ Show 20 Lines
	; SSSE3-NEXT: packuswb %xmm2, %xmm1			; SSSE3-NEXT: packuswb %xmm2, %xmm1
	; SSSE3-NEXT: packuswb %xmm1, %xmm0			; SSSE3-NEXT: packuswb %xmm1, %xmm0
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: trunc_usat_v16i64_v16i8:			; SSE41-LABEL: trunc_usat_v16i64_v16i8:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm8			; SSE41-NEXT: movdqa %xmm0, %xmm8
	; SSE41-NEXT: movapd {{.*#+}} xmm9 = [255,255]			; SSE41-NEXT: movapd {{.*#+}} xmm9 = [255,255]
	; SSE41-NEXT: movdqa {{.*#+}} xmm10 = [9223372039002259456,9223372039002259456]			; SSE41-NEXT: movdqa {{.*#+}} xmm11 = [9223372039002259456,9223372039002259456]
	; SSE41-NEXT: movdqa %xmm1, %xmm0			; SSE41-NEXT: movdqa %xmm1, %xmm0
	; SSE41-NEXT: pxor %xmm10, %xmm0			; SSE41-NEXT: pxor %xmm11, %xmm0
	; SSE41-NEXT: movdqa {{.*#+}} xmm11 = [9223372039002259711,9223372039002259711]			; SSE41-NEXT: movdqa {{.*#+}} xmm10 = [9223372039002259711,9223372039002259711]
	; SSE41-NEXT: movdqa %xmm11, %xmm12			; SSE41-NEXT: movdqa %xmm10, %xmm12
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm12			; SSE41-NEXT: pcmpeqd %xmm0, %xmm12
	; SSE41-NEXT: pshufd {{.*#+}} xmm13 = xmm12[0,0,2,2]			; SSE41-NEXT: movdqa %xmm10, %xmm13
	; SSE41-NEXT: pcmpeqd %xmm11, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm13
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm13[0,0,2,2]
	; SSE41-NEXT: pand %xmm13, %xmm0			; SSE41-NEXT: pand %xmm12, %xmm0
	; SSE41-NEXT: por %xmm12, %xmm0			; SSE41-NEXT: por %xmm13, %xmm0
	; SSE41-NEXT: movapd %xmm9, %xmm12			; SSE41-NEXT: movapd %xmm9, %xmm12
	; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm12			; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm12
	; SSE41-NEXT: movdqa %xmm8, %xmm0			; SSE41-NEXT: movdqa %xmm8, %xmm0
	; SSE41-NEXT: pxor %xmm10, %xmm0			; SSE41-NEXT: pxor %xmm11, %xmm0
	; SSE41-NEXT: movdqa %xmm11, %xmm1			; SSE41-NEXT: movdqa %xmm10, %xmm13
				; SSE41-NEXT: pcmpeqd %xmm0, %xmm13
				; SSE41-NEXT: movdqa %xmm10, %xmm1
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm1			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm13 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm11, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm13, %xmm0			; SSE41-NEXT: pand %xmm13, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: movapd %xmm9, %xmm13			; SSE41-NEXT: movapd %xmm9, %xmm13
	; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm13			; SSE41-NEXT: blendvpd %xmm0, %xmm8, %xmm13
	; SSE41-NEXT: packusdw %xmm12, %xmm13			; SSE41-NEXT: packusdw %xmm12, %xmm13
	; SSE41-NEXT: movdqa %xmm3, %xmm0			; SSE41-NEXT: movdqa %xmm3, %xmm0
	; SSE41-NEXT: pxor %xmm10, %xmm0			; SSE41-NEXT: pxor %xmm11, %xmm0
	; SSE41-NEXT: movdqa %xmm11, %xmm1			; SSE41-NEXT: movdqa %xmm10, %xmm8
				; SSE41-NEXT: pcmpeqd %xmm0, %xmm8
				; SSE41-NEXT: movdqa %xmm10, %xmm1
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm1			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm8 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm11, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm8, %xmm0			; SSE41-NEXT: pand %xmm8, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: movapd %xmm9, %xmm1			; SSE41-NEXT: movapd %xmm9, %xmm8
	; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm8
	; SSE41-NEXT: movdqa %xmm2, %xmm0			; SSE41-NEXT: movdqa %xmm2, %xmm0
	; SSE41-NEXT: pxor %xmm10, %xmm0			; SSE41-NEXT: pxor %xmm11, %xmm0
	; SSE41-NEXT: movdqa %xmm11, %xmm3			; SSE41-NEXT: movdqa %xmm10, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm3			; SSE41-NEXT: pcmpeqd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm8 = xmm3[0,0,2,2]			; SSE41-NEXT: movdqa %xmm10, %xmm1
	; SSE41-NEXT: pcmpeqd %xmm11, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm8, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: movapd %xmm9, %xmm3
	; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3
	; SSE41-NEXT: packusdw %xmm1, %xmm3
	; SSE41-NEXT: packusdw %xmm3, %xmm13
	; SSE41-NEXT: movdqa %xmm5, %xmm0
	; SSE41-NEXT: pxor %xmm10, %xmm0
	; SSE41-NEXT: movdqa %xmm11, %xmm1
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm1			; SSE41-NEXT: pcmpgtd %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm1[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm1[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm11, %xmm0			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm2, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm1, %xmm0
	; SSE41-NEXT: movapd %xmm9, %xmm1			; SSE41-NEXT: movapd %xmm9, %xmm1
	; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1
	; SSE41-NEXT: movdqa %xmm4, %xmm0			; SSE41-NEXT: packusdw %xmm8, %xmm1
	; SSE41-NEXT: pxor %xmm10, %xmm0			; SSE41-NEXT: packusdw %xmm1, %xmm13
	; SSE41-NEXT: movdqa %xmm11, %xmm2			; SSE41-NEXT: movdqa %xmm5, %xmm0
				; SSE41-NEXT: pxor %xmm11, %xmm0
				; SSE41-NEXT: movdqa %xmm10, %xmm1
				; SSE41-NEXT: pcmpeqd %xmm0, %xmm1
				; SSE41-NEXT: movdqa %xmm10, %xmm2
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm2			; SSE41-NEXT: pcmpgtd %xmm0, %xmm2
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm2[0,0,2,2]
	; SSE41-NEXT: pcmpeqd %xmm11, %xmm0			; SSE41-NEXT: pand %xmm1, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]
	; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm2, %xmm0
				; SSE41-NEXT: movapd %xmm9, %xmm1
				; SSE41-NEXT: blendvpd %xmm0, %xmm5, %xmm1
				; SSE41-NEXT: movdqa %xmm4, %xmm0
				; SSE41-NEXT: pxor %xmm11, %xmm0
				; SSE41-NEXT: movdqa %xmm10, %xmm2
				; SSE41-NEXT: pcmpeqd %xmm0, %xmm2
				; SSE41-NEXT: movdqa %xmm10, %xmm3
				; SSE41-NEXT: pcmpgtd %xmm0, %xmm3
				; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
				; SSE41-NEXT: pand %xmm2, %xmm0
				; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: movapd %xmm9, %xmm2			; SSE41-NEXT: movapd %xmm9, %xmm2
	; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2			; SSE41-NEXT: blendvpd %xmm0, %xmm4, %xmm2
	; SSE41-NEXT: packusdw %xmm1, %xmm2			; SSE41-NEXT: packusdw %xmm1, %xmm2
	; SSE41-NEXT: movdqa %xmm7, %xmm0			; SSE41-NEXT: movdqa %xmm7, %xmm0
	; SSE41-NEXT: pxor %xmm10, %xmm0			; SSE41-NEXT: pxor %xmm11, %xmm0
	; SSE41-NEXT: movdqa %xmm11, %xmm1			; SSE41-NEXT: movdqa %xmm10, %xmm1
	; SSE41-NEXT: pcmpgtd %xmm0, %xmm1			; SSE41-NEXT: pcmpeqd %xmm0, %xmm1
	; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm1[0,0,2,2]			; SSE41-NEXT: movdqa %xmm10, %xmm3
	; SSE41-NEXT: pcmpeqd %xmm11, %xmm0			; SSE41-NEXT: pcmpgtd %xmm0, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm3[0,0,2,2]
	; SSE41-NEXT: pand %xmm3, %xmm0			; SSE41-NEXT: pand %xmm1, %xmm0
	; SSE41-NEXT: por %xmm1, %xmm0			; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: movapd %xmm9, %xmm1			; SSE41-NEXT: movapd %xmm9, %xmm1
	; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm1			; SSE41-NEXT: blendvpd %xmm0, %xmm7, %xmm1
	; SSE41-NEXT: pxor %xmm6, %xmm10			; SSE41-NEXT: pxor %xmm6, %xmm11
	; SSE41-NEXT: movdqa %xmm11, %xmm3			; SSE41-NEXT: movdqa %xmm10, %xmm3
	; SSE41-NEXT: pcmpgtd %xmm10, %xmm3			; SSE41-NEXT: pcmpeqd %xmm11, %xmm3
	; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2]			; SSE41-NEXT: pcmpgtd %xmm11, %xmm10
	; SSE41-NEXT: pcmpeqd %xmm11, %xmm10			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm10[0,0,2,2]
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm10[1,1,3,3]			; SSE41-NEXT: pand %xmm3, %xmm0
	; SSE41-NEXT: pand %xmm4, %xmm0			; SSE41-NEXT: por %xmm10, %xmm0
	; SSE41-NEXT: por %xmm3, %xmm0
	; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm9			; SSE41-NEXT: blendvpd %xmm0, %xmm6, %xmm9
	; SSE41-NEXT: packusdw %xmm1, %xmm9			; SSE41-NEXT: packusdw %xmm1, %xmm9
	; SSE41-NEXT: packusdw %xmm9, %xmm2			; SSE41-NEXT: packusdw %xmm9, %xmm2
	; SSE41-NEXT: packuswb %xmm2, %xmm13			; SSE41-NEXT: packuswb %xmm2, %xmm13
	; SSE41-NEXT: movdqa %xmm13, %xmm0			; SSE41-NEXT: movdqa %xmm13, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_usat_v16i64_v16i8:			; AVX1-LABEL: trunc_usat_v16i64_v16i8:
	▲ Show 20 Lines • Show All 230 Lines • ▼ Show 20 Lines
	; SSSE3-NEXT: pand %xmm6, %xmm0			; SSSE3-NEXT: pand %xmm6, %xmm0
	; SSSE3-NEXT: pandn %xmm2, %xmm6			; SSSE3-NEXT: pandn %xmm2, %xmm6
	; SSSE3-NEXT: por %xmm0, %xmm6			; SSSE3-NEXT: por %xmm0, %xmm6
	; SSSE3-NEXT: pxor %xmm1, %xmm3			; SSSE3-NEXT: pxor %xmm1, %xmm3
	; SSSE3-NEXT: pcmpgtd %xmm3, %xmm5			; SSSE3-NEXT: pcmpgtd %xmm3, %xmm5
	; SSSE3-NEXT: pand %xmm5, %xmm1			; SSSE3-NEXT: pand %xmm5, %xmm1
	; SSSE3-NEXT: pandn %xmm2, %xmm5			; SSSE3-NEXT: pandn %xmm2, %xmm5
	; SSSE3-NEXT: por %xmm1, %xmm5			; SSSE3-NEXT: por %xmm1, %xmm5
	; SSSE3-NEXT: movdqa {{.*#+}} xmm0 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; SSSE3-NEXT: movdqa {{.*#+}} xmm0 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
	; SSSE3-NEXT: pshufb %xmm0, %xmm5			; SSSE3-NEXT: pshufb %xmm0, %xmm5
	; SSSE3-NEXT: pshufb %xmm0, %xmm6			; SSSE3-NEXT: pshufb %xmm0, %xmm6
	; SSSE3-NEXT: punpcklqdq {{.*#+}} xmm6 = xmm6[0],xmm5[0]			; SSSE3-NEXT: punpckldq {{.*#+}} xmm6 = xmm6[0],xmm5[0],xmm6[1],xmm5[1]
	; SSSE3-NEXT: pshufb {{.*#+}} xmm6 = xmm6[0,2,4,6,8,10,12,14,u,u,u,u,u,u,u,u]
	; SSSE3-NEXT: movq %xmm6, (%rdi)			; SSSE3-NEXT: movq %xmm6, (%rdi)
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: trunc_usat_v8i32_v8i8_store:			; SSE41-LABEL: trunc_usat_v8i32_v8i8_store:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [255,255,255,255]			; SSE41-NEXT: movdqa {{.*#+}} xmm2 = [255,255,255,255]
	; SSE41-NEXT: pminud %xmm2, %xmm1
	; SSE41-NEXT: pminud %xmm2, %xmm0			; SSE41-NEXT: pminud %xmm2, %xmm0
	; SSE41-NEXT: packusdw %xmm1, %xmm0			; SSE41-NEXT: pminud %xmm2, %xmm1
	; SSE41-NEXT: packuswb %xmm0, %xmm0			; SSE41-NEXT: movdqa {{.*#+}} xmm2 = <0,4,8,12,u,u,u,u,u,u,u,u,u,u,u,u>
				; SSE41-NEXT: pshufb %xmm2, %xmm1
				; SSE41-NEXT: pshufb %xmm2, %xmm0
				; SSE41-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
	; SSE41-NEXT: movq %xmm0, (%rdi)			; SSE41-NEXT: movq %xmm0, (%rdi)
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: trunc_usat_v8i32_v8i8_store:			; AVX1-LABEL: trunc_usat_v8i32_v8i8_store:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [255,255,255,255]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [255,255,255,255]
	; AVX1-NEXT: vpminud %xmm2, %xmm1, %xmm1			; AVX1-NEXT: vpminud %xmm2, %xmm1, %xmm1
	▲ Show 20 Lines • Show All 383 Lines • Show Last 20 Lines

test/CodeGen/X86/vselect.ll

	Show First 20 Lines • Show All 564 Lines • ▼ Show 20 Lines
	; to match (crash).			; to match (crash).

	define <2 x i32> @simplify_select(i32 %x, <2 x i1> %z) {			define <2 x i32> @simplify_select(i32 %x, <2 x i1> %z) {
	; SSE2-LABEL: simplify_select:			; SSE2-LABEL: simplify_select:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: # kill: def $edi killed $edi def $rdi			; SSE2-NEXT: # kill: def $edi killed $edi def $rdi
	; SSE2-NEXT: psllq $63, %xmm0			; SSE2-NEXT: psllq $63, %xmm0
	; SSE2-NEXT: psrad $31, %xmm0			; SSE2-NEXT: psrad $31, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[1,1,3,3]			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm0[1,1,3,3]
	; SSE2-NEXT: movq %rdi, %xmm1			; SSE2-NEXT: movq %rdi, %xmm0
	; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm1[0,1,0,1]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]
	; SSE2-NEXT: movdqa %xmm2, %xmm3			; SSE2-NEXT: movdqa %xmm1, %xmm2
	; SSE2-NEXT: punpcklqdq {{.*#+}} xmm3 = xmm3[0],xmm1[0]			; SSE2-NEXT: pandn %xmm0, %xmm2
	; SSE2-NEXT: pand %xmm0, %xmm2			; SSE2-NEXT: pand %xmm1, %xmm0
	; SSE2-NEXT: pandn %xmm3, %xmm0
	; SSE2-NEXT: por %xmm2, %xmm0			; SSE2-NEXT: por %xmm2, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: simplify_select:			; SSE41-LABEL: simplify_select:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: # kill: def $edi killed $edi def $rdi			; SSE41-NEXT: # kill: def $edi killed $edi def $rdi
	; SSE41-NEXT: movq %rdi, %xmm0			; SSE41-NEXT: movq %rdi, %xmm0
	; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]			; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]
	▲ Show 20 Lines • Show All 58 Lines • Show Last 20 Lines

test/CodeGen/X86/xor.ll

	Show First 20 Lines • Show All 401 Lines • ▼ Show 20 Lines
	}			}

	define i32 @PR17487(i1 %tobool) {			define i32 @PR17487(i1 %tobool) {
	; X32-LABEL: PR17487:			; X32-LABEL: PR17487:
	; X32: # %bb.0:			; X32: # %bb.0:
	; X32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X32-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; X32-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]			; X32-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,1,0,1]
	; X32-NEXT: pandn {{\.LCPI.*}}, %xmm0			; X32-NEXT: pandn {{\.LCPI.*}}, %xmm0
	; X32-NEXT: pshufd {{.*#+}} xmm1 = xmm0[3,1,2,3]
	; X32-NEXT: movd %xmm1, %ecx
	; X32-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]			; X32-NEXT: pshufd {{.*#+}} xmm0 = xmm0[2,3,0,1]
	; X32-NEXT: movd %xmm0, %edx			; X32-NEXT: movd %xmm0, %ecx
	; X32-NEXT: xorl $1, %edx
	; X32-NEXT: xorl %eax, %eax			; X32-NEXT: xorl %eax, %eax
	; X32-NEXT: orl %ecx, %edx			; X32-NEXT: testl %ecx, %ecx
	; X32-NEXT: setne %al			; X32-NEXT: sete %al
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LIN-LABEL: PR17487:			; X64-LIN-LABEL: PR17487:
	; X64-LIN: # %bb.0:			; X64-LIN: # %bb.0:
	; X64-LIN-NEXT: movd %edi, %xmm0			; X64-LIN-NEXT: movd %edi, %xmm0
	; X64-LIN-NEXT: pextrw $0, %xmm0, %eax			; X64-LIN-NEXT: pextrw $0, %xmm0, %eax
	; X64-LIN-NEXT: andl $1, %eax			; X64-LIN-NEXT: andl $1, %eax
	; X64-LIN-NEXT: retq			; X64-LIN-NEXT: retq
	▲ Show 20 Lines • Show All 106 Lines • Show Last 20 Lines

test/CodeGen/X86/zext-logicop-shift-load.ll

	Show First 20 Lines • Show All 97 Lines • ▼ Show 20 Lines
	; Load is folded with sext.			; Load is folded with sext.
	define i64 @test8(i8* %data) {			define i64 @test8(i8* %data) {
	; CHECK-LABEL: test8:			; CHECK-LABEL: test8:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: movsbl (%rdi), %eax			; CHECK-NEXT: movsbl (%rdi), %eax
	; CHECK-NEXT: movzwl %ax, %eax			; CHECK-NEXT: movzwl %ax, %eax
	; CHECK-NEXT: shrl $2, %eax			; CHECK-NEXT: shrl $2, %eax
	; CHECK-NEXT: orl $60, %eax			; CHECK-NEXT: orl $60, %eax
	; CHECK-NEXT: movl %eax, %eax
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	%bf.load = load i8, i8* %data, align 4			%bf.load = load i8, i8* %data, align 4
	%ext = sext i8 %bf.load to i16			%ext = sext i8 %bf.load to i16
	%bf.clear = lshr i16 %ext, 2			%bf.clear = lshr i16 %ext, 2
	%0 = or i16 %bf.clear, 60			%0 = or i16 %bf.clear, 60
	%1 = zext i16 %0 to i64			%1 = zext i16 %0 to i64
	ret i64 %1			ret i64 %1
	}			}

This is an archive of the discontinued LLVM Phabricator instance.

[DAGCombine] Do several rounds of combine.Needs ReviewPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 183737

lib/CodeGen/SelectionDAG/DAGCombiner.cpp

test/CodeGen/X86/aligned-variadic.ll

test/CodeGen/X86/avg.ll

test/CodeGen/X86/avx-load-store.ll

test/CodeGen/X86/avx512-any_extend_load.ll

test/CodeGen/X86/avx512-insert-extract.ll

test/CodeGen/X86/avx512-intrinsics-upgrade.ll

test/CodeGen/X86/avx512-mask-op.ll

test/CodeGen/X86/bypass-slow-division-32.ll

test/CodeGen/X86/combine-fcopysign.ll

test/CodeGen/X86/combine-sdiv.ll

test/CodeGen/X86/combine-srem.ll

test/CodeGen/X86/constant-combines.ll

test/CodeGen/X86/extract-insert.ll

test/CodeGen/X86/illegal-bitfield-loadstore.ll

test/CodeGen/X86/insertelement-ones.ll

test/CodeGen/X86/jump_sign.ll

test/CodeGen/X86/legalize-shift-64.ll

test/CodeGen/X86/mmx-cvt.ll

test/CodeGen/X86/movmsk.ll

test/CodeGen/X86/not-and-simplify.ll

test/CodeGen/X86/oddshuffles.ll

test/CodeGen/X86/pr32282.ll

test/CodeGen/X86/pr33844.ll

test/CodeGen/X86/pr34592.ll

test/CodeGen/X86/pr35765.ll

test/CodeGen/X86/pr38185.ll

test/CodeGen/X86/psubus.ll

test/CodeGen/X86/sat-add.ll

test/CodeGen/X86/shift-double-x86_64.ll

test/CodeGen/X86/shift-double.ll

test/CodeGen/X86/sse3.ll

test/CodeGen/X86/unfold-masked-merge-scalar-constmask-innerouter.ll

test/CodeGen/X86/unfold-masked-merge-scalar-constmask-interleavedbits.ll

test/CodeGen/X86/unfold-masked-merge-scalar-constmask-interleavedbytehalves.ll

test/CodeGen/X86/unfold-masked-merge-scalar-constmask-lowhigh.ll

test/CodeGen/X86/urem-seteq-vec-nonsplat.ll

test/CodeGen/X86/usub_sat_vec.ll

test/CodeGen/X86/vec_extract-mmx.ll

test/CodeGen/X86/vec_minmax_sint.ll

test/CodeGen/X86/vec_minmax_uint.ll

test/CodeGen/X86/vector-reduce-smax-widen.ll

test/CodeGen/X86/vector-reduce-smax.ll

test/CodeGen/X86/vector-reduce-smin-widen.ll

test/CodeGen/X86/vector-reduce-smin.ll

test/CodeGen/X86/vector-reduce-umax-widen.ll

test/CodeGen/X86/vector-reduce-umax.ll

test/CodeGen/X86/vector-reduce-umin-widen.ll

test/CodeGen/X86/vector-reduce-umin.ll

test/CodeGen/X86/vector-sext-widen.ll

test/CodeGen/X86/vector-sext.ll

test/CodeGen/X86/vector-shift-ashr-256.ll

test/CodeGen/X86/vector-shift-ashr-sub128.ll

test/CodeGen/X86/vector-shift-lshr-sub128.ll

test/CodeGen/X86/vector-shift-shl-sub128.ll

test/CodeGen/X86/vector-trunc-math-widen.ll

test/CodeGen/X86/vector-trunc-math.ll

test/CodeGen/X86/vector-trunc-packus-widen.ll

test/CodeGen/X86/vector-trunc-packus.ll

test/CodeGen/X86/vector-trunc-ssat-widen.ll

test/CodeGen/X86/vector-trunc-ssat.ll

test/CodeGen/X86/vector-trunc-usat-widen.ll

test/CodeGen/X86/vector-trunc-usat.ll

test/CodeGen/X86/vselect.ll

test/CodeGen/X86/xor.ll

test/CodeGen/X86/zext-logicop-shift-load.ll

[DAGCombine] Do several rounds of combine.
Needs ReviewPublic