This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/trunk/
-
trunk/
-
lib/
-
CodeGen/
-
SelectionDAG/
-
DAGCombiner.cpp
-
TargetLoweringBase.cpp
-
Target/AMDGPU/
-
AMDGPU/
-
AMDGPUISelLowering.cpp
-
test/CodeGen/
-
CodeGen/
-
AArch64/
-
argument-blocks.ll
-
arm64-abi.ll
-
arm64-memset-inline.ll
-
ldst-opt.ll
-
merge-store.ll
-
vector_merge_dep_check.ll
-
AMDGPU/
-
debugger-insert-nops.ll
-
insert_vector_elt.ll
-
merge-stores.ll
-
private-element-size.ll
-
si-triv-disjoint-mem-access.ll
-
ARM/
-
2012-10-04-AAPCS-byval-align8.ll
-
alloc-no-stack-realign.ll
-
ifcvt10.ll
-
memset-inline.ll
-
static-addr-hoisting.ll
-
BPF/
-
undef.ll
-
MSP430/
-
Inst16mm.ll
-
Mips/
-
cconv/
-
arguments-float.ll
-
arguments-varargs.ll
-
fastcc.ll
-
load-store-left-right.ll
-
micromips-li.ll
-
mips64-f128.ll
-
mno-ldc1-sdc1.ll
-
msa/
-
f16-llvm-ir.ll
-
i5_ld_st.ll
-
o32_cc_byval.ll
-
o32_cc_vararg.ll
-
PowerPC/
-
anon_aggr.ll
-
complex-return.ll
-
jaggedstructs.ll
-
ppc64-align-long-double.ll
-
structsinmem.ll
-
structsinregs.ll
-
SystemZ/
-
unaligned-01.ll
-
Thumb/
-
2010-07-15-debugOrdering.ll
-
stack-access.ll
-
X86/
-
2010-09-17-SideEffectsInChain.ll
-
2012-11-28-merge-store-alias.ll
-
MergeConsecutiveStores.ll
-
avx512-mask-op.ll
-
chain_order.ll
-
clear_upper_vector_element_bits.ll
-
combiner-aa-0.ll
-
combiner-aa-1.ll
-
copy-eflags.ll
-
dag-merge-fast-accesses.ll
-
dont-trunc-store-double-to-float.ll
-
extractelement-legalization-store-ordering.ll
-
i256-add.ll
-
i386-shrink-wrapping.ll
-
live-range-nosubreg.ll
-
merge-consecutive-loads-128.ll
-
merge-consecutive-loads-256.ll
-
merge-store-partially-alias-loads.ll
-
pr18023.ll
-
split-store.ll
-
stores-merging.ll
-
vector-compare-results.ll
-
vector-shuffle-variable-128.ll
-
vector-shuffle-variable-256.ll
-
win32-eh.ll
-
XCore/
-
varargs.ll

Differential D14834

In visitSTORE, always use FindBetterChain, rather than only when UseAA is enabled.
ClosedPublic

Authored by niravd on Nov 19 2015, 10:59 AM.

Download Raw Diff

Details

Reviewers

jyknight
• tstellarAMD
nhaehnle
arsenm
javed.absar
hfinkel

Commits

Summary

In visitSTORE, always use FindBetterChain, rather than only when UseAA is enabled.

* Simplify Consecutive Merge Store Candidate Search

Now that address aliasing is much less conservative, push through
simplified store merging search and chain alias analysis which only
checks for parallel stores through the chain subgraph. This is cleaner
as the separation of non-interfering loads/stores from the
store-merging logic.

When merging stores search up the chain through a single load, and
finds all possible stores by looking down from through a load and a
TokenFactor to all stores visited.

This improves the quality of the output SelectionDAG and the output
Codegen (save perhaps for some ARM cases where we correctly constructs
wider loads, but then promotes them to float operations which appear
but requires more expensive constant generation).
 
Some minor peephole optimizations to deal with improved SubDAG shapes (listed below)

Additional Minor Changes:

  1. Finishes removing unused AliasLoad code

  2. Unifies the chain aggregation in the merged stores across code
      paths

  3. Re-add the Store node to the worklist after calling
      SimplifyDemandedBits.
 
  4. Increase GatherAllAliasesMaxDepth from 6 to 18. That number is
      arbitrary, but seems sufficient to not cause regressions in
      tests.

 5. Remove Chain dependencies of Memory operations on CopyfromReg
     nodes as these are captured by data dependence
 
 6. Forward loads-store values through tokenfactors containing
     {CopyToReg,CopyFromReg} Values.

 7. Peephole to convert buildvector of extract_vector_elt to
     extract_subvector if possible (see CodeGen/AArch64/store-merge.ll)

 8. Store merging for the ARM target is restricted to 32-bit as
     some in some contexts invalid 64-bit operations are being
     generated. This can be removed once appropriate checks are
     added.

This finishes the change Matt Arsenault started in r246307 and jyknight's original patch.

Many tests required some changes as memory operations are now
reorderable, improving load-store forwarding. This test should be
noted:

CodeGen/PowerPC/ppc64-align-long-double.ll - Improved load-store
forwarding converts a load-store pair into a parallel store and
a memory-realized bitcast of the same value. However, because we
lose the sharing of the explicit and implicit store values we
must create another local store. A similar transformation
happens before SelectionDAG as well.

Diff Detail

Repository: rL LLVM

Event Timeline

jyknight updated this revision to Diff 40679.Nov 19 2015, 10:59 AM

jyknight retitled this revision from to In visitSTORE, always use FindBetterChain, rather than only when UseAA is enabled..

jyknight updated this object.

jyknight added reviewers: arsenm, hfinkel.

jyknight added subscribers: spatel, t.p.northover, • tstellarAMD, resistor.

Herald added a reviewer: • tstellarAMD. · View Herald TranscriptNov 19 2015, 10:59 AM

Herald added subscribers: dsanders, qcolombet, aemerson. · View Herald Transcript

Hi,

I think this patch: http://reviews.llvm.org/D14268 may correct the issue with: CodeGen/AMDGPU/merge-stores.ll

RKSimon added a subscriber: RKSimon.Nov 23 2015, 9:11 AM

RKSimon added inline comments.

test/CodeGen/X86/vector-idiv.ll
4 ↗	(On Diff #40679)	Please can you regenerate this with utils\update_llc_test_checks.py ? It should clean up some of the asm comments.
test/CodeGen/X86/vector-lzcnt-128.ll
9 ↗	(On Diff #40679)	Please can you regenerate this with utils\update_llc_test_checks.py ? It should clean up some of the asm comments.

jyknight added inline comments.Nov 23 2015, 10:42 AM

test/CodeGen/X86/vector-idiv.ll
4 ↗	(On Diff #40679)	Aha, so that's why these tests look like this. I had no idea that script existed. I'll do that. And also update the generator script to write a note in the output that it was generated by the script, so the next person doesn't have that problem. :)

In D14834#293147, @tstellarAMD wrote:

I think this patch: http://reviews.llvm.org/D14268 may correct the issue with: CodeGen/AMDGPU/merge-stores.ll

Yep, it fixes that test case.

It also seems to cause vgpr-spill-emergency-stack-slot.ll to revert to its previous pessimal state: unable to recognize that the loads generated from the extracts come from the stores generated by the inserts. (Seems a mismatch between store/load sizes for the insertelement/extractelement memops, as it's getting LD16 and ST4, instead of LD4/ST4 as it was before).

Anyways, I think this change makes sense regardless of all the noted test changes; I intended those more just as an "FYI" to the various arch maintainers about potential enhancements that could be made.

Thanks for working on this!

One situation exists now where the new code is not able to detect
merge candidates and it was before: when some stores overlap a load,
and others do not. This causes
test/CodeGen/X86/merge-store-partially-alias-loads.ll to no longer
work.

What's a good plan for dealing with this? Is there a better way of doing this without (essentially) re-introducing the old algorithm? Permanently losing this functionality is likely not good either. Should we do both kinds of searches?

test/CodeGen/PowerPC/ppc64-align-long-double.ll
22 ↗	(On Diff #40679)	TODO -> FIXME

arsenm added inline comments.Nov 25 2015, 6:23 AM

lib/CodeGen/TargetLoweringBase.cpp
777 ↗	(On Diff #40679)	I increased this to 16 for AMDGPU. The custom setting for it there can be removed now

In D14834#296382, @hfinkel wrote:

This causes
test/CodeGen/X86/merge-store-partially-alias-loads.ll to no longer
work.

What's a good plan for dealing with this? Is there a better way of doing this without (essentially) re-introducing the old algorithm? Permanently losing this functionality is likely not good either. Should we do both kinds of searches?

No, I don't think the old algorithm is at all the right thing to do. I also think it's bad for LLVM to use (basically arbitrarily) different modes for different targets, so I'd like to get rid of the old method even without having a fully baked plan on how to solve this particular case the new way.

Now, I do have a start on a thought on how this could be made to work, but haven't really fully thought through it. I also wonder whether it'd affect compilation-speed too much? Don't really know about that...

Anyways, here goes:

Firstly, we should look at all stores in the basic block, not only those attached to the same chain node. Then, once we've found those stores that look promising (same base pointer, not volatile, neighboring offsets, etc), see if it would be possible to:

create a TokenFactor node merging the incoming chains of ALL the candidate stores-to-merge.
make a new merged store with incoming chain being that TokenFactor.
replace all the uses of the outgoing chain values to use the single merged-store outgoing chain (as is done today).

What does "possible" mean? That doing the above won't create a loop in the DAG. That is, I think, checked simply by ensuring that no candidate store can be a predecessor of any of the other stores.

I'm also not sure if some other checks might be needed beyond the simple "possible" to avoid pessimizing the code. It seems like in some cases it might be a bad idea to merge two stores that are "far away" from each-other. E.g., let's say you have a dependency graph that looks like:

exit -> store1 -> ...lots of stuff... -> entry
exit -> ...other stuff... -> store2 -> entry

Originally, there's two completely independent streams of instructions which can be interleaved by the instruction scheduler. But then if a new fancy store-merger gets ahold of it, it might become:

exit -> ...other stuff... -> store1+2 -> ...lots of stuff...

And thus that optimization could be a substantial performance hit. I dunno if that situation is likely to come up, though.

In D14834#297118, @jyknight wrote:

In D14834#296382, @hfinkel wrote:

This causes
test/CodeGen/X86/merge-store-partially-alias-loads.ll to no longer
work.

What's a good plan for dealing with this? Is there a better way of doing this without (essentially) re-introducing the old algorithm? Permanently losing this functionality is likely not good either. Should we do both kinds of searches?

No, I don't think the old algorithm is at all the right thing to do.

Okay, but...

I also think it's bad for LLVM to use (basically arbitrarily) different modes for different targets,

I completely agree.

so I'd like to get rid of the old method even without having a fully baked plan on how to solve this particular case the new way.

I agree that the problem can get quite general, but the particular test case in question looks pretty simple, and that's partially what worries me about it.

As you explain in the comment added to the test case, what the test case really exposes is, in a sense, a phase-ordering problem between findBetterNeighborChains() and MergeConsecutiveStores(). It seems like what should really happen is that findBetterNeighborChains() should check whether it can merge the store being moved up the chain with a store it find on the chain as it searches up the chain for a better (less constraining) operand. Would that work?

...

lib/CodeGen/SelectionDAG/DAGCombiner.cpp
11808 ↗	(On Diff #40679)	This comment is now out of date.

In D14834#297484, @hfinkel wrote:

As you explain in the comment added to the test case, what the test case really exposes is, in a sense, a phase-ordering problem between findBetterNeighborChains() and MergeConsecutiveStores(). It seems like what should really happen is that findBetterNeighborChains() should check whether it can merge the store being moved up the chain with a store it find on the chain as it searches up the chain for a better (less constraining) operand. Would that work?

That might work okay for this case, but I'm afraid it will fall down at any minor difference in the graph.

For example, if you have instead:
store X+1
load X
store X

It should be able to merge the stores, but won't be able to find it without being able to move the "store X+1" down.

Okay, maybe we just ignore that problem. But, can it reliably handle, say:
#1: load X
#2: store X
#3: store X+1
#4: store X+2
#5: store X+3

Those should certainly be mergeable, too. But, even with the proposed modification, moving each node incrementally up the chain might or might not work, depending on visit order, which is basically arbitrary.

(And, of course, there's also the known problem with the code now, where it can not merge stores of non-equal sizes, which is why it's important to move as many nodes first, before doing any merging. Otherwise, it can happen that it'd merge the X+1 and X+2 stores, before the others are available to merge. And then, it's not possible to merge in the X and X+3 stores. That should be fixed, of course.)

Anyhow, basically, I think to get the right answer, you'd need to know not to move ANY of the nodes past node #1 -- until you've reached the state with all of them having their chain as #1 so they can be merged together. But, since the desirable final state for each of the nodes (other than #2) is to be attached to entry node, having to somehow somehow enforce that that desirable modification DOESN'T happen until other nodes get moved to the proper intermediate place, I'm not sure, doesn't seem easy to make non-fragile.

I'm sure it's implementable somehow, but it doesn't seem like it'd be easier than solving the general problem, at least to me.

In D14834#297985, @jyknight wrote:

In D14834#297484, @hfinkel wrote:

As you explain in the comment added to the test case, what the test case really exposes is, in a sense, a phase-ordering problem between findBetterNeighborChains() and MergeConsecutiveStores(). It seems like what should really happen is that findBetterNeighborChains() should check whether it can merge the store being moved up the chain with a store it find on the chain as it searches up the chain for a better (less constraining) operand. Would that work?

That might work okay for this case, but I'm afraid it will fall down at any minor difference in the graph.

For example, if you have instead:
store X+1
load X
store X

It should be able to merge the stores, but won't be able to find it without being able to move the "store X+1" down.

Okay, maybe we just ignore that problem. But, can it reliably handle, say:
#1: load X
#2: store X
#3: store X+1
#4: store X+2
#5: store X+3

Those should certainly be mergeable, too. But, even with the proposed modification, moving each node incrementally up the chain might or might not work, depending on visit order, which is basically arbitrary.

(And, of course, there's also the known problem with the code now, where it can not merge stores of non-equal sizes, which is why it's important to move as many nodes first, before doing any merging. Otherwise, it can happen that it'd merge the X+1 and X+2 stores, before the others are available to merge. And then, it's not possible to merge in the X and X+3 stores. That should be fixed, of course.)

Anyhow, basically, I think to get the right answer, you'd need to know not to move ANY of the nodes past node #1 -- until you've reached the state with all of them having their chain as #1 so they can be merged together. But, since the desirable final state for each of the nodes (other than #2) is to be attached to entry node, having to somehow somehow enforce that that desirable modification DOESN'T happen until other nodes get moved to the proper intermediate place, I'm not sure, doesn't seem easy to make non-fragile.

I'm sure it's implementable somehow, but it doesn't seem like it'd be easier than solving the general problem, at least to me.

The "general" problem is global, and we'll never be able to get it with a local analysis. However, while I like the direction of this patch, I think we need to try really hard not to introduce "basic" regressions (i.e. regressions that can be demonstrated with really small test cases).

You've convinced me that trying to fix this by merging the chain-finding process and the merge-candidate-determination process is too limited to be really useful (even if it would fix the one existing regression test, writing other similarly-simple ones that would also be broken would be easy).

Thus far we have a few examples:

Case 1:

load X
store X
store X+1

This will give us:

store X -> load X -> E
store X+1 -> E

Case 2:

store X+1
load X
store X

Which should also yield:

store X -> load X -> E
store X+1 -> E

and some generalizations with more stores, etc. All of these can be found by a limited search. Given a situation like this:

store X -> load X -> E
store X+1 -> load X+1 -> E

it seems that instead of just searching other users of the chain of the initial store, we need to also walk up and down a bit. We might walk up through (optionally) a token factor and a load to find a new chain to search. We can then search down the users of that chain, directly, through a load, or through a load and a token factor, for consecutive stores. If found, then we can do this:

store (X, X+1) -> TF -> load X -> E
                                 -> load X+1 -> E

we just need to make sure that, in making load X+1 a predecessor of store X (and making load X a predecessor of store X+1) we won't create any cycles (load X+1 cannot already be a successor of store X, etc.).

Given that findBetterChain should collapse otherwise-sequential loads to be parallel ones (joined by token factors), this should be fairly general, and will handle the simple cases outlined here. What do you think?

What do you think?

That was actually the same idea I had been cooking up, but I hadn't actually gotten around to trying it out yet. :)

I've still not had time to actually explore it with code yet, but I'll try to do that at some point. I think it ought to work.

lib/CodeGen/SelectionDAG/DAGCombiner.cpp
11808 ↗	(On Diff #40679)	And, actually, so is the code. Removed the loop and the comment.
lib/CodeGen/TargetLoweringBase.cpp
777 ↗	(On Diff #40679)	Done.

jyknight added inline comments.Dec 14 2015, 8:47 AM

lib/CodeGen/SelectionDAG/DAGCombiner.cpp
11808 ↗	(On Diff #40679)	Oops, I didn't mean to send that reply yet, as the loop sadly DOES still accomplish /something/, but I think it's probably doing so in a way that won't actually complete all the work that could be done in all cases.

niravd edited edge metadata.Feb 26 2016, 1:10 PM

niravd added a subscriber: niravd.

spatel mentioned this in D17836: [AArch64] Fixes Store Merge chain in DAG combiner.Mar 3 2016, 7:55 AM

weimingz added a subscriber: weimingz.Mar 3 2016, 11:18 AM

niravd commandeered this revision.Mar 7 2016, 9:18 AM

niravd added a reviewer: jyknight.

A new patch which inprinciple capture missing functionality. Needs somechanges to AliasAnalysis to resolve regressions. Also exposes some bugs in AMDGPU target which need to be resolved.

niravd updated this object.Mar 7 2016, 10:24 AM

The new patch is currently exposes a bug with AMDGPU target and the CodeGen/AMDGPU/vgpr-spill-emergency-stack-slot-compute.ll test now fails to compile. Can someone familiar with the target take a look at this?

niravd added a parent revision: D18062: Fix Load Control Dependence in MemCpy Generation.Mar 17 2016, 12:31 PM

New Patch containing test case changes and minor code cleanup. Everything is nominally working

niravd mentioned this in D18062: Fix Load Control Dependence in MemCpy Generation.Mar 21 2016, 11:21 AM

niravd mentioned this in D18336: Prevent construction of cycle in DAG store merge.Mar 24 2016, 2:39 PM

jyknight added inline comments.Mar 25 2016, 7:04 AM

lib/CodeGen/SelectionDAG/DAGCombiner.cpp
54 ↗	(On Diff #50969)	Please remove, since it's now unused.
11252 ↗	(On Diff #50969)	This is actually fixing incorrect behavior in UseAA mode; let's commit it separately (along with the exact same change which is made down below). When done separately, it'll need to be conditioned on UseAA, though, since the previous code was right for !UseAA.
11287 ↗	(On Diff #50969)	Commented code should be removed.
11333–11337 ↗	(On Diff #50969)	Why isn't this: } else if (I.getOperandNo() == 0) addStoreNodeIfMergableStore(*I, St, StoreNodes, Seq); ?
11728 ↗	(On Diff #50969)	The other half of the bugfix I mentioned above.
11922 ↗	(On Diff #50969)	This can also be pulled out as a simple fix.
lib/CodeGen/TargetLoweringBase.cpp
775 ↗	(On Diff #50969)	The removal of that line (in AMDGPUISelLoweing.cpp) doesn't actually seem to be done, despite that I said done before (oops).
test/CodeGen/AArch64/argument-blocks.ll
64–68 ↗	(On Diff #50969)	Delete added comment; upon re-reading, it's the size/align that it was checking.
test/CodeGen/AMDGPU/vgpr-spill-emergency-stack-slot.ll
10 ↗	(On Diff #50969)	What's the status of this one now?
test/CodeGen/X86/copy-eflags.ll
17 ↗	(On Diff #50969)	Is it really the best thing to add volatile to a bunch of random tests? Can't the CHECK lines be fixed instead?

niravd mentioned this in D18546: Prevent X86IselLowering from merging volatile loads.Mar 29 2016, 6:07 AM

niravd updated this object.Mar 29 2016, 1:56 PM

niravd updated this object.

Address comments. Simplify and cleanup code

Herald added a subscriber: arsenm. · View Herald TranscriptMar 29 2016, 2:06 PM

niravd mentioned this in rL265836: Fix Load Control Dependence in MemCpy Generation.Apr 8 2016, 12:50 PM

niravd marked 2 inline comments as not done.Apr 8 2016, 12:52 PM

niravd added inline comments.

test/CodeGen/AMDGPU/vgpr-spill-emergency-stack-slot.ll
18 ↗	(On Diff #40679)	No change here. Test completes but no longer tests desired property.

niravd mentioned this in D18909: Cleanup Store Merging in UseAA case.Apr 11 2016, 6:06 AM

Rebase and simplify. AMDGPU VGPR test again crashing.

Potential fix for crash in SIFrameLowering and modify VGPR test to pass though it no longer tests what it was supposed to.

niravd added a reviewer: nhaehnle.May 9 2016, 11:15 AM

Can someone who knows AMDGPU take a look at SIFrameLowering change and the associated vgpr test that was crashing before it?

niravd mentioned this in D20472: [DAGCombiner] Make merging consecutive stores aggressive.May 20 2016, 9:27 AM

Rebasing again. Still waiting on final okay

niravd mentioned this in D20526: Soften assertion in AMDGPU emitPrologue..May 23 2016, 9:09 AM

Update given r270646.

Now that the AMDGPU crash case has been resolved, this this patch is all set and ready for an LGTM and finally landing.

niravd updated this object.May 24 2016, 7:57 PM

This looks pretty good. All I have are some trivial requests for changes, and some questions on tests.

jyknight added inline comments.May 25 2016, 11:30 AM

lib/CodeGen/SelectionDAG/DAGCombiner.cpp
11303 ↗	(On Diff #58380)	Remove "AndAlias" from the name; no longer collects AliasLoadNodes.
11321 ↗	(On Diff #58380)	I think this could do with an ascii-art diagram to explain the shape of the DAG we're looking for. E.g. something like this: Given a structure like this: Root \|-------\|-------\| Load Load Store \| \| Store Store We might start off looking at any of the Store nodes, and need to find all of the others to see if they can be merged.
test/CodeGen/AMDGPU/vgpr-spill-emergency-stack-slot.ll
38 ↗	(On Diff #58380)	Why add volatile, if the test still doesn't work?
test/CodeGen/X86/copy-eflags.ll
12 ↗	(On Diff #58380)	Deleted a comment line by accident here.
17–18 ↗	(On Diff #58380)	Same Q re addition of volatile here; why's it needed?
test/CodeGen/X86/i256-add.ll
6 ↗	(On Diff #58380)	why volatile here.
test/CodeGen/X86/i386-shrink-wrapping.ll
76 ↗	(On Diff #58380)	why volatile here
test/DebugInfo/X86/dbg-value-dag-combine.ll
16 ↗	(On Diff #58380)	why volatile?

niravd added a parent revision: D21037: Preserve DebugInfo when replacing values in DAGCombiner.Jun 6 2016, 12:54 PM

Resolved comments and rebased

Herald added a subscriber: nemanjai. · View Herald TranscriptJul 6 2016, 11:44 AM

niravd added inline comments.Jul 11 2016, 6:46 AM

test/CodeGen/AMDGPU/vgpr-spill-emergency-stack-slot.ll
38 ↗	(On Diff #58380)	Reverted.
test/CodeGen/X86/i256-add.ll
6 ↗	(On Diff #58380)	Removing dependencies in the DAG puts the two references to %p together and enables an optimization that to converts the sbbls to adcls. I've changed this to separate the srcs and dests to prevent this.
test/CodeGen/X86/i386-shrink-wrapping.ll
76 ↗	(On Diff #58380)	Part of this test checks that we're not clobbering the flags when we shrink wrap which was clobbered because we can now move the load of @f to avoid the problem entirely. I've changed it to load @e which does the same thing.
test/DebugInfo/X86/dbg-value-dag-combine.ll
16 ↗	(On Diff #58380)	Reverted.

Ping.

Rebase and update for new tests

I went through the AMDGPU test changes. Disabling the spill tests is unfortunate but I think acceptable. I do have two comments below, the rest looks good.

test/CodeGen/AMDGPU/amdgpu.private-memory.ll
230–231 ↗	(On Diff #66667)	This looks like a regression to me. There are two stores to different parts of the [2 x i16] array, and the second gets eliminated even though the load may need it (since it uses a dynamic offset in the getelementptr). FWIW, in the function no_overlap below, I see the same regression but only for the [3 x i8] alloca. The stores and loads based on the [2 x i8] alloca look correct to me.
test/CodeGen/AMDGPU/debugger-insert-nops.ll
6–8 ↗	(On Diff #66667)	I'm not sure about this test change. There seems to be some re-ordering going on that may not be desirable for debugging.

Fix FrameIndex logic in DAGCombiner's alias analysis

test/CodeGen/AMDGPU/amdgpu.private-memory.ll
230–231 ↗	(On Diff #66667)	Hmm. This was not a case of accessing past the alloc. Rather this is a bug in alias analysis in the DAGCombiner. isAlias as it was written is imprecise identifying frame indexes but we assume we're precise which means incorrectly determine that the second store is non-aliasing and as it's a frame store we can optimize it away as we think nothing can read it. I have a fix that I'm folding into this patch because I haven't found an example that exercises this issue at current head.
test/CodeGen/AMDGPU/debugger-insert-nops.ll
6–8 ↗	(On Diff #66667)	This patch opens the possibility of the reordering, but I agree that this is non-ideal in that the scheduler doesn't seem to have an advantage from selecting that order and should therefore bias towards the source order. In general, though this sort of reordering should happen so I'm inclined to punt this to a subsequent patch.

FTR: discussed the most recent change in person, and concluded that it's incorrect. New version on the way to fix this issue.

niravd mentioned this in D23356: [DAG] Fix incorrect alignment of ext load..Sep 1 2016, 6:53 AM

Update with additional fix from D23356

Herald added subscribers: nhaehnle, wdng. · View Herald TranscriptSep 2 2016, 10:22 AM

Rebase and update.

dsanders removed a subscriber: dsanders.Sep 26 2016, 1:46 AM

With D23356 landed, this diff should finally be ready to land.

Okay, I think this should be the last round of little nits for this change. :)

Please verify/update the commit message for consistency with the final state of this change, too.

lib/CodeGen/SelectionDAG/DAGCombiner.cpp
11296 ↗	(On Diff #72352)	This var should be moved way down above its (now) first use.
11454 ↗	(On Diff #72352)	Clearer without removing the braces around another compound statement.
lib/CodeGen/TargetLoweringBase.cpp
823 ↗	(On Diff #72352)	I don't see it still...
test/CodeGen/AMDGPU/debugger-insert-nops.ll
4 ↗	(On Diff #72352)	What does this comment mean?
10 ↗	(On Diff #72352)	Also this one?
test/CodeGen/X86/copy-eflags.ll
13 ↗	(On Diff #72352)	s/volitile/volatile/
test/CodeGen/X86/vector-compare-results.ll
2 ↗	(On Diff #72352)	Unfortunate duplicate line
test/CodeGen/X86/vector-lzcnt-128.ll
1 ↗	(On Diff #72352)	And here. Probably should fix the script to not cause this. :)
test/CodeGen/X86/vector-shuffle-variable-128.ll
2 ↗	(On Diff #72352)	Here too.
test/CodeGen/X86/win32-eh.ll
74 ↗	(On Diff #72352)	What's up with this test change?

Fix minor nits

test/CodeGen/X86/win32-eh.ll
74 ↗	(On Diff #72352)	Now that we do alias analysis by universally, we can see that there is no dependence between the reference to the __security_cookie address and the stack and we share the two loads now identical memory loads of the security cookie.

Update tests for improved commit message

niravd updated this object.Sep 26 2016, 1:56 PM

OK, let's try it. :)

This revision is now accepted and ready to land.Sep 27 2016, 12:33 PM

Closed by commit rL282600: In visitSTORE, always use FindBetterChain, rather than only when UseAA is… (authored by niravd). · Explain WhySep 28 2016, 8:59 AM

This revision was automatically updated to reflect the committed changes.

niravd mentioned this in D25791: [Hexagon] Weaken over-aggressive assertion in RDFGraph.Oct 19 2016, 1:43 PM

Landing this appears to cause various bugs in various setups in bootstrapping that are proving hard to reproduce in a debug-friendly configuration. I'm going to start peeling off a smaller portions are functionally separable if not so testwise and see if that helps shake out the underlying problem.

This revision is now accepted and ready to land.Oct 21 2016, 6:27 AM

niravd mentioned this in D26080: [DAG] Improve loads-from-store forwarding to handle TokenFactor.Oct 28 2016, 8:39 AM

niravd mentioned this in rL287773: [DAG] Improve loads-from-store forwarding to handle TokenFactor.Nov 23 2016, 8:58 AM

Closed by commit rL289221: In visitSTORE, always use FindBetterChain, rather than only when UseAA is… (authored by niravd). · Explain WhyDec 9 2016, 8:25 AM

This revision was automatically updated to reflect the committed changes.

Reopening for additional inspection

This revision is now accepted and ready to land.Dec 28 2016, 8:58 AM

update with peepholes to fix degraded tests

niravd updated this object.Dec 28 2016, 9:03 AM

jyknight mentioned this in D28247: [DAG] Check for preexisting store when emiting stack convert.Jan 4 2017, 8:25 AM

niravd mentioned this in D28251: [AArch64] Fix over-eager early-exit in load-store combiner.Jan 4 2017, 9:48 AM

Hi Nirav,

Sorry for the delay. I looked again at the ARM/AArch64 tests and they seem pretty much standard. No problems there.

I only have two comments, inline.

cheers,
--renato

lib/Target/AArch64/AArch64LoadStoreOptimizer.cpp
1473 ↗	(On Diff #82602)	What if `OffsetStride > Offset`?
test/CodeGen/ARM/memset-inline.ll
9 ↗	(On Diff #82602)	It's interesting because the store was merged before. This worries me because memset is an important function to get right. IIRC, the hazards are between VFP/NEON and GPR. In this case, it's a `VMOV-imm` + `VST1 d`, which means no GPRs were involved and there is no hazard. Better still, this is independent from the `movs` and only has address update for the `str` afterwards, which could mean they'll execute pretty much in parallel. There could be some sub-arch issues with other cores, but this could actually be an improvement. Have you measured it?

Restore worsened AArch64 and ARM test cases.

Herald added a reviewer: javed.absar. · View Herald TranscriptJan 24 2017, 1:00 PM

niravd added inline comments.Jan 24 2017, 1:00 PM

lib/Target/AArch64/AArch64LoadStoreOptimizer.cpp
1473 ↗	(On Diff #82602)	This is just to make sure that our early exit check doesn't exit on MAXOFFSET+OffsetStride beacuse the stores may not come in order. The positive condition is overly aggressive but cases near zero are fine.
test/CodeGen/ARM/memset-inline.ll
9 ↗	(On Diff #82602)	For the moment I've restricted ARM memory merging to 32-bit or smaller. This makes all of the ARM tests clearly as good or better. I can imagine leveraging the VFP/NEON and GPR together could be an improvement, but it looks like there's definitely causing issues on at least one subarch.

niravd edited the summary of this revision. (Show Details)Jan 24 2017, 1:03 PM

Update testcases to upstream. Minor cleanup to TF pruning and load forwarding (NFC)

Fix 32-bit anti-aliasing offset bug

niravd mentioned this in D29845: [SelectionDAG] Remove redundant stores more aggressively..Feb 25 2017, 4:16 AM

niravd mentioned this in D30483: [DAG] More aggressively Inline TokenFactors.Mar 2 2017, 7:48 AM

niravd closed this revision.Mar 20 2017, 6:06 AM

Revision Contents

Path

Size

llvm/

trunk/

lib/

CodeGen/

SelectionDAG/

DAGCombiner.cpp

414 lines

TargetLoweringBase.cpp

2 lines

Target/

AMDGPU/

AMDGPUISelLowering.cpp

10 lines

test/

CodeGen/

AArch64/

argument-blocks.ll

2 lines

arm64-abi.ll

5 lines

arm64-memset-inline.ll

4 lines

ldst-opt.ll

13 lines

merge-store.ll

5 lines

vector_merge_dep_check.ll

3 lines

AMDGPU/

debugger-insert-nops.ll

26 lines

insert_vector_elt.ll

5 lines

merge-stores.ll

17 lines

private-element-size.ll

12 lines

si-triv-disjoint-mem-access.ll

17 lines

ARM/

2012-10-04-AAPCS-byval-align8.ll

3 lines

alloc-no-stack-realign.ll

100 lines

ifcvt10.ll

2 lines

memset-inline.ll

10 lines

static-addr-hoisting.ll

6 lines

BPF/

undef.ll

65 lines

MSP430/

Inst16mm.ll

2 lines

Mips/

cconv/

arguments-float.ll

24 lines

arguments-varargs.ll

44 lines

fastcc.ll

76 lines

load-store-left-right.ll

126 lines

micromips-li.ll

2 lines

mips64-f128.ll

2 lines

mno-ldc1-sdc1.ll

46 lines

msa/

14 lines

32 lines

54 lines

4 lines

PowerPC/

anon_aggr.ll

31 lines

complex-return.ll

12 lines

jaggedstructs.ll

16 lines

ppc64-align-long-double.ll

57 lines

structsinmem.ll

28 lines

structsinregs.ll

60 lines

SystemZ/

unaligned-01.ll

5 lines

Thumb/

2010-07-15-debugOrdering.ll

2 lines

stack-access.ll

8 lines

X86/

2010-09-17-SideEffectsInChain.ll

2 lines

2012-11-28-merge-store-alias.ll

2 lines

MergeConsecutiveStores.ll

14 lines

avx512-mask-op.ll

4 lines

chain_order.ll

4 lines

clear_upper_vector_element_bits.ll

56 lines

combiner-aa-0.ll

20 lines

combiner-aa-1.ll

23 lines

copy-eflags.ll

17 lines

dag-merge-fast-accesses.ll

12 lines

dont-trunc-store-double-to-float.ll

6 lines

extractelement-legalization-store-ordering.ll

8 lines

i256-add.ll

8 lines

i386-shrink-wrapping.ll

5 lines

live-range-nosubreg.ll

5 lines

merge-consecutive-loads-128.ll

20 lines

merge-consecutive-loads-256.ll

8 lines

merge-store-partially-alias-loads.ll

8 lines

pr18023.ll

31 lines

split-store.ll

20 lines

stores-merging.ll

11 lines

vector-compare-results.ll

730 lines

vector-shuffle-variable-128.ll

906 lines

vector-shuffle-variable-256.ll

232 lines

win32-eh.ll

157 lines

XCore/

varargs.ll

2 lines

Diff 80904

llvm/trunk/lib/CodeGen/SelectionDAG/DAGCombiner.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show All 10 Lines
// both before and after the DAG is legalized.		// both before and after the DAG is legalized.
//		//
// This pass is not a substitute for the LLVM IR instcombine pass. This pass is		// This pass is not a substitute for the LLVM IR instcombine pass. This pass is
// primarily intended to handle simplification opportunities that are implicit		// primarily intended to handle simplification opportunities that are implicit
// in the LLVM IR and exposed by the various codegen lowering phases.		// in the LLVM IR and exposed by the various codegen lowering phases.
//		//
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

#include "llvm/CodeGen/SelectionDAG.h"
#include "llvm/ADT/SetVector.h"		#include "llvm/ADT/SetVector.h"
#include "llvm/ADT/SmallBitVector.h"		#include "llvm/ADT/SmallBitVector.h"
#include "llvm/ADT/SmallPtrSet.h"		#include "llvm/ADT/SmallPtrSet.h"
#include "llvm/ADT/Statistic.h"		#include "llvm/ADT/Statistic.h"
#include "llvm/Analysis/AliasAnalysis.h"		#include "llvm/Analysis/AliasAnalysis.h"
#include "llvm/CodeGen/MachineFrameInfo.h"		#include "llvm/CodeGen/MachineFrameInfo.h"
#include "llvm/CodeGen/MachineFunction.h"		#include "llvm/CodeGen/MachineFunction.h"
		#include "llvm/CodeGen/SelectionDAG.h"
#include "llvm/CodeGen/SelectionDAGTargetInfo.h"		#include "llvm/CodeGen/SelectionDAGTargetInfo.h"
#include "llvm/IR/DataLayout.h"		#include "llvm/IR/DataLayout.h"
#include "llvm/IR/DerivedTypes.h"		#include "llvm/IR/DerivedTypes.h"
#include "llvm/IR/Function.h"		#include "llvm/IR/Function.h"
#include "llvm/IR/LLVMContext.h"		#include "llvm/IR/LLVMContext.h"
#include "llvm/Support/CommandLine.h"		#include "llvm/Support/CommandLine.h"
#include "llvm/Support/Debug.h"		#include "llvm/Support/Debug.h"
#include "llvm/Support/ErrorHandling.h"		#include "llvm/Support/ErrorHandling.h"
#include "llvm/Support/MathExtras.h"		#include "llvm/Support/MathExtras.h"
#include "llvm/Support/raw_ostream.h"		#include "llvm/Support/raw_ostream.h"
#include "llvm/Target/TargetLowering.h"		#include "llvm/Target/TargetLowering.h"
#include "llvm/Target/TargetOptions.h"		#include "llvm/Target/TargetOptions.h"
#include "llvm/Target/TargetRegisterInfo.h"		#include "llvm/Target/TargetRegisterInfo.h"
#include "llvm/Target/TargetSubtargetInfo.h"		#include "llvm/Target/TargetSubtargetInfo.h"
#include <algorithm>		#include <algorithm>
		#include <set>
using namespace llvm;		using namespace llvm;

#define DEBUG_TYPE "dagcombine"		#define DEBUG_TYPE "dagcombine"

STATISTIC(NodesCombined , "Number of dag nodes combined");		STATISTIC(NodesCombined , "Number of dag nodes combined");
STATISTIC(PreIndexedNodes , "Number of pre-indexed nodes created");		STATISTIC(PreIndexedNodes , "Number of pre-indexed nodes created");
STATISTIC(PostIndexedNodes, "Number of post-indexed nodes created");		STATISTIC(PostIndexedNodes, "Number of post-indexed nodes created");
STATISTIC(OpsNarrowed , "Number of load/op/store narrowed");		STATISTIC(OpsNarrowed , "Number of load/op/store narrowed");
STATISTIC(LdStFP2Int , "Number of fp load/store pairs transformed to int");		STATISTIC(LdStFP2Int , "Number of fp load/store pairs transformed to int");
STATISTIC(SlicedLoads, "Number of load sliced");		STATISTIC(SlicedLoads, "Number of load sliced");

namespace {		namespace {
static cl::opt<bool>		static cl::opt<bool>
CombinerAA("combiner-alias-analysis", cl::Hidden,
cl::desc("Enable DAG combiner alias-analysis heuristics"));

static cl::opt<bool>
CombinerGlobalAA("combiner-global-alias-analysis", cl::Hidden,		CombinerGlobalAA("combiner-global-alias-analysis", cl::Hidden,
cl::desc("Enable DAG combiner's use of IR alias analysis"));		cl::desc("Enable DAG combiner's use of IR alias analysis"));

static cl::opt<bool>		static cl::opt<bool>
UseTBAA("combiner-use-tbaa", cl::Hidden, cl::init(true),		UseTBAA("combiner-use-tbaa", cl::Hidden, cl::init(true),
cl::desc("Enable DAG combiner's use of TBAA"));		cl::desc("Enable DAG combiner's use of TBAA"));

#ifndef NDEBUG		#ifndef NDEBUG
▲ Show 20 Lines • Show All 342 Lines • ▼ Show 20 Lines	private:
bool findBetterNeighborChains(StoreSDNode *St);		bool findBetterNeighborChains(StoreSDNode *St);

/// Match "(X shl/srl V1) & V2" where V2 may not be present.		/// Match "(X shl/srl V1) & V2" where V2 may not be present.
bool MatchRotateHalf(SDValue Op, SDValue &Shift, SDValue &Mask);		bool MatchRotateHalf(SDValue Op, SDValue &Shift, SDValue &Mask);

/// Holds a pointer to an LSBaseSDNode as well as information on where it		/// Holds a pointer to an LSBaseSDNode as well as information on where it
/// is located in a sequence of memory operations connected by a chain.		/// is located in a sequence of memory operations connected by a chain.
struct MemOpLink {		struct MemOpLink {
MemOpLink (LSBaseSDNode *N, int64_t Offset, unsigned Seq):		MemOpLink(LSBaseSDNode *N, int64_t Offset)
MemNode(N), OffsetFromBase(Offset), SequenceNum(Seq) { }		: MemNode(N), OffsetFromBase(Offset) {}
// Ptr to the mem node.		// Ptr to the mem node.
LSBaseSDNode *MemNode;		LSBaseSDNode *MemNode;
// Offset from the base ptr.		// Offset from the base ptr.
int64_t OffsetFromBase;		int64_t OffsetFromBase;
// What is the sequence number of this mem node.
// Lowest mem operand in the DAG starts at zero.
unsigned SequenceNum;
};		};

/// This is a helper function for visitMUL to check the profitability		/// This is a helper function for visitMUL to check the profitability
/// of folding (mul (add x, c1), c2) -> (add (mul x, c2), c1*c2).		/// of folding (mul (add x, c1), c2) -> (add (mul x, c2), c1*c2).
/// MulNode is the original multiply, AddNode is (add x, c1),		/// MulNode is the original multiply, AddNode is (add x, c1),
/// and ConstNode is c2.		/// and ConstNode is c2.
bool isMulAddWithConstProfitable(SDNode *MulNode,		bool isMulAddWithConstProfitable(SDNode *MulNode,
SDValue &AddNode,		SDValue &AddNode,
SDValue &ConstNode);		SDValue &ConstNode);

/// This is a helper function for MergeStoresOfConstantsOrVecElts. Returns a		/// This is a helper function for MergeStoresOfConstantsOrVecElts. Returns a
/// constant build_vector of the stored constant values in Stores.		/// constant build_vector of the stored constant values in Stores.
SDValue getMergedConstantVectorStore(SelectionDAG &DAG, const SDLoc &SL,		SDValue getMergedConstantVectorStore(SelectionDAG &DAG, const SDLoc &SL,
ArrayRef<MemOpLink> Stores,		ArrayRef<MemOpLink> Stores,
SmallVectorImpl<SDValue> &Chains,
EVT Ty) const;		EVT Ty) const;

/// This is a helper function for visitAND and visitZERO_EXTEND. Returns		/// This is a helper function for visitAND and visitZERO_EXTEND. Returns
/// true if the (and (load x) c) pattern matches an extload. ExtVT returns		/// true if the (and (load x) c) pattern matches an extload. ExtVT returns
/// the type of the loaded value to be extended. LoadedVT returns the type		/// the type of the loaded value to be extended. LoadedVT returns the type
/// of the original loaded value. NarrowLoad returns whether the load would		/// of the original loaded value. NarrowLoad returns whether the load would
/// need to be narrowed in order to match.		/// need to be narrowed in order to match.
bool isAndLoadExtLoad(ConstantSDNode AndC, LoadSDNode LoadN,		bool isAndLoadExtLoad(ConstantSDNode AndC, LoadSDNode LoadN,
EVT LoadResultTy, EVT &ExtVT, EVT &LoadedVT,		EVT LoadResultTy, EVT &ExtVT, EVT &LoadedVT,
bool &NarrowLoad);		bool &NarrowLoad);

/// This is a helper function for MergeConsecutiveStores. When the source		/// This is a helper function for MergeConsecutiveStores. When the source
/// elements of the consecutive stores are all constants or all extracted		/// elements of the consecutive stores are all constants or all extracted
/// vector elements, try to merge them into one larger store.		/// vector elements, try to merge them into one larger store.
/// \return number of stores that were merged into a merged store (always		/// \return True if a merged store was created.
/// a prefix of \p StoreNode).		bool MergeStoresOfConstantsOrVecElts(SmallVectorImpl<MemOpLink> &StoreNodes,
bool MergeStoresOfConstantsOrVecElts(		EVT MemVT, unsigned NumStores,
SmallVectorImpl<MemOpLink> &StoreNodes, EVT MemVT, unsigned NumStores,
bool IsConstantSrc, bool UseVector);		bool IsConstantSrc, bool UseVector);

/// This is a helper function for MergeConsecutiveStores.		/// This is a helper function for MergeConsecutiveStores.
/// Stores that may be merged are placed in StoreNodes.		/// Stores that may be merged are placed in StoreNodes.
/// Loads that may alias with those stores are placed in AliasLoadNodes.		void getStoreMergeCandidates(StoreSDNode *St,
void getStoreMergeAndAliasCandidates(		SmallVectorImpl<MemOpLink> &StoreNodes);
StoreSDNode* St, SmallVectorImpl<MemOpLink> &StoreNodes,
SmallVectorImpl<LSBaseSDNode*> &AliasLoadNodes);

/// Helper function for MergeConsecutiveStores. Checks if		/// Helper function for MergeConsecutiveStores. Checks if
/// Candidate stores have indirect dependency through their		/// Candidate stores have indirect dependency through their
/// operands. \return True if safe to merge		/// operands. \return True if safe to merge
bool checkMergeStoreCandidatesForDependencies(		bool checkMergeStoreCandidatesForDependencies(
SmallVectorImpl<MemOpLink> &StoreNodes);		SmallVectorImpl<MemOpLink> &StoreNodes);

/// Merge consecutive store operations into a wide store.		/// Merge consecutive store operations into a wide store.
▲ Show 20 Lines • Show All 1,148 Lines • ▼ Show 20 Lines	if (Changed) {
if (Ops.empty()) {		if (Ops.empty()) {
// The entry token is the only possible outcome.		// The entry token is the only possible outcome.
Result = DAG.getEntryNode();		Result = DAG.getEntryNode();
} else {		} else {
// New and improved token factor.		// New and improved token factor.
Result = DAG.getNode(ISD::TokenFactor, SDLoc(N), MVT::Other, Ops);		Result = DAG.getNode(ISD::TokenFactor, SDLoc(N), MVT::Other, Ops);
}		}

// Add users to worklist if AA is enabled, since it may introduce		// Add users to worklist, since we may introduce a lot of new
// a lot of new chained token factors while removing memory deps.		// chained token factors while removing memory deps.
bool UseAA = CombinerAA.getNumOccurrences() > 0 ? CombinerAA		return CombineTo(N, Result, true /add to worklist/);
: DAG.getSubtarget().useAA();
return CombineTo(N, Result, UseAA /add to worklist/);
}		}

return Result;		return Result;
}		}

/// MERGE_VALUES can always be eliminated.		/// MERGE_VALUES can always be eliminated.
SDValue DAGCombiner::visitMERGE_VALUES(SDNode *N) {		SDValue DAGCombiner::visitMERGE_VALUES(SDNode *N) {
WorklistRemover DeadNodes(*this);		WorklistRemover DeadNodes(*this);
▲ Show 20 Lines • Show All 8,639 Lines • ▼ Show 20 Lines	SDValue DAGCombiner::visitLOAD(SDNode *N) {
}		}

// If this load is directly stored, replace the load value with the stored		// If this load is directly stored, replace the load value with the stored
// value.		// value.
// TODO: Handle store large -> read small portion.		// TODO: Handle store large -> read small portion.
// TODO: Handle TRUNCSTORE/LOADEXT		// TODO: Handle TRUNCSTORE/LOADEXT
if (OptLevel != CodeGenOpt::None &&		if (OptLevel != CodeGenOpt::None &&
ISD::isNormalLoad(N) && !LD->isVolatile()) {		ISD::isNormalLoad(N) && !LD->isVolatile()) {
if (ISD::isNON_TRUNCStore(Chain.getNode())) {		// We can forward a direct store or a store off of a tokenfactor.
		if (Chain->getOpcode() == ISD::TokenFactor) {
		// If we find a potential match, make sure we are not
		// sidestepping a chain dependence from the tokenfactor. This
		// may happen if one operand of the token factor depends is
		// chained off the other.

		for (const SDValue &ChainOp : Chain->op_values()) {
		if (ISD::isNON_TRUNCStore(ChainOp.getNode())) {
		StoreSDNode *PrevST = cast<StoreSDNode>(ChainOp);
		if (PrevST->getBasePtr() == Ptr &&
		PrevST->getValue().getValueType() == N->getValueType(0)) {
		// Make Sure PrevSt is not a predecessor to another node in
		// the token factor as this may implicitly bypass that node.
		SmallPtrSet<const SDNode *, 16> Visited;
		SmallVector<const SDNode *, 8> Worklist;
		// Worklist is all other chainops
		for (const SDValue &OtherChainOp : Chain->op_values())
		if (OtherChainOp != ChainOp)
		Worklist.push_back(OtherChainOp.getNode());
		// If it's not a predecssor forwarding is safe.
		if (!SDNode::hasPredecessorHelper(PrevST, Visited, Worklist))
		return CombineTo(N, PrevST->getOperand(1), Chain);
		}
		}
		}
		} else if (ISD::isNON_TRUNCStore(Chain.getNode())) {
StoreSDNode *PrevST = cast<StoreSDNode>(Chain);		StoreSDNode *PrevST = cast<StoreSDNode>(Chain);
if (PrevST->getBasePtr() == Ptr &&		if (PrevST->getBasePtr() == Ptr &&
PrevST->getValue().getValueType() == N->getValueType(0))		PrevST->getValue().getValueType() == N->getValueType(0))
return CombineTo(N, Chain.getOperand(1), Chain);		return CombineTo(N, PrevST->getOperand(1), Chain);
}		}
}		}

// Try to infer better alignment information than the load already has.		// Try to infer better alignment information than the load already has.
if (OptLevel != CodeGenOpt::None && LD->isUnindexed()) {		if (OptLevel != CodeGenOpt::None && LD->isUnindexed()) {
if (unsigned Align = DAG.InferPtrAlignment(Ptr)) {		if (unsigned Align = DAG.InferPtrAlignment(Ptr)) {
if (Align > LD->getMemOperand()->getBaseAlignment()) {		if (Align > LD->getMemOperand()->getBaseAlignment()) {
SDValue NewLoad = DAG.getExtLoad(		SDValue NewLoad = DAG.getExtLoad(
LD->getExtensionType(), SDLoc(N), LD->getValueType(0), Chain, Ptr,		LD->getExtensionType(), SDLoc(N), LD->getValueType(0), Chain, Ptr,
LD->getPointerInfo(), LD->getMemoryVT(), Align,		LD->getPointerInfo(), LD->getMemoryVT(), Align,
LD->getMemOperand()->getFlags(), LD->getAAInfo());		LD->getMemOperand()->getFlags(), LD->getAAInfo());
if (NewLoad.getNode() != N)		if (NewLoad.getNode() != N)
return CombineTo(N, NewLoad, SDValue(NewLoad.getNode(), 1), true);		return CombineTo(N, NewLoad, SDValue(NewLoad.getNode(), 1), true);
}		}
}		}
}		}

bool UseAA = CombinerAA.getNumOccurrences() > 0 ? CombinerAA		if (LD->isUnindexed()) {
: DAG.getSubtarget().useAA();
#ifndef NDEBUG
if (CombinerAAOnlyFunc.getNumOccurrences() &&
CombinerAAOnlyFunc != DAG.getMachineFunction().getName())
UseAA = false;
#endif
if (UseAA && LD->isUnindexed()) {
// Walk up chain skipping non-aliasing memory nodes.		// Walk up chain skipping non-aliasing memory nodes.
SDValue BetterChain = FindBetterChain(N, Chain);		SDValue BetterChain = FindBetterChain(N, Chain);

// If there is a better chain.		// If there is a better chain.
if (Chain != BetterChain) {		if (Chain != BetterChain) {
SDValue ReplLoad;		SDValue ReplLoad;

// Replace the chain to void dependency.		// Replace the chain to void dependency.
▲ Show 20 Lines • Show All 1,062 Lines • ▼ Show 20 Lines	if (Use->getOpcode() == ISD::MUL) { // We have another multiply use.
return true;		return true;
}		}
}		}

// Didn't find a case where this would be profitable.		// Didn't find a case where this would be profitable.
return false;		return false;
}		}

SDValue DAGCombiner::getMergedConstantVectorStore(		SDValue DAGCombiner::getMergedConstantVectorStore(SelectionDAG &DAG,
SelectionDAG &DAG, const SDLoc &SL, ArrayRef<MemOpLink> Stores,		const SDLoc &SL,
SmallVectorImpl<SDValue> &Chains, EVT Ty) const {		ArrayRef<MemOpLink> Stores,
		EVT Ty) const {
SmallVector<SDValue, 8> BuildVector;		SmallVector<SDValue, 8> BuildVector;

for (unsigned I = 0, E = Ty.getVectorNumElements(); I != E; ++I) {		for (unsigned I = 0, E = Ty.getVectorNumElements(); I != E; ++I) {
StoreSDNode *St = cast<StoreSDNode>(Stores[I].MemNode);		StoreSDNode *St = cast<StoreSDNode>(Stores[I].MemNode);
Chains.push_back(St->getChain());
BuildVector.push_back(St->getValue());		BuildVector.push_back(St->getValue());
}		}

return DAG.getBuildVector(Ty, SL, BuildVector);		return DAG.getBuildVector(Ty, SL, BuildVector);
}		}

bool DAGCombiner::MergeStoresOfConstantsOrVecElts(		bool DAGCombiner::MergeStoresOfConstantsOrVecElts(
SmallVectorImpl<MemOpLink> &StoreNodes, EVT MemVT,		SmallVectorImpl<MemOpLink> &StoreNodes, EVT MemVT,
unsigned NumStores, bool IsConstantSrc, bool UseVector) {		unsigned NumStores, bool IsConstantSrc, bool UseVector) {
// Make sure we have something to merge.		// Make sure we have something to merge.
if (NumStores < 2)		if (NumStores < 2)
return false;		return false;

int64_t ElementSizeBytes = MemVT.getSizeInBits() / 8;		int64_t ElementSizeBytes = MemVT.getSizeInBits() / 8;
LSBaseSDNode *FirstInChain = StoreNodes[0].MemNode;		LSBaseSDNode *FirstInChain = StoreNodes[0].MemNode;
unsigned LatestNodeUsed = 0;

for (unsigned i=0; i < NumStores; ++i) {
// Find a chain for the new wide-store operand. Notice that some
// of the store nodes that we found may not be selected for inclusion
// in the wide store. The chain we use needs to be the chain of the
// latest store node which is used and replaced by the wide store.
if (StoreNodes[i].SequenceNum < StoreNodes[LatestNodeUsed].SequenceNum)
LatestNodeUsed = i;
}

SmallVector<SDValue, 8> Chains;

// The latest Node in the DAG.		// The latest Node in the DAG.
LSBaseSDNode *LatestOp = StoreNodes[LatestNodeUsed].MemNode;
SDLoc DL(StoreNodes[0].MemNode);		SDLoc DL(StoreNodes[0].MemNode);

SDValue StoredVal;		SDValue StoredVal;
if (UseVector) {		if (UseVector) {
bool IsVec = MemVT.isVector();		bool IsVec = MemVT.isVector();
unsigned Elts = NumStores;		unsigned Elts = NumStores;
if (IsVec) {		if (IsVec) {
// When merging vector stores, get the total number of elements.		// When merging vector stores, get the total number of elements.
Elts *= MemVT.getVectorNumElements();		Elts *= MemVT.getVectorNumElements();
}		}
// Get the type for the merged vector store.		// Get the type for the merged vector store.
EVT Ty = EVT::getVectorVT(*DAG.getContext(), MemVT.getScalarType(), Elts);		EVT Ty = EVT::getVectorVT(*DAG.getContext(), MemVT.getScalarType(), Elts);
assert(TLI.isTypeLegal(Ty) && "Illegal vector store");		assert(TLI.isTypeLegal(Ty) && "Illegal vector store");

if (IsConstantSrc) {		if (IsConstantSrc) {
StoredVal = getMergedConstantVectorStore(DAG, DL, StoreNodes, Chains, Ty);		StoredVal = getMergedConstantVectorStore(DAG, DL, StoreNodes, Ty);
} else {		} else {
SmallVector<SDValue, 8> Ops;		SmallVector<SDValue, 8> Ops;
for (unsigned i = 0; i < NumStores; ++i) {		for (unsigned i = 0; i < NumStores; ++i) {
StoreSDNode *St = cast<StoreSDNode>(StoreNodes[i].MemNode);		StoreSDNode *St = cast<StoreSDNode>(StoreNodes[i].MemNode);
SDValue Val = St->getValue();		SDValue Val = St->getValue();
// All operands of BUILD_VECTOR / CONCAT_VECTOR must have the same type.		// All operands of BUILD_VECTOR / CONCAT_VECTOR must have the same type.
if (Val.getValueType() != MemVT)		if (Val.getValueType() != MemVT)
return false;		return false;
Ops.push_back(Val);		Ops.push_back(Val);
Chains.push_back(St->getChain());
}		}

// Build the extracted vector elements back into a vector.		// Build the extracted vector elements back into a vector.
StoredVal = DAG.getNode(IsVec ? ISD::CONCAT_VECTORS : ISD::BUILD_VECTOR,		StoredVal = DAG.getNode(IsVec ? ISD::CONCAT_VECTORS : ISD::BUILD_VECTOR,
DL, Ty, Ops); }		DL, Ty, Ops); }
} else {		} else {
// We should always use a vector store when merging extracted vector		// We should always use a vector store when merging extracted vector
// elements, so this path implies a store of constants.		// elements, so this path implies a store of constants.
assert(IsConstantSrc && "Merged vector elements should use vector store");		assert(IsConstantSrc && "Merged vector elements should use vector store");

unsigned SizeInBits = NumStores * ElementSizeBytes * 8;		unsigned SizeInBits = NumStores * ElementSizeBytes * 8;
APInt StoreInt(SizeInBits, 0);		APInt StoreInt(SizeInBits, 0);

// Construct a single integer constant which is made of the smaller		// Construct a single integer constant which is made of the smaller
// constant inputs.		// constant inputs.
bool IsLE = DAG.getDataLayout().isLittleEndian();		bool IsLE = DAG.getDataLayout().isLittleEndian();
for (unsigned i = 0; i < NumStores; ++i) {		for (unsigned i = 0; i < NumStores; ++i) {
unsigned Idx = IsLE ? (NumStores - 1 - i) : i;		unsigned Idx = IsLE ? (NumStores - 1 - i) : i;
StoreSDNode *St = cast<StoreSDNode>(StoreNodes[Idx].MemNode);		StoreSDNode *St = cast<StoreSDNode>(StoreNodes[Idx].MemNode);
Chains.push_back(St->getChain());

SDValue Val = St->getValue();		SDValue Val = St->getValue();
StoreInt <<= ElementSizeBytes * 8;		StoreInt <<= ElementSizeBytes * 8;
if (ConstantSDNode *C = dyn_cast<ConstantSDNode>(Val)) {		if (ConstantSDNode *C = dyn_cast<ConstantSDNode>(Val)) {
StoreInt \|= C->getAPIntValue().zext(SizeInBits);		StoreInt \|= C->getAPIntValue().zext(SizeInBits);
} else if (ConstantFPSDNode *C = dyn_cast<ConstantFPSDNode>(Val)) {		} else if (ConstantFPSDNode *C = dyn_cast<ConstantFPSDNode>(Val)) {
StoreInt \|= C->getValueAPF().bitcastToAPInt().zext(SizeInBits);		StoreInt \|= C->getValueAPF().bitcastToAPInt().zext(SizeInBits);
} else {		} else {
llvm_unreachable("Invalid constant element type");		llvm_unreachable("Invalid constant element type");
}		}
}		}

// Create the new Load and Store operations.		// Create the new Load and Store operations.
EVT StoreTy = EVT::getIntegerVT(*DAG.getContext(), SizeInBits);		EVT StoreTy = EVT::getIntegerVT(*DAG.getContext(), SizeInBits);
StoredVal = DAG.getConstant(StoreInt, DL, StoreTy);		StoredVal = DAG.getConstant(StoreInt, DL, StoreTy);
}		}

assert(!Chains.empty());		SmallVector<SDValue, 8> Chains;

		// Gather all Chains we're inheriting
		for (unsigned i = 0; i < NumStores; ++i)
		Chains.push_back(StoreNodes[i].MemNode->getChain());

SDValue NewChain = DAG.getNode(ISD::TokenFactor, DL, MVT::Other, Chains);		SDValue NewChain = DAG.getNode(ISD::TokenFactor, DL, MVT::Other, Chains);
SDValue NewStore = DAG.getStore(NewChain, DL, StoredVal,		SDValue NewStore = DAG.getStore(NewChain, DL, StoredVal,
FirstInChain->getBasePtr(),		FirstInChain->getBasePtr(),
FirstInChain->getPointerInfo(),		FirstInChain->getPointerInfo(),
FirstInChain->getAlignment());		FirstInChain->getAlignment());

bool UseAA = CombinerAA.getNumOccurrences() > 0 ? CombinerAA
: DAG.getSubtarget().useAA();
if (UseAA) {
// Replace all merged stores with the new store.		// Replace all merged stores with the new store.
for (unsigned i = 0; i < NumStores; ++i)		for (unsigned i = 0; i < NumStores; ++i)
CombineTo(StoreNodes[i].MemNode, NewStore);		CombineTo(StoreNodes[i].MemNode, NewStore);
} else {
// Replace the last store with the new store.
CombineTo(LatestOp, NewStore);
// Erase all other stores.
for (unsigned i = 0; i < NumStores; ++i) {
if (StoreNodes[i].MemNode == LatestOp)
continue;
StoreSDNode *St = cast<StoreSDNode>(StoreNodes[i].MemNode);
// ReplaceAllUsesWith will replace all uses that existed when it was
// called, but graph optimizations may cause new ones to appear. For
// example, the case in pr14333 looks like
//
// St's chain -> St -> another store -> X
//
// And the only difference from St to the other store is the chain.
// When we change it's chain to be St's chain they become identical,
// get CSEed and the net result is that X is now a use of St.
// Since we know that St is redundant, just iterate.
while (!St->use_empty())
DAG.ReplaceAllUsesWith(SDValue(St, 0), St->getChain());
deleteAndRecombine(St);
}
}

StoreNodes.erase(StoreNodes.begin() + NumStores, StoreNodes.end());		StoreNodes.erase(StoreNodes.begin() + NumStores, StoreNodes.end());
return true;		return true;
}		}

void DAGCombiner::getStoreMergeAndAliasCandidates(		void DAGCombiner::getStoreMergeCandidates(
StoreSDNode* St, SmallVectorImpl<MemOpLink> &StoreNodes,		StoreSDNode *St, SmallVectorImpl<MemOpLink> &StoreNodes) {
SmallVectorImpl<LSBaseSDNode*> &AliasLoadNodes) {
// This holds the base pointer, index, and the offset in bytes from the base		// This holds the base pointer, index, and the offset in bytes from the base
// pointer.		// pointer.
BaseIndexOffset BasePtr = BaseIndexOffset::match(St->getBasePtr(), DAG);		BaseIndexOffset BasePtr = BaseIndexOffset::match(St->getBasePtr(), DAG);
		EVT MemVT = St->getMemoryVT();

// We must have a base and an offset.		// We must have a base and an offset.
if (!BasePtr.Base.getNode())		if (!BasePtr.Base.getNode())
return;		return;

// Do not handle stores to undef base pointers.		// Do not handle stores to undef base pointers.
if (BasePtr.Base.isUndef())		if (BasePtr.Base.isUndef())
return;		return;

// Walk up the chain and look for nodes with offsets from the same		// We looking for a root node which is an ancestor to all mergable
// base pointer. Stop when reaching an instruction with a different kind		// stores. We search up through a load, to our root and then down
// or instruction which has a different base pointer.		// through all children. For instance we will find Store{1,2,3} if
EVT MemVT = St->getMemoryVT();		// St is Store1, Store2. or Store3 where the root is not a load
unsigned Seq = 0;		// which always true for nonvolatile ops. TODO: Expand
StoreSDNode *Index = St;		// the search to find all valid candidates through multiple layers of loads.
		//
		// Root
bool UseAA = CombinerAA.getNumOccurrences() > 0 ? CombinerAA		// \|-------\|-------\|
: DAG.getSubtarget().useAA();		// Load Load Store3
		// \| \|
if (UseAA) {		// Store1 Store2
// Look at other users of the same chain. Stores on the same chain do not		//
// alias. If combiner-aa is enabled, non-aliasing stores are canonicalized		// FIXME: We should be able to climb and
// to be on the same chain, so don't bother looking at adjacent chains.		// descend TokenFactors to find candidates as well.

		SDNode *RootNode = (St->getChain()).getNode();

		// Set of Parents of Candidates
		std::set<SDNode *> CandidateParents;

		if (LoadSDNode *Ldn = dyn_cast<LoadSDNode>(RootNode)) {
		RootNode = Ldn->getChain().getNode();
		for (auto I = RootNode->use_begin(), E = RootNode->use_end(); I != E; ++I)
		if (I.getOperandNo() == 0 && isa<LoadSDNode>(*I)) // walk down chain
		CandidateParents.insert(*I);
		} else
		CandidateParents.insert(RootNode);

SDValue Chain = St->getChain();		// check all parents of mergable children
for (auto I = Chain->use_begin(), E = Chain->use_end(); I != E; ++I) {		for (auto P = CandidateParents.begin(); P != CandidateParents.end(); ++P)
		for (auto I = (P)->use_begin(), E = (P)->use_end(); I != E; ++I)
		if (I.getOperandNo() == 0)
if (StoreSDNode OtherST = dyn_cast<StoreSDNode>(I)) {		if (StoreSDNode OtherST = dyn_cast<StoreSDNode>(I)) {
if (I.getOperandNo() != 0)
continue;

if (OtherST->isVolatile() \|\| OtherST->isIndexed())		if (OtherST->isVolatile() \|\| OtherST->isIndexed())
continue;		continue;

if (OtherST->getMemoryVT() != MemVT)		if (OtherST->getMemoryVT() != MemVT)
continue;		continue;
		BaseIndexOffset Ptr =
BaseIndexOffset Ptr = BaseIndexOffset::match(OtherST->getBasePtr(), DAG);		BaseIndexOffset::match(OtherST->getBasePtr(), DAG);

if (Ptr.equalBaseIndex(BasePtr))		if (Ptr.equalBaseIndex(BasePtr))
StoreNodes.push_back(MemOpLink(OtherST, Ptr.Offset, Seq++));		StoreNodes.push_back(MemOpLink(OtherST, Ptr.Offset));
}
}

return;
}

while (Index) {
// If the chain has more than one use, then we can't reorder the mem ops.
if (Index != St && !SDValue(Index, 0)->hasOneUse())
break;

// Find the base pointer and offset for this memory node.
BaseIndexOffset Ptr = BaseIndexOffset::match(Index->getBasePtr(), DAG);

// Check that the base pointer is the same as the original one.
if (!Ptr.equalBaseIndex(BasePtr))
break;

// The memory operands must not be volatile.
if (Index->isVolatile() \|\| Index->isIndexed())
break;

// No truncation.
if (Index->isTruncatingStore())
break;

// The stored memory type must be the same.
if (Index->getMemoryVT() != MemVT)
break;

// We do not allow under-aligned stores in order to prevent
// overriding stores. NOTE: this is a bad hack. Alignment SHOULD
// be irrelevant here; what MATTERS is that we not move memory
// operations that potentially overlap past each-other.
if (Index->getAlignment() < MemVT.getStoreSize())
break;

// We found a potential memory operand to merge.
StoreNodes.push_back(MemOpLink(Index, Ptr.Offset, Seq++));

// Find the next memory operand in the chain. If the next operand in the
// chain is a store then move up and continue the scan with the next
// memory operand. If the next operand is a load save it and use alias
// information to check if it interferes with anything.
SDNode *NextInChain = Index->getChain().getNode();
while (1) {
if (StoreSDNode *STn = dyn_cast<StoreSDNode>(NextInChain)) {
// We found a store node. Use it for the next iteration.
Index = STn;
break;
} else if (LoadSDNode *Ldn = dyn_cast<LoadSDNode>(NextInChain)) {
if (Ldn->isVolatile()) {
Index = nullptr;
break;
}

// Save the load node for later. Continue the scan.
AliasLoadNodes.push_back(Ldn);
NextInChain = Ldn->getChain().getNode();
continue;
} else {
Index = nullptr;
break;
}
}
}		}
}		}

// We need to check that merging these stores does not cause a loop		// We need to check that merging these stores does not cause a loop
// in the DAG. Any store candidate may depend on another candidate		// in the DAG. Any store candidate may depend on another candidate
// indirectly through its operand (we already consider dependencies		// indirectly through its operand (we already consider dependencies
// through the chain). Check in parallel by searching up from		// through the chain). Check in parallel by searching up from
// non-chain operands of candidates.		// non-chain operands of candidates.
bool DAGCombiner::checkMergeStoreCandidatesForDependencies(		bool DAGCombiner::checkMergeStoreCandidatesForDependencies(
▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines	if (!IsConstantSrc && !IsLoadSrc && !IsExtractVecSrc)
return false;		return false;

// Don't merge vectors into wider vectors if the source data comes from loads.		// Don't merge vectors into wider vectors if the source data comes from loads.
// TODO: This restriction can be lifted by using logic similar to the		// TODO: This restriction can be lifted by using logic similar to the
// ExtractVecSrc case.		// ExtractVecSrc case.
if (MemVT.isVector() && IsLoadSrc)		if (MemVT.isVector() && IsLoadSrc)
return false;		return false;

// Only look at ends of store sequences.		// Find potential store merge candidates by searching through chain sub-DAG
SDValue Chain = SDValue(St, 0);		getStoreMergeCandidates(St, StoreNodes);
if (Chain->hasOneUse() && Chain->use_begin()->getOpcode() == ISD::STORE)
return false;

// Save the LoadSDNodes that we find in the chain.
// We need to make sure that these nodes do not interfere with
// any of the store nodes.
SmallVector<LSBaseSDNode*, 8> AliasLoadNodes;

getStoreMergeAndAliasCandidates(St, StoreNodes, AliasLoadNodes);

// Check if there is anything to merge.		// Check if there is anything to merge.
if (StoreNodes.size() < 2)		if (StoreNodes.size() < 2)
return false;		return false;

// only do dependence check in AA case		// Check that we can merge these candidates without causing a cycle
bool UseAA = CombinerAA.getNumOccurrences() > 0 ? CombinerAA		if (!checkMergeStoreCandidatesForDependencies(StoreNodes))
: DAG.getSubtarget().useAA();
if (UseAA && !checkMergeStoreCandidatesForDependencies(StoreNodes))
return false;		return false;

// Sort the memory operands according to their distance from the		// Sort the memory operands according to their distance from the
// base pointer. As a secondary criteria: make sure stores coming		// base pointer.
// later in the code come first in the list. This is important for
// the non-UseAA case, because we're merging stores into the FINAL
// store along a chain which potentially contains aliasing stores.
// Thus, if there are multiple stores to the same address, the last
// one can be considered for merging but not the others.
std::sort(StoreNodes.begin(), StoreNodes.end(),		std::sort(StoreNodes.begin(), StoreNodes.end(),
[](MemOpLink LHS, MemOpLink RHS) {		[](MemOpLink LHS, MemOpLink RHS) {
return LHS.OffsetFromBase < RHS.OffsetFromBase \|\|		return LHS.OffsetFromBase < RHS.OffsetFromBase;
(LHS.OffsetFromBase == RHS.OffsetFromBase &&
LHS.SequenceNum < RHS.SequenceNum);
});		});

// Scan the memory operations on the chain and find the first non-consecutive		// Scan the memory operations on the chain and find the first non-consecutive
// store memory address.		// store memory address.
unsigned LastConsecutiveStore = 0;		unsigned LastConsecutiveStore = 0;
int64_t StartAddress = StoreNodes[0].OffsetFromBase;		int64_t StartAddress = StoreNodes[0].OffsetFromBase;
for (unsigned i = 0, e = StoreNodes.size(); i < e; ++i) {

// Check that the addresses are consecutive starting from the second		// Check that the addresses are consecutive starting from the second
// element in the list of stores.		// element in the list of stores.
if (i > 0) {		for (unsigned i = 1, e = StoreNodes.size(); i < e; ++i) {
int64_t CurrAddress = StoreNodes[i].OffsetFromBase;		int64_t CurrAddress = StoreNodes[i].OffsetFromBase;
if (CurrAddress - StartAddress != (ElementSizeBytes * i))		if (CurrAddress - StartAddress != (ElementSizeBytes * i))
break;		break;
}

// Check if this store interferes with any of the loads that we found.
// If we find a load that alias with this store. Stop the sequence.
if (any_of(AliasLoadNodes, [&](LSBaseSDNode *Ldn) {
return isAlias(Ldn, StoreNodes[i].MemNode);
}))
break;

// Mark this node as useful.
LastConsecutiveStore = i;		LastConsecutiveStore = i;
}		}

// The node with the lowest store address.		// The node with the lowest store address.
LSBaseSDNode *FirstInChain = StoreNodes[0].MemNode;		LSBaseSDNode *FirstInChain = StoreNodes[0].MemNode;
unsigned FirstStoreAS = FirstInChain->getAddressSpace();		unsigned FirstStoreAS = FirstInChain->getAddressSpace();
unsigned FirstStoreAlign = FirstInChain->getAlignment();		unsigned FirstStoreAlign = FirstInChain->getAlignment();
LLVMContext &Context = *DAG.getContext();		LLVMContext &Context = *DAG.getContext();
▲ Show 20 Lines • Show All 137 Lines • ▼ Show 20 Lines	if (LdBasePtr.Base.getNode()) {
if (!LdPtr.equalBaseIndex(LdBasePtr))		if (!LdPtr.equalBaseIndex(LdBasePtr))
break;		break;
} else {		} else {
// Check that all other base pointers are the same as this one.		// Check that all other base pointers are the same as this one.
LdBasePtr = LdPtr;		LdBasePtr = LdPtr;
}		}

// We found a potential memory operand to merge.		// We found a potential memory operand to merge.
LoadNodes.push_back(MemOpLink(Ld, LdPtr.Offset, 0));		LoadNodes.push_back(MemOpLink(Ld, LdPtr.Offset));
}		}

if (LoadNodes.size() < 2)		if (LoadNodes.size() < 2)
return false;		return false;

// If we have load/store pair instructions and we only have two values,		// If we have load/store pair instructions and we only have two values,
// don't bother.		// don't bother.
unsigned RequiredAlignment;		unsigned RequiredAlignment;
▲ Show 20 Lines • Show All 72 Lines • ▼ Show 20 Lines	bool DAGCombiner::MergeConsecutiveStores(
unsigned NumElem = std::min(LastConsecutiveStore, LastConsecutiveLoad) + 1;		unsigned NumElem = std::min(LastConsecutiveStore, LastConsecutiveLoad) + 1;
NumElem = std::min(LastLegalType, NumElem);		NumElem = std::min(LastLegalType, NumElem);

if (NumElem < 2)		if (NumElem < 2)
return false;		return false;

// Collect the chains from all merged stores.		// Collect the chains from all merged stores.
SmallVector<SDValue, 8> MergeStoreChains;		SmallVector<SDValue, 8> MergeStoreChains;
MergeStoreChains.push_back(StoreNodes[0].MemNode->getChain());		for (unsigned i = 0; i < NumElem; ++i)

// The latest Node in the DAG.
unsigned LatestNodeUsed = 0;
for (unsigned i=1; i<NumElem; ++i) {
// Find a chain for the new wide-store operand. Notice that some
// of the store nodes that we found may not be selected for inclusion
// in the wide store. The chain we use needs to be the chain of the
// latest store node which is used and replaced by the wide store.
if (StoreNodes[i].SequenceNum < StoreNodes[LatestNodeUsed].SequenceNum)
LatestNodeUsed = i;

MergeStoreChains.push_back(StoreNodes[i].MemNode->getChain());		MergeStoreChains.push_back(StoreNodes[i].MemNode->getChain());
}

LSBaseSDNode *LatestOp = StoreNodes[LatestNodeUsed].MemNode;

// Find if it is better to use vectors or integers to load and store		// Find if it is better to use vectors or integers to load and store
// to memory.		// to memory.
EVT JointMemOpVT;		EVT JointMemOpVT;
if (UseVectorTy) {		if (UseVectorTy) {
JointMemOpVT = EVT::getVectorVT(Context, MemVT, NumElem);		JointMemOpVT = EVT::getVectorVT(Context, MemVT, NumElem);
} else {		} else {
unsigned SizeInBits = NumElem * ElementSizeBytes * 8;		unsigned SizeInBits = NumElem * ElementSizeBytes * 8;
Show All 18 Lines	bool DAGCombiner::MergeConsecutiveStores(

// Transfer chain users from old loads to the new load.		// Transfer chain users from old loads to the new load.
for (unsigned i = 0; i < NumElem; ++i) {		for (unsigned i = 0; i < NumElem; ++i) {
LoadSDNode *Ld = cast<LoadSDNode>(LoadNodes[i].MemNode);		LoadSDNode *Ld = cast<LoadSDNode>(LoadNodes[i].MemNode);
DAG.ReplaceAllUsesOfValueWith(SDValue(Ld, 1),		DAG.ReplaceAllUsesOfValueWith(SDValue(Ld, 1),
SDValue(NewLoad.getNode(), 1));		SDValue(NewLoad.getNode(), 1));
}		}

if (UseAA) {
// Replace the all stores with the new store.		// Replace the all stores with the new store.
for (unsigned i = 0; i < NumElem; ++i)		for (unsigned i = 0; i < NumElem; ++i)
CombineTo(StoreNodes[i].MemNode, NewStore);		CombineTo(StoreNodes[i].MemNode, NewStore);
} else {
// Replace the last store with the new store.
CombineTo(LatestOp, NewStore);
// Erase all other stores.
for (unsigned i = 0; i < NumElem; ++i) {
// Remove all Store nodes.
if (StoreNodes[i].MemNode == LatestOp)
continue;
StoreSDNode *St = cast<StoreSDNode>(StoreNodes[i].MemNode);
DAG.ReplaceAllUsesOfValueWith(SDValue(St, 0), St->getChain());
deleteAndRecombine(St);
}
}

StoreNodes.erase(StoreNodes.begin() + NumElem, StoreNodes.end());		StoreNodes.erase(StoreNodes.begin() + NumElem, StoreNodes.end());
return true;		return true;
}		}

SDValue DAGCombiner::replaceStoreChain(StoreSDNode *ST, SDValue BetterChain) {		SDValue DAGCombiner::replaceStoreChain(StoreSDNode *ST, SDValue BetterChain) {
SDLoc SL(ST);		SDLoc SL(ST);
SDValue ReplStore;		SDValue ReplStore;
▲ Show 20 Lines • Show All 142 Lines • ▼ Show 20 Lines	if (OptLevel != CodeGenOpt::None && ST->isUnindexed()) {
}		}
}		}

// Try transforming a pair floating point load / store ops to integer		// Try transforming a pair floating point load / store ops to integer
// load / store ops.		// load / store ops.
if (SDValue NewST = TransformFPLoadStorePair(N))		if (SDValue NewST = TransformFPLoadStorePair(N))
return NewST;		return NewST;

bool UseAA = CombinerAA.getNumOccurrences() > 0 ? CombinerAA		if (ST->isUnindexed()) {
: DAG.getSubtarget().useAA();
#ifndef NDEBUG
if (CombinerAAOnlyFunc.getNumOccurrences() &&
CombinerAAOnlyFunc != DAG.getMachineFunction().getName())
UseAA = false;
#endif
if (UseAA && ST->isUnindexed()) {
// FIXME: We should do this even without AA enabled. AA will just allow
// FindBetterChain to work in more situations. The problem with this is that
// any combine that expects memory operations to be on consecutive chains
// first needs to be updated to look for users of the same chain.

// Walk up chain skipping non-aliasing memory nodes, on this store and any		// Walk up chain skipping non-aliasing memory nodes, on this store and any
// adjacent stores.		// adjacent stores.
if (findBetterNeighborChains(ST)) {		if (findBetterNeighborChains(ST)) {
// replaceStoreChain uses CombineTo, which handled all of the worklist		// replaceStoreChain uses CombineTo, which handled all of the worklist
// manipulation. Return the original node to not do anything else.		// manipulation. Return the original node to not do anything else.
return SDValue(ST, 0);		return SDValue(ST, 0);
}		}
Chain = ST->getChain();		Chain = ST->getChain();
Show All 17 Lines	if (Shorter.getNode())
return DAG.getTruncStore(Chain, SDLoc(N), Shorter,		return DAG.getTruncStore(Chain, SDLoc(N), Shorter,
Ptr, ST->getMemoryVT(), ST->getMemOperand());		Ptr, ST->getMemoryVT(), ST->getMemOperand());

// Otherwise, see if we can simplify the operation with		// Otherwise, see if we can simplify the operation with
// SimplifyDemandedBits, which only works if the value has a single use.		// SimplifyDemandedBits, which only works if the value has a single use.
if (SimplifyDemandedBits(		if (SimplifyDemandedBits(
Value,		Value,
APInt::getLowBitsSet(Value.getScalarValueSizeInBits(),		APInt::getLowBitsSet(Value.getScalarValueSizeInBits(),
ST->getMemoryVT().getScalarSizeInBits())))		ST->getMemoryVT().getScalarSizeInBits()))) {
		// Re-visit the store if anything changed; SimplifyDemandedBits
		// will add Value's node back to the worklist if necessary, but
		// we also need to re-visit the Store node itself.
		AddToWorklist(N);
return SDValue(N, 0);		return SDValue(N, 0);
}		}
		}

// If this is a load followed by a store to the same location, then the store		// If this is a load followed by a store to the same location, then the store
// is dead/noop.		// is dead/noop.
if (LoadSDNode *Ld = dyn_cast<LoadSDNode>(Value)) {		if (LoadSDNode *Ld = dyn_cast<LoadSDNode>(Value)) {
if (Ld->getBasePtr() == Ptr && ST->getMemoryVT() == Ld->getMemoryVT() &&		if (Ld->getBasePtr() == Ptr && ST->getMemoryVT() == Ld->getMemoryVT() &&
ST->isUnindexed() && !ST->isVolatile() &&		ST->isUnindexed() && !ST->isVolatile() &&
// There can't be any side effects between the load and store, such as		// There can't be any side effects between the load and store, such as
// a call or store.		// a call or store.
▲ Show 20 Lines • Show All 3,099 Lines • ▼ Show 20 Lines	SDValue DAGCombiner::FindBetterChain(SDNode *N, SDValue OldChain) {
// If a single operand then chain to it. We don't need to revisit it.		// If a single operand then chain to it. We don't need to revisit it.
if (Aliases.size() == 1)		if (Aliases.size() == 1)
return Aliases[0];		return Aliases[0];

// Construct a custom tailored token factor.		// Construct a custom tailored token factor.
return DAG.getNode(ISD::TokenFactor, SDLoc(N), MVT::Other, Aliases);		return DAG.getNode(ISD::TokenFactor, SDLoc(N), MVT::Other, Aliases);
}		}

		// This function tries to collect a bunch of potentially interesting
		// nodes to improve the chains of, all at once. This might seem
		// redundant, as this function gets called when visiting every store
		// node, so why not let the work be done on each store as it's visited?
		//
		// I believe this is mainly important because MergeConsecutiveStores
		// is unable to deal with merging stores of different sizes, so unless
		// we improve the chains of all the potential candidates up-front
		// before running MergeConsecutiveStores, it might only see some of
		// the nodes that will eventually be candidates, and then not be able
		// to go from a partially-merged state to the desired final
		// fully-merged state.
bool DAGCombiner::findBetterNeighborChains(StoreSDNode *St) {		bool DAGCombiner::findBetterNeighborChains(StoreSDNode *St) {
// This holds the base pointer, index, and the offset in bytes from the base		// This holds the base pointer, index, and the offset in bytes from the base
// pointer.		// pointer.
BaseIndexOffset BasePtr = BaseIndexOffset::match(St->getBasePtr(), DAG);		BaseIndexOffset BasePtr = BaseIndexOffset::match(St->getBasePtr(), DAG);

// We must have a base and an offset.		// We must have a base and an offset.
if (!BasePtr.Base.getNode())		if (!BasePtr.Base.getNode())
return false;		return false;
Show All 19 Lines	while (Index) {

// Find the base pointer and offset for this memory node.		// Find the base pointer and offset for this memory node.
BaseIndexOffset Ptr = BaseIndexOffset::match(Index->getBasePtr(), DAG);		BaseIndexOffset Ptr = BaseIndexOffset::match(Index->getBasePtr(), DAG);

// Check that the base pointer is the same as the original one.		// Check that the base pointer is the same as the original one.
if (!Ptr.equalBaseIndex(BasePtr))		if (!Ptr.equalBaseIndex(BasePtr))
break;		break;

// Find the next memory operand in the chain. If the next operand in the		// Walk up the chain to find the next store node, ignoring any
// chain is a store then move up and continue the scan with the next		// intermediate loads. Any other kind of node will halt the loop.
// memory operand. If the next operand is a load save it and use alias
// information to check if it interferes with anything.
SDNode *NextInChain = Index->getChain().getNode();		SDNode *NextInChain = Index->getChain().getNode();
while (true) {		while (true) {
if (StoreSDNode *STn = dyn_cast<StoreSDNode>(NextInChain)) {		if (StoreSDNode *STn = dyn_cast<StoreSDNode>(NextInChain)) {
// We found a store node. Use it for the next iteration.		// We found a store node. Use it for the next iteration.
if (STn->isVolatile() \|\| STn->isIndexed()) {		if (STn->isVolatile() \|\| STn->isIndexed()) {
Index = nullptr;		Index = nullptr;
break;		break;
}		}
ChainedStores.push_back(STn);		ChainedStores.push_back(STn);
Index = STn;		Index = STn;
break;		break;
} else if (LoadSDNode *Ldn = dyn_cast<LoadSDNode>(NextInChain)) {		} else if (LoadSDNode *Ldn = dyn_cast<LoadSDNode>(NextInChain)) {
NextInChain = Ldn->getChain().getNode();		NextInChain = Ldn->getChain().getNode();
continue;		continue;
} else {		} else {
Index = nullptr;		Index = nullptr;
break;		break;
}		}
}		} // end while
}		}

		// At this point, ChainedStores lists all of the Store nodes
		// reachable by iterating up through chain nodes matching the above
		// conditions. For each such store identified, try to find an
		// earlier chain to attach the store to which won't violate the
		// required ordering.
bool MadeChangeToSt = false;		bool MadeChangeToSt = false;
SmallVector<std::pair<StoreSDNode *, SDValue>, 8> BetterChains;		SmallVector<std::pair<StoreSDNode *, SDValue>, 8> BetterChains;

for (StoreSDNode *ChainedStore : ChainedStores) {		for (StoreSDNode *ChainedStore : ChainedStores) {
SDValue Chain = ChainedStore->getChain();		SDValue Chain = ChainedStore->getChain();
SDValue BetterChain = FindBetterChain(ChainedStore, Chain);		SDValue BetterChain = FindBetterChain(ChainedStore, Chain);

if (Chain != BetterChain) {		if (Chain != BetterChain) {
Show All 20 Lines

llvm/trunk/lib/CodeGen/TargetLoweringBase.cpp

Show First 20 Lines • Show All 822 Lines • ▼ Show 20 Lines	TargetLoweringBase::TargetLoweringBase(const TargetMachine &tm) : TM(tm) {
BooleanFloatContents = UndefinedBooleanContent;		BooleanFloatContents = UndefinedBooleanContent;
BooleanVectorContents = UndefinedBooleanContent;		BooleanVectorContents = UndefinedBooleanContent;
SchedPreferenceInfo = Sched::ILP;		SchedPreferenceInfo = Sched::ILP;
JumpBufSize = 0;		JumpBufSize = 0;
JumpBufAlignment = 0;		JumpBufAlignment = 0;
MinFunctionAlignment = 0;		MinFunctionAlignment = 0;
PrefFunctionAlignment = 0;		PrefFunctionAlignment = 0;
PrefLoopAlignment = 0;		PrefLoopAlignment = 0;
GatherAllAliasesMaxDepth = 6;		GatherAllAliasesMaxDepth = 18;
MinStackArgumentAlignment = 1;		MinStackArgumentAlignment = 1;
// TODO: the default will be switched to 0 in the next commit, along		// TODO: the default will be switched to 0 in the next commit, along
// with the Target-specific changes necessary.		// with the Target-specific changes necessary.
MaxAtomicSizeInBitsSupported = 1024;		MaxAtomicSizeInBitsSupported = 1024;

MinCmpXchgSizeInBits = 0;		MinCmpXchgSizeInBits = 0;

std::fill(std::begin(LibcallRoutineNames), std::end(LibcallRoutineNames), nullptr);		std::fill(std::begin(LibcallRoutineNames), std::end(LibcallRoutineNames), nullptr);
▲ Show 20 Lines • Show All 1,237 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelLowering.cpp

Show First 20 Lines • Show All 443 Lines • ▼ Show 20 Lines	AMDGPUTargetLowering::AMDGPUTargetLowering(const TargetMachine &TM,

// SI at least has hardware support for floating point exceptions, but no way		// SI at least has hardware support for floating point exceptions, but no way
// of using or handling them is implemented. They are also optional in OpenCL		// of using or handling them is implemented. They are also optional in OpenCL
// (Section 7.3)		// (Section 7.3)
setHasFloatingPointExceptions(Subtarget->hasFPExceptions());		setHasFloatingPointExceptions(Subtarget->hasFPExceptions());

PredictableSelectIsExpensive = false;		PredictableSelectIsExpensive = false;

// We want to find all load dependencies for long chains of stores to enable
// merging into very wide vectors. The problem is with vectors with > 4
// elements. MergeConsecutiveStores will attempt to merge these because x8/x16
// vectors are a legal type, even though we have to split the loads
// usually. When we can more precisely specify load legality per address
// space, we should be able to make FindBetterChain/MergeConsecutiveStores
// smarter so that they can figure out what to do in 2 iterations without all
// N > 4 stores on the same chain.
GatherAllAliasesMaxDepth = 16;

// FIXME: Need to really handle these.		// FIXME: Need to really handle these.
MaxStoresPerMemcpy = 4096;		MaxStoresPerMemcpy = 4096;
MaxStoresPerMemmove = 4096;		MaxStoresPerMemmove = 4096;
MaxStoresPerMemset = 4096;		MaxStoresPerMemset = 4096;

setTargetDAGCombine(ISD::BITCAST);		setTargetDAGCombine(ISD::BITCAST);
setTargetDAGCombine(ISD::SHL);		setTargetDAGCombine(ISD::SHL);
setTargetDAGCombine(ISD::SRA);		setTargetDAGCombine(ISD::SRA);
▲ Show 20 Lines • Show All 2,679 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/AArch64/argument-blocks.ll

	Show First 20 Lines • Show All 56 Lines • ▼ Show 20 Lines
	; CHECK: mov x0, x1			; CHECK: mov x0, x1
	ret i64 %res			ret i64 %res
	}			}

	; [2 x float] should not be promoted to double by the Darwin varargs handling,			; [2 x float] should not be promoted to double by the Darwin varargs handling,
	; but should go in an 8-byte aligned slot.			; but should go in an 8-byte aligned slot.
	define void @test_varargs_stackalign() {			define void @test_varargs_stackalign() {
	; CHECK-LABEL: test_varargs_stackalign:			; CHECK-LABEL: test_varargs_stackalign:
	; CHECK-DARWINPCS: stp {{w[0-9]+}}, {{w[0-9]+}}, [sp, #16]			; CHECK-DARWINPCS: str {{x[0-9]+}}, [sp, #16]

	call void(...) @callee([3 x float] undef, [2 x float] [float 1.0, float 2.0])			call void(...) @callee([3 x float] undef, [2 x float] [float 1.0, float 2.0])
	ret void			ret void
	}			}

	define i64 @test_smallstruct_block([7 x i64], [2 x i64] %in) {			define i64 @test_smallstruct_block([7 x i64], [2 x i64] %in) {
	; CHECK-LABEL: test_smallstruct_block:			; CHECK-LABEL: test_smallstruct_block:
	; CHECK: ldp [[LHS:x[0-9]+]], [[RHS:x[0-9]+]], [sp]			; CHECK: ldp [[LHS:x[0-9]+]], [[RHS:x[0-9]+]], [sp]
	▲ Show 20 Lines • Show All 124 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/AArch64/arm64-abi.ll

Show First 20 Lines • Show All 199 Lines • ▼ Show 20 Lines	; CHECK: strh [[REG_3:w[0-9]+]], [sp]
ret i32 %call		ret i32 %call
}		}
declare i32 @args_i32(i32, i32, i32, i32, i32, i32, i32, i32, i16 signext, i32,		declare i32 @args_i32(i32, i32, i32, i32, i32, i32, i32, i32, i16 signext, i32,
i8 signext)		i8 signext)

define i32 @test8(i32 %argc, i8** nocapture %argv) nounwind {		define i32 @test8(i32 %argc, i8** nocapture %argv) nounwind {
entry:		entry:
; CHECK-LABEL: test8		; CHECK-LABEL: test8
; CHECK: strb {{w[0-9]+}}, [sp, #3]		; CHECK: str w8, [sp]
; CHECK: strb wzr, [sp, #2]
; CHECK: strb {{w[0-9]+}}, [sp, #1]
; CHECK: strb wzr, [sp]
; CHECK: bl		; CHECK: bl
; FAST-LABEL: test8		; FAST-LABEL: test8
; FAST: strb {{w[0-9]+}}, [sp]		; FAST: strb {{w[0-9]+}}, [sp]
; FAST: strb {{w[0-9]+}}, [sp, #1]		; FAST: strb {{w[0-9]+}}, [sp, #1]
; FAST: strb {{w[0-9]+}}, [sp, #2]		; FAST: strb {{w[0-9]+}}, [sp, #2]
; FAST: strb {{w[0-9]+}}, [sp, #3]		; FAST: strb {{w[0-9]+}}, [sp, #3]
; FAST: bl		; FAST: bl
tail call void @args_i1(i1 zeroext false, i1 zeroext true, i1 zeroext false,		tail call void @args_i1(i1 zeroext false, i1 zeroext true, i1 zeroext false,
Show All 18 Lines

llvm/trunk/test/CodeGen/AArch64/arm64-memset-inline.ll

	; RUN: llc < %s -mtriple=arm64-eabi \| FileCheck %s			; RUN: llc < %s -mtriple=arm64-eabi \| FileCheck %s

	define void @t1(i8* nocapture %c) nounwind optsize {			define void @t1(i8* nocapture %c) nounwind optsize {
	entry:			entry:
	; CHECK-LABEL: t1:			; CHECK-LABEL: t1:
	; CHECK: str wzr, [x0, #8]			; CHECK: str wzr, [x0, #8]
	; CHECK: str xzr, [x0]			; CHECK: str xzr, [x0]
	call void @llvm.memset.p0i8.i64(i8* %c, i8 0, i64 12, i32 8, i1 false)			call void @llvm.memset.p0i8.i64(i8* %c, i8 0, i64 12, i32 8, i1 false)
	ret void			ret void
	}			}

	define void @t2() nounwind ssp {			define void @t2() nounwind ssp {
	entry:			entry:
	; CHECK-LABEL: t2:			; CHECK-LABEL: t2:
	; CHECK: strh wzr, [sp, #32]			; CHECK: strh wzr, [sp, #32]
	; CHECK: stp xzr, xzr, [sp, #16]			; CHECK: stp xzr, xzr, [sp, #8]
	; CHECK: str xzr, [sp, #8]			; CHECK: str xzr, [sp, #24]
	%buf = alloca [26 x i8], align 1			%buf = alloca [26 x i8], align 1
	%0 = getelementptr inbounds [26 x i8], [26 x i8]* %buf, i32 0, i32 0			%0 = getelementptr inbounds [26 x i8], [26 x i8]* %buf, i32 0, i32 0
	call void @llvm.memset.p0i8.i32(i8* %0, i8 0, i32 26, i32 1, i1 false)			call void @llvm.memset.p0i8.i32(i8* %0, i8 0, i32 26, i32 1, i1 false)
	call void @something(i8* %0) nounwind			call void @something(i8* %0) nounwind
	ret void			ret void
	}			}

	declare void @something(i8*) nounwind			declare void @something(i8*) nounwind
	declare void @llvm.memset.p0i8.i32(i8* nocapture, i8, i32, i32, i1) nounwind			declare void @llvm.memset.p0i8.i32(i8* nocapture, i8, i32, i32, i1) nounwind
	declare void @llvm.memset.p0i8.i64(i8* nocapture, i8, i64, i32, i1) nounwind			declare void @llvm.memset.p0i8.i64(i8* nocapture, i8, i64, i32, i1) nounwind

llvm/trunk/test/CodeGen/AArch64/ldst-opt.ll

Show First 20 Lines • Show All 1,364 Lines • ▼ Show 20 Lines	entry:
store i32 0, i32* %p3		store i32 0, i32* %p3
ret void		ret void
}		}

; Like merge_zr32_2, but checking the largest allowed stp immediate offset.		; Like merge_zr32_2, but checking the largest allowed stp immediate offset.
define void @merge_zr32_2_offset(i32* %p) {		define void @merge_zr32_2_offset(i32* %p) {
; CHECK-LABEL: merge_zr32_2_offset:		; CHECK-LABEL: merge_zr32_2_offset:
; CHECK: // %entry		; CHECK: // %entry
; CHECK-NEXT: stp xzr, xzr, [x{{[0-9]+}}, #504]		; CHECK-NEXT: str xzr, [x0, #512]
		; CHECK-NEXT: str xzr, [x0, #504]
; CHECK-NEXT: ret		; CHECK-NEXT: ret
		; We should be able to merge these stores
		; CHECKFIXME-NEXT: stp xzr, xzr, [x{{[0-9]+}}, #504]
entry:		entry:
%p0 = getelementptr i32, i32* %p, i32 126		%p0 = getelementptr i32, i32* %p, i32 126
store i32 0, i32* %p0		store i32 0, i32* %p0
%p1 = getelementptr i32, i32* %p, i32 127		%p1 = getelementptr i32, i32* %p, i32 127
store i32 0, i32* %p1		store i32 0, i32* %p1
%p2 = getelementptr i32, i32* %p, i64 128		%p2 = getelementptr i32, i32* %p, i64 128
store i32 0, i32* %p2		store i32 0, i32* %p2
%p3 = getelementptr i32, i32* %p, i64 129		%p3 = getelementptr i32, i32* %p, i64 129
Show All 23 Lines
}		}

; Like merge_zr32, but replaceZeroVectorStore should not split the		; Like merge_zr32, but replaceZeroVectorStore should not split the
; vector store since the zero constant vector has multiple uses, so we		; vector store since the zero constant vector has multiple uses, so we
; err on the side that allows for stp q instruction generation.		; err on the side that allows for stp q instruction generation.
define void @merge_zr32_3(i32* %p) {		define void @merge_zr32_3(i32* %p) {
; CHECK-LABEL: merge_zr32_3:		; CHECK-LABEL: merge_zr32_3:
; CHECK: // %entry		; CHECK: // %entry
; CHECK-NEXT: movi v[[REG:[0-9]]].2d, #0000000000000000		; CHECK-NEXT: stp xzr, xzr, [x[[REG:[0-9]+]]]
; CHECK-NEXT: stp q[[REG]], q[[REG]], [x{{[0-9]+}}]		; CHECK-NEXT: stp xzr, xzr, [x[[REG]], #16]
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
store i32 0, i32* %p		store i32 0, i32* %p
%p1 = getelementptr i32, i32* %p, i32 1		%p1 = getelementptr i32, i32* %p, i32 1
store i32 0, i32* %p1		store i32 0, i32* %p1
%p2 = getelementptr i32, i32* %p, i64 2		%p2 = getelementptr i32, i32* %p, i64 2
store i32 0, i32* %p2		store i32 0, i32* %p2
%p3 = getelementptr i32, i32* %p, i64 3		%p3 = getelementptr i32, i32* %p, i64 3
▲ Show 20 Lines • Show All 78 Lines • ▼ Show 20 Lines	entry:
ret void		ret void
}		}

; Similar to merge_zr32_3, replaceZeroVectorStore should not split the		; Similar to merge_zr32_3, replaceZeroVectorStore should not split the
; vector store since the zero constant vector has multiple uses.		; vector store since the zero constant vector has multiple uses.
define void @merge_zr64_2(i64* %p) {		define void @merge_zr64_2(i64* %p) {
; CHECK-LABEL: merge_zr64_2:		; CHECK-LABEL: merge_zr64_2:
; CHECK: // %entry		; CHECK: // %entry
; CHECK-NEXT: movi v[[REG:[0-9]]].2d, #0000000000000000		; CHECK-NEXT: stp xzr, xzr, [x[[REG:[0-9]+]]]
; CHECK-NEXT: stp q[[REG]], q[[REG]], [x{{[0-9]+}}]		; CHECK-NEXT: stp xzr, xzr, [x[[REG]], #16]
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
store i64 0, i64* %p		store i64 0, i64* %p
%p1 = getelementptr i64, i64* %p, i64 1		%p1 = getelementptr i64, i64* %p, i64 1
store i64 0, i64* %p1		store i64 0, i64* %p1
%p2 = getelementptr i64, i64* %p, i64 2		%p2 = getelementptr i64, i64* %p, i64 2
store i64 0, i64* %p2		store i64 0, i64* %p2
%p3 = getelementptr i64, i64* %p, i64 3		%p3 = getelementptr i64, i64* %p, i64 3
Show All 38 Lines

llvm/trunk/test/CodeGen/AArch64/merge-store.ll

	; RUN: llc < %s -mtriple=aarch64-unknown-unknown -mcpu=cyclone \| FileCheck %s --check-prefix=CYCLONE --check-prefix=CHECK			; RUN: llc < %s -mtriple=aarch64-unknown-unknown -mcpu=cyclone \| FileCheck %s --check-prefix=CYCLONE --check-prefix=CHECK
	; RUN: llc < %s -mtriple=aarch64-eabi -mattr=-slow-misaligned-128store \| FileCheck %s --check-prefix=MISALIGNED --check-prefix=CHECK			; RUN: llc < %s -mtriple=aarch64-eabi -mattr=-slow-misaligned-128store \| FileCheck %s --check-prefix=MISALIGNED --check-prefix=CHECK

	@g0 = external global <3 x float>, align 16			@g0 = external global <3 x float>, align 16
	@g1 = external global <3 x float>, align 4			@g1 = external global <3 x float>, align 4

	; CHECK: ldr s[[R0:[0-9]+]], {{\[}}[[R1:x[0-9]+]]{{\]}}, #4			; CHECK: ldr q[[R0:[0-9]+]], {{\[}}[[R1:x[0-9]+]], :lo12:g0
	; CHECK: ld1{{\.?s?}} { v[[R0]]{{\.?s?}} }[1], {{\[}}[[R1]]{{\]}}			;; TODO: this next line seems like a redundant no-op move?
				; CHECK: ins v0.s[1], v0.s[1]
	; CHECK: str d[[R0]]			; CHECK: str d[[R0]]

	define void @blam() {			define void @blam() {
	%tmp4 = getelementptr inbounds <3 x float>, <3 x float>* @g1, i64 0, i64 0			%tmp4 = getelementptr inbounds <3 x float>, <3 x float>* @g1, i64 0, i64 0
	%tmp5 = load <3 x float>, <3 x float>* @g0, align 16			%tmp5 = load <3 x float>, <3 x float>* @g0, align 16
	%tmp6 = extractelement <3 x float> %tmp5, i64 0			%tmp6 = extractelement <3 x float> %tmp5, i64 0
	store float %tmp6, float* %tmp4			store float %tmp6, float* %tmp4
	%tmp7 = getelementptr inbounds float, float* %tmp4, i64 1			%tmp7 = getelementptr inbounds float, float* %tmp4, i64 1
	Show All 37 Lines

llvm/trunk/test/CodeGen/AArch64/vector_merge_dep_check.ll

	; RUN: llc --combiner-alias-analysis=false < %s \| FileCheck %s			; RUN: llc < %s \| FileCheck %s
	; RUN: llc --combiner-alias-analysis=true < %s \| FileCheck %s

	; This test checks that we do not merge stores together which have			; This test checks that we do not merge stores together which have
	; dependencies through their non-chain operands (e.g. one store is the			; dependencies through their non-chain operands (e.g. one store is the
	; chain ancestor of a load whose value is used in as the data for the			; chain ancestor of a load whose value is used in as the data for the
	; other store). Merging in such cases creates a loop in the DAG.			; other store). Merging in such cases creates a loop in the DAG.

	target datalayout = "e-m:e-i64:64-i128:128-n32:64-S128"			target datalayout = "e-m:e-i64:64-i128:128-n32:64-S128"
	target triple = "aarch64--linux-android"			target triple = "aarch64--linux-android"
	Show All 31 Lines

llvm/trunk/test/CodeGen/AMDGPU/debugger-insert-nops.ll

	; RUN: llc -O0 -mtriple=amdgcn--amdhsa -mcpu=fiji -mattr=+amdgpu-debugger-insert-nops -verify-machineinstrs < %s \| FileCheck %s			; RUN: llc -O0 -mtriple=amdgcn--amdhsa -mcpu=fiji -mattr=+amdgpu-debugger-insert-nops -verify-machineinstrs < %s \| FileCheck %s --check-prefix=CHECK
				; RUN: llc -O0 -mtriple=amdgcn--amdhsa -mcpu=fiji -mattr=+amdgpu-debugger-insert-nops -verify-machineinstrs < %s \| FileCheck %s --check-prefix=CHECKNOP

	; CHECK: test01.cl:2:{{[0-9]+}}			; This test expects that we have one instance for each line in some order with "s_nop 0" instances after each.
	; CHECK-NEXT: s_nop 0

	; CHECK: test01.cl:3:{{[0-9]+}}
	; CHECK-NEXT: s_nop 0

	; CHECK: test01.cl:4:{{[0-9]+}}			; Check that each line appears at least once
	; CHECK-NEXT: s_nop 0			; CHECK-DAG: test01.cl:2:3
				; CHECK-DAG: test01.cl:3:3
				; CHECK-DAG: test01.cl:4:3


				; Check that each of each of the lines consists of the line output, followed by "s_nop 0"
				; CHECKNOP: test01.cl:{{[234]}}:3
				; CHECKNOP-NEXT: s_nop 0
				; CHECKNOP: test01.cl:{{[234]}}:3
				; CHECKNOP-NEXT: s_nop 0
				; CHECKNOP: test01.cl:{{[234]}}:3
				; CHECKNOP-NEXT: s_nop 0

	; CHECK: test01.cl:5:{{[0-9]+}}			; CHECK: test01.cl:5:{{[0-9]+}}
	; CHECK-NEXT: s_nop 0			; CHECK-NEXT: s_nop 0
	; CHECK-NEXT: s_endpgm			; CHECK-NEXT: s_endpgm

	; Function Attrs: nounwind			; Function Attrs: nounwind
	define void @test(i32 addrspace(1)* %A) #0 !dbg !12 {			define void @test(i32 addrspace(1)* %A) #0 !dbg !12 {
	entry:			entry:
	%A.addr = alloca i32 addrspace(1)*, align 4			%A.addr = alloca i32 addrspace(1)*, align 4
	store i32 addrspace(1)* %A, i32 addrspace(1)** %A.addr, align 4			store i32 addrspace(1)* %A, i32 addrspace(1)** %A.addr, align 4
	call void @llvm.dbg.declare(metadata i32 addrspace(1)** %A.addr, metadata !17, metadata !18), !dbg !19			call void @llvm.dbg.declare(metadata i32 addrspace(1)** %A.addr, metadata !17, metadata !18), !dbg !19
	%0 = load i32 addrspace(1), i32 addrspace(1)* %A.addr, align 4, !dbg !20			%0 = load i32 addrspace(1), i32 addrspace(1)* %A.addr, align 4, !dbg !20
	%arrayidx = getelementptr inbounds i32, i32 addrspace(1)* %0, i32 0, !dbg !20			%arrayidx = getelementptr inbounds i32, i32 addrspace(1)* %0, i32 0, !dbg !20
	store i32 1, i32 addrspace(1)* %arrayidx, align 4, !dbg !21			store i32 1, i32 addrspace(1)* %arrayidx, align 4, !dbg !20
	%1 = load i32 addrspace(1), i32 addrspace(1)* %A.addr, align 4, !dbg !22			%1 = load i32 addrspace(1), i32 addrspace(1)* %A.addr, align 4, !dbg !22
	%arrayidx1 = getelementptr inbounds i32, i32 addrspace(1)* %1, i32 1, !dbg !22			%arrayidx1 = getelementptr inbounds i32, i32 addrspace(1)* %1, i32 1, !dbg !22
	store i32 2, i32 addrspace(1)* %arrayidx1, align 4, !dbg !23			store i32 2, i32 addrspace(1)* %arrayidx1, align 4, !dbg !23
	%2 = load i32 addrspace(1), i32 addrspace(1)* %A.addr, align 4, !dbg !24			%2 = load i32 addrspace(1), i32 addrspace(1)* %A.addr, align 4, !dbg !24
	%arrayidx2 = getelementptr inbounds i32, i32 addrspace(1)* %2, i32 2, !dbg !24			%arrayidx2 = getelementptr inbounds i32, i32 addrspace(1)* %2, i32 2, !dbg !24
	store i32 3, i32 addrspace(1)* %arrayidx2, align 4, !dbg !25			store i32 3, i32 addrspace(1)* %arrayidx2, align 4, !dbg !25
	ret void, !dbg !26			ret void, !dbg !26
	}			}
	Show All 39 Lines

llvm/trunk/test/CodeGen/AMDGPU/insert_vector_elt.ll

	Show First 20 Lines • Show All 247 Lines • ▼ Show 20 Lines

	; GCN-LABEL: {{^}}dynamic_insertelement_v3i8:			; GCN-LABEL: {{^}}dynamic_insertelement_v3i8:
	; GCN: buffer_load_ubyte v{{[0-9]+}}, off			; GCN: buffer_load_ubyte v{{[0-9]+}}, off
	; GCN: buffer_load_ubyte v{{[0-9]+}}, off			; GCN: buffer_load_ubyte v{{[0-9]+}}, off
	; GCN: buffer_load_ubyte v{{[0-9]+}}, off			; GCN: buffer_load_ubyte v{{[0-9]+}}, off

	; GCN-DAG: buffer_store_byte v{{[0-9]+}}, off, s{{\[[0-9]+:[0-9]+\]}}, s{{[0-9]+}} offset:2			; GCN-DAG: buffer_store_byte v{{[0-9]+}}, off, s{{\[[0-9]+:[0-9]+\]}}, s{{[0-9]+}} offset:2
	; GCN-DAG: buffer_store_byte v{{[0-9]+}}, off, s{{\[[0-9]+:[0-9]+\]}}, s{{[0-9]+}} offset:1			; GCN-DAG: buffer_store_byte v{{[0-9]+}}, off, s{{\[[0-9]+:[0-9]+\]}}, s{{[0-9]+}} offset:1
	; GCN-DAG: buffer_store_byte v{{[0-9]+}}, off, s{{\[[0-9]+:[0-9]+\]}}, s{{[0-9]+}}{{$}}			; GCN-DAG: buffer_store_byte v{{[0-9]+}}, v{{[0-9]+}}, s{{\[[0-9]+:[0-9]+\]}}, s{{[0-9]+}} offen{{$}}
				; GCN-DAG: buffer_store_byte v{{[0-9]+}}, v{{[0-9]+}}, s{{\[[0-9]+:[0-9]+\]}}, s{{[0-9]+}} offen{{$}}
	; GCN: buffer_store_byte v{{[0-9]+}}, v{{[0-9]+}}, s{{\[[0-9]+:[0-9]+\]}}, s{{[0-9]+}} offen{{$}}

	; GCN: buffer_load_ubyte			; GCN: buffer_load_ubyte
	; GCN: buffer_load_ubyte			; GCN: buffer_load_ubyte
	; GCN: buffer_load_ubyte			; GCN: buffer_load_ubyte

	; GCN-DAG: buffer_store_byte v{{[0-9]+}}, off			; GCN-DAG: buffer_store_byte v{{[0-9]+}}, off
	; GCN-DAG: buffer_store_short v{{[0-9]+}}, off			; GCN-DAG: buffer_store_short v{{[0-9]+}}, off
	define void @dynamic_insertelement_v3i8(<3 x i8> addrspace(1)* %out, <3 x i8> %a, i32 %b) nounwind {			define void @dynamic_insertelement_v3i8(<3 x i8> addrspace(1)* %out, <3 x i8> %a, i32 %b) nounwind {
	▲ Show 20 Lines • Show All 178 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/AMDGPU/merge-stores.ll

; RUN: llc -march=amdgcn -verify-machineinstrs -amdgpu-load-store-vectorizer=0 < %s \| FileCheck -check-prefix=SI -check-prefix=GCN -check-prefix=GCN-NOAA %s		; RUN: llc -march=amdgcn -verify-machineinstrs -amdgpu-load-store-vectorizer=0 < %s \| FileCheck -check-prefix=SI -check-prefix=GCN -check-prefix=GCN-AA %s
; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs -amdgpu-load-store-vectorizer=0 < %s \| FileCheck -check-prefix=SI -check-prefix=GCN -check-prefix=GCN-NOAA %s		; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs -amdgpu-load-store-vectorizer=0 < %s \| FileCheck -check-prefix=SI -check-prefix=GCN -check-prefix=GCN-AA %s

; RUN: llc -march=amdgcn -verify-machineinstrs -combiner-alias-analysis -amdgpu-load-store-vectorizer=0 < %s \| FileCheck -check-prefix=SI -check-prefix=GCN -check-prefix=GCN-AA %s
; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs -combiner-alias-analysis -amdgpu-load-store-vectorizer=0 < %s \| FileCheck -check-prefix=SI -check-prefix=GCN -check-prefix=GCN-AA %s

; This test is mostly to test DAG store merging, so disable the vectorizer.		; This test is mostly to test DAG store merging, so disable the vectorizer.
; Run with devices with different unaligned load restrictions.		; Run with devices with different unaligned load restrictions.

; TODO: Vector element tests		; TODO: Vector element tests
; TODO: Non-zero base offset for load and store combinations		; TODO: Non-zero base offset for load and store combinations
; TODO: Same base addrspacecasted		; TODO: Same base addrspacecasted

▲ Show 20 Lines • Show All 455 Lines • ▼ Show 20 Lines	define void @merge_global_store_4_adjacent_loads_i8_natural_align(i8 addrspace(1)* %out, i8 addrspace(1)* %in) #0 {

store i8 %x, i8 addrspace(1)* %out		store i8 %x, i8 addrspace(1)* %out
store i8 %y, i8 addrspace(1)* %out.gep.1		store i8 %y, i8 addrspace(1)* %out.gep.1
store i8 %z, i8 addrspace(1)* %out.gep.2		store i8 %z, i8 addrspace(1)* %out.gep.2
store i8 %w, i8 addrspace(1)* %out.gep.3		store i8 %w, i8 addrspace(1)* %out.gep.3
ret void		ret void
}		}

; This works once AA is enabled on the subtarget
; GCN-LABEL: {{^}}merge_global_store_4_vector_elts_loads_v4i32:		; GCN-LABEL: {{^}}merge_global_store_4_vector_elts_loads_v4i32:
; GCN: buffer_load_dwordx4 [[LOAD:v\[[0-9]+:[0-9]+\]]]		; GCN: buffer_load_dwordx4 [[LOAD:v\[[0-9]+:[0-9]+\]]]
		; GCN: buffer_store_dwordx4 [[LOAD]]
; GCN-NOAA: buffer_store_dword v
; GCN-NOAA: buffer_store_dword v
; GCN-NOAA: buffer_store_dword v
; GCN-NOAA: buffer_store_dword v

; GCN-AA: buffer_store_dwordx4 [[LOAD]]

; GCN: s_endpgm		; GCN: s_endpgm
define void @merge_global_store_4_vector_elts_loads_v4i32(i32 addrspace(1)* %out, <4 x i32> addrspace(1)* %in) #0 {		define void @merge_global_store_4_vector_elts_loads_v4i32(i32 addrspace(1)* %out, <4 x i32> addrspace(1)* %in) #0 {
%out.gep.1 = getelementptr i32, i32 addrspace(1)* %out, i32 1		%out.gep.1 = getelementptr i32, i32 addrspace(1)* %out, i32 1
%out.gep.2 = getelementptr i32, i32 addrspace(1)* %out, i32 2		%out.gep.2 = getelementptr i32, i32 addrspace(1)* %out, i32 2
%out.gep.3 = getelementptr i32, i32 addrspace(1)* %out, i32 3		%out.gep.3 = getelementptr i32, i32 addrspace(1)* %out, i32 3
%vec = load <4 x i32>, <4 x i32> addrspace(1)* %in		%vec = load <4 x i32>, <4 x i32> addrspace(1)* %in

%x = extractelement <4 x i32> %vec, i32 0		%x = extractelement <4 x i32> %vec, i32 0
▲ Show 20 Lines • Show All 213 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/AMDGPU/private-element-size.ll

	Show All 26 Lines
	; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:4{{$}}			; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:4{{$}}
	; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:8{{$}}			; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:8{{$}}
	; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:12{{$}}			; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:12{{$}}
	; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:16{{$}}			; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:16{{$}}
	; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:20{{$}}			; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:20{{$}}
	; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:24{{$}}			; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:24{{$}}
	; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:28{{$}}			; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:28{{$}}

	; HSA-ELT4: buffer_load_dword {{v[0-9]+}}, v{{[0-9]+}}, s[0:3], s9 offen{{$}}			; HSA-ELT4-DAG: buffer_load_dword {{v[0-9]+}}, v{{[0-9]+}}, s[0:3], s9 offen{{$}}
	; HSA-ELT4: buffer_load_dword {{v[0-9]+}}, v{{[0-9]+}}, s[0:3], s9 offen offset:4{{$}}			; HSA-ELT4-DAG: buffer_load_dword {{v[0-9]+}}, v{{[0-9]+}}, s[0:3], s9 offen offset:4{{$}}
	; HSA-ELT4: buffer_load_dword {{v[0-9]+}}, v{{[0-9]+}}, s[0:3], s9 offen offset:8{{$}}			; HSA-ELT4-DAG: buffer_load_dword {{v[0-9]+}}, v{{[0-9]+}}, s[0:3], s9 offen offset:8{{$}}
	; HSA-ELT4: buffer_load_dword {{v[0-9]+}}, v{{[0-9]+}}, s[0:3], s9 offen offset:12{{$}}			; HSA-ELT4-DAG: buffer_load_dword {{v[0-9]+}}, v{{[0-9]+}}, s[0:3], s9 offen offset:12{{$}}
	define void @private_elt_size_v4i32(<4 x i32> addrspace(1)* %out, i32 addrspace(1)* %index.array) #0 {			define void @private_elt_size_v4i32(<4 x i32> addrspace(1)* %out, i32 addrspace(1)* %index.array) #0 {
	entry:			entry:
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%idxprom = sext i32 %tid to i64			%idxprom = sext i32 %tid to i64
	%gep.index = getelementptr inbounds i32, i32 addrspace(1)* %index.array, i64 %idxprom			%gep.index = getelementptr inbounds i32, i32 addrspace(1)* %index.array, i64 %idxprom
	%index.load = load i32, i32 addrspace(1)* %gep.index			%index.load = load i32, i32 addrspace(1)* %gep.index
	%index = and i32 %index.load, 2			%index = and i32 %index.load, 2
	%alloca = alloca [2 x <4 x i32>], align 16			%alloca = alloca [2 x <4 x i32>], align 16
	▲ Show 20 Lines • Show All 78 Lines • ▼ Show 20 Lines
	}			}


	; ALL-LABEL: {{^}}private_elt_size_i64:			; ALL-LABEL: {{^}}private_elt_size_i64:
	; HSA-ELT16: private_element_size = 3			; HSA-ELT16: private_element_size = 3
	; HSA-ELT8: private_element_size = 2			; HSA-ELT8: private_element_size = 2
	; HSA-ELT4: private_element_size = 1			; HSA-ELT4: private_element_size = 1

	; HSA-ELTGE8-DAG: buffer_store_dwordx2 {{v\[[0-9]+:[0-9]+\]}}, off, s[0:3], s9{{$}}			; HSA-ELTGE8-DAG: buffer_store_dwordx2 {{v\[[0-9]+:[0-9]+\]}}, {{off\|v[0-9]}}, s[0:3], s9{{$}}
	; HSA-ELTGE8-DAG: buffer_store_dwordx2 {{v\[[0-9]+:[0-9]+\]}}, off, s[0:3], s9 offset:8			; HSA-ELTGE8-DAG: buffer_store_dwordx2 {{v\[[0-9]+:[0-9]+\]}}, {{off\|v[0-9]}}, s[0:3], s9 offset:8

	; HSA-ELTGE8: buffer_load_dwordx2 {{v\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}}, s[0:3], s9 offen			; HSA-ELTGE8: buffer_load_dwordx2 {{v\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}}, s[0:3], s9 offen


	; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9{{$}}			; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9{{$}}
	; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:4{{$}}			; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:4{{$}}
	; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:8{{$}}			; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:8{{$}}
	; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:12{{$}}			; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:12{{$}}
	▲ Show 20 Lines • Show All 110 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/AMDGPU/si-triv-disjoint-mem-access.ll

Show First 20 Lines • Show All 151 Lines • ▼ Show 20 Lines	define void @reorder_global_load_local_store_global_load(i32 addrspace(1)* %out, i32 addrspace(3)* %lptr, i32 addrspace(1)* %ptr0) #0 {
%add = add nsw i32 %tmp1, %tmp2		%add = add nsw i32 %tmp1, %tmp2

store i32 %add, i32 addrspace(1)* %out, align 4		store i32 %add, i32 addrspace(1)* %out, align 4
ret void		ret void
}		}

; FUNC-LABEL: @reorder_local_offsets		; FUNC-LABEL: @reorder_local_offsets
; CI: ds_read2_b32 {{v\[[0-9]+:[0-9]+\]}}, {{v[0-9]+}} offset0:100 offset1:102		; CI: ds_read2_b32 {{v\[[0-9]+:[0-9]+\]}}, {{v[0-9]+}} offset0:100 offset1:102
; CI: ds_write2_b32 {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}} offset0:3 offset1:100		; CI-DAG: ds_write2_b32 {{v[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} offset0:3 offset1:100
; CI: ds_read_b32 {{v[0-9]+}}, {{v[0-9]+}} offset:12		; CI-DAG: ds_write_b32 {{v[0-9]+}}, {{v[0-9]+}} offset:408
; CI: ds_write_b32 {{v[0-9]+}}, {{v[0-9]+}} offset:408
; CI: buffer_store_dword		; CI: buffer_store_dword
; CI: s_endpgm		; CI: s_endpgm
define void @reorder_local_offsets(i32 addrspace(1)* nocapture %out, i32 addrspace(1)* noalias nocapture readnone %gptr, i32 addrspace(3)* noalias nocapture %ptr0) #0 {		define void @reorder_local_offsets(i32 addrspace(1)* nocapture %out, i32 addrspace(1)* noalias nocapture readnone %gptr, i32 addrspace(3)* noalias nocapture %ptr0) #0 {
%ptr1 = getelementptr inbounds i32, i32 addrspace(3)* %ptr0, i32 3		%ptr1 = getelementptr inbounds i32, i32 addrspace(3)* %ptr0, i32 3
%ptr2 = getelementptr inbounds i32, i32 addrspace(3)* %ptr0, i32 100		%ptr2 = getelementptr inbounds i32, i32 addrspace(3)* %ptr0, i32 100
%ptr3 = getelementptr inbounds i32, i32 addrspace(3)* %ptr0, i32 102		%ptr3 = getelementptr inbounds i32, i32 addrspace(3)* %ptr0, i32 102

store i32 123, i32 addrspace(3)* %ptr1, align 4		store i32 123, i32 addrspace(3)* %ptr1, align 4
%tmp1 = load i32, i32 addrspace(3)* %ptr2, align 4		%tmp1 = load i32, i32 addrspace(3)* %ptr2, align 4
%tmp2 = load i32, i32 addrspace(3)* %ptr3, align 4		%tmp2 = load i32, i32 addrspace(3)* %ptr3, align 4
store i32 123, i32 addrspace(3)* %ptr2, align 4		store i32 123, i32 addrspace(3)* %ptr2, align 4
%tmp3 = load i32, i32 addrspace(3)* %ptr1, align 4		%tmp3 = load i32, i32 addrspace(3)* %ptr1, align 4
store i32 789, i32 addrspace(3)* %ptr3, align 4		store i32 789, i32 addrspace(3)* %ptr3, align 4

%add.0 = add nsw i32 %tmp2, %tmp1		%add.0 = add nsw i32 %tmp2, %tmp1
%add.1 = add nsw i32 %add.0, %tmp3		%add.1 = add nsw i32 %add.0, %tmp3
store i32 %add.1, i32 addrspace(1)* %out, align 4		store i32 %add.1, i32 addrspace(1)* %out, align 4
ret void		ret void
}		}

; FUNC-LABEL: @reorder_global_offsets		; FUNC-LABEL: @reorder_global_offsets
; CI: buffer_load_dword {{v[0-9]+}}, off, {{s\[[0-9]+:[0-9]+\]}}, 0 offset:400		; CI-DAG: buffer_load_dword {{v[0-9]+}}, off, {{s\[[0-9]+:[0-9]+\]}}, 0 offset:400
; CI: buffer_load_dword {{v[0-9]+}}, off, {{s\[[0-9]+:[0-9]+\]}}, 0 offset:408		; CI-DAG: buffer_load_dword {{v[0-9]+}}, off, {{s\[[0-9]+:[0-9]+\]}}, 0 offset:408
; CI: buffer_store_dword {{v[0-9]+}}, off, {{s\[[0-9]+:[0-9]+\]}}, 0 offset:12		; CI-DAG: buffer_store_dword {{v[0-9]+}}, off, {{s\[[0-9]+:[0-9]+\]}}, 0 offset:12
; CI: buffer_store_dword {{v[0-9]+}}, off, {{s\[[0-9]+:[0-9]+\]}}, 0 offset:400		; CI-DAG: buffer_store_dword {{v[0-9]+}}, off, {{s\[[0-9]+:[0-9]+\]}}, 0 offset:400
; CI: buffer_store_dword {{v[0-9]+}}, off, {{s\[[0-9]+:[0-9]+\]}}, 0 offset:408		; CI-DAG: buffer_store_dword {{v[0-9]+}}, off, {{s\[[0-9]+:[0-9]+\]}}, 0 offset:408
; CI: buffer_load_dword {{v[0-9]+}}, off, {{s\[[0-9]+:[0-9]+\]}}, 0 offset:12		; CI: buffer_store_dword
; CI: s_endpgm		; CI: s_endpgm
define void @reorder_global_offsets(i32 addrspace(1)* nocapture %out, i32 addrspace(1)* noalias nocapture readnone %gptr, i32 addrspace(1)* noalias nocapture %ptr0) #0 {		define void @reorder_global_offsets(i32 addrspace(1)* nocapture %out, i32 addrspace(1)* noalias nocapture readnone %gptr, i32 addrspace(1)* noalias nocapture %ptr0) #0 {
%ptr1 = getelementptr inbounds i32, i32 addrspace(1)* %ptr0, i32 3		%ptr1 = getelementptr inbounds i32, i32 addrspace(1)* %ptr0, i32 3
%ptr2 = getelementptr inbounds i32, i32 addrspace(1)* %ptr0, i32 100		%ptr2 = getelementptr inbounds i32, i32 addrspace(1)* %ptr0, i32 100
%ptr3 = getelementptr inbounds i32, i32 addrspace(1)* %ptr0, i32 102		%ptr3 = getelementptr inbounds i32, i32 addrspace(1)* %ptr0, i32 102

store i32 123, i32 addrspace(1)* %ptr1, align 4		store i32 123, i32 addrspace(1)* %ptr1, align 4
%tmp1 = load i32, i32 addrspace(1)* %ptr2, align 4		%tmp1 = load i32, i32 addrspace(1)* %ptr2, align 4
▲ Show 20 Lines • Show All 79 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/ARM/2012-10-04-AAPCS-byval-align8.ll

	; RUN: llc < %s -mtriple=armv7-none-linux-gnueabi \| FileCheck %s			; RUN: llc < %s -mtriple=armv7-none-linux-gnueabi \| FileCheck %s
	; Test that we correctly use registers and align elements when using va_arg			; Test that we correctly use registers and align elements when using va_arg

	%struct_t = type { double, double, double }			%struct_t = type { double, double, double }
	@static_val = constant %struct_t { double 1.0, double 2.0, double 3.0 }			@static_val = constant %struct_t { double 1.0, double 2.0, double 3.0 }

	declare void @llvm.va_start(i8*) nounwind			declare void @llvm.va_start(i8*) nounwind
	declare void @llvm.va_end(i8*) nounwind			declare void @llvm.va_end(i8*) nounwind

	; CHECK-LABEL: test_byval_8_bytes_alignment:			; CHECK-LABEL: test_byval_8_bytes_alignment:
	define void @test_byval_8_bytes_alignment(i32 %i, ...) {			define void @test_byval_8_bytes_alignment(i32 %i, ...) {
	entry:			entry:
	; CHECK: sub sp, sp, #12			; CHECK: sub sp, sp, #12
	; CHECK: sub sp, sp, #4			; CHECK: sub sp, sp, #4
	; CHECK: stmib sp, {r1, r2, r3}			; CHECK: add r0, sp, #4
				; CHECK: stm sp, {r0, r1, r2, r3}
	%g = alloca i8*			%g = alloca i8*
	%g1 = bitcast i8** %g to i8*			%g1 = bitcast i8** %g to i8*
	call void @llvm.va_start(i8* %g1)			call void @llvm.va_start(i8* %g1)

	; CHECK: add [[REG:(r[0-9]+)\|(lr)]], {{(r[0-9]+)\|(lr)}}, #7			; CHECK: add [[REG:(r[0-9]+)\|(lr)]], {{(r[0-9]+)\|(lr)}}, #7
	; CHECK: bfc [[REG]], #0, #3			; CHECK: bfc [[REG]], #0, #3
	%0 = va_arg i8** %g, double			%0 = va_arg i8** %g, double
	call void @llvm.va_end(i8* %g1)			call void @llvm.va_end(i8* %g1)
	▲ Show 20 Lines • Show All 42 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/ARM/alloc-no-stack-realign.ll

	; RUN: llc < %s -mtriple=armv7-apple-ios -O0 \| FileCheck %s -check-prefix=NO-REALIGN			; RUN: llc < %s -mtriple=armv7-apple-ios -O0 \| FileCheck %s
	; RUN: llc < %s -mtriple=armv7-apple-ios -O0 \| FileCheck %s -check-prefix=REALIGN

	; rdar://12713765			; rdar://12713765
	; When realign-stack is set to false, make sure we are not creating stack			; When realign-stack is set to false, make sure we are not creating stack
	; objects that are assumed to be 64-byte aligned.			; objects that are assumed to be 64-byte aligned.
	@T3_retval = common global <16 x float> zeroinitializer, align 16			@T3_retval = common global <16 x float> zeroinitializer, align 16

	define void @test1(<16 x float>* noalias sret %agg.result) nounwind ssp "no-realign-stack" {			define void @test1(<16 x float>* noalias sret %agg.result) nounwind ssp "no-realign-stack" {
	entry:			entry:
	; NO-REALIGN-LABEL: test1			; CHECK-LABEL: test1
	; NO-REALIGN: mov r[[R2:[0-9]+]], r[[R1:[0-9]+]]			; CHECK: ldr r[[R1:[0-9]+]], [pc, r1]
	; NO-REALIGN: vld1.32 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]!			; CHECK: add r[[R2:[0-9]+]], r1, #48
	; NO-REALIGN: vld1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]			; CHECK: vld1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]
	; NO-REALIGN: add r[[R2:[0-9]+]], r[[R1]], #32			; CHECK: mov r[[R2:[0-9]+]], r[[R1]]
	; NO-REALIGN: vld1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]			; CHECK: vld1.32 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]!
	; NO-REALIGN: add r[[R2:[0-9]+]], r[[R1]], #48			; CHECK: vld1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]
	; NO-REALIGN: vld1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]			; CHECK: add r[[R1:[0-9]+]], r[[R1]], #32
				; CHECK: vld1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R1]]:128]
	; NO-REALIGN: add r[[R2:[0-9]+]], r[[R1:[0-9]+]], #48			; CHECK: mov r[[R1:[0-9]+]], sp
	; NO-REALIGN: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]			; CHECK: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R1]]:128]
	; NO-REALIGN: add r[[R2:[0-9]+]], r[[R1]], #32			; CHECK: add r[[R2:[0-9]+]], r[[R1]], #32
	; NO-REALIGN: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]			; CHECK: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]
	; NO-REALIGN: mov r[[R3:[0-9]+]], r[[R1]]			; CHECK: vld1.32 {{{d[0-9]+, d[0-9]+}}}, [r[[R1]]:128]!
	; NO-REALIGN: vst1.32 {{{d[0-9]+, d[0-9]+}}}, [r[[R3]]:128]!			; CHECK: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R1]]:128]
	; NO-REALIGN: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R3]]:128]			; CHECK: vld1.32 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]!
				; CHECK: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]
	; NO-REALIGN: add r[[R2:[0-9]+]], r[[R0:0]], #48			; CHECK: vld1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R1]]:128]
	; NO-REALIGN: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]			; CHECK: vld1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]
	; NO-REALIGN: add r[[R2:[0-9]+]], r[[R0]], #32			; CHECK: add r[[R1:[0-9]+]], r0, #48
	; NO-REALIGN: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]			; CHECK: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R1]]:128]
	; NO-REALIGN: vst1.32 {{{d[0-9]+, d[0-9]+}}}, [r[[R0]]:128]!			; CHECK: add r[[R1:[0-9]+]], r0, #32
	; NO-REALIGN: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R0]]:128]			; CHECK: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R1]]:128]
				; CHECK: vst1.32 {{{d[0-9]+, d[0-9]+}}}, [r0:128]!
				; CHECK: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r0:128]
	%retval = alloca <16 x float>, align 16			%retval = alloca <16 x float>, align 16
	%0 = load <16 x float>, <16 x float>* @T3_retval, align 16			%0 = load <16 x float>, <16 x float>* @T3_retval, align 16
	store <16 x float> %0, <16 x float>* %retval			store <16 x float> %0, <16 x float>* %retval
	%1 = load <16 x float>, <16 x float>* %retval			%1 = load <16 x float>, <16 x float>* %retval
	store <16 x float> %1, <16 x float>* %agg.result, align 16			store <16 x float> %1, <16 x float>* %agg.result, align 16
	ret void			ret void
	}			}

	define void @test2(<16 x float>* noalias sret %agg.result) nounwind ssp {			define void @test2(<16 x float>* noalias sret %agg.result) nounwind ssp {
	entry:			entry:
	; REALIGN-LABEL: test2			; CHECK: ldr r[[R1:[0-9]+]], [pc, r1]
	; REALIGN: bfc sp, #0, #6			; CHECK: add r[[R2:[0-9]+]], r[[R1]], #48
	; REALIGN: mov r[[R2:[0-9]+]], r[[R1:[0-9]+]]			; CHECK: vld1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]
	; REALIGN: vld1.32 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]!			; CHECK: mov r[[R2:[0-9]+]], r[[R1]]
	; REALIGN: vld1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]			; CHECK: vld1.32 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]!
	; REALIGN: add r[[R2:[0-9]+]], r[[R1]], #32			; CHECK: vld1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]
	; REALIGN: vld1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]			; CHECK: add r[[R1:[0-9]+]], r[[R1]], #32
	; REALIGN: add r[[R2:[0-9]+]], r[[R1]], #48			; CHECK: vld1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R1]]:128]
	; REALIGN: vld1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]			; CHECK: mov r[[R1:[0-9]+]], sp
				; CHECK: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R1]]:128]
				; CHECK: orr r[[R2:[0-9]+]], r[[R1]], #32
				; CHECK: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]
				; CHECK: vld1.32 {{{d[0-9]+, d[0-9]+}}}, [r[[R1]]:128]!
				; CHECK: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R1]]:128]
				; CHECK: vld1.32 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]!
				; CHECK: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]
				; CHECK: vld1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R1]]:128]
				; CHECK: vld1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]
				; CHECK: add r[[R1:[0-9]+]], r0, #48
				; CHECK: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R1]]:128]
				; CHECK: add r[[R1:[0-9]+]], r0, #32
				; CHECK: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R1]]:128]
				; CHECK: vst1.32 {{{d[0-9]+, d[0-9]+}}}, [r0:128]!
				; CHECK: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r0:128]

	; REALIGN: orr r[[R2:[0-9]+]], r[[R1:[0-9]+]], #48
	; REALIGN: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]
	; REALIGN: orr r[[R2:[0-9]+]], r[[R1]], #32
	; REALIGN: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]
	; REALIGN: orr r[[R2:[0-9]+]], r[[R1]], #16
	; REALIGN: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]
	; REALIGN: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R1]]:128]

	; REALIGN: add r[[R1:[0-9]+]], r[[R0:0]], #48
	; REALIGN: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R1]]:128]
	; REALIGN: add r[[R1:[0-9]+]], r[[R0]], #32
	; REALIGN: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R1]]:128]
	; REALIGN: vst1.32 {{{d[0-9]+, d[0-9]+}}}, [r[[R0]]:128]!
	; REALIGN: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R0]]:128]
	%retval = alloca <16 x float>, align 16			%retval = alloca <16 x float>, align 16
	%0 = load <16 x float>, <16 x float>* @T3_retval, align 16			%0 = load <16 x float>, <16 x float>* @T3_retval, align 16
	store <16 x float> %0, <16 x float>* %retval			store <16 x float> %0, <16 x float>* %retval
	%1 = load <16 x float>, <16 x float>* %retval			%1 = load <16 x float>, <16 x float>* %retval
	store <16 x float> %1, <16 x float>* %agg.result, align 16			store <16 x float> %1, <16 x float>* %agg.result, align 16
	ret void			ret void
	}			}

llvm/trunk/test/CodeGen/ARM/ifcvt10.ll

	; RUN: llc < %s -mtriple=arm-apple-ios -arm-atomic-cfg-tidy=0 -mcpu=cortex-a9 \| FileCheck %s			; RUN: llc < %s -mtriple=arm-apple-ios -arm-atomic-cfg-tidy=0 -mcpu=cortex-a9 \| FileCheck %s
	; rdar://8402126			; rdar://8402126
	; Make sure if-converter is not predicating vldmia and ldmia. These are			; Make sure if-converter is not predicating vldmia and ldmia. These are
	; micro-coded and would have long issue latency even if predicated on			; micro-coded and would have long issue latency even if predicated on
	; false predicate.			; false predicate.

	define void @t(double %a, double %b, double %c, double %d, i32* nocapture %solutions, double* nocapture %x) nounwind "no-frame-pointer-elim"="true" {			define void @t(double %a, double %b, double %c, double %d, i32* nocapture %solutions, double* nocapture %x) nounwind "no-frame-pointer-elim"="true" {
	entry:			entry:
	; CHECK-LABEL: t:			; CHECK-LABEL: t:
	; CHECK: vpop {d8}			; CHECK: vpop {d8}
	; CHECK-NOT: vpopne			; CHECK-NOT: vpopne
	; CHECK: pop {r7, pc}			; CHECK: pop {r7, pc}
	; CHECK: vpop {d8}
	; CHECK: pop {r7, pc}
	br i1 undef, label %if.else, label %if.then			br i1 undef, label %if.else, label %if.then

	if.then: ; preds = %entry			if.then: ; preds = %entry
	%mul73 = fmul double undef, 0.000000e+00			%mul73 = fmul double undef, 0.000000e+00
	%sub76 = fsub double %mul73, undef			%sub76 = fsub double %mul73, undef
	store double %sub76, double* undef, align 4			store double %sub76, double* undef, align 4
	%call88 = tail call double @cos(double 0.000000e+00) nounwind			%call88 = tail call double @cos(double 0.000000e+00) nounwind
	%mul89 = fmul double undef, %call88			%mul89 = fmul double undef, %call88
	Show All 21 Lines

llvm/trunk/test/CodeGen/ARM/memset-inline.ll

	; RUN: llc < %s -mtriple=thumbv7-apple-ios -mcpu=cortex-a8 -pre-RA-sched=source -disable-post-ra \| FileCheck %s			; RUN: llc < %s -mtriple=thumbv7-apple-ios -mcpu=cortex-a8 -pre-RA-sched=source -disable-post-ra \| FileCheck %s

	define void @t1(i8* nocapture %c) nounwind optsize {			define void @t1(i8* nocapture %c) nounwind optsize {
	entry:			entry:
	; CHECK-LABEL: t1:			; CHECK-LABEL: t1:

				;; FIXME: like with arm64-memset-inline.ll, learning how to merge
				;; stores made this code worse, since it now uses a vector move,
				;; instead of just using an strd instruction taking two registers.

				; CHECK: vmov.i32 d16, #0x0
				; CHECK: vst1.32 {d16}, [r0:64]!
	; CHECK: movs r1, #0			; CHECK: movs r1, #0
	; CHECK: strd r1, r1, [r0]			; CHECK: str r1, [r0]
	; CHECK: str r1, [r0, #8]
	call void @llvm.memset.p0i8.i64(i8* %c, i8 0, i64 12, i32 8, i1 false)			call void @llvm.memset.p0i8.i64(i8* %c, i8 0, i64 12, i32 8, i1 false)
	ret void			ret void
	}			}

	define void @t2() nounwind ssp {			define void @t2() nounwind ssp {
	entry:			entry:
	; CHECK-LABEL: t2:			; CHECK-LABEL: t2:
	; CHECK: add.w r1, r0, #10			; CHECK: add.w r1, r0, #10
	Show All 13 Lines

llvm/trunk/test/CodeGen/ARM/static-addr-hoisting.ll

	; RUN: llc -mtriple=thumbv7-apple-ios %s -o - \| FileCheck %s			; RUN: llc -mtriple=thumbv7-apple-ios %s -o - \| FileCheck %s

	define void @multiple_store() {			define void @multiple_store() {
	; CHECK-LABEL: multiple_store:			; CHECK-LABEL: multiple_store:
	; CHECK: movw r[[BASE1:[0-9]+]], #16960			; CHECK: movw r[[BASE1:[0-9]+]], #16960
	; CHECK: movs [[VAL:r[0-9]+]], #42			; CHECK: movs [[VAL:r[0-9]+]], #42
	; CHECK: movt r[[BASE1]], #15			; CHECK: movt r[[BASE1]], #15

	; CHECK: str [[VAL]], [r[[BASE1]]]			; CHECK-DAG: str [[VAL]], [r[[BASE1]]]
	; CHECK: str [[VAL]], [r[[BASE1]], #24]			; CHECK-DAG: str [[VAL]], [r[[BASE1]], #24]
	; CHECK: str.w [[VAL]], [r[[BASE1]], #42]			; CHECK-DAG: str.w [[VAL]], [r[[BASE1]], #42]

	; CHECK: movw r[[BASE2:[0-9]+]], #20394			; CHECK: movw r[[BASE2:[0-9]+]], #20394
	; CHECK: movt r[[BASE2]], #18			; CHECK: movt r[[BASE2]], #18

	; CHECK: str [[VAL]], [r[[BASE2]]]			; CHECK: str [[VAL]], [r[[BASE2]]]
	store i32 42, i32* inttoptr(i32 1000000 to i32*)			store i32 42, i32* inttoptr(i32 1000000 to i32*)
	store i32 42, i32* inttoptr(i32 1000024 to i32*)			store i32 42, i32* inttoptr(i32 1000024 to i32*)
	store i32 42, i32* inttoptr(i32 1000042 to i32*)			store i32 42, i32* inttoptr(i32 1000042 to i32*)
	store i32 42, i32* inttoptr(i32 1200042 to i32*)			store i32 42, i32* inttoptr(i32 1200042 to i32*)
	ret void			ret void
	}			}

llvm/trunk/test/CodeGen/BPF/undef.ll

	; RUN: llc < %s -march=bpf \| FileCheck %s			; RUN: llc < %s -march=bpf \| FileCheck %s

	%struct.bpf_map_def = type { i32, i32, i32, i32 }			%struct.bpf_map_def = type { i32, i32, i32, i32 }
	%struct.__sk_buff = type opaque			%struct.__sk_buff = type opaque
	%struct.routing_key_2 = type { [6 x i8] }			%struct.routing_key_2 = type { [6 x i8] }

	@routing = global %struct.bpf_map_def { i32 1, i32 6, i32 12, i32 1024 }, section "maps", align 4			@routing = global %struct.bpf_map_def { i32 1, i32 6, i32 12, i32 1024 }, section "maps", align 4
	@routing_miss_0 = global %struct.bpf_map_def { i32 1, i32 1, i32 12, i32 1 }, section "maps", align 4			@routing_miss_0 = global %struct.bpf_map_def { i32 1, i32 1, i32 12, i32 1 }, section "maps", align 4
	@test1 = global %struct.bpf_map_def { i32 2, i32 4, i32 8, i32 1024 }, section "maps", align 4			@test1 = global %struct.bpf_map_def { i32 2, i32 4, i32 8, i32 1024 }, section "maps", align 4
	@test1_miss_4 = global %struct.bpf_map_def { i32 2, i32 1, i32 8, i32 1 }, section "maps", align 4			@test1_miss_4 = global %struct.bpf_map_def { i32 2, i32 1, i32 8, i32 1 }, section "maps", align 4
	@_license = global [4 x i8] c"GPL\00", section "license", align 1			@_license = global [4 x i8] c"GPL\00", section "license", align 1
	@llvm.used = appending global [6 x i8] [i8 getelementptr inbounds ([4 x i8], [4 x i8]* @_license, i32 0, i32 0), i8* bitcast (i32 (%struct.__sk_buff) @ebpf_filter to i8), i8 bitcast (%struct.bpf_map_def* @routing to i8), i8 bitcast (%struct.bpf_map_def* @routing_miss_0 to i8), i8 bitcast (%struct.bpf_map_def* @test1 to i8), i8 bitcast (%struct.bpf_map_def* @test1_miss_4 to i8*)], section "llvm.metadata"			@llvm.used = appending global [6 x i8] [i8 getelementptr inbounds ([4 x i8], [4 x i8]* @_license, i32 0, i32 0), i8* bitcast (i32 (%struct.__sk_buff) @ebpf_filter to i8), i8 bitcast (%struct.bpf_map_def* @routing to i8), i8 bitcast (%struct.bpf_map_def* @routing_miss_0 to i8), i8 bitcast (%struct.bpf_map_def* @test1 to i8), i8 bitcast (%struct.bpf_map_def* @test1_miss_4 to i8*)], section "llvm.metadata"

	; Function Attrs: nounwind uwtable			; Function Attrs: nounwind uwtable
	define i32 @ebpf_filter(%struct.__sk_buff* nocapture readnone %ebpf_packet) #0 section "socket1" {			define i32 @ebpf_filter(%struct.__sk_buff* nocapture readnone %ebpf_packet) #0 section "socket1" {
				; CHECK: r2 = r10
				; CHECK: r2 += -2
				; CHECK: r1 = 0
				; CHECK: (u16 )(r2 + 6) = r1
				; CHECK: (u16 )(r2 + 4) = r1
				; CHECK: (u16 )(r2 + 2) = r1
				; CHECK: r2 = 6
				; CHECK: (u8 )(r10 - 7) = r2
				; CHECK: r2 = 5
				; CHECK: (u8 )(r10 - 8) = r2
				; CHECK: r2 = 7
				; CHECK: (u8 )(r10 - 6) = r2
				; CHECK: r2 = 8
				; CHECK: (u8 )(r10 - 5) = r2
				; CHECK: r2 = 9
				; CHECK: (u8 )(r10 - 4) = r2
				; CHECK: r2 = 10
				; CHECK: (u8 )(r10 - 3) = r2
				; CHECK: (u16 )(r10 + 24) = r1
				; CHECK: (u16 )(r10 + 22) = r1
				; CHECK: (u16 )(r10 + 20) = r1
				; CHECK: (u16 )(r10 + 18) = r1
				; CHECK: (u16 )(r10 + 16) = r1
				; CHECK: (u16 )(r10 + 14) = r1
				; CHECK: (u16 )(r10 + 12) = r1
				; CHECK: (u16 )(r10 + 10) = r1
				; CHECK: (u16 )(r10 + 8) = r1
				; CHECK: (u16 )(r10 + 6) = r1
				; CHECK: (u16 )(r10 - 2) = r1
				; CHECK: (u16 )(r10 + 26) = r1
				; CHECK: r2 = r10
				; CHECK: r2 += -8
				; CHECK: r1 = <MCOperand Expr:(routing)>ll
				; CHECK: call bpf_map_lookup_elem
				; CHECK: exit
	%key = alloca %struct.routing_key_2, align 1			%key = alloca %struct.routing_key_2, align 1
	%1 = getelementptr inbounds %struct.routing_key_2, %struct.routing_key_2* %key, i64 0, i32 0, i64 0			%1 = getelementptr inbounds %struct.routing_key_2, %struct.routing_key_2* %key, i64 0, i32 0, i64 0
	; CHECK: r1 = 5
	; CHECK: (u8 )(r10 - 8) = r1
	store i8 5, i8* %1, align 1			store i8 5, i8* %1, align 1
	%2 = getelementptr inbounds %struct.routing_key_2, %struct.routing_key_2* %key, i64 0, i32 0, i64 1			%2 = getelementptr inbounds %struct.routing_key_2, %struct.routing_key_2* %key, i64 0, i32 0, i64 1
	; CHECK: r1 = 6
	; CHECK: (u8 )(r10 - 7) = r1
	store i8 6, i8* %2, align 1			store i8 6, i8* %2, align 1
	%3 = getelementptr inbounds %struct.routing_key_2, %struct.routing_key_2* %key, i64 0, i32 0, i64 2			%3 = getelementptr inbounds %struct.routing_key_2, %struct.routing_key_2* %key, i64 0, i32 0, i64 2
	; CHECK: r1 = 7
	; CHECK: (u8 )(r10 - 6) = r1
	store i8 7, i8* %3, align 1			store i8 7, i8* %3, align 1
	%4 = getelementptr inbounds %struct.routing_key_2, %struct.routing_key_2* %key, i64 0, i32 0, i64 3			%4 = getelementptr inbounds %struct.routing_key_2, %struct.routing_key_2* %key, i64 0, i32 0, i64 3
	; CHECK: r1 = 8
	; CHECK: (u8 )(r10 - 5) = r1
	store i8 8, i8* %4, align 1			store i8 8, i8* %4, align 1
	%5 = getelementptr inbounds %struct.routing_key_2, %struct.routing_key_2* %key, i64 0, i32 0, i64 4			%5 = getelementptr inbounds %struct.routing_key_2, %struct.routing_key_2* %key, i64 0, i32 0, i64 4
	; CHECK: r1 = 9
	; CHECK: (u8 )(r10 - 4) = r1
	store i8 9, i8* %5, align 1			store i8 9, i8* %5, align 1
	%6 = getelementptr inbounds %struct.routing_key_2, %struct.routing_key_2* %key, i64 0, i32 0, i64 5			%6 = getelementptr inbounds %struct.routing_key_2, %struct.routing_key_2* %key, i64 0, i32 0, i64 5
	; CHECK: r1 = 10
	; CHECK: (u8 )(r10 - 3) = r1
	store i8 10, i8* %6, align 1			store i8 10, i8* %6, align 1
	%7 = getelementptr inbounds %struct.routing_key_2, %struct.routing_key_2* %key, i64 1, i32 0, i64 0			%7 = getelementptr inbounds %struct.routing_key_2, %struct.routing_key_2* %key, i64 1, i32 0, i64 0
	; CHECK: r1 = r10
	; CHECK: r1 += -2
	; CHECK: r2 = 0
	; CHECK: (u16 )(r1 + 6) = r2
	; CHECK: (u16 )(r1 + 4) = r2
	; CHECK: (u16 )(r1 + 2) = r2
	; CHECK: (u16 )(r10 + 24) = r2
	; CHECK: (u16 )(r10 + 22) = r2
	; CHECK: (u16 )(r10 + 20) = r2
	; CHECK: (u16 )(r10 + 18) = r2
	; CHECK: (u16 )(r10 + 16) = r2
	; CHECK: (u16 )(r10 + 14) = r2
	; CHECK: (u16 )(r10 + 12) = r2
	; CHECK: (u16 )(r10 + 10) = r2
	; CHECK: (u16 )(r10 + 8) = r2
	; CHECK: (u16 )(r10 + 6) = r2
	; CHECK: (u16 )(r10 - 2) = r2
	; CHECK: (u16 )(r10 + 26) = r2
	call void @llvm.memset.p0i8.i64(i8* %7, i8 0, i64 30, i32 1, i1 false)			call void @llvm.memset.p0i8.i64(i8* %7, i8 0, i64 30, i32 1, i1 false)
	%8 = call i32 (%struct.bpf_map_def, %struct.routing_key_2, ...) bitcast (i32 (...)* @bpf_map_lookup_elem to i32 (%struct.bpf_map_def, %struct.routing_key_2, ...))(%struct.bpf_map_def nonnull @routing, %struct.routing_key_2* nonnull %key) #3			%8 = call i32 (%struct.bpf_map_def, %struct.routing_key_2, ...) bitcast (i32 (...)* @bpf_map_lookup_elem to i32 (%struct.bpf_map_def, %struct.routing_key_2, ...))(%struct.bpf_map_def nonnull @routing, %struct.routing_key_2* nonnull %key) #3
	ret i32 undef			ret i32 undef
	}			}

	; Function Attrs: nounwind argmemonly			; Function Attrs: nounwind argmemonly
	declare void @llvm.memset.p0i8.i64(i8* nocapture, i8, i64, i32, i1) #1			declare void @llvm.memset.p0i8.i64(i8* nocapture, i8, i64, i32, i1) #1

	declare i32 @bpf_map_lookup_elem(...) #2			declare i32 @bpf_map_lookup_elem(...) #2

llvm/trunk/test/CodeGen/MSP430/Inst16mm.ll

	; RUN: llc -march=msp430 -combiner-alias-analysis < %s \| FileCheck %s			; RUN: llc -march=msp430 < %s \| FileCheck %s
	target datalayout = "e-p:16:8:8-i8:8:8-i16:8:8-i32:8:8"			target datalayout = "e-p:16:8:8-i8:8:8-i16:8:8-i32:8:8"
	target triple = "msp430-generic-generic"			target triple = "msp430-generic-generic"
	@foo = common global i16 0, align 2			@foo = common global i16 0, align 2
	@bar = common global i16 0, align 2			@bar = common global i16 0, align 2

	define void @mov() nounwind {			define void @mov() nounwind {
	; CHECK-LABEL: mov:			; CHECK-LABEL: mov:
	; CHECK: mov.w &bar, &foo			; CHECK: mov.w &bar, &foo
	▲ Show 20 Lines • Show All 60 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/Mips/cconv/arguments-float.ll

	Show First 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
	; O32-DAG: sw $5, 12([[R2]])			; O32-DAG: sw $5, 12([[R2]])
	; NEW-DAG: sd $4, 8([[R2]])			; NEW-DAG: sd $4, 8([[R2]])

	; O32-DAG: sw $6, 16([[R2]])			; O32-DAG: sw $6, 16([[R2]])
	; O32-DAG: sw $7, 20([[R2]])			; O32-DAG: sw $7, 20([[R2]])
	; NEW-DAG: sd $5, 16([[R2]])			; NEW-DAG: sd $5, 16([[R2]])

	; O32 has run out of argument registers and starts using the stack			; O32 has run out of argument registers and starts using the stack
	; O32-DAG: lw [[R3:\$([0-9]+\|gp)]], 24($sp)			; O32-DAG: lw [[R3:\$([0-9]+\|gp)]], 16($sp)
	; O32-DAG: lw [[R4:\$([0-9]+\|gp)]], 28($sp)			; O32-DAG: lw [[R4:\$([0-9]+\|gp)]], 20($sp)
	; O32-DAG: sw [[R3]], 24([[R2]])			; O32-DAG: sw [[R3]], 24([[R2]])
	; O32-DAG: sw [[R4]], 28([[R2]])			; O32-DAG: sw [[R4]], 28([[R2]])
	; NEW-DAG: sd $6, 24([[R2]])			; NEW-DAG: sd $6, 24([[R2]])

	; O32-DAG: lw [[R3:\$([0-9]+\|gp)]], 32($sp)			; O32-DAG: lw [[R3:\$([0-9]+\|gp)]], 24($sp)
	; O32-DAG: lw [[R4:\$([0-9]+\|gp)]], 36($sp)			; O32-DAG: lw [[R4:\$([0-9]+\|gp)]], 28($sp)
	; O32-DAG: sw [[R3]], 32([[R2]])			; O32-DAG: sw [[R3]], 32([[R2]])
	; O32-DAG: sw [[R4]], 36([[R2]])			; O32-DAG: sw [[R4]], 36([[R2]])
	; NEW-DAG: sd $7, 32([[R2]])			; NEW-DAG: sd $7, 32([[R2]])

	; O32-DAG: lw [[R3:\$([0-9]+\|gp)]], 40($sp)			; O32-DAG: lw [[R3:\$([0-9]+\|gp)]], 32($sp)
	; O32-DAG: lw [[R4:\$([0-9]+\|gp)]], 44($sp)			; O32-DAG: lw [[R4:\$([0-9]+\|gp)]], 36($sp)
	; O32-DAG: sw [[R3]], 40([[R2]])			; O32-DAG: sw [[R3]], 40([[R2]])
	; O32-DAG: sw [[R4]], 44([[R2]])			; O32-DAG: sw [[R4]], 44([[R2]])
	; NEW-DAG: sd $8, 40([[R2]])			; NEW-DAG: sd $8, 40([[R2]])

	; O32-DAG: lw [[R3:\$([0-9]+\|gp)]], 48($sp)			; O32-DAG: lw [[R3:\$([0-9]+\|gp)]], 40($sp)
	; O32-DAG: lw [[R4:\$([0-9]+\|gp)]], 52($sp)			; O32-DAG: lw [[R4:\$([0-9]+\|gp)]], 44($sp)
	; O32-DAG: sw [[R3]], 48([[R2]])			; O32-DAG: sw [[R3]], 48([[R2]])
	; O32-DAG: sw [[R4]], 52([[R2]])			; O32-DAG: sw [[R4]], 52([[R2]])
	; NEW-DAG: sd $9, 48([[R2]])			; NEW-DAG: sd $9, 48([[R2]])

	; O32-DAG: lw [[R3:\$([0-9]+\|gp)]], 56($sp)			; O32-DAG: lw [[R3:\$([0-9]+\|gp)]], 48($sp)
	; O32-DAG: lw [[R4:\$([0-9]+\|gp)]], 60($sp)			; O32-DAG: lw [[R4:\$([0-9]+\|gp)]], 52($sp)
	; O32-DAG: sw [[R3]], 56([[R2]])			; O32-DAG: sw [[R3]], 56([[R2]])
	; O32-DAG: sw [[R4]], 60([[R2]])			; O32-DAG: sw [[R4]], 60([[R2]])
	; NEW-DAG: sd $10, 56([[R2]])			; NEW-DAG: sd $10, 56([[R2]])

	; N32/N64 have run out of registers and starts using the stack too			; N32/N64 have run out of registers and starts using the stack too
	; O32-DAG: lw [[R3:\$[0-9]+]], 64($sp)			; O32-DAG: lw [[R3:\$[0-9]+]], 56($sp)
	; O32-DAG: lw [[R4:\$[0-9]+]], 68($sp)			; O32-DAG: lw [[R4:\$[0-9]+]], 60($sp)
	; O32-DAG: sw [[R3]], 64([[R2]])			; O32-DAG: sw [[R3]], 64([[R2]])
	; O32-DAG: sw [[R4]], 68([[R2]])			; O32-DAG: sw [[R4]], 68([[R2]])
	; NEW-DAG: ld [[R3:\$[0-9]+]], 0($sp)			; NEW-DAG: ld [[R3:\$[0-9]+]], 0($sp)
	; NEW-DAG: sd $11, 64([[R2]])			; NEW-DAG: sd $11, 64([[R2]])

	define void @float_args(float %a, float %b, float %c, float %d, float %e,			define void @float_args(float %a, float %b, float %c, float %d, float %e,
	float %f, float %g, float %h, float %i, float %j)			float %f, float %g, float %h, float %i, float %j)
	nounwind {			nounwind {
	▲ Show 20 Lines • Show All 116 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/Mips/cconv/arguments-varargs.ll

	Show First 20 Lines • Show All 309 Lines • ▼ Show 20 Lines
	; N64-DAG: sd [[VA2]], 0([[SP]])			; N64-DAG: sd [[VA2]], 0([[SP]])

	; Load the first argument from the variable portion and copy it to the global.			; Load the first argument from the variable portion and copy it to the global.
	; This has used the stack pointer directly rather than the [[VA]] we just set			; This has used the stack pointer directly rather than the [[VA]] we just set
	; up.			; up.
	; Big-endian mode for N32/N64 must add an additional 4 to the offset due to byte			; Big-endian mode for N32/N64 must add an additional 4 to the offset due to byte
	; order.			; order.
	; O32-DAG: addiu [[GV:\$[0-9]+]], ${{[0-9]+}}, %lo(dwords)			; O32-DAG: addiu [[GV:\$[0-9]+]], ${{[0-9]+}}, %lo(dwords)
	; O32-DAG: lw [[ARG1:\$[0-9]+]], 0([[VA]])			; O32-DAG: lw [[ARG1:\$[0-9]+]], 0([[VA_TMP2]])
	; O32-DAG: sw [[ARG1]], 8([[GV]])			; O32-DAG: sw [[ARG1]], 8([[GV]])
	; O32-DAG: lw [[VA:\$[0-9]+]], 0([[SP]])			; O32-DAG: addiu [[VA3:\$[0-9]+]], [[VA2]], 4
	; O32-DAG: addiu [[VA2:\$[0-9]+]], [[VA]], 4			; O32-DAG: sw [[VA3]], 0([[SP]])
	; O32-DAG: sw [[VA2]], 0([[SP]])			; O32-DAG: lw [[ARG1:\$[0-9]+]], 4([[VA_TMP2]])
	; O32-DAG: lw [[ARG1:\$[0-9]+]], 0([[VA]])
	; O32-DAG: sw [[ARG1]], 12([[GV]])			; O32-DAG: sw [[ARG1]], 12([[GV]])

	; N32-DAG: addiu [[GV:\$[0-9]+]], ${{[0-9]+}}, %lo(dwords)			; N32-DAG: addiu [[GV:\$[0-9]+]], ${{[0-9]+}}, %lo(dwords)
	; N64-DAG: ld [[GV:\$[0-9]+]], %got_disp(dwords)(			; N64-DAG: ld [[GV:\$[0-9]+]], %got_disp(dwords)(
	; NEW-DAG: ld [[ARG1:\$[0-9]+]], 0([[VA]])			; NEW-DAG: ld [[ARG1:\$[0-9]+]], 0([[VA]])
	; NEW-DAG: sd [[ARG1]], 8([[GV]])			; NEW-DAG: sd [[ARG1]], 8([[GV]])

	; ALL: teqi $zero, 2			; ALL: teqi $zero, 2
	Show All 12 Lines

	; N64-DAG: ld [[VA2:\$[0-9]+]], 0([[SP]])			; N64-DAG: ld [[VA2:\$[0-9]+]], 0([[SP]])
	; N64-DAG: daddiu [[VA3:\$[0-9]+]], [[VA2]], 8			; N64-DAG: daddiu [[VA3:\$[0-9]+]], [[VA2]], 8
	; N64-DAG: sd [[VA3]], 0([[SP]])			; N64-DAG: sd [[VA3]], 0([[SP]])

	; Load the second argument from the variable portion and copy it to the global.			; Load the second argument from the variable portion and copy it to the global.
	; O32-DAG: lw [[ARG2:\$[0-9]+]], 0([[VA]])			; O32-DAG: lw [[ARG2:\$[0-9]+]], 0([[VA]])
	; O32-DAG: sw [[ARG2]], 16([[GV]])			; O32-DAG: sw [[ARG2]], 16([[GV]])
	; O32-DAG: lw [[VA:\$[0-9]+]], 0([[SP]])			; O32-DAG: addiu [[VA3:\$[0-9]+]], [[VA2]], 4
	; O32-DAG: addiu [[VA2:\$[0-9]+]], [[VA]], 4			; O32-DAG: sw [[VA3]], 0([[SP]])
	; O32-DAG: sw [[VA2]], 0([[SP]])			; O32-DAG: lw [[ARG2:\$[0-9]+]], 4([[VA_TMP2]])
	; O32-DAG: lw [[ARG2:\$[0-9]+]], 0([[VA]])
	; O32-DAG: sw [[ARG2]], 20([[GV]])			; O32-DAG: sw [[ARG2]], 20([[GV]])

	; NEW-DAG: ld [[ARG2:\$[0-9]+]], 0([[VA2]])			; NEW-DAG: ld [[ARG2:\$[0-9]+]], 0([[VA2]])
	; NEW-DAG: sd [[ARG2]], 16([[GV]])			; NEW-DAG: sd [[ARG2]], 16([[GV]])

	%ap = alloca i8*, align 8			%ap = alloca i8*, align 8
	%ap2 = bitcast i8** %ap to i8*			%ap2 = bitcast i8** %ap to i8*
	call void @llvm.va_start(i8* %ap2)			call void @llvm.va_start(i8* %ap2)
	▲ Show 20 Lines • Show All 309 Lines • ▼ Show 20 Lines
	; N64-DAG: sd [[VA2]], 0([[SP]])			; N64-DAG: sd [[VA2]], 0([[SP]])

	; Load the first argument from the variable portion and copy it to the global.			; Load the first argument from the variable portion and copy it to the global.
	; This has used the stack pointer directly rather than the [[VA]] we just set			; This has used the stack pointer directly rather than the [[VA]] we just set
	; up.			; up.
	; Big-endian mode for N32/N64 must add an additional 4 to the offset due to byte			; Big-endian mode for N32/N64 must add an additional 4 to the offset due to byte
	; order.			; order.
	; O32-DAG: addiu [[GV:\$[0-9]+]], ${{[0-9]+}}, %lo(dwords)			; O32-DAG: addiu [[GV:\$[0-9]+]], ${{[0-9]+}}, %lo(dwords)
	; O32-DAG: lw [[ARG1:\$[0-9]+]], 0([[VA]])			; O32-DAG: lw [[ARG1:\$[0-9]+]], 0([[VA_TMP2]])
	; O32-DAG: sw [[ARG1]], 8([[GV]])			; O32-DAG: sw [[ARG1]], 8([[GV]])
	; O32-DAG: lw [[VA:\$[0-9]+]], 0([[SP]])			; O32-DAG: addiu [[VA3:\$[0-9]+]], [[VA2]], 4
	; O32-DAG: addiu [[VA2:\$[0-9]+]], [[VA]], 4			; O32-DAG: sw [[VA3]], 0([[SP]])
	; O32-DAG: sw [[VA2]], 0([[SP]])			; O32-DAG: lw [[ARG1:\$[0-9]+]], 4([[VA_TMP2]])
	; O32-DAG: lw [[ARG1:\$[0-9]+]], 0([[VA]])
	; O32-DAG: sw [[ARG1]], 12([[GV]])			; O32-DAG: sw [[ARG1]], 12([[GV]])

	; N32-DAG: addiu [[GV:\$[0-9]+]], ${{[0-9]+}}, %lo(dwords)			; N32-DAG: addiu [[GV:\$[0-9]+]], ${{[0-9]+}}, %lo(dwords)
	; N64-DAG: ld [[GV:\$[0-9]+]], %got_disp(dwords)(			; N64-DAG: ld [[GV:\$[0-9]+]], %got_disp(dwords)(
	; NEW-DAG: ld [[ARG1:\$[0-9]+]], 0([[VA]])			; NEW-DAG: ld [[ARG1:\$[0-9]+]], 0([[VA]])
	; NEW-DAG: sd [[ARG1]], 8([[GV]])			; NEW-DAG: sd [[ARG1]], 8([[GV]])

	; ALL: teqi $zero, 2			; ALL: teqi $zero, 2
	Show All 12 Lines

	; N64-DAG: ld [[VA2:\$[0-9]+]], 0([[SP]])			; N64-DAG: ld [[VA2:\$[0-9]+]], 0([[SP]])
	; N64-DAG: daddiu [[VA3:\$[0-9]+]], [[VA2]], 8			; N64-DAG: daddiu [[VA3:\$[0-9]+]], [[VA2]], 8
	; N64-DAG: sd [[VA3]], 0([[SP]])			; N64-DAG: sd [[VA3]], 0([[SP]])

	; Load the second argument from the variable portion and copy it to the global.			; Load the second argument from the variable portion and copy it to the global.
	; O32-DAG: lw [[ARG2:\$[0-9]+]], 0([[VA]])			; O32-DAG: lw [[ARG2:\$[0-9]+]], 0([[VA]])
	; O32-DAG: sw [[ARG2]], 16([[GV]])			; O32-DAG: sw [[ARG2]], 16([[GV]])
	; O32-DAG: lw [[VA:\$[0-9]+]], 0([[SP]])			; O32-DAG: addiu [[VA3:\$[0-9]+]], [[VA2]], 4
	; O32-DAG: addiu [[VA2:\$[0-9]+]], [[VA]], 4
	; O32-DAG: sw [[VA2]], 0([[SP]])			; O32-DAG: sw [[VA2]], 0([[SP]])
	; O32-DAG: lw [[ARG2:\$[0-9]+]], 0([[VA]])			; O32-DAG: lw [[ARG2:\$[0-9]+]], 4([[VA_TMP2]])
	; O32-DAG: sw [[ARG2]], 20([[GV]])			; O32-DAG: sw [[ARG2]], 20([[GV]])

	; NEW-DAG: ld [[ARG2:\$[0-9]+]], 0([[VA2]])			; NEW-DAG: ld [[ARG2:\$[0-9]+]], 0([[VA2]])
	; NEW-DAG: sd [[ARG2]], 16([[GV]])			; NEW-DAG: sd [[ARG2]], 16([[GV]])

	%ap = alloca i8*, align 8			%ap = alloca i8*, align 8
	%ap2 = bitcast i8** %ap to i8*			%ap2 = bitcast i8** %ap to i8*
	call void @llvm.va_start(i8* %ap2)			call void @llvm.va_start(i8* %ap2)
	▲ Show 20 Lines • Show All 308 Lines • ▼ Show 20 Lines
	; Load the first argument from the variable portion and copy it to the global.			; Load the first argument from the variable portion and copy it to the global.
	; This has used the stack pointer directly rather than the [[VA]] we just set			; This has used the stack pointer directly rather than the [[VA]] we just set
	; up.			; up.
	; Big-endian mode for N32/N64 must add an additional 4 to the offset due to byte			; Big-endian mode for N32/N64 must add an additional 4 to the offset due to byte
	; order.			; order.
	; O32-DAG: addiu [[GV:\$[0-9]+]], ${{[0-9]+}}, %lo(dwords)			; O32-DAG: addiu [[GV:\$[0-9]+]], ${{[0-9]+}}, %lo(dwords)
	; O32-DAG: lw [[ARG1:\$[0-9]+]], 0([[VA]])			; O32-DAG: lw [[ARG1:\$[0-9]+]], 0([[VA]])
	; O32-DAG: sw [[ARG1]], 8([[GV]])			; O32-DAG: sw [[ARG1]], 8([[GV]])
	; O32-DAG: lw [[VA:\$[0-9]+]], 0([[SP]])			; O32-DAG: addiu [[VA3:\$[0-9]+]], [[VA2]], 4
	; O32-DAG: addiu [[VA2:\$[0-9]+]], [[VA]], 4			; O32-DAG: sw [[VA3]], 0([[SP]])
	; O32-DAG: sw [[VA2]], 0([[SP]])			; O32-DAG: lw [[ARG1:\$[0-9]+]], 4([[VA_TMP2]])
	; O32-DAG: lw [[ARG1:\$[0-9]+]], 0([[VA]])
	; O32-DAG: sw [[ARG1]], 12([[GV]])			; O32-DAG: sw [[ARG1]], 12([[GV]])

	; N32-DAG: addiu [[GV:\$[0-9]+]], ${{[0-9]+}}, %lo(dwords)			; N32-DAG: addiu [[GV:\$[0-9]+]], ${{[0-9]+}}, %lo(dwords)
	; N64-DAG: ld [[GV:\$[0-9]+]], %got_disp(dwords)(			; N64-DAG: ld [[GV:\$[0-9]+]], %got_disp(dwords)(
	; NEW-DAG: ld [[ARG1:\$[0-9]+]], 0([[VA]])			; NEW-DAG: ld [[ARG1:\$[0-9]+]], 0([[VA]])
	; NEW-DAG: sd [[ARG1]], 8([[GV]])			; NEW-DAG: sd [[ARG1]], 8([[GV]])

	; ALL: teqi $zero, 2			; ALL: teqi $zero, 2
	Show All 12 Lines

	; N64-DAG: ld [[VA2:\$[0-9]+]], 0([[SP]])			; N64-DAG: ld [[VA2:\$[0-9]+]], 0([[SP]])
	; N64-DAG: daddiu [[VA3:\$[0-9]+]], [[VA2]], 8			; N64-DAG: daddiu [[VA3:\$[0-9]+]], [[VA2]], 8
	; N64-DAG: sd [[VA3]], 0([[SP]])			; N64-DAG: sd [[VA3]], 0([[SP]])

	; Load the second argument from the variable portion and copy it to the global.			; Load the second argument from the variable portion and copy it to the global.
	; O32-DAG: lw [[ARG2:\$[0-9]+]], 0([[VA]])			; O32-DAG: lw [[ARG2:\$[0-9]+]], 0([[VA]])
	; O32-DAG: sw [[ARG2]], 16([[GV]])			; O32-DAG: sw [[ARG2]], 16([[GV]])
	; O32-DAG: lw [[VA:\$[0-9]+]], 0([[SP]])			; O32-DAG: addiu [[VA3:\$[0-9]+]], [[VA2]], 4
	; O32-DAG: addiu [[VA2:\$[0-9]+]], [[VA]], 4			; O32-DAG: sw [[VA3]], 0([[SP]])
	; O32-DAG: sw [[VA2]], 0([[SP]])			; O32-DAG: lw [[ARG2:\$[0-9]+]], 4([[VA_TMP2]])
	; O32-DAG: lw [[ARG2:\$[0-9]+]], 0([[VA]])
	; O32-DAG: sw [[ARG2]], 20([[GV]])			; O32-DAG: sw [[ARG2]], 20([[GV]])

	; NEW-DAG: ld [[ARG2:\$[0-9]+]], 0([[VA2]])			; NEW-DAG: ld [[ARG2:\$[0-9]+]], 0([[VA2]])
	; NEW-DAG: sd [[ARG2]], 16([[GV]])			; NEW-DAG: sd [[ARG2]], 16([[GV]])

	%ap = alloca i8*, align 8			%ap = alloca i8*, align 8
	%ap2 = bitcast i8** %ap to i8*			%ap2 = bitcast i8** %ap to i8*
	call void @llvm.va_start(i8* %ap2)			call void @llvm.va_start(i8* %ap2)
	Show All 18 Lines

llvm/trunk/test/CodeGen/Mips/fastcc.ll

Show First 20 Lines • Show All 126 Lines • ▼ Show 20 Lines	; CHECK-NACL-NOT: lw $24
%16 = load i32, i32* @gi16, align 4		%16 = load i32, i32* @gi16, align 4
tail call fastcc void @callee0(i32 %0, i32 %1, i32 %2, i32 %3, i32 %4, i32 %5, i32 %6, i32 %7, i32 %8, i32 %9, i32 %10, i32 %11, i32 %12, i32 %13, i32 %14, i32 %15, i32 %16)		tail call fastcc void @callee0(i32 %0, i32 %1, i32 %2, i32 %3, i32 %4, i32 %5, i32 %6, i32 %7, i32 %8, i32 %9, i32 %10, i32 %11, i32 %12, i32 %13, i32 %14, i32 %15, i32 %16)
ret void		ret void
}		}

define internal fastcc void @callee0(i32 %a0, i32 %a1, i32 %a2, i32 %a3, i32 %a4, i32 %a5, i32 %a6, i32 %a7, i32 %a8, i32 %a9, i32 %a10, i32 %a11, i32 %a12, i32 %a13, i32 %a14, i32 %a15, i32 %a16) nounwind noinline {		define internal fastcc void @callee0(i32 %a0, i32 %a1, i32 %a2, i32 %a3, i32 %a4, i32 %a5, i32 %a6, i32 %a7, i32 %a8, i32 %a9, i32 %a10, i32 %a11, i32 %a12, i32 %a13, i32 %a14, i32 %a15, i32 %a16) nounwind noinline {
entry:		entry:
; CHECK: callee0		; CHECK: callee0
; CHECK: sw $4		; CHECK-DAG: sw $4
; CHECK: sw $5		; CHECK-DAG: sw $5
; CHECK: sw $6		; CHECK-DAG: sw $7
; CHECK: sw $7		; CHECK-DAG: sw $8
; CHECK: sw $8		; CHECK-DAG: sw $9
; CHECK: sw $9		; CHECK-DAG: sw $10
; CHECK: sw $10		; CHECK-DAG: sw $11
; CHECK: sw $11		; CHECK-DAG: sw $12
; CHECK: sw $12		; CHECK-DAG: sw $13
; CHECK: sw $13		; CHECK-DAG: sw $14
; CHECK: sw $14		; CHECK-DAG: sw $15
; CHECK: sw $15		; CHECK-DAG: sw $24
; CHECK: sw $24		; CHECK-DAG: sw $3
; CHECK: sw $3

; t6, t7 and t8 are reserved in NaCl and cannot be used for fastcc.		; t6, t7 and t8 are reserved in NaCl and cannot be used for fastcc.
; CHECK-NACL-NOT: sw $14		; CHECK-NACL-NOT: sw $14
; CHECK-NACL-NOT: sw $15		; CHECK-NACL-NOT: sw $15
; CHECK-NACL-NOT: sw $24		; CHECK-NACL-NOT: sw $24

store i32 %a0, i32* @g0, align 4		store i32 %a0, i32* @g0, align 4
store i32 %a1, i32* @g1, align 4		store i32 %a1, i32* @g1, align 4
▲ Show 20 Lines • Show All 61 Lines • ▼ Show 20 Lines	; CHECK: lwc1 $f0
%19 = load float, float* @gfa19, align 4		%19 = load float, float* @gfa19, align 4
%20 = load float, float* @gfa20, align 4		%20 = load float, float* @gfa20, align 4
tail call fastcc void @callee1(float %0, float %1, float %2, float %3, float %4, float %5, float %6, float %7, float %8, float %9, float %10, float %11, float %12, float %13, float %14, float %15, float %16, float %17, float %18, float %19, float %20)		tail call fastcc void @callee1(float %0, float %1, float %2, float %3, float %4, float %5, float %6, float %7, float %8, float %9, float %10, float %11, float %12, float %13, float %14, float %15, float %16, float %17, float %18, float %19, float %20)
ret void		ret void
}		}

define internal fastcc void @callee1(float %a0, float %a1, float %a2, float %a3, float %a4, float %a5, float %a6, float %a7, float %a8, float %a9, float %a10, float %a11, float %a12, float %a13, float %a14, float %a15, float %a16, float %a17, float %a18, float %a19, float %a20) nounwind noinline {		define internal fastcc void @callee1(float %a0, float %a1, float %a2, float %a3, float %a4, float %a5, float %a6, float %a7, float %a8, float %a9, float %a10, float %a11, float %a12, float %a13, float %a14, float %a15, float %a16, float %a17, float %a18, float %a19, float %a20) nounwind noinline {
entry:		entry:
; CHECK: callee1		; CHECK-LABEL: callee1:
; CHECK: swc1 $f0		; CHECK-DAG: swc1 $f0
; CHECK: swc1 $f1		; CHECK-DAG: swc1 $f1
; CHECK: swc1 $f2		; CHECK-DAG: swc1 $f2
; CHECK: swc1 $f3		; CHECK-DAG: swc1 $f3
; CHECK: swc1 $f4		; CHECK-DAG: swc1 $f4
; CHECK: swc1 $f5		; CHECK-DAG: swc1 $f5
; CHECK: swc1 $f6		; CHECK-DAG: swc1 $f6
; CHECK: swc1 $f7		; CHECK-DAG: swc1 $f7
; CHECK: swc1 $f8		; CHECK-DAG: swc1 $f8
; CHECK: swc1 $f9		; CHECK-DAG: swc1 $f9
; CHECK: swc1 $f10		; CHECK-DAG: swc1 $f10
; CHECK: swc1 $f11		; CHECK-DAG: swc1 $f11
; CHECK: swc1 $f12		; CHECK-DAG: swc1 $f12
; CHECK: swc1 $f13		; CHECK-DAG: swc1 $f13
; CHECK: swc1 $f14		; CHECK-DAG: swc1 $f14
; CHECK: swc1 $f15		; CHECK-DAG: swc1 $f15
; CHECK: swc1 $f16		; CHECK-DAG: swc1 $f16
; CHECK: swc1 $f17		; CHECK-DAG: swc1 $f17
; CHECK: swc1 $f18		; CHECK-DAG: swc1 $f18
; CHECK: swc1 $f19		; CHECK-DAG: swc1 $f19

store float %a0, float* @gf0, align 4		store float %a0, float* @gf0, align 4
store float %a1, float* @gf1, align 4		store float %a1, float* @gf1, align 4
store float %a2, float* @gf2, align 4		store float %a2, float* @gf2, align 4
store float %a3, float* @gf3, align 4		store float %a3, float* @gf3, align 4
store float %a4, float* @gf4, align 4		store float %a4, float* @gf4, align 4
store float %a5, float* @gf5, align 4		store float %a5, float* @gf5, align 4
store float %a6, float* @gf6, align 4		store float %a6, float* @gf6, align 4
▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines

define fastcc void @callee2(float %a0, float %a1, float %a2, float %a3,		define fastcc void @callee2(float %a0, float %a1, float %a2, float %a3,
float %a4, float %a5, float %a6, float %a7,		float %a4, float %a5, float %a6, float %a7,
float %a8, float %a9, float %a10) {		float %a8, float %a9, float %a10) {
entry:		entry:

; NOODDSPREG-LABEL: callee2:		; NOODDSPREG-LABEL: callee2:

; NOODDSPREG: addiu $sp, $sp, -[[OFFSET:[0-9]+]]

; Check that first 10 arguments are received in even float registers		; Check that first 10 arguments are received in even float registers
; f0, f2, ... , f18. Check that 11th argument is received on stack.		; f0, f2, ... , f18. Check that 11th argument is received on stack.

; NOODDSPREG-DAG: lw $[[R0:[0-9]+]], %got(fa)(${{[0-9]+\|gp}})		; NOODDSPREG-DAG: lw $[[R0:[0-9]+]], %got(fa)(${{[0-9]+\|gp}})
; NOODDSPREG-DAG: swc1 $f0, 0($[[R0]])		; NOODDSPREG-DAG: swc1 $f0, 0($[[R0]])
; NOODDSPREG-DAG: swc1 $f2, 4($[[R0]])		; NOODDSPREG-DAG: swc1 $f2, 4($[[R0]])
; NOODDSPREG-DAG: swc1 $f4, 8($[[R0]])		; NOODDSPREG-DAG: swc1 $f4, 8($[[R0]])
; NOODDSPREG-DAG: swc1 $f6, 12($[[R0]])		; NOODDSPREG-DAG: swc1 $f6, 12($[[R0]])
; NOODDSPREG-DAG: swc1 $f8, 16($[[R0]])		; NOODDSPREG-DAG: swc1 $f8, 16($[[R0]])
; NOODDSPREG-DAG: swc1 $f10, 20($[[R0]])		; NOODDSPREG-DAG: swc1 $f10, 20($[[R0]])
; NOODDSPREG-DAG: swc1 $f12, 24($[[R0]])		; NOODDSPREG-DAG: swc1 $f12, 24($[[R0]])
; NOODDSPREG-DAG: swc1 $f14, 28($[[R0]])		; NOODDSPREG-DAG: swc1 $f14, 28($[[R0]])
; NOODDSPREG-DAG: swc1 $f16, 32($[[R0]])		; NOODDSPREG-DAG: swc1 $f16, 32($[[R0]])
; NOODDSPREG-DAG: swc1 $f18, 36($[[R0]])		; NOODDSPREG-DAG: swc1 $f18, 36($[[R0]])

; NOODDSPREG-DAG: lwc1 $[[F0:f[0-9]*[02468]]], [[OFFSET]]($sp)		; NOODDSPREG-DAG: lwc1 $[[F0:f[0-9]*[02468]]], 0($sp)
; NOODDSPREG-DAG: swc1 $[[F0]], 40($[[R0]])		; NOODDSPREG-DAG: swc1 $[[F0]], 40($[[R0]])

store float %a0, float* getelementptr ([11 x float], [11 x float]* @fa, i32 0, i32 0), align 4		store float %a0, float* getelementptr ([11 x float], [11 x float]* @fa, i32 0, i32 0), align 4
store float %a1, float* getelementptr ([11 x float], [11 x float]* @fa, i32 0, i32 1), align 4		store float %a1, float* getelementptr ([11 x float], [11 x float]* @fa, i32 0, i32 1), align 4
store float %a2, float* getelementptr ([11 x float], [11 x float]* @fa, i32 0, i32 2), align 4		store float %a2, float* getelementptr ([11 x float], [11 x float]* @fa, i32 0, i32 2), align 4
store float %a3, float* getelementptr ([11 x float], [11 x float]* @fa, i32 0, i32 3), align 4		store float %a3, float* getelementptr ([11 x float], [11 x float]* @fa, i32 0, i32 3), align 4
store float %a4, float* getelementptr ([11 x float], [11 x float]* @fa, i32 0, i32 4), align 4		store float %a4, float* getelementptr ([11 x float], [11 x float]* @fa, i32 0, i32 4), align 4
store float %a5, float* getelementptr ([11 x float], [11 x float]* @fa, i32 0, i32 5), align 4		store float %a5, float* getelementptr ([11 x float], [11 x float]* @fa, i32 0, i32 5), align 4
▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines

define fastcc void @callee3(double %a0, double %a1, double %a2, double %a3,		define fastcc void @callee3(double %a0, double %a1, double %a2, double %a3,
double %a4, double %a5, double %a6, double %a7,		double %a4, double %a5, double %a6, double %a7,
double %a8, double %a9, double %a10) {		double %a8, double %a9, double %a10) {
entry:		entry:

; FP64-NOODDSPREG-LABEL: callee3:		; FP64-NOODDSPREG-LABEL: callee3:

; FP64-NOODDSPREG: addiu $sp, $sp, -[[OFFSET:[0-9]+]]

; Check that first 10 arguments are received in even float registers		; Check that first 10 arguments are received in even float registers
; f0, f2, ... , f18. Check that 11th argument is received on stack.		; f0, f2, ... , f18. Check that 11th argument is received on stack.

; FP64-NOODDSPREG-DAG: lw $[[R0:[0-9]+]], %got(da)(${{[0-9]+\|gp}})		; FP64-NOODDSPREG-DAG: lw $[[R0:[0-9]+]], %got(da)(${{[0-9]+\|gp}})
; FP64-NOODDSPREG-DAG: sdc1 $f0, 0($[[R0]])		; FP64-NOODDSPREG-DAG: sdc1 $f0, 0($[[R0]])
; FP64-NOODDSPREG-DAG: sdc1 $f2, 8($[[R0]])		; FP64-NOODDSPREG-DAG: sdc1 $f2, 8($[[R0]])
; FP64-NOODDSPREG-DAG: sdc1 $f4, 16($[[R0]])		; FP64-NOODDSPREG-DAG: sdc1 $f4, 16($[[R0]])
; FP64-NOODDSPREG-DAG: sdc1 $f6, 24($[[R0]])		; FP64-NOODDSPREG-DAG: sdc1 $f6, 24($[[R0]])
; FP64-NOODDSPREG-DAG: sdc1 $f8, 32($[[R0]])		; FP64-NOODDSPREG-DAG: sdc1 $f8, 32($[[R0]])
; FP64-NOODDSPREG-DAG: sdc1 $f10, 40($[[R0]])		; FP64-NOODDSPREG-DAG: sdc1 $f10, 40($[[R0]])
; FP64-NOODDSPREG-DAG: sdc1 $f12, 48($[[R0]])		; FP64-NOODDSPREG-DAG: sdc1 $f12, 48($[[R0]])
; FP64-NOODDSPREG-DAG: sdc1 $f14, 56($[[R0]])		; FP64-NOODDSPREG-DAG: sdc1 $f14, 56($[[R0]])
; FP64-NOODDSPREG-DAG: sdc1 $f16, 64($[[R0]])		; FP64-NOODDSPREG-DAG: sdc1 $f16, 64($[[R0]])
; FP64-NOODDSPREG-DAG: sdc1 $f18, 72($[[R0]])		; FP64-NOODDSPREG-DAG: sdc1 $f18, 72($[[R0]])

; FP64-NOODDSPREG-DAG: ldc1 $[[F0:f[0-9]*[02468]]], [[OFFSET]]($sp)		; FP64-NOODDSPREG-DAG: ldc1 $[[F0:f[0-9]*[02468]]], 0($sp)
; FP64-NOODDSPREG-DAG: sdc1 $[[F0]], 80($[[R0]])		; FP64-NOODDSPREG-DAG: sdc1 $[[F0]], 80($[[R0]])

store double %a0, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 0), align 8		store double %a0, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 0), align 8
store double %a1, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 1), align 8		store double %a1, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 1), align 8
store double %a2, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 2), align 8		store double %a2, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 2), align 8
store double %a3, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 3), align 8		store double %a3, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 3), align 8
store double %a4, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 4), align 8		store double %a4, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 4), align 8
store double %a5, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 5), align 8		store double %a5, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 5), align 8
store double %a6, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 6), align 8		store double %a6, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 6), align 8
store double %a7, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 7), align 8		store double %a7, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 7), align 8
store double %a8, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 8), align 8		store double %a8, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 8), align 8
store double %a9, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 9), align 8		store double %a9, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 9), align 8
store double %a10, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 10), align 8		store double %a10, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 10), align 8
ret void		ret void
}		}

llvm/trunk/test/CodeGen/Mips/load-store-left-right.ll

	Show First 20 Lines • Show All 244 Lines • ▼ Show 20 Lines

	; MIPS32-EL: lw $[[PTR:[0-9]+]], %got(struct_s0)(			; MIPS32-EL: lw $[[PTR:[0-9]+]], %got(struct_s0)(
	; MIPS32-EB: lw $[[PTR:[0-9]+]], %got(struct_s0)(			; MIPS32-EB: lw $[[PTR:[0-9]+]], %got(struct_s0)(
	; MIPS32R6: lw $[[PTR:[0-9]+]], %got(struct_s0)(			; MIPS32R6: lw $[[PTR:[0-9]+]], %got(struct_s0)(
	; MIPS64-EL: ld $[[PTR:[0-9]+]], %got_disp(struct_s0)(			; MIPS64-EL: ld $[[PTR:[0-9]+]], %got_disp(struct_s0)(
	; MIPS64-EB: ld $[[PTR:[0-9]+]], %got_disp(struct_s0)(			; MIPS64-EB: ld $[[PTR:[0-9]+]], %got_disp(struct_s0)(
	; MIPS64R6: ld $[[PTR:[0-9]+]], %got_disp(struct_s0)(			; MIPS64R6: ld $[[PTR:[0-9]+]], %got_disp(struct_s0)(

	; FIXME: We should be able to do better than this on MIPS32r6/MIPS64r6 since			; MIPS32-DAG: lbu $[[R1:[0-9]+]], 0($[[PTR]])
	; we have unaligned halfword load/store available			; MIPS32-DAG: sb $[[R1]], 2($[[PTR]])
	; ALL-DAG: lbu $[[R1:[0-9]+]], 0($[[PTR]])			; MIPS32-DAG: lbu $[[R2:[0-9]+]], 1($[[PTR]])
	; ALL-DAG: sb $[[R1]], 2($[[PTR]])			; MIPS32-DAG: sb $[[R2]], 3($[[PTR]])
	; ALL-DAG: lbu $[[R1:[0-9]+]], 1($[[PTR]])
	; ALL-DAG: sb $[[R1]], 3($[[PTR]])			; MIPS32R6: lhu $[[R1:[0-9]+]], 0($[[PTR]])
				; MIPS32R6: sh $[[R1]], 2($[[PTR]])

				; MIPS64-DAG: lbu $[[R1:[0-9]+]], 0($[[PTR]])
				; MIPS64-DAG: sb $[[R1]], 2($[[PTR]])
				; MIPS64-DAG: lbu $[[R2:[0-9]+]], 1($[[PTR]])
				; MIPS64-DAG: sb $[[R2]], 3($[[PTR]])

	%0 = load %struct.S0, %struct.S0* getelementptr inbounds (%struct.S0, %struct.S0* @struct_s0, i32 0), align 1			%0 = load %struct.S0, %struct.S0* getelementptr inbounds (%struct.S0, %struct.S0* @struct_s0, i32 0), align 1
	store %struct.S0 %0, %struct.S0* getelementptr inbounds (%struct.S0, %struct.S0* @struct_s0, i32 1), align 1			store %struct.S0 %0, %struct.S0* getelementptr inbounds (%struct.S0, %struct.S0* @struct_s0, i32 1), align 1
	ret void			ret void
	}			}

	define void @copy_struct_S1() nounwind {			define void @copy_struct_S1() nounwind {
	entry:			entry:
	; ALL-LABEL: copy_struct_S1:			; ALL-LABEL: copy_struct_S1:

	; MIPS32-EL: lw $[[PTR:[0-9]+]], %got(struct_s1)(			; MIPS32-EL: lw $[[PTR:[0-9]+]], %got(struct_s1)(
	; MIPS32-EB: lw $[[PTR:[0-9]+]], %got(struct_s1)(			; MIPS32-EB: lw $[[PTR:[0-9]+]], %got(struct_s1)(
	; MIPS32-DAG: lbu $[[R1:[0-9]+]], 0($[[PTR]])			; MIPS32-EL-DAG: lwl $[[R1:[0-9]+]], 3($[[PTR]])
	; MIPS32-DAG: sb $[[R1]], 4($[[PTR]])			; MIPS32-EL-DAG: lwr $[[R1]], 0($[[PTR]])
	; MIPS32-DAG: lbu $[[R1:[0-9]+]], 1($[[PTR]])			; MIPS32-EL-DAG: swl $[[R1]], 7($[[PTR]])
	; MIPS32-DAG: sb $[[R1]], 5($[[PTR]])			; MIPS32-EL-DAG: swr $[[R1]], 4($[[PTR]])
	; MIPS32-DAG: lbu $[[R1:[0-9]+]], 2($[[PTR]])			; MIPS32-EB-DAG: lwl $[[R1:[0-9]+]], 0($[[PTR]])
	; MIPS32-DAG: sb $[[R1]], 6($[[PTR]])			; MIPS32-EB-DAG: lwr $[[R1]], 3($[[PTR]])
	; MIPS32-DAG: lbu $[[R1:[0-9]+]], 3($[[PTR]])			; MIPS32-EB-DAG: swl $[[R1]], 4($[[PTR]])
	; MIPS32-DAG: sb $[[R1]], 7($[[PTR]])			; MIPS32-EB-DAG: swr $[[R1]], 7($[[PTR]])

				; MIPS32-NOLEFTRIGHT-DAG: lbu $[[R1:[0-9]+]], 0($[[PTR]])
				; MIPS32-NOLEFTRIGHT-DAG: sb $[[R1]], 4($[[PTR]])
				; MIPS32-NOLEFTRIGHT-DAG: lbu $[[R1:[0-9]+]], 1($[[PTR]])
				; MIPS32-NOLEFTRIGHT-DAG: sb $[[R1]], 5($[[PTR]])
				; MIPS32-NOLEFTRIGHT-DAG: lbu $[[R1:[0-9]+]], 2($[[PTR]])
				; MIPS32-NOLEFTRIGHT-DAG: sb $[[R1]], 6($[[PTR]])
				; MIPS32-NOLEFTRIGHT-DAG: lbu $[[R1:[0-9]+]], 3($[[PTR]])
				; MIPS32-NOLEFTRIGHT-DAG: sb $[[R1]], 7($[[PTR]])

	; MIPS32R6: lw $[[PTR:[0-9]+]], %got(struct_s1)(			; MIPS32R6: lw $[[PTR:[0-9]+]], %got(struct_s1)(
	; MIPS32R6-DAG: lhu $[[R1:[0-9]+]], 0($[[PTR]])			; MIPS32R6-DAG: lw $[[R1:[0-9]+]], 0($[[PTR]])
	; MIPS32R6-DAG: sh $[[R1]], 4($[[PTR]])			; MIPS32R6-DAG: sw $[[R1]], 4($[[PTR]])
	; MIPS32R6-DAG: lhu $[[R1:[0-9]+]], 2($[[PTR]])
	; MIPS32R6-DAG: sh $[[R1]], 6($[[PTR]])

	; MIPS64-EL: ld $[[PTR:[0-9]+]], %got_disp(struct_s1)(			; MIPS64-EL: ld $[[PTR:[0-9]+]], %got_disp(struct_s1)(
	; MIPS64-EB: ld $[[PTR:[0-9]+]], %got_disp(struct_s1)(			; MIPS64-EB: ld $[[PTR:[0-9]+]], %got_disp(struct_s1)(
	; MIPS64-DAG: lbu $[[R1:[0-9]+]], 0($[[PTR]])
	; MIPS64-DAG: sb $[[R1]], 4($[[PTR]])			; MIPS64-EL-DAG: lwl $[[R1:[0-9]+]], 3($[[PTR]])
	; MIPS64-DAG: lbu $[[R1:[0-9]+]], 1($[[PTR]])			; MIPS64-EL-DAG: lwr $[[R1]], 0($[[PTR]])
	; MIPS64-DAG: sb $[[R1]], 5($[[PTR]])			; MIPS64-EL-DAG: swl $[[R1]], 7($[[PTR]])
	; MIPS64-DAG: lbu $[[R1:[0-9]+]], 2($[[PTR]])			; MIPS64-EL-DAG: swr $[[R1]], 4($[[PTR]])
	; MIPS64-DAG: sb $[[R1]], 6($[[PTR]])
	; MIPS64-DAG: lbu $[[R1:[0-9]+]], 3($[[PTR]])			; MIPS64-EB-DAG: lwl $[[R1:[0-9]+]], 0($[[PTR]])
	; MIPS64-DAG: sb $[[R1]], 7($[[PTR]])			; MIPS64-EB-DAG: lwr $[[R1]], 3($[[PTR]])
				; MIPS64-EB-DAG: swl $[[R1]], 4($[[PTR]])
				; MIPS64-EB-DAG: swr $[[R1]], 7($[[PTR]])


				; MIPS64-NOLEFTRIGHT-DAG: lbu $[[R1:[0-9]+]], 0($[[PTR]])
				; MIPS64-NOLEFTRIGHT-DAG: sb $[[R1]], 4($[[PTR]])
				; MIPS64-NOLEFTRIGHT-DAG: lbu $[[R1:[0-9]+]], 1($[[PTR]])
				; MIPS64-NOLEFTRIGHT-DAG: sb $[[R1]], 5($[[PTR]])
				; MIPS64-NOLEFTRIGHT-DAG: lbu $[[R1:[0-9]+]], 2($[[PTR]])
				; MIPS64-NOLEFTRIGHT-DAG: sb $[[R1]], 6($[[PTR]])
				; MIPS64-NOLEFTRIGHT-DAG: lbu $[[R1:[0-9]+]], 3($[[PTR]])
				; MIPS64-NOLEFTRIGHT-DAG: sb $[[R1]], 7($[[PTR]])

	; MIPS64R6: ld $[[PTR:[0-9]+]], %got_disp(struct_s1)(			; MIPS64R6: ld $[[PTR:[0-9]+]], %got_disp(struct_s1)(
	; MIPS64R6-DAG: lhu $[[R1:[0-9]+]], 0($[[PTR]])			; MIPS64R6-DAG: lw $[[R1:[0-9]+]], 0($[[PTR]])
	; MIPS64R6-DAG: sh $[[R1]], 4($[[PTR]])			; MIPS64R6-DAG: sw $[[R1]], 4($[[PTR]])
	; MIPS64R6-DAG: lhu $[[R1:[0-9]+]], 2($[[PTR]])
	; MIPS64R6-DAG: sh $[[R1]], 6($[[PTR]])

	%0 = load %struct.S1, %struct.S1* getelementptr inbounds (%struct.S1, %struct.S1* @struct_s1, i32 0), align 1			%0 = load %struct.S1, %struct.S1* getelementptr inbounds (%struct.S1, %struct.S1* @struct_s1, i32 0), align 1
	store %struct.S1 %0, %struct.S1* getelementptr inbounds (%struct.S1, %struct.S1* @struct_s1, i32 1), align 1			store %struct.S1 %0, %struct.S1* getelementptr inbounds (%struct.S1, %struct.S1* @struct_s1, i32 1), align 1
	ret void			ret void
	}			}

	define void @copy_struct_S2() nounwind {			define void @copy_struct_S2() nounwind {
	entry:			entry:
	Show All 21 Lines

	; MIPS32R6: lw $[[PTR:[0-9]+]], %got(struct_s2)(			; MIPS32R6: lw $[[PTR:[0-9]+]], %got(struct_s2)(
	; MIPS32R6-DAG: lw $[[R1:[0-9]+]], 0($[[PTR]])			; MIPS32R6-DAG: lw $[[R1:[0-9]+]], 0($[[PTR]])
	; MIPS32R6-DAG: sw $[[R1]], 8($[[PTR]])			; MIPS32R6-DAG: sw $[[R1]], 8($[[PTR]])
	; MIPS32R6-DAG: lw $[[R1:[0-9]+]], 4($[[PTR]])			; MIPS32R6-DAG: lw $[[R1:[0-9]+]], 4($[[PTR]])
	; MIPS32R6-DAG: sw $[[R1]], 12($[[PTR]])			; MIPS32R6-DAG: sw $[[R1]], 12($[[PTR]])

	; MIPS64-EL: ld $[[PTR:[0-9]+]], %got_disp(struct_s2)(			; MIPS64-EL: ld $[[PTR:[0-9]+]], %got_disp(struct_s2)(
	; MIPS64-EL-DAG: lwl $[[R1:[0-9]+]], 3($[[PTR]])
	; MIPS64-EL-DAG: lwr $[[R1]], 0($[[PTR]])			; MIPS64-EL-DAG: ldl $[[R1:[0-9]+]], 7($[[PTR]])
	; MIPS64-EL-DAG: swl $[[R1]], 11($[[PTR]])			; MIPS64-EL-DAG: ldr $[[R1]], 0($[[PTR]])
	; MIPS64-EL-DAG: swr $[[R1]], 8($[[PTR]])			; MIPS64-EL-DAG: sdl $[[R1]], 15($[[PTR]])
	; MIPS64-EL-DAG: lwl $[[R1:[0-9]+]], 7($[[PTR]])			; MIPS64-EL-DAG: sdr $[[R1]], 8($[[PTR]])
	; MIPS64-EL-DAG: lwr $[[R1]], 4($[[PTR]])
	; MIPS64-EL-DAG: swl $[[R1]], 15($[[PTR]])
	; MIPS64-EL-DAG: swr $[[R1]], 12($[[PTR]])

	; MIPS64-EB: ld $[[PTR:[0-9]+]], %got_disp(struct_s2)(			; MIPS64-EB: ld $[[PTR:[0-9]+]], %got_disp(struct_s2)(
	; MIPS64-EB-DAG: lwl $[[R1:[0-9]+]], 0($[[PTR]])			; MIPS64-EB-DAG: ldl $[[R1:[0-9]+]], 0($[[PTR]])
	; MIPS64-EB-DAG: lwr $[[R1]], 3($[[PTR]])			; MIPS64-EB-DAG: ldr $[[R1]], 7($[[PTR]])
	; MIPS64-EB-DAG: swl $[[R1]], 8($[[PTR]])			; MIPS64-EB-DAG: sdl $[[R1]], 8($[[PTR]])
	; MIPS64-EB-DAG: swr $[[R1]], 11($[[PTR]])			; MIPS64-EB-DAG: sdr $[[R1]], 15($[[PTR]])
	; MIPS64-EB-DAG: lwl $[[R1:[0-9]+]], 4($[[PTR]])
	; MIPS64-EB-DAG: lwr $[[R1]], 7($[[PTR]])
	; MIPS64-EB-DAG: swl $[[R1]], 12($[[PTR]])
	; MIPS64-EB-DAG: swr $[[R1]], 15($[[PTR]])

	; MIPS64R6: ld $[[PTR:[0-9]+]], %got_disp(struct_s2)(			; MIPS64R6: ld $[[PTR:[0-9]+]], %got_disp(struct_s2)(
	; MIPS64R6-DAG: lw $[[R1:[0-9]+]], 0($[[PTR]])			; MIPS64R6-DAG: ld $[[R1:[0-9]+]], 0($[[PTR]])
	; MIPS64R6-DAG: sw $[[R1]], 8($[[PTR]])			; MIPS64R6-DAG: sd $[[R1]], 8($[[PTR]])
	; MIPS64R6-DAG: lw $[[R1:[0-9]+]], 4($[[PTR]])
	; MIPS64R6-DAG: sw $[[R1]], 12($[[PTR]])

	%0 = load %struct.S2, %struct.S2* getelementptr inbounds (%struct.S2, %struct.S2* @struct_s2, i32 0), align 1			%0 = load %struct.S2, %struct.S2* getelementptr inbounds (%struct.S2, %struct.S2* @struct_s2, i32 0), align 1
	store %struct.S2 %0, %struct.S2* getelementptr inbounds (%struct.S2, %struct.S2* @struct_s2, i32 1), align 1			store %struct.S2 %0, %struct.S2* getelementptr inbounds (%struct.S2, %struct.S2* @struct_s2, i32 1), align 1
	ret void			ret void
	}			}

	;			;
	; Arrays are simply concatenations of the members. They are unaffected by			; Arrays are simply concatenations of the members. They are unaffected by
	Show All 40 Lines
	; MIPS32R6-EB-DAG: lbu $[[R3:[0-9]+]], 6($[[PTR]])			; MIPS32R6-EB-DAG: lbu $[[R3:[0-9]+]], 6($[[PTR]])
	; MIPS32R6-EB-DAG: sll $[[T0:[0-9]+]], $[[R2]], 16			; MIPS32R6-EB-DAG: sll $[[T0:[0-9]+]], $[[R2]], 16
	; MIPS32R6-EB-DAG: or $5, $[[T0]], $[[R3]]			; MIPS32R6-EB-DAG: or $5, $[[T0]], $[[R3]]

	; MIPS64-EL: ld $[[SPTR:[0-9]+]], %got_disp(arr)(			; MIPS64-EL: ld $[[SPTR:[0-9]+]], %got_disp(arr)(
	; MIPS64-EL-DAG: lwl $[[R1:[0-9]+]], 3($[[PTR]])			; MIPS64-EL-DAG: lwl $[[R1:[0-9]+]], 3($[[PTR]])
	; MIPS64-EL-DAG: lwr $[[R1]], 0($[[PTR]])			; MIPS64-EL-DAG: lwr $[[R1]], 0($[[PTR]])

	; MIPS64-EB: ld $[[SPTR:[0-9]+]], %got_disp(arr)(			; MIPS64-EB: ld $[[SPTR:[0-9]+]], %got_disp(arr)(
	; MIPS64-EB-DAG: lwl $[[R1:[0-9]+]], 0($[[PTR]])
	; MIPS64-EB-DAG: lwr $[[R1]], 3($[[PTR]])
	; MIPS64-EB-DAG: dsll $[[R1]], $[[R1]], 32
	; MIPS64-EB-DAG: lbu $[[R2:[0-9]+]], 5($[[PTR]])			; MIPS64-EB-DAG: lbu $[[R2:[0-9]+]], 5($[[PTR]])
	; MIPS64-EB-DAG: lbu $[[R3:[0-9]+]], 4($[[PTR]])			; MIPS64-EB-DAG: lbu $[[R3:[0-9]+]], 4($[[PTR]])
	; MIPS64-EB-DAG: dsll $[[T0:[0-9]+]], $[[R3]], 8			; MIPS64-EB-DAG: dsll $[[T0:[0-9]+]], $[[R3]], 8
	; MIPS64-EB-DAG: or $[[T1:[0-9]+]], $[[T0]], $[[R2]]			; MIPS64-EB-DAG: or $[[T1:[0-9]+]], $[[T0]], $[[R2]]
	; MIPS64-EB-DAG: dsll $[[T1]], $[[T1]], 16
	; MIPS64-EB-DAG: or $[[T3:[0-9]+]], $[[R1]], $[[T1]]
	; MIPS64-EB-DAG: lbu $[[R4:[0-9]+]], 6($[[PTR]])			; MIPS64-EB-DAG: lbu $[[R4:[0-9]+]], 6($[[PTR]])
				; MIPS64-EB-DAG: dsll $[[T1]], $[[T1]], 16
				; MIPS64-EB-DAG: lwl $[[R1:[0-9]+]], 0($[[PTR]])
				; MIPS64-EB-DAG: lwr $[[R1]], 3($[[PTR]])
				; MIPS64-EB-DAG: dsll $[[R5:[0-9]+]], $[[R1]], 32
				; MIPS64-EB-DAG: or $[[T3:[0-9]+]], $[[R5]], $[[T1]]
	; MIPS64-EB-DAG: dsll $[[T4:[0-9]+]], $[[R4]], 8			; MIPS64-EB-DAG: dsll $[[T4:[0-9]+]], $[[R4]], 8
	; MIPS64-EB-DAG: or $4, $[[T3]], $[[T4]]			; MIPS64-EB-DAG: or $4, $[[T3]], $[[T4]]

	; MIPS64R6: ld $[[SPTR:[0-9]+]], %got_disp(arr)(			; MIPS64R6: ld $[[SPTR:[0-9]+]], %got_disp(arr)(

	tail call void @extern_func([7 x i8]* byval @arr) nounwind			tail call void @extern_func([7 x i8]* byval @arr) nounwind
	ret void			ret void
	}			}

	declare void @extern_func([7 x i8]* byval)			declare void @extern_func([7 x i8]* byval)

llvm/trunk/test/CodeGen/Mips/micromips-li.ll

	; RUN: llc -march=mipsel -mcpu=mips32r2 -mattr=+micromips \			; RUN: llc -march=mipsel -mcpu=mips32r2 -mattr=+micromips \
	; RUN: -relocation-model=pic -O3 < %s \| FileCheck %s			; RUN: -relocation-model=pic -O3 < %s \| FileCheck %s

	@x = external global i32			@x = external global i32
	@y = external global i32			@y = external global i32
	@z = external global i32			@z = external global i32

	define i32 @main() nounwind {			define i32 @main() nounwind {
	entry:			entry:
	store i32 1, i32* @x, align 4			store i32 1, i32* @x, align 4
	store i32 2148, i32* @y, align 4			store i32 2148, i32* @y, align 4
	store i32 33332, i32* @z, align 4			store i32 33332, i32* @z, align 4
	ret i32 0			ret i32 0
	}			}

	; CHECK: li16 ${{[2-7]\|16\|17}}, 1
	; CHECK: addiu ${{[0-9]+}}, $zero, 2148			; CHECK: addiu ${{[0-9]+}}, $zero, 2148
				; CHECK: li16 ${{[2-7]\|16\|17}}, 1
	; CHECK: ori ${{[0-9]+}}, $zero, 33332			; CHECK: ori ${{[0-9]+}}, $zero, 33332

llvm/trunk/test/CodeGen/Mips/mips64-f128.ll

	Show First 20 Lines • Show All 567 Lines • ▼ Show 20 Lines
	entry:			entry:
	%0 = load double, double* @gd1, align 8			%0 = load double, double* @gd1, align 8
	%conv = fpext double %0 to fp128			%conv = fpext double %0 to fp128
	ret fp128 %conv			ret fp128 %conv
	}			}

	; ALL-LABEL: store_LD_LD:			; ALL-LABEL: store_LD_LD:
	; ALL: ld $[[R0:[0-9]+]], %got_disp(gld1)			; ALL: ld $[[R0:[0-9]+]], %got_disp(gld1)
	; ALL: ld $[[R1:[0-9]+]], 0($[[R0]])
	; ALL: ld $[[R2:[0-9]+]], 8($[[R0]])			; ALL: ld $[[R2:[0-9]+]], 8($[[R0]])
	; ALL: ld $[[R3:[0-9]+]], %got_disp(gld0)			; ALL: ld $[[R3:[0-9]+]], %got_disp(gld0)
	; ALL: sd $[[R2]], 8($[[R3]])			; ALL: sd $[[R2]], 8($[[R3]])
				; ALL: ld $[[R1:[0-9]+]], 0($[[R0]])
	; ALL: sd $[[R1]], 0($[[R3]])			; ALL: sd $[[R1]], 0($[[R3]])

	define void @store_LD_LD() {			define void @store_LD_LD() {
	entry:			entry:
	%0 = load fp128, fp128* @gld1, align 16			%0 = load fp128, fp128* @gld1, align 16
	store fp128 %0, fp128* @gld0, align 16			store fp128 %0, fp128* @gld0, align 16
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 90 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/Mips/mno-ldc1-sdc1.ll

	Show First 20 Lines • Show All 124 Lines • ▼ Show 20 Lines
	; MM: addu $[[R2:[0-9]+]], $[[R1]], $25			; MM: addu $[[R2:[0-9]+]], $[[R1]], $25
	; MM: lw $[[R3:[0-9]+]], %got(g0)($[[R2]])			; MM: lw $[[R3:[0-9]+]], %got(g0)($[[R2]])
	; MM: ldc1 $f0, 0($[[R3]])			; MM: ldc1 $f0, 0($[[R3]])

	; MM-MNO-PIC: lui $[[R0:[0-9]+]], %hi(_gp_disp)			; MM-MNO-PIC: lui $[[R0:[0-9]+]], %hi(_gp_disp)
	; MM-MNO-PIC: addiu $[[R1:[0-9]+]], $[[R0]], %lo(_gp_disp)			; MM-MNO-PIC: addiu $[[R1:[0-9]+]], $[[R0]], %lo(_gp_disp)
	; MM-MNO-PIC: addu $[[R2:[0-9]+]], $[[R1]], $25			; MM-MNO-PIC: addu $[[R2:[0-9]+]], $[[R1]], $25
	; MM-MNO-PIC: lw $[[R3:[0-9]+]], %got(g0)($[[R2]])			; MM-MNO-PIC: lw $[[R3:[0-9]+]], %got(g0)($[[R2]])
	; MM-MNO-PIC: lw16 $[[R4:[0-9]+]], 0($[[R3]])			; MM-MNO-PIC-DAG: lw16 $[[R4:[0-9]+]], 0($[[R3]])
	; MM-MNO-PIC: lw16 $[[R5:[0-9]+]], 4($[[R3]])			; MM-MNO-PIC-DAG: lw16 $[[R5:[0-9]+]], 4($[[R3]])
	; MM-MNO-LE-PIC: mtc1 $[[R4]], $f0			; MM-MNO-LE-PIC-DAG: mtc1 $[[R4]], $f0
	; MM-MNO-LE-PIC: mthc1 $[[R5]], $f0			; MM-MNO-LE-PIC-DAG: mthc1 $[[R5]], $f0
	; MM-MNO-BE-PIC: mtc1 $[[R5]], $f0			; MM-MNO-BE-PIC-DAG: mtc1 $[[R5]], $f0
	; MM-MNO-BE-PIC: mthc1 $[[R4]], $f0			; MM-MNO-BE-PIC-DAG: mthc1 $[[R4]], $f0

	; MM-STATIC-PIC: lui $[[R0:[0-9]+]], %hi(g0)			; MM-STATIC-PIC: lui $[[R0:[0-9]+]], %hi(g0)
	; MM-STATIC-PIC: ldc1 $f0, %lo(g0)($[[R0]])			; MM-STATIC-PIC: ldc1 $f0, %lo(g0)($[[R0]])

	define double @test_ldc1() {			define double @test_ldc1() {
	entry:			entry:
	%0 = load double, double* @g0, align 8			%0 = load double, double* @g0, align 8
	ret double %0			ret double %0
	▲ Show 20 Lines • Show All 62 Lines • ▼ Show 20 Lines
	; MM: addiu $[[R1:[0-9]+]], $[[R0]], %lo(_gp_disp)			; MM: addiu $[[R1:[0-9]+]], $[[R0]], %lo(_gp_disp)
	; MM: addu $[[R2:[0-9]+]], $[[R1]], $25			; MM: addu $[[R2:[0-9]+]], $[[R1]], $25
	; MM: lw $[[R3:[0-9]+]], %got(g0)($[[R2]])			; MM: lw $[[R3:[0-9]+]], %got(g0)($[[R2]])
	; MM: sdc1 $f12, 0($[[R3]])			; MM: sdc1 $f12, 0($[[R3]])

	; MM-MNO-PIC: lui $[[R0:[0-9]+]], %hi(_gp_disp)			; MM-MNO-PIC: lui $[[R0:[0-9]+]], %hi(_gp_disp)
	; MM-MNO-PIC: addiu $[[R1:[0-9]+]], $[[R0]], %lo(_gp_disp)			; MM-MNO-PIC: addiu $[[R1:[0-9]+]], $[[R0]], %lo(_gp_disp)
	; MM-MNO-PIC: addu $[[R2:[0-9]+]], $[[R1]], $25			; MM-MNO-PIC: addu $[[R2:[0-9]+]], $[[R1]], $25
	; MM-MNO-LE-PIC: mfc1 $[[R3:[0-9]+]], $f12			; MM-MNO-LE-PIC-DAG: mfc1 $[[R3:[0-9]+]], $f12
	; MM-MNO-BE-PIC: mfhc1 $[[R3:[0-9]+]], $f12			; MM-MNO-BE-PIC-DAG: mfhc1 $[[R3:[0-9]+]], $f12
	; MM-MNO-PIC: lw $[[R4:[0-9]+]], %got(g0)($[[R2]])			; MM-MNO-PIC-DAG: lw $[[R4:[0-9]+]], %got(g0)($[[R2]])
	; MM-MNO-PIC: sw16 $[[R3]], 0($[[R4]])			; MM-MNO-PIC-DAG: sw16 $[[R3]], 0($[[R4]])
	; MM-MNO-LE-PIC: mfhc1 $[[R5:[0-9]+]], $f12			; MM-MNO-LE-PIC-DAG: mfhc1 $[[R5:[0-9]+]], $f12
	; MM-MNO-BE-PIC: mfc1 $[[R5:[0-9]+]], $f12			; MM-MNO-BE-PIC-DAG: mfc1 $[[R5:[0-9]+]], $f12
	; MM-MNO-PIC: sw16 $[[R5]], 4($[[R4]])			; MM-MNO-PIC-DAG: sw16 $[[R5]], 4($[[R4]])

	; MM-STATIC-PIC: lui $[[R0:[0-9]+]], %hi(g0)			; MM-STATIC-PIC: lui $[[R0:[0-9]+]], %hi(g0)
	; MM-STATIC-PIC: sdc1 $f12, %lo(g0)($[[R0]])			; MM-STATIC-PIC: sdc1 $f12, %lo(g0)($[[R0]])

	define void @test_sdc1(double %a) {			define void @test_sdc1(double %a) {
	entry:			entry:
	store double %a, double* @g0, align 8			store double %a, double* @g0, align 8
	ret void			ret void
	Show All 30 Lines
	; 32R6-LDC1: ldc1 $f0, 0(${{[0-9]+}})			; 32R6-LDC1: ldc1 $f0, 0(${{[0-9]+}})

	; MM: sll16 $[[R0:[0-9]+]], $5, 3			; MM: sll16 $[[R0:[0-9]+]], $5, 3
	; MM: addu16 $[[R1:[0-9]+]], $4, $[[R0]]			; MM: addu16 $[[R1:[0-9]+]], $4, $[[R0]]
	; MM: ldc1 $f0, 0($[[R1]])			; MM: ldc1 $f0, 0($[[R1]])

	; MM-MNO-PIC: sll16 $[[R0:[0-9]+]], $5, 3			; MM-MNO-PIC: sll16 $[[R0:[0-9]+]], $5, 3
	; MM-MNO-PIC: addu16 $[[R1:[0-9]+]], $4, $[[R0]]			; MM-MNO-PIC: addu16 $[[R1:[0-9]+]], $4, $[[R0]]
	; MM-MNO-PIC: lw16 $[[R2:[0-9]+]], 0($[[R1]])			; MM-MNO-PIC-DAG: lw16 $[[R2:[0-9]+]], 0($[[R1]])
	; MM-MNO-PIC: lw16 $[[R3:[0-9]+]], 4($[[R1]])			; MM-MNO-PIC-DAG: lw16 $[[R3:[0-9]+]], 4($[[R1]])
	; MM-MNO-LE-PIC: mtc1 $[[R2]], $f0			; MM-MNO-LE-PIC: mtc1 $[[R2]], $f0
	; MM-MNO-LE-PIC: mthc1 $[[R3]], $f0			; MM-MNO-LE-PIC: mthc1 $[[R3]], $f0
	; MM-MNO-BE-PIC: mtc1 $[[R3]], $f0			; MM-MNO-BE-PIC: mtc1 $[[R3]], $f0
	; MM-MNO-BE-PIC: mthc1 $[[R2]], $f0			; MM-MNO-BE-PIC: mthc1 $[[R2]], $f0

	; MM-STATIC-PIC: sll16 $[[R0:[0-9]+]], $5, 3			; MM-STATIC-PIC: sll16 $[[R0:[0-9]+]], $5, 3
	; MM-STATIC-PIC: addu16 $[[R1:[0-9]+]], $4, $[[R0]]			; MM-STATIC-PIC: addu16 $[[R1:[0-9]+]], $4, $[[R0]]
	; MM-STATIC-PIC: ldc1 $f0, 0($[[R1]])			; MM-STATIC-PIC: ldc1 $f0, 0($[[R1]])
	Show All 28 Lines
	; 32R2-LDXC1: sdxc1 $f{{[0-9]+}}, $[[OFFSET]]($6)			; 32R2-LDXC1: sdxc1 $f{{[0-9]+}}, $[[OFFSET]]($6)

	; 32R6-LDC1: sdc1 $f{{[0-9]+}}, 0(${{[0-9]+}})			; 32R6-LDC1: sdc1 $f{{[0-9]+}}, 0(${{[0-9]+}})

	; MM: sll16 $[[R0:[0-9]+]], $7, 3			; MM: sll16 $[[R0:[0-9]+]], $7, 3
	; MM: addu16 $[[R1:[0-9]+]], $6, $[[R0]]			; MM: addu16 $[[R1:[0-9]+]], $6, $[[R0]]
	; MM: sdc1 $f12, 0($[[R1]])			; MM: sdc1 $f12, 0($[[R1]])

	; MM-MNO-PIC: sll16 $[[R0:[0-9]+]], $7, 3			; MM-MNO-PIC: sll16 $[[R0:[0-9]+]], $7, 3
	; MM-MNO-PIC: addu16 $[[R1:[0-9]+]], $6, $[[R0]]			; MM-MNO-PIC: addu16 $[[R1:[0-9]+]], $6, $[[R0]]
	; MM-MNO-LE-PIC: mfc1 $[[R2:[0-9]+]], $f12			; MM-MNO-LE-PIC-DAG: mfc1 $[[R2:[0-9]+]], $f12
	; MM-MNO-BE-PIC: mfhc1 $[[R2:[0-9]+]], $f12			; MM-MNO-BE-PIC-DAG: mfhc1 $[[R2:[0-9]+]], $f12
	; MM-MNO-PIC: sw16 $[[R2]], 0($[[R1]])			; MM-MNO-PIC-DAG: sw16 $[[R2]], 0($[[R1]])
	; MM-MNO-LE-PIC: mfhc1 $[[R3:[0-9]+]], $f12			; MM-MNO-LE-PIC-DAG: mfhc1 $[[R3:[0-9]+]], $f12
	; MM-MNO-BE-PIC: mfc1 $[[R3:[0-9]+]], $f12			; MM-MNO-BE-PIC-DAG: mfc1 $[[R3:[0-9]+]], $f12
	; MM-MNO-PIC: sw16 $[[R3]], 4($[[R1]])			; MM-MNO-PIC-DAG: sw16 $[[R3]], 4($[[R1]])

	; MM-STATIC-PIC: sll16 $[[R0:[0-9]+]], $7, 3			; MM-STATIC-PIC: sll16 $[[R0:[0-9]+]], $7, 3
	; MM-STATIC-PIC: addu16 $[[R1:[0-9]+]], $6, $[[R0]]			; MM-STATIC-PIC: addu16 $[[R1:[0-9]+]], $6, $[[R0]]
	; MM-STATIC-PIC: sdc1 $f12, 0($[[R1]])			; MM-STATIC-PIC: sdc1 $f12, 0($[[R1]])

	define void @test_sdxc1(double %b, double* nocapture %a, i32 %i) {			define void @test_sdxc1(double %b, double* nocapture %a, i32 %i) {
	entry:			entry:
	%arrayidx = getelementptr inbounds double, double* %a, i32 %i			%arrayidx = getelementptr inbounds double, double* %a, i32 %i
	store double %b, double* %arrayidx, align 8			store double %b, double* %arrayidx, align 8
	ret void			ret void
	}			}

llvm/trunk/test/CodeGen/Mips/msa/f16-llvm-ir.ll

	Show First 20 Lines • Show All 228 Lines • ▼ Show 20 Lines
	; MIPSR6-N64: sub.d $f[[F2:[0-9]+]], $f[[F1]], $f[[F0]]			; MIPSR6-N64: sub.d $f[[F2:[0-9]+]], $f[[F1]], $f[[F0]]

	; MIPS32: mfc1 $[[R0:[0-9]+]], $f[[F2]]			; MIPS32: mfc1 $[[R0:[0-9]+]], $f[[F2]]
	; MIPS32: fill.w $w[[W0:[0-9]+]], $[[R0]]			; MIPS32: fill.w $w[[W0:[0-9]+]], $[[R0]]
	; MIPS32: mfhc1 $[[R1:[0-9]+]], $f[[F2]]			; MIPS32: mfhc1 $[[R1:[0-9]+]], $f[[F2]]
	; MIPS32: insert.w $w[[W0]][1], $[[R1]]			; MIPS32: insert.w $w[[W0]][1], $[[R1]]
	; MIPS32: insert.w $w[[W0]][3], $[[R1]]			; MIPS32: insert.w $w[[W0]][3], $[[R1]]

	; MIPS64-N64: ld $[[R3:[0-9]+]], %got_disp(h)			; MIPS64-N64-DAG: ld $[[R3:[0-9]+]], %got_disp(h)
	; MIPS64-N32: lw $[[R3:[0-9]+]], %got_disp(h)			; MIPS64-N32-DAG: lw $[[R3:[0-9]+]], %got_disp(h)
	; MIPS64: dmfc1 $[[R1:[0-9]+]], $f[[F2]]			; MIPS64-DAG: dmfc1 $[[R1:[0-9]+]], $f[[F2]]
	; MIPS64: fill.d $w[[W0:[0-9]+]], $[[R1]]			; MIPS64-DAG: fill.d $w[[W0:[0-9]+]], $[[R1]]

	; ALL: fexdo.w $w[[W1:[0-9]+]], $w[[W0]], $w[[W0]]			; ALL-DAG: fexdo.w $w[[W1:[0-9]+]], $w[[W0]], $w[[W0]]
	; ALL: fexdo.h $w[[W2:[0-9]+]], $w[[W1]], $w[[W1]]			; ALL-DAG: fexdo.h $w[[W2:[0-9]+]], $w[[W1]], $w[[W1]]

	; MIPS32: lw $[[R3:[0-9]+]], %got(h)			; MIPS32-DAG: lw $[[R3:[0-9]+]], %got(h)

	; ALL: copy_u.h $[[R2:[0-9]+]], $w[[W2]]			; ALL: copy_u.h $[[R2:[0-9]+]], $w[[W2]]
	; ALL: sh $[[R2]], 0($[[R3]])			; ALL: sh $[[R2]], 0($[[R3]])
	%0 = uitofp i32 %a to half			%0 = uitofp i32 %a to half
	store half %0, half * @h, align 2			store half %0, half * @h, align 2
	ret void			ret void
	}			}

	▲ Show 20 Lines • Show All 894 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/Mips/msa/i5_ld_st.ll

Show First 20 Lines • Show All 330 Lines • ▼ Show 20 Lines	entry:
%1 = bitcast <16 x i8>* @llvm_mips_st_b_RES to i8*		%1 = bitcast <16 x i8>* @llvm_mips_st_b_RES to i8*
tail call void @llvm.mips.st.b(<16 x i8> %0, i8* %1, i32 -512)		tail call void @llvm.mips.st.b(<16 x i8> %0, i8* %1, i32 -512)
tail call void @llvm.mips.st.b(<16 x i8> %0, i8* %1, i32 511)		tail call void @llvm.mips.st.b(<16 x i8> %0, i8* %1, i32 511)
ret void		ret void
}		}

; CHECK: llvm_mips_st_b_valid_range_tests:		; CHECK: llvm_mips_st_b_valid_range_tests:
; CHECK: ld.b		; CHECK: ld.b
; CHECK: st.b [[R1:\$w[0-9]+]], -512(		; CHECK-DAG: st.b [[R1:\$w[0-9]+]], -512(
; CHECK: st.b [[R1:\$w[0-9]+]], 511(		; CHECK-DAG: st.b [[R1:\$w[0-9]+]], 511(
; CHECK: .size llvm_mips_st_b_valid_range_tests		; CHECK: .size llvm_mips_st_b_valid_range_tests
;		;

define void @llvm_mips_st_b_invalid_range_tests() nounwind {		define void @llvm_mips_st_b_invalid_range_tests() nounwind {
entry:		entry:
%0 = load <16 x i8>, <16 x i8>* @llvm_mips_st_b_ARG		%0 = load <16 x i8>, <16 x i8>* @llvm_mips_st_b_ARG
%1 = bitcast <16 x i8>* @llvm_mips_st_b_RES to i8*		%1 = bitcast <16 x i8>* @llvm_mips_st_b_RES to i8*
tail call void @llvm.mips.st.b(<16 x i8> %0, i8* %1, i32 -513)		tail call void @llvm.mips.st.b(<16 x i8> %0, i8* %1, i32 -513)
tail call void @llvm.mips.st.b(<16 x i8> %0, i8* %1, i32 512)		tail call void @llvm.mips.st.b(<16 x i8> %0, i8* %1, i32 512)
ret void		ret void
}		}

; CHECK: llvm_mips_st_b_invalid_range_tests:		; CHECK: llvm_mips_st_b_invalid_range_tests:
; CHECK: addiu $2, $1, -513		; CHECK: addiu $2, $1, 512
; CHECK: ld.b		; CHECK: ld.b
; CHECK: st.b [[R1:\$w[0-9]+]], 0(		; CHECK: st.b [[R1:\$w[0-9]+]], 0(
; CHECK: addiu $1, $1, 512		; CHECK: addiu $1, $1, -513
; CHECK: st.b [[R1:\$w[0-9]+]], 0(		; CHECK: st.b [[R1:\$w[0-9]+]], 0(
; CHECK: .size llvm_mips_st_b_invalid_range_tests		; CHECK: .size llvm_mips_st_b_invalid_range_tests
;		;

@llvm_mips_st_h_ARG = global <8 x i16> <i16 0, i16 1, i16 2, i16 3, i16 4, i16 5, i16 6, i16 7>, align 16		@llvm_mips_st_h_ARG = global <8 x i16> <i16 0, i16 1, i16 2, i16 3, i16 4, i16 5, i16 6, i16 7>, align 16
@llvm_mips_st_h_RES = global <8 x i16> <i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0>, align 16		@llvm_mips_st_h_RES = global <8 x i16> <i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0>, align 16

define void @llvm_mips_st_h_test() nounwind {		define void @llvm_mips_st_h_test() nounwind {
Show All 33 Lines	entry:
%1 = bitcast <8 x i16>* @llvm_mips_st_h_RES to i8*		%1 = bitcast <8 x i16>* @llvm_mips_st_h_RES to i8*
tail call void @llvm.mips.st.h(<8 x i16> %0, i8* %1, i32 -1024)		tail call void @llvm.mips.st.h(<8 x i16> %0, i8* %1, i32 -1024)
tail call void @llvm.mips.st.h(<8 x i16> %0, i8* %1, i32 1022)		tail call void @llvm.mips.st.h(<8 x i16> %0, i8* %1, i32 1022)
ret void		ret void
}		}

; CHECK: llvm_mips_st_h_valid_range_tests:		; CHECK: llvm_mips_st_h_valid_range_tests:
; CHECK: ld.h		; CHECK: ld.h
; CHECK: st.h [[R1:\$w[0-9]+]], -1024(		; CHECK-DAG: st.h [[R1:\$w[0-9]+]], -1024(
; CHECK: st.h [[R1:\$w[0-9]+]], 1022(		; CHECK-DAG: st.h [[R1:\$w[0-9]+]], 1022(
; CHECK: .size llvm_mips_st_h_valid_range_tests		; CHECK: .size llvm_mips_st_h_valid_range_tests
;		;

define void @llvm_mips_st_h_invalid_range_tests() nounwind {		define void @llvm_mips_st_h_invalid_range_tests() nounwind {
entry:		entry:
%0 = load <8 x i16>, <8 x i16>* @llvm_mips_st_h_ARG		%0 = load <8 x i16>, <8 x i16>* @llvm_mips_st_h_ARG
%1 = bitcast <8 x i16>* @llvm_mips_st_h_RES to i8*		%1 = bitcast <8 x i16>* @llvm_mips_st_h_RES to i8*
tail call void @llvm.mips.st.h(<8 x i16> %0, i8* %1, i32 -1026)		tail call void @llvm.mips.st.h(<8 x i16> %0, i8* %1, i32 -1026)
tail call void @llvm.mips.st.h(<8 x i16> %0, i8* %1, i32 1024)		tail call void @llvm.mips.st.h(<8 x i16> %0, i8* %1, i32 1024)
ret void		ret void
}		}

; CHECK: llvm_mips_st_h_invalid_range_tests:		; CHECK: llvm_mips_st_h_invalid_range_tests:
; CHECK: addiu $2, $1, -1026		; CHECK: addiu $2, $1, 1024
; CHECK: ld.h		; CHECK: ld.h
; CHECK: st.h [[R1:\$w[0-9]+]], 0(		; CHECK: st.h [[R1:\$w[0-9]+]], 0(
; CHECK: addiu $1, $1, 1024		; CHECK: addiu $1, $1, -1026
; CHECK: st.h [[R1:\$w[0-9]+]], 0(		; CHECK: st.h [[R1:\$w[0-9]+]], 0(
; CHECK: .size llvm_mips_st_h_invalid_range_tests		; CHECK: .size llvm_mips_st_h_invalid_range_tests
;		;

@llvm_mips_st_w_ARG = global <4 x i32> <i32 0, i32 1, i32 2, i32 3>, align 16		@llvm_mips_st_w_ARG = global <4 x i32> <i32 0, i32 1, i32 2, i32 3>, align 16
@llvm_mips_st_w_RES = global <4 x i32> <i32 0, i32 0, i32 0, i32 0>, align 16		@llvm_mips_st_w_RES = global <4 x i32> <i32 0, i32 0, i32 0, i32 0>, align 16

define void @llvm_mips_st_w_test() nounwind {		define void @llvm_mips_st_w_test() nounwind {
Show All 33 Lines	entry:
%1 = bitcast <4 x i32>* @llvm_mips_st_w_RES to i8*		%1 = bitcast <4 x i32>* @llvm_mips_st_w_RES to i8*
tail call void @llvm.mips.st.w(<4 x i32> %0, i8* %1, i32 -2048)		tail call void @llvm.mips.st.w(<4 x i32> %0, i8* %1, i32 -2048)
tail call void @llvm.mips.st.w(<4 x i32> %0, i8* %1, i32 2044)		tail call void @llvm.mips.st.w(<4 x i32> %0, i8* %1, i32 2044)
ret void		ret void
}		}

; CHECK: llvm_mips_st_w_valid_range_tests:		; CHECK: llvm_mips_st_w_valid_range_tests:
; CHECK: ld.w		; CHECK: ld.w
; CHECK: st.w [[R1:\$w[0-9]+]], -2048(		; CHECK-DAG: st.w [[R1:\$w[0-9]+]], -2048(
; CHECK: st.w [[R1:\$w[0-9]+]], 2044(		; CHECK-DAG: st.w [[R1:\$w[0-9]+]], 2044(
; CHECK: .size llvm_mips_st_w_valid_range_tests		; CHECK: .size llvm_mips_st_w_valid_range_tests
;		;

define void @llvm_mips_st_w_invalid_range_tests() nounwind {		define void @llvm_mips_st_w_invalid_range_tests() nounwind {
entry:		entry:
%0 = load <4 x i32>, <4 x i32>* @llvm_mips_st_w_ARG		%0 = load <4 x i32>, <4 x i32>* @llvm_mips_st_w_ARG
%1 = bitcast <4 x i32>* @llvm_mips_st_w_RES to i8*		%1 = bitcast <4 x i32>* @llvm_mips_st_w_RES to i8*
tail call void @llvm.mips.st.w(<4 x i32> %0, i8* %1, i32 -2052)		tail call void @llvm.mips.st.w(<4 x i32> %0, i8* %1, i32 -2052)
tail call void @llvm.mips.st.w(<4 x i32> %0, i8* %1, i32 2048)		tail call void @llvm.mips.st.w(<4 x i32> %0, i8* %1, i32 2048)
ret void		ret void
}		}

; CHECK: llvm_mips_st_w_invalid_range_tests:		; CHECK: llvm_mips_st_w_invalid_range_tests:
; CHECK: addiu $2, $1, -2052		; CHECK: addiu $2, $1, 2048
; CHECK: ld.w		; CHECK: ld.w
; CHECK: st.w [[R1:\$w[0-9]+]], 0(		; CHECK: st.w [[R1:\$w[0-9]+]], 0(
; CHECK: addiu $1, $1, 2048		; CHECK: addiu $1, $1, -2052
; CHECK: st.w [[R1:\$w[0-9]+]], 0(		; CHECK: st.w [[R1:\$w[0-9]+]], 0(
; CHECK: .size llvm_mips_st_w_invalid_range_tests		; CHECK: .size llvm_mips_st_w_invalid_range_tests
;		;

@llvm_mips_st_d_ARG = global <2 x i64> <i64 0, i64 1>, align 16		@llvm_mips_st_d_ARG = global <2 x i64> <i64 0, i64 1>, align 16
@llvm_mips_st_d_RES = global <2 x i64> <i64 0, i64 0>, align 16		@llvm_mips_st_d_RES = global <2 x i64> <i64 0, i64 0>, align 16

define void @llvm_mips_st_d_test() nounwind {		define void @llvm_mips_st_d_test() nounwind {
Show All 33 Lines	entry:
%1 = bitcast <2 x i64>* @llvm_mips_st_d_RES to i8*		%1 = bitcast <2 x i64>* @llvm_mips_st_d_RES to i8*
tail call void @llvm.mips.st.d(<2 x i64> %0, i8* %1, i32 -4096)		tail call void @llvm.mips.st.d(<2 x i64> %0, i8* %1, i32 -4096)
tail call void @llvm.mips.st.d(<2 x i64> %0, i8* %1, i32 4088)		tail call void @llvm.mips.st.d(<2 x i64> %0, i8* %1, i32 4088)
ret void		ret void
}		}

; CHECK: llvm_mips_st_d_valid_range_tests:		; CHECK: llvm_mips_st_d_valid_range_tests:
; CHECK: ld.d		; CHECK: ld.d
; CHECK: st.d [[R1:\$w[0-9]+]], -4096(		; CHECK-DAG: st.d [[R1:\$w[0-9]+]], -4096(
; CHECK: st.d [[R1:\$w[0-9]+]], 4088(		; CHECK-DAG: st.d [[R1:\$w[0-9]+]], 4088(
; CHECK: .size llvm_mips_st_d_valid_range_tests		; CHECK: .size llvm_mips_st_d_valid_range_tests
;		;

define void @llvm_mips_st_d_invalid_range_tests() nounwind {		define void @llvm_mips_st_d_invalid_range_tests() nounwind {
entry:		entry:
%0 = load <2 x i64>, <2 x i64>* @llvm_mips_st_d_ARG		%0 = load <2 x i64>, <2 x i64>* @llvm_mips_st_d_ARG
%1 = bitcast <2 x i64>* @llvm_mips_st_d_RES to i8*		%1 = bitcast <2 x i64>* @llvm_mips_st_d_RES to i8*
tail call void @llvm.mips.st.d(<2 x i64> %0, i8* %1, i32 -4104)		tail call void @llvm.mips.st.d(<2 x i64> %0, i8* %1, i32 -4104)
tail call void @llvm.mips.st.d(<2 x i64> %0, i8* %1, i32 4096)		tail call void @llvm.mips.st.d(<2 x i64> %0, i8* %1, i32 4096)
ret void		ret void
}		}

; CHECK: llvm_mips_st_d_invalid_range_tests:		; CHECK: llvm_mips_st_d_invalid_range_tests:
; CHECK: addiu $2, $1, -4104		; CHECK: addiu $2, $1, 4096
; CHECK: ld.d		; CHECK: ld.d
; CHECK: st.d [[R1:\$w[0-9]+]], 0(		; CHECK: st.d [[R1:\$w[0-9]+]], 0(
; CHECK: addiu $1, $1, 4096		; CHECK: addiu $1, $1, -4104
; CHECK: st.d [[R1:\$w[0-9]+]], 0(		; CHECK: st.d [[R1:\$w[0-9]+]], 0(
; CHECK: .size llvm_mips_st_d_invalid_range_tests		; CHECK: .size llvm_mips_st_d_invalid_range_tests
;		;

llvm/trunk/test/CodeGen/Mips/o32_cc_byval.ll

	Show All 39 Lines

	declare void @callee2(%struct.S2* byval)			declare void @callee2(%struct.S2* byval)

	declare void @callee3(float, %struct.S3* byval, %struct.S1* byval)			declare void @callee3(float, %struct.S3* byval, %struct.S1* byval)

	define void @f2(float %f, %struct.S1* nocapture byval %s1) nounwind {			define void @f2(float %f, %struct.S1* nocapture byval %s1) nounwind {
	entry:			entry:
	; CHECK: addiu $sp, $sp, -48			; CHECK: addiu $sp, $sp, -48
	; CHECK: sw $7, 60($sp)			; CHECK-DAG: sw $7, 60($sp)
	; CHECK: sw $6, 56($sp)			; CHECK-DAG: sw $6, 56($sp)
	; CHECK: lw $4, 80($sp)			; CHECK-DAG: ldc1 $f[[F0:[0-9]+]], 72($sp)
	; CHECK: ldc1 $f[[F0:[0-9]+]], 72($sp)			; CHECK-DAG: lw $[[R3:[0-9]+]], 64($sp)
	; CHECK: lw $[[R3:[0-9]+]], 64($sp)			; CHECK-DAG: lw $[[R4:[0-9]+]], 68($sp)
	; CHECK: lw $[[R4:[0-9]+]], 68($sp)			; CHECK-DAG: lh $[[R1:[0-9]+]], 58($sp)
	; CHECK: lw $[[R2:[0-9]+]], 60($sp)			; CHECK-DAG: lb $[[R0:[0-9]+]], 56($sp)
	; CHECK: lh $[[R1:[0-9]+]], 58($sp)			; CHECK-DAG: sw $[[R0]], 32($sp)
	; CHECK: lb $[[R0:[0-9]+]], 56($sp)			; CHECK-DAG: sw $[[R1]], 28($sp)
	; CHECK: sw $[[R0]], 32($sp)			; CHECK-DAG: sw $[[R4]], 20($sp)
	; CHECK: sw $[[R1]], 28($sp)			; CHECK-DAG: sw $[[R3]], 16($sp)
	; CHECK: sw $[[R2]], 24($sp)			; CHECK-DAG: sw $7, 24($sp)
	; CHECK: sw $[[R4]], 20($sp)
	; CHECK: sw $[[R3]], 16($sp)
	; CHECK: mfc1 $6, $f[[F0]]			; CHECK: mfc1 $6, $f[[F0]]

	%i2 = getelementptr inbounds %struct.S1, %struct.S1* %s1, i32 0, i32 5			%i2 = getelementptr inbounds %struct.S1, %struct.S1* %s1, i32 0, i32 5
	%tmp = load i32, i32* %i2, align 4			%tmp = load i32, i32* %i2, align 4
	%d = getelementptr inbounds %struct.S1, %struct.S1* %s1, i32 0, i32 4			%d = getelementptr inbounds %struct.S1, %struct.S1* %s1, i32 0, i32 4
	%tmp1 = load double, double* %d, align 8			%tmp1 = load double, double* %d, align 8
	%ll = getelementptr inbounds %struct.S1, %struct.S1* %s1, i32 0, i32 3			%ll = getelementptr inbounds %struct.S1, %struct.S1* %s1, i32 0, i32 3
	%tmp2 = load i64, i64* %ll, align 8			%tmp2 = load i64, i64* %ll, align 8
	%i = getelementptr inbounds %struct.S1, %struct.S1* %s1, i32 0, i32 2			%i = getelementptr inbounds %struct.S1, %struct.S1* %s1, i32 0, i32 2
	%tmp3 = load i32, i32* %i, align 4			%tmp3 = load i32, i32* %i, align 4
	%s = getelementptr inbounds %struct.S1, %struct.S1* %s1, i32 0, i32 1			%s = getelementptr inbounds %struct.S1, %struct.S1* %s1, i32 0, i32 1
	%tmp4 = load i16, i16* %s, align 2			%tmp4 = load i16, i16* %s, align 2
	%c = getelementptr inbounds %struct.S1, %struct.S1* %s1, i32 0, i32 0			%c = getelementptr inbounds %struct.S1, %struct.S1* %s1, i32 0, i32 0
	%tmp5 = load i8, i8* %c, align 1			%tmp5 = load i8, i8* %c, align 1
	tail call void @callee4(i32 %tmp, double %tmp1, i64 %tmp2, i32 %tmp3, i16 signext %tmp4, i8 signext %tmp5, float %f) nounwind			tail call void @callee4(i32 %tmp, double %tmp1, i64 %tmp2, i32 %tmp3, i16 signext %tmp4, i8 signext %tmp5, float %f) nounwind
	ret void			ret void
	}			}

	declare void @callee4(i32, double, i64, i32, i16 signext, i8 signext, float)			declare void @callee4(i32, double, i64, i32, i16 signext, i8 signext, float)

	define void @f3(%struct.S2* nocapture byval %s2) nounwind {			define void @f3(%struct.S2* nocapture byval %s2) nounwind {
	entry:			entry:
	; CHECK: addiu $sp, $sp, -48			; CHECK: addiu $sp, $sp, -48
	; CHECK: sw $7, 60($sp)			; CHECK-DAG: sw $7, 60($sp)
	; CHECK: sw $6, 56($sp)			; CHECK-DAG: sw $6, 56($sp)
	; CHECK: sw $5, 52($sp)			; CHECK-DAG: sw $5, 52($sp)
	; CHECK: sw $4, 48($sp)			; CHECK-DAG: sw $4, 48($sp)
	; CHECK: lw $4, 48($sp)			; CHECK-DAG: sw $7, 24($sp)
	; CHECK: lw $[[R0:[0-9]+]], 60($sp)
	; CHECK: sw $[[R0]], 24($sp)

	%arrayidx = getelementptr inbounds %struct.S2, %struct.S2* %s2, i32 0, i32 0, i32 0			%arrayidx = getelementptr inbounds %struct.S2, %struct.S2* %s2, i32 0, i32 0, i32 0
	%tmp = load i32, i32* %arrayidx, align 4			%tmp = load i32, i32* %arrayidx, align 4
	%arrayidx2 = getelementptr inbounds %struct.S2, %struct.S2* %s2, i32 0, i32 0, i32 3			%arrayidx2 = getelementptr inbounds %struct.S2, %struct.S2* %s2, i32 0, i32 0, i32 3
	%tmp3 = load i32, i32* %arrayidx2, align 4			%tmp3 = load i32, i32* %arrayidx2, align 4
	tail call void @callee4(i32 %tmp, double 2.000000e+00, i64 3, i32 %tmp3, i16 signext 4, i8 signext 5, float 6.000000e+00) nounwind			tail call void @callee4(i32 %tmp, double 2.000000e+00, i64 3, i32 %tmp3, i16 signext 4, i8 signext 5, float 6.000000e+00) nounwind
	ret void			ret void
	}			}

	define void @f4(float %f, %struct.S3* nocapture byval %s3, %struct.S1* nocapture byval %s1) nounwind {			define void @f4(float %f, %struct.S3* nocapture byval %s3, %struct.S1* nocapture byval %s1) nounwind {
	entry:			entry:
	; CHECK: addiu $sp, $sp, -48			; CHECK: addiu $sp, $sp, -48
	; CHECK: sw $7, 60($sp)			; CHECK-DAG: sw $7, 60($sp)
	; CHECK: sw $6, 56($sp)			; CHECK-DAG: sw $6, 56($sp)
	; CHECK: sw $5, 52($sp)			; CHECK-DAG: sw $5, 52($sp)
	; CHECK: lw $4, 60($sp)			; CHECK-DAG: lw $[[R1:[0-9]+]], 80($sp)
	; CHECK: lw $[[R1:[0-9]+]], 80($sp)			; CHECK-DAG: lb $[[R0:[0-9]+]], 52($sp)
	; CHECK: lb $[[R0:[0-9]+]], 52($sp)			; CHECK-DAG: sw $[[R0]], 32($sp)
	; CHECK: sw $[[R0]], 32($sp)			; CHECK-DAG: sw $[[R1]], 24($sp)
	; CHECK: sw $[[R1]], 24($sp)			; CHECK: move $4, $7

	%i = getelementptr inbounds %struct.S1, %struct.S1* %s1, i32 0, i32 2			%i = getelementptr inbounds %struct.S1, %struct.S1* %s1, i32 0, i32 2
	%tmp = load i32, i32* %i, align 4			%tmp = load i32, i32* %i, align 4
	%i2 = getelementptr inbounds %struct.S1, %struct.S1* %s1, i32 0, i32 5			%i2 = getelementptr inbounds %struct.S1, %struct.S1* %s1, i32 0, i32 5
	%tmp1 = load i32, i32* %i2, align 4			%tmp1 = load i32, i32* %i2, align 4
	%c = getelementptr inbounds %struct.S3, %struct.S3* %s3, i32 0, i32 0			%c = getelementptr inbounds %struct.S3, %struct.S3* %s3, i32 0, i32 0
	%tmp2 = load i8, i8* %c, align 1			%tmp2 = load i8, i8* %c, align 1
	tail call void @callee4(i32 %tmp, double 2.000000e+00, i64 3, i32 %tmp1, i16 signext 4, i8 signext %tmp2, float 6.000000e+00) nounwind			tail call void @callee4(i32 %tmp, double 2.000000e+00, i64 3, i32 %tmp1, i16 signext 4, i8 signext %tmp2, float 6.000000e+00) nounwind
	Show All 12 Lines

llvm/trunk/test/CodeGen/Mips/o32_cc_vararg.ll

Show All 23 Lines	entry:
store i32 %0, i32* %b, align 4		store i32 %0, i32* %b, align 4
%ap2 = bitcast i8** %ap to i8*		%ap2 = bitcast i8** %ap to i8*
call void @llvm.va_end(i8* %ap2)		call void @llvm.va_end(i8* %ap2)
%tmp = load i32, i32* %b, align 4		%tmp = load i32, i32* %b, align 4
ret i32 %tmp		ret i32 %tmp

; CHECK-LABEL: va1:		; CHECK-LABEL: va1:
; CHECK: addiu $sp, $sp, -16		; CHECK: addiu $sp, $sp, -16
		; CHECK: sw $5, 20($sp)
; CHECK: sw $7, 28($sp)		; CHECK: sw $7, 28($sp)
; CHECK: sw $6, 24($sp)		; CHECK: sw $6, 24($sp)
; CHECK: sw $5, 20($sp)
; CHECK: lw $2, 20($sp)		; CHECK: lw $2, 20($sp)
}		}

; check whether the variable double argument will be accessed from the 8-byte		; check whether the variable double argument will be accessed from the 8-byte
; aligned location (i.e. whether the address is computed by adding 7 and		; aligned location (i.e. whether the address is computed by adding 7 and
; clearing lower 3 bits)		; clearing lower 3 bits)
define double @va2(i32 %a, ...) nounwind {		define double @va2(i32 %a, ...) nounwind {
entry:		entry:
Show All 35 Lines	entry:
store i32 %0, i32* %b, align 4		store i32 %0, i32* %b, align 4
%ap2 = bitcast i8** %ap to i8*		%ap2 = bitcast i8** %ap to i8*
call void @llvm.va_end(i8* %ap2)		call void @llvm.va_end(i8* %ap2)
%tmp = load i32, i32* %b, align 4		%tmp = load i32, i32* %b, align 4
ret i32 %tmp		ret i32 %tmp

; CHECK-LABEL: va3:		; CHECK-LABEL: va3:
; CHECK: addiu $sp, $sp, -16		; CHECK: addiu $sp, $sp, -16
; CHECK: sw $7, 28($sp)
; CHECK: sw $6, 24($sp)		; CHECK: sw $6, 24($sp)
		; CHECK: sw $7, 28($sp)
; CHECK: lw $2, 24($sp)		; CHECK: lw $2, 24($sp)
}		}

; double		; double
define double @va4(double %a, ...) nounwind {		define double @va4(double %a, ...) nounwind {
entry:		entry:
%a.addr = alloca double, align 8		%a.addr = alloca double, align 8
%ap = alloca i8*, align 4		%ap = alloca i8*, align 4
▲ Show 20 Lines • Show All 175 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/PowerPC/anon_aggr.ll

Show First 20 Lines • Show All 54 Lines • ▼ Show 20 Lines	entry:
%array2_ptr = load i8, i8* %tmp		%array2_ptr = load i8, i8* %tmp
%cond = icmp eq i8* %array1_ptr, %array2_ptr		%cond = icmp eq i8* %array1_ptr, %array2_ptr
br i1 %cond, label %equal, label %unequal		br i1 %cond, label %equal, label %unequal
equal:		equal:
ret i8* %array1_ptr		ret i8* %array1_ptr
unequal:		unequal:
ret i8* %array2_ptr		ret i8* %array2_ptr
}		}

; CHECK-LABEL: func2:		; CHECK-LABEL: func2:
; CHECK: ld [[REG2:[0-9]+]], 72(1)		; CHECK: cmpld {{([0-9]+,)?}}4, 6
; CHECK: cmpld {{([0-9]+,)?}}4, [[REG2]]		; CHECK: mr [[REG2:[0-9]+]], 6
; CHECK-DAG: std [[REG2]], -[[OFFSET1:[0-9]+]]		; CHECK-DAG: std [[REG2]], -[[OFFSET1:[0-9]+]]
; CHECK-DAG: std 4, -[[OFFSET2:[0-9]+]]		; CHECK-DAG: std 4, -[[OFFSET2:[0-9]+]]
; CHECK: ld 3, -[[OFFSET2]](1)		; CHECK: ld 3, -[[OFFSET2]](1)
; CHECK: ld 3, -[[OFFSET1]](1)		; CHECK: ld 3, -[[OFFSET1]](1)

; DARWIN32: _func2:		; DARWIN32: _func2:
; DARWIN32: addi r[[REG1:[0-9]+]], r[[REGSP:[0-9]+]], 36		; DARWIN32: addi r[[REG1:[0-9]+]], r[[REGSP:[0-9]+]], 36
; DARWIN32: lwz r[[REG2:[0-9]+]], 44(r[[REGSP]])		; DARWIN32: lwz r[[REG2:[0-9]+]], 44(r[[REGSP]])
; DARWIN32: mr		; DARWIN32: mr
; DARWIN32: mr r[[REG3:[0-9]+]], r[[REGA:[0-9]+]]		; DARWIN32: mr r[[REG3:[0-9]+]], r[[REGA:[0-9]+]]
; DARWIN32: cmplw {{(cr[0-9]+,)?}}r[[REGA]], r[[REG2]]		; DARWIN32: cmplw {{(cr[0-9]+,)?}}r[[REGA]], r[[REG2]]
; DARWIN32: stw r[[REG3]], -[[OFFSET1:[0-9]+]]		; DARWIN32: stw r[[REG3]], -[[OFFSET1:[0-9]+]]
; DARWIN32: stw r[[REG2]], -[[OFFSET2:[0-9]+]]		; DARWIN32: stw r[[REG2]], -[[OFFSET2:[0-9]+]]
; DARWIN32: lwz r3, -[[OFFSET1]]		; DARWIN32: lwz r3, -[[OFFSET1]]
; DARWIN32: lwz r3, -[[OFFSET2]]		; DARWIN32: lwz r3, -[[OFFSET2]]

; DARWIN64: _func2:		; DARWIN64: _func2:
; DARWIN64: ld r[[REG2:[0-9]+]], 72(r1)		; DARWIN64: ld r[[REG2:[0-9]+]], 72(r1)
; DARWIN64: mr		; DARWIN64: mr
; DARWIN64: mr r[[REG3:[0-9]+]], r[[REGA:[0-9]+]]		; DARWIN64: mr r[[REG3:[0-9]+]], r[[REGA:[0-9]+]]
; DARWIN64: cmpld {{(cr[0-9]+,)?}}r[[REGA]], r[[REG2]]		; DARWIN64: cmpld {{(cr[0-9]+,)?}}r[[REGA]], r[[REG2]]
; DARWIN64: std r[[REG3]], -[[OFFSET1:[0-9]+]]
; DARWIN64: std r[[REG2]], -[[OFFSET2:[0-9]+]]		; DARWIN64: std r[[REG2]], -[[OFFSET2:[0-9]+]]
		; DARWIN64: std r[[REG3]], -[[OFFSET1:[0-9]+]]
; DARWIN64: ld r3, -[[OFFSET1]]		; DARWIN64: ld r3, -[[OFFSET1]]
; DARWIN64: ld r3, -[[OFFSET2]]		; DARWIN64: ld r3, -[[OFFSET2]]


define i8* @func3({ i64, i8* }* byval %array1, %tarray* byval %array2) {		define i8* @func3({ i64, i8* }* byval %array1, %tarray* byval %array2) {
entry:		entry:
%tmp1 = getelementptr inbounds { i64, i8* }, { i64, i8* }* %array1, i32 0, i32 1		%tmp1 = getelementptr inbounds { i64, i8* }, { i64, i8* }* %array1, i32 0, i32 1
%array1_ptr = load i8, i8* %tmp1		%array1_ptr = load i8, i8* %tmp1
%tmp2 = getelementptr inbounds %tarray, %tarray* %array2, i32 0, i32 1		%tmp2 = getelementptr inbounds %tarray, %tarray* %array2, i32 0, i32 1
%array2_ptr = load i8, i8* %tmp2		%array2_ptr = load i8, i8* %tmp2
%cond = icmp eq i8* %array1_ptr, %array2_ptr		%cond = icmp eq i8* %array1_ptr, %array2_ptr
br i1 %cond, label %equal, label %unequal		br i1 %cond, label %equal, label %unequal
equal:		equal:
ret i8* %array1_ptr		ret i8* %array1_ptr
unequal:		unequal:
ret i8* %array2_ptr		ret i8* %array2_ptr
}		}

; CHECK-LABEL: func3:		; CHECK-LABEL: func3:
; CHECK: ld [[REG3:[0-9]+]], 72(1)		; CHECK: cmpld {{([0-9]+,)?}}4, 6
; CHECK: ld [[REG4:[0-9]+]], 56(1)		; CHECK: mr [[REG3:[0-9]+]], 6
; CHECK: cmpld {{([0-9]+,)?}}[[REG4]], [[REG3]]		; CHECK: mr [[REG4:[0-9]+]], 4
; CHECK: std [[REG3]], -[[OFFSET1:[0-9]+]](1)
; CHECK: std [[REG4]], -[[OFFSET2:[0-9]+]](1)		; CHECK: std [[REG4]], -[[OFFSET2:[0-9]+]](1)
		; CHECK: std [[REG3]], -[[OFFSET1:[0-9]+]](1)
; CHECK: ld 3, -[[OFFSET2]](1)		; CHECK: ld 3, -[[OFFSET2]](1)
; CHECK: ld 3, -[[OFFSET1]](1)		; CHECK: ld 3, -[[OFFSET1]](1)

; DARWIN32: _func3:		; DARWIN32: _func3:
; DARWIN32: addi r[[REG1:[0-9]+]], r[[REGSP:[0-9]+]], 36		; DARWIN32-DAG: addi r[[REG1:[0-9]+]], r[[REGSP:[0-9]+]], 36
; DARWIN32: addi r[[REG2:[0-9]+]], r[[REGSP]], 24		; DARWIN32-DAG: addi r[[REG2:[0-9]+]], r[[REGSP]], 24
; DARWIN32: lwz r[[REG3:[0-9]+]], 44(r[[REGSP]])		; DARWIN32-DAG: lwz r[[REG3:[0-9]+]], 44(r[[REGSP]])
; DARWIN32: lwz r[[REG4:[0-9]+]], 32(r[[REGSP]])		; DARWIN32-DAG: lwz r[[REG4:[0-9]+]], 32(r[[REGSP]])
; DARWIN32: cmplw {{(cr[0-9]+,)?}}r[[REG4]], r[[REG3]]		; DARWIN32: cmplw {{(cr[0-9]+,)?}}r[[REG4]], r[[REG3]]
; DARWIN32: stw r[[REG3]], -[[OFFSET1:[0-9]+]]		; DARWIN32-DAG: stw r[[REG3]], -[[OFFSET1:[0-9]+]]
; DARWIN32: stw r[[REG4]], -[[OFFSET2:[0-9]+]]		; DARWIN32-DAG: stw r[[REG4]], -[[OFFSET2:[0-9]+]]
; DARWIN32: lwz r3, -[[OFFSET2]]		; DARWIN32-DAG: lwz r3, -[[OFFSET1:[0-9]+]]
; DARWIN32: lwz r3, -[[OFFSET1]]		; DARWIN32-DAG: lwz r3, -[[OFFSET2:[0-9]+]]

; DARWIN64: _func3:		; DARWIN64: _func3:
; DARWIN64: ld r[[REG3:[0-9]+]], 72(r1)		; DARWIN64: ld r[[REG3:[0-9]+]], 72(r1)
; DARWIN64: ld r[[REG4:[0-9]+]], 56(r1)		; DARWIN64: ld r[[REG4:[0-9]+]], 56(r1)
; DARWIN64: cmpld {{(cr[0-9]+,)?}}r[[REG4]], r[[REG3]]		; DARWIN64: cmpld {{(cr[0-9]+,)?}}r[[REG4]], r[[REG3]]
; DARWIN64: std r[[REG3]], -[[OFFSET1:[0-9]+]]		; DARWIN64: std r[[REG3]], -[[OFFSET1:[0-9]+]]
; DARWIN64: std r[[REG4]], -[[OFFSET2:[0-9]+]]		; DARWIN64: std r[[REG4]], -[[OFFSET2:[0-9]+]]
; DARWIN64: ld r3, -[[OFFSET2]]		; DARWIN64: ld r3, -[[OFFSET2]]
▲ Show 20 Lines • Show All 47 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/PowerPC/complex-return.ll

Show All 18 Lines	entry:
%imag2 = getelementptr inbounds { ppc_fp128, ppc_fp128 }, { ppc_fp128, ppc_fp128 }* %retval, i32 0, i32 1		%imag2 = getelementptr inbounds { ppc_fp128, ppc_fp128 }, { ppc_fp128, ppc_fp128 }* %retval, i32 0, i32 1
store ppc_fp128 %x.real, ppc_fp128* %real1		store ppc_fp128 %x.real, ppc_fp128* %real1
store ppc_fp128 %x.imag, ppc_fp128* %imag2		store ppc_fp128 %x.imag, ppc_fp128* %imag2
%0 = load { ppc_fp128, ppc_fp128 }, { ppc_fp128, ppc_fp128 }* %retval		%0 = load { ppc_fp128, ppc_fp128 }, { ppc_fp128, ppc_fp128 }* %retval
ret { ppc_fp128, ppc_fp128 } %0		ret { ppc_fp128, ppc_fp128 } %0
}		}

; CHECK-LABEL: foo:		; CHECK-LABEL: foo:
; CHECK: lfd 1		; CHECK-DAG: lfd 1
; CHECK: lfd 2		; CHECK-DAG: fmr 2
; CHECK: lfd 3		; CHECK-DAG: lfd 3
; CHECK: lfd 4		; CHECK-DAG: lfd 4

define { float, float } @oof() nounwind {		define { float, float } @oof() nounwind {
entry:		entry:
%retval = alloca { float, float }, align 4		%retval = alloca { float, float }, align 4
%x = alloca { float, float }, align 4		%x = alloca { float, float }, align 4
%real = getelementptr inbounds { float, float }, { float, float }* %x, i32 0, i32 0		%real = getelementptr inbounds { float, float }, { float, float }* %x, i32 0, i32 0
%imag = getelementptr inbounds { float, float }, { float, float }* %x, i32 0, i32 1		%imag = getelementptr inbounds { float, float }, { float, float }* %x, i32 0, i32 1
store float 3.500000e+00, float* %real		store float 3.500000e+00, float* %real
store float 0xC00547AE20000000, float* %imag		store float 0xC00547AE20000000, float* %imag
%x.realp = getelementptr inbounds { float, float }, { float, float }* %x, i32 0, i32 0		%x.realp = getelementptr inbounds { float, float }, { float, float }* %x, i32 0, i32 0
%x.real = load float, float* %x.realp		%x.real = load float, float* %x.realp
%x.imagp = getelementptr inbounds { float, float }, { float, float }* %x, i32 0, i32 1		%x.imagp = getelementptr inbounds { float, float }, { float, float }* %x, i32 0, i32 1
%x.imag = load float, float* %x.imagp		%x.imag = load float, float* %x.imagp
%real1 = getelementptr inbounds { float, float }, { float, float }* %retval, i32 0, i32 0		%real1 = getelementptr inbounds { float, float }, { float, float }* %retval, i32 0, i32 0
%imag2 = getelementptr inbounds { float, float }, { float, float }* %retval, i32 0, i32 1		%imag2 = getelementptr inbounds { float, float }, { float, float }* %retval, i32 0, i32 1
store float %x.real, float* %real1		store float %x.real, float* %real1
store float %x.imag, float* %imag2		store float %x.imag, float* %imag2
%0 = load { float, float }, { float, float }* %retval		%0 = load { float, float }, { float, float }* %retval
ret { float, float } %0		ret { float, float } %0
}		}

; CHECK-LABEL: oof:		; CHECK-LABEL: oof:
; CHECK: lfs 2		; CHECK-DAG: lfs 2
; CHECK: lfs 1		; CHECK-DAG: lfs 1

llvm/trunk/test/CodeGen/PowerPC/jaggedstructs.ll

	Show All 12 Lines
	%struct.S7 = type { [7 x i8] }			%struct.S7 = type { [7 x i8] }

	define void @test(%struct.S3* byval %s3, %struct.S5* byval %s5, %struct.S6* byval %s6, %struct.S7* byval %s7) nounwind {			define void @test(%struct.S3* byval %s3, %struct.S5* byval %s5, %struct.S6* byval %s6, %struct.S7* byval %s7) nounwind {
	entry:			entry:
	call void @check(%struct.S3* byval %s3, %struct.S5* byval %s5, %struct.S6* byval %s6, %struct.S7* byval %s7)			call void @check(%struct.S3* byval %s3, %struct.S5* byval %s5, %struct.S6* byval %s6, %struct.S7* byval %s7)
	ret void			ret void
	}			}

	; CHECK: std 6, 184(1)			; CHECK-DAG: std 3, 160(1)
	; CHECK: std 5, 176(1)			; CHECK-DAG: std 6, 184(1)
	; CHECK: std 4, 168(1)			; CHECK-DAG: std 5, 176(1)
	; CHECK: std 3, 160(1)			; CHECK-DAG: std 4, 168(1)
	; CHECK: lbz {{[0-9]+}}, 167(1)			; CHECK-DAG: lbz {{[0-9]+}}, 167(1)
	; CHECK: lhz {{[0-9]+}}, 165(1)			; CHECK-DAG: lhz {{[0-9]+}}, 165(1)
	; CHECK: stb {{[0-9]+}}, 55(1)			; CHECK-DAG: stb {{[0-9]+}}, 55(1)
	; CHECK: sth {{[0-9]+}}, 53(1)			; CHECK-DAG: sth {{[0-9]+}}, 53(1)
	; CHECK: lbz {{[0-9]+}}, 175(1)			; CHECK: lbz {{[0-9]+}}, 175(1)
	; CHECK: lwz {{[0-9]+}}, 171(1)			; CHECK: lwz {{[0-9]+}}, 171(1)
	; CHECK: stb {{[0-9]+}}, 63(1)			; CHECK: stb {{[0-9]+}}, 63(1)
	; CHECK: stw {{[0-9]+}}, 59(1)			; CHECK: stw {{[0-9]+}}, 59(1)
	; CHECK: lhz {{[0-9]+}}, 182(1)			; CHECK: lhz {{[0-9]+}}, 182(1)
	; CHECK: lwz {{[0-9]+}}, 178(1)			; CHECK: lwz {{[0-9]+}}, 178(1)
	; CHECK: sth {{[0-9]+}}, 70(1)			; CHECK: sth {{[0-9]+}}, 70(1)
	; CHECK: stw {{[0-9]+}}, 66(1)			; CHECK: stw {{[0-9]+}}, 66(1)
	Show All 12 Lines

llvm/trunk/test/CodeGen/PowerPC/ppc64-align-long-double.ll

	; RUN: llc -verify-machineinstrs -mcpu=pwr7 -O0 -fast-isel=false -mattr=-vsx < %s \| FileCheck %s			; RUN: llc -verify-machineinstrs -mcpu=pwr7 -O0 -fast-isel=false -mattr=-vsx < %s \| FileCheck %s
	; RUN: llc -verify-machineinstrs -mcpu=pwr7 -O0 -fast-isel=false -mattr=+vsx < %s \| FileCheck -check-prefix=CHECK-VSX %s			; RUN: llc -verify-machineinstrs -mcpu=pwr7 -O0 -fast-isel=false -mattr=+vsx < %s \| FileCheck -check-prefix=CHECK-VSX %s
	; RUN: llc -verify-machineinstrs -mcpu=pwr9 -O0 -fast-isel=false -mattr=+vsx < %s \| FileCheck %s			; RUN: llc -verify-machineinstrs -mcpu=pwr9 -O0 -fast-isel=false -mattr=+vsx < %s \| FileCheck -check-prefix=CHECK-P9 %s

	; Verify internal alignment of long double in a struct. The double			; Verify internal alignment of long double in a struct. The double
	; argument comes in in GPR3; GPR4 is skipped; GPRs 5 and 6 contain			; argument comes in in GPR3; GPR4 is skipped; GPRs 5 and 6 contain
	; the long double. Check that these are stored to proper locations			; the long double. Check that these are stored to proper locations
	; in the parameter save area and loaded from there for return in FPR1/2.			; in the parameter save area and loaded from there for return in FPR1/2.

	target datalayout = "E-p:64:64:64-i1:8:8-i8:8:8-i16:16:16-i32:32:32-i64:64:64-f32:32:32-f64:64:64-f128:128:128-v128:128:128-n32:64"			target datalayout = "E-p:64:64:64-i1:8:8-i8:8:8-i16:16:16-i32:32:32-i64:64:64-f32:32:32-f64:64:64-f128:128:128-v128:128:128-n32:64"
	target triple = "powerpc64-unknown-linux-gnu"			target triple = "powerpc64-unknown-linux-gnu"

	%struct.S = type { double, ppc_fp128 }			%struct.S = type { double, ppc_fp128 }

	define ppc_fp128 @test(%struct.S* byval %x) nounwind {			define ppc_fp128 @test(%struct.S* byval %x) nounwind {
	entry:			entry:
	%b = getelementptr inbounds %struct.S, %struct.S* %x, i32 0, i32 1			%b = getelementptr inbounds %struct.S, %struct.S* %x, i32 0, i32 1
	%0 = load ppc_fp128, ppc_fp128* %b, align 16			%0 = load ppc_fp128, ppc_fp128* %b, align 16
	ret ppc_fp128 %0			ret ppc_fp128 %0
	}			}

	; CHECK-DAG: std 6, 72(1)			;; FIXME: Sadly, we now have an extra store to a temp variable here,
	; CHECK-DAG: std 5, 64(1)			;; which comes from (roughly):
	; CHECK-DAG: std 4, 56(1)			;; store i64 <val> to i64* <frame>
	; CHECK-DAG: std 3, 48(1)			;; bitcast (load i64* <frame>) to f64
	; CHECK: lfd 1, 64(1)			;; The code now can elide the load, making:
	; CHECK: lfd 2, 72(1)			;; store i64 <val> -> <frame>
				;; bitcast i64 <val> to f64
	; CHECK-VSX-DAG: std 6, 72(1)			;; Finally, the bitcast itself turns into a store/load pair.
	; CHECK-VSX-DAG: std 5, 64(1)			;;
	; CHECK-VSX-DAG: std 4, 56(1)			;; This behavior is new, because previously, llvm was accidentally
	; CHECK-VSX-DAG: std 3, 48(1)			;; unable to detect that the load came directly from the store, and
	; CHECK-VSX: li 3, 16			;; elide it.
	; CHECK-VSX: addi 4, 1, 48
	; CHECK-VSX: lxsdx 1, 4, 3			; CHECK: std 6, 72(1)
	; CHECK-VSX: li 3, 24			; CHECK: std 5, 64(1)
	; CHECK-VSX: lxsdx 2, 4, 3			; CHECK: std 4, 56(1)
				; CHECK: std 3, 48(1)
				; CHECK: std 5, -16(1)
				; CHECK: std 6, -8(1)
				; CHECK: lfd 1, -16(1)
				; CHECK: lfd 2, -8(1)

				; CHECK-VSX: std 6, 72(1)
				; CHECK-VSX: std 5, 64(1)
				; CHECK-VSX: std 4, 56(1)
				; CHECK-VSX: std 3, 48(1)
				; CHECK-VSX: std 5, -16(1)
				; CHECK-VSX: std 6, -8(1)
				; CHECK-VSX: addi 3, 1, -16
				; CHECK-VSX: lxsdx 1, 0, 3
				; CHECK-VSX: addi 3, 1, -8
				; CHECK-VSX: lxsdx 2, 0, 3

				; CHECK-P9: std 6, 72(1)
				; CHECK-P9: std 5, 64(1)
				; CHECK-P9: std 4, 56(1)
				; CHECK-P9: std 3, 48(1)
				; CHECK-P9: mtvsrd 1, 5
				; CHECK-P9: mtvsrd 2, 6

llvm/trunk/test/CodeGen/PowerPC/structsinmem.ll

Show First 20 Lines • Show All 107 Lines • ▼ Show 20 Lines	entry:
%a10 = getelementptr inbounds %struct.s6, %struct.s6* %v6, i32 0, i32 0		%a10 = getelementptr inbounds %struct.s6, %struct.s6* %v6, i32 0, i32 0
%5 = load i32, i32* %a10, align 4		%5 = load i32, i32* %a10, align 4
%add11 = add nsw i32 %add9, %5		%add11 = add nsw i32 %add9, %5
%a12 = getelementptr inbounds %struct.s7, %struct.s7* %v7, i32 0, i32 0		%a12 = getelementptr inbounds %struct.s7, %struct.s7* %v7, i32 0, i32 0
%6 = load i32, i32* %a12, align 4		%6 = load i32, i32* %a12, align 4
%add13 = add nsw i32 %add11, %6		%add13 = add nsw i32 %add11, %6
ret i32 %add13		ret i32 %add13

; CHECK: lha {{[0-9]+}}, 126(1)		; CHECK-DAG: lha {{[0-9]+}}, 126(1)
; CHECK: lha {{[0-9]+}}, 132(1)		; CHECK-DAG: lha {{[0-9]+}}, 132(1)
; CHECK: lbz {{[0-9]+}}, 119(1)		; CHECK-DAG: lbz {{[0-9]+}}, 119(1)
; CHECK: lwz {{[0-9]+}}, 140(1)		; CHECK-DAG: lwz {{[0-9]+}}, 140(1)
; CHECK: lwz {{[0-9]+}}, 144(1)		; CHECK-DAG: lwz {{[0-9]+}}, 144(1)
; CHECK: lwz {{[0-9]+}}, 152(1)		; CHECK-DAG: lwz {{[0-9]+}}, 152(1)
; CHECK: lwz {{[0-9]+}}, 160(1)		; CHECK-DAG: lwz {{[0-9]+}}, 160(1)
}		}

define i32 @caller2() nounwind {		define i32 @caller2() nounwind {
entry:		entry:
%p1 = alloca %struct.t1, align 1		%p1 = alloca %struct.t1, align 1
%p2 = alloca %struct.t2, align 1		%p2 = alloca %struct.t2, align 1
%p3 = alloca %struct.t3, align 1		%p3 = alloca %struct.t3, align 1
%p4 = alloca %struct.t4, align 1		%p4 = alloca %struct.t4, align 1
▲ Show 20 Lines • Show All 69 Lines • ▼ Show 20 Lines	entry:
%a10 = getelementptr inbounds %struct.t6, %struct.t6* %v6, i32 0, i32 0		%a10 = getelementptr inbounds %struct.t6, %struct.t6* %v6, i32 0, i32 0
%5 = load i32, i32* %a10, align 1		%5 = load i32, i32* %a10, align 1
%add11 = add nsw i32 %add9, %5		%add11 = add nsw i32 %add9, %5
%a12 = getelementptr inbounds %struct.t7, %struct.t7* %v7, i32 0, i32 0		%a12 = getelementptr inbounds %struct.t7, %struct.t7* %v7, i32 0, i32 0
%6 = load i32, i32* %a12, align 1		%6 = load i32, i32* %a12, align 1
%add13 = add nsw i32 %add11, %6		%add13 = add nsw i32 %add11, %6
ret i32 %add13		ret i32 %add13

; CHECK: lha {{[0-9]+}}, 126(1)		; CHECK-DAG: lha {{[0-9]+}}, 126(1)
; CHECK: lha {{[0-9]+}}, 133(1)		; CHECK-DAG: lha {{[0-9]+}}, 133(1)
; CHECK: lbz {{[0-9]+}}, 119(1)		; CHECK-DAG: lbz {{[0-9]+}}, 119(1)
; CHECK: lwz {{[0-9]+}}, 140(1)		; CHECK-DAG: lwz {{[0-9]+}}, 140(1)
; CHECK: lwz {{[0-9]+}}, 147(1)		; CHECK-DAG: lwz {{[0-9]+}}, 147(1)
; CHECK: lwz {{[0-9]+}}, 154(1)		; CHECK-DAG: lwz {{[0-9]+}}, 154(1)
; CHECK: lwz {{[0-9]+}}, 161(1)		; CHECK-DAG: lwz {{[0-9]+}}, 161(1)
}		}

llvm/trunk/test/CodeGen/PowerPC/structsinregs.ll

Show First 20 Lines • Show All 53 Lines • ▼ Show 20 Lines	entry:
call void @llvm.memcpy.p0i8.p0i8.i64(i8* %4, i8* bitcast ({ i32, i8, [3 x i8] }* @caller1.p5 to i8*), i64 8, i32 4, i1 false)		call void @llvm.memcpy.p0i8.p0i8.i64(i8* %4, i8* bitcast ({ i32, i8, [3 x i8] }* @caller1.p5 to i8*), i64 8, i32 4, i1 false)
%5 = bitcast %struct.s6* %p6 to i8*		%5 = bitcast %struct.s6* %p6 to i8*
call void @llvm.memcpy.p0i8.p0i8.i64(i8* %5, i8* bitcast ({ i32, i16, [2 x i8] }* @caller1.p6 to i8*), i64 8, i32 4, i1 false)		call void @llvm.memcpy.p0i8.p0i8.i64(i8* %5, i8* bitcast ({ i32, i16, [2 x i8] }* @caller1.p6 to i8*), i64 8, i32 4, i1 false)
%6 = bitcast %struct.s7* %p7 to i8*		%6 = bitcast %struct.s7* %p7 to i8*
call void @llvm.memcpy.p0i8.p0i8.i64(i8* %6, i8* bitcast ({ i32, i16, i8, i8 }* @caller1.p7 to i8*), i64 8, i32 4, i1 false)		call void @llvm.memcpy.p0i8.p0i8.i64(i8* %6, i8* bitcast ({ i32, i16, i8, i8 }* @caller1.p7 to i8*), i64 8, i32 4, i1 false)
%call = call i32 @callee1(%struct.s1* byval %p1, %struct.s2* byval %p2, %struct.s3* byval %p3, %struct.s4* byval %p4, %struct.s5* byval %p5, %struct.s6* byval %p6, %struct.s7* byval %p7)		%call = call i32 @callee1(%struct.s1* byval %p1, %struct.s2* byval %p2, %struct.s3* byval %p3, %struct.s4* byval %p4, %struct.s5* byval %p5, %struct.s6* byval %p6, %struct.s7* byval %p7)
ret i32 %call		ret i32 %call

		; CHECK-LABEL: caller1
; CHECK: ld 9, 112(31)		; CHECK: ld 9, 112(31)
; CHECK: ld 8, 120(31)		; CHECK: ld 8, 120(31)
; CHECK: ld 7, 128(31)		; CHECK: ld 7, 128(31)
; CHECK: lwz 6, 136(31)		; CHECK: lwz 6, 136(31)
; CHECK: lwz 5, 144(31)		; CHECK: lwz 5, 144(31)
; CHECK: lhz 4, 152(31)		; CHECK: lhz 4, 152(31)
; CHECK: lbz 3, 160(31)		; CHECK: lbz 3, 160(31)
}		}
Show All 22 Lines	entry:
%a10 = getelementptr inbounds %struct.s6, %struct.s6* %v6, i32 0, i32 0		%a10 = getelementptr inbounds %struct.s6, %struct.s6* %v6, i32 0, i32 0
%5 = load i32, i32* %a10, align 4		%5 = load i32, i32* %a10, align 4
%add11 = add nsw i32 %add9, %5		%add11 = add nsw i32 %add9, %5
%a12 = getelementptr inbounds %struct.s7, %struct.s7* %v7, i32 0, i32 0		%a12 = getelementptr inbounds %struct.s7, %struct.s7* %v7, i32 0, i32 0
%6 = load i32, i32* %a12, align 4		%6 = load i32, i32* %a12, align 4
%add13 = add nsw i32 %add11, %6		%add13 = add nsw i32 %add11, %6
ret i32 %add13		ret i32 %add13

; CHECK: std 9, 96(1)		; CHECK-LABEL: callee1
; CHECK: std 8, 88(1)		; CHECK-DAG: std 9, 96(1)
; CHECK: std 7, 80(1)		; CHECK-DAG: std 8, 88(1)
; CHECK: stw 6, 76(1)		; CHECK-DAG: std 7, 80(1)
; CHECK: stw 5, 68(1)		; CHECK-DAG: stw 6, 76(1)
; CHECK: sth 4, 62(1)		; CHECK-DAG: stw 5, 68(1)
; CHECK: stb 3, 55(1)		; CHECK-DAG: sth 4, 62(1)
; CHECK: lha {{[0-9]+}}, 62(1)		; CHECK-DAG: stb 3, 55(1)
; CHECK: lha {{[0-9]+}}, 68(1)		; CHECK-DAG: lha {{[0-9]+}}, 62(1)
; CHECK: lbz {{[0-9]+}}, 55(1)		; CHECK-DAG: lha {{[0-9]+}}, 68(1)
; CHECK: lwz {{[0-9]+}}, 76(1)		; CHECK-DAG: lbz {{[0-9]+}}, 55(1)
; CHECK: lwz {{[0-9]+}}, 80(1)		; CHECK-DAG: lwz {{[0-9]+}}, 76(1)
; CHECK: lwz {{[0-9]+}}, 88(1)		; CHECK-DAG: lwz {{[0-9]+}}, 80(1)
; CHECK: lwz {{[0-9]+}}, 96(1)		; CHECK-DAG: lwz {{[0-9]+}}, 88(1)
		; CHECK-DAG: lwz {{[0-9]+}}, 96(1)
}		}

define i32 @caller2() nounwind {		define i32 @caller2() nounwind {
entry:		entry:
%p1 = alloca %struct.t1, align 1		%p1 = alloca %struct.t1, align 1
%p2 = alloca %struct.t2, align 1		%p2 = alloca %struct.t2, align 1
%p3 = alloca %struct.t3, align 1		%p3 = alloca %struct.t3, align 1
%p4 = alloca %struct.t4, align 1		%p4 = alloca %struct.t4, align 1
Show All 12 Lines	entry:
call void @llvm.memcpy.p0i8.p0i8.i64(i8* %4, i8* bitcast (%struct.t5* @caller2.p5 to i8*), i64 5, i32 1, i1 false)		call void @llvm.memcpy.p0i8.p0i8.i64(i8* %4, i8* bitcast (%struct.t5* @caller2.p5 to i8*), i64 5, i32 1, i1 false)
%5 = bitcast %struct.t6* %p6 to i8*		%5 = bitcast %struct.t6* %p6 to i8*
call void @llvm.memcpy.p0i8.p0i8.i64(i8* %5, i8* bitcast (%struct.t6* @caller2.p6 to i8*), i64 6, i32 1, i1 false)		call void @llvm.memcpy.p0i8.p0i8.i64(i8* %5, i8* bitcast (%struct.t6* @caller2.p6 to i8*), i64 6, i32 1, i1 false)
%6 = bitcast %struct.t7* %p7 to i8*		%6 = bitcast %struct.t7* %p7 to i8*
call void @llvm.memcpy.p0i8.p0i8.i64(i8* %6, i8* bitcast (%struct.t7* @caller2.p7 to i8*), i64 7, i32 1, i1 false)		call void @llvm.memcpy.p0i8.p0i8.i64(i8* %6, i8* bitcast (%struct.t7* @caller2.p7 to i8*), i64 7, i32 1, i1 false)
%call = call i32 @callee2(%struct.t1* byval %p1, %struct.t2* byval %p2, %struct.t3* byval %p3, %struct.t4* byval %p4, %struct.t5* byval %p5, %struct.t6* byval %p6, %struct.t7* byval %p7)		%call = call i32 @callee2(%struct.t1* byval %p1, %struct.t2* byval %p2, %struct.t3* byval %p3, %struct.t4* byval %p4, %struct.t5* byval %p5, %struct.t6* byval %p6, %struct.t7* byval %p7)
ret i32 %call		ret i32 %call

		; CHECK-LABEL: caller2
; CHECK: stb {{[0-9]+}}, 71(1)		; CHECK: stb {{[0-9]+}}, 71(1)
; CHECK: sth {{[0-9]+}}, 69(1)		; CHECK: sth {{[0-9]+}}, 69(1)
; CHECK: stb {{[0-9]+}}, 87(1)		; CHECK: stb {{[0-9]+}}, 87(1)
; CHECK: stw {{[0-9]+}}, 83(1)		; CHECK: stw {{[0-9]+}}, 83(1)
; CHECK: sth {{[0-9]+}}, 94(1)		; CHECK: sth {{[0-9]+}}, 94(1)
; CHECK: stw {{[0-9]+}}, 90(1)		; CHECK: stw {{[0-9]+}}, 90(1)
; CHECK: stb {{[0-9]+}}, 103(1)		; CHECK: stb {{[0-9]+}}, 103(1)
; CHECK: sth {{[0-9]+}}, 101(1)		; CHECK: sth {{[0-9]+}}, 101(1)
Show All 29 Lines	entry:
%a10 = getelementptr inbounds %struct.t6, %struct.t6* %v6, i32 0, i32 0		%a10 = getelementptr inbounds %struct.t6, %struct.t6* %v6, i32 0, i32 0
%5 = load i32, i32* %a10, align 1		%5 = load i32, i32* %a10, align 1
%add11 = add nsw i32 %add9, %5		%add11 = add nsw i32 %add9, %5
%a12 = getelementptr inbounds %struct.t7, %struct.t7* %v7, i32 0, i32 0		%a12 = getelementptr inbounds %struct.t7, %struct.t7* %v7, i32 0, i32 0
%6 = load i32, i32* %a12, align 1		%6 = load i32, i32* %a12, align 1
%add13 = add nsw i32 %add11, %6		%add13 = add nsw i32 %add11, %6
ret i32 %add13		ret i32 %add13

; CHECK: std 9, 96(1)		; CHECK-LABEL: callee2
; CHECK: std 8, 88(1)		; CHECK-DAG: std 9, 96(1)
; CHECK: std 7, 80(1)		; CHECK-DAG: std 8, 88(1)
; CHECK: stw 6, 76(1)		; CHECK-DAG: std 7, 80(1)
; CHECK: std 5, 64(1)		; CHECK-DAG: stw 6, 76(1)
; CHECK: sth 4, 62(1)		; CHECK-DAG: std 5, 64(1)
; CHECK: stb 3, 55(1)		; CHECK-DAG: sth 4, 62(1)
; CHECK: lha {{[0-9]+}}, 62(1)		; CHECK-DAG: stb 3, 55(1)
; CHECK: lha {{[0-9]+}}, 69(1)		; CHECK-DAG: lha {{[0-9]+}}, 62(1)
; CHECK: lbz {{[0-9]+}}, 55(1)		; CHECK-DAG: lha {{[0-9]+}}, 69(1)
; CHECK: lwz {{[0-9]+}}, 76(1)		; CHECK-DAG: lbz {{[0-9]+}}, 55(1)
; CHECK: lwz {{[0-9]+}}, 83(1)		; CHECK-DAG: lwz {{[0-9]+}}, 76(1)
; CHECK: lwz {{[0-9]+}}, 90(1)		; CHECK-DAG: lwz {{[0-9]+}}, 83(1)
; CHECK: lwz {{[0-9]+}}, 97(1)		; CHECK-DAG: lwz {{[0-9]+}}, 90(1)
		; CHECK-DAG: lwz {{[0-9]+}}, 97(1)
}		}

llvm/trunk/test/CodeGen/SystemZ/unaligned-01.ll

	; Check that unaligned accesses are allowed in general. We check the			; Check that unaligned accesses are allowed in general. We check the
	; few exceptions (like CRL) in their respective test files.			; few exceptions (like CRL) in their respective test files.
	;			;
	; FIXME: -combiner-alias-analysis (the default for SystemZ) stops			; RUN: llc < %s -mtriple=s390x-linux-gnu \| FileCheck %s
	; f1 from being optimized.
	; RUN: llc < %s -mtriple=s390x-linux-gnu -combiner-alias-analysis=false \
	; RUN: \| FileCheck %s

	; Check that these four byte stores become a single word store.			; Check that these four byte stores become a single word store.
	define void @f1(i8 *%ptr) {			define void @f1(i8 *%ptr) {
	; CHECK: f1			; CHECK: f1
	; CHECK: iilf [[REG:%r[0-5]]], 66051			; CHECK: iilf [[REG:%r[0-5]]], 66051
	; CHECK: st [[REG]], 0(%r2)			; CHECK: st [[REG]], 0(%r2)
	; CHECK: br %r14			; CHECK: br %r14
	%off1 = getelementptr i8, i8 *%ptr, i64 1			%off1 = getelementptr i8, i8 *%ptr, i64 1
	▲ Show 20 Lines • Show All 47 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/Thumb/2010-07-15-debugOrdering.ll

	; RUN: llc -mtriple=thumbv6-apple-darwin10 < %s \| FileCheck %s			; RUN: llc -mtriple=thumbv6-apple-darwin10 < %s \| FileCheck %s
	; RUN: opt -strip-debug < %s \| llc -mtriple=thumbv6-apple-darwin10 \| FileCheck %s			; RUN: opt -strip-debug < %s \| llc -mtriple=thumbv6-apple-darwin10 \| FileCheck %s
	; Stripping out debug info formerly caused the last two multiplies to be emitted in			; Stripping out debug info formerly caused the last two multiplies to be emitted in
	; the other order. 7797940 (part of it dated 6/29/2010..7/15/2010).			; the other order. 7797940 (part of it dated 6/29/2010..7/15/2010).

	%0 = type { [3 x double] }			%0 = type { [3 x double] }

	@llvm.used = appending global [1 x i8] [i8 bitcast (void (%0, i32, i32) @_Z19getClosestDiagonal3ii to i8)], section "llvm.metadata" ; <[1 x i8]*> [#uses=0]			@llvm.used = appending global [1 x i8] [i8 bitcast (void (%0, i32, i32) @_Z19getClosestDiagonal3ii to i8)], section "llvm.metadata" ; <[1 x i8]*> [#uses=0]

	define void @_Z19getClosestDiagonal3ii(%0* noalias sret, i32, i32) nounwind {			define void @_Z19getClosestDiagonal3ii(%0* noalias sret, i32, i32) nounwind {
	; CHECK: bl ___muldf3			; CHECK: bl ___muldf3
	; CHECK: bl ___muldf3
	; CHECK: beq LBB0			; CHECK: beq LBB0
	; CHECK: bl ___muldf3			; CHECK: bl ___muldf3
				; CHECK: bl ___muldf3
	; <label>:3			; <label>:3
	switch i32 %1, label %4 [			switch i32 %1, label %4 [
	i32 0, label %5			i32 0, label %5
	i32 3, label %5			i32 3, label %5
	]			]

	; <label>:4 ; preds = %3			; <label>:4 ; preds = %3
	br label %5, !dbg !0			br label %5, !dbg !0
	▲ Show 20 Lines • Show All 133 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/Thumb/stack-access.ll

Show First 20 Lines • Show All 68 Lines • ▼ Show 20 Lines	define zeroext i16 @test6() {
%x = alloca i16, align 2		%x = alloca i16, align 2
; CHECK: mov r0, sp		; CHECK: mov r0, sp
; CHECK: ldrh r0, [r0]		; CHECK: ldrh r0, [r0]
%1 = load i16, i16* %x, align 2		%1 = load i16, i16* %x, align 2
ret i16 %1		ret i16 %1
}		}

; Accessing the bottom of a large array shouldn't require materializing a base		; Accessing the bottom of a large array shouldn't require materializing a base
		;
		; CHECK: movs [[REG:r[0-9]+]], #1
		; CHECK: str [[REG]], [sp, #16]
		; CHECK: str [[REG]], [sp, #4]

define void @test7() {		define void @test7() {
%arr = alloca [200 x i32], align 4		%arr = alloca [200 x i32], align 4

; CHECK: movs [[REG:r[0-9]+]], #1
; CHECK: str [[REG]], [sp, #4]
%arrayidx = getelementptr inbounds [200 x i32], [200 x i32]* %arr, i32 0, i32 1		%arrayidx = getelementptr inbounds [200 x i32], [200 x i32]* %arr, i32 0, i32 1
store i32 1, i32* %arrayidx, align 4		store i32 1, i32* %arrayidx, align 4

; CHECK: str [[REG]], [sp, #16]
%arrayidx1 = getelementptr inbounds [200 x i32], [200 x i32]* %arr, i32 0, i32 4		%arrayidx1 = getelementptr inbounds [200 x i32], [200 x i32]* %arr, i32 0, i32 4
store i32 1, i32* %arrayidx1, align 4		store i32 1, i32* %arrayidx1, align 4

ret void		ret void
}		}

; Check that loads/stores with out-of-range offsets are handled correctly		; Check that loads/stores with out-of-range offsets are handled correctly
define void @test8() {		define void @test8() {
Show All 34 Lines

llvm/trunk/test/CodeGen/X86/2010-09-17-SideEffectsInChain.ll

	; RUN: llc < %s -combiner-alias-analysis -march=x86-64 -mcpu=core2 \| FileCheck %s			; RUN: llc < %s -march=x86-64 -mcpu=core2 \| FileCheck %s

	target datalayout = "e-p:64:64:64-i1:8:8-i8:8:8-i16:16:16-i32:32:32-i64:64:64-f32:32:32-f64:64:64-v64:64:64-v128:128:128-a0:0:64-s0:64:64-f80:128:128-n8:16:32:64"			target datalayout = "e-p:64:64:64-i1:8:8-i8:8:8-i16:16:16-i32:32:32-i64:64:64-f32:32:32-f64:64:64-v64:64:64-v128:128:128-a0:0:64-s0:64:64-f80:128:128-n8:16:32:64"
	target triple = "x86_64-apple-darwin10.4"			target triple = "x86_64-apple-darwin10.4"
	declare void @llvm.memcpy.p0i8.p0i8.i64(i8* nocapture, i8* nocapture, i64, i32, i1) nounwind			declare void @llvm.memcpy.p0i8.p0i8.i64(i8* nocapture, i8* nocapture, i64, i32, i1) nounwind

	define fastcc i32 @cli_magic_scandesc(i8* %in) nounwind ssp {			define fastcc i32 @cli_magic_scandesc(i8* %in) nounwind ssp {
	entry:			entry:
	%a = alloca [64 x i8]			%a = alloca [64 x i8]
	Show All 17 Lines

llvm/trunk/test/CodeGen/X86/2012-11-28-merge-store-alias.ll

	; RUN: llc < %s -march=x86-64 -mcpu=corei7 -mtriple=x86_64-pc-win64 \| FileCheck %s			; RUN: llc < %s -march=x86-64 -mcpu=corei7 -mtriple=x86_64-pc-win64 \| FileCheck %s

	; CHECK: merge_stores_can			; CHECK: merge_stores_can
	; CHECK: callq foo			; CHECK: callq foo
	; CHECK: xorps %xmm0, %xmm0			; CHECK: xorps %xmm0, %xmm0
	; CHECK-NEXT: movl 36(%rsp), %ebp
	; CHECK-NEXT: movups %xmm0			; CHECK-NEXT: movups %xmm0
				; CHECK-NEXT: movl 36(%rsp), %ebp
	; CHECK: callq foo			; CHECK: callq foo
	; CHECK: ret			; CHECK: ret
	declare i32 @foo([10 x i32]* )			declare i32 @foo([10 x i32]* )

	define i32 @merge_stores_can() nounwind ssp {			define i32 @merge_stores_can() nounwind ssp {
	%object1 = alloca [10 x i32]			%object1 = alloca [10 x i32]

	%ret0 = call i32 @foo([10 x i32]* %object1) nounwind			%ret0 = call i32 @foo([10 x i32]* %object1) nounwind
	Show All 38 Lines

llvm/trunk/test/CodeGen/X86/MergeConsecutiveStores.ll

Show First 20 Lines • Show All 286 Lines • ▼ Show 20 Lines	block4: ; preds = %4, %.lr.ph
%c10 = getelementptr inbounds %struct.B, %struct.B* %.01, i64 1		%c10 = getelementptr inbounds %struct.B, %struct.B* %.01, i64 1
%exitcond = icmp eq i32 %c9, %count		%exitcond = icmp eq i32 %c9, %count
br i1 %exitcond, label %._crit_edge, label %block4		br i1 %exitcond, label %._crit_edge, label %block4

._crit_edge: ; preds = %4, %0		._crit_edge: ; preds = %4, %0
ret void		ret void
}		}

;; On x86, even unaligned copies should be merged to vector ops.		;; On x86, even unaligned copies can be merged to vector ops.
;; TODO: however, this cannot happen at the moment, due to brokenness
;; in MergeConsecutiveStores. See UseAA FIXME in DAGCombiner.cpp
;; visitSTORE.

; CHECK-LABEL: merge_loads_no_align:		; CHECK-LABEL: merge_loads_no_align:
; load:		; load:
; CHECK-NOT: vmovups ;; TODO		; CHECK: vmovups
; store:		; store:
; CHECK-NOT: vmovups ;; TODO		; CHECK: vmovups
; CHECK: ret		; CHECK: ret
define void @merge_loads_no_align(i32 %count, %struct.B* noalias nocapture %q, %struct.B* noalias nocapture %p) nounwind uwtable noinline ssp {		define void @merge_loads_no_align(i32 %count, %struct.B* noalias nocapture %q, %struct.B* noalias nocapture %p) nounwind uwtable noinline ssp {
%a1 = icmp sgt i32 %count, 0		%a1 = icmp sgt i32 %count, 0
br i1 %a1, label %.lr.ph, label %._crit_edge		br i1 %a1, label %.lr.ph, label %._crit_edge

.lr.ph: ; preds = %0		.lr.ph: ; preds = %0
%a2 = getelementptr inbounds %struct.B, %struct.B* %q, i64 0, i32 0		%a2 = getelementptr inbounds %struct.B, %struct.B* %q, i64 0, i32 0
%a3 = getelementptr inbounds %struct.B, %struct.B* %q, i64 0, i32 1		%a3 = getelementptr inbounds %struct.B, %struct.B* %q, i64 0, i32 1
▲ Show 20 Lines • Show All 231 Lines • ▼ Show 20 Lines	define void @merge_vec_element_and_scalar_load([6 x i64]* %array) {
%b = bitcast i64* %idx1 to <2 x i64>*		%b = bitcast i64* %idx1 to <2 x i64>*
%v = load <2 x i64>, <2 x i64>* %b, align 8		%v = load <2 x i64>, <2 x i64>* %b, align 8
%a1 = extractelement <2 x i64> %v, i32 0		%a1 = extractelement <2 x i64> %v, i32 0
store i64 %a1, i64* %idx5, align 8		store i64 %a1, i64* %idx5, align 8
ret void		ret void

; CHECK-LABEL: merge_vec_element_and_scalar_load		; CHECK-LABEL: merge_vec_element_and_scalar_load
; CHECK: movq (%rdi), %rax		; CHECK: movq (%rdi), %rax
		; CHECK-NEXT: movq 8(%rdi), %rcx
; CHECK-NEXT: movq %rax, 32(%rdi)		; CHECK-NEXT: movq %rax, 32(%rdi)
; CHECK-NEXT: movq 8(%rdi), %rax		; CHECK-NEXT: movq %rcx, 40(%rdi)
; CHECK-NEXT: movq %rax, 40(%rdi)
; CHECK-NEXT: retq		; CHECK-NEXT: retq
}		}

llvm/trunk/test/CodeGen/X86/avx512-mask-op.ll

	Show First 20 Lines • Show All 1,167 Lines • ▼ Show 20 Lines
	; KNL-NEXT: kshiftlw $1, %k2, %k0			; KNL-NEXT: kshiftlw $1, %k2, %k0
	; KNL-NEXT: kshiftrw $15, %k0, %k0			; KNL-NEXT: kshiftrw $15, %k0, %k0
	; KNL-NEXT: kmovw %k0, %eax			; KNL-NEXT: kmovw %k0, %eax
	; KNL-NEXT: vpinsrb $14, %eax, %xmm2, %xmm2			; KNL-NEXT: vpinsrb $14, %eax, %xmm2, %xmm2
	; KNL-NEXT: kshiftrw $15, %k2, %k0			; KNL-NEXT: kshiftrw $15, %k2, %k0
	; KNL-NEXT: kmovw %k0, %eax			; KNL-NEXT: kmovw %k0, %eax
	; KNL-NEXT: vpinsrb $15, %eax, %xmm2, %xmm2			; KNL-NEXT: vpinsrb $15, %eax, %xmm2, %xmm2
	; KNL-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; KNL-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2
	; KNL-NEXT: vpsllw $7, %ymm2, %ymm2
	; KNL-NEXT: vpand {{.*}}(%rip), %ymm2, %ymm2
	; KNL-NEXT: vpxor %ymm3, %ymm3, %ymm3
	; KNL-NEXT: vpcmpgtb %ymm2, %ymm3, %ymm2
	; KNL-NEXT: vmovups 4(%rdi), %zmm3 {%k2} {z}			; KNL-NEXT: vmovups 4(%rdi), %zmm3 {%k2} {z}
	; KNL-NEXT: vmovups 68(%rdi), %zmm4 {%k1} {z}			; KNL-NEXT: vmovups 68(%rdi), %zmm4 {%k1} {z}
	; KNL-NEXT: vcmpltps %zmm4, %zmm1, %k0			; KNL-NEXT: vcmpltps %zmm4, %zmm1, %k0
	; KNL-NEXT: kshiftlw $14, %k0, %k1			; KNL-NEXT: kshiftlw $14, %k0, %k1
	; KNL-NEXT: kshiftrw $15, %k1, %k1			; KNL-NEXT: kshiftrw $15, %k1, %k1
	; KNL-NEXT: kmovw %k1, %eax			; KNL-NEXT: kmovw %k1, %eax
	; KNL-NEXT: kshiftlw $15, %k0, %k1			; KNL-NEXT: kshiftlw $15, %k0, %k1
	; KNL-NEXT: kshiftrw $15, %k1, %k1			; KNL-NEXT: kshiftrw $15, %k1, %k1
	▲ Show 20 Lines • Show All 811 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/chain_order.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mcpu=corei7-avx -mtriple=x86_64-linux \| FileCheck %s			; RUN: llc < %s -mcpu=corei7-avx -mtriple=x86_64-linux \| FileCheck %s

	; A test from pifft (after SLP-vectorization) that fails when we drop the chain on newly merged loads.			; A test from pifft (after SLP-vectorization) that fails when we drop the chain on newly merged loads.
	define void @cftx020(double* nocapture %a) {			define void @cftx020(double* nocapture %a) {
	; CHECK-LABEL: cftx020:			; CHECK-LABEL: cftx020:
	; CHECK: # BB#0: # %entry			; CHECK: # BB#0: # %entry
	; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; CHECK-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
	; CHECK-NEXT: vmovhpd {{.*#+}} xmm0 = xmm0[0],mem[0]			; CHECK-NEXT: vmovhpd {{.*#+}} xmm0 = xmm0[0],mem[0]
	; CHECK-NEXT: vmovhpd {{.*#+}} xmm1 = xmm1[0],mem[0]			; CHECK-NEXT: vmovhpd {{.*#+}} xmm1 = xmm1[0],mem[0]
	; CHECK-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; CHECK-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; CHECK-NEXT: vmovupd (%rdi), %xmm1			; CHECK-NEXT: vmovupd (%rdi), %xmm1
	; CHECK-NEXT: vsubpd 16(%rdi), %xmm1, %xmm1
	; CHECK-NEXT: vmovupd %xmm0, (%rdi)			; CHECK-NEXT: vmovupd %xmm0, (%rdi)
	; CHECK-NEXT: vmovupd %xmm1, 16(%rdi)			; CHECK-NEXT: vsubpd 16(%rdi), %xmm1, %xmm0
				; CHECK-NEXT: vmovupd %xmm0, 16(%rdi)
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	%0 = load double, double* %a, align 8			%0 = load double, double* %a, align 8
	%arrayidx1 = getelementptr inbounds double, double* %a, i64 2			%arrayidx1 = getelementptr inbounds double, double* %a, i64 2
	%1 = load double, double* %arrayidx1, align 8			%1 = load double, double* %arrayidx1, align 8
	%arrayidx2 = getelementptr inbounds double, double* %a, i64 1			%arrayidx2 = getelementptr inbounds double, double* %a, i64 1
	%2 = load double, double* %arrayidx2, align 8			%2 = load double, double* %arrayidx2, align 8
	%arrayidx3 = getelementptr inbounds double, double* %a, i64 3			%arrayidx3 = getelementptr inbounds double, double* %a, i64 3
	Show All 17 Lines

llvm/trunk/test/CodeGen/X86/clear_upper_vector_element_bits.ll

	Show First 20 Lines • Show All 145 Lines • ▼ Show 20 Lines
	}			}

	define <16 x i8> @_clearupper16xi8a(<16 x i8>) nounwind {			define <16 x i8> @_clearupper16xi8a(<16 x i8>) nounwind {
	; SSE-LABEL: _clearupper16xi8a:			; SSE-LABEL: _clearupper16xi8a:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)			; SSE-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax			; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: movd %eax, %xmm0			; SSE-NEXT: movd %eax, %xmm0
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %r9d
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %edx
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %esi
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %r8d
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %edi
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax			; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: movd %eax, %xmm1			; SSE-NEXT: movd %eax, %xmm1
	; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSE-NEXT: movd %esi, %xmm0
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax			; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %esi			; SSE-NEXT: movd %eax, %xmm0
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %ecx			; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: movd %ecx, %xmm2			; SSE-NEXT: movd %eax, %xmm2
	; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
	; SSE-NEXT: movd %edx, %xmm0			; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: movd %esi, %xmm1			; SSE-NEXT: movd %eax, %xmm0
	; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: movd %edi, %xmm0			; SSE-NEXT: movd %eax, %xmm3
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %ecx
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %edx
	; SSE-NEXT: movd %edx, %xmm3
	; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3],xmm3[4],xmm1[4],xmm3[5],xmm1[5],xmm3[6],xmm1[6],xmm3[7],xmm1[7]			; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]			; SSE-NEXT: movd %eax, %xmm0
	; SSE-NEXT: movd %r9d, %xmm0			; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: movd %eax, %xmm1			; SSE-NEXT: movd %eax, %xmm1
	; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSE-NEXT: movd %r8d, %xmm0			; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3],xmm1[4],xmm3[4],xmm1[5],xmm3[5],xmm1[6],xmm3[6],xmm1[7],xmm3[7]
	; SSE-NEXT: movd %ecx, %xmm2			; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
	; SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; SSE-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; SSE-NEXT: movd {{.*#+}} xmm4 = mem[0],zero,zero,zero			; SSE-NEXT: movd {{.*#+}} xmm3 = mem[0],zero,zero,zero
	; SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
				; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]
				; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
				; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
				; SSE-NEXT: movd %eax, %xmm2
				; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
				; SSE-NEXT: movd %eax, %xmm3
				; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]
				; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
				; SSE-NEXT: movd %eax, %xmm2
				; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
				; SSE-NEXT: movd %eax, %xmm4
				; SSE-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3],xmm4[4],xmm2[4],xmm4[5],xmm2[5],xmm4[6],xmm2[6],xmm4[7],xmm2[7]
				; SSE-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3],xmm4[4],xmm3[4],xmm4[5],xmm3[5],xmm4[6],xmm3[6],xmm4[7],xmm3[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]
	; SSE-NEXT: pand {{.*}}(%rip), %xmm0			; SSE-NEXT: pand {{.*}}(%rip), %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: _clearupper16xi8a:			; AVX-LABEL: _clearupper16xi8a:
	; AVX: # BB#0:			; AVX: # BB#0:
	; AVX-NEXT: vpextrb $0, %xmm0, %eax			; AVX-NEXT: vpextrb $0, %xmm0, %eax
	; AVX-NEXT: vmovd %eax, %xmm1			; AVX-NEXT: vmovd %eax, %xmm1
	; AVX-NEXT: vpextrb $1, %xmm0, %eax			; AVX-NEXT: vpextrb $1, %xmm0, %eax
	▲ Show 20 Lines • Show All 473 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/combiner-aa-0.ll

	; RUN: llc < %s -march=x86-64 -combiner-global-alias-analysis -combiner-alias-analysis

	target datalayout = "e-p:64:64:64-i1:8:8-i8:8:8-i16:16:16-i32:32:32-i64:64:64-f32:32:32-f64:64:64-v64:64:64-v128:128:128-a0:0:64-s0:64:64-f80:128:128"
	%struct.Hash_Key = type { [4 x i32], i32 }
	@g_flipV_hashkey = external global %struct.Hash_Key, align 16 ; <%struct.Hash_Key*> [#uses=1]

	define void @foo() nounwind {
	%t0 = load i32, i32* undef, align 16 ; <i32> [#uses=1]
	%t1 = load i32, i32* null, align 4 ; <i32> [#uses=1]
	%t2 = srem i32 %t0, 32 ; <i32> [#uses=1]
	%t3 = shl i32 1, %t2 ; <i32> [#uses=1]
	%t4 = xor i32 %t3, %t1 ; <i32> [#uses=1]
	store i32 %t4, i32* null, align 4
	%t5 = getelementptr %struct.Hash_Key, %struct.Hash_Key* @g_flipV_hashkey, i64 0, i32 0, i64 0 ; <i32*> [#uses=2]
	%t6 = load i32, i32* %t5, align 4 ; <i32> [#uses=1]
	%t7 = shl i32 1, undef ; <i32> [#uses=1]
	%t8 = xor i32 %t7, %t6 ; <i32> [#uses=1]
	store i32 %t8, i32* %t5, align 4
	unreachable
	}

llvm/trunk/test/CodeGen/X86/combiner-aa-1.ll

	; RUN: llc < %s --combiner-alias-analysis --combiner-global-alias-analysis
	; PR4880

	target datalayout = "e-p:32:32:32-i1:8:8-i8:8:8-i16:16:16-i32:32:32-i64:32:64-f32:32:32-f64:32:64-v64:64:64-v128:128:128-a0:0:64-f80:32:32"
	target triple = "i386-pc-linux-gnu"

	%struct.alst_node = type { %struct.node }
	%struct.arg_node = type { %struct.node, i8, %struct.alst_node }
	%struct.arglst_node = type { %struct.alst_node, %struct.arg_node, %struct.arglst_node }
	%struct.lam_node = type { %struct.alst_node, %struct.arg_node, %struct.alst_node }
	%struct.node = type { i32 (...)*, %struct.node }

	define i32 @._ZN8lam_node18resolve_name_clashEP8arg_nodeP9alst_node._ZNK8lam_nodeeqERK8exp_node._ZN11arglst_nodeD0Ev(%struct.lam_node* %this.this, %struct.arg_node* %outer_arg, %struct.alst_node* %env.cmp, %struct.arglst_node* %this, i32 %functionID) {
	comb_entry:
	%.SV59 = alloca %struct.node* ; <%struct.node**> [#uses=1]
	%0 = load i32 (...), i32 (...)* null, align 4 ; <i32 (...)**> [#uses=1]
	%1 = getelementptr inbounds i32 (...), i32 (...)* %0, i32 3 ; <i32 (...)**> [#uses=1]
	%2 = load i32 (...), i32 (...)* %1, align 4 ; <i32 (...)*> [#uses=1]
	store %struct.node* undef, %struct.node** %.SV59
	%3 = bitcast i32 (...)* %2 to i32 (%struct.node) ; <i32 (%struct.node)> [#uses=1]
	%4 = tail call i32 %3(%struct.node* undef) ; <i32> [#uses=0]
	unreachable
	}

llvm/trunk/test/CodeGen/X86/copy-eflags.ll

	; RUN: llc -o - %s \| FileCheck %s			; RUN: llc -o - %s \| FileCheck %s
	; This tests for the problem originally reported in http://llvm.org/PR25951			; This tests for the problem originally reported in http://llvm.org/PR25951
	target triple = "i686-unknown-linux-gnu"			target triple = "i686-unknown-linux-gnu"

	@b = common global i8 0, align 1			@b = common global i8 0, align 1
	@c = common global i32 0, align 4			@c = common global i32 0, align 4
	@a = common global i8 0, align 1			@a = common global i8 0, align 1
	@d = common global i8 0, align 1			@d = common global i8 0, align 1
	@.str = private unnamed_addr constant [4 x i8] c"%d\0A\00", align 1			@.str = private unnamed_addr constant [4 x i8] c"%d\0A\00", align 1

	; CHECK-LABEL: func:			; CHECK-LABEL: func:
	; This tests whether eax is properly saved/restored around the lahf/sahf			; This tests whether eax is properly saved/restored around the
	; instruction sequences.			; lahf/sahf instruction sequences. We make mem op volatile to prevent
				; their reordering to avoid spills.


	define i32 @func() {			define i32 @func() {
	entry:			entry:
	%bval = load i8, i8* @b			%bval = load i8, i8* @b
	%inc = add i8 %bval, 1			%inc = add i8 %bval, 1
	store i8 %inc, i8* @b			store volatile i8 %inc, i8* @b
	%cval = load i32, i32* @c			%cval = load volatile i32, i32* @c
	%inc1 = add nsw i32 %cval, 1			%inc1 = add nsw i32 %cval, 1
	store i32 %inc1, i32* @c			store volatile i32 %inc1, i32* @c
	%aval = load i8, i8* @a			%aval = load volatile i8, i8* @a
	%inc2 = add i8 %aval, 1			%inc2 = add i8 %aval, 1
	store i8 %inc2, i8* @a			store volatile i8 %inc2, i8* @a
	; Copy flags produced by the incb of %inc1 to a register, need to save+restore			; Copy flags produced by the incb of %inc1 to a register, need to save+restore
	; eax around it. The flags will be reused by %tobool.			; eax around it. The flags will be reused by %tobool.
	; CHECK: pushl %eax			; CHECK: pushl %eax
	; CHECK: seto %al			; CHECK: seto %al
	; CHECK: lahf			; CHECK: lahf
	; CHECK: movl %eax, [[REG:%[a-z]+]]			; CHECK: movl %eax, [[REG:%[a-z]+]]
	; CHECK: popl %eax			; CHECK: popl %eax
	%cmp = icmp eq i8 %aval, %bval			%cmp = icmp eq i8 %aval, %bval
	Show All 22 Lines

llvm/trunk/test/CodeGen/X86/dag-merge-fast-accesses.ll

Show First 20 Lines • Show All 45 Lines • ▼ Show 20 Lines	; SLOW-NEXT: retq
%idx1 = getelementptr double, double* %ptr, i64 1		%idx1 = getelementptr double, double* %ptr, i64 1

store double %vecext0, double* %idx0, align 8		store double %vecext0, double* %idx0, align 8
store double %vecext1, double* %idx1, align 8		store double %vecext1, double* %idx1, align 8
ret void		ret void
}		}


;; TODO: FAST should be:
;; movups (%rdi), %xmm0
;; movups %xmm0, 40(%rdi)
;; ..but is not currently. See the UseAA FIXME in DAGCombiner.cpp
;; visitSTORE.

define void @merge_vec_load_and_stores(i64 *%ptr) {		define void @merge_vec_load_and_stores(i64 *%ptr) {
; FAST-LABEL: merge_vec_load_and_stores:		; FAST-LABEL: merge_vec_load_and_stores:
; FAST: # BB#0:		; FAST: # BB#0:
; FAST-NEXT: movq (%rdi), %rax		; FAST-NEXT: movups (%rdi), %xmm0
; FAST-NEXT: movq 8(%rdi), %rcx		; FAST-NEXT: movups %xmm0, 40(%rdi)
; FAST-NEXT: movq %rax, 40(%rdi)
; FAST-NEXT: movq %rcx, 48(%rdi)
; FAST-NEXT: retq		; FAST-NEXT: retq
;		;
; SLOW-LABEL: merge_vec_load_and_stores:		; SLOW-LABEL: merge_vec_load_and_stores:
; SLOW: # BB#0:		; SLOW: # BB#0:
; SLOW-NEXT: movq (%rdi), %rax		; SLOW-NEXT: movq (%rdi), %rax
; SLOW-NEXT: movq 8(%rdi), %rcx		; SLOW-NEXT: movq 8(%rdi), %rcx
; SLOW-NEXT: movq %rax, 40(%rdi)		; SLOW-NEXT: movq %rax, 40(%rdi)
; SLOW-NEXT: movq %rcx, 48(%rdi)		; SLOW-NEXT: movq %rcx, 48(%rdi)
Show All 16 Lines

llvm/trunk/test/CodeGen/X86/dont-trunc-store-double-to-float.ll

	; RUN: llc -march=x86 < %s \| FileCheck %s			; RUN: llc -march=x86 < %s \| FileCheck %s

	; CHECK-LABEL: @bar			; CHECK-LABEL: @bar
	; CHECK: movl $1074339512,			; CHECK-DAG: movl $1074339512,
	; CHECK: movl $1374389535,			; CHECK-DAG: movl $1374389535,
	; CHECK: movl $1078523331,			; CHECK-DAG: movl $1078523331,
	define void @bar() unnamed_addr {			define void @bar() unnamed_addr {
	entry-block:			entry-block:
	%a = alloca double			%a = alloca double
	%b = alloca float			%b = alloca float

	store double 3.140000e+00, double* %a			store double 3.140000e+00, double* %a
	%0 = load double, double* %a			%0 = load double, double* %a

	%1 = fptrunc double %0 to float			%1 = fptrunc double %0 to float

	store float %1, float* %b			store float %1, float* %b

	ret void			ret void
	}			}

llvm/trunk/test/CodeGen/X86/extractelement-legalization-store-ordering.ll

	Show All 12 Lines
	; CHECK-NEXT: pushl %esi			; CHECK-NEXT: pushl %esi
	; CHECK-NEXT: movl 16(%esp), %eax			; CHECK-NEXT: movl 16(%esp), %eax
	; CHECK-NEXT: movl 24(%esp), %ecx			; CHECK-NEXT: movl 24(%esp), %ecx
	; CHECK-NEXT: movl 20(%esp), %edx			; CHECK-NEXT: movl 20(%esp), %edx
	; CHECK-NEXT: paddd (%edx), %xmm0			; CHECK-NEXT: paddd (%edx), %xmm0
	; CHECK-NEXT: movdqa %xmm0, (%edx)			; CHECK-NEXT: movdqa %xmm0, (%edx)
	; CHECK-NEXT: shll $4, %ecx			; CHECK-NEXT: shll $4, %ecx
	; CHECK-NEXT: movl (%ecx,%edx), %esi			; CHECK-NEXT: movl (%ecx,%edx), %esi
	; CHECK-NEXT: movl 12(%ecx,%edx), %edi			; CHECK-NEXT: movl 4(%ecx,%edx), %edi
	; CHECK-NEXT: movl 8(%ecx,%edx), %ebx			; CHECK-NEXT: movl 8(%ecx,%edx), %ebx
	; CHECK-NEXT: movl 4(%ecx,%edx), %edx			; CHECK-NEXT: movl 12(%ecx,%edx), %edx
	; CHECK-NEXT: movl %esi, 12(%eax,%ecx)			; CHECK-NEXT: movl %esi, 12(%eax,%ecx)
	; CHECK-NEXT: movl %edx, (%eax,%ecx)			; CHECK-NEXT: movl %edi, (%eax,%ecx)
	; CHECK-NEXT: movl %ebx, 8(%eax,%ecx)			; CHECK-NEXT: movl %ebx, 8(%eax,%ecx)
	; CHECK-NEXT: movl %edi, 4(%eax,%ecx)			; CHECK-NEXT: movl %edx, 4(%eax,%ecx)
	; CHECK-NEXT: popl %esi			; CHECK-NEXT: popl %esi
	; CHECK-NEXT: popl %edi			; CHECK-NEXT: popl %edi
	; CHECK-NEXT: popl %ebx			; CHECK-NEXT: popl %ebx
	; CHECK-NEXT: retl			; CHECK-NEXT: retl
	define void @test_extractelement_legalization_storereuse(<4 x i32> %a, i32* nocapture %x, i32* nocapture readonly %y, i32 %i) #0 {			define void @test_extractelement_legalization_storereuse(<4 x i32> %a, i32* nocapture %x, i32* nocapture readonly %y, i32 %i) #0 {
	entry:			entry:
	%0 = bitcast i32* %y to <4 x i32>*			%0 = bitcast i32* %y to <4 x i32>*
	%1 = load <4 x i32>, <4 x i32>* %0, align 16			%1 = load <4 x i32>, <4 x i32>* %0, align 16
	Show All 22 Lines

llvm/trunk/test/CodeGen/X86/i256-add.ll

	; RUN: llc < %s -march=x86 > %t			; RUN: llc < %s -march=x86 > %t
	; RUN: grep adcl %t \| count 7			; RUN: grep adcl %t \| count 7
	; RUN: grep sbbl %t \| count 7			; RUN: grep sbbl %t \| count 7

	define void @add(i256* %p, i256* %q) nounwind {			define void @add(i256* %p, i256* %q, i256* %r) nounwind {
	%a = load i256, i256* %p			%a = load i256, i256* %p
	%b = load i256, i256* %q			%b = load i256, i256* %q
	%c = add i256 %a, %b			%c = add i256 %a, %b
	store i256 %c, i256* %p			store i256 %c, i256* %r
	ret void			ret void
	}			}
	define void @sub(i256* %p, i256* %q) nounwind {			define void @sub(i256* %p, i256* %q, i256* %r) nounwind {
	%a = load i256, i256* %p			%a = load i256, i256* %p
	%b = load i256, i256* %q			%b = load i256, i256* %q
	%c = sub i256 %a, %b			%c = sub i256 %a, %b
	store i256 %c, i256* %p			store i256 %c, i256* %r
	ret void			ret void
	}			}

llvm/trunk/test/CodeGen/X86/i386-shrink-wrapping.ll

	Show First 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	;			;
	; ENABLE-NEXT: pushl			; ENABLE-NEXT: pushl
	; ENABLE-NEXT: pushl			; ENABLE-NEXT: pushl
	; We must not use sub here otherwise we will clobber the eflags.			; We must not use sub here otherwise we will clobber the eflags.
	; ENABLE-NEXT: leal -20(%esp), %esp			; ENABLE-NEXT: leal -20(%esp), %esp
	;			;
	; CHECK-NEXT: L_e$non_lazy_ptr, [[E:%[a-z]+]]			; CHECK-NEXT: L_e$non_lazy_ptr, [[E:%[a-z]+]]
	; CHECK-NEXT: movb [[D]], ([[E]])			; CHECK-NEXT: movb [[D]], ([[E]])
	; CHECK-NEXT: L_f$non_lazy_ptr, [[F:%[a-z]+]]			; CHECK-NEXT: movsbl ([[E]]), [[CONV:%[a-z]+]]
	; CHECK-NEXT: movsbl ([[F]]), [[CONV:%[a-z]+]]
	; CHECK-NEXT: movl $6, [[CONV:%[a-z]+]]			; CHECK-NEXT: movl $6, [[CONV:%[a-z]+]]
	; The eflags is used in the next instruction.			; The eflags is used in the next instruction.
	; If that instruction disappear, we are not exercising the bug			; If that instruction disappear, we are not exercising the bug
	; anymore.			; anymore.
	; CHECK-NEXT: cmovnel {{%[a-z]+}}, [[CONV]]			; CHECK-NEXT: cmovnel {{%[a-z]+}}, [[CONV]]
	;			;
	; Skip all the crust of vaarg lowering.			; Skip all the crust of vaarg lowering.
	; CHECK: calll _varfunc			; CHECK: calll _varfunc
	Show All 23 Lines

	for.body: ; preds = %for.body, %for.body.preheader			for.body: ; preds = %for.body, %for.body.preheader
	br label %for.body			br label %for.body

	for.end: ; preds = %for.cond.preheader			for.end: ; preds = %for.cond.preheader
	%.b3 = load i1, i1* @d, align 1			%.b3 = load i1, i1* @d, align 1
	%tmp2 = select i1 %.b3, i8 0, i8 6			%tmp2 = select i1 %.b3, i8 0, i8 6
	store i8 %tmp2, i8* @e, align 1			store i8 %tmp2, i8* @e, align 1
	%tmp3 = load i8, i8* @f, align 1			%tmp3 = load i8, i8* @e, align 1
	%conv = sext i8 %tmp3 to i32			%conv = sext i8 %tmp3 to i32
	%add = add nsw i32 %conv, 1			%add = add nsw i32 %conv, 1
	%rem = srem i32 %tmp1, %add			%rem = srem i32 %tmp1, %add
	store i32 %rem, i32* @c, align 4			store i32 %rem, i32* @c, align 4
	%conv2 = select i1 %.b3, i32 0, i32 6			%conv2 = select i1 %.b3, i32 0, i32 6
	%call = tail call i32 (i8, ...) @varfunc(i8 nonnull getelementptr inbounds ([4 x i8], [4 x i8]* @.str, i32 0, i32 0), i32 %conv2) #1			%call = tail call i32 (i8, ...) @varfunc(i8 nonnull getelementptr inbounds ([4 x i8], [4 x i8]* @.str, i32 0, i32 0), i32 %conv2) #1
	ret i32 0			ret i32 0
	}			}

	; Function Attrs: nounwind			; Function Attrs: nounwind
	declare i32 @varfunc(i8* nocapture readonly, ...) #0			declare i32 @varfunc(i8* nocapture readonly, ...) #0

	attributes #0 = { nounwind "disable-tail-calls"="false" "less-precise-fpmad"="false" "no-frame-pointer-elim"="false" "no-infs-fp-math"="false" "no-nans-fp-math"="false" "stack-protector-buffer-size"="8" "target-features"="+mmx,+sse" "unsafe-fp-math"="false" "use-soft-float"="false" }			attributes #0 = { nounwind "disable-tail-calls"="false" "less-precise-fpmad"="false" "no-frame-pointer-elim"="false" "no-infs-fp-math"="false" "no-nans-fp-math"="false" "stack-protector-buffer-size"="8" "target-features"="+mmx,+sse" "unsafe-fp-math"="false" "use-soft-float"="false" }
	attributes #1 = { nounwind }			attributes #1 = { nounwind }

llvm/trunk/test/CodeGen/X86/live-range-nosubreg.ll

	; RUN: llc -march=x86-64 < %s \| FileCheck %s			; RUN: llc -march=x86-64 < %s

	; Check for a sane output. This testcase used to crash. See PR29132.			; This testcase used to crash. See PR29132.
	; CHECK: leal -1

	target triple = "x86_64-unknown-linux-gnu"			target triple = "x86_64-unknown-linux-gnu"

	@a = common local_unnamed_addr global i16 0, align 2			@a = common local_unnamed_addr global i16 0, align 2
	@c = common global i32 0, align 4			@c = common global i32 0, align 4
	@d = common local_unnamed_addr global i8 0, align 1			@d = common local_unnamed_addr global i8 0, align 1
	@b = common global i32 0, align 4			@b = common global i32 0, align 4

	Show All 36 Lines

llvm/trunk/test/CodeGen/X86/merge-consecutive-loads-128.ll

Show First 20 Lines • Show All 1,031 Lines • ▼ Show 20 Lines	; X32-SSE41-NEXT: retl
%res0 = insertelement <2 x i64> undef, i64 %val0, i32 0		%res0 = insertelement <2 x i64> undef, i64 %val0, i32 0
%res1 = insertelement <2 x i64> %res0, i64 %val1, i32 1		%res1 = insertelement <2 x i64> %res0, i64 %val1, i32 1
ret <2 x i64> %res1		ret <2 x i64> %res1
}		}

define <4 x float> @merge_4f32_f32_2345_volatile(float* %ptr) nounwind uwtable noinline ssp {		define <4 x float> @merge_4f32_f32_2345_volatile(float* %ptr) nounwind uwtable noinline ssp {
; SSE2-LABEL: merge_4f32_f32_2345_volatile:		; SSE2-LABEL: merge_4f32_f32_2345_volatile:
; SSE2: # BB#0:		; SSE2: # BB#0:
; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero		; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
		; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero		; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
; SSE2-NEXT: movss {{.*#+}} xmm3 = mem[0],zero,zero,zero
; SSE2-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]		; SSE2-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1]		; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
		; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]		; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: merge_4f32_f32_2345_volatile:		; SSE41-LABEL: merge_4f32_f32_2345_volatile:
; SSE41: # BB#0:		; SSE41: # BB#0:
; SSE41-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE41-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[2,3]		; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[2,3]
; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]		; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]
; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1,2],mem[0]		; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1,2],mem[0]
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX-LABEL: merge_4f32_f32_2345_volatile:		; AVX-LABEL: merge_4f32_f32_2345_volatile:
; AVX: # BB#0:		; AVX: # BB#0:
; AVX-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; AVX-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[2,3]		; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[2,3]
; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]		; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]
; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],mem[0]		; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],mem[0]
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; X32-SSE1-LABEL: merge_4f32_f32_2345_volatile:		; X32-SSE1-LABEL: merge_4f32_f32_2345_volatile:
; X32-SSE1: # BB#0:		; X32-SSE1: # BB#0:
; X32-SSE1-NEXT: movl {{[0-9]+}}(%esp), %eax		; X32-SSE1-NEXT: movl {{[0-9]+}}(%esp), %eax
; X32-SSE1-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; X32-SSE1-DAG: movss 8(%eax), %[[R0:xmm[0-3]]] # [[R0]] = mem[0],zero,zero,zero
; X32-SSE1-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero		; X32-SSE1-DAG: movss 12(%eax), %[[R1:xmm[0-3]]] # [[R1]] = mem[0],zero,zero,zero
; X32-SSE1-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero		; X32-SSE1-DAG: movss 16(%eax), %[[R2:xmm[0-3]]] # [[R2]] = mem[0],zero,zero,zero
; X32-SSE1-NEXT: movss {{.*#+}} xmm3 = mem[0],zero,zero,zero		; X32-SSE1-DAG: movss 20(%eax), %[[R3:xmm[0-3]]] # [[R3]] = mem[0],zero,zero,zero
; X32-SSE1-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]		; X32-SSE1-DAG: unpcklps %[[R2]], %[[R0]] # [[R0]] = [[R0]][0],[[R2]][0],[[R0]][1],[[R2]][1]
; X32-SSE1-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1]		; X32-SSE1-DAG: unpcklps %[[R3]], %[[R1]] # [[R1]] = [[R1]][0],[[R3]][0],[[R1]][1],[[R3]][1]
; X32-SSE1-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]		; X32-SSE1-DAG: unpcklps %[[R1]], %[[R0]] # [[R0]] = [[R0]][0],[[R1]][0],[[R0]][1],[[R1]][1]
; X32-SSE1-NEXT: retl		; X32-SSE1-NEXT: retl
;		;
; X32-SSE41-LABEL: merge_4f32_f32_2345_volatile:		; X32-SSE41-LABEL: merge_4f32_f32_2345_volatile:
; X32-SSE41: # BB#0:		; X32-SSE41: # BB#0:
; X32-SSE41-NEXT: movl {{[0-9]+}}(%esp), %eax		; X32-SSE41-NEXT: movl {{[0-9]+}}(%esp), %eax
; X32-SSE41-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; X32-SSE41-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; X32-SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[2,3]		; X32-SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[2,3]
; X32-SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]		; X32-SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]
▲ Show 20 Lines • Show All 65 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/merge-consecutive-loads-256.ll

Show First 20 Lines • Show All 676 Lines • ▼ Show 20 Lines	; X32-AVX-NEXT: retl
ret <4 x double> %res3		ret <4 x double> %res3
}		}

define <16 x i16> @merge_16i16_i16_0uu3zzuuuuuzCuEF_volatile(i16* %ptr) nounwind uwtable noinline ssp {		define <16 x i16> @merge_16i16_i16_0uu3zzuuuuuzCuEF_volatile(i16* %ptr) nounwind uwtable noinline ssp {
; AVX1-LABEL: merge_16i16_i16_0uu3zzuuuuuzCuEF_volatile:		; AVX1-LABEL: merge_16i16_i16_0uu3zzuuuuuzCuEF_volatile:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vpxor %xmm0, %xmm0, %xmm0		; AVX1-NEXT: vpxor %xmm0, %xmm0, %xmm0
; AVX1-NEXT: vpinsrw $0, (%rdi), %xmm0, %xmm1		; AVX1-NEXT: vpinsrw $0, (%rdi), %xmm0, %xmm1
; AVX1-NEXT: vpinsrw $3, 6(%rdi), %xmm1, %xmm1
; AVX1-NEXT: vpinsrw $4, 24(%rdi), %xmm0, %xmm0		; AVX1-NEXT: vpinsrw $4, 24(%rdi), %xmm0, %xmm0
; AVX1-NEXT: vpinsrw $6, 28(%rdi), %xmm0, %xmm0		; AVX1-NEXT: vpinsrw $6, 28(%rdi), %xmm0, %xmm0
; AVX1-NEXT: vpinsrw $7, 30(%rdi), %xmm0, %xmm0		; AVX1-NEXT: vpinsrw $7, 30(%rdi), %xmm0, %xmm0
		; AVX1-NEXT: vpinsrw $3, 6(%rdi), %xmm1, %xmm1
; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: merge_16i16_i16_0uu3zzuuuuuzCuEF_volatile:		; AVX2-LABEL: merge_16i16_i16_0uu3zzuuuuuzCuEF_volatile:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0		; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0
; AVX2-NEXT: vpinsrw $0, (%rdi), %xmm0, %xmm1		; AVX2-NEXT: vpinsrw $0, (%rdi), %xmm0, %xmm1
; AVX2-NEXT: vpinsrw $3, 6(%rdi), %xmm1, %xmm1
; AVX2-NEXT: vpinsrw $4, 24(%rdi), %xmm0, %xmm0		; AVX2-NEXT: vpinsrw $4, 24(%rdi), %xmm0, %xmm0
; AVX2-NEXT: vpinsrw $6, 28(%rdi), %xmm0, %xmm0		; AVX2-NEXT: vpinsrw $6, 28(%rdi), %xmm0, %xmm0
; AVX2-NEXT: vpinsrw $7, 30(%rdi), %xmm0, %xmm0		; AVX2-NEXT: vpinsrw $7, 30(%rdi), %xmm0, %xmm0
		; AVX2-NEXT: vpinsrw $3, 6(%rdi), %xmm1, %xmm1
; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0		; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512F-LABEL: merge_16i16_i16_0uu3zzuuuuuzCuEF_volatile:		; AVX512F-LABEL: merge_16i16_i16_0uu3zzuuuuuzCuEF_volatile:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vpxor %xmm0, %xmm0, %xmm0		; AVX512F-NEXT: vpxor %xmm0, %xmm0, %xmm0
; AVX512F-NEXT: vpinsrw $0, (%rdi), %xmm0, %xmm1		; AVX512F-NEXT: vpinsrw $0, (%rdi), %xmm0, %xmm1
; AVX512F-NEXT: vpinsrw $3, 6(%rdi), %xmm1, %xmm1
; AVX512F-NEXT: vpinsrw $4, 24(%rdi), %xmm0, %xmm0		; AVX512F-NEXT: vpinsrw $4, 24(%rdi), %xmm0, %xmm0
; AVX512F-NEXT: vpinsrw $6, 28(%rdi), %xmm0, %xmm0		; AVX512F-NEXT: vpinsrw $6, 28(%rdi), %xmm0, %xmm0
; AVX512F-NEXT: vpinsrw $7, 30(%rdi), %xmm0, %xmm0		; AVX512F-NEXT: vpinsrw $7, 30(%rdi), %xmm0, %xmm0
		; AVX512F-NEXT: vpinsrw $3, 6(%rdi), %xmm1, %xmm1
; AVX512F-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0		; AVX512F-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; X32-AVX-LABEL: merge_16i16_i16_0uu3zzuuuuuzCuEF_volatile:		; X32-AVX-LABEL: merge_16i16_i16_0uu3zzuuuuuzCuEF_volatile:
; X32-AVX: # BB#0:		; X32-AVX: # BB#0:
; X32-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax		; X32-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax
; X32-AVX-NEXT: vpxor %xmm0, %xmm0, %xmm0		; X32-AVX-NEXT: vpxor %xmm0, %xmm0, %xmm0
; X32-AVX-NEXT: vpinsrw $0, (%eax), %xmm0, %xmm1		; X32-AVX-NEXT: vpinsrw $0, (%eax), %xmm0, %xmm1
; X32-AVX-NEXT: vpinsrw $3, 6(%eax), %xmm1, %xmm1
; X32-AVX-NEXT: vpinsrw $4, 24(%eax), %xmm0, %xmm0		; X32-AVX-NEXT: vpinsrw $4, 24(%eax), %xmm0, %xmm0
; X32-AVX-NEXT: vpinsrw $6, 28(%eax), %xmm0, %xmm0		; X32-AVX-NEXT: vpinsrw $6, 28(%eax), %xmm0, %xmm0
; X32-AVX-NEXT: vpinsrw $7, 30(%eax), %xmm0, %xmm0		; X32-AVX-NEXT: vpinsrw $7, 30(%eax), %xmm0, %xmm0
		; X32-AVX-NEXT: vpinsrw $3, 6(%eax), %xmm1, %xmm1
; X32-AVX-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0		; X32-AVX-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; X32-AVX-NEXT: retl		; X32-AVX-NEXT: retl
%ptr0 = getelementptr inbounds i16, i16* %ptr, i64 0		%ptr0 = getelementptr inbounds i16, i16* %ptr, i64 0
%ptr3 = getelementptr inbounds i16, i16* %ptr, i64 3		%ptr3 = getelementptr inbounds i16, i16* %ptr, i64 3
%ptrC = getelementptr inbounds i16, i16* %ptr, i64 12		%ptrC = getelementptr inbounds i16, i16* %ptr, i64 12
%ptrE = getelementptr inbounds i16, i16* %ptr, i64 14		%ptrE = getelementptr inbounds i16, i16* %ptr, i64 14
%ptrF = getelementptr inbounds i16, i16* %ptr, i64 15		%ptrF = getelementptr inbounds i16, i16* %ptr, i64 15
%val0 = load volatile i16, i16* %ptr0		%val0 = load volatile i16, i16* %ptr0
Show All 14 Lines

llvm/trunk/test/CodeGen/X86/merge-store-partially-alias-loads.ll

	Show All 15 Lines
	; DBGDAG-LABEL: Optimized lowered selection DAG: BB#0 'merge_store_partial_overlap_load:'			; DBGDAG-LABEL: Optimized lowered selection DAG: BB#0 'merge_store_partial_overlap_load:'
	; DBGDAG: [[ENTRYTOKEN:t[0-9]+]]: ch = EntryToken			; DBGDAG: [[ENTRYTOKEN:t[0-9]+]]: ch = EntryToken
	; DBGDAG-DAG: [[BASEPTR:t[0-9]+]]: i64,ch = CopyFromReg [[ENTRYTOKEN]],			; DBGDAG-DAG: [[BASEPTR:t[0-9]+]]: i64,ch = CopyFromReg [[ENTRYTOKEN]],
	; DBGDAG-DAG: [[ADDPTR:t[0-9]+]]: i64 = add [[BASEPTR]], Constant:i64<2>			; DBGDAG-DAG: [[ADDPTR:t[0-9]+]]: i64 = add [[BASEPTR]], Constant:i64<2>

	; DBGDAG-DAG: [[LD2:t[0-9]+]]: i16,ch = load<LD2[%tmp81](align=1)> [[ENTRYTOKEN]], [[BASEPTR]], undef:i64			; DBGDAG-DAG: [[LD2:t[0-9]+]]: i16,ch = load<LD2[%tmp81](align=1)> [[ENTRYTOKEN]], [[BASEPTR]], undef:i64
	; DBGDAG-DAG: [[LD1:t[0-9]+]]: i8,ch = load<LD1[%tmp12]> [[ENTRYTOKEN]], [[ADDPTR]], undef:i64			; DBGDAG-DAG: [[LD1:t[0-9]+]]: i8,ch = load<LD1[%tmp12]> [[ENTRYTOKEN]], [[ADDPTR]], undef:i64

	; DBGDAG: [[LOADTOKEN:t[0-9]+]]: ch = TokenFactor [[LD2]]:1, [[LD1]]:1			; DBGDAG-DAG: [[ST1:t[0-9]+]]: ch = store<ST1[%tmp14]> [[ENTRYTOKEN]], [[LD1]], t{{[0-9]+}}, undef:i64
				; DBGDAG-DAG: [[LOADTOKEN:t[0-9]+]]: ch = TokenFactor [[LD2]]:1, [[LD1]]:1
				; DBGDAG: [[ST2:t[0-9]+]]: ch = store<ST2[%tmp10](align=1)> [[LOADTOKEN]], [[LD2]], t{{[0-9]+}}, undef:i64

	; DBGDAG-DAG: [[ST2:t[0-9]+]]: ch = store<ST2[%tmp10](align=1)> [[LOADTOKEN]], [[LD2]], t{{[0-9]+}}, undef:i64			; DBGDAG: X86ISD::RET_FLAG t{{[0-9]+}},
	; DBGDAG-DAG: [[ST1:t[0-9]+]]: ch = store<ST1[%tmp14]> [[ST2]], [[LD1]], t{{[0-9]+}}, undef:i64
	; DBGDAG: X86ISD::RET_FLAG [[ST1]],

	; DBGDAG: Type-legalized selection DAG: BB#0 'merge_store_partial_overlap_load:'			; DBGDAG: Type-legalized selection DAG: BB#0 'merge_store_partial_overlap_load:'
	define void @merge_store_partial_overlap_load([4 x i8]* %tmp) {			define void @merge_store_partial_overlap_load([4 x i8]* %tmp) {
	%tmp8 = getelementptr inbounds [4 x i8], [4 x i8]* %tmp, i32 0, i8 0			%tmp8 = getelementptr inbounds [4 x i8], [4 x i8]* %tmp, i32 0, i8 0
	%tmp10 = getelementptr inbounds [4 x i8], [4 x i8]* %tmp, i32 0, i8 1			%tmp10 = getelementptr inbounds [4 x i8], [4 x i8]* %tmp, i32 0, i8 1
	%tmp12 = getelementptr inbounds [4 x i8], [4 x i8]* %tmp, i32 0, i8 2			%tmp12 = getelementptr inbounds [4 x i8], [4 x i8]* %tmp, i32 0, i8 2
	%tmp14 = getelementptr [4 x i8], [4 x i8]* %tmp, i32 0, i8 3			%tmp14 = getelementptr [4 x i8], [4 x i8]* %tmp, i32 0, i8 3

	Show All 16 Lines

llvm/trunk/test/CodeGen/X86/pr18023.ll

	; RUN: llc < %s -mtriple x86_64-apple-macosx10.9.0 \| FileCheck %s
	; PR18023

	; CHECK: movabsq $4294967296, %rcx
	; CHECK: movq %rcx, (%rax)
	; CHECK: movl $1, 4(%rax)
	; CHECK: movl $0, 4(%rax)
	; CHECK: movq $1, 4(%rax)

	@c = common global i32 0, align 4
	@a = common global [3 x i32] zeroinitializer, align 4
	@b = common global i32 0, align 4
	@.str = private unnamed_addr constant [4 x i8] c"%d\0A\00", align 1

	define void @func() {
	store i32 1, i32* getelementptr inbounds ([3 x i32], [3 x i32]* @a, i64 0, i64 1), align 4
	store i32 0, i32* getelementptr inbounds ([3 x i32], [3 x i32]* @a, i64 0, i64 0), align 4
	%1 = load volatile i32, i32* @b, align 4
	store i32 1, i32* getelementptr inbounds ([3 x i32], [3 x i32]* @a, i64 0, i64 1), align 4
	store i32 0, i32* getelementptr inbounds ([3 x i32], [3 x i32]* @a, i64 0, i64 1), align 4
	%2 = load volatile i32, i32* @b, align 4
	store i32 1, i32* getelementptr inbounds ([3 x i32], [3 x i32]* @a, i64 0, i64 1), align 4
	store i32 0, i32* getelementptr inbounds ([3 x i32], [3 x i32]* @a, i64 0, i64 2), align 4
	%3 = load volatile i32, i32* @b, align 4
	store i32 3, i32* @c, align 4
	%4 = load i32, i32* getelementptr inbounds ([3 x i32], [3 x i32]* @a, i64 0, i64 1), align 4
	%call = call i32 (i8, ...) @printf(i8 getelementptr inbounds ([4 x i8], [4 x i8]* @.str, i64 0, i64 0), i32 %4)
	ret void
	}

	declare i32 @printf(i8*, ...)

llvm/trunk/test/CodeGen/X86/split-store.ll

	; RUN: llc -mtriple=x86_64-unknown-unknown < %s \| FileCheck %s			; RUN: llc -mtriple=x86_64-unknown-unknown < %s \| FileCheck %s

	; CHECK-LABEL: int32_float_pair			; CHECK-LABEL: int32_float_pair
	; CHECK: movl %edi, (%rsi)			; CHECK-DAG: movl %edi, (%rsi)
	; CHECK: movss %xmm0, 4(%rsi)			; CHECK-DAG: movss %xmm0, 4(%rsi)
	define void @int32_float_pair(i32 %tmp1, float %tmp2, i64* %ref.tmp) {			define void @int32_float_pair(i32 %tmp1, float %tmp2, i64* %ref.tmp) {
	entry:			entry:
	%t0 = bitcast float %tmp2 to i32			%t0 = bitcast float %tmp2 to i32
	%t1 = zext i32 %t0 to i64			%t1 = zext i32 %t0 to i64
	%t2 = shl nuw i64 %t1, 32			%t2 = shl nuw i64 %t1, 32
	%t3 = zext i32 %tmp1 to i64			%t3 = zext i32 %tmp1 to i64
	%t4 = or i64 %t2, %t3			%t4 = or i64 %t2, %t3
	store i64 %t4, i64* %ref.tmp, align 8			store i64 %t4, i64* %ref.tmp, align 8
	ret void			ret void
	}			}

	; CHECK-LABEL: float_int32_pair			; CHECK-LABEL: float_int32_pair
	; CHECK: movss %xmm0, (%rsi)			; CHECK-DAG: movss %xmm0, (%rsi)
	; CHECK: movl %edi, 4(%rsi)			; CHECK-DAG: movl %edi, 4(%rsi)
	define void @float_int32_pair(float %tmp1, i32 %tmp2, i64* %ref.tmp) {			define void @float_int32_pair(float %tmp1, i32 %tmp2, i64* %ref.tmp) {
	entry:			entry:
	%t0 = bitcast float %tmp1 to i32			%t0 = bitcast float %tmp1 to i32
	%t1 = zext i32 %tmp2 to i64			%t1 = zext i32 %tmp2 to i64
	%t2 = shl nuw i64 %t1, 32			%t2 = shl nuw i64 %t1, 32
	%t3 = zext i32 %t0 to i64			%t3 = zext i32 %t0 to i64
	%t4 = or i64 %t2, %t3			%t4 = or i64 %t2, %t3
	store i64 %t4, i64* %ref.tmp, align 8			store i64 %t4, i64* %ref.tmp, align 8
	ret void			ret void
	}			}

	; CHECK-LABEL: int16_float_pair			; CHECK-LABEL: int16_float_pair
	; CHECK: movzwl %di, %eax			; CHECK-DAG: movzwl %di, %eax
	; CHECK: movl %eax, (%rsi)			; CHECK-DAG: movl %eax, (%rsi)
	; CHECK: movss %xmm0, 4(%rsi)			; CHECK-DAG: movss %xmm0, 4(%rsi)
	define void @int16_float_pair(i16 signext %tmp1, float %tmp2, i64* %ref.tmp) {			define void @int16_float_pair(i16 signext %tmp1, float %tmp2, i64* %ref.tmp) {
	entry:			entry:
	%t0 = bitcast float %tmp2 to i32			%t0 = bitcast float %tmp2 to i32
	%t1 = zext i32 %t0 to i64			%t1 = zext i32 %t0 to i64
	%t2 = shl nuw i64 %t1, 32			%t2 = shl nuw i64 %t1, 32
	%t3 = zext i16 %tmp1 to i64			%t3 = zext i16 %tmp1 to i64
	%t4 = or i64 %t2, %t3			%t4 = or i64 %t2, %t3
	store i64 %t4, i64* %ref.tmp, align 8			store i64 %t4, i64* %ref.tmp, align 8
	ret void			ret void
	}			}

	; CHECK-LABEL: int8_float_pair			; CHECK-LABEL: int8_float_pair
	; CHECK: movzbl %dil, %eax			; CHECK-DAG: movzbl %dil, %eax
	; CHECK: movl %eax, (%rsi)			; CHECK-DAG: movl %eax, (%rsi)
	; CHECK: movss %xmm0, 4(%rsi)			; CHECK-DAG: movss %xmm0, 4(%rsi)
	define void @int8_float_pair(i8 signext %tmp1, float %tmp2, i64* %ref.tmp) {			define void @int8_float_pair(i8 signext %tmp1, float %tmp2, i64* %ref.tmp) {
	entry:			entry:
	%t0 = bitcast float %tmp2 to i32			%t0 = bitcast float %tmp2 to i32
	%t1 = zext i32 %t0 to i64			%t1 = zext i32 %t0 to i64
	%t2 = shl nuw i64 %t1, 32			%t2 = shl nuw i64 %t1, 32
	%t3 = zext i8 %tmp1 to i64			%t3 = zext i8 %tmp1 to i64
	%t4 = or i64 %t2, %t3			%t4 = or i64 %t2, %t3
	store i64 %t4, i64* %ref.tmp, align 8			store i64 %t4, i64* %ref.tmp, align 8
	ret void			ret void
	}			}

llvm/trunk/test/CodeGen/X86/stores-merging.ll

	; RUN: llc < %s \| FileCheck %s			; RUN: llc < %s \| FileCheck %s

	target datalayout = "e-m:e-i64:64-f80:128-n8:16:32:64-S128"			target datalayout = "e-m:e-i64:64-f80:128-n8:16:32:64-S128"
	target triple = "x86_64-unknown-linux-gnu"			target triple = "x86_64-unknown-linux-gnu"

	%structTy = type { i8, i32, i32 }			%structTy = type { i8, i32, i32 }

	@e = common global %structTy zeroinitializer, align 4			@e = common global %structTy zeroinitializer, align 4

	;; Ensure that MergeConsecutiveStores doesn't incorrectly reorder			;; Ensure that MergeConsecutiveStores doesn't incorrectly reorder
	;; store operations. The first test stores in increasing address			;; store operations. The first test stores in increasing address
	;; order, the second in decreasing -- but in both cases should have			;; order, the second in decreasing -- but in both cases should have
	;; the same result in memory in the end.			;; the same result in memory in the end.

	; CHECK-LABEL: redundant_stores_merging:			; CHECK-LABEL: redundant_stores_merging:
	; CHECK: movl $123, e+8(%rip)			; CHECK: movabsq $528280977409, %rax
	; CHECK: movabsq $1958505086977, %rax
	; CHECK: movq %rax, e+4(%rip)			; CHECK: movq %rax, e+4(%rip)
				; CHECK: movl $456, e+8(%rip)
	define void @redundant_stores_merging() {			define void @redundant_stores_merging() {
	entry:			entry:
	store i32 1, i32* getelementptr inbounds (%structTy, %structTy* @e, i64 0, i32 1), align 4			store i32 1, i32* getelementptr inbounds (%structTy, %structTy* @e, i64 0, i32 1), align 4
	store i32 123, i32* getelementptr inbounds (%structTy, %structTy* @e, i64 0, i32 2), align 4			store i32 123, i32* getelementptr inbounds (%structTy, %structTy* @e, i64 0, i32 2), align 4
	store i32 456, i32* getelementptr inbounds (%structTy, %structTy* @e, i64 0, i32 2), align 4			store i32 456, i32* getelementptr inbounds (%structTy, %structTy* @e, i64 0, i32 2), align 4
	ret void			ret void
	}			}

	;; This variant tests PR25154.			;; This variant tests PR25154.
	; CHECK-LABEL: redundant_stores_merging_reverse:			; CHECK-LABEL: redundant_stores_merging_reverse:
	; CHECK: movl $123, e+8(%rip)			; CHECK: movabsq $528280977409, %rax
	; CHECK: movabsq $1958505086977, %rax
	; CHECK: movq %rax, e+4(%rip)			; CHECK: movq %rax, e+4(%rip)
				; CHECK: movl $456, e+8(%rip)
	define void @redundant_stores_merging_reverse() {			define void @redundant_stores_merging_reverse() {
	entry:			entry:
	store i32 123, i32* getelementptr inbounds (%structTy, %structTy* @e, i64 0, i32 2), align 4			store i32 123, i32* getelementptr inbounds (%structTy, %structTy* @e, i64 0, i32 2), align 4
	store i32 456, i32* getelementptr inbounds (%structTy, %structTy* @e, i64 0, i32 2), align 4			store i32 456, i32* getelementptr inbounds (%structTy, %structTy* @e, i64 0, i32 2), align 4
	store i32 1, i32* getelementptr inbounds (%structTy, %structTy* @e, i64 0, i32 1), align 4			store i32 1, i32* getelementptr inbounds (%structTy, %structTy* @e, i64 0, i32 1), align 4
	ret void			ret void
	}			}

	@b = common global [8 x i8] zeroinitializer, align 2			@b = common global [8 x i8] zeroinitializer, align 2

	;; The 2-byte store to offset 3 overlaps the 2-byte store to offset 2;			;; The 2-byte store to offset 3 overlaps the 2-byte store to offset 2;
	;; these must not be reordered in MergeConsecutiveStores such that the			;; these must not be reordered in MergeConsecutiveStores such that the
	;; store to 3 comes first (e.g. by merging the stores to 0 and 2 into			;; store to 3 comes first (e.g. by merging the stores to 0 and 2 into
	;; a movl, after the store to 3).			;; a movl, after the store to 3).

	;; CHECK-LABEL: overlapping_stores_merging:			;; CHECK-LABEL: overlapping_stores_merging:
	;; CHECK: movw $0, b+2(%rip)			;; CHECK: movl $1, b(%rip)
	;; CHECK: movw $2, b+3(%rip)			;; CHECK: movw $2, b+3(%rip)
	;; CHECK: movw $1, b(%rip)
	define void @overlapping_stores_merging() {			define void @overlapping_stores_merging() {
	entry:			entry:
	store i16 0, i16* bitcast (i8* getelementptr inbounds ([8 x i8], [8 x i8]* @b, i64 0, i64 2) to i16*), align 2			store i16 0, i16* bitcast (i8* getelementptr inbounds ([8 x i8], [8 x i8]* @b, i64 0, i64 2) to i16*), align 2
	store i16 2, i16* bitcast (i8* getelementptr inbounds ([8 x i8], [8 x i8]* @b, i64 0, i64 3) to i16*), align 1			store i16 2, i16* bitcast (i8* getelementptr inbounds ([8 x i8], [8 x i8]* @b, i64 0, i64 3) to i16*), align 1
	store i16 1, i16* bitcast (i8* getelementptr inbounds ([8 x i8], [8 x i8]* @b, i64 0, i64 0) to i16*), align 2			store i16 1, i16* bitcast (i8* getelementptr inbounds ([8 x i8], [8 x i8]* @b, i64 0, i64 0) to i16*), align 2
	ret void			ret void
	}			}

llvm/trunk/test/CodeGen/X86/vector-compare-results.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 321 Lines • ▼ Show 20 Lines
	; SSE2-LABEL: test_cmp_v32i8:			; SSE2-LABEL: test_cmp_v32i8:
	; SSE2: # BB#0:			; SSE2: # BB#0:
	; SSE2-NEXT: pcmpgtb %xmm2, %xmm0			; SSE2-NEXT: pcmpgtb %xmm2, %xmm0
	; SSE2-NEXT: pcmpgtb %xmm3, %xmm1			; SSE2-NEXT: pcmpgtb %xmm3, %xmm1
	; SSE2-NEXT: movdqa %xmm1, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: movdqa %xmm1, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 2(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
				; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, (%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movq %rdi, %rax			; SSE2-NEXT: movq %rdi, %rax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: test_cmp_v32i8:			; SSE42-LABEL: test_cmp_v32i8:
	; SSE42: # BB#0:			; SSE42: # BB#0:
	; SSE42-NEXT: pcmpgtb %xmm2, %xmm0			; SSE42-NEXT: pcmpgtb %xmm2, %xmm0
	▲ Show 20 Lines • Show All 378 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pand %xmm5, %xmm3			; SSE2-NEXT: pand %xmm5, %xmm3
	; SSE2-NEXT: pcmpgtw %xmm6, %xmm2			; SSE2-NEXT: pcmpgtw %xmm6, %xmm2
	; SSE2-NEXT: pand %xmm5, %xmm2			; SSE2-NEXT: pand %xmm5, %xmm2
	; SSE2-NEXT: packuswb %xmm3, %xmm2			; SSE2-NEXT: packuswb %xmm3, %xmm2
	; SSE2-NEXT: movdqa %xmm2, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: movdqa %xmm2, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 2(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
				; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, (%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movq %rdi, %rax			; SSE2-NEXT: movq %rdi, %rax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: test_cmp_v32i16:			; SSE42-LABEL: test_cmp_v32i16:
	; SSE42: # BB#0:			; SSE42: # BB#0:
	; SSE42-NEXT: pcmpgtw %xmm5, %xmm1			; SSE42-NEXT: pcmpgtw %xmm5, %xmm1
	▲ Show 20 Lines • Show All 149 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pcmpgtb %xmm4, %xmm0			; SSE2-NEXT: pcmpgtb %xmm4, %xmm0
	; SSE2-NEXT: pcmpgtb %xmm5, %xmm1			; SSE2-NEXT: pcmpgtb %xmm5, %xmm1
	; SSE2-NEXT: pcmpgtb %xmm6, %xmm2			; SSE2-NEXT: pcmpgtb %xmm6, %xmm2
	; SSE2-NEXT: pcmpgtb %xmm7, %xmm3			; SSE2-NEXT: pcmpgtb %xmm7, %xmm3
	; SSE2-NEXT: movdqa %xmm3, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: movdqa %xmm3, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movdqa %xmm2, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movdqa %xmm1, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 6(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
				; SSE2-NEXT: movdqa %xmm2, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 4(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
				; SSE2-NEXT: movdqa %xmm1, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 2(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
				; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, (%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movq %rdi, %rax			; SSE2-NEXT: movq %rdi, %rax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: test_cmp_v64i8:			; SSE42-LABEL: test_cmp_v64i8:
	; SSE42: # BB#0:			; SSE42: # BB#0:
	; SSE42-NEXT: pcmpgtb %xmm4, %xmm0			; SSE42-NEXT: pcmpgtb %xmm4, %xmm0
	▲ Show 20 Lines • Show All 877 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: psllw $15, %xmm4			; SSE2-NEXT: psllw $15, %xmm4
	; SSE2-NEXT: psraw $15, %xmm4			; SSE2-NEXT: psraw $15, %xmm4
	; SSE2-NEXT: pand %xmm3, %xmm4			; SSE2-NEXT: pand %xmm3, %xmm4
	; SSE2-NEXT: packuswb %xmm2, %xmm4			; SSE2-NEXT: packuswb %xmm2, %xmm4
	; SSE2-NEXT: movdqa %xmm4, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: movdqa %xmm4, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 2(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
				; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, (%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movq %rdi, %rax			; SSE2-NEXT: movq %rdi, %rax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: test_cmp_v32f32:			; SSE42-LABEL: test_cmp_v32f32:
	; SSE42: # BB#0:			; SSE42: # BB#0:
	; SSE42-NEXT: movaps {{[0-9]+}}(%rsp), %xmm9			; SSE42-NEXT: movaps {{[0-9]+}}(%rsp), %xmm9
	▲ Show 20 Lines • Show All 728 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: psllw $15, %xmm4			; SSE2-NEXT: psllw $15, %xmm4
	; SSE2-NEXT: psraw $15, %xmm4			; SSE2-NEXT: psraw $15, %xmm4
	; SSE2-NEXT: pand %xmm3, %xmm4			; SSE2-NEXT: pand %xmm3, %xmm4
	; SSE2-NEXT: packuswb %xmm2, %xmm4			; SSE2-NEXT: packuswb %xmm2, %xmm4
	; SSE2-NEXT: movdqa %xmm4, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: movdqa %xmm4, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 2(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
				; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, (%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movq %rdi, %rax			; SSE2-NEXT: movq %rdi, %rax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: test_cmp_v32i32:			; SSE42-LABEL: test_cmp_v32i32:
	; SSE42: # BB#0:			; SSE42: # BB#0:
	; SSE42-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm3			; SSE42-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm3
	▲ Show 20 Lines • Show All 416 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pand %xmm8, %xmm7			; SSE2-NEXT: pand %xmm8, %xmm7
	; SSE2-NEXT: pcmpgtw {{[0-9]+}}(%rsp), %xmm6			; SSE2-NEXT: pcmpgtw {{[0-9]+}}(%rsp), %xmm6
	; SSE2-NEXT: pand %xmm8, %xmm6			; SSE2-NEXT: pand %xmm8, %xmm6
	; SSE2-NEXT: packuswb %xmm7, %xmm6			; SSE2-NEXT: packuswb %xmm7, %xmm6
	; SSE2-NEXT: movdqa %xmm6, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: movdqa %xmm6, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movdqa %xmm4, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movdqa %xmm2, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 6(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
				; SSE2-NEXT: movdqa %xmm4, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 4(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
				; SSE2-NEXT: movdqa %xmm2, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 2(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
				; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, (%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movq %rdi, %rax			; SSE2-NEXT: movq %rdi, %rax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: test_cmp_v64i16:			; SSE42-LABEL: test_cmp_v64i16:
	; SSE42: # BB#0:			; SSE42: # BB#0:
	; SSE42-NEXT: pcmpgtw {{[0-9]+}}(%rsp), %xmm1			; SSE42-NEXT: pcmpgtw {{[0-9]+}}(%rsp), %xmm1
	▲ Show 20 Lines • Show All 952 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pcmpgtb {{[0-9]+}}(%rsp), %xmm4			; SSE2-NEXT: pcmpgtb {{[0-9]+}}(%rsp), %xmm4
	; SSE2-NEXT: pcmpgtb {{[0-9]+}}(%rsp), %xmm5			; SSE2-NEXT: pcmpgtb {{[0-9]+}}(%rsp), %xmm5
	; SSE2-NEXT: pcmpgtb {{[0-9]+}}(%rsp), %xmm6			; SSE2-NEXT: pcmpgtb {{[0-9]+}}(%rsp), %xmm6
	; SSE2-NEXT: pcmpgtb {{[0-9]+}}(%rsp), %xmm7			; SSE2-NEXT: pcmpgtb {{[0-9]+}}(%rsp), %xmm7
	; SSE2-NEXT: movdqa %xmm7, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: movdqa %xmm7, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 14(%rdi)			; SSE2-NEXT: movb %al, 14(%rdi)
	; SSE2-NEXT: movdqa %xmm6, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 12(%rdi)			; SSE2-NEXT: movb %al, 14(%rdi)
	; SSE2-NEXT: movdqa %xmm5, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 10(%rdi)
	; SSE2-NEXT: movdqa %xmm4, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 8(%rdi)
	; SSE2-NEXT: movdqa %xmm3, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 14(%rdi)
	; SSE2-NEXT: movdqa %xmm2, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 14(%rdi)
	; SSE2-NEXT: movdqa %xmm1, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 14(%rdi)
	; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 14(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 14(%rdi)			; SSE2-NEXT: movb %al, 14(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 12(%rdi)			; SSE2-NEXT: movb %al, 14(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 10(%rdi)			; SSE2-NEXT: movb %al, 14(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 8(%rdi)			; SSE2-NEXT: movb %al, 14(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 14(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 14(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 14(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 14(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 14(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 14(%rdi)			; SSE2-NEXT: movb %al, 14(%rdi)
				; SSE2-NEXT: movdqa %xmm6, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 12(%rdi)			; SSE2-NEXT: movb %al, 12(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 10(%rdi)			; SSE2-NEXT: movb %al, 12(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 8(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 12(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 12(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 12(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 14(%rdi)			; SSE2-NEXT: movb %al, 12(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 12(%rdi)			; SSE2-NEXT: movb %al, 12(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 10(%rdi)			; SSE2-NEXT: movb %al, 12(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 8(%rdi)			; SSE2-NEXT: movb %al, 12(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 12(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 12(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 12(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 12(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 14(%rdi)			; SSE2-NEXT: movb %al, 12(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 12(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 12(%rdi)			; SSE2-NEXT: movb %al, 12(%rdi)
				; SSE2-NEXT: movdqa %xmm5, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 10(%rdi)			; SSE2-NEXT: movb %al, 10(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 8(%rdi)			; SSE2-NEXT: movb %al, 10(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 10(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 10(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 14(%rdi)			; SSE2-NEXT: movb %al, 10(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 12(%rdi)			; SSE2-NEXT: movb %al, 10(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 10(%rdi)			; SSE2-NEXT: movb %al, 10(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 8(%rdi)			; SSE2-NEXT: movb %al, 10(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 10(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 10(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 10(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 10(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 14(%rdi)			; SSE2-NEXT: movb %al, 10(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 12(%rdi)			; SSE2-NEXT: movb %al, 10(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 10(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 10(%rdi)			; SSE2-NEXT: movb %al, 10(%rdi)
				; SSE2-NEXT: movdqa %xmm4, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 8(%rdi)			; SSE2-NEXT: movb %al, 8(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 8(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 8(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 14(%rdi)			; SSE2-NEXT: movb %al, 8(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 12(%rdi)			; SSE2-NEXT: movb %al, 8(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 10(%rdi)			; SSE2-NEXT: movb %al, 8(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 8(%rdi)			; SSE2-NEXT: movb %al, 8(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 8(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 8(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 8(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 8(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 14(%rdi)			; SSE2-NEXT: movb %al, 8(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 12(%rdi)			; SSE2-NEXT: movb %al, 8(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 10(%rdi)			; SSE2-NEXT: movb %al, 8(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 8(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 8(%rdi)			; SSE2-NEXT: movb %al, 8(%rdi)
				; SSE2-NEXT: movdqa %xmm3, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 14(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 12(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 10(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 8(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 14(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 12(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 6(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 10(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
				; SSE2-NEXT: movdqa %xmm2, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 8(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 14(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 12(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 10(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 8(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 14(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 4(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 12(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
				; SSE2-NEXT: movdqa %xmm1, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 10(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 8(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 14(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 12(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 10(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 8(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 2(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 14(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
				; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 12(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 10(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 8(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 14(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 12(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 10(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 8(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, (%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movq %rdi, %rax			; SSE2-NEXT: movq %rdi, %rax
	; SSE2-NEXT: popq %rcx			; SSE2-NEXT: popq %rcx
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: test_cmp_v128i8:			; SSE42-LABEL: test_cmp_v128i8:
	; SSE42: # BB#0:			; SSE42: # BB#0:
	▲ Show 20 Lines • Show All 1,365 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: psllw $15, %xmm2			; SSE2-NEXT: psllw $15, %xmm2
	; SSE2-NEXT: psraw $15, %xmm2			; SSE2-NEXT: psraw $15, %xmm2
	; SSE2-NEXT: pand %xmm1, %xmm2			; SSE2-NEXT: pand %xmm1, %xmm2
	; SSE2-NEXT: packuswb %xmm3, %xmm2			; SSE2-NEXT: packuswb %xmm3, %xmm2
	; SSE2-NEXT: movdqa %xmm2, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: movdqa %xmm2, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 2(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
				; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, (%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movq %rdi, %rax			; SSE2-NEXT: movq %rdi, %rax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: test_cmp_v32f64:			; SSE42-LABEL: test_cmp_v32f64:
	; SSE42: # BB#0:			; SSE42: # BB#0:
	; SSE42-NEXT: pushq %rbp			; SSE42-NEXT: pushq %rbp
	▲ Show 20 Lines • Show All 794 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: psllw $15, %xmm3			; SSE2-NEXT: psllw $15, %xmm3
	; SSE2-NEXT: psraw $15, %xmm3			; SSE2-NEXT: psraw $15, %xmm3
	; SSE2-NEXT: pand %xmm9, %xmm3			; SSE2-NEXT: pand %xmm9, %xmm3
	; SSE2-NEXT: packuswb %xmm1, %xmm3			; SSE2-NEXT: packuswb %xmm1, %xmm3
	; SSE2-NEXT: movdqa %xmm3, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: movdqa %xmm3, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 2(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
				; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, (%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movq %rdi, %rax			; SSE2-NEXT: movq %rdi, %rax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: test_cmp_v32i64:			; SSE42-LABEL: test_cmp_v32i64:
	; SSE42: # BB#0:			; SSE42: # BB#0:
	; SSE42-NEXT: movdqa %xmm0, %xmm8			; SSE42-NEXT: movdqa %xmm0, %xmm8
	▲ Show 20 Lines • Show All 548 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-variable-128.ll

Show All 30 Lines
}		}

define <2 x i64> @var_shuffle_v2i64_v2i64_xx_i64(<2 x i64> %x, i32 %i0, i32 %i1) nounwind {		define <2 x i64> @var_shuffle_v2i64_v2i64_xx_i64(<2 x i64> %x, i32 %i0, i32 %i1) nounwind {
; SSE-LABEL: var_shuffle_v2i64_v2i64_xx_i64:		; SSE-LABEL: var_shuffle_v2i64_v2i64_xx_i64:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: movslq %edi, %rax		; SSE-NEXT: movslq %edi, %rax
; SSE-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSE-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSE-NEXT: movslq %esi, %rcx		; SSE-NEXT: movslq %esi, %rcx
; SSE-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
; SSE-NEXT: movq {{.*#+}} xmm1 = mem[0],zero		; SSE-NEXT: movq {{.*#+}} xmm1 = mem[0],zero
		; SSE-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: var_shuffle_v2i64_v2i64_xx_i64:		; AVX-LABEL: var_shuffle_v2i64_v2i64_xx_i64:
; AVX: # BB#0:		; AVX: # BB#0:
; AVX-NEXT: movslq %edi, %rax		; AVX-NEXT: movslq %edi, %rax
; AVX-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)		; AVX-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)
; AVX-NEXT: movslq %esi, %rcx		; AVX-NEXT: movslq %esi, %rcx
; AVX-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
; AVX-NEXT: retq		; AVX-NEXT: retq
%x0 = extractelement <2 x i64> %x, i32 %i0		%x0 = extractelement <2 x i64> %x, i32 %i0
%x1 = extractelement <2 x i64> %x, i32 %i1		%x1 = extractelement <2 x i64> %x, i32 %i1
%r0 = insertelement <2 x i64> undef, i64 %x0, i32 0		%r0 = insertelement <2 x i64> undef, i64 %x0, i32 0
%r1 = insertelement <2 x i64> %r0, i64 %x1, i32 1		%r1 = insertelement <2 x i64> %r0, i64 %x1, i32 1
ret <2 x i64> %r1		ret <2 x i64> %r1
}		}

define <4 x float> @var_shuffle_v4f32_v4f32_xxxx_i32(<4 x float> %x, i32 %i0, i32 %i1, i32 %i2, i32 %i3) nounwind {		define <4 x float> @var_shuffle_v4f32_v4f32_xxxx_i32(<4 x float> %x, i32 %i0, i32 %i1, i32 %i2, i32 %i3) nounwind {
; SSE2-LABEL: var_shuffle_v4f32_v4f32_xxxx_i32:		; SSE2-LABEL: var_shuffle_v4f32_v4f32_xxxx_i32:
; SSE2: # BB#0:		; SSE2: # BB#0:
; SSE2-NEXT: movslq %edi, %rax		; SSE2-NEXT: movslq %edi, %rax
; SSE2-NEXT: movslq %esi, %rsi		; SSE2-NEXT: movslq %esi, %rsi
; SSE2-NEXT: movslq %edx, %rdx		; SSE2-NEXT: movslq %edx, %rdx
; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSE2-NEXT: movslq %ecx, %rcx		; SSE2-NEXT: movslq %ecx, %rcx
; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero		; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
		; SSE2-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero		; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
		; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]		; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
; SSE2-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: var_shuffle_v4f32_v4f32_xxxx_i32:		; SSSE3-LABEL: var_shuffle_v4f32_v4f32_xxxx_i32:
; SSSE3: # BB#0:		; SSSE3: # BB#0:
; SSSE3-NEXT: movslq %edi, %rax		; SSSE3-NEXT: movslq %edi, %rax
; SSSE3-NEXT: movslq %esi, %rsi		; SSSE3-NEXT: movslq %esi, %rsi
; SSSE3-NEXT: movslq %edx, %rdx		; SSSE3-NEXT: movslq %edx, %rdx
; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSSE3-NEXT: movslq %ecx, %rcx		; SSSE3-NEXT: movslq %ecx, %rcx
; SSSE3-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSSE3-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSSE3-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero		; SSSE3-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
		; SSSE3-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; SSSE3-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero		; SSSE3-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
		; SSSE3-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSSE3-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]		; SSSE3-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSSE3-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
; SSSE3-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; SSSE3-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; SSSE3-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: var_shuffle_v4f32_v4f32_xxxx_i32:		; SSE41-LABEL: var_shuffle_v4f32_v4f32_xxxx_i32:
; SSE41: # BB#0:		; SSE41: # BB#0:
; SSE41-NEXT: movslq %edi, %rax		; SSE41-NEXT: movslq %edi, %rax
; SSE41-NEXT: movslq %esi, %rsi		; SSE41-NEXT: movslq %esi, %rsi
; SSE41-NEXT: movslq %edx, %rdx		; SSE41-NEXT: movslq %edx, %rdx
Show All 33 Lines
; SSE2: # BB#0:		; SSE2: # BB#0:
; SSE2-NEXT: movslq %edi, %rax		; SSE2-NEXT: movslq %edi, %rax
; SSE2-NEXT: movslq %esi, %rsi		; SSE2-NEXT: movslq %esi, %rsi
; SSE2-NEXT: movslq %edx, %rdx		; SSE2-NEXT: movslq %edx, %rdx
; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSE2-NEXT: movslq %ecx, %rcx		; SSE2-NEXT: movslq %ecx, %rcx
; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero		; SSE2-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
		; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; SSE2-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero		; SSE2-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
		; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSE2-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: var_shuffle_v4i32_v4i32_xxxx_i32:		; SSSE3-LABEL: var_shuffle_v4i32_v4i32_xxxx_i32:
; SSSE3: # BB#0:		; SSSE3: # BB#0:
; SSSE3-NEXT: movslq %edi, %rax		; SSSE3-NEXT: movslq %edi, %rax
; SSSE3-NEXT: movslq %esi, %rsi		; SSSE3-NEXT: movslq %esi, %rsi
; SSSE3-NEXT: movslq %edx, %rdx		; SSSE3-NEXT: movslq %edx, %rdx
; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSSE3-NEXT: movslq %ecx, %rcx		; SSSE3-NEXT: movslq %ecx, %rcx
; SSSE3-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSSE3-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSSE3-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero		; SSSE3-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
		; SSSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; SSSE3-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero		; SSSE3-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
		; SSSE3-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]		; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSSE3-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
; SSSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: var_shuffle_v4i32_v4i32_xxxx_i32:		; SSE41-LABEL: var_shuffle_v4i32_v4i32_xxxx_i32:
; SSE41: # BB#0:		; SSE41: # BB#0:
; SSE41-NEXT: movslq %edi, %rax		; SSE41-NEXT: movslq %edi, %rax
; SSE41-NEXT: movslq %esi, %rsi		; SSE41-NEXT: movslq %esi, %rsi
; SSE41-NEXT: movslq %edx, %rdx		; SSE41-NEXT: movslq %edx, %rdx
Show All 32 Lines
; SSE2-LABEL: var_shuffle_v8i16_v8i16_xxxxxxxx_i16:		; SSE2-LABEL: var_shuffle_v8i16_v8i16_xxxxxxxx_i16:
; SSE2: # BB#0:		; SSE2: # BB#0:
; SSE2-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>		; SSE2-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>
; SSE2-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>		; SSE2-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>
; SSE2-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>		; SSE2-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
; SSE2-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>		; SSE2-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
; SSE2-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>		; SSE2-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>
; SSE2-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>		; SSE2-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
; SSE2-NEXT: movswq %di, %rax		; SSE2-NEXT: movswq %di, %r10
; SSE2-NEXT: movswq %si, %rsi		; SSE2-NEXT: movswq %si, %rsi
; SSE2-NEXT: movswq %dx, %rdx		; SSE2-NEXT: movswq %dx, %r11
; SSE2-NEXT: movswq %cx, %r10		; SSE2-NEXT: movswq %cx, %rcx
; SSE2-NEXT: movswq %r8w, %r11		; SSE2-NEXT: movswq %r8w, %r8
; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSE2-NEXT: movswq %r9w, %r8		; SSE2-NEXT: movswq %r9w, %rax
; SSE2-NEXT: movswq {{[0-9]+}}(%rsp), %rcx		; SSE2-NEXT: movswq {{[0-9]+}}(%rsp), %rdx
; SSE2-NEXT: movswq {{[0-9]+}}(%rsp), %rdi		; SSE2-NEXT: movswq {{[0-9]+}}(%rsp), %rdi
; SSE2-NEXT: movzwl -24(%rsp,%rcx,2), %ecx
; SSE2-NEXT: movzwl -24(%rsp,%rdi,2), %edi		; SSE2-NEXT: movzwl -24(%rsp,%rdi,2), %edi
; SSE2-NEXT: movzwl -24(%rsp,%rax,2), %eax		; SSE2-NEXT: movd %edi, %xmm0
; SSE2-NEXT: movzwl -24(%rsp,%rsi,2), %esi		; SSE2-NEXT: movzwl -24(%rsp,%rcx,2), %ecx
; SSE2-NEXT: movd %ecx, %xmm0
; SSE2-NEXT: movzwl -24(%rsp,%rdx,2), %ecx
; SSE2-NEXT: movd %ecx, %xmm1		; SSE2-NEXT: movd %ecx, %xmm1
; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]		; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
; SSE2-NEXT: movzwl -24(%rsp,%r10,2), %ecx		; SSE2-NEXT: movzwl -24(%rsp,%rax,2), %eax
; SSE2-NEXT: movd %eax, %xmm0		; SSE2-NEXT: movd %eax, %xmm0
; SSE2-NEXT: movzwl -24(%rsp,%r11,2), %eax		; SSE2-NEXT: movzwl -24(%rsp,%rsi,2), %eax
; SSE2-NEXT: movd %eax, %xmm2		; SSE2-NEXT: movd %eax, %xmm2
; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]		; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
; SSE2-NEXT: movd %edi, %xmm1
; SSE2-NEXT: movd %ecx, %xmm2
; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]		; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
; SSE2-NEXT: movd %esi, %xmm1		; SSE2-NEXT: movzwl -24(%rsp,%rdx,2), %eax
		; SSE2-NEXT: movd %eax, %xmm0
		; SSE2-NEXT: movzwl -24(%rsp,%r11,2), %eax
		; SSE2-NEXT: movd %eax, %xmm1
		; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
; SSE2-NEXT: movzwl -24(%rsp,%r8,2), %eax		; SSE2-NEXT: movzwl -24(%rsp,%r8,2), %eax
; SSE2-NEXT: movd %eax, %xmm3		; SSE2-NEXT: movd %eax, %xmm3
; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3]		; SSE2-NEXT: movzwl -24(%rsp,%r10,2), %eax
; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]		; SSE2-NEXT: movd %eax, %xmm0
		; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]		; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
		; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: var_shuffle_v8i16_v8i16_xxxxxxxx_i16:		; SSSE3-LABEL: var_shuffle_v8i16_v8i16_xxxxxxxx_i16:
; SSSE3: # BB#0:		; SSSE3: # BB#0:
; SSSE3-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>		; SSSE3-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>
; SSSE3-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>		; SSSE3-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>
; SSSE3-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>		; SSSE3-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
; SSSE3-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>		; SSSE3-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
; SSSE3-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>		; SSSE3-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>
; SSSE3-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>		; SSSE3-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
; SSSE3-NEXT: movswq %di, %rax		; SSSE3-NEXT: movswq %di, %r10
; SSSE3-NEXT: movswq %si, %rsi		; SSSE3-NEXT: movswq %si, %rsi
; SSSE3-NEXT: movswq %dx, %rdx		; SSSE3-NEXT: movswq %dx, %r11
; SSSE3-NEXT: movswq %cx, %r10		; SSSE3-NEXT: movswq %cx, %rcx
; SSSE3-NEXT: movswq %r8w, %r11		; SSSE3-NEXT: movswq %r8w, %r8
; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSSE3-NEXT: movswq %r9w, %r8		; SSSE3-NEXT: movswq %r9w, %rax
; SSSE3-NEXT: movswq {{[0-9]+}}(%rsp), %rcx		; SSSE3-NEXT: movswq {{[0-9]+}}(%rsp), %rdx
; SSSE3-NEXT: movswq {{[0-9]+}}(%rsp), %rdi		; SSSE3-NEXT: movswq {{[0-9]+}}(%rsp), %rdi
; SSSE3-NEXT: movzwl -24(%rsp,%rcx,2), %ecx
; SSSE3-NEXT: movzwl -24(%rsp,%rdi,2), %edi		; SSSE3-NEXT: movzwl -24(%rsp,%rdi,2), %edi
; SSSE3-NEXT: movzwl -24(%rsp,%rax,2), %eax		; SSSE3-NEXT: movd %edi, %xmm0
; SSSE3-NEXT: movzwl -24(%rsp,%rsi,2), %esi		; SSSE3-NEXT: movzwl -24(%rsp,%rcx,2), %ecx
; SSSE3-NEXT: movd %ecx, %xmm0
; SSSE3-NEXT: movzwl -24(%rsp,%rdx,2), %ecx
; SSSE3-NEXT: movd %ecx, %xmm1		; SSSE3-NEXT: movd %ecx, %xmm1
; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]		; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
; SSSE3-NEXT: movzwl -24(%rsp,%r10,2), %ecx		; SSSE3-NEXT: movzwl -24(%rsp,%rax,2), %eax
; SSSE3-NEXT: movd %eax, %xmm0		; SSSE3-NEXT: movd %eax, %xmm0
; SSSE3-NEXT: movzwl -24(%rsp,%r11,2), %eax		; SSSE3-NEXT: movzwl -24(%rsp,%rsi,2), %eax
; SSSE3-NEXT: movd %eax, %xmm2		; SSSE3-NEXT: movd %eax, %xmm2
; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]		; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
; SSSE3-NEXT: movd %edi, %xmm1
; SSSE3-NEXT: movd %ecx, %xmm2
; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]		; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
; SSSE3-NEXT: movd %esi, %xmm1		; SSSE3-NEXT: movzwl -24(%rsp,%rdx,2), %eax
		; SSSE3-NEXT: movd %eax, %xmm0
		; SSSE3-NEXT: movzwl -24(%rsp,%r11,2), %eax
		; SSSE3-NEXT: movd %eax, %xmm1
		; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
; SSSE3-NEXT: movzwl -24(%rsp,%r8,2), %eax		; SSSE3-NEXT: movzwl -24(%rsp,%r8,2), %eax
; SSSE3-NEXT: movd %eax, %xmm3		; SSSE3-NEXT: movd %eax, %xmm3
; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3]		; SSSE3-NEXT: movzwl -24(%rsp,%r10,2), %eax
; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]		; SSSE3-NEXT: movd %eax, %xmm0
		; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]		; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
		; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: var_shuffle_v8i16_v8i16_xxxxxxxx_i16:		; SSE41-LABEL: var_shuffle_v8i16_v8i16_xxxxxxxx_i16:
; SSE41: # BB#0:		; SSE41: # BB#0:
; SSE41-NEXT: pushq %rbx
; SSE41-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>		; SSE41-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>
; SSE41-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>		; SSE41-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>
; SSE41-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>		; SSE41-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
; SSE41-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>		; SSE41-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
; SSE41-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>		; SSE41-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>
; SSE41-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>		; SSE41-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
; SSE41-NEXT: movswq %di, %rax		; SSE41-NEXT: movswq %di, %rax
; SSE41-NEXT: movswq %si, %rbx		; SSE41-NEXT: movswq %si, %rsi
; SSE41-NEXT: movswq %dx, %r11		; SSE41-NEXT: movswq %dx, %rdx
; SSE41-NEXT: movswq %cx, %r10		; SSE41-NEXT: movswq %cx, %r10
; SSE41-NEXT: movswq %r8w, %rdi		; SSE41-NEXT: movswq %r8w, %rdi
; SSE41-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSE41-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSE41-NEXT: movswq %r9w, %rcx		; SSE41-NEXT: movswq %r9w, %rcx
; SSE41-NEXT: movswq {{[0-9]+}}(%rsp), %rdx		; SSE41-NEXT: movswq {{[0-9]+}}(%rsp), %r8
; SSE41-NEXT: movswq {{[0-9]+}}(%rsp), %rsi		; SSE41-NEXT: movswq {{[0-9]+}}(%rsp), %r9
; SSE41-NEXT: movzwl -16(%rsp,%rdx,2), %edx		; SSE41-NEXT: movzwl -24(%rsp,%rax,2), %eax
; SSE41-NEXT: movzwl -16(%rsp,%rsi,2), %esi
; SSE41-NEXT: movzwl -16(%rsp,%rax,2), %eax
; SSE41-NEXT: movd %eax, %xmm0		; SSE41-NEXT: movd %eax, %xmm0
; SSE41-NEXT: pinsrw $1, -16(%rsp,%rbx,2), %xmm0		; SSE41-NEXT: pinsrw $1, -24(%rsp,%rsi,2), %xmm0
; SSE41-NEXT: pinsrw $2, -16(%rsp,%r11,2), %xmm0		; SSE41-NEXT: pinsrw $2, -24(%rsp,%rdx,2), %xmm0
; SSE41-NEXT: pinsrw $3, -16(%rsp,%r10,2), %xmm0		; SSE41-NEXT: pinsrw $3, -24(%rsp,%r10,2), %xmm0
; SSE41-NEXT: pinsrw $4, -16(%rsp,%rdi,2), %xmm0		; SSE41-NEXT: pinsrw $4, -24(%rsp,%rdi,2), %xmm0
; SSE41-NEXT: pinsrw $5, -16(%rsp,%rcx,2), %xmm0		; SSE41-NEXT: pinsrw $5, -24(%rsp,%rcx,2), %xmm0
; SSE41-NEXT: pinsrw $6, %edx, %xmm0		; SSE41-NEXT: pinsrw $6, -24(%rsp,%r8,2), %xmm0
; SSE41-NEXT: pinsrw $7, %esi, %xmm0		; SSE41-NEXT: pinsrw $7, -24(%rsp,%r9,2), %xmm0
; SSE41-NEXT: popq %rbx
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX-LABEL: var_shuffle_v8i16_v8i16_xxxxxxxx_i16:		; AVX-LABEL: var_shuffle_v8i16_v8i16_xxxxxxxx_i16:
; AVX: # BB#0:		; AVX: # BB#0:
; AVX-NEXT: pushq %r14		; AVX-NEXT: pushq %r14
; AVX-NEXT: pushq %rbx		; AVX-NEXT: pushq %rbx
; AVX-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>		; AVX-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>
; AVX-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>		; AVX-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>
; AVX-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>		; AVX-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
; AVX-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>		; AVX-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
; AVX-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>		; AVX-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>
; AVX-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>		; AVX-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
; AVX-NEXT: movswq %di, %r10		; AVX-NEXT: movswq %di, %r10
; AVX-NEXT: movswq %si, %r11		; AVX-NEXT: movswq %si, %r11
; AVX-NEXT: movswq %dx, %r14		; AVX-NEXT: movswq %dx, %r14
; AVX-NEXT: movswq %cx, %rcx		; AVX-NEXT: movswq %cx, %rcx
; AVX-NEXT: movswq %r8w, %rdi		; AVX-NEXT: movswq %r8w, %rdi
; AVX-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)		; AVX-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)
; AVX-NEXT: movswq %r9w, %rax		; AVX-NEXT: movswq %r9w, %rax
; AVX-NEXT: movswq {{[0-9]+}}(%rsp), %rsi		; AVX-NEXT: movswq {{[0-9]+}}(%rsp), %rsi
; AVX-NEXT: movswq {{[0-9]+}}(%rsp), %rdx		; AVX-NEXT: movswq {{[0-9]+}}(%rsp), %rdx
; AVX-NEXT: movzwl -24(%rsp,%rsi,2), %esi
; AVX-NEXT: movzwl -24(%rsp,%rdx,2), %edx
; AVX-NEXT: movzwl -24(%rsp,%r10,2), %ebx		; AVX-NEXT: movzwl -24(%rsp,%r10,2), %ebx
; AVX-NEXT: vmovd %ebx, %xmm0		; AVX-NEXT: vmovd %ebx, %xmm0
; AVX-NEXT: vpinsrw $1, -24(%rsp,%r11,2), %xmm0, %xmm0		; AVX-NEXT: vpinsrw $1, -24(%rsp,%r11,2), %xmm0, %xmm0
; AVX-NEXT: vpinsrw $2, -24(%rsp,%r14,2), %xmm0, %xmm0		; AVX-NEXT: vpinsrw $2, -24(%rsp,%r14,2), %xmm0, %xmm0
; AVX-NEXT: vpinsrw $3, -24(%rsp,%rcx,2), %xmm0, %xmm0		; AVX-NEXT: vpinsrw $3, -24(%rsp,%rcx,2), %xmm0, %xmm0
; AVX-NEXT: vpinsrw $4, -24(%rsp,%rdi,2), %xmm0, %xmm0		; AVX-NEXT: vpinsrw $4, -24(%rsp,%rdi,2), %xmm0, %xmm0
; AVX-NEXT: vpinsrw $5, -24(%rsp,%rax,2), %xmm0, %xmm0		; AVX-NEXT: vpinsrw $5, -24(%rsp,%rax,2), %xmm0, %xmm0
; AVX-NEXT: vpinsrw $6, %esi, %xmm0, %xmm0		; AVX-NEXT: vpinsrw $6, -24(%rsp,%rsi,2), %xmm0, %xmm0
; AVX-NEXT: vpinsrw $7, %edx, %xmm0, %xmm0		; AVX-NEXT: vpinsrw $7, -24(%rsp,%rdx,2), %xmm0, %xmm0
; AVX-NEXT: popq %rbx		; AVX-NEXT: popq %rbx
; AVX-NEXT: popq %r14		; AVX-NEXT: popq %r14
; AVX-NEXT: retq		; AVX-NEXT: retq
%x0 = extractelement <8 x i16> %x, i16 %i0		%x0 = extractelement <8 x i16> %x, i16 %i0
%x1 = extractelement <8 x i16> %x, i16 %i1		%x1 = extractelement <8 x i16> %x, i16 %i1
%x2 = extractelement <8 x i16> %x, i16 %i2		%x2 = extractelement <8 x i16> %x, i16 %i2
%x3 = extractelement <8 x i16> %x, i16 %i3		%x3 = extractelement <8 x i16> %x, i16 %i3
%x4 = extractelement <8 x i16> %x, i16 %i4		%x4 = extractelement <8 x i16> %x, i16 %i4
Show All 19 Lines
; SSE2-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>		; SSE2-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
; SSE2-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>		; SSE2-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
; SSE2-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>		; SSE2-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>
; SSE2-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>		; SSE2-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSE2-NEXT: movsbq {{[0-9]+}}(%rsp), %r10		; SSE2-NEXT: movsbq {{[0-9]+}}(%rsp), %r10
; SSE2-NEXT: leaq -{{[0-9]+}}(%rsp), %r11		; SSE2-NEXT: leaq -{{[0-9]+}}(%rsp), %r11
; SSE2-NEXT: movzbl (%r10,%r11), %eax		; SSE2-NEXT: movzbl (%r10,%r11), %eax
; SSE2-NEXT: movd %eax, %xmm15		; SSE2-NEXT: movd %eax, %xmm8
; SSE2-NEXT: movsbq {{[0-9]+}}(%rsp), %rax		; SSE2-NEXT: movsbq {{[0-9]+}}(%rsp), %rax
; SSE2-NEXT: movzbl (%rax,%r11), %eax		; SSE2-NEXT: movzbl (%rax,%r11), %eax
; SSE2-NEXT: movd %eax, %xmm8		; SSE2-NEXT: movd %eax, %xmm15
; SSE2-NEXT: movsbq {{[0-9]+}}(%rsp), %rax		; SSE2-NEXT: movsbq {{[0-9]+}}(%rsp), %rax
; SSE2-NEXT: movzbl (%rax,%r11), %eax		; SSE2-NEXT: movzbl (%rax,%r11), %eax
; SSE2-NEXT: movd %eax, %xmm9		; SSE2-NEXT: movd %eax, %xmm9
; SSE2-NEXT: movsbq %dl, %rax		; SSE2-NEXT: movsbq %cl, %rax
; SSE2-NEXT: movzbl (%rax,%r11), %eax		; SSE2-NEXT: movzbl (%rax,%r11), %eax
; SSE2-NEXT: movd %eax, %xmm3		; SSE2-NEXT: movd %eax, %xmm3
; SSE2-NEXT: movsbq {{[0-9]+}}(%rsp), %rax		; SSE2-NEXT: movsbq {{[0-9]+}}(%rsp), %rax
; SSE2-NEXT: movzbl (%rax,%r11), %eax		; SSE2-NEXT: movzbl (%rax,%r11), %eax
; SSE2-NEXT: movd %eax, %xmm10		; SSE2-NEXT: movd %eax, %xmm10
; SSE2-NEXT: movsbq %dil, %rax		; SSE2-NEXT: movsbq %r9b, %rax
; SSE2-NEXT: movzbl (%rax,%r11), %eax		; SSE2-NEXT: movzbl (%rax,%r11), %eax
; SSE2-NEXT: movd %eax, %xmm0		; SSE2-NEXT: movd %eax, %xmm7
; SSE2-NEXT: movsbq {{[0-9]+}}(%rsp), %rax		; SSE2-NEXT: movsbq {{[0-9]+}}(%rsp), %rax
; SSE2-NEXT: movzbl (%rax,%r11), %eax		; SSE2-NEXT: movzbl (%rax,%r11), %eax
; SSE2-NEXT: movd %eax, %xmm11		; SSE2-NEXT: movd %eax, %xmm11
; SSE2-NEXT: movsbq %r8b, %rax		; SSE2-NEXT: movsbq %sil, %rax
; SSE2-NEXT: movzbl (%rax,%r11), %eax		; SSE2-NEXT: movzbl (%rax,%r11), %eax
; SSE2-NEXT: movd %eax, %xmm7		; SSE2-NEXT: movd %eax, %xmm6
; SSE2-NEXT: movsbq {{[0-9]+}}(%rsp), %rax		; SSE2-NEXT: movsbq {{[0-9]+}}(%rsp), %rax
; SSE2-NEXT: movzbl (%rax,%r11), %eax		; SSE2-NEXT: movzbl (%rax,%r11), %eax
; SSE2-NEXT: movd %eax, %xmm2		; SSE2-NEXT: movd %eax, %xmm12
; SSE2-NEXT: movsbq {{[0-9]+}}(%rsp), %rax		; SSE2-NEXT: movsbq {{[0-9]+}}(%rsp), %rax
; SSE2-NEXT: movzbl (%rax,%r11), %eax		; SSE2-NEXT: movzbl (%rax,%r11), %eax
; SSE2-NEXT: movd %eax, %xmm12		; SSE2-NEXT: movd %eax, %xmm5
; SSE2-NEXT: movsbq {{[0-9]+}}(%rsp), %rax		; SSE2-NEXT: movsbq {{[0-9]+}}(%rsp), %rax
; SSE2-NEXT: movzbl (%rax,%r11), %eax		; SSE2-NEXT: movzbl (%rax,%r11), %eax
; SSE2-NEXT: movd %eax, %xmm13		; SSE2-NEXT: movd %eax, %xmm13
; SSE2-NEXT: movsbq %cl, %rax		; SSE2-NEXT: movsbq %dl, %rax
; SSE2-NEXT: movzbl (%rax,%r11), %eax		; SSE2-NEXT: movzbl (%rax,%r11), %eax
; SSE2-NEXT: movd %eax, %xmm6		; SSE2-NEXT: movd %eax, %xmm4
; SSE2-NEXT: movsbq {{[0-9]+}}(%rsp), %rax		; SSE2-NEXT: movsbq {{[0-9]+}}(%rsp), %rax
; SSE2-NEXT: movzbl (%rax,%r11), %eax		; SSE2-NEXT: movzbl (%rax,%r11), %eax
; SSE2-NEXT: movd %eax, %xmm14		; SSE2-NEXT: movd %eax, %xmm14
; SSE2-NEXT: movsbq %sil, %rax		; SSE2-NEXT: movsbq %r8b, %rax
; SSE2-NEXT: movzbl (%rax,%r11), %eax		; SSE2-NEXT: movzbl (%rax,%r11), %eax
; SSE2-NEXT: movd %eax, %xmm5		; SSE2-NEXT: movd %eax, %xmm1
; SSE2-NEXT: movsbq {{[0-9]+}}(%rsp), %rax		; SSE2-NEXT: movsbq {{[0-9]+}}(%rsp), %rax
; SSE2-NEXT: movzbl (%rax,%r11), %eax		; SSE2-NEXT: movzbl (%rax,%r11), %eax
; SSE2-NEXT: movd %eax, %xmm4		; SSE2-NEXT: movd %eax, %xmm2
; SSE2-NEXT: movsbq %r9b, %rax		; SSE2-NEXT: movsbq %dil, %rax
; SSE2-NEXT: movzbl (%rax,%r11), %eax		; SSE2-NEXT: movzbl (%rax,%r11), %eax
; SSE2-NEXT: movd %eax, %xmm1		; SSE2-NEXT: movd %eax, %xmm0
; SSE2-NEXT: punpcklbw {{.*#+}} xmm15 = xmm15[0],xmm8[0],xmm15[1],xmm8[1],xmm15[2],xmm8[2],xmm15[3],xmm8[3],xmm15[4],xmm8[4],xmm15[5],xmm8[5],xmm15[6],xmm8[6],xmm15[7],xmm8[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm15 = xmm15[0],xmm8[0],xmm15[1],xmm8[1],xmm15[2],xmm8[2],xmm15[3],xmm8[3],xmm15[4],xmm8[4],xmm15[5],xmm8[5],xmm15[6],xmm8[6],xmm15[7],xmm8[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm9[0],xmm3[1],xmm9[1],xmm3[2],xmm9[2],xmm3[3],xmm9[3],xmm3[4],xmm9[4],xmm3[5],xmm9[5],xmm3[6],xmm9[6],xmm3[7],xmm9[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm9[0],xmm3[1],xmm9[1],xmm3[2],xmm9[2],xmm3[3],xmm9[3],xmm3[4],xmm9[4],xmm3[5],xmm9[5],xmm3[6],xmm9[6],xmm3[7],xmm9[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm15[0],xmm3[1],xmm15[1],xmm3[2],xmm15[2],xmm3[3],xmm15[3],xmm3[4],xmm15[4],xmm3[5],xmm15[5],xmm3[6],xmm15[6],xmm3[7],xmm15[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm15[0],xmm3[1],xmm15[1],xmm3[2],xmm15[2],xmm3[3],xmm15[3],xmm3[4],xmm15[4],xmm3[5],xmm15[5],xmm3[6],xmm15[6],xmm3[7],xmm15[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm10[0],xmm0[1],xmm10[1],xmm0[2],xmm10[2],xmm0[3],xmm10[3],xmm0[4],xmm10[4],xmm0[5],xmm10[5],xmm0[6],xmm10[6],xmm0[7],xmm10[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm7 = xmm7[0],xmm10[0],xmm7[1],xmm10[1],xmm7[2],xmm10[2],xmm7[3],xmm10[3],xmm7[4],xmm10[4],xmm7[5],xmm10[5],xmm7[6],xmm10[6],xmm7[7],xmm10[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm7 = xmm7[0],xmm11[0],xmm7[1],xmm11[1],xmm7[2],xmm11[2],xmm7[3],xmm11[3],xmm7[4],xmm11[4],xmm7[5],xmm11[5],xmm7[6],xmm11[6],xmm7[7],xmm11[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm11[0],xmm6[1],xmm11[1],xmm6[2],xmm11[2],xmm6[3],xmm11[3],xmm6[4],xmm11[4],xmm6[5],xmm11[5],xmm6[6],xmm11[6],xmm6[7],xmm11[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm7[0],xmm0[1],xmm7[1],xmm0[2],xmm7[2],xmm0[3],xmm7[3],xmm0[4],xmm7[4],xmm0[5],xmm7[5],xmm0[6],xmm7[6],xmm0[7],xmm7[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm7[0],xmm6[1],xmm7[1],xmm6[2],xmm7[2],xmm6[3],xmm7[3],xmm6[4],xmm7[4],xmm6[5],xmm7[5],xmm6[6],xmm7[6],xmm6[7],xmm7[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm3[0],xmm6[1],xmm3[1],xmm6[2],xmm3[2],xmm6[3],xmm3[3],xmm6[4],xmm3[4],xmm6[5],xmm3[5],xmm6[6],xmm3[6],xmm6[7],xmm3[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm12[0],xmm2[1],xmm12[1],xmm2[2],xmm12[2],xmm2[3],xmm12[3],xmm2[4],xmm12[4],xmm2[5],xmm12[5],xmm2[6],xmm12[6],xmm2[7],xmm12[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm12[0],xmm5[1],xmm12[1],xmm5[2],xmm12[2],xmm5[3],xmm12[3],xmm5[4],xmm12[4],xmm5[5],xmm12[5],xmm5[6],xmm12[6],xmm5[7],xmm12[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm13[0],xmm6[1],xmm13[1],xmm6[2],xmm13[2],xmm6[3],xmm13[3],xmm6[4],xmm13[4],xmm6[5],xmm13[5],xmm6[6],xmm13[6],xmm6[7],xmm13[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm13[0],xmm4[1],xmm13[1],xmm4[2],xmm13[2],xmm4[3],xmm13[3],xmm4[4],xmm13[4],xmm4[5],xmm13[5],xmm4[6],xmm13[6],xmm4[7],xmm13[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm2[0],xmm6[1],xmm2[1],xmm6[2],xmm2[2],xmm6[3],xmm2[3],xmm6[4],xmm2[4],xmm6[5],xmm2[5],xmm6[6],xmm2[6],xmm6[7],xmm2[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1],xmm4[2],xmm5[2],xmm4[3],xmm5[3],xmm4[4],xmm5[4],xmm4[5],xmm5[5],xmm4[6],xmm5[6],xmm4[7],xmm5[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm14[0],xmm5[1],xmm14[1],xmm5[2],xmm14[2],xmm5[3],xmm14[3],xmm5[4],xmm14[4],xmm5[5],xmm14[5],xmm5[6],xmm14[6],xmm5[7],xmm14[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm14[0],xmm1[1],xmm14[1],xmm1[2],xmm14[2],xmm1[3],xmm14[3],xmm1[4],xmm14[4],xmm1[5],xmm14[5],xmm1[6],xmm14[6],xmm1[7],xmm14[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1],xmm1[2],xmm4[2],xmm1[3],xmm4[3],xmm1[4],xmm4[4],xmm1[5],xmm4[5],xmm1[6],xmm4[6],xmm1[7],xmm4[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm1[0],xmm5[1],xmm1[1],xmm5[2],xmm1[2],xmm5[3],xmm1[3],xmm5[4],xmm1[4],xmm5[5],xmm1[5],xmm5[6],xmm1[6],xmm5[7],xmm1[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm6[0],xmm5[1],xmm6[1],xmm5[2],xmm6[2],xmm5[3],xmm6[3],xmm5[4],xmm6[4],xmm5[5],xmm6[5],xmm5[6],xmm6[6],xmm5[7],xmm6[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm5[0],xmm0[1],xmm5[1],xmm0[2],xmm5[2],xmm0[3],xmm5[3],xmm0[4],xmm5[4],xmm0[5],xmm5[5],xmm0[6],xmm5[6],xmm0[7],xmm5[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1],xmm0[2],xmm6[2],xmm0[3],xmm6[3],xmm0[4],xmm6[4],xmm0[5],xmm6[5],xmm0[6],xmm6[6],xmm0[7],xmm6[7]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: var_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8:		; SSSE3-LABEL: var_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8:
; SSSE3: # BB#0:		; SSSE3: # BB#0:
; SSSE3-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>		; SSSE3-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>
; SSSE3-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>		; SSSE3-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>
; SSSE3-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>		; SSSE3-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
; SSSE3-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>		; SSSE3-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
; SSSE3-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>		; SSSE3-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>
; SSSE3-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>		; SSSE3-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSSE3-NEXT: movsbq {{[0-9]+}}(%rsp), %r10		; SSSE3-NEXT: movsbq {{[0-9]+}}(%rsp), %r10
; SSSE3-NEXT: leaq -{{[0-9]+}}(%rsp), %r11		; SSSE3-NEXT: leaq -{{[0-9]+}}(%rsp), %r11
; SSSE3-NEXT: movzbl (%r10,%r11), %eax		; SSSE3-NEXT: movzbl (%r10,%r11), %eax
; SSSE3-NEXT: movd %eax, %xmm15		; SSSE3-NEXT: movd %eax, %xmm8
; SSSE3-NEXT: movsbq {{[0-9]+}}(%rsp), %rax		; SSSE3-NEXT: movsbq {{[0-9]+}}(%rsp), %rax
; SSSE3-NEXT: movzbl (%rax,%r11), %eax		; SSSE3-NEXT: movzbl (%rax,%r11), %eax
; SSSE3-NEXT: movd %eax, %xmm8		; SSSE3-NEXT: movd %eax, %xmm15
; SSSE3-NEXT: movsbq {{[0-9]+}}(%rsp), %rax		; SSSE3-NEXT: movsbq {{[0-9]+}}(%rsp), %rax
; SSSE3-NEXT: movzbl (%rax,%r11), %eax		; SSSE3-NEXT: movzbl (%rax,%r11), %eax
; SSSE3-NEXT: movd %eax, %xmm9		; SSSE3-NEXT: movd %eax, %xmm9
; SSSE3-NEXT: movsbq %dl, %rax		; SSSE3-NEXT: movsbq %cl, %rax
; SSSE3-NEXT: movzbl (%rax,%r11), %eax		; SSSE3-NEXT: movzbl (%rax,%r11), %eax
; SSSE3-NEXT: movd %eax, %xmm3		; SSSE3-NEXT: movd %eax, %xmm3
; SSSE3-NEXT: movsbq {{[0-9]+}}(%rsp), %rax		; SSSE3-NEXT: movsbq {{[0-9]+}}(%rsp), %rax
; SSSE3-NEXT: movzbl (%rax,%r11), %eax		; SSSE3-NEXT: movzbl (%rax,%r11), %eax
; SSSE3-NEXT: movd %eax, %xmm10		; SSSE3-NEXT: movd %eax, %xmm10
; SSSE3-NEXT: movsbq %dil, %rax		; SSSE3-NEXT: movsbq %r9b, %rax
; SSSE3-NEXT: movzbl (%rax,%r11), %eax		; SSSE3-NEXT: movzbl (%rax,%r11), %eax
; SSSE3-NEXT: movd %eax, %xmm0		; SSSE3-NEXT: movd %eax, %xmm7
; SSSE3-NEXT: movsbq {{[0-9]+}}(%rsp), %rax		; SSSE3-NEXT: movsbq {{[0-9]+}}(%rsp), %rax
; SSSE3-NEXT: movzbl (%rax,%r11), %eax		; SSSE3-NEXT: movzbl (%rax,%r11), %eax
; SSSE3-NEXT: movd %eax, %xmm11		; SSSE3-NEXT: movd %eax, %xmm11
; SSSE3-NEXT: movsbq %r8b, %rax		; SSSE3-NEXT: movsbq %sil, %rax
; SSSE3-NEXT: movzbl (%rax,%r11), %eax		; SSSE3-NEXT: movzbl (%rax,%r11), %eax
; SSSE3-NEXT: movd %eax, %xmm7		; SSSE3-NEXT: movd %eax, %xmm6
; SSSE3-NEXT: movsbq {{[0-9]+}}(%rsp), %rax		; SSSE3-NEXT: movsbq {{[0-9]+}}(%rsp), %rax
; SSSE3-NEXT: movzbl (%rax,%r11), %eax		; SSSE3-NEXT: movzbl (%rax,%r11), %eax
; SSSE3-NEXT: movd %eax, %xmm2		; SSSE3-NEXT: movd %eax, %xmm12
; SSSE3-NEXT: movsbq {{[0-9]+}}(%rsp), %rax		; SSSE3-NEXT: movsbq {{[0-9]+}}(%rsp), %rax
; SSSE3-NEXT: movzbl (%rax,%r11), %eax		; SSSE3-NEXT: movzbl (%rax,%r11), %eax
; SSSE3-NEXT: movd %eax, %xmm12		; SSSE3-NEXT: movd %eax, %xmm5
; SSSE3-NEXT: movsbq {{[0-9]+}}(%rsp), %rax		; SSSE3-NEXT: movsbq {{[0-9]+}}(%rsp), %rax
; SSSE3-NEXT: movzbl (%rax,%r11), %eax		; SSSE3-NEXT: movzbl (%rax,%r11), %eax
; SSSE3-NEXT: movd %eax, %xmm13		; SSSE3-NEXT: movd %eax, %xmm13
; SSSE3-NEXT: movsbq %cl, %rax		; SSSE3-NEXT: movsbq %dl, %rax
; SSSE3-NEXT: movzbl (%rax,%r11), %eax		; SSSE3-NEXT: movzbl (%rax,%r11), %eax
; SSSE3-NEXT: movd %eax, %xmm6		; SSSE3-NEXT: movd %eax, %xmm4
; SSSE3-NEXT: movsbq {{[0-9]+}}(%rsp), %rax		; SSSE3-NEXT: movsbq {{[0-9]+}}(%rsp), %rax
; SSSE3-NEXT: movzbl (%rax,%r11), %eax		; SSSE3-NEXT: movzbl (%rax,%r11), %eax
; SSSE3-NEXT: movd %eax, %xmm14		; SSSE3-NEXT: movd %eax, %xmm14
; SSSE3-NEXT: movsbq %sil, %rax		; SSSE3-NEXT: movsbq %r8b, %rax
; SSSE3-NEXT: movzbl (%rax,%r11), %eax		; SSSE3-NEXT: movzbl (%rax,%r11), %eax
; SSSE3-NEXT: movd %eax, %xmm5		; SSSE3-NEXT: movd %eax, %xmm1
; SSSE3-NEXT: movsbq {{[0-9]+}}(%rsp), %rax		; SSSE3-NEXT: movsbq {{[0-9]+}}(%rsp), %rax
; SSSE3-NEXT: movzbl (%rax,%r11), %eax		; SSSE3-NEXT: movzbl (%rax,%r11), %eax
; SSSE3-NEXT: movd %eax, %xmm4		; SSSE3-NEXT: movd %eax, %xmm2
; SSSE3-NEXT: movsbq %r9b, %rax		; SSSE3-NEXT: movsbq %dil, %rax
; SSSE3-NEXT: movzbl (%rax,%r11), %eax		; SSSE3-NEXT: movzbl (%rax,%r11), %eax
; SSSE3-NEXT: movd %eax, %xmm1		; SSSE3-NEXT: movd %eax, %xmm0
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm15 = xmm15[0],xmm8[0],xmm15[1],xmm8[1],xmm15[2],xmm8[2],xmm15[3],xmm8[3],xmm15[4],xmm8[4],xmm15[5],xmm8[5],xmm15[6],xmm8[6],xmm15[7],xmm8[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm15 = xmm15[0],xmm8[0],xmm15[1],xmm8[1],xmm15[2],xmm8[2],xmm15[3],xmm8[3],xmm15[4],xmm8[4],xmm15[5],xmm8[5],xmm15[6],xmm8[6],xmm15[7],xmm8[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm9[0],xmm3[1],xmm9[1],xmm3[2],xmm9[2],xmm3[3],xmm9[3],xmm3[4],xmm9[4],xmm3[5],xmm9[5],xmm3[6],xmm9[6],xmm3[7],xmm9[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm9[0],xmm3[1],xmm9[1],xmm3[2],xmm9[2],xmm3[3],xmm9[3],xmm3[4],xmm9[4],xmm3[5],xmm9[5],xmm3[6],xmm9[6],xmm3[7],xmm9[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm15[0],xmm3[1],xmm15[1],xmm3[2],xmm15[2],xmm3[3],xmm15[3],xmm3[4],xmm15[4],xmm3[5],xmm15[5],xmm3[6],xmm15[6],xmm3[7],xmm15[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm15[0],xmm3[1],xmm15[1],xmm3[2],xmm15[2],xmm3[3],xmm15[3],xmm3[4],xmm15[4],xmm3[5],xmm15[5],xmm3[6],xmm15[6],xmm3[7],xmm15[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm10[0],xmm0[1],xmm10[1],xmm0[2],xmm10[2],xmm0[3],xmm10[3],xmm0[4],xmm10[4],xmm0[5],xmm10[5],xmm0[6],xmm10[6],xmm0[7],xmm10[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm7 = xmm7[0],xmm10[0],xmm7[1],xmm10[1],xmm7[2],xmm10[2],xmm7[3],xmm10[3],xmm7[4],xmm10[4],xmm7[5],xmm10[5],xmm7[6],xmm10[6],xmm7[7],xmm10[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm7 = xmm7[0],xmm11[0],xmm7[1],xmm11[1],xmm7[2],xmm11[2],xmm7[3],xmm11[3],xmm7[4],xmm11[4],xmm7[5],xmm11[5],xmm7[6],xmm11[6],xmm7[7],xmm11[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm11[0],xmm6[1],xmm11[1],xmm6[2],xmm11[2],xmm6[3],xmm11[3],xmm6[4],xmm11[4],xmm6[5],xmm11[5],xmm6[6],xmm11[6],xmm6[7],xmm11[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm7[0],xmm0[1],xmm7[1],xmm0[2],xmm7[2],xmm0[3],xmm7[3],xmm0[4],xmm7[4],xmm0[5],xmm7[5],xmm0[6],xmm7[6],xmm0[7],xmm7[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm7[0],xmm6[1],xmm7[1],xmm6[2],xmm7[2],xmm6[3],xmm7[3],xmm6[4],xmm7[4],xmm6[5],xmm7[5],xmm6[6],xmm7[6],xmm6[7],xmm7[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm3[0],xmm6[1],xmm3[1],xmm6[2],xmm3[2],xmm6[3],xmm3[3],xmm6[4],xmm3[4],xmm6[5],xmm3[5],xmm6[6],xmm3[6],xmm6[7],xmm3[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm12[0],xmm2[1],xmm12[1],xmm2[2],xmm12[2],xmm2[3],xmm12[3],xmm2[4],xmm12[4],xmm2[5],xmm12[5],xmm2[6],xmm12[6],xmm2[7],xmm12[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm12[0],xmm5[1],xmm12[1],xmm5[2],xmm12[2],xmm5[3],xmm12[3],xmm5[4],xmm12[4],xmm5[5],xmm12[5],xmm5[6],xmm12[6],xmm5[7],xmm12[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm13[0],xmm6[1],xmm13[1],xmm6[2],xmm13[2],xmm6[3],xmm13[3],xmm6[4],xmm13[4],xmm6[5],xmm13[5],xmm6[6],xmm13[6],xmm6[7],xmm13[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm13[0],xmm4[1],xmm13[1],xmm4[2],xmm13[2],xmm4[3],xmm13[3],xmm4[4],xmm13[4],xmm4[5],xmm13[5],xmm4[6],xmm13[6],xmm4[7],xmm13[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm2[0],xmm6[1],xmm2[1],xmm6[2],xmm2[2],xmm6[3],xmm2[3],xmm6[4],xmm2[4],xmm6[5],xmm2[5],xmm6[6],xmm2[6],xmm6[7],xmm2[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1],xmm4[2],xmm5[2],xmm4[3],xmm5[3],xmm4[4],xmm5[4],xmm4[5],xmm5[5],xmm4[6],xmm5[6],xmm4[7],xmm5[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm14[0],xmm5[1],xmm14[1],xmm5[2],xmm14[2],xmm5[3],xmm14[3],xmm5[4],xmm14[4],xmm5[5],xmm14[5],xmm5[6],xmm14[6],xmm5[7],xmm14[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm14[0],xmm1[1],xmm14[1],xmm1[2],xmm14[2],xmm1[3],xmm14[3],xmm1[4],xmm14[4],xmm1[5],xmm14[5],xmm1[6],xmm14[6],xmm1[7],xmm14[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1],xmm1[2],xmm4[2],xmm1[3],xmm4[3],xmm1[4],xmm4[4],xmm1[5],xmm4[5],xmm1[6],xmm4[6],xmm1[7],xmm4[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm1[0],xmm5[1],xmm1[1],xmm5[2],xmm1[2],xmm5[3],xmm1[3],xmm5[4],xmm1[4],xmm5[5],xmm1[5],xmm5[6],xmm1[6],xmm5[7],xmm1[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm6[0],xmm5[1],xmm6[1],xmm5[2],xmm6[2],xmm5[3],xmm6[3],xmm5[4],xmm6[4],xmm5[5],xmm6[5],xmm5[6],xmm6[6],xmm5[7],xmm6[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm5[0],xmm0[1],xmm5[1],xmm0[2],xmm5[2],xmm0[3],xmm5[3],xmm0[4],xmm5[4],xmm0[5],xmm5[5],xmm0[6],xmm5[6],xmm0[7],xmm5[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1],xmm0[2],xmm6[2],xmm0[3],xmm6[3],xmm0[4],xmm6[4],xmm0[5],xmm6[5],xmm0[6],xmm6[6],xmm0[7],xmm6[7]
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: var_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8:		; SSE41-LABEL: var_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8:
; SSE41: # BB#0:		; SSE41: # BB#0:
; SSE41-NEXT: pushq %rbp
; SSE41-NEXT: pushq %r15
; SSE41-NEXT: pushq %r14
; SSE41-NEXT: pushq %r13
; SSE41-NEXT: pushq %r12
; SSE41-NEXT: pushq %rbx
; SSE41-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>		; SSE41-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>
; SSE41-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>		; SSE41-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>
; SSE41-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>		; SSE41-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
; SSE41-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>		; SSE41-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
; SSE41-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>		; SSE41-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>
; SSE41-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>		; SSE41-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
; SSE41-NEXT: movsbq %dil, %r15		; SSE41-NEXT: movsbq %dil, %rdi
; SSE41-NEXT: movsbq %sil, %r14
; SSE41-NEXT: movsbq %dl, %r11
; SSE41-NEXT: movsbq %cl, %r10
; SSE41-NEXT: movsbq %r8b, %r8
; SSE41-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSE41-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSE41-NEXT: movsbq %r9b, %r9
; SSE41-NEXT: movsbq {{[0-9]+}}(%rsp), %r12
; SSE41-NEXT: movsbq {{[0-9]+}}(%rsp), %r13
; SSE41-NEXT: movsbq {{[0-9]+}}(%rsp), %rbp
; SSE41-NEXT: movsbq {{[0-9]+}}(%rsp), %rbx
; SSE41-NEXT: leaq -{{[0-9]+}}(%rsp), %rax		; SSE41-NEXT: leaq -{{[0-9]+}}(%rsp), %rax
; SSE41-NEXT: movzbl (%r15,%rax), %ecx		; SSE41-NEXT: movzbl (%rdi,%rax), %edi
; SSE41-NEXT: movd %ecx, %xmm0		; SSE41-NEXT: movd %edi, %xmm0
; SSE41-NEXT: movsbq {{[0-9]+}}(%rsp), %r15		; SSE41-NEXT: movsbq %sil, %rsi
; SSE41-NEXT: pinsrb $1, (%r14,%rax), %xmm0		; SSE41-NEXT: pinsrb $1, (%rsi,%rax), %xmm0
; SSE41-NEXT: movsbq {{[0-9]+}}(%rsp), %r14		; SSE41-NEXT: movsbq %dl, %rdx
; SSE41-NEXT: pinsrb $2, (%r11,%rax), %xmm0		; SSE41-NEXT: pinsrb $2, (%rdx,%rax), %xmm0
; SSE41-NEXT: movsbq {{[0-9]+}}(%rsp), %r11		; SSE41-NEXT: movsbq %cl, %rcx
; SSE41-NEXT: pinsrb $3, (%r10,%rax), %xmm0		; SSE41-NEXT: pinsrb $3, (%rcx,%rax), %xmm0
; SSE41-NEXT: movsbq {{[0-9]+}}(%rsp), %r10		; SSE41-NEXT: movsbq %r8b, %rcx
; SSE41-NEXT: pinsrb $4, (%r8,%rax), %xmm0		; SSE41-NEXT: pinsrb $4, (%rcx,%rax), %xmm0
		; SSE41-NEXT: movsbq %r9b, %rcx
		; SSE41-NEXT: pinsrb $5, (%rcx,%rax), %xmm0
; SSE41-NEXT: movsbq {{[0-9]+}}(%rsp), %rcx		; SSE41-NEXT: movsbq {{[0-9]+}}(%rsp), %rcx
; SSE41-NEXT: pinsrb $5, (%r9,%rax), %xmm0		; SSE41-NEXT: pinsrb $6, (%rcx,%rax), %xmm0
; SSE41-NEXT: movsbq {{[0-9]+}}(%rsp), %rdx		; SSE41-NEXT: movsbq {{[0-9]+}}(%rsp), %rcx
; SSE41-NEXT: movzbl (%r12,%rax), %esi		; SSE41-NEXT: pinsrb $7, (%rcx,%rax), %xmm0
; SSE41-NEXT: movzbl (%r13,%rax), %edi		; SSE41-NEXT: movsbq {{[0-9]+}}(%rsp), %rcx
; SSE41-NEXT: movzbl (%rbp,%rax), %ebp		; SSE41-NEXT: pinsrb $8, (%rcx,%rax), %xmm0
; SSE41-NEXT: movzbl (%rbx,%rax), %ebx		; SSE41-NEXT: movsbq {{[0-9]+}}(%rsp), %rcx
; SSE41-NEXT: movzbl (%r15,%rax), %r8d		; SSE41-NEXT: pinsrb $9, (%rcx,%rax), %xmm0
; SSE41-NEXT: movzbl (%r14,%rax), %r9d		; SSE41-NEXT: movsbq {{[0-9]+}}(%rsp), %rcx
; SSE41-NEXT: movzbl (%r11,%rax), %r11d		; SSE41-NEXT: pinsrb $10, (%rcx,%rax), %xmm0
; SSE41-NEXT: movzbl (%r10,%rax), %r10d		; SSE41-NEXT: movsbq {{[0-9]+}}(%rsp), %rcx
; SSE41-NEXT: movzbl (%rcx,%rax), %ecx		; SSE41-NEXT: pinsrb $11, (%rcx,%rax), %xmm0
; SSE41-NEXT: movzbl (%rdx,%rax), %eax		; SSE41-NEXT: movsbq {{[0-9]+}}(%rsp), %rcx
; SSE41-NEXT: pinsrb $6, %esi, %xmm0		; SSE41-NEXT: pinsrb $12, (%rcx,%rax), %xmm0
; SSE41-NEXT: pinsrb $7, %edi, %xmm0		; SSE41-NEXT: movsbq {{[0-9]+}}(%rsp), %rcx
; SSE41-NEXT: pinsrb $8, %ebp, %xmm0		; SSE41-NEXT: pinsrb $13, (%rcx,%rax), %xmm0
; SSE41-NEXT: pinsrb $9, %ebx, %xmm0		; SSE41-NEXT: movsbq {{[0-9]+}}(%rsp), %rcx
; SSE41-NEXT: pinsrb $10, %r8d, %xmm0		; SSE41-NEXT: pinsrb $14, (%rcx,%rax), %xmm0
; SSE41-NEXT: pinsrb $11, %r9d, %xmm0		; SSE41-NEXT: movsbq {{[0-9]+}}(%rsp), %rcx
; SSE41-NEXT: pinsrb $12, %r11d, %xmm0		; SSE41-NEXT: pinsrb $15, (%rcx,%rax), %xmm0
; SSE41-NEXT: pinsrb $13, %r10d, %xmm0
; SSE41-NEXT: pinsrb $14, %ecx, %xmm0
; SSE41-NEXT: pinsrb $15, %eax, %xmm0
; SSE41-NEXT: popq %rbx
; SSE41-NEXT: popq %r12
; SSE41-NEXT: popq %r13
; SSE41-NEXT: popq %r14
; SSE41-NEXT: popq %r15
; SSE41-NEXT: popq %rbp
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX-LABEL: var_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8:		; AVX-LABEL: var_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8:
; AVX: # BB#0:		; AVX: # BB#0:
; AVX-NEXT: pushq %rbp
; AVX-NEXT: pushq %r15
; AVX-NEXT: pushq %r14
; AVX-NEXT: pushq %r13
; AVX-NEXT: pushq %r12
; AVX-NEXT: pushq %rbx
; AVX-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>		; AVX-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>
; AVX-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>		; AVX-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>
; AVX-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>		; AVX-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
; AVX-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>		; AVX-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
; AVX-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>		; AVX-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>
; AVX-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>		; AVX-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
; AVX-NEXT: movsbq %dil, %r10		; AVX-NEXT: movsbq %dil, %rax
; AVX-NEXT: movsbq %sil, %r11
; AVX-NEXT: movsbq %dl, %r14
; AVX-NEXT: movsbq %cl, %r15
; AVX-NEXT: movsbq %r8b, %r8
; AVX-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)		; AVX-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)
; AVX-NEXT: movsbq %r9b, %r9
; AVX-NEXT: movsbq {{[0-9]+}}(%rsp), %r12
; AVX-NEXT: movsbq {{[0-9]+}}(%rsp), %r13
; AVX-NEXT: movsbq {{[0-9]+}}(%rsp), %rbp
; AVX-NEXT: movsbq {{[0-9]+}}(%rsp), %rcx
; AVX-NEXT: leaq -{{[0-9]+}}(%rsp), %rdi		; AVX-NEXT: leaq -{{[0-9]+}}(%rsp), %rdi
; AVX-NEXT: movzbl (%r10,%rdi), %eax		; AVX-NEXT: movzbl (%rax,%rdi), %eax
; AVX-NEXT: vmovd %eax, %xmm0		; AVX-NEXT: vmovd %eax, %xmm0
; AVX-NEXT: movsbq {{[0-9]+}}(%rsp), %r10		; AVX-NEXT: movsbq %sil, %rax
; AVX-NEXT: vpinsrb $1, (%r11,%rdi), %xmm0, %xmm0		; AVX-NEXT: vpinsrb $1, (%rax,%rdi), %xmm0, %xmm0
; AVX-NEXT: movsbq {{[0-9]+}}(%rsp), %r11		; AVX-NEXT: movsbq %dl, %rax
; AVX-NEXT: vpinsrb $2, (%r14,%rdi), %xmm0, %xmm0		; AVX-NEXT: vpinsrb $2, (%rax,%rdi), %xmm0, %xmm0
; AVX-NEXT: movsbq {{[0-9]+}}(%rsp), %r14		; AVX-NEXT: movsbq %cl, %rax
; AVX-NEXT: vpinsrb $3, (%r15,%rdi), %xmm0, %xmm0		; AVX-NEXT: vpinsrb $3, (%rax,%rdi), %xmm0, %xmm0
; AVX-NEXT: movsbq {{[0-9]+}}(%rsp), %r15		; AVX-NEXT: movsbq %r8b, %rax
; AVX-NEXT: vpinsrb $4, (%r8,%rdi), %xmm0, %xmm0		; AVX-NEXT: vpinsrb $4, (%rax,%rdi), %xmm0, %xmm0
; AVX-NEXT: movsbq {{[0-9]+}}(%rsp), %r8		; AVX-NEXT: movsbq %r9b, %rax
; AVX-NEXT: vpinsrb $5, (%r9,%rdi), %xmm0, %xmm0		; AVX-NEXT: vpinsrb $5, (%rax,%rdi), %xmm0, %xmm0
; AVX-NEXT: movsbq {{[0-9]+}}(%rsp), %rsi		; AVX-NEXT: movsbq {{[0-9]+}}(%rsp), %rax
; AVX-NEXT: movzbl (%r12,%rdi), %edx		; AVX-NEXT: vpinsrb $6, (%rax,%rdi), %xmm0, %xmm0
; AVX-NEXT: movzbl (%r13,%rdi), %ebx		; AVX-NEXT: movsbq {{[0-9]+}}(%rsp), %rax
; AVX-NEXT: movzbl (%rbp,%rdi), %ebp		; AVX-NEXT: vpinsrb $7, (%rax,%rdi), %xmm0, %xmm0
; AVX-NEXT: movzbl (%rcx,%rdi), %ecx		; AVX-NEXT: movsbq {{[0-9]+}}(%rsp), %rax
; AVX-NEXT: movzbl (%r10,%rdi), %eax		; AVX-NEXT: vpinsrb $8, (%rax,%rdi), %xmm0, %xmm0
; AVX-NEXT: movzbl (%r11,%rdi), %r9d		; AVX-NEXT: movsbq {{[0-9]+}}(%rsp), %rax
; AVX-NEXT: movzbl (%r14,%rdi), %r10d		; AVX-NEXT: vpinsrb $9, (%rax,%rdi), %xmm0, %xmm0
; AVX-NEXT: movzbl (%r15,%rdi), %r11d		; AVX-NEXT: movsbq {{[0-9]+}}(%rsp), %rax
; AVX-NEXT: movzbl (%r8,%rdi), %r8d		; AVX-NEXT: vpinsrb $10, (%rax,%rdi), %xmm0, %xmm0
; AVX-NEXT: movzbl (%rsi,%rdi), %esi		; AVX-NEXT: movsbq {{[0-9]+}}(%rsp), %rax
; AVX-NEXT: vpinsrb $6, %edx, %xmm0, %xmm0		; AVX-NEXT: vpinsrb $11, (%rax,%rdi), %xmm0, %xmm0
; AVX-NEXT: vpinsrb $7, %ebx, %xmm0, %xmm0		; AVX-NEXT: movsbq {{[0-9]+}}(%rsp), %rax
; AVX-NEXT: vpinsrb $8, %ebp, %xmm0, %xmm0		; AVX-NEXT: vpinsrb $12, (%rax,%rdi), %xmm0, %xmm0
; AVX-NEXT: vpinsrb $9, %ecx, %xmm0, %xmm0		; AVX-NEXT: movsbq {{[0-9]+}}(%rsp), %rax
; AVX-NEXT: vpinsrb $10, %eax, %xmm0, %xmm0		; AVX-NEXT: vpinsrb $13, (%rax,%rdi), %xmm0, %xmm0
; AVX-NEXT: vpinsrb $11, %r9d, %xmm0, %xmm0		; AVX-NEXT: movsbq {{[0-9]+}}(%rsp), %rax
; AVX-NEXT: vpinsrb $12, %r10d, %xmm0, %xmm0		; AVX-NEXT: vpinsrb $14, (%rax,%rdi), %xmm0, %xmm0
; AVX-NEXT: vpinsrb $13, %r11d, %xmm0, %xmm0		; AVX-NEXT: movsbq {{[0-9]+}}(%rsp), %rax
; AVX-NEXT: vpinsrb $14, %r8d, %xmm0, %xmm0		; AVX-NEXT: vpinsrb $15, (%rax,%rdi), %xmm0, %xmm0
; AVX-NEXT: vpinsrb $15, %esi, %xmm0, %xmm0
; AVX-NEXT: popq %rbx
; AVX-NEXT: popq %r12
; AVX-NEXT: popq %r13
; AVX-NEXT: popq %r14
; AVX-NEXT: popq %r15
; AVX-NEXT: popq %rbp
; AVX-NEXT: retq		; AVX-NEXT: retq
%x0 = extractelement <16 x i8> %x, i8 %i0		%x0 = extractelement <16 x i8> %x, i8 %i0
%x1 = extractelement <16 x i8> %x, i8 %i1		%x1 = extractelement <16 x i8> %x, i8 %i1
%x2 = extractelement <16 x i8> %x, i8 %i2		%x2 = extractelement <16 x i8> %x, i8 %i2
%x3 = extractelement <16 x i8> %x, i8 %i3		%x3 = extractelement <16 x i8> %x, i8 %i3
%x4 = extractelement <16 x i8> %x, i8 %i4		%x4 = extractelement <16 x i8> %x, i8 %i4
%x5 = extractelement <16 x i8> %x, i8 %i5		%x5 = extractelement <16 x i8> %x, i8 %i5
%x6 = extractelement <16 x i8> %x, i8 %i6		%x6 = extractelement <16 x i8> %x, i8 %i6
Show All 34 Lines
; SSE2: # BB#0:		; SSE2: # BB#0:
; SSE2-NEXT: movslq (%rdi), %rax		; SSE2-NEXT: movslq (%rdi), %rax
; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSE2-NEXT: movslq 4(%rdi), %rcx		; SSE2-NEXT: movslq 4(%rdi), %rcx
; SSE2-NEXT: movslq 8(%rdi), %rdx		; SSE2-NEXT: movslq 8(%rdi), %rdx
; SSE2-NEXT: movslq 12(%rdi), %rsi		; SSE2-NEXT: movslq 12(%rdi), %rsi
; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero		; SSE2-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
		; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; SSE2-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero		; SSE2-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
		; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSE2-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero		; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: mem_shuffle_v4i32_v4i32_xxxx_i32:		; SSSE3-LABEL: mem_shuffle_v4i32_v4i32_xxxx_i32:
; SSSE3: # BB#0:		; SSSE3: # BB#0:
; SSSE3-NEXT: movslq (%rdi), %rax		; SSSE3-NEXT: movslq (%rdi), %rax
; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSSE3-NEXT: movslq 4(%rdi), %rcx		; SSSE3-NEXT: movslq 4(%rdi), %rcx
; SSSE3-NEXT: movslq 8(%rdi), %rdx		; SSSE3-NEXT: movslq 8(%rdi), %rdx
; SSSE3-NEXT: movslq 12(%rdi), %rsi		; SSSE3-NEXT: movslq 12(%rdi), %rsi
; SSSE3-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSSE3-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSSE3-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero		; SSSE3-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
		; SSSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; SSSE3-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero		; SSSE3-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
		; SSSE3-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]		; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSSE3-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero		; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSSE3-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: mem_shuffle_v4i32_v4i32_xxxx_i32:		; SSE41-LABEL: mem_shuffle_v4i32_v4i32_xxxx_i32:
; SSE41: # BB#0:		; SSE41: # BB#0:
; SSE41-NEXT: movslq (%rdi), %rax		; SSE41-NEXT: movslq (%rdi), %rax
; SSE41-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSE41-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSE41-NEXT: movslq 4(%rdi), %rcx		; SSE41-NEXT: movslq 4(%rdi), %rcx
; SSE41-NEXT: movslq 8(%rdi), %rdx		; SSE41-NEXT: movslq 8(%rdi), %rdx
Show All 33 Lines	; AVX-NEXT: retq
%r2 = insertelement <4 x i32> %r1, i32 %x2, i32 2		%r2 = insertelement <4 x i32> %r1, i32 %x2, i32 2
%r3 = insertelement <4 x i32> %r2, i32 %x3, i32 3		%r3 = insertelement <4 x i32> %r2, i32 %x3, i32 3
ret <4 x i32> %r3		ret <4 x i32> %r3
}		}

define <16 x i8> @mem_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8(<16 x i8> %x, i8* %i) nounwind {		define <16 x i8> @mem_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8(<16 x i8> %x, i8* %i) nounwind {
; SSE2-LABEL: mem_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8:		; SSE2-LABEL: mem_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8:
; SSE2: # BB#0:		; SSE2: # BB#0:
; SSE2-NEXT: movsbq (%rdi), %rcx		; SSE2-NEXT: movsbq (%rdi), %rax
; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSE2-NEXT: leaq -{{[0-9]+}}(%rsp), %rax		; SSE2-NEXT: movsbq 15(%rdi), %rdx
; SSE2-NEXT: movzbl (%rcx,%rax), %ecx		; SSE2-NEXT: leaq -{{[0-9]+}}(%rsp), %rcx
; SSE2-NEXT: movd %ecx, %xmm0		; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
; SSE2-NEXT: movsbq 8(%rdi), %rcx		; SSE2-NEXT: movd %edx, %xmm8
; SSE2-NEXT: movzbl (%rcx,%rax), %ecx		; SSE2-NEXT: movsbq 7(%rdi), %rdx
; SSE2-NEXT: movd %ecx, %xmm8		; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
; SSE2-NEXT: movsbq 12(%rdi), %rcx		; SSE2-NEXT: movd %edx, %xmm15
; SSE2-NEXT: movzbl (%rcx,%rax), %ecx		; SSE2-NEXT: movsbq 11(%rdi), %rdx
; SSE2-NEXT: movd %ecx, %xmm9		; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
; SSE2-NEXT: movsbq 4(%rdi), %rcx		; SSE2-NEXT: movd %edx, %xmm9
; SSE2-NEXT: movzbl (%rcx,%rax), %ecx		; SSE2-NEXT: movsbq 3(%rdi), %rdx
; SSE2-NEXT: movd %ecx, %xmm3		; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
; SSE2-NEXT: movsbq 14(%rdi), %rcx		; SSE2-NEXT: movd %edx, %xmm3
; SSE2-NEXT: movzbl (%rcx,%rax), %ecx		; SSE2-NEXT: movsbq 13(%rdi), %rdx
; SSE2-NEXT: movd %ecx, %xmm10		; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
; SSE2-NEXT: movsbq 6(%rdi), %rcx		; SSE2-NEXT: movd %edx, %xmm10
; SSE2-NEXT: movzbl (%rcx,%rax), %ecx		; SSE2-NEXT: movsbq 5(%rdi), %rdx
; SSE2-NEXT: movd %ecx, %xmm5		; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
; SSE2-NEXT: movsbq 10(%rdi), %rcx		; SSE2-NEXT: movd %edx, %xmm7
; SSE2-NEXT: movzbl (%rcx,%rax), %ecx		; SSE2-NEXT: movsbq 9(%rdi), %rdx
; SSE2-NEXT: movd %ecx, %xmm11		; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
; SSE2-NEXT: movsbq 2(%rdi), %rcx		; SSE2-NEXT: movd %edx, %xmm11
; SSE2-NEXT: movzbl (%rcx,%rax), %ecx		; SSE2-NEXT: movsbq 1(%rdi), %rdx
; SSE2-NEXT: movd %ecx, %xmm7		; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
; SSE2-NEXT: movsbq 15(%rdi), %rcx		; SSE2-NEXT: movd %edx, %xmm6
; SSE2-NEXT: movzbl (%rcx,%rax), %ecx		; SSE2-NEXT: movsbq 14(%rdi), %rdx
; SSE2-NEXT: movd %ecx, %xmm12		; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
; SSE2-NEXT: movsbq 7(%rdi), %rcx		; SSE2-NEXT: movd %edx, %xmm12
; SSE2-NEXT: movzbl (%rcx,%rax), %ecx		; SSE2-NEXT: movsbq 6(%rdi), %rdx
; SSE2-NEXT: movd %ecx, %xmm2		; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
; SSE2-NEXT: movsbq 11(%rdi), %rcx		; SSE2-NEXT: movd %edx, %xmm5
; SSE2-NEXT: movzbl (%rcx,%rax), %ecx		; SSE2-NEXT: movsbq 10(%rdi), %rdx
; SSE2-NEXT: movd %ecx, %xmm13		; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
; SSE2-NEXT: movsbq 3(%rdi), %rcx		; SSE2-NEXT: movd %edx, %xmm13
; SSE2-NEXT: movzbl (%rcx,%rax), %ecx		; SSE2-NEXT: movsbq 2(%rdi), %rdx
; SSE2-NEXT: movd %ecx, %xmm6		; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
; SSE2-NEXT: movsbq 13(%rdi), %rcx		; SSE2-NEXT: movd %edx, %xmm4
; SSE2-NEXT: movzbl (%rcx,%rax), %ecx		; SSE2-NEXT: movsbq 12(%rdi), %rdx
; SSE2-NEXT: movd %ecx, %xmm14		; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
; SSE2-NEXT: movsbq 5(%rdi), %rcx		; SSE2-NEXT: movd %edx, %xmm14
; SSE2-NEXT: movzbl (%rcx,%rax), %ecx		; SSE2-NEXT: movsbq 4(%rdi), %rdx
; SSE2-NEXT: movd %ecx, %xmm4		; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
; SSE2-NEXT: movsbq 9(%rdi), %rcx		; SSE2-NEXT: movd %edx, %xmm1
; SSE2-NEXT: movzbl (%rcx,%rax), %ecx		; SSE2-NEXT: movsbq 8(%rdi), %rdx
; SSE2-NEXT: movd %ecx, %xmm15		; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
; SSE2-NEXT: movsbq 1(%rdi), %rcx		; SSE2-NEXT: movd %edx, %xmm2
; SSE2-NEXT: movzbl (%rcx,%rax), %eax		; SSE2-NEXT: movzbl (%rax,%rcx), %eax
; SSE2-NEXT: movd %eax, %xmm1		; SSE2-NEXT: movd %eax, %xmm0
; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3],xmm0[4],xmm8[4],xmm0[5],xmm8[5],xmm0[6],xmm8[6],xmm0[7],xmm8[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm15 = xmm15[0],xmm8[0],xmm15[1],xmm8[1],xmm15[2],xmm8[2],xmm15[3],xmm8[3],xmm15[4],xmm8[4],xmm15[5],xmm8[5],xmm15[6],xmm8[6],xmm15[7],xmm8[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm9[0],xmm3[1],xmm9[1],xmm3[2],xmm9[2],xmm3[3],xmm9[3],xmm3[4],xmm9[4],xmm3[5],xmm9[5],xmm3[6],xmm9[6],xmm3[7],xmm9[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm9[0],xmm3[1],xmm9[1],xmm3[2],xmm9[2],xmm3[3],xmm9[3],xmm3[4],xmm9[4],xmm3[5],xmm9[5],xmm3[6],xmm9[6],xmm3[7],xmm9[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm15[0],xmm3[1],xmm15[1],xmm3[2],xmm15[2],xmm3[3],xmm15[3],xmm3[4],xmm15[4],xmm3[5],xmm15[5],xmm3[6],xmm15[6],xmm3[7],xmm15[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm10[0],xmm5[1],xmm10[1],xmm5[2],xmm10[2],xmm5[3],xmm10[3],xmm5[4],xmm10[4],xmm5[5],xmm10[5],xmm5[6],xmm10[6],xmm5[7],xmm10[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm7 = xmm7[0],xmm10[0],xmm7[1],xmm10[1],xmm7[2],xmm10[2],xmm7[3],xmm10[3],xmm7[4],xmm10[4],xmm7[5],xmm10[5],xmm7[6],xmm10[6],xmm7[7],xmm10[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm7 = xmm7[0],xmm11[0],xmm7[1],xmm11[1],xmm7[2],xmm11[2],xmm7[3],xmm11[3],xmm7[4],xmm11[4],xmm7[5],xmm11[5],xmm7[6],xmm11[6],xmm7[7],xmm11[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm11[0],xmm6[1],xmm11[1],xmm6[2],xmm11[2],xmm6[3],xmm11[3],xmm6[4],xmm11[4],xmm6[5],xmm11[5],xmm6[6],xmm11[6],xmm6[7],xmm11[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm7 = xmm7[0],xmm5[0],xmm7[1],xmm5[1],xmm7[2],xmm5[2],xmm7[3],xmm5[3],xmm7[4],xmm5[4],xmm7[5],xmm5[5],xmm7[6],xmm5[6],xmm7[7],xmm5[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm7[0],xmm6[1],xmm7[1],xmm6[2],xmm7[2],xmm6[3],xmm7[3],xmm6[4],xmm7[4],xmm6[5],xmm7[5],xmm6[6],xmm7[6],xmm6[7],xmm7[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm7[0],xmm0[1],xmm7[1],xmm0[2],xmm7[2],xmm0[3],xmm7[3],xmm0[4],xmm7[4],xmm0[5],xmm7[5],xmm0[6],xmm7[6],xmm0[7],xmm7[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm3[0],xmm6[1],xmm3[1],xmm6[2],xmm3[2],xmm6[3],xmm3[3],xmm6[4],xmm3[4],xmm6[5],xmm3[5],xmm6[6],xmm3[6],xmm6[7],xmm3[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm12[0],xmm2[1],xmm12[1],xmm2[2],xmm12[2],xmm2[3],xmm12[3],xmm2[4],xmm12[4],xmm2[5],xmm12[5],xmm2[6],xmm12[6],xmm2[7],xmm12[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm12[0],xmm5[1],xmm12[1],xmm5[2],xmm12[2],xmm5[3],xmm12[3],xmm5[4],xmm12[4],xmm5[5],xmm12[5],xmm5[6],xmm12[6],xmm5[7],xmm12[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm13[0],xmm6[1],xmm13[1],xmm6[2],xmm13[2],xmm6[3],xmm13[3],xmm6[4],xmm13[4],xmm6[5],xmm13[5],xmm6[6],xmm13[6],xmm6[7],xmm13[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm13[0],xmm4[1],xmm13[1],xmm4[2],xmm13[2],xmm4[3],xmm13[3],xmm4[4],xmm13[4],xmm4[5],xmm13[5],xmm4[6],xmm13[6],xmm4[7],xmm13[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm2[0],xmm6[1],xmm2[1],xmm6[2],xmm2[2],xmm6[3],xmm2[3],xmm6[4],xmm2[4],xmm6[5],xmm2[5],xmm6[6],xmm2[6],xmm6[7],xmm2[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1],xmm4[2],xmm5[2],xmm4[3],xmm5[3],xmm4[4],xmm5[4],xmm4[5],xmm5[5],xmm4[6],xmm5[6],xmm4[7],xmm5[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm14[0],xmm4[1],xmm14[1],xmm4[2],xmm14[2],xmm4[3],xmm14[3],xmm4[4],xmm14[4],xmm4[5],xmm14[5],xmm4[6],xmm14[6],xmm4[7],xmm14[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm14[0],xmm1[1],xmm14[1],xmm1[2],xmm14[2],xmm1[3],xmm14[3],xmm1[4],xmm14[4],xmm1[5],xmm14[5],xmm1[6],xmm14[6],xmm1[7],xmm14[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm15[0],xmm1[1],xmm15[1],xmm1[2],xmm15[2],xmm1[3],xmm15[3],xmm1[4],xmm15[4],xmm1[5],xmm15[5],xmm1[6],xmm15[6],xmm1[7],xmm15[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1],xmm1[2],xmm4[2],xmm1[3],xmm4[3],xmm1[4],xmm4[4],xmm1[5],xmm4[5],xmm1[6],xmm4[6],xmm1[7],xmm4[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm6[0],xmm1[1],xmm6[1],xmm1[2],xmm6[2],xmm1[3],xmm6[3],xmm1[4],xmm6[4],xmm1[5],xmm6[5],xmm1[6],xmm6[6],xmm1[7],xmm6[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
		; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]
		; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1],xmm0[2],xmm6[2],xmm0[3],xmm6[3],xmm0[4],xmm6[4],xmm0[5],xmm6[5],xmm0[6],xmm6[6],xmm0[7],xmm6[7]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: mem_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8:		; SSSE3-LABEL: mem_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8:
; SSSE3: # BB#0:		; SSSE3: # BB#0:
; SSSE3-NEXT: movsbq (%rdi), %rcx		; SSSE3-NEXT: movsbq (%rdi), %rax
; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSSE3-NEXT: leaq -{{[0-9]+}}(%rsp), %rax		; SSSE3-NEXT: movsbq 15(%rdi), %rdx
; SSSE3-NEXT: movzbl (%rcx,%rax), %ecx		; SSSE3-NEXT: leaq -{{[0-9]+}}(%rsp), %rcx
; SSSE3-NEXT: movd %ecx, %xmm0		; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
; SSSE3-NEXT: movsbq 8(%rdi), %rcx		; SSSE3-NEXT: movd %edx, %xmm8
; SSSE3-NEXT: movzbl (%rcx,%rax), %ecx		; SSSE3-NEXT: movsbq 7(%rdi), %rdx
; SSSE3-NEXT: movd %ecx, %xmm8		; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
; SSSE3-NEXT: movsbq 12(%rdi), %rcx		; SSSE3-NEXT: movd %edx, %xmm15
; SSSE3-NEXT: movzbl (%rcx,%rax), %ecx		; SSSE3-NEXT: movsbq 11(%rdi), %rdx
; SSSE3-NEXT: movd %ecx, %xmm9		; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
; SSSE3-NEXT: movsbq 4(%rdi), %rcx		; SSSE3-NEXT: movd %edx, %xmm9
; SSSE3-NEXT: movzbl (%rcx,%rax), %ecx		; SSSE3-NEXT: movsbq 3(%rdi), %rdx
; SSSE3-NEXT: movd %ecx, %xmm3		; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
; SSSE3-NEXT: movsbq 14(%rdi), %rcx		; SSSE3-NEXT: movd %edx, %xmm3
; SSSE3-NEXT: movzbl (%rcx,%rax), %ecx		; SSSE3-NEXT: movsbq 13(%rdi), %rdx
; SSSE3-NEXT: movd %ecx, %xmm10		; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
; SSSE3-NEXT: movsbq 6(%rdi), %rcx		; SSSE3-NEXT: movd %edx, %xmm10
; SSSE3-NEXT: movzbl (%rcx,%rax), %ecx		; SSSE3-NEXT: movsbq 5(%rdi), %rdx
; SSSE3-NEXT: movd %ecx, %xmm5		; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
; SSSE3-NEXT: movsbq 10(%rdi), %rcx		; SSSE3-NEXT: movd %edx, %xmm7
; SSSE3-NEXT: movzbl (%rcx,%rax), %ecx		; SSSE3-NEXT: movsbq 9(%rdi), %rdx
; SSSE3-NEXT: movd %ecx, %xmm11		; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
; SSSE3-NEXT: movsbq 2(%rdi), %rcx		; SSSE3-NEXT: movd %edx, %xmm11
; SSSE3-NEXT: movzbl (%rcx,%rax), %ecx		; SSSE3-NEXT: movsbq 1(%rdi), %rdx
; SSSE3-NEXT: movd %ecx, %xmm7		; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
; SSSE3-NEXT: movsbq 15(%rdi), %rcx		; SSSE3-NEXT: movd %edx, %xmm6
; SSSE3-NEXT: movzbl (%rcx,%rax), %ecx		; SSSE3-NEXT: movsbq 14(%rdi), %rdx
; SSSE3-NEXT: movd %ecx, %xmm12		; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
; SSSE3-NEXT: movsbq 7(%rdi), %rcx		; SSSE3-NEXT: movd %edx, %xmm12
; SSSE3-NEXT: movzbl (%rcx,%rax), %ecx		; SSSE3-NEXT: movsbq 6(%rdi), %rdx
; SSSE3-NEXT: movd %ecx, %xmm2		; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
; SSSE3-NEXT: movsbq 11(%rdi), %rcx		; SSSE3-NEXT: movd %edx, %xmm5
; SSSE3-NEXT: movzbl (%rcx,%rax), %ecx		; SSSE3-NEXT: movsbq 10(%rdi), %rdx
; SSSE3-NEXT: movd %ecx, %xmm13		; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
; SSSE3-NEXT: movsbq 3(%rdi), %rcx		; SSSE3-NEXT: movd %edx, %xmm13
; SSSE3-NEXT: movzbl (%rcx,%rax), %ecx		; SSSE3-NEXT: movsbq 2(%rdi), %rdx
; SSSE3-NEXT: movd %ecx, %xmm6		; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
; SSSE3-NEXT: movsbq 13(%rdi), %rcx		; SSSE3-NEXT: movd %edx, %xmm4
; SSSE3-NEXT: movzbl (%rcx,%rax), %ecx		; SSSE3-NEXT: movsbq 12(%rdi), %rdx
; SSSE3-NEXT: movd %ecx, %xmm14		; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
; SSSE3-NEXT: movsbq 5(%rdi), %rcx		; SSSE3-NEXT: movd %edx, %xmm14
; SSSE3-NEXT: movzbl (%rcx,%rax), %ecx		; SSSE3-NEXT: movsbq 4(%rdi), %rdx
; SSSE3-NEXT: movd %ecx, %xmm4		; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
; SSSE3-NEXT: movsbq 9(%rdi), %rcx		; SSSE3-NEXT: movd %edx, %xmm1
; SSSE3-NEXT: movzbl (%rcx,%rax), %ecx		; SSSE3-NEXT: movsbq 8(%rdi), %rdx
; SSSE3-NEXT: movd %ecx, %xmm15		; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
; SSSE3-NEXT: movsbq 1(%rdi), %rcx		; SSSE3-NEXT: movd %edx, %xmm2
; SSSE3-NEXT: movzbl (%rcx,%rax), %eax		; SSSE3-NEXT: movzbl (%rax,%rcx), %eax
; SSSE3-NEXT: movd %eax, %xmm1		; SSSE3-NEXT: movd %eax, %xmm0
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3],xmm0[4],xmm8[4],xmm0[5],xmm8[5],xmm0[6],xmm8[6],xmm0[7],xmm8[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm15 = xmm15[0],xmm8[0],xmm15[1],xmm8[1],xmm15[2],xmm8[2],xmm15[3],xmm8[3],xmm15[4],xmm8[4],xmm15[5],xmm8[5],xmm15[6],xmm8[6],xmm15[7],xmm8[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm9[0],xmm3[1],xmm9[1],xmm3[2],xmm9[2],xmm3[3],xmm9[3],xmm3[4],xmm9[4],xmm3[5],xmm9[5],xmm3[6],xmm9[6],xmm3[7],xmm9[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm9[0],xmm3[1],xmm9[1],xmm3[2],xmm9[2],xmm3[3],xmm9[3],xmm3[4],xmm9[4],xmm3[5],xmm9[5],xmm3[6],xmm9[6],xmm3[7],xmm9[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm15[0],xmm3[1],xmm15[1],xmm3[2],xmm15[2],xmm3[3],xmm15[3],xmm3[4],xmm15[4],xmm3[5],xmm15[5],xmm3[6],xmm15[6],xmm3[7],xmm15[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm10[0],xmm5[1],xmm10[1],xmm5[2],xmm10[2],xmm5[3],xmm10[3],xmm5[4],xmm10[4],xmm5[5],xmm10[5],xmm5[6],xmm10[6],xmm5[7],xmm10[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm7 = xmm7[0],xmm10[0],xmm7[1],xmm10[1],xmm7[2],xmm10[2],xmm7[3],xmm10[3],xmm7[4],xmm10[4],xmm7[5],xmm10[5],xmm7[6],xmm10[6],xmm7[7],xmm10[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm7 = xmm7[0],xmm11[0],xmm7[1],xmm11[1],xmm7[2],xmm11[2],xmm7[3],xmm11[3],xmm7[4],xmm11[4],xmm7[5],xmm11[5],xmm7[6],xmm11[6],xmm7[7],xmm11[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm11[0],xmm6[1],xmm11[1],xmm6[2],xmm11[2],xmm6[3],xmm11[3],xmm6[4],xmm11[4],xmm6[5],xmm11[5],xmm6[6],xmm11[6],xmm6[7],xmm11[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm7 = xmm7[0],xmm5[0],xmm7[1],xmm5[1],xmm7[2],xmm5[2],xmm7[3],xmm5[3],xmm7[4],xmm5[4],xmm7[5],xmm5[5],xmm7[6],xmm5[6],xmm7[7],xmm5[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm7[0],xmm6[1],xmm7[1],xmm6[2],xmm7[2],xmm6[3],xmm7[3],xmm6[4],xmm7[4],xmm6[5],xmm7[5],xmm6[6],xmm7[6],xmm6[7],xmm7[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm7[0],xmm0[1],xmm7[1],xmm0[2],xmm7[2],xmm0[3],xmm7[3],xmm0[4],xmm7[4],xmm0[5],xmm7[5],xmm0[6],xmm7[6],xmm0[7],xmm7[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm3[0],xmm6[1],xmm3[1],xmm6[2],xmm3[2],xmm6[3],xmm3[3],xmm6[4],xmm3[4],xmm6[5],xmm3[5],xmm6[6],xmm3[6],xmm6[7],xmm3[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm12[0],xmm2[1],xmm12[1],xmm2[2],xmm12[2],xmm2[3],xmm12[3],xmm2[4],xmm12[4],xmm2[5],xmm12[5],xmm2[6],xmm12[6],xmm2[7],xmm12[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm12[0],xmm5[1],xmm12[1],xmm5[2],xmm12[2],xmm5[3],xmm12[3],xmm5[4],xmm12[4],xmm5[5],xmm12[5],xmm5[6],xmm12[6],xmm5[7],xmm12[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm13[0],xmm6[1],xmm13[1],xmm6[2],xmm13[2],xmm6[3],xmm13[3],xmm6[4],xmm13[4],xmm6[5],xmm13[5],xmm6[6],xmm13[6],xmm6[7],xmm13[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm13[0],xmm4[1],xmm13[1],xmm4[2],xmm13[2],xmm4[3],xmm13[3],xmm4[4],xmm13[4],xmm4[5],xmm13[5],xmm4[6],xmm13[6],xmm4[7],xmm13[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm2[0],xmm6[1],xmm2[1],xmm6[2],xmm2[2],xmm6[3],xmm2[3],xmm6[4],xmm2[4],xmm6[5],xmm2[5],xmm6[6],xmm2[6],xmm6[7],xmm2[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1],xmm4[2],xmm5[2],xmm4[3],xmm5[3],xmm4[4],xmm5[4],xmm4[5],xmm5[5],xmm4[6],xmm5[6],xmm4[7],xmm5[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm14[0],xmm4[1],xmm14[1],xmm4[2],xmm14[2],xmm4[3],xmm14[3],xmm4[4],xmm14[4],xmm4[5],xmm14[5],xmm4[6],xmm14[6],xmm4[7],xmm14[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm14[0],xmm1[1],xmm14[1],xmm1[2],xmm14[2],xmm1[3],xmm14[3],xmm1[4],xmm14[4],xmm1[5],xmm14[5],xmm1[6],xmm14[6],xmm1[7],xmm14[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm15[0],xmm1[1],xmm15[1],xmm1[2],xmm15[2],xmm1[3],xmm15[3],xmm1[4],xmm15[4],xmm1[5],xmm15[5],xmm1[6],xmm15[6],xmm1[7],xmm15[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1],xmm1[2],xmm4[2],xmm1[3],xmm4[3],xmm1[4],xmm4[4],xmm1[5],xmm4[5],xmm1[6],xmm4[6],xmm1[7],xmm4[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm6[0],xmm1[1],xmm6[1],xmm1[2],xmm6[2],xmm1[3],xmm6[3],xmm1[4],xmm6[4],xmm1[5],xmm6[5],xmm1[6],xmm6[6],xmm1[7],xmm6[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]
		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1],xmm0[2],xmm6[2],xmm0[3],xmm6[3],xmm0[4],xmm6[4],xmm0[5],xmm6[5],xmm0[6],xmm6[6],xmm0[7],xmm6[7]
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: mem_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8:		; SSE41-LABEL: mem_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8:
; SSE41: # BB#0:		; SSE41: # BB#0:
; SSE41-NEXT: pushq %rbp		; SSE41-NEXT: movsbq (%rdi), %rcx
; SSE41-NEXT: pushq %r15
; SSE41-NEXT: pushq %r14
; SSE41-NEXT: pushq %r13
; SSE41-NEXT: pushq %r12
; SSE41-NEXT: pushq %rbx
; SSE41-NEXT: movsbq (%rdi), %rax
; SSE41-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSE41-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSE41-NEXT: movsbq 1(%rdi), %r15		; SSE41-NEXT: leaq -{{[0-9]+}}(%rsp), %rax
; SSE41-NEXT: movsbq 2(%rdi), %r8		; SSE41-NEXT: movzbl (%rcx,%rax), %ecx
; SSE41-NEXT: movsbq 3(%rdi), %r9		; SSE41-NEXT: movd %ecx, %xmm0
; SSE41-NEXT: movsbq 4(%rdi), %r10		; SSE41-NEXT: movsbq 1(%rdi), %rcx
; SSE41-NEXT: movsbq 5(%rdi), %r11		; SSE41-NEXT: pinsrb $1, (%rcx,%rax), %xmm0
; SSE41-NEXT: movsbq 6(%rdi), %r14		; SSE41-NEXT: movsbq 2(%rdi), %rcx
; SSE41-NEXT: movsbq 7(%rdi), %r12		; SSE41-NEXT: pinsrb $2, (%rcx,%rax), %xmm0
; SSE41-NEXT: movsbq 8(%rdi), %r13		; SSE41-NEXT: movsbq 3(%rdi), %rcx
; SSE41-NEXT: movsbq 9(%rdi), %rdx		; SSE41-NEXT: pinsrb $3, (%rcx,%rax), %xmm0
		; SSE41-NEXT: movsbq 4(%rdi), %rcx
		; SSE41-NEXT: pinsrb $4, (%rcx,%rax), %xmm0
		; SSE41-NEXT: movsbq 5(%rdi), %rcx
		; SSE41-NEXT: pinsrb $5, (%rcx,%rax), %xmm0
		; SSE41-NEXT: movsbq 6(%rdi), %rcx
		; SSE41-NEXT: pinsrb $6, (%rcx,%rax), %xmm0
		; SSE41-NEXT: movsbq 7(%rdi), %rcx
		; SSE41-NEXT: pinsrb $7, (%rcx,%rax), %xmm0
		; SSE41-NEXT: movsbq 8(%rdi), %rcx
		; SSE41-NEXT: pinsrb $8, (%rcx,%rax), %xmm0
		; SSE41-NEXT: movsbq 9(%rdi), %rcx
		; SSE41-NEXT: pinsrb $9, (%rcx,%rax), %xmm0
; SSE41-NEXT: movsbq 10(%rdi), %rcx		; SSE41-NEXT: movsbq 10(%rdi), %rcx
; SSE41-NEXT: movsbq 11(%rdi), %rsi		; SSE41-NEXT: pinsrb $10, (%rcx,%rax), %xmm0
; SSE41-NEXT: movsbq 12(%rdi), %rbx		; SSE41-NEXT: movsbq 11(%rdi), %rcx
; SSE41-NEXT: leaq -{{[0-9]+}}(%rsp), %rbp		; SSE41-NEXT: pinsrb $11, (%rcx,%rax), %xmm0
; SSE41-NEXT: movzbl (%rax,%rbp), %eax		; SSE41-NEXT: movsbq 12(%rdi), %rcx
; SSE41-NEXT: movd %eax, %xmm0		; SSE41-NEXT: pinsrb $12, (%rcx,%rax), %xmm0
; SSE41-NEXT: movsbq 13(%rdi), %rax		; SSE41-NEXT: movsbq 13(%rdi), %rcx
; SSE41-NEXT: pinsrb $1, (%r15,%rbp), %xmm0		; SSE41-NEXT: pinsrb $13, (%rcx,%rax), %xmm0
; SSE41-NEXT: movsbq 14(%rdi), %r15		; SSE41-NEXT: movsbq 14(%rdi), %rcx
; SSE41-NEXT: movsbq 15(%rdi), %rdi		; SSE41-NEXT: pinsrb $14, (%rcx,%rax), %xmm0
; SSE41-NEXT: movzbl (%rdi,%rbp), %edi		; SSE41-NEXT: movsbq 15(%rdi), %rcx
; SSE41-NEXT: movzbl (%r15,%rbp), %r15d		; SSE41-NEXT: pinsrb $15, (%rcx,%rax), %xmm0
; SSE41-NEXT: movzbl (%rax,%rbp), %eax
; SSE41-NEXT: movzbl (%rbx,%rbp), %ebx
; SSE41-NEXT: movzbl (%rsi,%rbp), %esi
; SSE41-NEXT: movzbl (%rcx,%rbp), %ecx
; SSE41-NEXT: movzbl (%rdx,%rbp), %edx
; SSE41-NEXT: movzbl (%r13,%rbp), %r13d
; SSE41-NEXT: movzbl (%r12,%rbp), %r12d
; SSE41-NEXT: movzbl (%r14,%rbp), %r14d
; SSE41-NEXT: movzbl (%r11,%rbp), %r11d
; SSE41-NEXT: movzbl (%r10,%rbp), %r10d
; SSE41-NEXT: movzbl (%r9,%rbp), %r9d
; SSE41-NEXT: movzbl (%r8,%rbp), %ebp
; SSE41-NEXT: pinsrb $2, %ebp, %xmm0
; SSE41-NEXT: pinsrb $3, %r9d, %xmm0
; SSE41-NEXT: pinsrb $4, %r10d, %xmm0
; SSE41-NEXT: pinsrb $5, %r11d, %xmm0
; SSE41-NEXT: pinsrb $6, %r14d, %xmm0
; SSE41-NEXT: pinsrb $7, %r12d, %xmm0
; SSE41-NEXT: pinsrb $8, %r13d, %xmm0
; SSE41-NEXT: pinsrb $9, %edx, %xmm0
; SSE41-NEXT: pinsrb $10, %ecx, %xmm0
; SSE41-NEXT: pinsrb $11, %esi, %xmm0
; SSE41-NEXT: pinsrb $12, %ebx, %xmm0
; SSE41-NEXT: pinsrb $13, %eax, %xmm0
; SSE41-NEXT: pinsrb $14, %r15d, %xmm0
; SSE41-NEXT: pinsrb $15, %edi, %xmm0
; SSE41-NEXT: popq %rbx
; SSE41-NEXT: popq %r12
; SSE41-NEXT: popq %r13
; SSE41-NEXT: popq %r14
; SSE41-NEXT: popq %r15
; SSE41-NEXT: popq %rbp
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX-LABEL: mem_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8:		; AVX-LABEL: mem_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8:
; AVX: # BB#0:		; AVX: # BB#0:
; AVX-NEXT: pushq %rbp		; AVX-NEXT: movsbq (%rdi), %rax
; AVX-NEXT: pushq %r15
; AVX-NEXT: pushq %r14
; AVX-NEXT: pushq %r13
; AVX-NEXT: pushq %r12
; AVX-NEXT: pushq %rbx
; AVX-NEXT: movsbq (%rdi), %rsi
; AVX-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)		; AVX-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)
; AVX-NEXT: movsbq 1(%rdi), %r15		; AVX-NEXT: leaq -{{[0-9]+}}(%rsp), %rcx
; AVX-NEXT: movsbq 2(%rdi), %r8		; AVX-NEXT: movzbl (%rax,%rcx), %eax
; AVX-NEXT: movsbq 3(%rdi), %r9		; AVX-NEXT: vmovd %eax, %xmm0
; AVX-NEXT: movsbq 4(%rdi), %r10		; AVX-NEXT: movsbq 1(%rdi), %rax
; AVX-NEXT: movsbq 5(%rdi), %r11		; AVX-NEXT: vpinsrb $1, (%rax,%rcx), %xmm0, %xmm0
; AVX-NEXT: movsbq 6(%rdi), %r14		; AVX-NEXT: movsbq 2(%rdi), %rax
; AVX-NEXT: movsbq 7(%rdi), %r12		; AVX-NEXT: vpinsrb $2, (%rax,%rcx), %xmm0, %xmm0
; AVX-NEXT: movsbq 8(%rdi), %r13		; AVX-NEXT: movsbq 3(%rdi), %rax
; AVX-NEXT: movsbq 9(%rdi), %rdx		; AVX-NEXT: vpinsrb $3, (%rax,%rcx), %xmm0, %xmm0
		; AVX-NEXT: movsbq 4(%rdi), %rax
		; AVX-NEXT: vpinsrb $4, (%rax,%rcx), %xmm0, %xmm0
		; AVX-NEXT: movsbq 5(%rdi), %rax
		; AVX-NEXT: vpinsrb $5, (%rax,%rcx), %xmm0, %xmm0
		; AVX-NEXT: movsbq 6(%rdi), %rax
		; AVX-NEXT: vpinsrb $6, (%rax,%rcx), %xmm0, %xmm0
		; AVX-NEXT: movsbq 7(%rdi), %rax
		; AVX-NEXT: vpinsrb $7, (%rax,%rcx), %xmm0, %xmm0
		; AVX-NEXT: movsbq 8(%rdi), %rax
		; AVX-NEXT: vpinsrb $8, (%rax,%rcx), %xmm0, %xmm0
		; AVX-NEXT: movsbq 9(%rdi), %rax
		; AVX-NEXT: vpinsrb $9, (%rax,%rcx), %xmm0, %xmm0
; AVX-NEXT: movsbq 10(%rdi), %rax		; AVX-NEXT: movsbq 10(%rdi), %rax
; AVX-NEXT: movsbq 11(%rdi), %rcx		; AVX-NEXT: vpinsrb $10, (%rax,%rcx), %xmm0, %xmm0
; AVX-NEXT: movsbq 12(%rdi), %rbx		; AVX-NEXT: movsbq 11(%rdi), %rax
; AVX-NEXT: leaq -{{[0-9]+}}(%rsp), %rbp		; AVX-NEXT: vpinsrb $11, (%rax,%rcx), %xmm0, %xmm0
; AVX-NEXT: movzbl (%rsi,%rbp), %esi		; AVX-NEXT: movsbq 12(%rdi), %rax
; AVX-NEXT: vmovd %esi, %xmm0		; AVX-NEXT: vpinsrb $12, (%rax,%rcx), %xmm0, %xmm0
; AVX-NEXT: movsbq 13(%rdi), %rsi		; AVX-NEXT: movsbq 13(%rdi), %rax
; AVX-NEXT: vpinsrb $1, (%r15,%rbp), %xmm0, %xmm0		; AVX-NEXT: vpinsrb $13, (%rax,%rcx), %xmm0, %xmm0
; AVX-NEXT: movsbq 14(%rdi), %r15		; AVX-NEXT: movsbq 14(%rdi), %rax
; AVX-NEXT: movsbq 15(%rdi), %rdi		; AVX-NEXT: vpinsrb $14, (%rax,%rcx), %xmm0, %xmm0
; AVX-NEXT: movzbl (%rdi,%rbp), %edi		; AVX-NEXT: movsbq 15(%rdi), %rax
; AVX-NEXT: movzbl (%r15,%rbp), %r15d		; AVX-NEXT: vpinsrb $15, (%rax,%rcx), %xmm0, %xmm0
; AVX-NEXT: movzbl (%rsi,%rbp), %esi
; AVX-NEXT: movzbl (%rbx,%rbp), %ebx
; AVX-NEXT: movzbl (%rcx,%rbp), %ecx
; AVX-NEXT: movzbl (%rax,%rbp), %eax
; AVX-NEXT: movzbl (%rdx,%rbp), %edx
; AVX-NEXT: movzbl (%r13,%rbp), %r13d
; AVX-NEXT: movzbl (%r12,%rbp), %r12d
; AVX-NEXT: movzbl (%r14,%rbp), %r14d
; AVX-NEXT: movzbl (%r11,%rbp), %r11d
; AVX-NEXT: movzbl (%r10,%rbp), %r10d
; AVX-NEXT: movzbl (%r9,%rbp), %r9d
; AVX-NEXT: movzbl (%r8,%rbp), %ebp
; AVX-NEXT: vpinsrb $2, %ebp, %xmm0, %xmm0
; AVX-NEXT: vpinsrb $3, %r9d, %xmm0, %xmm0
; AVX-NEXT: vpinsrb $4, %r10d, %xmm0, %xmm0
; AVX-NEXT: vpinsrb $5, %r11d, %xmm0, %xmm0
; AVX-NEXT: vpinsrb $6, %r14d, %xmm0, %xmm0
; AVX-NEXT: vpinsrb $7, %r12d, %xmm0, %xmm0
; AVX-NEXT: vpinsrb $8, %r13d, %xmm0, %xmm0
; AVX-NEXT: vpinsrb $9, %edx, %xmm0, %xmm0
; AVX-NEXT: vpinsrb $10, %eax, %xmm0, %xmm0
; AVX-NEXT: vpinsrb $11, %ecx, %xmm0, %xmm0
; AVX-NEXT: vpinsrb $12, %ebx, %xmm0, %xmm0
; AVX-NEXT: vpinsrb $13, %esi, %xmm0, %xmm0
; AVX-NEXT: vpinsrb $14, %r15d, %xmm0, %xmm0
; AVX-NEXT: vpinsrb $15, %edi, %xmm0, %xmm0
; AVX-NEXT: popq %rbx
; AVX-NEXT: popq %r12
; AVX-NEXT: popq %r13
; AVX-NEXT: popq %r14
; AVX-NEXT: popq %r15
; AVX-NEXT: popq %rbp
; AVX-NEXT: retq		; AVX-NEXT: retq
%p0 = getelementptr inbounds i8, i8* %i, i64 0		%p0 = getelementptr inbounds i8, i8* %i, i64 0
%p1 = getelementptr inbounds i8, i8* %i, i64 1		%p1 = getelementptr inbounds i8, i8* %i, i64 1
%p2 = getelementptr inbounds i8, i8* %i, i64 2		%p2 = getelementptr inbounds i8, i8* %i, i64 2
%p3 = getelementptr inbounds i8, i8* %i, i64 3		%p3 = getelementptr inbounds i8, i8* %i, i64 3
%p4 = getelementptr inbounds i8, i8* %i, i64 4		%p4 = getelementptr inbounds i8, i8* %i, i64 4
%p5 = getelementptr inbounds i8, i8* %i, i64 5		%p5 = getelementptr inbounds i8, i8* %i, i64 5
%p6 = getelementptr inbounds i8, i8* %i, i64 6		%p6 = getelementptr inbounds i8, i8* %i, i64 6
▲ Show 20 Lines • Show All 112 Lines • ▼ Show 20 Lines
; SSE2-NEXT: movswq %di, %r10		; SSE2-NEXT: movswq %di, %r10
; SSE2-NEXT: movswq %si, %rsi		; SSE2-NEXT: movswq %si, %rsi
; SSE2-NEXT: movswq %dx, %r11		; SSE2-NEXT: movswq %dx, %r11
; SSE2-NEXT: movswq %cx, %rcx		; SSE2-NEXT: movswq %cx, %rcx
; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSE2-NEXT: movswq %r8w, %rdi		; SSE2-NEXT: movswq %r8w, %rdi
; SSE2-NEXT: movaps %xmm1, -{{[0-9]+}}(%rsp)		; SSE2-NEXT: movaps %xmm1, -{{[0-9]+}}(%rsp)
; SSE2-NEXT: movswq %r9w, %rax		; SSE2-NEXT: movswq %r9w, %rax
; SSE2-NEXT: movzwl -24(%rsp,%rsi,2), %esi
; SSE2-NEXT: xorl %edx, %edx		; SSE2-NEXT: xorl %edx, %edx
; SSE2-NEXT: movd %edx, %xmm0		; SSE2-NEXT: movd %edx, %xmm0
; SSE2-NEXT: movzwl -24(%rsp,%rcx,2), %ecx		; SSE2-NEXT: movzwl -24(%rsp,%rcx,2), %ecx
; SSE2-NEXT: movd %ecx, %xmm1		; SSE2-NEXT: movd %ecx, %xmm1
; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]		; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
; SSE2-NEXT: movd %esi, %xmm2
; SSE2-NEXT: movzwl -24(%rsp,%rax,2), %eax		; SSE2-NEXT: movzwl -24(%rsp,%rax,2), %eax
		; SSE2-NEXT: movd %eax, %xmm2
		; SSE2-NEXT: movzwl -24(%rsp,%rsi,2), %eax
; SSE2-NEXT: movd %eax, %xmm3		; SSE2-NEXT: movd %eax, %xmm3
; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1],xmm2[2],xmm3[2],xmm2[3],xmm3[3]		; SSE2-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]		; SSE2-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]
; SSE2-NEXT: movzwl -40(%rsp,%r10,2), %eax		; SSE2-NEXT: movzwl -40(%rsp,%r11,2), %eax
; SSE2-NEXT: movzwl -40(%rsp,%r11,2), %ecx		; SSE2-NEXT: movd %eax, %xmm1
; SSE2-NEXT: movd %ecx, %xmm1
; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]		; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
; SSE2-NEXT: movd %eax, %xmm0
; SSE2-NEXT: movzwl -40(%rsp,%rdi,2), %eax		; SSE2-NEXT: movzwl -40(%rsp,%rdi,2), %eax
; SSE2-NEXT: movd %eax, %xmm3		; SSE2-NEXT: movd %eax, %xmm2
; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]		; SSE2-NEXT: movzwl -40(%rsp,%r10,2), %eax
; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]		; SSE2-NEXT: movd %eax, %xmm0
; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]		; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
		; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
		; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: var_shuffle_v8i16_v8i16_xyxyxy00_i16:		; SSSE3-LABEL: var_shuffle_v8i16_v8i16_xyxyxy00_i16:
; SSSE3: # BB#0:		; SSSE3: # BB#0:
; SSSE3-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>		; SSSE3-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>
; SSSE3-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>		; SSSE3-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>
; SSSE3-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>		; SSSE3-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
; SSSE3-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>		; SSSE3-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
; SSSE3-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>		; SSSE3-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>
; SSSE3-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>		; SSSE3-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
; SSSE3-NEXT: movswq %di, %r10		; SSSE3-NEXT: movswq %di, %r10
; SSSE3-NEXT: movswq %si, %rsi		; SSSE3-NEXT: movswq %si, %rsi
; SSSE3-NEXT: movswq %dx, %r11		; SSSE3-NEXT: movswq %dx, %r11
; SSSE3-NEXT: movswq %cx, %rcx		; SSSE3-NEXT: movswq %cx, %rcx
; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSSE3-NEXT: movswq %r8w, %rdi		; SSSE3-NEXT: movswq %r8w, %rdi
; SSSE3-NEXT: movaps %xmm1, -{{[0-9]+}}(%rsp)		; SSSE3-NEXT: movaps %xmm1, -{{[0-9]+}}(%rsp)
; SSSE3-NEXT: movswq %r9w, %rax		; SSSE3-NEXT: movswq %r9w, %rax
; SSSE3-NEXT: movzwl -24(%rsp,%rsi,2), %esi
; SSSE3-NEXT: xorl %edx, %edx		; SSSE3-NEXT: xorl %edx, %edx
; SSSE3-NEXT: movd %edx, %xmm0		; SSSE3-NEXT: movd %edx, %xmm0
; SSSE3-NEXT: movzwl -24(%rsp,%rcx,2), %ecx		; SSSE3-NEXT: movzwl -24(%rsp,%rcx,2), %ecx
; SSSE3-NEXT: movd %ecx, %xmm1		; SSSE3-NEXT: movd %ecx, %xmm1
; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]		; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
; SSSE3-NEXT: movd %esi, %xmm2
; SSSE3-NEXT: movzwl -24(%rsp,%rax,2), %eax		; SSSE3-NEXT: movzwl -24(%rsp,%rax,2), %eax
		; SSSE3-NEXT: movd %eax, %xmm2
		; SSSE3-NEXT: movzwl -24(%rsp,%rsi,2), %eax
; SSSE3-NEXT: movd %eax, %xmm3		; SSSE3-NEXT: movd %eax, %xmm3
; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1],xmm2[2],xmm3[2],xmm2[3],xmm3[3]		; SSSE3-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]		; SSSE3-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]
; SSSE3-NEXT: movzwl -40(%rsp,%r10,2), %eax		; SSSE3-NEXT: movzwl -40(%rsp,%r11,2), %eax
; SSSE3-NEXT: movzwl -40(%rsp,%r11,2), %ecx		; SSSE3-NEXT: movd %eax, %xmm1
; SSSE3-NEXT: movd %ecx, %xmm1
; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]		; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
; SSSE3-NEXT: movd %eax, %xmm0
; SSSE3-NEXT: movzwl -40(%rsp,%rdi,2), %eax		; SSSE3-NEXT: movzwl -40(%rsp,%rdi,2), %eax
; SSSE3-NEXT: movd %eax, %xmm3		; SSSE3-NEXT: movd %eax, %xmm2
; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]		; SSSE3-NEXT: movzwl -40(%rsp,%r10,2), %eax
; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]		; SSSE3-NEXT: movd %eax, %xmm0
; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]		; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
		; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
		; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: var_shuffle_v8i16_v8i16_xyxyxy00_i16:		; SSE41-LABEL: var_shuffle_v8i16_v8i16_xyxyxy00_i16:
; SSE41: # BB#0:		; SSE41: # BB#0:
; SSE41-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>		; SSE41-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>
; SSE41-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>		; SSE41-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>
; SSE41-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>		; SSE41-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
; SSE41-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>		; SSE41-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
▲ Show 20 Lines • Show All 92 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/vector-shuffle-variable-256.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by update_llc_test_checks.py
; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=+avx \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX1		; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=+avx \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX1
; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=+avx2 \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX2		; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=+avx2 \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX2

;		;
; Unary shuffle indices from registers		; Unary shuffle indices from registers
;		;

define <4 x double> @var_shuffle_v4f64_v4f64_xxxx_i64(<4 x double> %x, i64 %i0, i64 %i1, i64 %i2, i64 %i3) nounwind {		define <4 x double> @var_shuffle_v4f64_v4f64_xxxx_i64(<4 x double> %x, i64 %i0, i64 %i1, i64 %i2, i64 %i3) nounwind {
; ALL-LABEL: var_shuffle_v4f64_v4f64_xxxx_i64:		; ALL-LABEL: var_shuffle_v4f64_v4f64_xxxx_i64:
; ALL: # BB#0:		; ALL: # BB#0:
; ALL-NEXT: pushq %rbp		; ALL-NEXT: pushq %rbp
; ALL-NEXT: movq %rsp, %rbp		; ALL-NEXT: movq %rsp, %rbp
; ALL-NEXT: andq $-32, %rsp		; ALL-NEXT: andq $-32, %rsp
; ALL-NEXT: subq $64, %rsp		; ALL-NEXT: subq $64, %rsp
; ALL-NEXT: vmovaps %ymm0, (%rsp)		; ALL-NEXT: vmovaps %ymm0, (%rsp)
; ALL-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero		; ALL-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
; ALL-NEXT: vmovhpd {{.*#+}} xmm0 = xmm0[0],mem[0]		; ALL-NEXT: vmovhpd {{.*#+}} xmm0 = xmm0[0],mem[0]
; ALL-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero		; ALL-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
; ALL-NEXT: vmovhpd {{.*#+}} xmm1 = xmm1[0],mem[0]		; ALL-NEXT: vmovhpd {{.*#+}} xmm1 = xmm1[0],mem[0]
; ALL-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; ALL-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; ALL-NEXT: movq %rbp, %rsp		; ALL-NEXT: movq %rbp, %rsp
; ALL-NEXT: popq %rbp		; ALL-NEXT: popq %rbp
; ALL-NEXT: retq		; ALL-NEXT: retq
%x0 = extractelement <4 x double> %x, i64 %i0		%x0 = extractelement <4 x double> %x, i64 %i0
%x1 = extractelement <4 x double> %x, i64 %i1		%x1 = extractelement <4 x double> %x, i64 %i1
%x2 = extractelement <4 x double> %x, i64 %i2		%x2 = extractelement <4 x double> %x, i64 %i2
%x3 = extractelement <4 x double> %x, i64 %i3		%x3 = extractelement <4 x double> %x, i64 %i3
%r0 = insertelement <4 x double> undef, double %x0, i32 0		%r0 = insertelement <4 x double> undef, double %x0, i32 0
Show All 32 Lines
define <4 x double> @var_shuffle_v4f64_v2f64_xxxx_i64(<2 x double> %x, i64 %i0, i64 %i1, i64 %i2, i64 %i3) nounwind {		define <4 x double> @var_shuffle_v4f64_v2f64_xxxx_i64(<2 x double> %x, i64 %i0, i64 %i1, i64 %i2, i64 %i3) nounwind {
; ALL-LABEL: var_shuffle_v4f64_v2f64_xxxx_i64:		; ALL-LABEL: var_shuffle_v4f64_v2f64_xxxx_i64:
; ALL: # BB#0:		; ALL: # BB#0:
; ALL-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)		; ALL-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)
; ALL-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero		; ALL-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
; ALL-NEXT: vmovhpd {{.*#+}} xmm0 = xmm0[0],mem[0]		; ALL-NEXT: vmovhpd {{.*#+}} xmm0 = xmm0[0],mem[0]
; ALL-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero		; ALL-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
; ALL-NEXT: vmovhpd {{.*#+}} xmm1 = xmm1[0],mem[0]		; ALL-NEXT: vmovhpd {{.*#+}} xmm1 = xmm1[0],mem[0]
; ALL-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; ALL-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; ALL-NEXT: retq		; ALL-NEXT: retq
%x0 = extractelement <2 x double> %x, i64 %i0		%x0 = extractelement <2 x double> %x, i64 %i0
%x1 = extractelement <2 x double> %x, i64 %i1		%x1 = extractelement <2 x double> %x, i64 %i1
%x2 = extractelement <2 x double> %x, i64 %i2		%x2 = extractelement <2 x double> %x, i64 %i2
%x3 = extractelement <2 x double> %x, i64 %i3		%x3 = extractelement <2 x double> %x, i64 %i3
%r0 = insertelement <4 x double> undef, double %x0, i32 0		%r0 = insertelement <4 x double> undef, double %x0, i32 0
%r1 = insertelement <4 x double> %r0, double %x1, i32 1		%r1 = insertelement <4 x double> %r0, double %x1, i32 1
%r2 = insertelement <4 x double> %r1, double %x2, i32 2		%r2 = insertelement <4 x double> %r1, double %x2, i32 2
%r3 = insertelement <4 x double> %r2, double %x3, i32 3		%r3 = insertelement <4 x double> %r2, double %x3, i32 3
ret <4 x double> %r3		ret <4 x double> %r3
}		}

define <4 x i64> @var_shuffle_v4i64_v4i64_xxxx_i64(<4 x i64> %x, i64 %i0, i64 %i1, i64 %i2, i64 %i3) nounwind {		define <4 x i64> @var_shuffle_v4i64_v4i64_xxxx_i64(<4 x i64> %x, i64 %i0, i64 %i1, i64 %i2, i64 %i3) nounwind {
; AVX1-LABEL: var_shuffle_v4i64_v4i64_xxxx_i64:		; AVX1-LABEL: var_shuffle_v4i64_v4i64_xxxx_i64:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: pushq %rbp		; AVX1-NEXT: pushq %rbp
; AVX1-NEXT: movq %rsp, %rbp		; AVX1-NEXT: movq %rsp, %rbp
; AVX1-NEXT: andq $-32, %rsp		; AVX1-NEXT: andq $-32, %rsp
; AVX1-NEXT: subq $64, %rsp		; AVX1-NEXT: subq $64, %rsp
; AVX1-NEXT: vmovaps %ymm0, (%rsp)		; AVX1-NEXT: vmovaps %ymm0, (%rsp)
; AVX1-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX1-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]		; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; AVX1-NEXT: movq %rbp, %rsp		; AVX1-NEXT: movq %rbp, %rsp
; AVX1-NEXT: popq %rbp		; AVX1-NEXT: popq %rbp
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: var_shuffle_v4i64_v4i64_xxxx_i64:		; AVX2-LABEL: var_shuffle_v4i64_v4i64_xxxx_i64:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: pushq %rbp		; AVX2-NEXT: pushq %rbp
; AVX2-NEXT: movq %rsp, %rbp		; AVX2-NEXT: movq %rsp, %rbp
; AVX2-NEXT: andq $-32, %rsp		; AVX2-NEXT: andq $-32, %rsp
; AVX2-NEXT: subq $64, %rsp		; AVX2-NEXT: subq $64, %rsp
; AVX2-NEXT: vmovaps %ymm0, (%rsp)		; AVX2-NEXT: vmovaps %ymm0, (%rsp)
; AVX2-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX2-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX2-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero		; AVX2-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]		; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0		; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
; AVX2-NEXT: movq %rbp, %rsp		; AVX2-NEXT: movq %rbp, %rsp
; AVX2-NEXT: popq %rbp		; AVX2-NEXT: popq %rbp
; AVX2-NEXT: retq		; AVX2-NEXT: retq
%x0 = extractelement <4 x i64> %x, i64 %i0		%x0 = extractelement <4 x i64> %x, i64 %i0
%x1 = extractelement <4 x i64> %x, i64 %i1		%x1 = extractelement <4 x i64> %x, i64 %i1
%x2 = extractelement <4 x i64> %x, i64 %i2		%x2 = extractelement <4 x i64> %x, i64 %i2
%x3 = extractelement <4 x i64> %x, i64 %i3		%x3 = extractelement <4 x i64> %x, i64 %i3
%r0 = insertelement <4 x i64> undef, i64 %x0, i32 0		%r0 = insertelement <4 x i64> undef, i64 %x0, i32 0
%r1 = insertelement <4 x i64> %r0, i64 %x1, i32 1		%r1 = insertelement <4 x i64> %r0, i64 %x1, i32 1
%r2 = insertelement <4 x i64> %r1, i64 %x2, i32 2		%r2 = insertelement <4 x i64> %r1, i64 %x2, i32 2
%r3 = insertelement <4 x i64> %r2, i64 %x3, i32 3		%r3 = insertelement <4 x i64> %r2, i64 %x3, i32 3
ret <4 x i64> %r3		ret <4 x i64> %r3
}		}

define <4 x i64> @var_shuffle_v4i64_v4i64_xx00_i64(<4 x i64> %x, i64 %i0, i64 %i1, i64 %i2, i64 %i3) nounwind {		define <4 x i64> @var_shuffle_v4i64_v4i64_xx00_i64(<4 x i64> %x, i64 %i0, i64 %i1, i64 %i2, i64 %i3) nounwind {
; AVX1-LABEL: var_shuffle_v4i64_v4i64_xx00_i64:		; AVX1-LABEL: var_shuffle_v4i64_v4i64_xx00_i64:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: pushq %rbp		; AVX1-NEXT: pushq %rbp
; AVX1-NEXT: movq %rsp, %rbp		; AVX1-NEXT: movq %rsp, %rbp
; AVX1-NEXT: andq $-32, %rsp		; AVX1-NEXT: andq $-32, %rsp
; AVX1-NEXT: subq $64, %rsp		; AVX1-NEXT: subq $64, %rsp
; AVX1-NEXT: vmovaps %ymm0, (%rsp)		; AVX1-NEXT: vmovaps %ymm0, (%rsp)
; AVX1-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1		; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: movq %rbp, %rsp		; AVX1-NEXT: movq %rbp, %rsp
; AVX1-NEXT: popq %rbp		; AVX1-NEXT: popq %rbp
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: var_shuffle_v4i64_v4i64_xx00_i64:		; AVX2-LABEL: var_shuffle_v4i64_v4i64_xx00_i64:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: pushq %rbp		; AVX2-NEXT: pushq %rbp
; AVX2-NEXT: movq %rsp, %rbp		; AVX2-NEXT: movq %rsp, %rbp
; AVX2-NEXT: andq $-32, %rsp		; AVX2-NEXT: andq $-32, %rsp
; AVX2-NEXT: subq $64, %rsp		; AVX2-NEXT: subq $64, %rsp
; AVX2-NEXT: vmovaps %ymm0, (%rsp)		; AVX2-NEXT: vmovaps %ymm0, (%rsp)
; AVX2-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX2-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1		; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1
; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0		; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
; AVX2-NEXT: movq %rbp, %rsp		; AVX2-NEXT: movq %rbp, %rsp
; AVX2-NEXT: popq %rbp		; AVX2-NEXT: popq %rbp
; AVX2-NEXT: retq		; AVX2-NEXT: retq
%x0 = extractelement <4 x i64> %x, i64 %i0		%x0 = extractelement <4 x i64> %x, i64 %i0
%x1 = extractelement <4 x i64> %x, i64 %i1		%x1 = extractelement <4 x i64> %x, i64 %i1
%x2 = extractelement <4 x i64> %x, i64 %i2		%x2 = extractelement <4 x i64> %x, i64 %i2
%x3 = extractelement <4 x i64> %x, i64 %i3		%x3 = extractelement <4 x i64> %x, i64 %i3
%r0 = insertelement <4 x i64> undef, i64 %x0, i32 0		%r0 = insertelement <4 x i64> undef, i64 %x0, i32 0
%r1 = insertelement <4 x i64> %r0, i64 %x1, i32 1		%r1 = insertelement <4 x i64> %r0, i64 %x1, i32 1
%r2 = insertelement <4 x i64> %r1, i64 0, i32 2		%r2 = insertelement <4 x i64> %r1, i64 0, i32 2
%r3 = insertelement <4 x i64> %r2, i64 0, i32 3		%r3 = insertelement <4 x i64> %r2, i64 0, i32 3
ret <4 x i64> %r3		ret <4 x i64> %r3
}		}

define <4 x i64> @var_shuffle_v4i64_v2i64_xxxx_i64(<2 x i64> %x, i64 %i0, i64 %i1, i64 %i2, i64 %i3) nounwind {		define <4 x i64> @var_shuffle_v4i64_v2i64_xxxx_i64(<2 x i64> %x, i64 %i0, i64 %i1, i64 %i2, i64 %i3) nounwind {
; AVX1-LABEL: var_shuffle_v4i64_v2i64_xxxx_i64:		; AVX1-LABEL: var_shuffle_v4i64_v2i64_xxxx_i64:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)		; AVX1-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)
; AVX1-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX1-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]		; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: var_shuffle_v4i64_v2i64_xxxx_i64:		; AVX2-LABEL: var_shuffle_v4i64_v2i64_xxxx_i64:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)		; AVX2-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)
; AVX2-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX2-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX2-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero		; AVX2-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]		; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0		; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
%x0 = extractelement <2 x i64> %x, i64 %i0		%x0 = extractelement <2 x i64> %x, i64 %i0
%x1 = extractelement <2 x i64> %x, i64 %i1		%x1 = extractelement <2 x i64> %x, i64 %i1
%x2 = extractelement <2 x i64> %x, i64 %i2		%x2 = extractelement <2 x i64> %x, i64 %i2
%x3 = extractelement <2 x i64> %x, i64 %i3		%x3 = extractelement <2 x i64> %x, i64 %i3
%r0 = insertelement <4 x i64> undef, i64 %x0, i32 0		%r0 = insertelement <4 x i64> undef, i64 %x0, i32 0
%r1 = insertelement <4 x i64> %r0, i64 %x1, i32 1		%r1 = insertelement <4 x i64> %r0, i64 %x1, i32 1
%r2 = insertelement <4 x i64> %r1, i64 %x2, i32 2		%r2 = insertelement <4 x i64> %r1, i64 %x2, i32 2
%r3 = insertelement <4 x i64> %r2, i64 %x3, i32 3		%r3 = insertelement <4 x i64> %r2, i64 %x3, i32 3
ret <4 x i64> %r3		ret <4 x i64> %r3
}		}

define <8 x float> @var_shuffle_v8f32_v8f32_xxxxxxxx_i32(<8 x float> %x, i32 %i0, i32 %i1, i32 %i2, i32 %i3, i32 %i4, i32 %i5, i32 %i6, i32 %i7) nounwind {		define <8 x float> @var_shuffle_v8f32_v8f32_xxxxxxxx_i32(<8 x float> %x, i32 %i0, i32 %i1, i32 %i2, i32 %i3, i32 %i4, i32 %i5, i32 %i6, i32 %i7) nounwind {
; AVX1-LABEL: var_shuffle_v8f32_v8f32_xxxxxxxx_i32:		; AVX1-LABEL: var_shuffle_v8f32_v8f32_xxxxxxxx_i32:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: pushq %rbp		; AVX1-NEXT: pushq %rbp
; AVX1-NEXT: movq %rsp, %rbp		; AVX1-NEXT: movq %rsp, %rbp
		; AVX1-NEXT: pushq %rbx
; AVX1-NEXT: andq $-32, %rsp		; AVX1-NEXT: andq $-32, %rsp
; AVX1-NEXT: subq $64, %rsp		; AVX1-NEXT: subq $64, %rsp
; AVX1-NEXT: movslq %edi, %rax		; AVX1-NEXT: movslq %edi, %rax
; AVX1-NEXT: movslq %esi, %rsi		; AVX1-NEXT: movslq %esi, %rbx
; AVX1-NEXT: movslq %edx, %rdx		; AVX1-NEXT: movslq %edx, %r11
; AVX1-NEXT: movslq %ecx, %r11		; AVX1-NEXT: movslq %ecx, %r10
; AVX1-NEXT: movslq %r8d, %r10		; AVX1-NEXT: movslq %r8d, %rdi
; AVX1-NEXT: vmovaps %ymm0, (%rsp)		; AVX1-NEXT: vmovaps %ymm0, (%rsp)
; AVX1-NEXT: movslq %r9d, %r8		; AVX1-NEXT: movslq %r9d, %rcx
; AVX1-NEXT: movslq 16(%rbp), %rdi		; AVX1-NEXT: movslq 16(%rbp), %rdx
; AVX1-NEXT: movslq 24(%rbp), %rcx		; AVX1-NEXT: movslq 24(%rbp), %rsi
; AVX1-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; AVX1-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
		; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[2,3]
		; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]
		; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],mem[0]
; AVX1-NEXT: vmovss {{.*#+}} xmm1 = mem[0],zero,zero,zero		; AVX1-NEXT: vmovss {{.*#+}} xmm1 = mem[0],zero,zero,zero
; AVX1-NEXT: vmovss {{.*#+}} xmm2 = mem[0],zero,zero,zero		; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0],mem[0],xmm1[2,3]
; AVX1-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0],mem[0],xmm2[2,3]		; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],mem[0],xmm1[3]
; AVX1-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],mem[0],xmm2[3]		; AVX1-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1,2],mem[0]
; AVX1-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1,2],mem[0]		; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; AVX1-NEXT: vmovss {{.*#+}} xmm3 = mem[0],zero,zero,zero		; AVX1-NEXT: leaq -8(%rbp), %rsp
; AVX1-NEXT: vinsertps {{.*#+}} xmm3 = xmm3[0],mem[0],xmm3[2,3]		; AVX1-NEXT: popq %rbx
; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm3[0,1],xmm0[0],xmm3[3]
; AVX1-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[0]
; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm2, %ymm0
; AVX1-NEXT: movq %rbp, %rsp
; AVX1-NEXT: popq %rbp		; AVX1-NEXT: popq %rbp
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: var_shuffle_v8f32_v8f32_xxxxxxxx_i32:		; AVX2-LABEL: var_shuffle_v8f32_v8f32_xxxxxxxx_i32:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: vmovd %edi, %xmm1		; AVX2-NEXT: vmovd %edi, %xmm1
; AVX2-NEXT: vpermps %ymm0, %ymm1, %ymm1		; AVX2-NEXT: vpermps %ymm0, %ymm1, %ymm1
; AVX2-NEXT: vmovd %esi, %xmm2		; AVX2-NEXT: vmovd %esi, %xmm2
Show All 35 Lines	; AVX2-NEXT: retq
%r6 = insertelement <8 x float> %r5, float %x6, i32 6		%r6 = insertelement <8 x float> %r5, float %x6, i32 6
%r7 = insertelement <8 x float> %r6, float %x7, i32 7		%r7 = insertelement <8 x float> %r6, float %x7, i32 7
ret <8 x float> %r7		ret <8 x float> %r7
}		}

define <8 x float> @var_shuffle_v8f32_v4f32_xxxxxxxx_i32(<4 x float> %x, i32 %i0, i32 %i1, i32 %i2, i32 %i3, i32 %i4, i32 %i5, i32 %i6, i32 %i7) nounwind {		define <8 x float> @var_shuffle_v8f32_v4f32_xxxxxxxx_i32(<4 x float> %x, i32 %i0, i32 %i1, i32 %i2, i32 %i3, i32 %i4, i32 %i5, i32 %i6, i32 %i7) nounwind {
; ALL-LABEL: var_shuffle_v8f32_v4f32_xxxxxxxx_i32:		; ALL-LABEL: var_shuffle_v8f32_v4f32_xxxxxxxx_i32:
; ALL: # BB#0:		; ALL: # BB#0:
		; ALL-NEXT: pushq %rbx
; ALL-NEXT: movslq %edi, %rax		; ALL-NEXT: movslq %edi, %rax
; ALL-NEXT: movslq %esi, %rsi		; ALL-NEXT: movslq %esi, %rbx
; ALL-NEXT: movslq %edx, %rdx		; ALL-NEXT: movslq %edx, %r11
; ALL-NEXT: movslq %ecx, %r11		; ALL-NEXT: movslq %ecx, %r10
; ALL-NEXT: movslq %r8d, %r10		; ALL-NEXT: movslq %r8d, %rdi
; ALL-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)		; ALL-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)
; ALL-NEXT: movslq %r9d, %r8		; ALL-NEXT: movslq %r9d, %rcx
; ALL-NEXT: movslq {{[0-9]+}}(%rsp), %rdi		; ALL-NEXT: movslq {{[0-9]+}}(%rsp), %rdx
; ALL-NEXT: movslq {{[0-9]+}}(%rsp), %rcx		; ALL-NEXT: movslq {{[0-9]+}}(%rsp), %rsi
; ALL-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; ALL-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
		; ALL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[2,3]
		; ALL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]
		; ALL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],mem[0]
; ALL-NEXT: vmovss {{.*#+}} xmm1 = mem[0],zero,zero,zero		; ALL-NEXT: vmovss {{.*#+}} xmm1 = mem[0],zero,zero,zero
; ALL-NEXT: vmovss {{.*#+}} xmm2 = mem[0],zero,zero,zero		; ALL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0],mem[0],xmm1[2,3]
; ALL-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0],mem[0],xmm2[2,3]		; ALL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],mem[0],xmm1[3]
; ALL-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],mem[0],xmm2[3]		; ALL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1,2],mem[0]
; ALL-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1,2],mem[0]		; ALL-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; ALL-NEXT: vmovss {{.*#+}} xmm3 = mem[0],zero,zero,zero		; ALL-NEXT: popq %rbx
; ALL-NEXT: vinsertps {{.*#+}} xmm3 = xmm3[0],mem[0],xmm3[2,3]
; ALL-NEXT: vinsertps {{.*#+}} xmm0 = xmm3[0,1],xmm0[0],xmm3[3]
; ALL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[0]
; ALL-NEXT: vinsertf128 $1, %xmm0, %ymm2, %ymm0
; ALL-NEXT: retq		; ALL-NEXT: retq
%x0 = extractelement <4 x float> %x, i32 %i0		%x0 = extractelement <4 x float> %x, i32 %i0
%x1 = extractelement <4 x float> %x, i32 %i1		%x1 = extractelement <4 x float> %x, i32 %i1
%x2 = extractelement <4 x float> %x, i32 %i2		%x2 = extractelement <4 x float> %x, i32 %i2
%x3 = extractelement <4 x float> %x, i32 %i3		%x3 = extractelement <4 x float> %x, i32 %i3
%x4 = extractelement <4 x float> %x, i32 %i4		%x4 = extractelement <4 x float> %x, i32 %i4
%x5 = extractelement <4 x float> %x, i32 %i5		%x5 = extractelement <4 x float> %x, i32 %i5
%x6 = extractelement <4 x float> %x, i32 %i6		%x6 = extractelement <4 x float> %x, i32 %i6
Show All 16 Lines
; AVX1-NEXT: movq %rsp, %rbp		; AVX1-NEXT: movq %rsp, %rbp
; AVX1-NEXT: andq $-32, %rsp		; AVX1-NEXT: andq $-32, %rsp
; AVX1-NEXT: subq $64, %rsp		; AVX1-NEXT: subq $64, %rsp
; AVX1-NEXT: vmovaps %ymm0, (%rsp)		; AVX1-NEXT: vmovaps %ymm0, (%rsp)
; AVX1-NEXT: movslq 32(%rbp), %rax		; AVX1-NEXT: movslq 32(%rbp), %rax
; AVX1-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX1-NEXT: movzwl (%rsp,%rax,2), %eax
; AVX1-NEXT: vmovd %eax, %xmm0		; AVX1-NEXT: vmovd %eax, %xmm0
; AVX1-NEXT: movslq 40(%rbp), %rax		; AVX1-NEXT: movslq 40(%rbp), %rax
; AVX1-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX1-NEXT: vpinsrw $1, (%rsp,%rax,2), %xmm0, %xmm0
; AVX1-NEXT: vpinsrw $1, %eax, %xmm0, %xmm0
; AVX1-NEXT: movslq 48(%rbp), %rax		; AVX1-NEXT: movslq 48(%rbp), %rax
; AVX1-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX1-NEXT: vpinsrw $2, (%rsp,%rax,2), %xmm0, %xmm0
; AVX1-NEXT: vpinsrw $2, %eax, %xmm0, %xmm0
; AVX1-NEXT: movslq 56(%rbp), %rax		; AVX1-NEXT: movslq 56(%rbp), %rax
; AVX1-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX1-NEXT: vpinsrw $3, (%rsp,%rax,2), %xmm0, %xmm0
; AVX1-NEXT: vpinsrw $3, %eax, %xmm0, %xmm0
; AVX1-NEXT: movslq 64(%rbp), %rax		; AVX1-NEXT: movslq 64(%rbp), %rax
; AVX1-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX1-NEXT: vpinsrw $4, (%rsp,%rax,2), %xmm0, %xmm0
; AVX1-NEXT: vpinsrw $4, %eax, %xmm0, %xmm0
; AVX1-NEXT: movslq 72(%rbp), %rax		; AVX1-NEXT: movslq 72(%rbp), %rax
; AVX1-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX1-NEXT: vpinsrw $5, (%rsp,%rax,2), %xmm0, %xmm0
; AVX1-NEXT: vpinsrw $5, %eax, %xmm0, %xmm0
; AVX1-NEXT: movslq 80(%rbp), %rax		; AVX1-NEXT: movslq 80(%rbp), %rax
; AVX1-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX1-NEXT: vpinsrw $6, (%rsp,%rax,2), %xmm0, %xmm0
; AVX1-NEXT: vpinsrw $6, %eax, %xmm0, %xmm0
; AVX1-NEXT: movslq 88(%rbp), %rax		; AVX1-NEXT: movslq 88(%rbp), %rax
; AVX1-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX1-NEXT: vpinsrw $7, (%rsp,%rax,2), %xmm0, %xmm0
; AVX1-NEXT: vpinsrw $7, %eax, %xmm0, %xmm0
; AVX1-NEXT: movslq %edi, %rax		; AVX1-NEXT: movslq %edi, %rax
; AVX1-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX1-NEXT: movzwl (%rsp,%rax,2), %eax
; AVX1-NEXT: vmovd %eax, %xmm1		; AVX1-NEXT: vmovd %eax, %xmm1
; AVX1-NEXT: movslq %esi, %rax		; AVX1-NEXT: movslq %esi, %rax
; AVX1-NEXT: vpinsrw $1, (%rsp,%rax,2), %xmm1, %xmm1		; AVX1-NEXT: vpinsrw $1, (%rsp,%rax,2), %xmm1, %xmm1
; AVX1-NEXT: movslq %edx, %rax		; AVX1-NEXT: movslq %edx, %rax
; AVX1-NEXT: vpinsrw $2, (%rsp,%rax,2), %xmm1, %xmm1		; AVX1-NEXT: vpinsrw $2, (%rsp,%rax,2), %xmm1, %xmm1
; AVX1-NEXT: movslq %ecx, %rax		; AVX1-NEXT: movslq %ecx, %rax
; AVX1-NEXT: vpinsrw $3, (%rsp,%rax,2), %xmm1, %xmm1		; AVX1-NEXT: vpinsrw $3, (%rsp,%rax,2), %xmm1, %xmm1
; AVX1-NEXT: movslq %r8d, %rax		; AVX1-NEXT: movslq %r8d, %rax
; AVX1-NEXT: vpinsrw $4, (%rsp,%rax,2), %xmm1, %xmm1		; AVX1-NEXT: vpinsrw $4, (%rsp,%rax,2), %xmm1, %xmm1
; AVX1-NEXT: movslq %r9d, %rax		; AVX1-NEXT: movslq %r9d, %rax
; AVX1-NEXT: vpinsrw $5, (%rsp,%rax,2), %xmm1, %xmm1		; AVX1-NEXT: vpinsrw $5, (%rsp,%rax,2), %xmm1, %xmm1
; AVX1-NEXT: movslq 16(%rbp), %rax		; AVX1-NEXT: movslq 16(%rbp), %rax
; AVX1-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX1-NEXT: vpinsrw $6, (%rsp,%rax,2), %xmm1, %xmm1
; AVX1-NEXT: vpinsrw $6, %eax, %xmm1, %xmm1
; AVX1-NEXT: movslq 24(%rbp), %rax		; AVX1-NEXT: movslq 24(%rbp), %rax
; AVX1-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX1-NEXT: vpinsrw $7, (%rsp,%rax,2), %xmm1, %xmm1
; AVX1-NEXT: vpinsrw $7, %eax, %xmm1, %xmm1
; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; AVX1-NEXT: movq %rbp, %rsp		; AVX1-NEXT: movq %rbp, %rsp
; AVX1-NEXT: popq %rbp		; AVX1-NEXT: popq %rbp
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: var_shuffle_v16i16_v16i16_xxxxxxxxxxxxxxxx_i16:		; AVX2-LABEL: var_shuffle_v16i16_v16i16_xxxxxxxxxxxxxxxx_i16:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: pushq %rbp		; AVX2-NEXT: pushq %rbp
; AVX2-NEXT: movq %rsp, %rbp		; AVX2-NEXT: movq %rsp, %rbp
; AVX2-NEXT: andq $-32, %rsp		; AVX2-NEXT: andq $-32, %rsp
; AVX2-NEXT: subq $64, %rsp		; AVX2-NEXT: subq $64, %rsp
; AVX2-NEXT: vmovaps %ymm0, (%rsp)		; AVX2-NEXT: vmovaps %ymm0, (%rsp)
; AVX2-NEXT: movslq 32(%rbp), %rax		; AVX2-NEXT: movslq 32(%rbp), %rax
; AVX2-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX2-NEXT: movzwl (%rsp,%rax,2), %eax
; AVX2-NEXT: vmovd %eax, %xmm0		; AVX2-NEXT: vmovd %eax, %xmm0
; AVX2-NEXT: movslq 40(%rbp), %rax		; AVX2-NEXT: movslq 40(%rbp), %rax
; AVX2-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX2-NEXT: vpinsrw $1, (%rsp,%rax,2), %xmm0, %xmm0
; AVX2-NEXT: vpinsrw $1, %eax, %xmm0, %xmm0
; AVX2-NEXT: movslq 48(%rbp), %rax		; AVX2-NEXT: movslq 48(%rbp), %rax
; AVX2-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX2-NEXT: vpinsrw $2, (%rsp,%rax,2), %xmm0, %xmm0
; AVX2-NEXT: vpinsrw $2, %eax, %xmm0, %xmm0
; AVX2-NEXT: movslq 56(%rbp), %rax		; AVX2-NEXT: movslq 56(%rbp), %rax
; AVX2-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX2-NEXT: vpinsrw $3, (%rsp,%rax,2), %xmm0, %xmm0
; AVX2-NEXT: vpinsrw $3, %eax, %xmm0, %xmm0
; AVX2-NEXT: movslq 64(%rbp), %rax		; AVX2-NEXT: movslq 64(%rbp), %rax
; AVX2-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX2-NEXT: vpinsrw $4, (%rsp,%rax,2), %xmm0, %xmm0
; AVX2-NEXT: vpinsrw $4, %eax, %xmm0, %xmm0
; AVX2-NEXT: movslq 72(%rbp), %rax		; AVX2-NEXT: movslq 72(%rbp), %rax
; AVX2-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX2-NEXT: vpinsrw $5, (%rsp,%rax,2), %xmm0, %xmm0
; AVX2-NEXT: vpinsrw $5, %eax, %xmm0, %xmm0
; AVX2-NEXT: movslq 80(%rbp), %rax		; AVX2-NEXT: movslq 80(%rbp), %rax
; AVX2-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX2-NEXT: vpinsrw $6, (%rsp,%rax,2), %xmm0, %xmm0
; AVX2-NEXT: vpinsrw $6, %eax, %xmm0, %xmm0
; AVX2-NEXT: movslq 88(%rbp), %rax		; AVX2-NEXT: movslq 88(%rbp), %rax
; AVX2-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX2-NEXT: vpinsrw $7, (%rsp,%rax,2), %xmm0, %xmm0
; AVX2-NEXT: vpinsrw $7, %eax, %xmm0, %xmm0
; AVX2-NEXT: movslq %edi, %rax		; AVX2-NEXT: movslq %edi, %rax
; AVX2-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX2-NEXT: movzwl (%rsp,%rax,2), %eax
; AVX2-NEXT: vmovd %eax, %xmm1		; AVX2-NEXT: vmovd %eax, %xmm1
; AVX2-NEXT: movslq %esi, %rax		; AVX2-NEXT: movslq %esi, %rax
; AVX2-NEXT: vpinsrw $1, (%rsp,%rax,2), %xmm1, %xmm1		; AVX2-NEXT: vpinsrw $1, (%rsp,%rax,2), %xmm1, %xmm1
; AVX2-NEXT: movslq %edx, %rax		; AVX2-NEXT: movslq %edx, %rax
; AVX2-NEXT: vpinsrw $2, (%rsp,%rax,2), %xmm1, %xmm1		; AVX2-NEXT: vpinsrw $2, (%rsp,%rax,2), %xmm1, %xmm1
; AVX2-NEXT: movslq %ecx, %rax		; AVX2-NEXT: movslq %ecx, %rax
; AVX2-NEXT: vpinsrw $3, (%rsp,%rax,2), %xmm1, %xmm1		; AVX2-NEXT: vpinsrw $3, (%rsp,%rax,2), %xmm1, %xmm1
; AVX2-NEXT: movslq %r8d, %rax		; AVX2-NEXT: movslq %r8d, %rax
; AVX2-NEXT: vpinsrw $4, (%rsp,%rax,2), %xmm1, %xmm1		; AVX2-NEXT: vpinsrw $4, (%rsp,%rax,2), %xmm1, %xmm1
; AVX2-NEXT: movslq %r9d, %rax		; AVX2-NEXT: movslq %r9d, %rax
; AVX2-NEXT: vpinsrw $5, (%rsp,%rax,2), %xmm1, %xmm1		; AVX2-NEXT: vpinsrw $5, (%rsp,%rax,2), %xmm1, %xmm1
; AVX2-NEXT: movslq 16(%rbp), %rax		; AVX2-NEXT: movslq 16(%rbp), %rax
; AVX2-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX2-NEXT: vpinsrw $6, (%rsp,%rax,2), %xmm1, %xmm1
; AVX2-NEXT: vpinsrw $6, %eax, %xmm1, %xmm1
; AVX2-NEXT: movslq 24(%rbp), %rax		; AVX2-NEXT: movslq 24(%rbp), %rax
; AVX2-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX2-NEXT: vpinsrw $7, (%rsp,%rax,2), %xmm1, %xmm1
; AVX2-NEXT: vpinsrw $7, %eax, %xmm1, %xmm1
; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0		; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
; AVX2-NEXT: movq %rbp, %rsp		; AVX2-NEXT: movq %rbp, %rsp
; AVX2-NEXT: popq %rbp		; AVX2-NEXT: popq %rbp
; AVX2-NEXT: retq		; AVX2-NEXT: retq
%x0 = extractelement <16 x i16> %x, i32 %i0		%x0 = extractelement <16 x i16> %x, i32 %i0
%x1 = extractelement <16 x i16> %x, i32 %i1		%x1 = extractelement <16 x i16> %x, i32 %i1
%x2 = extractelement <16 x i16> %x, i32 %i2		%x2 = extractelement <16 x i16> %x, i32 %i2
%x3 = extractelement <16 x i16> %x, i32 %i3		%x3 = extractelement <16 x i16> %x, i32 %i3
Show All 31 Lines
define <16 x i16> @var_shuffle_v16i16_v8i16_xxxxxxxxxxxxxxxx_i16(<8 x i16> %x, i32 %i0, i32 %i1, i32 %i2, i32 %i3, i32 %i4, i32 %i5, i32 %i6, i32 %i7, i32 %i8, i32 %i9, i32 %i10, i32 %i11, i32 %i12, i32 %i13, i32 %i14, i32 %i15) nounwind {		define <16 x i16> @var_shuffle_v16i16_v8i16_xxxxxxxxxxxxxxxx_i16(<8 x i16> %x, i32 %i0, i32 %i1, i32 %i2, i32 %i3, i32 %i4, i32 %i5, i32 %i6, i32 %i7, i32 %i8, i32 %i9, i32 %i10, i32 %i11, i32 %i12, i32 %i13, i32 %i14, i32 %i15) nounwind {
; AVX1-LABEL: var_shuffle_v16i16_v8i16_xxxxxxxxxxxxxxxx_i16:		; AVX1-LABEL: var_shuffle_v16i16_v8i16_xxxxxxxxxxxxxxxx_i16:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)		; AVX1-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)
; AVX1-NEXT: movslq {{[0-9]+}}(%rsp), %rax		; AVX1-NEXT: movslq {{[0-9]+}}(%rsp), %rax
; AVX1-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX1-NEXT: movzwl -24(%rsp,%rax,2), %eax
; AVX1-NEXT: vmovd %eax, %xmm0		; AVX1-NEXT: vmovd %eax, %xmm0
; AVX1-NEXT: movslq {{[0-9]+}}(%rsp), %rax		; AVX1-NEXT: movslq {{[0-9]+}}(%rsp), %rax
; AVX1-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX1-NEXT: vpinsrw $1, -24(%rsp,%rax,2), %xmm0, %xmm0
; AVX1-NEXT: vpinsrw $1, %eax, %xmm0, %xmm0
; AVX1-NEXT: movslq {{[0-9]+}}(%rsp), %rax		; AVX1-NEXT: movslq {{[0-9]+}}(%rsp), %rax
; AVX1-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX1-NEXT: vpinsrw $2, -24(%rsp,%rax,2), %xmm0, %xmm0
; AVX1-NEXT: vpinsrw $2, %eax, %xmm0, %xmm0
; AVX1-NEXT: movslq {{[0-9]+}}(%rsp), %rax		; AVX1-NEXT: movslq {{[0-9]+}}(%rsp), %rax
; AVX1-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX1-NEXT: vpinsrw $3, -24(%rsp,%rax,2), %xmm0, %xmm0
; AVX1-NEXT: vpinsrw $3, %eax, %xmm0, %xmm0
; AVX1-NEXT: movslq {{[0-9]+}}(%rsp), %rax		; AVX1-NEXT: movslq {{[0-9]+}}(%rsp), %rax
; AVX1-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX1-NEXT: vpinsrw $4, -24(%rsp,%rax,2), %xmm0, %xmm0
; AVX1-NEXT: vpinsrw $4, %eax, %xmm0, %xmm0
; AVX1-NEXT: movslq {{[0-9]+}}(%rsp), %rax		; AVX1-NEXT: movslq {{[0-9]+}}(%rsp), %rax
; AVX1-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX1-NEXT: vpinsrw $5, -24(%rsp,%rax,2), %xmm0, %xmm0
; AVX1-NEXT: vpinsrw $5, %eax, %xmm0, %xmm0
; AVX1-NEXT: movslq {{[0-9]+}}(%rsp), %rax		; AVX1-NEXT: movslq {{[0-9]+}}(%rsp), %rax
; AVX1-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX1-NEXT: vpinsrw $6, -24(%rsp,%rax,2), %xmm0, %xmm0
; AVX1-NEXT: vpinsrw $6, %eax, %xmm0, %xmm0
; AVX1-NEXT: movslq {{[0-9]+}}(%rsp), %rax		; AVX1-NEXT: movslq {{[0-9]+}}(%rsp), %rax
; AVX1-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX1-NEXT: vpinsrw $7, -24(%rsp,%rax,2), %xmm0, %xmm0
; AVX1-NEXT: vpinsrw $7, %eax, %xmm0, %xmm0
; AVX1-NEXT: movslq %edi, %rax		; AVX1-NEXT: movslq %edi, %rax
; AVX1-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX1-NEXT: movzwl -24(%rsp,%rax,2), %eax
; AVX1-NEXT: vmovd %eax, %xmm1		; AVX1-NEXT: vmovd %eax, %xmm1
; AVX1-NEXT: movslq %esi, %rax		; AVX1-NEXT: movslq %esi, %rax
; AVX1-NEXT: vpinsrw $1, -24(%rsp,%rax,2), %xmm1, %xmm1		; AVX1-NEXT: vpinsrw $1, -24(%rsp,%rax,2), %xmm1, %xmm1
; AVX1-NEXT: movslq %edx, %rax		; AVX1-NEXT: movslq %edx, %rax
; AVX1-NEXT: vpinsrw $2, -24(%rsp,%rax,2), %xmm1, %xmm1		; AVX1-NEXT: vpinsrw $2, -24(%rsp,%rax,2), %xmm1, %xmm1
; AVX1-NEXT: movslq %ecx, %rax		; AVX1-NEXT: movslq %ecx, %rax
; AVX1-NEXT: vpinsrw $3, -24(%rsp,%rax,2), %xmm1, %xmm1		; AVX1-NEXT: vpinsrw $3, -24(%rsp,%rax,2), %xmm1, %xmm1
; AVX1-NEXT: movslq %r8d, %rax		; AVX1-NEXT: movslq %r8d, %rax
; AVX1-NEXT: vpinsrw $4, -24(%rsp,%rax,2), %xmm1, %xmm1		; AVX1-NEXT: vpinsrw $4, -24(%rsp,%rax,2), %xmm1, %xmm1
; AVX1-NEXT: movslq %r9d, %rax		; AVX1-NEXT: movslq %r9d, %rax
; AVX1-NEXT: vpinsrw $5, -24(%rsp,%rax,2), %xmm1, %xmm1		; AVX1-NEXT: vpinsrw $5, -24(%rsp,%rax,2), %xmm1, %xmm1
; AVX1-NEXT: movslq {{[0-9]+}}(%rsp), %rax		; AVX1-NEXT: movslq {{[0-9]+}}(%rsp), %rax
; AVX1-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX1-NEXT: vpinsrw $6, -24(%rsp,%rax,2), %xmm1, %xmm1
; AVX1-NEXT: vpinsrw $6, %eax, %xmm1, %xmm1
; AVX1-NEXT: movslq {{[0-9]+}}(%rsp), %rax		; AVX1-NEXT: movslq {{[0-9]+}}(%rsp), %rax
; AVX1-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX1-NEXT: vpinsrw $7, -24(%rsp,%rax,2), %xmm1, %xmm1
; AVX1-NEXT: vpinsrw $7, %eax, %xmm1, %xmm1
; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: var_shuffle_v16i16_v8i16_xxxxxxxxxxxxxxxx_i16:		; AVX2-LABEL: var_shuffle_v16i16_v8i16_xxxxxxxxxxxxxxxx_i16:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)		; AVX2-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)
; AVX2-NEXT: movslq {{[0-9]+}}(%rsp), %rax		; AVX2-NEXT: movslq {{[0-9]+}}(%rsp), %rax
; AVX2-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX2-NEXT: movzwl -24(%rsp,%rax,2), %eax
; AVX2-NEXT: vmovd %eax, %xmm0		; AVX2-NEXT: vmovd %eax, %xmm0
; AVX2-NEXT: movslq {{[0-9]+}}(%rsp), %rax		; AVX2-NEXT: movslq {{[0-9]+}}(%rsp), %rax
; AVX2-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX2-NEXT: vpinsrw $1, -24(%rsp,%rax,2), %xmm0, %xmm0
; AVX2-NEXT: vpinsrw $1, %eax, %xmm0, %xmm0
; AVX2-NEXT: movslq {{[0-9]+}}(%rsp), %rax		; AVX2-NEXT: movslq {{[0-9]+}}(%rsp), %rax
; AVX2-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX2-NEXT: vpinsrw $2, -24(%rsp,%rax,2), %xmm0, %xmm0
; AVX2-NEXT: vpinsrw $2, %eax, %xmm0, %xmm0
; AVX2-NEXT: movslq {{[0-9]+}}(%rsp), %rax		; AVX2-NEXT: movslq {{[0-9]+}}(%rsp), %rax
; AVX2-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX2-NEXT: vpinsrw $3, -24(%rsp,%rax,2), %xmm0, %xmm0
; AVX2-NEXT: vpinsrw $3, %eax, %xmm0, %xmm0
; AVX2-NEXT: movslq {{[0-9]+}}(%rsp), %rax		; AVX2-NEXT: movslq {{[0-9]+}}(%rsp), %rax
; AVX2-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX2-NEXT: vpinsrw $4, -24(%rsp,%rax,2), %xmm0, %xmm0
; AVX2-NEXT: vpinsrw $4, %eax, %xmm0, %xmm0
; AVX2-NEXT: movslq {{[0-9]+}}(%rsp), %rax		; AVX2-NEXT: movslq {{[0-9]+}}(%rsp), %rax
; AVX2-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX2-NEXT: vpinsrw $5, -24(%rsp,%rax,2), %xmm0, %xmm0
; AVX2-NEXT: vpinsrw $5, %eax, %xmm0, %xmm0
; AVX2-NEXT: movslq {{[0-9]+}}(%rsp), %rax		; AVX2-NEXT: movslq {{[0-9]+}}(%rsp), %rax
; AVX2-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX2-NEXT: vpinsrw $6, -24(%rsp,%rax,2), %xmm0, %xmm0
; AVX2-NEXT: vpinsrw $6, %eax, %xmm0, %xmm0
; AVX2-NEXT: movslq {{[0-9]+}}(%rsp), %rax		; AVX2-NEXT: movslq {{[0-9]+}}(%rsp), %rax
; AVX2-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX2-NEXT: vpinsrw $7, -24(%rsp,%rax,2), %xmm0, %xmm0
; AVX2-NEXT: vpinsrw $7, %eax, %xmm0, %xmm0
; AVX2-NEXT: movslq %edi, %rax		; AVX2-NEXT: movslq %edi, %rax
; AVX2-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX2-NEXT: movzwl -24(%rsp,%rax,2), %eax
; AVX2-NEXT: vmovd %eax, %xmm1		; AVX2-NEXT: vmovd %eax, %xmm1
; AVX2-NEXT: movslq %esi, %rax		; AVX2-NEXT: movslq %esi, %rax
; AVX2-NEXT: vpinsrw $1, -24(%rsp,%rax,2), %xmm1, %xmm1		; AVX2-NEXT: vpinsrw $1, -24(%rsp,%rax,2), %xmm1, %xmm1
; AVX2-NEXT: movslq %edx, %rax		; AVX2-NEXT: movslq %edx, %rax
; AVX2-NEXT: vpinsrw $2, -24(%rsp,%rax,2), %xmm1, %xmm1		; AVX2-NEXT: vpinsrw $2, -24(%rsp,%rax,2), %xmm1, %xmm1
; AVX2-NEXT: movslq %ecx, %rax		; AVX2-NEXT: movslq %ecx, %rax
; AVX2-NEXT: vpinsrw $3, -24(%rsp,%rax,2), %xmm1, %xmm1		; AVX2-NEXT: vpinsrw $3, -24(%rsp,%rax,2), %xmm1, %xmm1
; AVX2-NEXT: movslq %r8d, %rax		; AVX2-NEXT: movslq %r8d, %rax
; AVX2-NEXT: vpinsrw $4, -24(%rsp,%rax,2), %xmm1, %xmm1		; AVX2-NEXT: vpinsrw $4, -24(%rsp,%rax,2), %xmm1, %xmm1
; AVX2-NEXT: movslq %r9d, %rax		; AVX2-NEXT: movslq %r9d, %rax
; AVX2-NEXT: vpinsrw $5, -24(%rsp,%rax,2), %xmm1, %xmm1		; AVX2-NEXT: vpinsrw $5, -24(%rsp,%rax,2), %xmm1, %xmm1
; AVX2-NEXT: movslq {{[0-9]+}}(%rsp), %rax		; AVX2-NEXT: movslq {{[0-9]+}}(%rsp), %rax
; AVX2-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX2-NEXT: vpinsrw $6, -24(%rsp,%rax,2), %xmm1, %xmm1
; AVX2-NEXT: vpinsrw $6, %eax, %xmm1, %xmm1
; AVX2-NEXT: movslq {{[0-9]+}}(%rsp), %rax		; AVX2-NEXT: movslq {{[0-9]+}}(%rsp), %rax
; AVX2-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX2-NEXT: vpinsrw $7, -24(%rsp,%rax,2), %xmm1, %xmm1
; AVX2-NEXT: vpinsrw $7, %eax, %xmm1, %xmm1
; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0		; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
%x0 = extractelement <8 x i16> %x, i32 %i0		%x0 = extractelement <8 x i16> %x, i32 %i0
%x1 = extractelement <8 x i16> %x, i32 %i1		%x1 = extractelement <8 x i16> %x, i32 %i1
%x2 = extractelement <8 x i16> %x, i32 %i2		%x2 = extractelement <8 x i16> %x, i32 %i2
%x3 = extractelement <8 x i16> %x, i32 %i3		%x3 = extractelement <8 x i16> %x, i32 %i3
%x4 = extractelement <8 x i16> %x, i32 %i4		%x4 = extractelement <8 x i16> %x, i32 %i4
%x5 = extractelement <8 x i16> %x, i32 %i5		%x5 = extractelement <8 x i16> %x, i32 %i5
Show All 39 Lines
; AVX1-NEXT: subq $64, %rsp		; AVX1-NEXT: subq $64, %rsp
; AVX1-NEXT: movq (%rdi), %rax		; AVX1-NEXT: movq (%rdi), %rax
; AVX1-NEXT: movq 8(%rdi), %rcx		; AVX1-NEXT: movq 8(%rdi), %rcx
; AVX1-NEXT: movq 16(%rdi), %rdx		; AVX1-NEXT: movq 16(%rdi), %rdx
; AVX1-NEXT: movq 24(%rdi), %rsi		; AVX1-NEXT: movq 24(%rdi), %rsi
; AVX1-NEXT: vmovaps %ymm0, (%rsp)		; AVX1-NEXT: vmovaps %ymm0, (%rsp)
; AVX1-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
		; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
		; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX1-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]		; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
; AVX1-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero		; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: movq %rbp, %rsp		; AVX1-NEXT: movq %rbp, %rsp
; AVX1-NEXT: popq %rbp		; AVX1-NEXT: popq %rbp
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: mem_shuffle_v4i64_v4i64_xxxx_i64:		; AVX2-LABEL: mem_shuffle_v4i64_v4i64_xxxx_i64:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: pushq %rbp		; AVX2-NEXT: pushq %rbp
; AVX2-NEXT: movq %rsp, %rbp		; AVX2-NEXT: movq %rsp, %rbp
; AVX2-NEXT: andq $-32, %rsp		; AVX2-NEXT: andq $-32, %rsp
; AVX2-NEXT: subq $64, %rsp		; AVX2-NEXT: subq $64, %rsp
; AVX2-NEXT: movq (%rdi), %rax		; AVX2-NEXT: movq (%rdi), %rax
; AVX2-NEXT: movq 8(%rdi), %rcx		; AVX2-NEXT: movq 8(%rdi), %rcx
; AVX2-NEXT: movq 16(%rdi), %rdx		; AVX2-NEXT: movq 16(%rdi), %rdx
; AVX2-NEXT: movq 24(%rdi), %rsi		; AVX2-NEXT: movq 24(%rdi), %rsi
; AVX2-NEXT: vmovaps %ymm0, (%rsp)		; AVX2-NEXT: vmovaps %ymm0, (%rsp)
; AVX2-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX2-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
		; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
		; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX2-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero		; AVX2-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]		; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
; AVX2-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero		; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
; AVX2-NEXT: movq %rbp, %rsp		; AVX2-NEXT: movq %rbp, %rsp
; AVX2-NEXT: popq %rbp		; AVX2-NEXT: popq %rbp
; AVX2-NEXT: retq		; AVX2-NEXT: retq
%p0 = getelementptr inbounds i64, i64* %i, i32 0		%p0 = getelementptr inbounds i64, i64* %i, i32 0
%p1 = getelementptr inbounds i64, i64* %i, i32 1		%p1 = getelementptr inbounds i64, i64* %i, i32 1
%p2 = getelementptr inbounds i64, i64* %i, i32 2		%p2 = getelementptr inbounds i64, i64* %i, i32 2
%p3 = getelementptr inbounds i64, i64* %i, i32 3		%p3 = getelementptr inbounds i64, i64* %i, i32 3
%i0 = load i64, i64* %p0, align 4		%i0 = load i64, i64* %p0, align 4
Show All 16 Lines
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: movq (%rdi), %rax		; AVX1-NEXT: movq (%rdi), %rax
; AVX1-NEXT: movq 8(%rdi), %rcx		; AVX1-NEXT: movq 8(%rdi), %rcx
; AVX1-NEXT: movq 16(%rdi), %rdx		; AVX1-NEXT: movq 16(%rdi), %rdx
; AVX1-NEXT: movq 24(%rdi), %rsi		; AVX1-NEXT: movq 24(%rdi), %rsi
; AVX1-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)		; AVX1-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)
; AVX1-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
		; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
		; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX1-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]		; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
; AVX1-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero		; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: mem_shuffle_v4i64_v2i64_xxxx_i64:		; AVX2-LABEL: mem_shuffle_v4i64_v2i64_xxxx_i64:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: movq (%rdi), %rax		; AVX2-NEXT: movq (%rdi), %rax
; AVX2-NEXT: movq 8(%rdi), %rcx		; AVX2-NEXT: movq 8(%rdi), %rcx
; AVX2-NEXT: movq 16(%rdi), %rdx		; AVX2-NEXT: movq 16(%rdi), %rdx
; AVX2-NEXT: movq 24(%rdi), %rsi		; AVX2-NEXT: movq 24(%rdi), %rsi
; AVX2-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)		; AVX2-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)
; AVX2-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX2-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
		; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
		; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX2-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero		; AVX2-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]		; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
; AVX2-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero		; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
%p0 = getelementptr inbounds i64, i64* %i, i32 0		%p0 = getelementptr inbounds i64, i64* %i, i32 0
%p1 = getelementptr inbounds i64, i64* %i, i32 1		%p1 = getelementptr inbounds i64, i64* %i, i32 1
%p2 = getelementptr inbounds i64, i64* %i, i32 2		%p2 = getelementptr inbounds i64, i64* %i, i32 2
%p3 = getelementptr inbounds i64, i64* %i, i32 3		%p3 = getelementptr inbounds i64, i64* %i, i32 3
%i0 = load i64, i64* %p0, align 4		%i0 = load i64, i64* %p0, align 4
%i1 = load i64, i64* %p1, align 4		%i1 = load i64, i64* %p1, align 4
%i2 = load i64, i64* %p2, align 4		%i2 = load i64, i64* %p2, align 4
Show All 11 Lines

llvm/trunk/test/CodeGen/X86/win32-eh.ll

Show All 21 Lines	lpad:
%cs = catchswitch within none [label %catch] unwind to caller		%cs = catchswitch within none [label %catch] unwind to caller
catch:		catch:
%p = catchpad within %cs [i8* bitcast (i32 ()* @catchall_filt to i8*)]		%p = catchpad within %cs [i8* bitcast (i32 ()* @catchall_filt to i8*)]
catchret from %p to label %cont		catchret from %p to label %cont
}		}

; CHECK-LABEL: _use_except_handler3:		; CHECK-LABEL: _use_except_handler3:
; CHECK: pushl %ebp		; CHECK: pushl %ebp
; CHECK: movl %esp, %ebp		; CHECK-NEXT: movl %esp, %ebp
; CHECK: pushl %ebx		; CHECK-NEXT: pushl %ebx
; CHECK: pushl %edi		; CHECK-NEXT: pushl %edi
; CHECK: pushl %esi		; CHECK-NEXT: pushl %esi
; CHECK: subl ${{[0-9]+}}, %esp		; CHECK-NEXT: subl ${{[0-9]+}}, %esp
; CHECK: movl $-1, -16(%ebp)		; CHECK-NEXT: movl %esp, -36(%ebp)
; CHECK: movl $L__ehtable$use_except_handler3, -20(%ebp)		; CHECK-NEXT: movl $-1, -16(%ebp)
; CHECK: leal -28(%ebp), %[[node:[^ ,]*]]		; CHECK-NEXT: movl $L__ehtable$use_except_handler3, -20(%ebp)
; CHECK: movl $__except_handler3, -24(%ebp)		; CHECK-NEXT: leal -28(%ebp), %[[node:[^ ,]*]]
; CHECK: movl %fs:0, %[[next:[^ ,]*]]		; CHECK-NEXT: movl $__except_handler3, -24(%ebp)
; CHECK: movl %[[next]], -28(%ebp)		; CHECK-NEXT: movl %fs:0, %[[next:[^ ,]*]]
; CHECK: movl %[[node]], %fs:0		; CHECK-NEXT: movl %[[next]], -28(%ebp)
; CHECK: calll _may_throw_or_crash		; CHECK-NEXT: movl %[[node]], %fs:0
		; CHECK-NEXT: movl $0, -16(%ebp)
		; CHECK-NEXT: calll _may_throw_or_crash

; CHECK: movl -28(%ebp), %[[next:[^ ,]*]]		; CHECK: movl -28(%ebp), %[[next:[^ ,]*]]
; CHECK: movl %[[next]], %fs:0		; CHECK-NEXT: movl %[[next]], %fs:0
; CHECK: retl		; CHECK: retl
; CHECK: LBB1_2: # %catch{{$}}		; CHECK-NEXT: LBB1_2: # %catch{{$}}

; CHECK: .section .xdata,"dr"		; CHECK: .section .xdata,"dr"
; CHECK-LABEL: L__ehtable$use_except_handler3:		; CHECK-LABEL: L__ehtable$use_except_handler3:
; CHECK-NEXT: .long -1		; CHECK-NEXT: .long -1
; CHECK-NEXT: .long _catchall_filt		; CHECK-NEXT: .long _catchall_filt
; CHECK-NEXT: .long LBB1_2		; CHECK-NEXT: .long LBB1_2

define void @use_except_handler4() personality i32 (...)* @_except_handler4 {		define void @use_except_handler4() personality i32 (...)* @_except_handler4 {
entry:		entry:
invoke void @may_throw_or_crash()		invoke void @may_throw_or_crash()
to label %cont unwind label %lpad		to label %cont unwind label %lpad
cont:		cont:
ret void		ret void
lpad:		lpad:
%cs = catchswitch within none [label %catch] unwind to caller		%cs = catchswitch within none [label %catch] unwind to caller
catch:		catch:
%p = catchpad within %cs [i8* bitcast (i32 ()* @catchall_filt to i8*)]		%p = catchpad within %cs [i8* bitcast (i32 ()* @catchall_filt to i8*)]
catchret from %p to label %cont		catchret from %p to label %cont
}		}

; CHECK-LABEL: _use_except_handler4:		; CHECK-LABEL: _use_except_handler4:
; CHECK: pushl %ebp		; CHECK: pushl %ebp
; CHECK: movl %esp, %ebp		; CHECK-NEXT: movl %esp, %ebp
; CHECK: subl ${{[0-9]+}}, %esp		; CHECK-NEXT: pushl %ebx
; CHECK: movl %esp, -36(%ebp)		; CHECK-NEXT: pushl %edi
; CHECK: movl $-2, -16(%ebp)		; CHECK-NEXT: pushl %esi
; CHECK: movl $L__ehtable$use_except_handler4, %[[lsda:[^ ,]*]]		; CHECK-NEXT: subl ${{[0-9]+}}, %esp
; CHECK: xorl ___security_cookie, %[[lsda]]		; CHECK-NEXT: movl %ebp, %eax
; CHECK: movl %[[lsda]], -20(%ebp)		; CHECK-NEXT: movl %esp, -36(%ebp)
; CHECK: leal -28(%ebp), %[[node:[^ ,]*]]		; CHECK-NEXT: movl $-2, -16(%ebp)
; CHECK: movl $__except_handler4, -24(%ebp)		; CHECK-NEXT: movl $L__ehtable$use_except_handler4, %[[lsda:[^ ,]*]]
; CHECK: movl %fs:0, %[[next:[^ ,]*]]		; CHECK-NEXT: movl ___security_cookie, %[[seccookie:[^ ,]*]]
; CHECK: movl %[[next]], -28(%ebp)		; CHECK-NEXT: xorl %[[seccookie]], %[[lsda]]
; CHECK: movl %[[node]], %fs:0		; CHECK-NEXT: movl %[[lsda]], -20(%ebp)
; CHECK: calll _may_throw_or_crash		; CHECK-NEXT: xorl %[[seccookie]], %[[tmp1:[^ ,]*]]
		; CHECK-NEXT: movl %[[tmp1]], -40(%ebp)
		; CHECK-NEXT: leal -28(%ebp), %[[node:[^ ,]*]]
		; CHECK-NEXT: movl $__except_handler4, -24(%ebp)
		; CHECK-NEXT: movl %fs:0, %[[next:[^ ,]*]]
		; CHECK-NEXT: movl %[[next]], -28(%ebp)
		; CHECK-NEXT: movl %[[node]], %fs:0
		; CHECK-NEXT: movl $0, -16(%ebp)
		; CHECK-NEXT: calll _may_throw_or_crash

; CHECK: movl -28(%ebp), %[[next:[^ ,]*]]		; CHECK: movl -28(%ebp), %[[next:[^ ,]*]]
; CHECK: movl %[[next]], %fs:0		; CHECK-NEXT: movl %[[next]], %fs:0
; CHECK: retl		; CHECK-NEXT: addl $28, %esp
; CHECK: LBB2_2: # %catch{{$}}		; CHECK-NEXT: popl %esi
		; CHECK-NEXT: popl %edi
		; CHECK-NEXT: popl %ebx
		; CHECK-NEXT: popl %ebp
		; CHECK-NEXT: retl
		; CHECK-NEXT: LBB2_2: # %catch{{$}}

; CHECK: .section .xdata,"dr"		; CHECK: .section .xdata,"dr"
; CHECK-LABEL: L__ehtable$use_except_handler4:		; CHECK-LABEL: L__ehtable$use_except_handler4:
; CHECK-NEXT: .long -2		; CHECK-NEXT: .long -2
; CHECK-NEXT: .long 0		; CHECK-NEXT: .long 0
; CHECK-NEXT: .long -40		; CHECK-NEXT: .long -40
; CHECK-NEXT: .long 0		; CHECK-NEXT: .long 0
; CHECK-NEXT: .long -2		; CHECK-NEXT: .long -2
Show All 10 Lines	lpad:
%cs = catchswitch within none [label %catch] unwind to caller		%cs = catchswitch within none [label %catch] unwind to caller
catch:		catch:
%p = catchpad within %cs [i8* bitcast (i32 ()* @catchall_filt to i8*)]		%p = catchpad within %cs [i8* bitcast (i32 ()* @catchall_filt to i8*)]
catchret from %p to label %cont		catchret from %p to label %cont
}		}

; CHECK-LABEL: _use_except_handler4_ssp:		; CHECK-LABEL: _use_except_handler4_ssp:
; CHECK: pushl %ebp		; CHECK: pushl %ebp
; CHECK: movl %esp, %ebp		; CHECK-NEXT: movl %esp, %ebp
; CHECK: subl ${{[0-9]+}}, %esp		; CHECK-NEXT: pushl %ebx
; CHECK: movl %ebp, %[[ehguard:[^ ,]*]]		; CHECK-NEXT: pushl %edi
; CHECK: movl %esp, -36(%ebp)		; CHECK-NEXT: pushl %esi
; CHECK: movl $-2, -16(%ebp)		; CHECK-NEXT: subl ${{[0-9]+}}, %esp
; CHECK: movl $L__ehtable$use_except_handler4_ssp, %[[lsda:[^ ,]*]]		; CHECK-NEXT: movl %ebp, %[[ehguard:[^ ,]*]]
; CHECK: xorl ___security_cookie, %[[lsda]]		; CHECK-NEXT: movl %esp, -36(%ebp)
; CHECK: movl %[[lsda]], -20(%ebp)		; CHECK-NEXT: movl $-2, -16(%ebp)
; CHECK: xorl ___security_cookie, %[[ehguard]]		; CHECK-NEXT: movl $L__ehtable$use_except_handler4_ssp, %[[lsda:[^ ,]*]]
; CHECK: movl %[[ehguard]], -40(%ebp)		; CHECK-NEXT: movl ___security_cookie, %[[seccookie:[^ ,]*]]
; CHECK: leal -28(%ebp), %[[node:[^ ,]*]]		; CHECK-NEXT: xorl %[[seccookie]], %[[lsda]]
; CHECK: movl $__except_handler4, -24(%ebp)		; CHECK-NEXT: movl %[[lsda]], -20(%ebp)
; CHECK: movl %fs:0, %[[next:[^ ,]*]]		; CHECK-NEXT: xorl %[[seccookie]], %[[ehguard]]
; CHECK: movl %[[next]], -28(%ebp)		; CHECK-NEXT: movl %[[ehguard]], -40(%ebp)
; CHECK: movl %[[node]], %fs:0		; CHECK-NEXT: leal -28(%ebp), %[[node:[^ ,]*]]
; CHECK: calll _may_throw_or_crash		; CHECK-NEXT: movl $__except_handler4, -24(%ebp)
		; CHECK-NEXT: movl %fs:0, %[[next:[^ ,]*]]
		; CHECK-NEXT: movl %[[next]], -28(%ebp)
		; CHECK-NEXT: movl %[[node]], %fs:0
		; CHECK-NEXT: movl $0, -16(%ebp)
		; CHECK-NEXT: calll _may_throw_or_crash
; CHECK: movl -28(%ebp), %[[next:[^ ,]*]]		; CHECK: movl -28(%ebp), %[[next:[^ ,]*]]
; CHECK: movl %[[next]], %fs:0		; CHECK-NEXT: movl %[[next]], %fs:0
; CHECK: retl		; CHECK: retl
; CHECK: [[catch:[^ ,]*]]: # %catch{{$}}		; CHECK-NEXT: [[catch:[^ ,]*]]: # %catch{{$}}



; CHECK: .section .xdata,"dr"		; CHECK: .section .xdata,"dr"
; CHECK-LABEL: L__ehtable$use_except_handler4_ssp:		; CHECK-LABEL: L__ehtable$use_except_handler4_ssp:
; CHECK-NEXT: .long -2		; CHECK-NEXT: .long -2
; CHECK-NEXT: .long 0		; CHECK-NEXT: .long 0
; CHECK-NEXT: .long -40		; CHECK-NEXT: .long -40
; CHECK-NEXT: .long 0		; CHECK-NEXT: .long 0
; CHECK-NEXT: .long -2		; CHECK-NEXT: .long -2
Show All 10 Lines	catchall:
%cs = catchswitch within none [label %catch] unwind to caller		%cs = catchswitch within none [label %catch] unwind to caller
catch:		catch:
%p = catchpad within %cs [i8* null, i32 64, i8* null]		%p = catchpad within %cs [i8* null, i32 64, i8* null]
catchret from %p to label %cont		catchret from %p to label %cont
}		}

; CHECK-LABEL: _use_CxxFrameHandler3:		; CHECK-LABEL: _use_CxxFrameHandler3:
; CHECK: pushl %ebp		; CHECK: pushl %ebp
; CHECK: movl %esp, %ebp		; CHECK-NEXT: movl %esp, %ebp
; CHECK: subl ${{[0-9]+}}, %esp		; CHECK-NEXT: pushl %ebx
; CHECK: movl %esp, -28(%ebp)		; CHECK-NEXT: pushl %edi
; CHECK: movl $-1, -16(%ebp)		; CHECK-NEXT: pushl %esi
; CHECK: leal -24(%ebp), %[[node:[^ ,]*]]		; CHECK-NEXT: subl ${{[0-9]+}}, %esp
; CHECK: movl $___ehhandler$use_CxxFrameHandler3, -20(%ebp)		; CHECK-NEXT: movl %esp, -28(%ebp)
; CHECK: movl %fs:0, %[[next:[^ ,]*]]		; CHECK-NEXT: movl $-1, -16(%ebp)
; CHECK: movl %[[next]], -24(%ebp)		; CHECK-NEXT: leal -24(%ebp), %[[node:[^ ,]*]]
; CHECK: movl %[[node]], %fs:0		; CHECK-NEXT: movl $___ehhandler$use_CxxFrameHandler3, -20(%ebp)
; CHECK: movl $0, -16(%ebp)		; CHECK-NEXT: movl %fs:0, %[[next:[^ ,]*]]
; CHECK: calll _may_throw_or_crash		; CHECK-NEXT: movl %[[next]], -24(%ebp)
		; CHECK-NEXT: movl %[[node]], %fs:0
		; CHECK-NEXT: movl $0, -16(%ebp)
		; CHECK-NEXT: calll _may_throw_or_crash
; CHECK: movl -24(%ebp), %[[next:[^ ,]*]]		; CHECK: movl -24(%ebp), %[[next:[^ ,]*]]
; CHECK: movl %[[next]], %fs:0		; CHECK-NEXT: movl %[[next]], %fs:0
; CHECK: retl		; CHECK: retl

; CHECK: .section .xdata,"dr"		; CHECK: .section .xdata,"dr"
; CHECK: .p2align 2		; CHECK-NEXT: .p2align 2
; CHECK-LABEL: L__ehtable$use_CxxFrameHandler3:		; CHECK-LABEL: L__ehtable$use_CxxFrameHandler3:
; CHECK-NEXT: .long 429065506		; CHECK-NEXT: .long 429065506
; CHECK-NEXT: .long 2		; CHECK-NEXT: .long 2
; CHECK-NEXT: .long ($stateUnwindMap$use_CxxFrameHandler3)		; CHECK-NEXT: .long ($stateUnwindMap$use_CxxFrameHandler3)
; CHECK-NEXT: .long 1		; CHECK-NEXT: .long 1
; CHECK-NEXT: .long ($tryMap$use_CxxFrameHandler3)		; CHECK-NEXT: .long ($tryMap$use_CxxFrameHandler3)
; CHECK-NEXT: .long 0		; CHECK-NEXT: .long 0
; CHECK-NEXT: .long 0		; CHECK-NEXT: .long 0
; CHECK-NEXT: .long 0		; CHECK-NEXT: .long 0
; CHECK-NEXT: .long 1		; CHECK-NEXT: .long 1

; CHECK-LABEL: ___ehhandler$use_CxxFrameHandler3:		; CHECK-LABEL: ___ehhandler$use_CxxFrameHandler3:
; CHECK: movl $L__ehtable$use_CxxFrameHandler3, %eax		; CHECK: movl $L__ehtable$use_CxxFrameHandler3, %eax
; CHECK: jmp ___CxxFrameHandler3 # TAILCALL		; CHECK-NEXT: jmp ___CxxFrameHandler3 # TAILCALL

; CHECK: .safeseh __except_handler3		; CHECK: .safeseh __except_handler3
; CHECK: .safeseh __except_handler4		; CHECK-NEXT: .safeseh __except_handler4
; CHECK: .safeseh ___ehhandler$use_CxxFrameHandler3		; CHECK-NEXT: .safeseh ___ehhandler$use_CxxFrameHandler3

llvm/trunk/test/CodeGen/XCore/varargs.ll

	Show All 20 Lines
	declare void @llvm.va_start(i8*) nounwind			declare void @llvm.va_start(i8*) nounwind
	declare void @llvm.va_end(i8*) nounwind			declare void @llvm.va_end(i8*) nounwind
	declare void @f(i32) nounwind			declare void @f(i32) nounwind
	define void @test_vararg(...) nounwind {			define void @test_vararg(...) nounwind {
	entry:			entry:
	; CHECK-LABEL: test_vararg			; CHECK-LABEL: test_vararg
	; CHECK: extsp 6			; CHECK: extsp 6
	; CHECK: stw lr, sp[1]			; CHECK: stw lr, sp[1]
				; CHECK: stw r3, sp[6]
	; CHECK: stw r0, sp[3]			; CHECK: stw r0, sp[3]
	; CHECK: stw r1, sp[4]			; CHECK: stw r1, sp[4]
	; CHECK: stw r2, sp[5]			; CHECK: stw r2, sp[5]
	; CHECK: stw r3, sp[6]
	; CHECK: ldaw r0, sp[3]			; CHECK: ldaw r0, sp[3]
	; CHECK: stw r0, sp[2]			; CHECK: stw r0, sp[2]
	%list = alloca i8*, align 4			%list = alloca i8*, align 4
	%list1 = bitcast i8** %list to i8*			%list1 = bitcast i8** %list to i8*
	call void @llvm.va_start(i8* %list1)			call void @llvm.va_start(i8* %list1)
	br label %for.cond			br label %for.cond

	; CHECK-LABEL: .LBB1_1			; CHECK-LABEL: .LBB1_1
	Show All 15 Lines

This is an archive of the discontinued LLVM Phabricator instance.

In visitSTORE, always use FindBetterChain, rather than only when UseAA is enabled.ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 80904

llvm/trunk/lib/CodeGen/SelectionDAG/DAGCombiner.cpp

llvm/trunk/lib/CodeGen/TargetLoweringBase.cpp

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelLowering.cpp

llvm/trunk/test/CodeGen/AArch64/argument-blocks.ll

llvm/trunk/test/CodeGen/AArch64/arm64-abi.ll

llvm/trunk/test/CodeGen/AArch64/arm64-memset-inline.ll

llvm/trunk/test/CodeGen/AArch64/ldst-opt.ll

llvm/trunk/test/CodeGen/AArch64/merge-store.ll

llvm/trunk/test/CodeGen/AArch64/vector_merge_dep_check.ll

llvm/trunk/test/CodeGen/AMDGPU/debugger-insert-nops.ll

llvm/trunk/test/CodeGen/AMDGPU/insert_vector_elt.ll

llvm/trunk/test/CodeGen/AMDGPU/merge-stores.ll

llvm/trunk/test/CodeGen/AMDGPU/private-element-size.ll

llvm/trunk/test/CodeGen/AMDGPU/si-triv-disjoint-mem-access.ll

llvm/trunk/test/CodeGen/ARM/2012-10-04-AAPCS-byval-align8.ll

llvm/trunk/test/CodeGen/ARM/alloc-no-stack-realign.ll

llvm/trunk/test/CodeGen/ARM/ifcvt10.ll

llvm/trunk/test/CodeGen/ARM/memset-inline.ll

llvm/trunk/test/CodeGen/ARM/static-addr-hoisting.ll

llvm/trunk/test/CodeGen/BPF/undef.ll

llvm/trunk/test/CodeGen/MSP430/Inst16mm.ll

llvm/trunk/test/CodeGen/Mips/cconv/arguments-float.ll

llvm/trunk/test/CodeGen/Mips/cconv/arguments-varargs.ll

llvm/trunk/test/CodeGen/Mips/fastcc.ll

llvm/trunk/test/CodeGen/Mips/load-store-left-right.ll

llvm/trunk/test/CodeGen/Mips/micromips-li.ll

llvm/trunk/test/CodeGen/Mips/mips64-f128.ll

llvm/trunk/test/CodeGen/Mips/mno-ldc1-sdc1.ll

llvm/trunk/test/CodeGen/Mips/msa/f16-llvm-ir.ll

llvm/trunk/test/CodeGen/Mips/msa/i5_ld_st.ll

llvm/trunk/test/CodeGen/Mips/o32_cc_byval.ll

llvm/trunk/test/CodeGen/Mips/o32_cc_vararg.ll

llvm/trunk/test/CodeGen/PowerPC/anon_aggr.ll

llvm/trunk/test/CodeGen/PowerPC/complex-return.ll

llvm/trunk/test/CodeGen/PowerPC/jaggedstructs.ll

llvm/trunk/test/CodeGen/PowerPC/ppc64-align-long-double.ll

llvm/trunk/test/CodeGen/PowerPC/structsinmem.ll

llvm/trunk/test/CodeGen/PowerPC/structsinregs.ll

llvm/trunk/test/CodeGen/SystemZ/unaligned-01.ll

llvm/trunk/test/CodeGen/Thumb/2010-07-15-debugOrdering.ll

llvm/trunk/test/CodeGen/Thumb/stack-access.ll

llvm/trunk/test/CodeGen/X86/2010-09-17-SideEffectsInChain.ll

llvm/trunk/test/CodeGen/X86/2012-11-28-merge-store-alias.ll

llvm/trunk/test/CodeGen/X86/MergeConsecutiveStores.ll

llvm/trunk/test/CodeGen/X86/avx512-mask-op.ll

llvm/trunk/test/CodeGen/X86/chain_order.ll

llvm/trunk/test/CodeGen/X86/clear_upper_vector_element_bits.ll

llvm/trunk/test/CodeGen/X86/combiner-aa-0.ll

llvm/trunk/test/CodeGen/X86/combiner-aa-1.ll

llvm/trunk/test/CodeGen/X86/copy-eflags.ll

llvm/trunk/test/CodeGen/X86/dag-merge-fast-accesses.ll

llvm/trunk/test/CodeGen/X86/dont-trunc-store-double-to-float.ll

llvm/trunk/test/CodeGen/X86/extractelement-legalization-store-ordering.ll

llvm/trunk/test/CodeGen/X86/i256-add.ll

llvm/trunk/test/CodeGen/X86/i386-shrink-wrapping.ll

llvm/trunk/test/CodeGen/X86/live-range-nosubreg.ll

llvm/trunk/test/CodeGen/X86/merge-consecutive-loads-128.ll

llvm/trunk/test/CodeGen/X86/merge-consecutive-loads-256.ll

llvm/trunk/test/CodeGen/X86/merge-store-partially-alias-loads.ll

llvm/trunk/test/CodeGen/X86/pr18023.ll

llvm/trunk/test/CodeGen/X86/split-store.ll

llvm/trunk/test/CodeGen/X86/stores-merging.ll

llvm/trunk/test/CodeGen/X86/vector-compare-results.ll

llvm/trunk/test/CodeGen/X86/vector-shuffle-variable-128.ll

llvm/trunk/test/CodeGen/X86/vector-shuffle-variable-256.ll

llvm/trunk/test/CodeGen/X86/win32-eh.ll

llvm/trunk/test/CodeGen/XCore/varargs.ll

In visitSTORE, always use FindBetterChain, rather than only when UseAA is enabled.
ClosedPublic