This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
include/llvm/Target/
-
llvm/
-
Target/
-
TargetLowering.h
-
lib/
-
CodeGen/
-
SelectionDAG/
8/13
DAGCombiner.cpp
4/4
TargetLoweringBase.cpp
-
Target/
-
AArch64/
-
AArch64ISelLowering.cpp
-
ARM/
-
ARMISelLowering.h
-
test/CodeGen/
-
CodeGen/
-
AArch64/
1/1
argument-blocks.ll
-
arm64-abi.ll
-
arm64-memset-inline.ll
-
arm64-variadic-aapcs.ll
-
merge-store.ll
-
vector_merge_dep_check.ll
-
AMDGPU/
2/4
debugger-insert-nops.ll
-
insert_vector_elt.ll
-
merge-stores.ll
-
private-element-size.ll
-
si-triv-disjoint-mem-access.ll
-
ARM/
-
2012-10-04-AAPCS-byval-align8.ll
-
alloc-no-stack-realign.ll
-
gpr-paired-spill.ll
-
ifcvt10.ll
-
illegal-bitfield-loadstore.ll
-
static-addr-hoisting.ll
-
BPF/
-
undef.ll
-
MSP430/
-
Inst16mm.ll
-
Mips/
-
cconv/
-
arguments-float.ll
-
arguments-varargs.ll
-
fastcc.ll
-
load-store-left-right.ll
-
micromips-li.ll
-
mips64-f128-call.ll
-
mips64-f128.ll
-
mno-ldc1-sdc1.ll
-
msa/
-
f16-llvm-ir.ll
-
i5_ld_st.ll
-
o32_cc_byval.ll
-
o32_cc_vararg.ll
-
PowerPC/
-
anon_aggr.ll
-
complex-return.ll
-
jaggedstructs.ll
1
ppc64-align-long-double.ll
-
structsinmem.ll
-
structsinregs.ll
-
SystemZ/
-
unaligned-01.ll
-
Thumb/
-
2010-07-15-debugOrdering.ll
-
stack-access.ll
-
X86/
-
2010-09-17-SideEffectsInChain.ll
-
2012-11-28-merge-store-alias.ll
-
MergeConsecutiveStores.ll
-
avx512-mask-op.ll
-
chain_order.ll
-
clear_upper_vector_element_bits.ll
-
combiner-aa-0.ll
-
combiner-aa-1.ll
3/4
copy-eflags.ll
-
dag-merge-fast-accesses.ll
-
dont-trunc-store-double-to-float.ll
-
extractelement-legalization-store-ordering.ll
2
i256-add.ll
2
i386-shrink-wrapping.ll
-
illegal-bitfield-loadstore.ll
-
live-range-nosubreg.ll
-
longlong-deadload.ll
-
merge-consecutive-loads-128.ll
-
merge-consecutive-loads-256.ll
-
merge-store-partially-alias-loads.ll
-
pr18023.ll
-
split-store.ll
-
stores-merging.ll
1/1
vector-compare-results.ll
1/1
vector-shuffle-variable-128.ll
-
vector-shuffle-variable-256.ll
-
vectorcall.ll
2
win32-eh.ll
-
XCore/
-
varargs.ll

Differential D14834

In visitSTORE, always use FindBetterChain, rather than only when UseAA is enabled.
ClosedPublic

Authored by niravd on Nov 19 2015, 10:59 AM.

Download Raw Diff

Details

Reviewers

jyknight
• tstellarAMD
nhaehnle
arsenm
javed.absar
hfinkel

Commits

Summary

In visitSTORE, always use FindBetterChain, rather than only when UseAA is enabled.

* Simplify Consecutive Merge Store Candidate Search

Now that address aliasing is much less conservative, push through
simplified store merging search and chain alias analysis which only
checks for parallel stores through the chain subgraph. This is cleaner
as the separation of non-interfering loads/stores from the
store-merging logic.

When merging stores search up the chain through a single load, and
finds all possible stores by looking down from through a load and a
TokenFactor to all stores visited.

This improves the quality of the output SelectionDAG and the output
Codegen (save perhaps for some ARM cases where we correctly constructs
wider loads, but then promotes them to float operations which appear
but requires more expensive constant generation).
 
Some minor peephole optimizations to deal with improved SubDAG shapes (listed below)

Additional Minor Changes:

  1. Finishes removing unused AliasLoad code

  2. Unifies the chain aggregation in the merged stores across code
      paths

  3. Re-add the Store node to the worklist after calling
      SimplifyDemandedBits.
 
  4. Increase GatherAllAliasesMaxDepth from 6 to 18. That number is
      arbitrary, but seems sufficient to not cause regressions in
      tests.

 5. Remove Chain dependencies of Memory operations on CopyfromReg
     nodes as these are captured by data dependence
 
 6. Forward loads-store values through tokenfactors containing
     {CopyToReg,CopyFromReg} Values.

 7. Peephole to convert buildvector of extract_vector_elt to
     extract_subvector if possible (see CodeGen/AArch64/store-merge.ll)

 8. Store merging for the ARM target is restricted to 32-bit as
     some in some contexts invalid 64-bit operations are being
     generated. This can be removed once appropriate checks are
     added.

This finishes the change Matt Arsenault started in r246307 and jyknight's original patch.

Many tests required some changes as memory operations are now
reorderable, improving load-store forwarding. This test should be
noted:

CodeGen/PowerPC/ppc64-align-long-double.ll - Improved load-store
forwarding converts a load-store pair into a parallel store and
a memory-realized bitcast of the same value. However, because we
lose the sharing of the explicit and implicit store values we
must create another local store. A similar transformation
happens before SelectionDAG as well.

Diff Detail

Build Status

Buildable 4288
Build 4288: arc lint + arc unit

Event Timeline

jyknight updated this revision to Diff 40679.Nov 19 2015, 10:59 AM

jyknight retitled this revision from to In visitSTORE, always use FindBetterChain, rather than only when UseAA is enabled..

jyknight updated this object.

jyknight added reviewers: arsenm, hfinkel.

jyknight added subscribers: spatel, t.p.northover, • tstellarAMD, resistor.

Herald added a reviewer: • tstellarAMD. · View Herald TranscriptNov 19 2015, 10:59 AM

Herald added subscribers: dsanders, qcolombet, aemerson. · View Herald Transcript

Hi,

I think this patch: http://reviews.llvm.org/D14268 may correct the issue with: CodeGen/AMDGPU/merge-stores.ll

RKSimon added a subscriber: RKSimon.Nov 23 2015, 9:11 AM

RKSimon added inline comments.

test/CodeGen/X86/vector-idiv.ll
4 ↗	(On Diff #40679)	Please can you regenerate this with utils\update_llc_test_checks.py ? It should clean up some of the asm comments.
test/CodeGen/X86/vector-lzcnt-128.ll
9 ↗	(On Diff #40679)	Please can you regenerate this with utils\update_llc_test_checks.py ? It should clean up some of the asm comments.

jyknight added inline comments.Nov 23 2015, 10:42 AM

test/CodeGen/X86/vector-idiv.ll
4 ↗	(On Diff #40679)	Aha, so that's why these tests look like this. I had no idea that script existed. I'll do that. And also update the generator script to write a note in the output that it was generated by the script, so the next person doesn't have that problem. :)

In D14834#293147, @tstellarAMD wrote:

I think this patch: http://reviews.llvm.org/D14268 may correct the issue with: CodeGen/AMDGPU/merge-stores.ll

Yep, it fixes that test case.

It also seems to cause vgpr-spill-emergency-stack-slot.ll to revert to its previous pessimal state: unable to recognize that the loads generated from the extracts come from the stores generated by the inserts. (Seems a mismatch between store/load sizes for the insertelement/extractelement memops, as it's getting LD16 and ST4, instead of LD4/ST4 as it was before).

Anyways, I think this change makes sense regardless of all the noted test changes; I intended those more just as an "FYI" to the various arch maintainers about potential enhancements that could be made.

Thanks for working on this!

One situation exists now where the new code is not able to detect
merge candidates and it was before: when some stores overlap a load,
and others do not. This causes
test/CodeGen/X86/merge-store-partially-alias-loads.ll to no longer
work.

What's a good plan for dealing with this? Is there a better way of doing this without (essentially) re-introducing the old algorithm? Permanently losing this functionality is likely not good either. Should we do both kinds of searches?

test/CodeGen/PowerPC/ppc64-align-long-double.ll
23	TODO -> FIXME

arsenm added inline comments.Nov 25 2015, 6:23 AM

lib/CodeGen/TargetLoweringBase.cpp
853	I increased this to 16 for AMDGPU. The custom setting for it there can be removed now

In D14834#296382, @hfinkel wrote:

This causes
test/CodeGen/X86/merge-store-partially-alias-loads.ll to no longer
work.

What's a good plan for dealing with this? Is there a better way of doing this without (essentially) re-introducing the old algorithm? Permanently losing this functionality is likely not good either. Should we do both kinds of searches?

No, I don't think the old algorithm is at all the right thing to do. I also think it's bad for LLVM to use (basically arbitrarily) different modes for different targets, so I'd like to get rid of the old method even without having a fully baked plan on how to solve this particular case the new way.

Now, I do have a start on a thought on how this could be made to work, but haven't really fully thought through it. I also wonder whether it'd affect compilation-speed too much? Don't really know about that...

Anyways, here goes:

Firstly, we should look at all stores in the basic block, not only those attached to the same chain node. Then, once we've found those stores that look promising (same base pointer, not volatile, neighboring offsets, etc), see if it would be possible to:

create a TokenFactor node merging the incoming chains of ALL the candidate stores-to-merge.
make a new merged store with incoming chain being that TokenFactor.
replace all the uses of the outgoing chain values to use the single merged-store outgoing chain (as is done today).

What does "possible" mean? That doing the above won't create a loop in the DAG. That is, I think, checked simply by ensuring that no candidate store can be a predecessor of any of the other stores.

I'm also not sure if some other checks might be needed beyond the simple "possible" to avoid pessimizing the code. It seems like in some cases it might be a bad idea to merge two stores that are "far away" from each-other. E.g., let's say you have a dependency graph that looks like:

exit -> store1 -> ...lots of stuff... -> entry
exit -> ...other stuff... -> store2 -> entry

Originally, there's two completely independent streams of instructions which can be interleaved by the instruction scheduler. But then if a new fancy store-merger gets ahold of it, it might become:

exit -> ...other stuff... -> store1+2 -> ...lots of stuff...

And thus that optimization could be a substantial performance hit. I dunno if that situation is likely to come up, though.

In D14834#297118, @jyknight wrote:

In D14834#296382, @hfinkel wrote:

This causes
test/CodeGen/X86/merge-store-partially-alias-loads.ll to no longer
work.

What's a good plan for dealing with this? Is there a better way of doing this without (essentially) re-introducing the old algorithm? Permanently losing this functionality is likely not good either. Should we do both kinds of searches?

No, I don't think the old algorithm is at all the right thing to do.

Okay, but...

I also think it's bad for LLVM to use (basically arbitrarily) different modes for different targets,

I completely agree.

so I'd like to get rid of the old method even without having a fully baked plan on how to solve this particular case the new way.

I agree that the problem can get quite general, but the particular test case in question looks pretty simple, and that's partially what worries me about it.

As you explain in the comment added to the test case, what the test case really exposes is, in a sense, a phase-ordering problem between findBetterNeighborChains() and MergeConsecutiveStores(). It seems like what should really happen is that findBetterNeighborChains() should check whether it can merge the store being moved up the chain with a store it find on the chain as it searches up the chain for a better (less constraining) operand. Would that work?

...

lib/CodeGen/SelectionDAG/DAGCombiner.cpp
12631	This comment is now out of date.

In D14834#297484, @hfinkel wrote:

As you explain in the comment added to the test case, what the test case really exposes is, in a sense, a phase-ordering problem between findBetterNeighborChains() and MergeConsecutiveStores(). It seems like what should really happen is that findBetterNeighborChains() should check whether it can merge the store being moved up the chain with a store it find on the chain as it searches up the chain for a better (less constraining) operand. Would that work?

That might work okay for this case, but I'm afraid it will fall down at any minor difference in the graph.

For example, if you have instead:
store X+1
load X
store X

It should be able to merge the stores, but won't be able to find it without being able to move the "store X+1" down.

Okay, maybe we just ignore that problem. But, can it reliably handle, say:
#1: load X
#2: store X
#3: store X+1
#4: store X+2
#5: store X+3

Those should certainly be mergeable, too. But, even with the proposed modification, moving each node incrementally up the chain might or might not work, depending on visit order, which is basically arbitrary.

(And, of course, there's also the known problem with the code now, where it can not merge stores of non-equal sizes, which is why it's important to move as many nodes first, before doing any merging. Otherwise, it can happen that it'd merge the X+1 and X+2 stores, before the others are available to merge. And then, it's not possible to merge in the X and X+3 stores. That should be fixed, of course.)

Anyhow, basically, I think to get the right answer, you'd need to know not to move ANY of the nodes past node #1 -- until you've reached the state with all of them having their chain as #1 so they can be merged together. But, since the desirable final state for each of the nodes (other than #2) is to be attached to entry node, having to somehow somehow enforce that that desirable modification DOESN'T happen until other nodes get moved to the proper intermediate place, I'm not sure, doesn't seem easy to make non-fragile.

I'm sure it's implementable somehow, but it doesn't seem like it'd be easier than solving the general problem, at least to me.

In D14834#297985, @jyknight wrote:

In D14834#297484, @hfinkel wrote:

As you explain in the comment added to the test case, what the test case really exposes is, in a sense, a phase-ordering problem between findBetterNeighborChains() and MergeConsecutiveStores(). It seems like what should really happen is that findBetterNeighborChains() should check whether it can merge the store being moved up the chain with a store it find on the chain as it searches up the chain for a better (less constraining) operand. Would that work?

That might work okay for this case, but I'm afraid it will fall down at any minor difference in the graph.

For example, if you have instead:
store X+1
load X
store X

It should be able to merge the stores, but won't be able to find it without being able to move the "store X+1" down.

Okay, maybe we just ignore that problem. But, can it reliably handle, say:
#1: load X
#2: store X
#3: store X+1
#4: store X+2
#5: store X+3

Those should certainly be mergeable, too. But, even with the proposed modification, moving each node incrementally up the chain might or might not work, depending on visit order, which is basically arbitrary.

(And, of course, there's also the known problem with the code now, where it can not merge stores of non-equal sizes, which is why it's important to move as many nodes first, before doing any merging. Otherwise, it can happen that it'd merge the X+1 and X+2 stores, before the others are available to merge. And then, it's not possible to merge in the X and X+3 stores. That should be fixed, of course.)

Anyhow, basically, I think to get the right answer, you'd need to know not to move ANY of the nodes past node #1 -- until you've reached the state with all of them having their chain as #1 so they can be merged together. But, since the desirable final state for each of the nodes (other than #2) is to be attached to entry node, having to somehow somehow enforce that that desirable modification DOESN'T happen until other nodes get moved to the proper intermediate place, I'm not sure, doesn't seem easy to make non-fragile.

I'm sure it's implementable somehow, but it doesn't seem like it'd be easier than solving the general problem, at least to me.

The "general" problem is global, and we'll never be able to get it with a local analysis. However, while I like the direction of this patch, I think we need to try really hard not to introduce "basic" regressions (i.e. regressions that can be demonstrated with really small test cases).

You've convinced me that trying to fix this by merging the chain-finding process and the merge-candidate-determination process is too limited to be really useful (even if it would fix the one existing regression test, writing other similarly-simple ones that would also be broken would be easy).

Thus far we have a few examples:

Case 1:

load X
store X
store X+1

This will give us:

store X -> load X -> E
store X+1 -> E

Case 2:

store X+1
load X
store X

Which should also yield:

store X -> load X -> E
store X+1 -> E

and some generalizations with more stores, etc. All of these can be found by a limited search. Given a situation like this:

store X -> load X -> E
store X+1 -> load X+1 -> E

it seems that instead of just searching other users of the chain of the initial store, we need to also walk up and down a bit. We might walk up through (optionally) a token factor and a load to find a new chain to search. We can then search down the users of that chain, directly, through a load, or through a load and a token factor, for consecutive stores. If found, then we can do this:

store (X, X+1) -> TF -> load X -> E
                                 -> load X+1 -> E

we just need to make sure that, in making load X+1 a predecessor of store X (and making load X a predecessor of store X+1) we won't create any cycles (load X+1 cannot already be a successor of store X, etc.).

Given that findBetterChain should collapse otherwise-sequential loads to be parallel ones (joined by token factors), this should be fairly general, and will handle the simple cases outlined here. What do you think?

What do you think?

That was actually the same idea I had been cooking up, but I hadn't actually gotten around to trying it out yet. :)

I've still not had time to actually explore it with code yet, but I'll try to do that at some point. I think it ought to work.

lib/CodeGen/SelectionDAG/DAGCombiner.cpp
12631	And, actually, so is the code. Removed the loop and the comment.
lib/CodeGen/TargetLoweringBase.cpp
853	Done.

jyknight added inline comments.Dec 14 2015, 8:47 AM

lib/CodeGen/SelectionDAG/DAGCombiner.cpp
12631	Oops, I didn't mean to send that reply yet, as the loop sadly DOES still accomplish /something/, but I think it's probably doing so in a way that won't actually complete all the work that could be done in all cases.

niravd edited edge metadata.Feb 26 2016, 1:10 PM

niravd added a subscriber: niravd.

spatel mentioned this in D17836: [AArch64] Fixes Store Merge chain in DAG combiner.Mar 3 2016, 7:55 AM

weimingz added a subscriber: weimingz.Mar 3 2016, 11:18 AM

niravd commandeered this revision.Mar 7 2016, 9:18 AM

niravd added a reviewer: jyknight.

A new patch which inprinciple capture missing functionality. Needs somechanges to AliasAnalysis to resolve regressions. Also exposes some bugs in AMDGPU target which need to be resolved.

niravd updated this object.Mar 7 2016, 10:24 AM

The new patch is currently exposes a bug with AMDGPU target and the CodeGen/AMDGPU/vgpr-spill-emergency-stack-slot-compute.ll test now fails to compile. Can someone familiar with the target take a look at this?

niravd added a parent revision: D18062: Fix Load Control Dependence in MemCpy Generation.Mar 17 2016, 12:31 PM

New Patch containing test case changes and minor code cleanup. Everything is nominally working

niravd mentioned this in D18062: Fix Load Control Dependence in MemCpy Generation.Mar 21 2016, 11:21 AM

niravd mentioned this in D18336: Prevent construction of cycle in DAG store merge.Mar 24 2016, 2:39 PM

jyknight added inline comments.Mar 25 2016, 7:04 AM

lib/CodeGen/SelectionDAG/DAGCombiner.cpp
55–56	Please remove, since it's now unused.
11909–11910	This is actually fixing incorrect behavior in UseAA mode; let's commit it separately (along with the exact same change which is made down below). When done separately, it'll need to be conditioned on UseAA, though, since the previous code was right for !UseAA.
11944	Commented code should be removed.
11990–11994	Why isn't this: } else if (I.getOperandNo() == 0) addStoreNodeIfMergableStore(*I, St, StoreNodes, Seq); ?
12390–12391	The other half of the bugfix I mentioned above.
12581–12588	This can also be pulled out as a simple fix.
lib/CodeGen/TargetLoweringBase.cpp
853	The removal of that line (in AMDGPUISelLoweing.cpp) doesn't actually seem to be done, despite that I said done before (oops).
test/CodeGen/AArch64/argument-blocks.ll
64–68	Delete added comment; upon re-reading, it's the size/align that it was checking.
test/CodeGen/AMDGPU/vgpr-spill-emergency-stack-slot.ll
10 ↗	(On Diff #50969)	What's the status of this one now?
test/CodeGen/X86/copy-eflags.ll
21–22	Is it really the best thing to add volatile to a bunch of random tests? Can't the CHECK lines be fixed instead?

niravd mentioned this in D18546: Prevent X86IselLowering from merging volatile loads.Mar 29 2016, 6:07 AM

niravd updated this object.Mar 29 2016, 1:56 PM

niravd updated this object.

Address comments. Simplify and cleanup code

Herald added a subscriber: arsenm. · View Herald TranscriptMar 29 2016, 2:06 PM

niravd mentioned this in rL265836: Fix Load Control Dependence in MemCpy Generation.Apr 8 2016, 12:50 PM

niravd marked 2 inline comments as not done.Apr 8 2016, 12:52 PM

niravd added inline comments.

test/CodeGen/AMDGPU/vgpr-spill-emergency-stack-slot.ll
18 ↗	(On Diff #40679)	No change here. Test completes but no longer tests desired property.

niravd mentioned this in D18909: Cleanup Store Merging in UseAA case.Apr 11 2016, 6:06 AM

Rebase and simplify. AMDGPU VGPR test again crashing.

Potential fix for crash in SIFrameLowering and modify VGPR test to pass though it no longer tests what it was supposed to.

niravd added a reviewer: nhaehnle.May 9 2016, 11:15 AM

Can someone who knows AMDGPU take a look at SIFrameLowering change and the associated vgpr test that was crashing before it?

niravd mentioned this in D20472: [DAGCombiner] Make merging consecutive stores aggressive.May 20 2016, 9:27 AM

Rebasing again. Still waiting on final okay

niravd mentioned this in D20526: Soften assertion in AMDGPU emitPrologue..May 23 2016, 9:09 AM

Update given r270646.

Now that the AMDGPU crash case has been resolved, this this patch is all set and ready for an LGTM and finally landing.

niravd updated this object.May 24 2016, 7:57 PM

This looks pretty good. All I have are some trivial requests for changes, and some questions on tests.

jyknight added inline comments.May 25 2016, 11:30 AM

lib/CodeGen/SelectionDAG/DAGCombiner.cpp
11917–11918	Remove "AndAlias" from the name; no longer collects AliasLoadNodes.
11935	I think this could do with an ascii-art diagram to explain the shape of the DAG we're looking for. E.g. something like this: Given a structure like this: Root \|-------\|-------\| Load Load Store \| \| Store Store We might start off looking at any of the Store nodes, and need to find all of the others to see if they can be merged.
test/CodeGen/AMDGPU/vgpr-spill-emergency-stack-slot.ll
38 ↗	(On Diff #58380)	Why add volatile, if the test still doesn't work?
test/CodeGen/X86/copy-eflags.ll
12–16	Deleted a comment line by accident here.
21–23	Same Q re addition of volatile here; why's it needed?
test/CodeGen/X86/i256-add.ll
157	why volatile here.
test/CodeGen/X86/i386-shrink-wrapping.ll
75	why volatile here
test/DebugInfo/X86/dbg-value-dag-combine.ll
16 ↗	(On Diff #58380)	why volatile?

niravd added a parent revision: D21037: Preserve DebugInfo when replacing values in DAGCombiner.Jun 6 2016, 12:54 PM

Resolved comments and rebased

Herald added a subscriber: nemanjai. · View Herald TranscriptJul 6 2016, 11:44 AM

niravd added inline comments.Jul 11 2016, 6:46 AM

test/CodeGen/AMDGPU/vgpr-spill-emergency-stack-slot.ll
38 ↗	(On Diff #58380)	Reverted.
test/CodeGen/X86/i256-add.ll
157	Removing dependencies in the DAG puts the two references to %p together and enables an optimization that to converts the sbbls to adcls. I've changed this to separate the srcs and dests to prevent this.
test/CodeGen/X86/i386-shrink-wrapping.ll
75	Part of this test checks that we're not clobbering the flags when we shrink wrap which was clobbered because we can now move the load of @f to avoid the problem entirely. I've changed it to load @e which does the same thing.
test/DebugInfo/X86/dbg-value-dag-combine.ll
16 ↗	(On Diff #58380)	Reverted.

Ping.

Rebase and update for new tests

I went through the AMDGPU test changes. Disabling the spill tests is unfortunate but I think acceptable. I do have two comments below, the rest looks good.

test/CodeGen/AMDGPU/amdgpu.private-memory.ll
230–231 ↗	(On Diff #66667)	This looks like a regression to me. There are two stores to different parts of the [2 x i16] array, and the second gets eliminated even though the load may need it (since it uses a dynamic offset in the getelementptr). FWIW, in the function no_overlap below, I see the same regression but only for the [3 x i8] alloca. The stores and loads based on the [2 x i8] alloca look correct to me.
test/CodeGen/AMDGPU/debugger-insert-nops.ll
6–8	I'm not sure about this test change. There seems to be some re-ordering going on that may not be desirable for debugging.

Fix FrameIndex logic in DAGCombiner's alias analysis

test/CodeGen/AMDGPU/amdgpu.private-memory.ll
230–231 ↗	(On Diff #66667)	Hmm. This was not a case of accessing past the alloc. Rather this is a bug in alias analysis in the DAGCombiner. isAlias as it was written is imprecise identifying frame indexes but we assume we're precise which means incorrectly determine that the second store is non-aliasing and as it's a frame store we can optimize it away as we think nothing can read it. I have a fix that I'm folding into this patch because I haven't found an example that exercises this issue at current head.
test/CodeGen/AMDGPU/debugger-insert-nops.ll
6–8	This patch opens the possibility of the reordering, but I agree that this is non-ideal in that the scheduler doesn't seem to have an advantage from selecting that order and should therefore bias towards the source order. In general, though this sort of reordering should happen so I'm inclined to punt this to a subsequent patch.

FTR: discussed the most recent change in person, and concluded that it's incorrect. New version on the way to fix this issue.

niravd mentioned this in D23356: [DAG] Fix incorrect alignment of ext load..Sep 1 2016, 6:53 AM

Update with additional fix from D23356

Herald added subscribers: nhaehnle, wdng. · View Herald TranscriptSep 2 2016, 10:22 AM

Rebase and update.

dsanders removed a subscriber: dsanders.Sep 26 2016, 1:46 AM

With D23356 landed, this diff should finally be ready to land.

Okay, I think this should be the last round of little nits for this change. :)

Please verify/update the commit message for consistency with the final state of this change, too.

lib/CodeGen/SelectionDAG/DAGCombiner.cpp
11819–11820	This var should be moved way down above its (now) first use.
12016	Clearer without removing the braces around another compound statement.
lib/CodeGen/TargetLoweringBase.cpp
853	I don't see it still...
test/CodeGen/AMDGPU/debugger-insert-nops.ll
4	What does this comment mean?
11–18	Also this one?
test/CodeGen/X86/copy-eflags.ll
13	s/volitile/volatile/
test/CodeGen/X86/vector-compare-results.ll
2	Unfortunate duplicate line
test/CodeGen/X86/vector-lzcnt-128.ll
1 ↗	(On Diff #72352)	And here. Probably should fix the script to not cause this. :)
test/CodeGen/X86/vector-shuffle-variable-128.ll
2	Here too.
test/CodeGen/X86/win32-eh.ll
71–72	What's up with this test change?

Fix minor nits

test/CodeGen/X86/win32-eh.ll
71–72	Now that we do alias analysis by universally, we can see that there is no dependence between the reference to the __security_cookie address and the stack and we share the two loads now identical memory loads of the security cookie.

Update tests for improved commit message

niravd updated this object.Sep 26 2016, 1:56 PM

OK, let's try it. :)

This revision is now accepted and ready to land.Sep 27 2016, 12:33 PM

Closed by commit rL282600: In visitSTORE, always use FindBetterChain, rather than only when UseAA is… (authored by niravd). · Explain WhySep 28 2016, 8:59 AM

This revision was automatically updated to reflect the committed changes.

niravd mentioned this in D25791: [Hexagon] Weaken over-aggressive assertion in RDFGraph.Oct 19 2016, 1:43 PM

Landing this appears to cause various bugs in various setups in bootstrapping that are proving hard to reproduce in a debug-friendly configuration. I'm going to start peeling off a smaller portions are functionally separable if not so testwise and see if that helps shake out the underlying problem.

This revision is now accepted and ready to land.Oct 21 2016, 6:27 AM

niravd mentioned this in D26080: [DAG] Improve loads-from-store forwarding to handle TokenFactor.Oct 28 2016, 8:39 AM

niravd mentioned this in rL287773: [DAG] Improve loads-from-store forwarding to handle TokenFactor.Nov 23 2016, 8:58 AM

Closed by commit rL289221: In visitSTORE, always use FindBetterChain, rather than only when UseAA is… (authored by niravd). · Explain WhyDec 9 2016, 8:25 AM

This revision was automatically updated to reflect the committed changes.

Reopening for additional inspection

This revision is now accepted and ready to land.Dec 28 2016, 8:58 AM

update with peepholes to fix degraded tests

niravd updated this object.Dec 28 2016, 9:03 AM

jyknight mentioned this in D28247: [DAG] Check for preexisting store when emiting stack convert.Jan 4 2017, 8:25 AM

niravd mentioned this in D28251: [AArch64] Fix over-eager early-exit in load-store combiner.Jan 4 2017, 9:48 AM

Hi Nirav,

Sorry for the delay. I looked again at the ARM/AArch64 tests and they seem pretty much standard. No problems there.

I only have two comments, inline.

cheers,
--renato

lib/Target/AArch64/AArch64LoadStoreOptimizer.cpp
1473 ↗	(On Diff #82602)	What if `OffsetStride > Offset`?
test/CodeGen/ARM/memset-inline.ll
9 ↗	(On Diff #82602)	It's interesting because the store was merged before. This worries me because memset is an important function to get right. IIRC, the hazards are between VFP/NEON and GPR. In this case, it's a `VMOV-imm` + `VST1 d`, which means no GPRs were involved and there is no hazard. Better still, this is independent from the `movs` and only has address update for the `str` afterwards, which could mean they'll execute pretty much in parallel. There could be some sub-arch issues with other cores, but this could actually be an improvement. Have you measured it?

Restore worsened AArch64 and ARM test cases.

Herald added a reviewer: javed.absar. · View Herald TranscriptJan 24 2017, 1:00 PM

niravd added inline comments.Jan 24 2017, 1:00 PM

lib/Target/AArch64/AArch64LoadStoreOptimizer.cpp
1473 ↗	(On Diff #82602)	This is just to make sure that our early exit check doesn't exit on MAXOFFSET+OffsetStride beacuse the stores may not come in order. The positive condition is overly aggressive but cases near zero are fine.
test/CodeGen/ARM/memset-inline.ll
9 ↗	(On Diff #82602)	For the moment I've restricted ARM memory merging to 32-bit or smaller. This makes all of the ARM tests clearly as good or better. I can imagine leveraging the VFP/NEON and GPR together could be an improvement, but it looks like there's definitely causing issues on at least one subarch.

niravd edited the summary of this revision. (Show Details)Jan 24 2017, 1:03 PM

Update testcases to upstream. Minor cleanup to TF pruning and load forwarding (NFC)

Fix 32-bit anti-aliasing offset bug

niravd mentioned this in D29845: [SelectionDAG] Remove redundant stores more aggressively..Feb 25 2017, 4:16 AM

niravd mentioned this in D30483: [DAG] More aggressively Inline TokenFactors.Mar 2 2017, 7:48 AM

niravd closed this revision.Mar 20 2017, 6:06 AM

Revision Contents

Path

Size

include/

llvm/

Target/

TargetLowering.h

3 lines

lib/

CodeGen/

SelectionDAG/

DAGCombiner.cpp

742 lines

TargetLoweringBase.cpp

2 lines

Target/

AArch64/

AArch64ISelLowering.cpp

2 lines

ARM/

ARMISelLowering.h

5 lines

test/

CodeGen/

AArch64/

argument-blocks.ll

4 lines

arm64-abi.ll

5 lines

arm64-memset-inline.ll

4 lines

arm64-variadic-aapcs.ll

2 lines

merge-store.ll

3 lines

vector_merge_dep_check.ll

3 lines

AMDGPU/

debugger-insert-nops.ll

24 lines

insert_vector_elt.ll

6 lines

merge-stores.ll

24 lines

private-element-size.ll

12 lines

si-triv-disjoint-mem-access.ll

17 lines

ARM/

2012-10-04-AAPCS-byval-align8.ll

3 lines

alloc-no-stack-realign.ll

100 lines

gpr-paired-spill.ll

18 lines

ifcvt10.ll

2 lines

illegal-bitfield-loadstore.ll

54 lines

static-addr-hoisting.ll

6 lines

BPF/

undef.ll

65 lines

MSP430/

Inst16mm.ll

2 lines

Mips/

cconv/

arguments-float.ll

24 lines

arguments-varargs.ll

44 lines

fastcc.ll

76 lines

load-store-left-right.ll

126 lines

2 lines

15 lines

2 lines

46 lines

msa/

14 lines

32 lines

54 lines

4 lines

PowerPC/

anon_aggr.ll

59 lines

complex-return.ll

12 lines

jaggedstructs.ll

52 lines

ppc64-align-long-double.ll

41 lines

structsinmem.ll

28 lines

structsinregs.ll

60 lines

SystemZ/

unaligned-01.ll

5 lines

Thumb/

2010-07-15-debugOrdering.ll

2 lines

stack-access.ll

26 lines

X86/

2010-09-17-SideEffectsInChain.ll

2 lines

2012-11-28-merge-store-alias.ll

2 lines

MergeConsecutiveStores.ll

17 lines

avx512-mask-op.ll

4 lines

chain_order.ll

4 lines

clear_upper_vector_element_bits.ll

400 lines

combiner-aa-0.ll

combiner-aa-1.ll

copy-eflags.ll

17 lines

dag-merge-fast-accesses.ll

12 lines

dont-trunc-store-double-to-float.ll

6 lines

extractelement-legalization-store-ordering.ll

15 lines

i256-add.ll

350 lines

i386-shrink-wrapping.ll

5 lines

illegal-bitfield-loadstore.ll

38 lines

live-range-nosubreg.ll

5 lines

longlong-deadload.ll

2 lines

merge-consecutive-loads-128.ll

20 lines

merge-consecutive-loads-256.ll

8 lines

merge-store-partially-alias-loads.ll

8 lines

pr18023.ll

split-store.ll

27 lines

stores-merging.ll

11 lines

vector-compare-results.ll

730 lines

vector-shuffle-variable-128.ll

1060 lines

vector-shuffle-variable-256.ll

233 lines

vectorcall.ll

4 lines

win32-eh.ll

157 lines

XCore/

varargs.ll

2 lines

Diff 89783

include/llvm/Target/TargetLowering.h

Show First 20 Lines • Show All 357 Lines • ▼ Show 20 Lines	public:
/// vector constant with the given size and type for the address space than to		/// vector constant with the given size and type for the address space than to
/// store the individual scalar element constants.		/// store the individual scalar element constants.
virtual bool storeOfVectorConstantIsCheap(EVT MemVT,		virtual bool storeOfVectorConstantIsCheap(EVT MemVT,
unsigned NumElem,		unsigned NumElem,
unsigned AddrSpace) const {		unsigned AddrSpace) const {
return false;		return false;
}		}

		/// Returns if it's reasonable to merge stores to MemVT size.
		virtual bool canMergeStoresTo(EVT MemVT) const { return true; }

/// \brief Return true if it is cheap to speculate a call to intrinsic cttz.		/// \brief Return true if it is cheap to speculate a call to intrinsic cttz.
virtual bool isCheapToSpeculateCttz() const {		virtual bool isCheapToSpeculateCttz() const {
return false;		return false;
}		}

/// \brief Return true if it is cheap to speculate a call to intrinsic ctlz.		/// \brief Return true if it is cheap to speculate a call to intrinsic ctlz.
virtual bool isCheapToSpeculateCtlz() const {		virtual bool isCheapToSpeculateCtlz() const {
return false;		return false;
▲ Show 20 Lines • Show All 2,819 Lines • Show Last 20 Lines

lib/CodeGen/SelectionDAG/DAGCombiner.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
STATISTIC(NodesCombined , "Number of dag nodes combined");		STATISTIC(NodesCombined , "Number of dag nodes combined");
STATISTIC(PreIndexedNodes , "Number of pre-indexed nodes created");		STATISTIC(PreIndexedNodes , "Number of pre-indexed nodes created");
STATISTIC(PostIndexedNodes, "Number of post-indexed nodes created");		STATISTIC(PostIndexedNodes, "Number of post-indexed nodes created");
STATISTIC(OpsNarrowed , "Number of load/op/store narrowed");		STATISTIC(OpsNarrowed , "Number of load/op/store narrowed");
STATISTIC(LdStFP2Int , "Number of fp load/store pairs transformed to int");		STATISTIC(LdStFP2Int , "Number of fp load/store pairs transformed to int");
STATISTIC(SlicedLoads, "Number of load sliced");		STATISTIC(SlicedLoads, "Number of load sliced");

namespace {		namespace {
static cl::opt<bool>		static cl::opt<bool>
CombinerAA("combiner-alias-analysis", cl::Hidden,
cl::desc("Enable DAG combiner alias-analysis heuristics"));

static cl::opt<bool>
CombinerGlobalAA("combiner-global-alias-analysis", cl::Hidden,		CombinerGlobalAA("combiner-global-alias-analysis", cl::Hidden,
		jyknightUnsubmitted Done Reply Inline Actions Please remove, since it's now unused. jyknight: Please remove, since it's now unused.
cl::desc("Enable DAG combiner's use of IR alias analysis"));		cl::desc("Enable DAG combiner's use of IR alias analysis"));

static cl::opt<bool>		static cl::opt<bool>
UseTBAA("combiner-use-tbaa", cl::Hidden, cl::init(true),		UseTBAA("combiner-use-tbaa", cl::Hidden, cl::init(true),
cl::desc("Enable DAG combiner's use of TBAA"));		cl::desc("Enable DAG combiner's use of TBAA"));

#ifndef NDEBUG		#ifndef NDEBUG
static cl::opt<std::string>		static cl::opt<std::string>
▲ Show 20 Lines • Show All 344 Lines • ▼ Show 20 Lines	private:
bool findBetterNeighborChains(StoreSDNode *St);		bool findBetterNeighborChains(StoreSDNode *St);

/// Match "(X shl/srl V1) & V2" where V2 may not be present.		/// Match "(X shl/srl V1) & V2" where V2 may not be present.
bool MatchRotateHalf(SDValue Op, SDValue &Shift, SDValue &Mask);		bool MatchRotateHalf(SDValue Op, SDValue &Shift, SDValue &Mask);

/// Holds a pointer to an LSBaseSDNode as well as information on where it		/// Holds a pointer to an LSBaseSDNode as well as information on where it
/// is located in a sequence of memory operations connected by a chain.		/// is located in a sequence of memory operations connected by a chain.
struct MemOpLink {		struct MemOpLink {
MemOpLink (LSBaseSDNode *N, int64_t Offset, unsigned Seq):		MemOpLink(LSBaseSDNode *N, int64_t Offset)
MemNode(N), OffsetFromBase(Offset), SequenceNum(Seq) { }		: MemNode(N), OffsetFromBase(Offset) {}
// Ptr to the mem node.		// Ptr to the mem node.
LSBaseSDNode *MemNode;		LSBaseSDNode *MemNode;
// Offset from the base ptr.		// Offset from the base ptr.
int64_t OffsetFromBase;		int64_t OffsetFromBase;
// What is the sequence number of this mem node.
// Lowest mem operand in the DAG starts at zero.
unsigned SequenceNum;
};		};

/// This is a helper function for visitMUL to check the profitability		/// This is a helper function for visitMUL to check the profitability
/// of folding (mul (add x, c1), c2) -> (add (mul x, c2), c1*c2).		/// of folding (mul (add x, c1), c2) -> (add (mul x, c2), c1*c2).
/// MulNode is the original multiply, AddNode is (add x, c1),		/// MulNode is the original multiply, AddNode is (add x, c1),
/// and ConstNode is c2.		/// and ConstNode is c2.
bool isMulAddWithConstProfitable(SDNode *MulNode,		bool isMulAddWithConstProfitable(SDNode *MulNode,
SDValue &AddNode,		SDValue &AddNode,
SDValue &ConstNode);		SDValue &ConstNode);

/// This is a helper function for MergeStoresOfConstantsOrVecElts. Returns a
/// constant build_vector of the stored constant values in Stores.
SDValue getMergedConstantVectorStore(SelectionDAG &DAG, const SDLoc &SL,
ArrayRef<MemOpLink> Stores,
SmallVectorImpl<SDValue> &Chains,
EVT Ty) const;

/// This is a helper function for visitAND and visitZERO_EXTEND. Returns		/// This is a helper function for visitAND and visitZERO_EXTEND. Returns
/// true if the (and (load x) c) pattern matches an extload. ExtVT returns		/// true if the (and (load x) c) pattern matches an extload. ExtVT returns
/// the type of the loaded value to be extended. LoadedVT returns the type		/// the type of the loaded value to be extended. LoadedVT returns the type
/// of the original loaded value. NarrowLoad returns whether the load would		/// of the original loaded value. NarrowLoad returns whether the load would
/// need to be narrowed in order to match.		/// need to be narrowed in order to match.
bool isAndLoadExtLoad(ConstantSDNode AndC, LoadSDNode LoadN,		bool isAndLoadExtLoad(ConstantSDNode AndC, LoadSDNode LoadN,
EVT LoadResultTy, EVT &ExtVT, EVT &LoadedVT,		EVT LoadResultTy, EVT &ExtVT, EVT &LoadedVT,
bool &NarrowLoad);		bool &NarrowLoad);

/// This is a helper function for MergeConsecutiveStores. When the source		/// This is a helper function for MergeConsecutiveStores. When the source
/// elements of the consecutive stores are all constants or all extracted		/// elements of the consecutive stores are all constants or all extracted
/// vector elements, try to merge them into one larger store.		/// vector elements, try to merge them into one larger store.
/// \return number of stores that were merged into a merged store (always		/// \return True if a merged store was created.
/// a prefix of \p StoreNode).		bool MergeStoresOfConstantsOrVecElts(SmallVectorImpl<MemOpLink> &StoreNodes,
bool MergeStoresOfConstantsOrVecElts(		EVT MemVT, unsigned NumStores,
SmallVectorImpl<MemOpLink> &StoreNodes, EVT MemVT, unsigned NumStores,
bool IsConstantSrc, bool UseVector);		bool IsConstantSrc, bool UseVector);

/// This is a helper function for MergeConsecutiveStores.		/// This is a helper function for MergeConsecutiveStores.
/// Stores that may be merged are placed in StoreNodes.		/// Stores that may be merged are placed in StoreNodes.
/// Loads that may alias with those stores are placed in AliasLoadNodes.		void getStoreMergeCandidates(StoreSDNode *St,
void getStoreMergeAndAliasCandidates(		SmallVectorImpl<MemOpLink> &StoreNodes);
StoreSDNode* St, SmallVectorImpl<MemOpLink> &StoreNodes,
SmallVectorImpl<LSBaseSDNode*> &AliasLoadNodes);

/// Helper function for MergeConsecutiveStores. Checks if		/// Helper function for MergeConsecutiveStores. Checks if
/// Candidate stores have indirect dependency through their		/// Candidate stores have indirect dependency through their
/// operands. \return True if safe to merge		/// operands. \return True if safe to merge
bool checkMergeStoreCandidatesForDependencies(		bool checkMergeStoreCandidatesForDependencies(
SmallVectorImpl<MemOpLink> &StoreNodes);		SmallVectorImpl<MemOpLink> &StoreNodes);

/// Merge consecutive store operations into a wide store.		/// Merge consecutive store operations into a wide store.
/// This optimization uses wide integers or vectors when possible.		/// This optimization uses wide integers or vectors when possible.
/// \return number of stores that were merged into a merged store (the		/// \return number of stores that were merged into a merged store (the
/// affected nodes are stored as a prefix in \p StoreNodes).		/// affected nodes are stored as a prefix in \p StoreNodes).
bool MergeConsecutiveStores(StoreSDNode *N,		bool MergeConsecutiveStores(StoreSDNode *N);
SmallVectorImpl<MemOpLink> &StoreNodes);

/// \brief Try to transform a truncation where C is a constant:		/// \brief Try to transform a truncation where C is a constant:
/// (trunc (and X, C)) -> (and (trunc X), (trunc C))		/// (trunc (and X, C)) -> (and (trunc X), (trunc C))
///		///
/// \p N needs to be a truncation and its first operand an AND. Other		/// \p N needs to be a truncation and its first operand an AND. Other
/// requirements are checked by the function (e.g. that trunc is		/// requirements are checked by the function (e.g. that trunc is
/// single-use) and if missed an empty SDValue is returned.		/// single-use) and if missed an empty SDValue is returned.
SDValue distributeTruncateThroughAnd(SDNode *N);		SDValue distributeTruncateThroughAnd(SDNode *N);
▲ Show 20 Lines • Show All 1,086 Lines • ▼ Show 20 Lines	SDValue DAGCombiner::visitTokenFactor(SDNode *N) {
if (N->getNumOperands() == 2) {		if (N->getNumOperands() == 2) {
if (getInputChainForNode(N->getOperand(0).getNode()) == N->getOperand(1))		if (getInputChainForNode(N->getOperand(0).getNode()) == N->getOperand(1))
return N->getOperand(0);		return N->getOperand(0);
if (getInputChainForNode(N->getOperand(1).getNode()) == N->getOperand(0))		if (getInputChainForNode(N->getOperand(1).getNode()) == N->getOperand(0))
return N->getOperand(1);		return N->getOperand(1);
}		}

SmallVector<SDNode *, 8> TFs; // List of token factors to visit.		SmallVector<SDNode *, 8> TFs; // List of token factors to visit.
SmallVector<SDValue, 8> Ops; // Ops for replacing token factor.		SmallVector<SDValue, 8> Ops; // Ops for replacing token factor.
SmallPtrSet<SDNode*, 16> SeenOps;		SmallPtrSet<SDNode*, 16> SeenOps;
bool Changed = false; // If we should replace this token factor.		bool Changed = false; // If we should replace this token factor.

// Start out with this token factor.		// Start out with this token factor.
TFs.push_back(N);		TFs.push_back(N);

// Iterate through token factors. The TFs grows when new token factors are		// Iterate through token factors. The TFs grows when new token factors are
// encountered.		// encountered.
Show All 27 Lines	for (const SDValue &Op : TF->op_values()) {
Ops.push_back(Op);		Ops.push_back(Op);
else		else
Changed = true;		Changed = true;
break;		break;
}		}
}		}
}		}

		// Remove Nodes that are chained to another node in the list. Do so
		// by walking up chains breath-first stopping when we've seen
		// another operand. In general we must climb to the EntryNode, but we can exit
		// early if we find all remaining work is associated with just one operand as
		// no further pruning is possible.

		// List of nodes to search through and original Ops from which they originate.
		SmallVector<std::pair<SDNode *, unsigned>, 8> Worklist;
		SmallVector<unsigned, 8> OpWorkCount; // Count of work for each Op.
		SmallPtrSet<SDNode *, 16> SeenChains;
		bool DidPruneOps = false;

		unsigned NumLeftToConsider = 0;
		for (const SDValue &Op : Ops) {
		Worklist.push_back(std::make_pair(Op.getNode(), NumLeftToConsider++));
		OpWorkCount.push_back(1);
		}

		auto AddToWorklist = [&](unsigned CurIdx, SDNode *Op, unsigned OpNumber) {
		// If this is an Op, we can remove the op from the list. Remark any
		// search associated with it as from the current OpNumber.
		if (SeenOps.count(Op) != 0) {
		Changed = true;
		DidPruneOps = true;
		unsigned OrigOpNumber = 0;
		while (Ops[OrigOpNumber].getNode() != Op && OrigOpNumber < Ops.size())
		OrigOpNumber++;
		assert((OrigOpNumber != Ops.size()) &&
		"expected to find TokenFactor Operand");
		// Re-mark worklist from OrigOpNumber to OpNumber
		for (unsigned i = CurIdx + 1; i < Worklist.size(); ++i) {
		if (Worklist[i].second == OrigOpNumber) {
		Worklist[i].second = OpNumber;
		}
		}
		OpWorkCount[OpNumber] += OpWorkCount[OrigOpNumber];
		OpWorkCount[OrigOpNumber] = 0;
		NumLeftToConsider--;
		}
		// Add if it's a new chain
		if (SeenChains.insert(Op).second) {
		OpWorkCount[OpNumber]++;
		Worklist.push_back(std::make_pair(Op, OpNumber));
		}
		};

		for (unsigned i = 0; i < Worklist.size(); ++i) {
		// We need at least be consider at least 2 Ops to prune.
		if (NumLeftToConsider <= 1)
		break;
		auto CurNode = Worklist[i].first;
		auto CurOpNumber = Worklist[i].second;
		assert((OpWorkCount[CurOpNumber] > 0) &&
		"Node should not appear in worklist");
		switch (CurNode->getOpcode()) {
		case ISD::EntryToken:
		// Hitting EntryToken is the only way for the search to terminate without
		// hitting
		// another operand's search. Prevent us from marking this operand
		// considered.
		NumLeftToConsider++;
		break;
		case ISD::TokenFactor:
		for (const SDValue &Op : CurNode->op_values())
		AddToWorklist(i, Op.getNode(), CurOpNumber);
		break;
		case ISD::CopyFromReg:
		case ISD::CopyToReg:
		AddToWorklist(i, CurNode->getOperand(0).getNode(), CurOpNumber);
		break;
		default:
		if (auto *MemNode = dyn_cast<MemSDNode>(CurNode))
		AddToWorklist(i, MemNode->getChain().getNode(), CurOpNumber);
		break;
		}
		OpWorkCount[CurOpNumber]--;
		if (OpWorkCount[CurOpNumber] == 0)
		NumLeftToConsider--;
		}

SDValue Result;		SDValue Result;

// If we've changed things around then replace token factor.		// If we've changed things around then replace token factor.
if (Changed) {		if (Changed) {
if (Ops.empty()) {		if (Ops.empty()) {
// The entry token is the only possible outcome.		// The entry token is the only possible outcome.
Result = DAG.getEntryNode();		Result = DAG.getEntryNode();
} else {		} else {
// New and improved token factor.		if (DidPruneOps) {
		SmallVector<SDValue, 8> PrunedOps;
		//
		for (const SDValue &Op : Ops) {
		if (SeenChains.count(Op.getNode()) == 0)
		PrunedOps.push_back(Op);
		}
		Result = DAG.getNode(ISD::TokenFactor, SDLoc(N), MVT::Other, PrunedOps);
		} else {
Result = DAG.getNode(ISD::TokenFactor, SDLoc(N), MVT::Other, Ops);		Result = DAG.getNode(ISD::TokenFactor, SDLoc(N), MVT::Other, Ops);
}		}
		}

// Add users to worklist if AA is enabled, since it may introduce		// Add users to worklist, since we may introduce a lot of new
// a lot of new chained token factors while removing memory deps.		// chained token factors while removing memory deps.
bool UseAA = CombinerAA.getNumOccurrences() > 0 ? CombinerAA		return CombineTo(N, Result, true /add to worklist/);
: DAG.getSubtarget().useAA();
return CombineTo(N, Result, UseAA /add to worklist/);
}		}

return Result;		return Result;
}		}

/// MERGE_VALUES can always be eliminated.		/// MERGE_VALUES can always be eliminated.
SDValue DAGCombiner::visitMERGE_VALUES(SDNode *N) {		SDValue DAGCombiner::visitMERGE_VALUES(SDNode *N) {
WorklistRemover DeadNodes(*this);		WorklistRemover DeadNodes(*this);
▲ Show 20 Lines • Show All 4,912 Lines • ▼ Show 20 Lines	for (unsigned Idx = 0; Idx < NumSplits; Idx++) {

Loads.push_back(SplitLoad.getValue(0));		Loads.push_back(SplitLoad.getValue(0));
Chains.push_back(SplitLoad.getValue(1));		Chains.push_back(SplitLoad.getValue(1));
}		}

SDValue NewChain = DAG.getNode(ISD::TokenFactor, DL, MVT::Other, Chains);		SDValue NewChain = DAG.getNode(ISD::TokenFactor, DL, MVT::Other, Chains);
SDValue NewValue = DAG.getNode(ISD::CONCAT_VECTORS, DL, DstVT, Loads);		SDValue NewValue = DAG.getNode(ISD::CONCAT_VECTORS, DL, DstVT, Loads);

		// Simplify TF.
		AddToWorklist(NewChain.getNode());

CombineTo(N, NewValue);		CombineTo(N, NewValue);

// Replace uses of the original load (before extension)		// Replace uses of the original load (before extension)
// with a truncate of the concatenated sextloaded vectors.		// with a truncate of the concatenated sextloaded vectors.
SDValue Trunc =		SDValue Trunc =
DAG.getNode(ISD::TRUNCATE, SDLoc(N0), N0.getValueType(), NewValue);		DAG.getNode(ISD::TRUNCATE, SDLoc(N0), N0.getValueType(), NewValue);
CombineTo(N0.getNode(), Trunc, NewChain);		CombineTo(N0.getNode(), Trunc, NewChain);
ExtendSetCCUses(SetCCs, Trunc, NewValue, DL,		ExtendSetCCUses(SetCCs, Trunc, NewValue, DL,
▲ Show 20 Lines • Show All 4,149 Lines • ▼ Show 20 Lines	SDValue DAGCombiner::visitLOAD(SDNode *N) {
}		}

// If this load is directly stored, replace the load value with the stored		// If this load is directly stored, replace the load value with the stored
// value.		// value.
// TODO: Handle store large -> read small portion.		// TODO: Handle store large -> read small portion.
// TODO: Handle TRUNCSTORE/LOADEXT		// TODO: Handle TRUNCSTORE/LOADEXT
if (OptLevel != CodeGenOpt::None &&		if (OptLevel != CodeGenOpt::None &&
ISD::isNormalLoad(N) && !LD->isVolatile()) {		ISD::isNormalLoad(N) && !LD->isVolatile()) {
		// We can forward a direct store or a store off of a tokenfactor.
if (ISD::isNON_TRUNCStore(Chain.getNode())) {		if (ISD::isNON_TRUNCStore(Chain.getNode())) {
StoreSDNode *PrevST = cast<StoreSDNode>(Chain);		StoreSDNode *PrevST = cast<StoreSDNode>(Chain);
if (PrevST->getBasePtr() == Ptr &&		if (PrevST->getBasePtr() == Ptr &&
PrevST->getValue().getValueType() == N->getValueType(0))		PrevST->getValue().getValueType() == N->getValueType(0))
return CombineTo(N, Chain.getOperand(1), Chain);		return CombineTo(N, PrevST->getOperand(1), Chain);
}		}
}		}

// Try to infer better alignment information than the load already has.		// Try to infer better alignment information than the load already has.
if (OptLevel != CodeGenOpt::None && LD->isUnindexed()) {		if (OptLevel != CodeGenOpt::None && LD->isUnindexed()) {
if (unsigned Align = DAG.InferPtrAlignment(Ptr)) {		if (unsigned Align = DAG.InferPtrAlignment(Ptr)) {
if (Align > LD->getMemOperand()->getBaseAlignment()) {		if (Align > LD->getMemOperand()->getBaseAlignment()) {
SDValue NewLoad = DAG.getExtLoad(		SDValue NewLoad = DAG.getExtLoad(
LD->getExtensionType(), SDLoc(N), LD->getValueType(0), Chain, Ptr,		LD->getExtensionType(), SDLoc(N), LD->getValueType(0), Chain, Ptr,
LD->getPointerInfo(), LD->getMemoryVT(), Align,		LD->getPointerInfo(), LD->getMemoryVT(), Align,
LD->getMemOperand()->getFlags(), LD->getAAInfo());		LD->getMemOperand()->getFlags(), LD->getAAInfo());
if (NewLoad.getNode() != N)		if (NewLoad.getNode() != N)
return CombineTo(N, NewLoad, SDValue(NewLoad.getNode(), 1), true);		return CombineTo(N, NewLoad, SDValue(NewLoad.getNode(), 1), true);
}		}
}		}
}		}

bool UseAA = CombinerAA.getNumOccurrences() > 0 ? CombinerAA		if (LD->isUnindexed()) {
: DAG.getSubtarget().useAA();
#ifndef NDEBUG
if (CombinerAAOnlyFunc.getNumOccurrences() &&
CombinerAAOnlyFunc != DAG.getMachineFunction().getName())
UseAA = false;
#endif
if (UseAA && LD->isUnindexed()) {
// Walk up chain skipping non-aliasing memory nodes.		// Walk up chain skipping non-aliasing memory nodes.
SDValue BetterChain = FindBetterChain(N, Chain);		SDValue BetterChain = FindBetterChain(N, Chain);

// If there is a better chain.		// If there is a better chain.
if (Chain != BetterChain) {		if (Chain != BetterChain) {
SDValue ReplLoad;		SDValue ReplLoad;

// Replace the chain to void dependency.		// Replace the chain to void dependency.
▲ Show 20 Lines • Show All 565 Lines • ▼ Show 20 Lines	for (SmallVectorImpl<LoadedSlice>::const_iterator
assert(SliceInst->getOpcode() == ISD::LOAD &&		assert(SliceInst->getOpcode() == ISD::LOAD &&
"It takes more than a zext to get to the loaded slice!!");		"It takes more than a zext to get to the loaded slice!!");
ArgChains.push_back(SliceInst.getValue(1));		ArgChains.push_back(SliceInst.getValue(1));
}		}

SDValue Chain = DAG.getNode(ISD::TokenFactor, SDLoc(LD), MVT::Other,		SDValue Chain = DAG.getNode(ISD::TokenFactor, SDLoc(LD), MVT::Other,
ArgChains);		ArgChains);
DAG.ReplaceAllUsesOfValueWith(SDValue(N, 1), Chain);		DAG.ReplaceAllUsesOfValueWith(SDValue(N, 1), Chain);
		AddToWorklist(Chain.getNode());
return true;		return true;
}		}

/// Check to see if V is (and load (ptr), imm), where the load is having		/// Check to see if V is (and load (ptr), imm), where the load is having
/// specific bytes cleared out. If so, return the byte size being masked out		/// specific bytes cleared out. If so, return the byte size being masked out
/// and the shift amount.		/// and the shift amount.
static std::pair<unsigned, unsigned>		static std::pair<unsigned, unsigned>
CheckForMaskedLoad(SDValue V, SDValue Ptr, SDValue Chain) {		CheckForMaskedLoad(SDValue V, SDValue Ptr, SDValue Chain) {
▲ Show 20 Lines • Show All 377 Lines • ▼ Show 20 Lines	if (Use->getOpcode() == ISD::MUL) { // We have another multiply use.
return true;		return true;
}		}
}		}

// Didn't find a case where this would be profitable.		// Didn't find a case where this would be profitable.
return false;		return false;
}		}

SDValue DAGCombiner::getMergedConstantVectorStore(
SelectionDAG &DAG, const SDLoc &SL, ArrayRef<MemOpLink> Stores,
SmallVectorImpl<SDValue> &Chains, EVT Ty) const {
SmallVector<SDValue, 8> BuildVector;

for (unsigned I = 0, E = Ty.getVectorNumElements(); I != E; ++I) {
StoreSDNode *St = cast<StoreSDNode>(Stores[I].MemNode);
Chains.push_back(St->getChain());
BuildVector.push_back(St->getValue());
}

return DAG.getBuildVector(Ty, SL, BuildVector);
}

bool DAGCombiner::MergeStoresOfConstantsOrVecElts(		bool DAGCombiner::MergeStoresOfConstantsOrVecElts(
SmallVectorImpl<MemOpLink> &StoreNodes, EVT MemVT,		SmallVectorImpl<MemOpLink> &StoreNodes, EVT MemVT,
unsigned NumStores, bool IsConstantSrc, bool UseVector) {		unsigned NumStores, bool IsConstantSrc, bool UseVector) {
// Make sure we have something to merge.		// Make sure we have something to merge.
if (NumStores < 2)		if (NumStores < 2)
return false;		return false;

int64_t ElementSizeBytes = MemVT.getSizeInBits() / 8;		int64_t ElementSizeBytes = MemVT.getSizeInBits() / 8;
LSBaseSDNode *FirstInChain = StoreNodes[0].MemNode;
unsigned LatestNodeUsed = 0;

for (unsigned i=0; i < NumStores; ++i) {
// Find a chain for the new wide-store operand. Notice that some
// of the store nodes that we found may not be selected for inclusion
// in the wide store. The chain we use needs to be the chain of the
// latest store node which is used and replaced by the wide store.
if (StoreNodes[i].SequenceNum < StoreNodes[LatestNodeUsed].SequenceNum)
LatestNodeUsed = i;
}

SmallVector<SDValue, 8> Chains;

		jyknightUnsubmitted Done Reply Inline Actions This var should be moved way down above its (now) first use. jyknight: This var should be moved way down above its (now) first use.
// The latest Node in the DAG.		// The latest Node in the DAG.
LSBaseSDNode *LatestOp = StoreNodes[LatestNodeUsed].MemNode;
SDLoc DL(StoreNodes[0].MemNode);		SDLoc DL(StoreNodes[0].MemNode);

SDValue StoredVal;		SDValue StoredVal;
if (UseVector) {		if (UseVector) {
bool IsVec = MemVT.isVector();		bool IsVec = MemVT.isVector();
unsigned Elts = NumStores;		unsigned Elts = NumStores;
if (IsVec) {		if (IsVec) {
// When merging vector stores, get the total number of elements.		// When merging vector stores, get the total number of elements.
Elts *= MemVT.getVectorNumElements();		Elts *= MemVT.getVectorNumElements();
}		}
// Get the type for the merged vector store.		// Get the type for the merged vector store.
EVT Ty = EVT::getVectorVT(*DAG.getContext(), MemVT.getScalarType(), Elts);		EVT Ty = EVT::getVectorVT(*DAG.getContext(), MemVT.getScalarType(), Elts);
assert(TLI.isTypeLegal(Ty) && "Illegal vector store");		assert(TLI.isTypeLegal(Ty) && "Illegal vector store");

if (IsConstantSrc) {		if (IsConstantSrc) {
StoredVal = getMergedConstantVectorStore(DAG, DL, StoreNodes, Chains, Ty);		SmallVector<SDValue, 8> BuildVector;
		for (unsigned I = 0, E = Ty.getVectorNumElements(); I != E; ++I) {
		StoreSDNode *St = cast<StoreSDNode>(StoreNodes[I].MemNode);
		SDValue Val = St->getValue();
		if (MemVT.getScalarType().isInteger())
		if (auto *CFP = dyn_cast<ConstantFPSDNode>(St->getValue()))
		Val = DAG.getConstant(
		(uint32_t)CFP->getValueAPF().bitcastToAPInt().getZExtValue(),
		SDLoc(CFP), MemVT);
		BuildVector.push_back(Val);
		}
		StoredVal = DAG.getBuildVector(Ty, DL, BuildVector);
} else {		} else {
SmallVector<SDValue, 8> Ops;		SmallVector<SDValue, 8> Ops;
for (unsigned i = 0; i < NumStores; ++i) {		for (unsigned i = 0; i < NumStores; ++i) {
StoreSDNode *St = cast<StoreSDNode>(StoreNodes[i].MemNode);		StoreSDNode *St = cast<StoreSDNode>(StoreNodes[i].MemNode);
SDValue Val = St->getValue();		SDValue Val = St->getValue();
// All operands of BUILD_VECTOR / CONCAT_VECTOR must have the same type.		// All operands of BUILD_VECTOR / CONCAT_VECTOR must have the same type.
if (Val.getValueType() != MemVT)		if (Val.getValueType() != MemVT)
return false;		return false;
Ops.push_back(Val);		Ops.push_back(Val);
Chains.push_back(St->getChain());
}		}

// Build the extracted vector elements back into a vector.		// Build the extracted vector elements back into a vector.
StoredVal = DAG.getNode(IsVec ? ISD::CONCAT_VECTORS : ISD::BUILD_VECTOR,		StoredVal = DAG.getNode(IsVec ? ISD::CONCAT_VECTORS : ISD::BUILD_VECTOR,
DL, Ty, Ops); }		DL, Ty, Ops); }
} else {		} else {
// We should always use a vector store when merging extracted vector		// We should always use a vector store when merging extracted vector
// elements, so this path implies a store of constants.		// elements, so this path implies a store of constants.
assert(IsConstantSrc && "Merged vector elements should use vector store");		assert(IsConstantSrc && "Merged vector elements should use vector store");

unsigned SizeInBits = NumStores * ElementSizeBytes * 8;		unsigned SizeInBits = NumStores * ElementSizeBytes * 8;
APInt StoreInt(SizeInBits, 0);		APInt StoreInt(SizeInBits, 0);

// Construct a single integer constant which is made of the smaller		// Construct a single integer constant which is made of the smaller
// constant inputs.		// constant inputs.
bool IsLE = DAG.getDataLayout().isLittleEndian();		bool IsLE = DAG.getDataLayout().isLittleEndian();
for (unsigned i = 0; i < NumStores; ++i) {		for (unsigned i = 0; i < NumStores; ++i) {
unsigned Idx = IsLE ? (NumStores - 1 - i) : i;		unsigned Idx = IsLE ? (NumStores - 1 - i) : i;
StoreSDNode *St = cast<StoreSDNode>(StoreNodes[Idx].MemNode);		StoreSDNode *St = cast<StoreSDNode>(StoreNodes[Idx].MemNode);
Chains.push_back(St->getChain());

SDValue Val = St->getValue();		SDValue Val = St->getValue();
StoreInt <<= ElementSizeBytes * 8;		StoreInt <<= ElementSizeBytes * 8;
if (ConstantSDNode *C = dyn_cast<ConstantSDNode>(Val)) {		if (ConstantSDNode *C = dyn_cast<ConstantSDNode>(Val)) {
StoreInt \|= C->getAPIntValue().zext(SizeInBits);		StoreInt \|= C->getAPIntValue().zext(SizeInBits);
} else if (ConstantFPSDNode *C = dyn_cast<ConstantFPSDNode>(Val)) {		} else if (ConstantFPSDNode *C = dyn_cast<ConstantFPSDNode>(Val)) {
StoreInt \|= C->getValueAPF().bitcastToAPInt().zext(SizeInBits);		StoreInt \|= C->getValueAPF().bitcastToAPInt().zext(SizeInBits);
} else {		} else {
llvm_unreachable("Invalid constant element type");		llvm_unreachable("Invalid constant element type");
}		}
}		}

// Create the new Load and Store operations.		// Create the new Load and Store operations.
EVT StoreTy = EVT::getIntegerVT(*DAG.getContext(), SizeInBits);		EVT StoreTy = EVT::getIntegerVT(*DAG.getContext(), SizeInBits);
StoredVal = DAG.getConstant(StoreInt, DL, StoreTy);		StoredVal = DAG.getConstant(StoreInt, DL, StoreTy);
}		}

assert(!Chains.empty());		SmallVector<SDValue, 8> Chains;

		// Gather all Chains we're inheriting. As generally all chains are
		// equal, do minor check to remove obvious redundancies.
		Chains.push_back(StoreNodes[0].MemNode->getChain());
		for (unsigned i = 1; i < NumStores; ++i)
		if (StoreNodes[0].MemNode->getChain() != StoreNodes[i].MemNode->getChain())
		Chains.push_back(StoreNodes[i].MemNode->getChain());

		LSBaseSDNode *FirstInChain = StoreNodes[0].MemNode;
SDValue NewChain = DAG.getNode(ISD::TokenFactor, DL, MVT::Other, Chains);		SDValue NewChain = DAG.getNode(ISD::TokenFactor, DL, MVT::Other, Chains);
SDValue NewStore = DAG.getStore(NewChain, DL, StoredVal,		SDValue NewStore = DAG.getStore(NewChain, DL, StoredVal,
FirstInChain->getBasePtr(),		FirstInChain->getBasePtr(),
FirstInChain->getPointerInfo(),		FirstInChain->getPointerInfo(),
FirstInChain->getAlignment());		FirstInChain->getAlignment());

bool UseAA = CombinerAA.getNumOccurrences() > 0 ? CombinerAA
: DAG.getSubtarget().useAA();
if (UseAA) {
// Replace all merged stores with the new store.		// Replace all merged stores with the new store.
		jyknightUnsubmitted Not Done Reply Inline Actions This is actually fixing incorrect behavior in UseAA mode; let's commit it separately (along with the exact same change which is made down below). When done separately, it'll need to be conditioned on UseAA, though, since the previous code was right for !UseAA. jyknight: This is actually fixing incorrect behavior in UseAA mode; let's commit it separately (along…
for (unsigned i = 0; i < NumStores; ++i)		for (unsigned i = 0; i < NumStores; ++i)
CombineTo(StoreNodes[i].MemNode, NewStore);		CombineTo(StoreNodes[i].MemNode, NewStore);
} else {
// Replace the last store with the new store.
CombineTo(LatestOp, NewStore);
// Erase all other stores.
for (unsigned i = 0; i < NumStores; ++i) {
if (StoreNodes[i].MemNode == LatestOp)
continue;
StoreSDNode *St = cast<StoreSDNode>(StoreNodes[i].MemNode);
// ReplaceAllUsesWith will replace all uses that existed when it was
// called, but graph optimizations may cause new ones to appear. For
// example, the case in pr14333 looks like
//
// St's chain -> St -> another store -> X
//
// And the only difference from St to the other store is the chain.
// When we change it's chain to be St's chain they become identical,
// get CSEed and the net result is that X is now a use of St.
// Since we know that St is redundant, just iterate.
while (!St->use_empty())
DAG.ReplaceAllUsesWith(SDValue(St, 0), St->getChain());
deleteAndRecombine(St);
}
}

StoreNodes.erase(StoreNodes.begin() + NumStores, StoreNodes.end());		AddToWorklist(NewChain.getNode());
return true;		return true;
}		}

void DAGCombiner::getStoreMergeAndAliasCandidates(		void DAGCombiner::getStoreMergeCandidates(
		jyknightUnsubmitted Not Done Reply Inline Actions Remove "AndAlias" from the name; no longer collects AliasLoadNodes. jyknight: Remove "AndAlias" from the name; no longer collects AliasLoadNodes.
StoreSDNode* St, SmallVectorImpl<MemOpLink> &StoreNodes,		StoreSDNode *St, SmallVectorImpl<MemOpLink> &StoreNodes) {
SmallVectorImpl<LSBaseSDNode*> &AliasLoadNodes) {
// This holds the base pointer, index, and the offset in bytes from the base		// This holds the base pointer, index, and the offset in bytes from the base
// pointer.		// pointer.
BaseIndexOffset BasePtr = BaseIndexOffset::match(St->getBasePtr(), DAG);		BaseIndexOffset BasePtr = BaseIndexOffset::match(St->getBasePtr(), DAG);
		EVT MemVT = St->getMemoryVT();

// We must have a base and an offset.		// We must have a base and an offset.
if (!BasePtr.Base.getNode())		if (!BasePtr.Base.getNode())
return;		return;

// Do not handle stores to undef base pointers.		// Do not handle stores to undef base pointers.
if (BasePtr.Base.isUndef())		if (BasePtr.Base.isUndef())
return;		return;

// Walk up the chain and look for nodes with offsets from the same		// We looking for a root node which is an ancestor to all mergable
// base pointer. Stop when reaching an instruction with a different kind		// stores. We search up through a load, to our root and then down
// or instruction which has a different base pointer.		// through all children. For instance we will find Store{1,2,3} if
		jyknightUnsubmitted Not Done Reply Inline Actions I think this could do with an ascii-art diagram to explain the shape of the DAG we're looking for. E.g. something like this: Given a structure like this: Root \|-------\|-------\| Load Load Store \| \| Store Store We might start off looking at any of the Store nodes, and need to find all of the others to see if they can be merged. jyknight: I think this could do with an ascii-art diagram to explain the shape of the DAG we're looking…
EVT MemVT = St->getMemoryVT();		// St is Store1, Store2. or Store3 where the root is not a load
unsigned Seq = 0;		// which always true for nonvolatile ops. TODO: Expand
StoreSDNode *Index = St;		// the search to find all valid candidates through multiple layers of loads.
		//
		// Root
bool UseAA = CombinerAA.getNumOccurrences() > 0 ? CombinerAA		// \|-------\|-------\|
: DAG.getSubtarget().useAA();		// Load Load Store3
		// \| \|
		// Store1 Store2
		jyknightUnsubmitted Done Reply Inline Actions Commented code should be removed. jyknight: Commented code should be removed.
		//
		// FIXME: We should be able to climb and
		// descend TokenFactors to find candidates as well.

		SDNode *RootNode = (St->getChain()).getNode();

		// Set of Parents of Candidates
		std::set<SDNode *> CandidateParents;

		if (LoadSDNode *Ldn = dyn_cast<LoadSDNode>(RootNode)) {
		RootNode = Ldn->getChain().getNode();
		for (auto I = RootNode->use_begin(), E = RootNode->use_end(); I != E; ++I)
		if (I.getOperandNo() == 0 && isa<LoadSDNode>(*I)) // walk down chain
		CandidateParents.insert(*I);
		} else
		CandidateParents.insert(RootNode);

if (UseAA) {		bool IsLoadSrc = isa<LoadSDNode>(St->getValue());
// Look at other users of the same chain. Stores on the same chain do not		bool IsConstantSrc = isa<ConstantSDNode>(St->getValue()) \|\|
// alias. If combiner-aa is enabled, non-aliasing stores are canonicalized		isa<ConstantFPSDNode>(St->getValue());
// to be on the same chain, so don't bother looking at adjacent chains.		bool IsExtractVecSrc =
		(St->getValue().getOpcode() == ISD::EXTRACT_VECTOR_ELT \|\|
		St->getValue().getOpcode() == ISD::EXTRACT_SUBVECTOR);
		auto CorrectValueKind = [&](StoreSDNode *Other) -> bool {
		if (IsLoadSrc)
		return isa<LoadSDNode>(Other->getValue());
		if (IsConstantSrc)
		return (isa<ConstantSDNode>(Other->getValue()) \|\|
		isa<ConstantFPSDNode>(Other->getValue()));
		if (IsExtractVecSrc)
		return (Other->getValue().getOpcode() == ISD::EXTRACT_VECTOR_ELT \|\|
		Other->getValue().getOpcode() == ISD::EXTRACT_SUBVECTOR);
		return false;
		};

SDValue Chain = St->getChain();		// check all parents of mergable children
for (auto I = Chain->use_begin(), E = Chain->use_end(); I != E; ++I) {		for (auto P = CandidateParents.begin(); P != CandidateParents.end(); ++P)
		for (auto I = (P)->use_begin(), E = (P)->use_end(); I != E; ++I)
		if (I.getOperandNo() == 0)
if (StoreSDNode OtherST = dyn_cast<StoreSDNode>(I)) {		if (StoreSDNode OtherST = dyn_cast<StoreSDNode>(I)) {
if (I.getOperandNo() != 0)
continue;

if (OtherST->isVolatile() \|\| OtherST->isIndexed())		if (OtherST->isVolatile() \|\| OtherST->isIndexed())
continue;		continue;
		// We can merge constant floats to equivalent integers
if (OtherST->getMemoryVT() != MemVT)		if (OtherST->getMemoryVT() != MemVT)
		if (!(MemVT.isInteger() && MemVT.bitsEq(OtherST->getMemoryVT()) &&
		isa<ConstantFPSDNode>(OtherST->getValue())))
continue;		continue;
		BaseIndexOffset Ptr =
BaseIndexOffset Ptr = BaseIndexOffset::match(OtherST->getBasePtr(), DAG);		BaseIndexOffset::match(OtherST->getBasePtr(), DAG);
		if (Ptr.equalBaseIndex(BasePtr) && CorrectValueKind(OtherST))
		jyknightUnsubmitted Done Reply Inline Actions Why isn't this: } else if (I.getOperandNo() == 0) addStoreNodeIfMergableStore(I, St, StoreNodes, Seq); ? jyknight:* Why isn't this: } else if (I.getOperandNo() == 0) addStoreNodeIfMergableStore(*I, St…
if (Ptr.equalBaseIndex(BasePtr))		StoreNodes.push_back(MemOpLink(OtherST, Ptr.Offset));
StoreNodes.push_back(MemOpLink(OtherST, Ptr.Offset, Seq++));
}
}

return;
}

while (Index) {
// If the chain has more than one use, then we can't reorder the mem ops.
if (Index != St && !SDValue(Index, 0)->hasOneUse())
break;

// Find the base pointer and offset for this memory node.
BaseIndexOffset Ptr = BaseIndexOffset::match(Index->getBasePtr(), DAG);

// Check that the base pointer is the same as the original one.
if (!Ptr.equalBaseIndex(BasePtr))
break;

// The memory operands must not be volatile.
if (Index->isVolatile() \|\| Index->isIndexed())
break;

// No truncation.
if (Index->isTruncatingStore())
break;

// The stored memory type must be the same.
if (Index->getMemoryVT() != MemVT)
break;

// We do not allow under-aligned stores in order to prevent
// overriding stores. NOTE: this is a bad hack. Alignment SHOULD
// be irrelevant here; what MATTERS is that we not move memory
// operations that potentially overlap past each-other.
if (Index->getAlignment() < MemVT.getStoreSize())
break;

// We found a potential memory operand to merge.
StoreNodes.push_back(MemOpLink(Index, Ptr.Offset, Seq++));

// Find the next memory operand in the chain. If the next operand in the
// chain is a store then move up and continue the scan with the next
// memory operand. If the next operand is a load save it and use alias
// information to check if it interferes with anything.
SDNode *NextInChain = Index->getChain().getNode();
while (1) {
if (StoreSDNode *STn = dyn_cast<StoreSDNode>(NextInChain)) {
// We found a store node. Use it for the next iteration.
Index = STn;
break;
} else if (LoadSDNode *Ldn = dyn_cast<LoadSDNode>(NextInChain)) {
if (Ldn->isVolatile()) {
Index = nullptr;
break;
}

// Save the load node for later. Continue the scan.
AliasLoadNodes.push_back(Ldn);
NextInChain = Ldn->getChain().getNode();
continue;
} else {
Index = nullptr;
break;
}
}
}		}
}		}

// We need to check that merging these stores does not cause a loop		// We need to check that merging these stores does not cause a loop
// in the DAG. Any store candidate may depend on another candidate		// in the DAG. Any store candidate may depend on another candidate
// indirectly through its operand (we already consider dependencies		// indirectly through its operand (we already consider dependencies
// through the chain). Check in parallel by searching up from		// through the chain). Check in parallel by searching up from
// non-chain operands of candidates.		// non-chain operands of candidates.
bool DAGCombiner::checkMergeStoreCandidatesForDependencies(		bool DAGCombiner::checkMergeStoreCandidatesForDependencies(
SmallVectorImpl<MemOpLink> &StoreNodes) {		SmallVectorImpl<MemOpLink> &StoreNodes) {
SmallPtrSet<const SDNode *, 16> Visited;		SmallPtrSet<const SDNode *, 16> Visited;
SmallVector<const SDNode *, 8> Worklist;		SmallVector<const SDNode *, 8> Worklist;
// search ops of store candidates		// search ops of store candidates
for (unsigned i = 0; i < StoreNodes.size(); ++i) {		for (unsigned i = 0; i < StoreNodes.size(); ++i) {
SDNode *n = StoreNodes[i].MemNode;		SDNode *n = StoreNodes[i].MemNode;
// Potential loops may happen only through non-chain operands		// Potential loops may happen only through non-chain operands
for (unsigned j = 1; j < n->getNumOperands(); ++j)		for (unsigned j = 1; j < n->getNumOperands(); ++j)
Worklist.push_back(n->getOperand(j).getNode());		Worklist.push_back(n->getOperand(j).getNode());
}		}
// search through DAG. We can stop early if we find a storenode		// search through DAG. We can stop early if we find a storenode
for (unsigned i = 0; i < StoreNodes.size(); ++i) {		for (unsigned i = 0; i < StoreNodes.size(); ++i) {
		jyknightUnsubmitted Done Reply Inline Actions Clearer without removing the braces around another compound statement. jyknight: Clearer without removing the braces around another compound statement.
if (SDNode::hasPredecessorHelper(StoreNodes[i].MemNode, Visited, Worklist))		if (SDNode::hasPredecessorHelper(StoreNodes[i].MemNode, Visited, Worklist))
return false;		return false;
}		}
return true;		return true;
}		}

bool DAGCombiner::MergeConsecutiveStores(		bool DAGCombiner::MergeConsecutiveStores(StoreSDNode *St) {
StoreSDNode* St, SmallVectorImpl<MemOpLink> &StoreNodes) {
if (OptLevel == CodeGenOpt::None)		if (OptLevel == CodeGenOpt::None)
return false;		return false;

EVT MemVT = St->getMemoryVT();		EVT MemVT = St->getMemoryVT();
int64_t ElementSizeBytes = MemVT.getSizeInBits() / 8;		int64_t ElementSizeBytes = MemVT.getSizeInBits() / 8;
bool NoVectors = DAG.getMachineFunction().getFunction()->hasFnAttribute(		bool NoVectors = DAG.getMachineFunction().getFunction()->hasFnAttribute(
Attribute::NoImplicitFloat);		Attribute::NoImplicitFloat);

Show All 17 Lines	if (!IsConstantSrc && !IsLoadSrc && !IsExtractVecSrc)
return false;		return false;

// Don't merge vectors into wider vectors if the source data comes from loads.		// Don't merge vectors into wider vectors if the source data comes from loads.
// TODO: This restriction can be lifted by using logic similar to the		// TODO: This restriction can be lifted by using logic similar to the
// ExtractVecSrc case.		// ExtractVecSrc case.
if (MemVT.isVector() && IsLoadSrc)		if (MemVT.isVector() && IsLoadSrc)
return false;		return false;

// Only look at ends of store sequences.		SmallVector<MemOpLink, 8> StoreNodes;
SDValue Chain = SDValue(St, 0);		// Find potential store merge candidates by searching through chain sub-DAG
if (Chain->hasOneUse() && Chain->use_begin()->getOpcode() == ISD::STORE)		getStoreMergeCandidates(St, StoreNodes);
return false;

// Save the LoadSDNodes that we find in the chain.
// We need to make sure that these nodes do not interfere with
// any of the store nodes.
SmallVector<LSBaseSDNode*, 8> AliasLoadNodes;

getStoreMergeAndAliasCandidates(St, StoreNodes, AliasLoadNodes);

// Check if there is anything to merge.		// Check if there is anything to merge.
if (StoreNodes.size() < 2)		if (StoreNodes.size() < 2)
return false;		return false;

// only do dependence check in AA case		// Check that we can merge these candidates without causing a cycle
bool UseAA = CombinerAA.getNumOccurrences() > 0 ? CombinerAA		if (!checkMergeStoreCandidatesForDependencies(StoreNodes))
: DAG.getSubtarget().useAA();
if (UseAA && !checkMergeStoreCandidatesForDependencies(StoreNodes))
return false;		return false;

// Sort the memory operands according to their distance from the		// Sort the memory operands according to their distance from the
// base pointer. As a secondary criteria: make sure stores coming		// base pointer.
// later in the code come first in the list. This is important for
// the non-UseAA case, because we're merging stores into the FINAL
// store along a chain which potentially contains aliasing stores.
// Thus, if there are multiple stores to the same address, the last
// one can be considered for merging but not the others.
std::sort(StoreNodes.begin(), StoreNodes.end(),		std::sort(StoreNodes.begin(), StoreNodes.end(),
[](MemOpLink LHS, MemOpLink RHS) {		[](MemOpLink LHS, MemOpLink RHS) {
return LHS.OffsetFromBase < RHS.OffsetFromBase \|\|		return LHS.OffsetFromBase < RHS.OffsetFromBase;
(LHS.OffsetFromBase == RHS.OffsetFromBase &&
LHS.SequenceNum < RHS.SequenceNum);
});		});

// Scan the memory operations on the chain and find the first non-consecutive		// Scan the memory operations on the chain and find the first non-consecutive
// store memory address.		// store memory address.
unsigned LastConsecutiveStore = 0;		unsigned NumConsecutiveStores = 0;
int64_t StartAddress = StoreNodes[0].OffsetFromBase;		int64_t StartAddress = StoreNodes[0].OffsetFromBase;
for (unsigned i = 0, e = StoreNodes.size(); i < e; ++i) {

// Check that the addresses are consecutive starting from the second		// Check that the addresses are consecutive starting from the second
// element in the list of stores.		// element in the list of stores.
if (i > 0) {		for (unsigned i = 1, e = StoreNodes.size(); i < e; ++i) {
int64_t CurrAddress = StoreNodes[i].OffsetFromBase;		int64_t CurrAddress = StoreNodes[i].OffsetFromBase;
if (CurrAddress - StartAddress != (ElementSizeBytes * i))		if (CurrAddress - StartAddress != (ElementSizeBytes * i))
break;		break;
		NumConsecutiveStores = i + 1;
}		}

// Check if this store interferes with any of the loads that we found.		if (NumConsecutiveStores < 2)
// If we find a load that alias with this store. Stop the sequence.		return false;
if (any_of(AliasLoadNodes, [&](LSBaseSDNode *Ldn) {
return isAlias(Ldn, StoreNodes[i].MemNode);
}))
break;

// Mark this node as useful.
LastConsecutiveStore = i;
}

// The node with the lowest store address.		// The node with the lowest store address.
LSBaseSDNode *FirstInChain = StoreNodes[0].MemNode;
unsigned FirstStoreAS = FirstInChain->getAddressSpace();
unsigned FirstStoreAlign = FirstInChain->getAlignment();
LLVMContext &Context = *DAG.getContext();		LLVMContext &Context = *DAG.getContext();
const DataLayout &DL = DAG.getDataLayout();		const DataLayout &DL = DAG.getDataLayout();

// Store the constants into memory as one consecutive store.		// Store the constants into memory as one consecutive store.
if (IsConstantSrc) {		if (IsConstantSrc) {
		bool RV = false;
		while (NumConsecutiveStores > 1) {
		LSBaseSDNode *FirstInChain = StoreNodes[0].MemNode;
		unsigned FirstStoreAS = FirstInChain->getAddressSpace();
		unsigned FirstStoreAlign = FirstInChain->getAlignment();
unsigned LastLegalType = 0;		unsigned LastLegalType = 0;
unsigned LastLegalVectorType = 0;		unsigned LastLegalVectorType = 0;
bool NonZero = false;		bool NonZero = false;
for (unsigned i=0; i<LastConsecutiveStore+1; ++i) {		for (unsigned i = 0; i < NumConsecutiveStores; ++i) {
StoreSDNode *St = cast<StoreSDNode>(StoreNodes[i].MemNode);		StoreSDNode *ST = cast<StoreSDNode>(StoreNodes[i].MemNode);
SDValue StoredVal = St->getValue();		SDValue StoredVal = ST->getValue();

if (ConstantSDNode *C = dyn_cast<ConstantSDNode>(StoredVal)) {		if (ConstantSDNode *C = dyn_cast<ConstantSDNode>(StoredVal)) {
NonZero \|= !C->isNullValue();		NonZero \|= !C->isNullValue();
} else if (ConstantFPSDNode *C = dyn_cast<ConstantFPSDNode>(StoredVal)) {		} else if (ConstantFPSDNode *C =
		dyn_cast<ConstantFPSDNode>(StoredVal)) {
NonZero \|= !C->getConstantFPValue()->isNullValue();		NonZero \|= !C->getConstantFPValue()->isNullValue();
} else {		} else {
// Non-constant.		// Non-constant.
break;		break;
}		}

// Find a legal type for the constant store.		// Find a legal type for the constant store.
unsigned SizeInBits = (i+1) * ElementSizeBytes * 8;		unsigned SizeInBits = (i + 1) * ElementSizeBytes * 8;
EVT StoreTy = EVT::getIntegerVT(Context, SizeInBits);		EVT StoreTy = EVT::getIntegerVT(Context, SizeInBits);
bool IsFast;		bool IsFast = false;
if (TLI.isTypeLegal(StoreTy) &&		if (TLI.isTypeLegal(StoreTy) &&
TLI.allowsMemoryAccess(Context, DL, StoreTy, FirstStoreAS,		TLI.allowsMemoryAccess(Context, DL, StoreTy, FirstStoreAS,
FirstStoreAlign, &IsFast) && IsFast) {		FirstStoreAlign, &IsFast) &&
		IsFast) {
LastLegalType = i+1;		LastLegalType = i + 1;
// Or check whether a truncstore is legal.		// Or check whether a truncstore is legal.
} else if (TLI.getTypeAction(Context, StoreTy) ==		} else if (TLI.getTypeAction(Context, StoreTy) ==
TargetLowering::TypePromoteInteger) {		TargetLowering::TypePromoteInteger) {
EVT LegalizedStoredValueTy =		EVT LegalizedStoredValueTy =
TLI.getTypeToTransformTo(Context, StoredVal.getValueType());		TLI.getTypeToTransformTo(Context, StoredVal.getValueType());
if (TLI.isTruncStoreLegal(LegalizedStoredValueTy, StoreTy) &&		if (TLI.isTruncStoreLegal(LegalizedStoredValueTy, StoreTy) &&
TLI.allowsMemoryAccess(Context, DL, LegalizedStoredValueTy,		TLI.allowsMemoryAccess(Context, DL, LegalizedStoredValueTy,
FirstStoreAS, FirstStoreAlign, &IsFast) &&		FirstStoreAS, FirstStoreAlign, &IsFast) &&
IsFast) {		IsFast) {
LastLegalType = i + 1;		LastLegalType = i + 1;
}		}
}		}

// We only use vectors if the constant is known to be zero or the target		// We only use vectors if the constant is known to be zero or the target
// allows it and the function is not marked with the noimplicitfloat		// allows it and the function is not marked with the noimplicitfloat
// attribute.		// attribute.
if ((!NonZero \|\| TLI.storeOfVectorConstantIsCheap(MemVT, i+1,		if ((!NonZero \|\|
FirstStoreAS)) &&		TLI.storeOfVectorConstantIsCheap(MemVT, i + 1, FirstStoreAS)) &&
!NoVectors) {		!NoVectors) {
// Find a legal type for the vector store.		// Find a legal type for the vector store.
EVT Ty = EVT::getVectorVT(Context, MemVT, i+1);		EVT Ty = EVT::getVectorVT(Context, MemVT, i + 1);
if (TLI.isTypeLegal(Ty) &&		if (TLI.isTypeLegal(Ty) && TLI.canMergeStoresTo(Ty) &&
TLI.allowsMemoryAccess(Context, DL, Ty, FirstStoreAS,		TLI.allowsMemoryAccess(Context, DL, Ty, FirstStoreAS,
FirstStoreAlign, &IsFast) && IsFast)		FirstStoreAlign, &IsFast) &&
		IsFast)
LastLegalVectorType = i + 1;		LastLegalVectorType = i + 1;
}		}
}		}

// Check if we found a legal integer type to store.		// Check if we found a legal integer type that creates a meaningful merge.
if (LastLegalType == 0 && LastLegalVectorType == 0)		if (LastLegalType < 2 && LastLegalVectorType < 2)
return false;		break;

bool UseVector = (LastLegalVectorType > LastLegalType) && !NoVectors;		bool UseVector = (LastLegalVectorType > LastLegalType) && !NoVectors;
unsigned NumElem = UseVector ? LastLegalVectorType : LastLegalType;		unsigned NumElem = (UseVector) ? LastLegalVectorType : LastLegalType;

return MergeStoresOfConstantsOrVecElts(StoreNodes, MemVT, NumElem,		bool Merged = MergeStoresOfConstantsOrVecElts(StoreNodes, MemVT, NumElem,
true, UseVector);		true, UseVector);
		if (!Merged)
		break;
		// Remove merged stores for next iteration.
		StoreNodes.erase(StoreNodes.begin(), StoreNodes.begin() + NumElem);
		RV = true;
		NumConsecutiveStores -= NumElem;
		}
		return RV;
}		}

// When extracting multiple vector elements, try to store them		// When extracting multiple vector elements, try to store them
// in one vector store rather than a sequence of scalar stores.		// in one vector store rather than a sequence of scalar stores.
if (IsExtractVecSrc) {		if (IsExtractVecSrc) {
		LSBaseSDNode *FirstInChain = StoreNodes[0].MemNode;
		unsigned FirstStoreAS = FirstInChain->getAddressSpace();
		unsigned FirstStoreAlign = FirstInChain->getAlignment();
unsigned NumStoresToMerge = 0;		unsigned NumStoresToMerge = 0;
bool IsVec = MemVT.isVector();		bool IsVec = MemVT.isVector();
for (unsigned i = 0; i < LastConsecutiveStore + 1; ++i) {		for (unsigned i = 0; i < NumConsecutiveStores; ++i) {
StoreSDNode *St = cast<StoreSDNode>(StoreNodes[i].MemNode);		StoreSDNode *St = cast<StoreSDNode>(StoreNodes[i].MemNode);
unsigned StoreValOpcode = St->getValue().getOpcode();		unsigned StoreValOpcode = St->getValue().getOpcode();
// This restriction could be loosened.		// This restriction could be loosened.
// Bail out if any stored values are not elements extracted from a vector.		// Bail out if any stored values are not elements extracted from a vector.
// It should be possible to handle mixed sources, but load sources need		// It should be possible to handle mixed sources, but load sources need
// more careful handling (see the block of code below that handles		// more careful handling (see the block of code below that handles
// consecutive loads).		// consecutive loads).
if (StoreValOpcode != ISD::EXTRACT_VECTOR_ELT &&		if (StoreValOpcode != ISD::EXTRACT_VECTOR_ELT &&
Show All 23 Lines	bool DAGCombiner::MergeConsecutiveStores(StoreSDNode *St) {
// wide load and a single wide store.		// wide load and a single wide store.

// Look for load nodes which are used by the stored values.		// Look for load nodes which are used by the stored values.
SmallVector<MemOpLink, 8> LoadNodes;		SmallVector<MemOpLink, 8> LoadNodes;

// Find acceptable loads. Loads need to have the same chain (token factor),		// Find acceptable loads. Loads need to have the same chain (token factor),
// must not be zext, volatile, indexed, and they must be consecutive.		// must not be zext, volatile, indexed, and they must be consecutive.
BaseIndexOffset LdBasePtr;		BaseIndexOffset LdBasePtr;
for (unsigned i=0; i<LastConsecutiveStore+1; ++i) {		for (unsigned i = 0; i < NumConsecutiveStores; ++i) {
StoreSDNode *St = cast<StoreSDNode>(StoreNodes[i].MemNode);		StoreSDNode *St = cast<StoreSDNode>(StoreNodes[i].MemNode);
LoadSDNode *Ld = dyn_cast<LoadSDNode>(St->getValue());		LoadSDNode *Ld = dyn_cast<LoadSDNode>(St->getValue());
if (!Ld) break;		if (!Ld) break;

// Loads must only have one use.		// Loads must only have one use.
if (!Ld->hasNUsesOfValue(1, 0))		if (!Ld->hasNUsesOfValue(1, 0))
break;		break;

Show All 16 Lines	if (LdBasePtr.Base.getNode()) {
if (!LdPtr.equalBaseIndex(LdBasePtr))		if (!LdPtr.equalBaseIndex(LdBasePtr))
break;		break;
} else {		} else {
// Check that all other base pointers are the same as this one.		// Check that all other base pointers are the same as this one.
LdBasePtr = LdPtr;		LdBasePtr = LdPtr;
}		}

// We found a potential memory operand to merge.		// We found a potential memory operand to merge.
LoadNodes.push_back(MemOpLink(Ld, LdPtr.Offset, 0));		LoadNodes.push_back(MemOpLink(Ld, LdPtr.Offset));
}		}

if (LoadNodes.size() < 2)		if (LoadNodes.size() < 2)
return false;		return false;

// If we have load/store pair instructions and we only have two values,		// If we have load/store pair instructions and we only have two values,
// don't bother.		// don't bother.
unsigned RequiredAlignment;		unsigned RequiredAlignment;
if (LoadNodes.size() == 2 && TLI.hasPairedLoad(MemVT, RequiredAlignment) &&		if (LoadNodes.size() == 2 && TLI.hasPairedLoad(MemVT, RequiredAlignment) &&
St->getAlignment() >= RequiredAlignment)		St->getAlignment() >= RequiredAlignment)
return false;		return false;
		LSBaseSDNode *FirstInChain = StoreNodes[0].MemNode;
		unsigned FirstStoreAS = FirstInChain->getAddressSpace();
		unsigned FirstStoreAlign = FirstInChain->getAlignment();
LoadSDNode *FirstLoad = cast<LoadSDNode>(LoadNodes[0].MemNode);		LoadSDNode *FirstLoad = cast<LoadSDNode>(LoadNodes[0].MemNode);
unsigned FirstLoadAS = FirstLoad->getAddressSpace();		unsigned FirstLoadAS = FirstLoad->getAddressSpace();
unsigned FirstLoadAlign = FirstLoad->getAlignment();		unsigned FirstLoadAlign = FirstLoad->getAlignment();

// Scan the memory operations on the chain and find the first non-consecutive		// Scan the memory operations on the chain and find the first non-consecutive
// load memory address. These variables hold the index in the store node		// load memory address. These variables hold the index in the store node
// array.		// array.
unsigned LastConsecutiveLoad = 0;		unsigned LastConsecutiveLoad = 0;
▲ Show 20 Lines • Show All 52 Lines • ▼ Show 20 Lines	bool DAGCombiner::MergeConsecutiveStores(StoreSDNode *St) {

// Only use vector types if the vector type is larger than the integer type.		// Only use vector types if the vector type is larger than the integer type.
// If they are the same, use integers.		// If they are the same, use integers.
bool UseVectorTy = LastLegalVectorType > LastLegalIntegerType && !NoVectors;		bool UseVectorTy = LastLegalVectorType > LastLegalIntegerType && !NoVectors;
unsigned LastLegalType = std::max(LastLegalVectorType, LastLegalIntegerType);		unsigned LastLegalType = std::max(LastLegalVectorType, LastLegalIntegerType);

// We add +1 here because the LastXXX variables refer to location while		// We add +1 here because the LastXXX variables refer to location while
// the NumElem refers to array/index size.		// the NumElem refers to array/index size.
unsigned NumElem = std::min(LastConsecutiveStore, LastConsecutiveLoad) + 1;		unsigned NumElem = std::min(NumConsecutiveStores, LastConsecutiveLoad + 1);
NumElem = std::min(LastLegalType, NumElem);		NumElem = std::min(LastLegalType, NumElem);

if (NumElem < 2)		if (NumElem < 2)
return false;		return false;

// Collect the chains from all merged stores.		// Collect the chains from all merged stores. Because the common case
		// all chains are the same, check if we match the first Chain.
SmallVector<SDValue, 8> MergeStoreChains;		SmallVector<SDValue, 8> MergeStoreChains;
MergeStoreChains.push_back(StoreNodes[0].MemNode->getChain());		MergeStoreChains.push_back(StoreNodes[0].MemNode->getChain());
		for (unsigned i = 1; i < NumElem; ++i)
// The latest Node in the DAG.		if (StoreNodes[0].MemNode->getChain() != StoreNodes[i].MemNode->getChain())
unsigned LatestNodeUsed = 0;
for (unsigned i=1; i<NumElem; ++i) {
// Find a chain for the new wide-store operand. Notice that some
// of the store nodes that we found may not be selected for inclusion
// in the wide store. The chain we use needs to be the chain of the
// latest store node which is used and replaced by the wide store.
if (StoreNodes[i].SequenceNum < StoreNodes[LatestNodeUsed].SequenceNum)
LatestNodeUsed = i;

MergeStoreChains.push_back(StoreNodes[i].MemNode->getChain());		MergeStoreChains.push_back(StoreNodes[i].MemNode->getChain());
}

LSBaseSDNode *LatestOp = StoreNodes[LatestNodeUsed].MemNode;

// Find if it is better to use vectors or integers to load and store		// Find if it is better to use vectors or integers to load and store
// to memory.		// to memory.
EVT JointMemOpVT;		EVT JointMemOpVT;
if (UseVectorTy) {		if (UseVectorTy) {
JointMemOpVT = EVT::getVectorVT(Context, MemVT, NumElem);		JointMemOpVT = EVT::getVectorVT(Context, MemVT, NumElem);
} else {		} else {
unsigned SizeInBits = NumElem * ElementSizeBytes * 8;		unsigned SizeInBits = NumElem * ElementSizeBytes * 8;
JointMemOpVT = EVT::getIntegerVT(Context, SizeInBits);		JointMemOpVT = EVT::getIntegerVT(Context, SizeInBits);
}		}

SDLoc LoadDL(LoadNodes[0].MemNode);		SDLoc LoadDL(LoadNodes[0].MemNode);
SDLoc StoreDL(StoreNodes[0].MemNode);		SDLoc StoreDL(StoreNodes[0].MemNode);

// The merged loads are required to have the same incoming chain, so		// The merged loads are required to have the same incoming chain, so
// using the first's chain is acceptable.		// using the first's chain is acceptable.
SDValue NewLoad = DAG.getLoad(JointMemOpVT, LoadDL, FirstLoad->getChain(),		SDValue NewLoad = DAG.getLoad(JointMemOpVT, LoadDL, FirstLoad->getChain(),
FirstLoad->getBasePtr(),		FirstLoad->getBasePtr(),
FirstLoad->getPointerInfo(), FirstLoadAlign);		FirstLoad->getPointerInfo(), FirstLoadAlign);

SDValue NewStoreChain =		SDValue NewStoreChain =
DAG.getNode(ISD::TokenFactor, StoreDL, MVT::Other, MergeStoreChains);		DAG.getNode(ISD::TokenFactor, StoreDL, MVT::Other, MergeStoreChains);

		AddToWorklist(NewStoreChain.getNode());

SDValue NewStore =		SDValue NewStore =
DAG.getStore(NewStoreChain, StoreDL, NewLoad, FirstInChain->getBasePtr(),		DAG.getStore(NewStoreChain, StoreDL, NewLoad, FirstInChain->getBasePtr(),
FirstInChain->getPointerInfo(), FirstStoreAlign);		FirstInChain->getPointerInfo(), FirstStoreAlign);

// Transfer chain users from old loads to the new load.		// Transfer chain users from old loads to the new load.
for (unsigned i = 0; i < NumElem; ++i) {		for (unsigned i = 0; i < NumElem; ++i) {
LoadSDNode *Ld = cast<LoadSDNode>(LoadNodes[i].MemNode);		LoadSDNode *Ld = cast<LoadSDNode>(LoadNodes[i].MemNode);
DAG.ReplaceAllUsesOfValueWith(SDValue(Ld, 1),		DAG.ReplaceAllUsesOfValueWith(SDValue(Ld, 1),
SDValue(NewLoad.getNode(), 1));		SDValue(NewLoad.getNode(), 1));
}		}

if (UseAA) {
// Replace the all stores with the new store.		// Replace the all stores with the new store.
		jyknightUnsubmitted Not Done Reply Inline Actions The other half of the bugfix I mentioned above. jyknight: The other half of the bugfix I mentioned above.
for (unsigned i = 0; i < NumElem; ++i)		for (unsigned i = 0; i < NumElem; ++i)
CombineTo(StoreNodes[i].MemNode, NewStore);		CombineTo(StoreNodes[i].MemNode, NewStore);
} else {
// Replace the last store with the new store.
CombineTo(LatestOp, NewStore);
// Erase all other stores.
for (unsigned i = 0; i < NumElem; ++i) {
// Remove all Store nodes.
if (StoreNodes[i].MemNode == LatestOp)
continue;
StoreSDNode *St = cast<StoreSDNode>(StoreNodes[i].MemNode);
DAG.ReplaceAllUsesOfValueWith(SDValue(St, 0), St->getChain());
deleteAndRecombine(St);
}
}

StoreNodes.erase(StoreNodes.begin() + NumElem, StoreNodes.end());
return true;		return true;
}		}

SDValue DAGCombiner::replaceStoreChain(StoreSDNode *ST, SDValue BetterChain) {		SDValue DAGCombiner::replaceStoreChain(StoreSDNode *ST, SDValue BetterChain) {
SDLoc SL(ST);		SDLoc SL(ST);
SDValue ReplStore;		SDValue ReplStore;

// Replace the chain to avoid dependency.		// Replace the chain to avoid dependency.
▲ Show 20 Lines • Show All 140 Lines • ▼ Show 20 Lines	if (OptLevel != CodeGenOpt::None && ST->isUnindexed()) {
}		}
}		}

// Try transforming a pair floating point load / store ops to integer		// Try transforming a pair floating point load / store ops to integer
// load / store ops.		// load / store ops.
if (SDValue NewST = TransformFPLoadStorePair(N))		if (SDValue NewST = TransformFPLoadStorePair(N))
return NewST;		return NewST;

bool UseAA = CombinerAA.getNumOccurrences() > 0 ? CombinerAA		if (ST->isUnindexed()) {
: DAG.getSubtarget().useAA();
#ifndef NDEBUG
if (CombinerAAOnlyFunc.getNumOccurrences() &&
CombinerAAOnlyFunc != DAG.getMachineFunction().getName())
UseAA = false;
#endif
if (UseAA && ST->isUnindexed()) {
// FIXME: We should do this even without AA enabled. AA will just allow
// FindBetterChain to work in more situations. The problem with this is that
// any combine that expects memory operations to be on consecutive chains
// first needs to be updated to look for users of the same chain.

// Walk up chain skipping non-aliasing memory nodes, on this store and any		// Walk up chain skipping non-aliasing memory nodes, on this store and any
// adjacent stores.		// adjacent stores.
if (findBetterNeighborChains(ST)) {		if (findBetterNeighborChains(ST)) {
// replaceStoreChain uses CombineTo, which handled all of the worklist		// replaceStoreChain uses CombineTo, which handled all of the worklist
// manipulation. Return the original node to not do anything else.		// manipulation. Return the original node to not do anything else.
return SDValue(ST, 0);		return SDValue(ST, 0);
}		}
Chain = ST->getChain();		Chain = ST->getChain();
Show All 14 Lines	SDValue Shorter = GetDemandedBits(
ST->getMemoryVT().getScalarSizeInBits()));		ST->getMemoryVT().getScalarSizeInBits()));
AddToWorklist(Value.getNode());		AddToWorklist(Value.getNode());
if (Shorter.getNode())		if (Shorter.getNode())
return DAG.getTruncStore(Chain, SDLoc(N), Shorter,		return DAG.getTruncStore(Chain, SDLoc(N), Shorter,
Ptr, ST->getMemoryVT(), ST->getMemOperand());		Ptr, ST->getMemoryVT(), ST->getMemOperand());

// Otherwise, see if we can simplify the operation with		// Otherwise, see if we can simplify the operation with
// SimplifyDemandedBits, which only works if the value has a single use.		// SimplifyDemandedBits, which only works if the value has a single use.
if (SimplifyDemandedBits(		if (SimplifyDemandedBits(
Value,		Value,
APInt::getLowBitsSet(Value.getScalarValueSizeInBits(),		APInt::getLowBitsSet(Value.getScalarValueSizeInBits(),
ST->getMemoryVT().getScalarSizeInBits())))		ST->getMemoryVT().getScalarSizeInBits()))) {
		// Re-visit the store if anything changed; SimplifyDemandedBits
		// will add Value's node back to the worklist if necessary, but
		// we also need to re-visit the Store node itself.
		AddToWorklist(N);
		jyknightUnsubmitted Not Done Reply Inline Actions This can also be pulled out as a simple fix. jyknight: This can also be pulled out as a simple fix.
return SDValue(N, 0);		return SDValue(N, 0);
}		}
		}

// If this is a load followed by a store to the same location, then the store		// If this is a load followed by a store to the same location, then the store
// is dead/noop.		// is dead/noop.
if (LoadSDNode *Ld = dyn_cast<LoadSDNode>(Value)) {		if (LoadSDNode *Ld = dyn_cast<LoadSDNode>(Value)) {
if (Ld->getBasePtr() == Ptr && ST->getMemoryVT() == Ld->getMemoryVT() &&		if (Ld->getBasePtr() == Ptr && ST->getMemoryVT() == Ld->getMemoryVT() &&
ST->isUnindexed() && !ST->isVolatile() &&		ST->isUnindexed() && !ST->isVolatile() &&
// There can't be any side effects between the load and store, such as		// There can't be any side effects between the load and store, such as
// a call or store.		// a call or store.
Show All 23 Lines	if ((Value.getOpcode() == ISD::FP_ROUND \|\| Value.getOpcode() == ISD::TRUNCATE)
return DAG.getTruncStore(Chain, SDLoc(N), Value.getOperand(0),		return DAG.getTruncStore(Chain, SDLoc(N), Value.getOperand(0),
Ptr, ST->getMemoryVT(), ST->getMemOperand());		Ptr, ST->getMemoryVT(), ST->getMemOperand());
}		}

// Only perform this optimization before the types are legal, because we		// Only perform this optimization before the types are legal, because we
// don't want to perform this optimization on every DAGCombine invocation.		// don't want to perform this optimization on every DAGCombine invocation.
if (!LegalTypes) {		if (!LegalTypes) {
for (;;) {		for (;;) {
// There can be multiple store sequences on the same chain.		// There can be multiple store sequences on the same chain.
		hfinkelUnsubmitted Done Reply Inline Actions This comment is now out of date. hfinkel: This comment is now out of date.
		jyknightUnsubmitted Done Reply Inline Actions And, actually, so is the code. Removed the loop and the comment. jyknight: And, actually, so is the code. Removed the loop and the comment.
		jyknightUnsubmitted Done Reply Inline Actions Oops, I didn't mean to send that reply yet, as the loop sadly DOES still accomplish /something/, but I think it's probably doing so in a way that won't actually complete all the work that could be done in all cases. jyknight: Oops, I didn't mean to send that reply yet, as the loop sadly DOES still accomplish /something/…
// Keep trying to merge store sequences until we are unable to do so		// Keep trying to merge store sequences until we are unable to do so
// or until we merge the last store on the chain.		// or until we merge the last store on the chain.
SmallVector<MemOpLink, 8> StoreNodes;		bool Changed = MergeConsecutiveStores(ST);
bool Changed = MergeConsecutiveStores(ST, StoreNodes);
if (!Changed) break;		if (!Changed) break;
		// Return N as merge only uses CombineTo and no worklist clean
if (any_of(StoreNodes,		// up is necessary.
[ST](const MemOpLink &Link) { return Link.MemNode == ST; })) {		if (N->getOpcode() == ISD::DELETED_NODE \|\| !isa<StoreSDNode>(N))
// ST has been merged and no longer exists.
return SDValue(N, 0);		return SDValue(N, 0);
}		}
}		}
}

// Turn 'store float 1.0, Ptr' -> 'store int 0x12345678, Ptr'		// Turn 'store float 1.0, Ptr' -> 'store int 0x12345678, Ptr'
//		//
// Make sure to do this only after attempting to merge stores in order to		// Make sure to do this only after attempting to merge stores in order to
// avoid changing the types of some subset of stores due to visit order,		// avoid changing the types of some subset of stores due to visit order,
// preventing their merging.		// preventing their merging.
if (isa<ConstantFPSDNode>(Value)) {		if (isa<ConstantFPSDNode>(ST->getValue())) {
if (SDValue NewSt = replaceStoreOfFPConstant(ST))		if (SDValue NewSt = replaceStoreOfFPConstant(ST))
return NewSt;		return NewSt;
}		}

if (SDValue NewSt = splitMergedValStore(ST))		if (SDValue NewSt = splitMergedValStore(ST))
return NewSt;		return NewSt;

return ReduceLoadOpStoreWidth(N);		return ReduceLoadOpStoreWidth(N);
▲ Show 20 Lines • Show All 920 Lines • ▼ Show 20 Lines

SDValue DAGCombiner::visitBUILD_VECTOR(SDNode *N) {		SDValue DAGCombiner::visitBUILD_VECTOR(SDNode *N) {
EVT VT = N->getValueType(0);		EVT VT = N->getValueType(0);

// A vector built entirely of undefs is undef.		// A vector built entirely of undefs is undef.
if (ISD::allOperandsUndef(N))		if (ISD::allOperandsUndef(N))
return DAG.getUNDEF(VT);		return DAG.getUNDEF(VT);

		// Check if we can express BUILD VECTOR via subvector extract.
		if (!LegalTypes && (N->getNumOperands() > 1)) {
		SDValue Op0 = N->getOperand(0);
		auto checkElem = [&](SDValue Op) -> uint64_t {
		if ((Op.getOpcode() == ISD::EXTRACT_VECTOR_ELT) &&
		(Op0.getOperand(0) == Op.getOperand(0)))
		if (auto CNode = dyn_cast<ConstantSDNode>(Op.getOperand(1)))
		return CNode->getZExtValue();
		return -1;
		};

		int Offset = checkElem(Op0);
		for (unsigned i = 0; i < N->getNumOperands(); ++i) {
		if (Offset + i != checkElem(N->getOperand(i))) {
		Offset = -1;
		break;
		}
		}

		if ((Offset == 0) &&
		(Op0.getOperand(0).getValueType() == N->getValueType(0)))
		return Op0.getOperand(0);
		if ((Offset != -1) &&
		((Offset % N->getValueType(0).getVectorNumElements()) ==
		0)) // IDX must be multiple of output size.
		return DAG.getNode(ISD::EXTRACT_SUBVECTOR, SDLoc(N), N->getValueType(0),
		Op0.getOperand(0), Op0.getOperand(1));
		}

if (SDValue V = reduceBuildVecExtToExtBuildVec(N))		if (SDValue V = reduceBuildVecExtToExtBuildVec(N))
return V;		return V;

if (SDValue V = reduceBuildVecConvertToConvertBuildVec(N))		if (SDValue V = reduceBuildVecConvertToConvertBuildVec(N))
return V;		return V;

if (SDValue V = reduceBuildVecToShuffle(N))		if (SDValue V = reduceBuildVecToShuffle(N))
return V;		return V;
▲ Show 20 Lines • Show All 2,080 Lines • ▼ Show 20 Lines	static bool FindBaseOffset(SDValue Ptr, SDValue &Base, int64_t &Offset,
const GlobalValue &GV, const void &CV) {		const GlobalValue &GV, const void &CV) {
// Assume it is a primitive operation.		// Assume it is a primitive operation.
Base = Ptr; Offset = 0; GV = nullptr; CV = nullptr;		Base = Ptr; Offset = 0; GV = nullptr; CV = nullptr;

// If it's an adding a simple constant then integrate the offset.		// If it's an adding a simple constant then integrate the offset.
if (Base.getOpcode() == ISD::ADD) {		if (Base.getOpcode() == ISD::ADD) {
if (ConstantSDNode *C = dyn_cast<ConstantSDNode>(Base.getOperand(1))) {		if (ConstantSDNode *C = dyn_cast<ConstantSDNode>(Base.getOperand(1))) {
Base = Base.getOperand(0);		Base = Base.getOperand(0);
Offset += C->getZExtValue();		Offset += C->getSExtValue();
}		}
}		}

// Return the underlying GlobalValue, and update the Offset. Return false		// Return the underlying GlobalValue, and update the Offset. Return false
// for GlobalAddressSDNode since the same GlobalAddress may be represented		// for GlobalAddressSDNode since the same GlobalAddress may be represented
// by multiple nodes with different offsets.		// by multiple nodes with different offsets.
if (GlobalAddressSDNode *G = dyn_cast<GlobalAddressSDNode>(Base)) {		if (GlobalAddressSDNode *G = dyn_cast<GlobalAddressSDNode>(Base)) {
GV = G->getGlobal();		GV = G->getGlobal();
▲ Show 20 Lines • Show All 180 Lines • ▼ Show 20 Lines	case ISD::TokenFactor:
Aliases.push_back(Chain);		Aliases.push_back(Chain);
break;		break;
}		}
for (unsigned n = Chain.getNumOperands(); n;)		for (unsigned n = Chain.getNumOperands(); n;)
Chains.push_back(Chain.getOperand(--n));		Chains.push_back(Chain.getOperand(--n));
++Depth;		++Depth;
break;		break;

		case ISD::CopyFromReg:
		// Forward past CopyFromReg.
		Chains.push_back(Chain.getOperand(0));
		++Depth;
		break;

default:		default:
// For all other instructions we will just have to take what we can get.		// For all other instructions we will just have to take what we can get.
Aliases.push_back(Chain);		Aliases.push_back(Chain);
break;		break;
}		}
}		}
}		}

Show All 12 Lines	SDValue DAGCombiner::FindBetterChain(SDNode *N, SDValue OldChain) {
// If a single operand then chain to it. We don't need to revisit it.		// If a single operand then chain to it. We don't need to revisit it.
if (Aliases.size() == 1)		if (Aliases.size() == 1)
return Aliases[0];		return Aliases[0];

// Construct a custom tailored token factor.		// Construct a custom tailored token factor.
return DAG.getNode(ISD::TokenFactor, SDLoc(N), MVT::Other, Aliases);		return DAG.getNode(ISD::TokenFactor, SDLoc(N), MVT::Other, Aliases);
}		}

		// This function tries to collect a bunch of potentially interesting
		// nodes to improve the chains of, all at once. This might seem
		// redundant, as this function gets called when visiting every store
		// node, so why not let the work be done on each store as it's visited?
		//
		// I believe this is mainly important because MergeConsecutiveStores
		// is unable to deal with merging stores of different sizes, so unless
		// we improve the chains of all the potential candidates up-front
		// before running MergeConsecutiveStores, it might only see some of
		// the nodes that will eventually be candidates, and then not be able
		// to go from a partially-merged state to the desired final
		// fully-merged state.
bool DAGCombiner::findBetterNeighborChains(StoreSDNode *St) {		bool DAGCombiner::findBetterNeighborChains(StoreSDNode *St) {
// This holds the base pointer, index, and the offset in bytes from the base		// This holds the base pointer, index, and the offset in bytes from the base
// pointer.		// pointer.
BaseIndexOffset BasePtr = BaseIndexOffset::match(St->getBasePtr(), DAG);		BaseIndexOffset BasePtr = BaseIndexOffset::match(St->getBasePtr(), DAG);

// We must have a base and an offset.		// We must have a base and an offset.
if (!BasePtr.Base.getNode())		if (!BasePtr.Base.getNode())
return false;		return false;
Show All 19 Lines	while (Index) {

// Find the base pointer and offset for this memory node.		// Find the base pointer and offset for this memory node.
BaseIndexOffset Ptr = BaseIndexOffset::match(Index->getBasePtr(), DAG);		BaseIndexOffset Ptr = BaseIndexOffset::match(Index->getBasePtr(), DAG);

// Check that the base pointer is the same as the original one.		// Check that the base pointer is the same as the original one.
if (!Ptr.equalBaseIndex(BasePtr))		if (!Ptr.equalBaseIndex(BasePtr))
break;		break;

// Find the next memory operand in the chain. If the next operand in the		// Walk up the chain to find the next store node, ignoring any
// chain is a store then move up and continue the scan with the next		// intermediate loads. Any other kind of node will halt the loop.
// memory operand. If the next operand is a load save it and use alias
// information to check if it interferes with anything.
SDNode *NextInChain = Index->getChain().getNode();		SDNode *NextInChain = Index->getChain().getNode();
while (true) {		while (true) {
if (StoreSDNode *STn = dyn_cast<StoreSDNode>(NextInChain)) {		if (StoreSDNode *STn = dyn_cast<StoreSDNode>(NextInChain)) {
// We found a store node. Use it for the next iteration.		// We found a store node. Use it for the next iteration.
if (STn->isVolatile() \|\| STn->isIndexed()) {		if (STn->isVolatile() \|\| STn->isIndexed()) {
Index = nullptr;		Index = nullptr;
break;		break;
}		}
ChainedStores.push_back(STn);		ChainedStores.push_back(STn);
Index = STn;		Index = STn;
break;		break;
} else if (LoadSDNode *Ldn = dyn_cast<LoadSDNode>(NextInChain)) {		} else if (LoadSDNode *Ldn = dyn_cast<LoadSDNode>(NextInChain)) {
NextInChain = Ldn->getChain().getNode();		NextInChain = Ldn->getChain().getNode();
continue;		continue;
} else {		} else {
Index = nullptr;		Index = nullptr;
break;		break;
}		}
}		} // end while
}		}

		// At this point, ChainedStores lists all of the Store nodes
		// reachable by iterating up through chain nodes matching the above
		// conditions. For each such store identified, try to find an
		// earlier chain to attach the store to which won't violate the
		// required ordering.
bool MadeChangeToSt = false;		bool MadeChangeToSt = false;
SmallVector<std::pair<StoreSDNode *, SDValue>, 8> BetterChains;		SmallVector<std::pair<StoreSDNode *, SDValue>, 8> BetterChains;

for (StoreSDNode *ChainedStore : ChainedStores) {		for (StoreSDNode *ChainedStore : ChainedStores) {
SDValue Chain = ChainedStore->getChain();		SDValue Chain = ChainedStore->getChain();
SDValue BetterChain = FindBetterChain(ChainedStore, Chain);		SDValue BetterChain = FindBetterChain(ChainedStore, Chain);

if (Chain != BetterChain) {		if (Chain != BetterChain) {
Show All 20 Lines

lib/CodeGen/TargetLoweringBase.cpp

Show First 20 Lines • Show All 844 Lines • ▼ Show 20 Lines	TargetLoweringBase::TargetLoweringBase(const TargetMachine &tm) : TM(tm) {
BooleanFloatContents = UndefinedBooleanContent;		BooleanFloatContents = UndefinedBooleanContent;
BooleanVectorContents = UndefinedBooleanContent;		BooleanVectorContents = UndefinedBooleanContent;
SchedPreferenceInfo = Sched::ILP;		SchedPreferenceInfo = Sched::ILP;
JumpBufSize = 0;		JumpBufSize = 0;
JumpBufAlignment = 0;		JumpBufAlignment = 0;
MinFunctionAlignment = 0;		MinFunctionAlignment = 0;
PrefFunctionAlignment = 0;		PrefFunctionAlignment = 0;
PrefLoopAlignment = 0;		PrefLoopAlignment = 0;
GatherAllAliasesMaxDepth = 6;		GatherAllAliasesMaxDepth = 18;
		arsenmUnsubmitted Done Reply Inline Actions I increased this to 16 for AMDGPU. The custom setting for it there can be removed now arsenm: I increased this to 16 for AMDGPU. The custom setting for it there can be removed now
		jyknightUnsubmitted Done Reply Inline Actions Done. jyknight: Done.
		jyknightUnsubmitted Done Reply Inline Actions The removal of that line (in AMDGPUISelLoweing.cpp) doesn't actually seem to be done, despite that I said done before (oops). jyknight: The removal of that line (in AMDGPUISelLoweing.cpp) doesn't actually seem to be done, despite…
		jyknightUnsubmitted Done Reply Inline Actions I don't see it still... jyknight: I don't see it still...
MinStackArgumentAlignment = 1;		MinStackArgumentAlignment = 1;
// TODO: the default will be switched to 0 in the next commit, along		// TODO: the default will be switched to 0 in the next commit, along
// with the Target-specific changes necessary.		// with the Target-specific changes necessary.
MaxAtomicSizeInBitsSupported = 1024;		MaxAtomicSizeInBitsSupported = 1024;

MinCmpXchgSizeInBits = 0;		MinCmpXchgSizeInBits = 0;

std::fill(std::begin(LibcallRoutineNames), std::end(LibcallRoutineNames), nullptr);		std::fill(std::begin(LibcallRoutineNames), std::end(LibcallRoutineNames), nullptr);
▲ Show 20 Lines • Show All 1,233 Lines • Show Last 20 Lines

lib/Target/AArch64/AArch64ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 9,248 Lines • ▼ Show 20 Lines	static SDValue performSTORECombine(SDNode *N,

if (Subtarget->supportsAddressTopByteIgnored() &&		if (Subtarget->supportsAddressTopByteIgnored() &&
performTBISimplification(N->getOperand(2), DCI, DAG))		performTBISimplification(N->getOperand(2), DCI, DAG))
return SDValue(N, 0);		return SDValue(N, 0);

return SDValue();		return SDValue();
}		}

/// This function handles the log2-shuffle pattern produced by the		/// This function handles the log2-shuffle pattern produced by the
/// LoopVectorizer for the across vector reduction. It consists of		/// LoopVectorizer for the across vector reduction. It consists of
/// log2(NumVectorElements) steps and, in each step, 2^(s) elements		/// log2(NumVectorElements) steps and, in each step, 2^(s) elements
/// are reduced, where s is an induction variable from 0 to		/// are reduced, where s is an induction variable from 0 to
/// log2(NumVectorElements).		/// log2(NumVectorElements).
static SDValue tryMatchAcrossLaneShuffleForReduction(SDNode *N, SDValue OpV,		static SDValue tryMatchAcrossLaneShuffleForReduction(SDNode *N, SDValue OpV,
unsigned Op,		unsigned Op,
SelectionDAG &DAG) {		SelectionDAG &DAG) {
EVT VTy = OpV->getOperand(0).getValueType();		EVT VTy = OpV->getOperand(0).getValueType();
▲ Show 20 Lines • Show All 1,466 Lines • Show Last 20 Lines

lib/Target/ARM/ARMISelLowering.h

Show First 20 Lines • Show All 494 Lines • ▼ Show 20 Lines	public:
shouldExpandAtomicRMWInIR(AtomicRMWInst *AI) const override;		shouldExpandAtomicRMWInIR(AtomicRMWInst *AI) const override;
bool shouldExpandAtomicCmpXchgInIR(AtomicCmpXchgInst *AI) const override;		bool shouldExpandAtomicCmpXchgInIR(AtomicCmpXchgInst *AI) const override;

bool useLoadStackGuardNode() const override;		bool useLoadStackGuardNode() const override;

bool canCombineStoreAndExtract(Type VectorTy, Value Idx,		bool canCombineStoreAndExtract(Type VectorTy, Value Idx,
unsigned &Cost) const override;		unsigned &Cost) const override;

		bool canMergeStoresTo(EVT MemVT) const override {
		// Do not merge to larger than i32.
		return (MemVT.getSizeInBits() <= 32);
		}

bool isCheapToSpeculateCttz() const override;		bool isCheapToSpeculateCttz() const override;
bool isCheapToSpeculateCtlz() const override;		bool isCheapToSpeculateCtlz() const override;

bool supportSwiftError() const override {		bool supportSwiftError() const override {
return true;		return true;
}		}

bool hasStandaloneRem(EVT VT) const override {		bool hasStandaloneRem(EVT VT) const override {
▲ Show 20 Lines • Show All 227 Lines • Show Last 20 Lines

test/CodeGen/AArch64/argument-blocks.ll

	Show First 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
	; integer-based arguments go.			; integer-based arguments go.
	define i64 @test_hfa_ignores_gprs([7 x float], [2 x float] %in, i64, i64 %res) {			define i64 @test_hfa_ignores_gprs([7 x float], [2 x float] %in, i64, i64 %res) {
	; CHECK-LABEL: test_hfa_ignores_gprs:			; CHECK-LABEL: test_hfa_ignores_gprs:
	; CHECK: mov x0, x1			; CHECK: mov x0, x1
	ret i64 %res			ret i64 %res
	}			}

	; [2 x float] should not be promoted to double by the Darwin varargs handling,			; [2 x float] should not be promoted to double by the Darwin varargs handling,
	; but should go in an 8-byte aligned slot.			; but should go in an 8-byte aligned slot and can be merged as integer stores.
	define void @test_varargs_stackalign() {			define void @test_varargs_stackalign() {
	; CHECK-LABEL: test_varargs_stackalign:			; CHECK-LABEL: test_varargs_stackalign:
	; CHECK-DARWINPCS: stp {{w[0-9]+}}, {{w[0-9]+}}, [sp, #16]			; CHECK-DARWINPCS: str {{x[0-9]+}}, [sp, #16]

	call void(...) @callee([3 x float] undef, [2 x float] [float 1.0, float 2.0])			call void(...) @callee([3 x float] undef, [2 x float] [float 1.0, float 2.0])
	ret void			ret void
				jyknightUnsubmitted Done Reply Inline Actions Delete added comment; upon re-reading, it's the size/align that it was checking. jyknight: Delete added comment; upon re-reading, it's the size/align that it was checking.
	}			}

	define i64 @test_smallstruct_block([7 x i64], [2 x i64] %in) {			define i64 @test_smallstruct_block([7 x i64], [2 x i64] %in) {
	; CHECK-LABEL: test_smallstruct_block:			; CHECK-LABEL: test_smallstruct_block:
	; CHECK: ldp [[LHS:x[0-9]+]], [[RHS:x[0-9]+]], [sp]			; CHECK: ldp [[LHS:x[0-9]+]], [[RHS:x[0-9]+]], [sp]
	; CHECK: add x0, [[LHS]], [[RHS]]			; CHECK: add x0, [[LHS]], [[RHS]]
	%lhs = extractvalue [2 x i64] %in, 0			%lhs = extractvalue [2 x i64] %in, 0
	%rhs = extractvalue [2 x i64] %in, 1			%rhs = extractvalue [2 x i64] %in, 1
	▲ Show 20 Lines • Show All 121 Lines • Show Last 20 Lines

test/CodeGen/AArch64/arm64-abi.ll

Show First 20 Lines • Show All 199 Lines • ▼ Show 20 Lines	; CHECK: strh [[REG_3:w[0-9]+]], [sp]
ret i32 %call		ret i32 %call
}		}
declare i32 @args_i32(i32, i32, i32, i32, i32, i32, i32, i32, i16 signext, i32,		declare i32 @args_i32(i32, i32, i32, i32, i32, i32, i32, i32, i16 signext, i32,
i8 signext)		i8 signext)

define i32 @test8(i32 %argc, i8** nocapture %argv) nounwind {		define i32 @test8(i32 %argc, i8** nocapture %argv) nounwind {
entry:		entry:
; CHECK-LABEL: test8		; CHECK-LABEL: test8
; CHECK: strb {{w[0-9]+}}, [sp, #3]		; CHECK: str w8, [sp]
; CHECK: strb wzr, [sp, #2]
; CHECK: strb {{w[0-9]+}}, [sp, #1]
; CHECK: strb wzr, [sp]
; CHECK: bl		; CHECK: bl
; FAST-LABEL: test8		; FAST-LABEL: test8
; FAST: strb {{w[0-9]+}}, [sp]		; FAST: strb {{w[0-9]+}}, [sp]
; FAST: strb {{w[0-9]+}}, [sp, #1]		; FAST: strb {{w[0-9]+}}, [sp, #1]
; FAST: strb {{w[0-9]+}}, [sp, #2]		; FAST: strb {{w[0-9]+}}, [sp, #2]
; FAST: strb {{w[0-9]+}}, [sp, #3]		; FAST: strb {{w[0-9]+}}, [sp, #3]
; FAST: bl		; FAST: bl
tail call void @args_i1(i1 zeroext false, i1 zeroext true, i1 zeroext false,		tail call void @args_i1(i1 zeroext false, i1 zeroext true, i1 zeroext false,
Show All 18 Lines

test/CodeGen/AArch64/arm64-memset-inline.ll

	; RUN: llc < %s -mtriple=arm64-eabi \| FileCheck %s			; RUN: llc < %s -mtriple=arm64-eabi \| FileCheck %s

	define void @t1(i8* nocapture %c) nounwind optsize {			define void @t1(i8* nocapture %c) nounwind optsize {
	entry:			entry:
	; CHECK-LABEL: t1:			; CHECK-LABEL: t1:
	; CHECK: str wzr, [x0, #8]			; CHECK: str wzr, [x0, #8]
	; CHECK: str xzr, [x0]			; CHECK: str xzr, [x0]
	call void @llvm.memset.p0i8.i64(i8* %c, i8 0, i64 12, i32 8, i1 false)			call void @llvm.memset.p0i8.i64(i8* %c, i8 0, i64 12, i32 8, i1 false)
	ret void			ret void
	}			}

	define void @t2() nounwind ssp {			define void @t2() nounwind ssp {
	entry:			entry:
	; CHECK-LABEL: t2:			; CHECK-LABEL: t2:
	; CHECK: strh wzr, [sp, #32]			; CHECK: strh wzr, [sp, #32]
	; CHECK: stp xzr, xzr, [sp, #16]			; CHECK: stp xzr, xzr, [sp, #8]
	; CHECK: str xzr, [sp, #8]			; CHECK: str xzr, [sp, #24]
	%buf = alloca [26 x i8], align 1			%buf = alloca [26 x i8], align 1
	%0 = getelementptr inbounds [26 x i8], [26 x i8]* %buf, i32 0, i32 0			%0 = getelementptr inbounds [26 x i8], [26 x i8]* %buf, i32 0, i32 0
	call void @llvm.memset.p0i8.i32(i8* %0, i8 0, i32 26, i32 1, i1 false)			call void @llvm.memset.p0i8.i32(i8* %0, i8 0, i32 26, i32 1, i1 false)
	call void @something(i8* %0) nounwind			call void @something(i8* %0) nounwind
	ret void			ret void
	}			}

	declare void @something(i8*) nounwind			declare void @something(i8*) nounwind
	declare void @llvm.memset.p0i8.i32(i8* nocapture, i8, i32, i32, i1) nounwind			declare void @llvm.memset.p0i8.i32(i8* nocapture, i8, i32, i32, i1) nounwind
	declare void @llvm.memset.p0i8.i64(i8* nocapture, i8, i64, i32, i1) nounwind			declare void @llvm.memset.p0i8.i64(i8* nocapture, i8, i64, i32, i1) nounwind

test/CodeGen/AArch64/arm64-variadic-aapcs.ll

Show First 20 Lines • Show All 93 Lines • ▼ Show 20 Lines	; CHECK: str [[STACK]], [x[[VAR]]]

ret void		ret void
}		}

; If there are non-variadic arguments on the stack (here two i64s) then the		; If there are non-variadic arguments on the stack (here two i64s) then the
; __stack field should point just past them.		; __stack field should point just past them.
define void @test_offsetstack([8 x i64], [2 x i64], [3 x float], ...) {		define void @test_offsetstack([8 x i64], [2 x i64], [3 x float], ...) {
; CHECK-LABEL: test_offsetstack:		; CHECK-LABEL: test_offsetstack:
; CHECK: sub sp, sp, #80		; CHECK: stp {{q[0-9]+}}, {{q[0-9]+}}, [sp, #-80]!
; CHECK: add [[STACK_TOP:x[0-9]+]], sp, #96		; CHECK: add [[STACK_TOP:x[0-9]+]], sp, #96
; CHECK: add x[[VAR:[0-9]+]], {{x[0-9]+}}, :lo12:var		; CHECK: add x[[VAR:[0-9]+]], {{x[0-9]+}}, :lo12:var
; CHECK: str [[STACK_TOP]], [x[[VAR]]]		; CHECK: str [[STACK_TOP]], [x[[VAR]]]

%addr = bitcast %va_list* @var to i8*		%addr = bitcast %va_list* @var to i8*
call void @llvm.va_start(i8* %addr)		call void @llvm.va_start(i8* %addr)
ret void		ret void
}		}
Show All 35 Lines

test/CodeGen/AArch64/merge-store.ll

	; RUN: llc < %s -mtriple=aarch64-unknown-unknown -mcpu=cyclone \| FileCheck %s --check-prefix=CYCLONE --check-prefix=CHECK			; RUN: llc < %s -mtriple=aarch64-unknown-unknown -mcpu=cyclone \| FileCheck %s --check-prefix=CYCLONE --check-prefix=CHECK
	; RUN: llc < %s -mtriple=aarch64-eabi -mattr=-slow-misaligned-128store \| FileCheck %s --check-prefix=MISALIGNED --check-prefix=CHECK			; RUN: llc < %s -mtriple=aarch64-eabi -mattr=-slow-misaligned-128store \| FileCheck %s --check-prefix=MISALIGNED --check-prefix=CHECK

	@g0 = external global <3 x float>, align 16			@g0 = external global <3 x float>, align 16
	@g1 = external global <3 x float>, align 4			@g1 = external global <3 x float>, align 4

	; CHECK: ldr s[[R0:[0-9]+]], {{\[}}[[R1:x[0-9]+]]{{\]}}, #4			; CHECK: ldr q[[R0:[0-9]+]], {{\[}}[[R1:x[0-9]+]], :lo12:g0
	; CHECK: ld1{{\.?s?}} { v[[R0]]{{\.?s?}} }[1], {{\[}}[[R1]]{{\]}}
	; CHECK: str d[[R0]]			; CHECK: str d[[R0]]

	define void @blam() {			define void @blam() {
	%tmp4 = getelementptr inbounds <3 x float>, <3 x float>* @g1, i64 0, i64 0			%tmp4 = getelementptr inbounds <3 x float>, <3 x float>* @g1, i64 0, i64 0
	%tmp5 = load <3 x float>, <3 x float>* @g0, align 16			%tmp5 = load <3 x float>, <3 x float>* @g0, align 16
	%tmp6 = extractelement <3 x float> %tmp5, i64 0			%tmp6 = extractelement <3 x float> %tmp5, i64 0
	store float %tmp6, float* %tmp4			store float %tmp6, float* %tmp4
	%tmp7 = getelementptr inbounds float, float* %tmp4, i64 1			%tmp7 = getelementptr inbounds float, float* %tmp4, i64 1
	Show All 37 Lines

test/CodeGen/AArch64/vector_merge_dep_check.ll

	; RUN: llc --combiner-alias-analysis=false < %s \| FileCheck %s			; RUN: llc < %s \| FileCheck %s
	; RUN: llc --combiner-alias-analysis=true < %s \| FileCheck %s

	; This test checks that we do not merge stores together which have			; This test checks that we do not merge stores together which have
	; dependencies through their non-chain operands (e.g. one store is the			; dependencies through their non-chain operands (e.g. one store is the
	; chain ancestor of a load whose value is used in as the data for the			; chain ancestor of a load whose value is used in as the data for the
	; other store). Merging in such cases creates a loop in the DAG.			; other store). Merging in such cases creates a loop in the DAG.

	target datalayout = "e-m:e-i64:64-i128:128-n32:64-S128"			target datalayout = "e-m:e-i64:64-i128:128-n32:64-S128"
	target triple = "aarch64--linux-android"			target triple = "aarch64--linux-android"
	Show All 31 Lines

test/CodeGen/AMDGPU/debugger-insert-nops.ll

	; RUN: llc -O0 -mtriple=amdgcn--amdhsa -mcpu=fiji -mattr=+amdgpu-debugger-insert-nops -verify-machineinstrs < %s \| FileCheck %s			; RUN: llc -O0 -mtriple=amdgcn--amdhsa -mcpu=fiji -mattr=+amdgpu-debugger-insert-nops -verify-machineinstrs < %s \| FileCheck %s --check-prefix=CHECK
				; RUN: llc -O0 -mtriple=amdgcn--amdhsa -mcpu=fiji -mattr=+amdgpu-debugger-insert-nops -verify-machineinstrs < %s \| FileCheck %s --check-prefix=CHECKNOP

	; CHECK: test01.cl:2:{{[0-9]+}}			; This test expects that we have one instance for each line in some order with "s_nop 0" instances after each.
				jyknightUnsubmitted Done Reply Inline Actions What does this comment mean? jyknight: What does this comment mean?
	; CHECK-NEXT: s_nop 0

	; CHECK: test01.cl:3:{{[0-9]+}}
	; CHECK-NEXT: s_nop 0

	nhaehnleUnsubmitted Not Done Reply Inline Actions I'm not sure about this test change. There seems to be some re-ordering going on that may not be desirable for debugging. nhaehnle: I'm not sure about this test change. There seems to be some re-ordering going on that may not…
	niravdAuthorUnsubmitted Not Done Reply Inline Actions This patch opens the possibility of the reordering, but I agree that this is non-ideal in that the scheduler doesn't seem to have an advantage from selecting that order and should therefore bias towards the source order. In general, though this sort of reordering should happen so I'm inclined to punt this to a subsequent patch. niravd: This patch opens the possibility of the reordering, but I agree that this is non-ideal in that…
	; CHECK: test01.cl:4:{{[0-9]+}}			; Check that each line appears at least once
	; CHECK-NEXT: s_nop 0			; CHECK-DAG: test01.cl:2:3
				; CHECK-DAG: test01.cl:3:3
				; CHECK-DAG: test01.cl:4:3


				; Check that each of each of the lines consists of the line output, followed by "s_nop 0"
				; CHECKNOP: test01.cl:{{[234]}}:3
				; CHECKNOP-NEXT: s_nop 0
				; CHECKNOP: test01.cl:{{[234]}}:3
				; CHECKNOP-NEXT: s_nop 0
				; CHECKNOP: test01.cl:{{[234]}}:3
				; CHECKNOP-NEXT: s_nop 0
				jyknightUnsubmitted Done Reply Inline Actions Also this one? jyknight: Also this one?

	; CHECK: test01.cl:5:{{[0-9]+}}			; CHECK: test01.cl:5:{{[0-9]+}}
	; CHECK-NEXT: s_nop 0			; CHECK-NEXT: s_nop 0
	; CHECK-NEXT: s_endpgm			; CHECK-NEXT: s_endpgm

	; Function Attrs: nounwind			; Function Attrs: nounwind
	define void @test(i32 addrspace(1)* %A) #0 !dbg !12 {			define void @test(i32 addrspace(1)* %A) #0 !dbg !12 {
	entry:			entry:
	%A.addr = alloca i32 addrspace(1)*, align 4			%A.addr = alloca i32 addrspace(1)*, align 4
	store i32 addrspace(1)* %A, i32 addrspace(1)** %A.addr, align 4			store i32 addrspace(1)* %A, i32 addrspace(1)** %A.addr, align 4
	call void @llvm.dbg.declare(metadata i32 addrspace(1)** %A.addr, metadata !17, metadata !18), !dbg !19			call void @llvm.dbg.declare(metadata i32 addrspace(1)** %A.addr, metadata !17, metadata !18), !dbg !19
	%0 = load i32 addrspace(1), i32 addrspace(1)* %A.addr, align 4, !dbg !20			%0 = load i32 addrspace(1), i32 addrspace(1)* %A.addr, align 4, !dbg !20
	%arrayidx = getelementptr inbounds i32, i32 addrspace(1)* %0, i32 0, !dbg !20			%arrayidx = getelementptr inbounds i32, i32 addrspace(1)* %0, i32 0, !dbg !20
	store i32 1, i32 addrspace(1)* %arrayidx, align 4, !dbg !21			store i32 1, i32 addrspace(1)* %arrayidx, align 4, !dbg !20
	%1 = load i32 addrspace(1), i32 addrspace(1)* %A.addr, align 4, !dbg !22			%1 = load i32 addrspace(1), i32 addrspace(1)* %A.addr, align 4, !dbg !22
	%arrayidx1 = getelementptr inbounds i32, i32 addrspace(1)* %1, i32 1, !dbg !22			%arrayidx1 = getelementptr inbounds i32, i32 addrspace(1)* %1, i32 1, !dbg !22
	store i32 2, i32 addrspace(1)* %arrayidx1, align 4, !dbg !23			store i32 2, i32 addrspace(1)* %arrayidx1, align 4, !dbg !23
	%2 = load i32 addrspace(1), i32 addrspace(1)* %A.addr, align 4, !dbg !24			%2 = load i32 addrspace(1), i32 addrspace(1)* %A.addr, align 4, !dbg !24
	%arrayidx2 = getelementptr inbounds i32, i32 addrspace(1)* %2, i32 2, !dbg !24			%arrayidx2 = getelementptr inbounds i32, i32 addrspace(1)* %2, i32 2, !dbg !24
	store i32 3, i32 addrspace(1)* %arrayidx2, align 4, !dbg !25			store i32 3, i32 addrspace(1)* %arrayidx2, align 4, !dbg !25
	ret void, !dbg !26			ret void, !dbg !26
	}			}
	Show All 39 Lines

test/CodeGen/AMDGPU/insert_vector_elt.ll

Show First 20 Lines • Show All 249 Lines • ▼ Show 20 Lines	define void @dynamic_insertelement_v2i8(<2 x i8> addrspace(1)* %out, <2 x i8> %a, i32 %b) nounwind {
ret void		ret void
}		}

; GCN-LABEL: {{^}}dynamic_insertelement_v3i8:		; GCN-LABEL: {{^}}dynamic_insertelement_v3i8:
; GCN: buffer_load_ubyte v{{[0-9]+}}, off		; GCN: buffer_load_ubyte v{{[0-9]+}}, off
; GCN: buffer_load_ubyte v{{[0-9]+}}, off		; GCN: buffer_load_ubyte v{{[0-9]+}}, off
; GCN: buffer_load_ubyte v{{[0-9]+}}, off		; GCN: buffer_load_ubyte v{{[0-9]+}}, off

; GCN-DAG: buffer_store_byte v{{[0-9]+}}, off, s{{\[[0-9]+:[0-9]+\]}}, s{{[0-9]+}} offset:6
; GCN-DAG: buffer_store_byte v{{[0-9]+}}, off, s{{\[[0-9]+:[0-9]+\]}}, s{{[0-9]+}} offset:5
; GCN-DAG: buffer_store_byte v{{[0-9]+}}, off, s{{\[[0-9]+:[0-9]+\]}}, s{{[0-9]+}} offset:4		; GCN-DAG: buffer_store_byte v{{[0-9]+}}, off, s{{\[[0-9]+:[0-9]+\]}}, s{{[0-9]+}} offset:4
		; GCN-DAG: buffer_store_byte v{{[0-9]+}}, off, s{{\[[0-9]+:[0-9]+\]}}, s{{[0-9]+}} offset:5
; GCN: buffer_store_byte v{{[0-9]+}}, v{{[0-9]+}}, s{{\[[0-9]+:[0-9]+\]}}, s{{[0-9]+}} offen{{$}}		; GCN-DAG: buffer_store_byte v{{[0-9]+}}, off, s{{\[[0-9]+:[0-9]+\]}}, s{{[0-9]+}} offset:6

; GCN: buffer_load_ubyte		; GCN: buffer_load_ubyte
; GCN: buffer_load_ubyte		; GCN: buffer_load_ubyte
; GCN: buffer_load_ubyte		; GCN: buffer_load_ubyte

; GCN-DAG: buffer_store_byte v{{[0-9]+}}, off		; GCN-DAG: buffer_store_byte v{{[0-9]+}}, off
; GCN-DAG: buffer_store_short v{{[0-9]+}}, off		; GCN-DAG: buffer_store_short v{{[0-9]+}}, off
define void @dynamic_insertelement_v3i8(<3 x i8> addrspace(1)* %out, <3 x i8> %a, i32 %b) nounwind {		define void @dynamic_insertelement_v3i8(<3 x i8> addrspace(1)* %out, <3 x i8> %a, i32 %b) nounwind {
▲ Show 20 Lines • Show All 178 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/merge-stores.ll

; RUN: llc -march=amdgcn -verify-machineinstrs -amdgpu-load-store-vectorizer=0 < %s \| FileCheck -check-prefix=SI -check-prefix=GCN -check-prefix=GCN-NOAA %s		; RUN: llc -march=amdgcn -verify-machineinstrs -amdgpu-load-store-vectorizer=0 < %s \| FileCheck -check-prefix=SI -check-prefix=GCN -check-prefix=GCN-AA %s
; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs -amdgpu-load-store-vectorizer=0 < %s \| FileCheck -check-prefix=SI -check-prefix=GCN -check-prefix=GCN-NOAA %s		; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs -amdgpu-load-store-vectorizer=0 < %s \| FileCheck -check-prefix=SI -check-prefix=GCN -check-prefix=GCN-AA %s

; RUN: llc -march=amdgcn -verify-machineinstrs -combiner-alias-analysis -amdgpu-load-store-vectorizer=0 < %s \| FileCheck -check-prefix=SI -check-prefix=GCN -check-prefix=GCN-AA %s
; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs -combiner-alias-analysis -amdgpu-load-store-vectorizer=0 < %s \| FileCheck -check-prefix=SI -check-prefix=GCN -check-prefix=GCN-AA %s

; This test is mostly to test DAG store merging, so disable the vectorizer.		; This test is mostly to test DAG store merging, so disable the vectorizer.
; Run with devices with different unaligned load restrictions.		; Run with devices with different unaligned load restrictions.

; TODO: Vector element tests		; TODO: Vector element tests
; TODO: Non-zero base offset for load and store combinations		; TODO: Non-zero base offset for load and store combinations
; TODO: Same base addrspacecasted		; TODO: Same base addrspacecasted

▲ Show 20 Lines • Show All 131 Lines • ▼ Show 20 Lines	define void @merge_global_store_4_constants_f32(float addrspace(1)* %out) #0 {
store float 1.0, float addrspace(1)* %out.gep.1		store float 1.0, float addrspace(1)* %out.gep.1
store float 2.0, float addrspace(1)* %out.gep.2		store float 2.0, float addrspace(1)* %out.gep.2
store float 4.0, float addrspace(1)* %out.gep.3		store float 4.0, float addrspace(1)* %out.gep.3
store float 8.0, float addrspace(1)* %out		store float 8.0, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}merge_global_store_4_constants_mixed_i32_f32:		; GCN-LABEL: {{^}}merge_global_store_4_constants_mixed_i32_f32:
; GCN-NOAA: buffer_store_dwordx4 v		; GCN-AA: buffer_store_dwordx4 v

; GCN-AA: buffer_store_dwordx2
; GCN-AA: buffer_store_dword v
; GCN-AA: buffer_store_dword v

; GCN: s_endpgm		; GCN: s_endpgm
define void @merge_global_store_4_constants_mixed_i32_f32(float addrspace(1)* %out) #0 {		define void @merge_global_store_4_constants_mixed_i32_f32(float addrspace(1)* %out) #0 {
%out.gep.1 = getelementptr float, float addrspace(1)* %out, i32 1		%out.gep.1 = getelementptr float, float addrspace(1)* %out, i32 1
%out.gep.2 = getelementptr float, float addrspace(1)* %out, i32 2		%out.gep.2 = getelementptr float, float addrspace(1)* %out, i32 2
%out.gep.3 = getelementptr float, float addrspace(1)* %out, i32 3		%out.gep.3 = getelementptr float, float addrspace(1)* %out, i32 3

%out.gep.1.bc = bitcast float addrspace(1)* %out.gep.1 to i32 addrspace(1)*		%out.gep.1.bc = bitcast float addrspace(1)* %out.gep.1 to i32 addrspace(1)*
%out.gep.3.bc = bitcast float addrspace(1)* %out.gep.3 to i32 addrspace(1)*		%out.gep.3.bc = bitcast float addrspace(1)* %out.gep.3 to i32 addrspace(1)*
▲ Show 20 Lines • Show All 302 Lines • ▼ Show 20 Lines	define void @merge_global_store_4_adjacent_loads_i8_natural_align(i8 addrspace(1)* %out, i8 addrspace(1)* %in) #0 {

store i8 %x, i8 addrspace(1)* %out		store i8 %x, i8 addrspace(1)* %out
store i8 %y, i8 addrspace(1)* %out.gep.1		store i8 %y, i8 addrspace(1)* %out.gep.1
store i8 %z, i8 addrspace(1)* %out.gep.2		store i8 %z, i8 addrspace(1)* %out.gep.2
store i8 %w, i8 addrspace(1)* %out.gep.3		store i8 %w, i8 addrspace(1)* %out.gep.3
ret void		ret void
}		}

; This works once AA is enabled on the subtarget
; GCN-LABEL: {{^}}merge_global_store_4_vector_elts_loads_v4i32:		; GCN-LABEL: {{^}}merge_global_store_4_vector_elts_loads_v4i32:
; GCN: buffer_load_dwordx4 [[LOAD:v\[[0-9]+:[0-9]+\]]]		; GCN: buffer_load_dwordx4 [[LOAD:v\[[0-9]+:[0-9]+\]]]
		; GCN: buffer_store_dwordx4 [[LOAD]]
; GCN-NOAA: buffer_store_dword v
; GCN-NOAA: buffer_store_dword v
; GCN-NOAA: buffer_store_dword v
; GCN-NOAA: buffer_store_dword v

; GCN-AA: buffer_store_dwordx4 [[LOAD]]

; GCN: s_endpgm		; GCN: s_endpgm
define void @merge_global_store_4_vector_elts_loads_v4i32(i32 addrspace(1)* %out, <4 x i32> addrspace(1)* %in) #0 {		define void @merge_global_store_4_vector_elts_loads_v4i32(i32 addrspace(1)* %out, <4 x i32> addrspace(1)* %in) #0 {
%out.gep.1 = getelementptr i32, i32 addrspace(1)* %out, i32 1		%out.gep.1 = getelementptr i32, i32 addrspace(1)* %out, i32 1
%out.gep.2 = getelementptr i32, i32 addrspace(1)* %out, i32 2		%out.gep.2 = getelementptr i32, i32 addrspace(1)* %out, i32 2
%out.gep.3 = getelementptr i32, i32 addrspace(1)* %out, i32 3		%out.gep.3 = getelementptr i32, i32 addrspace(1)* %out, i32 3
%vec = load <4 x i32>, <4 x i32> addrspace(1)* %in		%vec = load <4 x i32>, <4 x i32> addrspace(1)* %in

%x = extractelement <4 x i32> %vec, i32 0		%x = extractelement <4 x i32> %vec, i32 0
▲ Show 20 Lines • Show All 213 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/private-element-size.ll

	Show All 26 Lines
	; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:20{{$}}			; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:20{{$}}
	; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:24{{$}}			; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:24{{$}}
	; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:28{{$}}			; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:28{{$}}
	; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:32{{$}}			; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:32{{$}}
	; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:36{{$}}			; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:36{{$}}
	; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:40{{$}}			; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:40{{$}}
	; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:44{{$}}			; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:44{{$}}

	; HSA-ELT4: buffer_load_dword {{v[0-9]+}}, v{{[0-9]+}}, s[0:3], s9 offen{{$}}			; HSA-ELT4-DAG: buffer_load_dword {{v[0-9]+}}, v{{[0-9]+}}, s[0:3], s9 offen{{$}}
	; HSA-ELT4: buffer_load_dword {{v[0-9]+}}, v{{[0-9]+}}, s[0:3], s9 offen offset:4{{$}}			; HSA-ELT4-DAG: buffer_load_dword {{v[0-9]+}}, v{{[0-9]+}}, s[0:3], s9 offen offset:4{{$}}
	; HSA-ELT4: buffer_load_dword {{v[0-9]+}}, v{{[0-9]+}}, s[0:3], s9 offen offset:8{{$}}			; HSA-ELT4-DAG: buffer_load_dword {{v[0-9]+}}, v{{[0-9]+}}, s[0:3], s9 offen offset:8{{$}}
	; HSA-ELT4: buffer_load_dword {{v[0-9]+}}, v{{[0-9]+}}, s[0:3], s9 offen offset:12{{$}}			; HSA-ELT4-DAG: buffer_load_dword {{v[0-9]+}}, v{{[0-9]+}}, s[0:3], s9 offen offset:12{{$}}
	define void @private_elt_size_v4i32(<4 x i32> addrspace(1)* %out, i32 addrspace(1)* %index.array) #0 {			define void @private_elt_size_v4i32(<4 x i32> addrspace(1)* %out, i32 addrspace(1)* %index.array) #0 {
	entry:			entry:
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%idxprom = sext i32 %tid to i64			%idxprom = sext i32 %tid to i64
	%gep.index = getelementptr inbounds i32, i32 addrspace(1)* %index.array, i64 %idxprom			%gep.index = getelementptr inbounds i32, i32 addrspace(1)* %index.array, i64 %idxprom
	%index.load = load i32, i32 addrspace(1)* %gep.index			%index.load = load i32, i32 addrspace(1)* %gep.index
	%index = and i32 %index.load, 2			%index = and i32 %index.load, 2
	%alloca = alloca [2 x <4 x i32>], align 16			%alloca = alloca [2 x <4 x i32>], align 16
	▲ Show 20 Lines • Show All 78 Lines • ▼ Show 20 Lines
	}			}


	; ALL-LABEL: {{^}}private_elt_size_i64:			; ALL-LABEL: {{^}}private_elt_size_i64:
	; HSA-ELT16: private_element_size = 3			; HSA-ELT16: private_element_size = 3
	; HSA-ELT8: private_element_size = 2			; HSA-ELT8: private_element_size = 2
	; HSA-ELT4: private_element_size = 1			; HSA-ELT4: private_element_size = 1

	; HSA-ELTGE8-DAG: buffer_store_dwordx2 {{v\[[0-9]+:[0-9]+\]}}, off, s[0:3], s9 offset:16			; HSA-ELTGE8-DAG: buffer_store_dwordx2 {{v\[[0-9]+:[0-9]+\]}}, {{off\|v[0-9]}}, s[0:3], s9 offset:1
	; HSA-ELTGE8-DAG: buffer_store_dwordx2 {{v\[[0-9]+:[0-9]+\]}}, off, s[0:3], s9 offset:24			; HSA-ELTGE8-DAG: buffer_store_dwordx2 {{v\[[0-9]+:[0-9]+\]}}, {{off\|v[0-9]}}, s[0:3], s9 offset:2

	; HSA-ELTGE8: buffer_load_dwordx2 {{v\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}}, s[0:3], s9 offen			; HSA-ELTGE8: buffer_load_dwordx2 {{v\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}}, s[0:3], s9 offen


	; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:16{{$}}			; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:16{{$}}
	; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:20{{$}}			; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:20{{$}}
	; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:24{{$}}			; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:24{{$}}
	; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:28{{$}}			; HSA-ELT4-DAG: buffer_store_dword {{v[0-9]+}}, off, s[0:3], s9 offset:28{{$}}
	▲ Show 20 Lines • Show All 110 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/si-triv-disjoint-mem-access.ll

Show First 20 Lines • Show All 151 Lines • ▼ Show 20 Lines	define void @reorder_global_load_local_store_global_load(i32 addrspace(1)* %out, i32 addrspace(3)* %lptr, i32 addrspace(1)* %ptr0) #0 {
%add = add nsw i32 %tmp1, %tmp2		%add = add nsw i32 %tmp1, %tmp2

store i32 %add, i32 addrspace(1)* %out, align 4		store i32 %add, i32 addrspace(1)* %out, align 4
ret void		ret void
}		}

; FUNC-LABEL: @reorder_local_offsets		; FUNC-LABEL: @reorder_local_offsets
; CI: ds_read2_b32 {{v\[[0-9]+:[0-9]+\]}}, {{v[0-9]+}} offset0:100 offset1:102		; CI: ds_read2_b32 {{v\[[0-9]+:[0-9]+\]}}, {{v[0-9]+}} offset0:100 offset1:102
; CI: ds_write2_b32 {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}} offset0:3 offset1:100		; CI-DAG: ds_write2_b32 {{v[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} offset0:3 offset1:100
; CI: ds_read_b32 {{v[0-9]+}}, {{v[0-9]+}} offset:12		; CI-DAG: ds_write_b32 {{v[0-9]+}}, {{v[0-9]+}} offset:408
; CI: ds_write_b32 {{v[0-9]+}}, {{v[0-9]+}} offset:408
; CI: buffer_store_dword		; CI: buffer_store_dword
; CI: s_endpgm		; CI: s_endpgm
define void @reorder_local_offsets(i32 addrspace(1)* nocapture %out, i32 addrspace(1)* noalias nocapture readnone %gptr, i32 addrspace(3)* noalias nocapture %ptr0) #0 {		define void @reorder_local_offsets(i32 addrspace(1)* nocapture %out, i32 addrspace(1)* noalias nocapture readnone %gptr, i32 addrspace(3)* noalias nocapture %ptr0) #0 {
%ptr1 = getelementptr inbounds i32, i32 addrspace(3)* %ptr0, i32 3		%ptr1 = getelementptr inbounds i32, i32 addrspace(3)* %ptr0, i32 3
%ptr2 = getelementptr inbounds i32, i32 addrspace(3)* %ptr0, i32 100		%ptr2 = getelementptr inbounds i32, i32 addrspace(3)* %ptr0, i32 100
%ptr3 = getelementptr inbounds i32, i32 addrspace(3)* %ptr0, i32 102		%ptr3 = getelementptr inbounds i32, i32 addrspace(3)* %ptr0, i32 102

store i32 123, i32 addrspace(3)* %ptr1, align 4		store i32 123, i32 addrspace(3)* %ptr1, align 4
%tmp1 = load i32, i32 addrspace(3)* %ptr2, align 4		%tmp1 = load i32, i32 addrspace(3)* %ptr2, align 4
%tmp2 = load i32, i32 addrspace(3)* %ptr3, align 4		%tmp2 = load i32, i32 addrspace(3)* %ptr3, align 4
store i32 123, i32 addrspace(3)* %ptr2, align 4		store i32 123, i32 addrspace(3)* %ptr2, align 4
%tmp3 = load i32, i32 addrspace(3)* %ptr1, align 4		%tmp3 = load i32, i32 addrspace(3)* %ptr1, align 4
store i32 789, i32 addrspace(3)* %ptr3, align 4		store i32 789, i32 addrspace(3)* %ptr3, align 4

%add.0 = add nsw i32 %tmp2, %tmp1		%add.0 = add nsw i32 %tmp2, %tmp1
%add.1 = add nsw i32 %add.0, %tmp3		%add.1 = add nsw i32 %add.0, %tmp3
store i32 %add.1, i32 addrspace(1)* %out, align 4		store i32 %add.1, i32 addrspace(1)* %out, align 4
ret void		ret void
}		}

; FUNC-LABEL: @reorder_global_offsets		; FUNC-LABEL: @reorder_global_offsets
; CI: buffer_load_dword {{v[0-9]+}}, off, {{s\[[0-9]+:[0-9]+\]}}, 0 offset:400		; CI-DAG: buffer_load_dword {{v[0-9]+}}, off, {{s\[[0-9]+:[0-9]+\]}}, 0 offset:400
; CI: buffer_load_dword {{v[0-9]+}}, off, {{s\[[0-9]+:[0-9]+\]}}, 0 offset:408		; CI-DAG: buffer_load_dword {{v[0-9]+}}, off, {{s\[[0-9]+:[0-9]+\]}}, 0 offset:408
; CI: buffer_store_dword {{v[0-9]+}}, off, {{s\[[0-9]+:[0-9]+\]}}, 0 offset:12		; CI-DAG: buffer_store_dword {{v[0-9]+}}, off, {{s\[[0-9]+:[0-9]+\]}}, 0 offset:12
; CI: buffer_store_dword {{v[0-9]+}}, off, {{s\[[0-9]+:[0-9]+\]}}, 0 offset:400		; CI-DAG: buffer_store_dword {{v[0-9]+}}, off, {{s\[[0-9]+:[0-9]+\]}}, 0 offset:400
; CI: buffer_store_dword {{v[0-9]+}}, off, {{s\[[0-9]+:[0-9]+\]}}, 0 offset:408		; CI-DAG: buffer_store_dword {{v[0-9]+}}, off, {{s\[[0-9]+:[0-9]+\]}}, 0 offset:408
; CI: buffer_load_dword {{v[0-9]+}}, off, {{s\[[0-9]+:[0-9]+\]}}, 0 offset:12		; CI: buffer_store_dword
; CI: s_endpgm		; CI: s_endpgm
define void @reorder_global_offsets(i32 addrspace(1)* nocapture %out, i32 addrspace(1)* noalias nocapture readnone %gptr, i32 addrspace(1)* noalias nocapture %ptr0) #0 {		define void @reorder_global_offsets(i32 addrspace(1)* nocapture %out, i32 addrspace(1)* noalias nocapture readnone %gptr, i32 addrspace(1)* noalias nocapture %ptr0) #0 {
%ptr1 = getelementptr inbounds i32, i32 addrspace(1)* %ptr0, i32 3		%ptr1 = getelementptr inbounds i32, i32 addrspace(1)* %ptr0, i32 3
%ptr2 = getelementptr inbounds i32, i32 addrspace(1)* %ptr0, i32 100		%ptr2 = getelementptr inbounds i32, i32 addrspace(1)* %ptr0, i32 100
%ptr3 = getelementptr inbounds i32, i32 addrspace(1)* %ptr0, i32 102		%ptr3 = getelementptr inbounds i32, i32 addrspace(1)* %ptr0, i32 102

store i32 123, i32 addrspace(1)* %ptr1, align 4		store i32 123, i32 addrspace(1)* %ptr1, align 4
%tmp1 = load i32, i32 addrspace(1)* %ptr2, align 4		%tmp1 = load i32, i32 addrspace(1)* %ptr2, align 4
▲ Show 20 Lines • Show All 79 Lines • Show Last 20 Lines

test/CodeGen/ARM/2012-10-04-AAPCS-byval-align8.ll

	; RUN: llc < %s -mtriple=armv7-none-linux-gnueabi \| FileCheck %s			; RUN: llc < %s -mtriple=armv7-none-linux-gnueabi \| FileCheck %s
	; Test that we correctly use registers and align elements when using va_arg			; Test that we correctly use registers and align elements when using va_arg

	%struct_t = type { double, double, double }			%struct_t = type { double, double, double }
	@static_val = constant %struct_t { double 1.0, double 2.0, double 3.0 }			@static_val = constant %struct_t { double 1.0, double 2.0, double 3.0 }

	declare void @llvm.va_start(i8*) nounwind			declare void @llvm.va_start(i8*) nounwind
	declare void @llvm.va_end(i8*) nounwind			declare void @llvm.va_end(i8*) nounwind

	; CHECK-LABEL: test_byval_8_bytes_alignment:			; CHECK-LABEL: test_byval_8_bytes_alignment:
	define void @test_byval_8_bytes_alignment(i32 %i, ...) {			define void @test_byval_8_bytes_alignment(i32 %i, ...) {
	entry:			entry:
	; CHECK: sub sp, sp, #12			; CHECK: sub sp, sp, #12
	; CHECK: sub sp, sp, #4			; CHECK: sub sp, sp, #4
	; CHECK: stmib sp, {r1, r2, r3}			; CHECK: add r0, sp, #4
				; CHECK: stm sp, {r0, r1, r2, r3}
	%g = alloca i8*			%g = alloca i8*
	%g1 = bitcast i8** %g to i8*			%g1 = bitcast i8** %g to i8*
	call void @llvm.va_start(i8* %g1)			call void @llvm.va_start(i8* %g1)

	; CHECK: add [[REG:(r[0-9]+)\|(lr)]], {{(r[0-9]+)\|(lr)}}, #7			; CHECK: add [[REG:(r[0-9]+)\|(lr)]], {{(r[0-9]+)\|(lr)}}, #7
	; CHECK: bfc [[REG]], #0, #3			; CHECK: bfc [[REG]], #0, #3
	%0 = va_arg i8** %g, double			%0 = va_arg i8** %g, double
	call void @llvm.va_end(i8* %g1)			call void @llvm.va_end(i8* %g1)
	▲ Show 20 Lines • Show All 42 Lines • Show Last 20 Lines

test/CodeGen/ARM/alloc-no-stack-realign.ll

	; RUN: llc < %s -mtriple=armv7-apple-ios -O0 \| FileCheck %s -check-prefix=NO-REALIGN			; RUN: llc < %s -mtriple=armv7-apple-ios -O0 \| FileCheck %s
	; RUN: llc < %s -mtriple=armv7-apple-ios -O0 \| FileCheck %s -check-prefix=REALIGN

	; rdar://12713765			; rdar://12713765
	; When realign-stack is set to false, make sure we are not creating stack			; When realign-stack is set to false, make sure we are not creating stack
	; objects that are assumed to be 64-byte aligned.			; objects that are assumed to be 64-byte aligned.
	@T3_retval = common global <16 x float> zeroinitializer, align 16			@T3_retval = common global <16 x float> zeroinitializer, align 16

	define void @test1(<16 x float>* noalias sret %agg.result) nounwind ssp "no-realign-stack" {			define void @test1(<16 x float>* noalias sret %agg.result) nounwind ssp "no-realign-stack" {
	entry:			entry:
	; NO-REALIGN-LABEL: test1			; CHECK-LABEL: test1
	; NO-REALIGN: mov r[[R2:[0-9]+]], r[[R1:[0-9]+]]			; CHECK: ldr r[[R1:[0-9]+]], [pc, r1]
	; NO-REALIGN: vld1.32 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]!			; CHECK: add r[[R2:[0-9]+]], r1, #48
	; NO-REALIGN: vld1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]			; CHECK: vld1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]
	; NO-REALIGN: add r[[R2:[0-9]+]], r[[R1]], #32			; CHECK: mov r[[R2:[0-9]+]], r[[R1]]
	; NO-REALIGN: vld1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]			; CHECK: vld1.32 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]!
	; NO-REALIGN: add r[[R2:[0-9]+]], r[[R1]], #48			; CHECK: vld1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]
	; NO-REALIGN: vld1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]			; CHECK: add r[[R1:[0-9]+]], r[[R1]], #32
				; CHECK: vld1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R1]]:128]
	; NO-REALIGN: add r[[R2:[0-9]+]], r[[R1:[0-9]+]], #48			; CHECK: mov r[[R1:[0-9]+]], sp
	; NO-REALIGN: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]			; CHECK: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R1]]:128]
	; NO-REALIGN: add r[[R2:[0-9]+]], r[[R1]], #32			; CHECK: add r[[R2:[0-9]+]], r[[R1]], #32
	; NO-REALIGN: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]			; CHECK: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]
	; NO-REALIGN: mov r[[R3:[0-9]+]], r[[R1]]			; CHECK: vld1.32 {{{d[0-9]+, d[0-9]+}}}, [r[[R1]]:128]!
	; NO-REALIGN: vst1.32 {{{d[0-9]+, d[0-9]+}}}, [r[[R3]]:128]!			; CHECK: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R1]]:128]
	; NO-REALIGN: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R3]]:128]			; CHECK: vld1.32 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]!
				; CHECK: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]
	; NO-REALIGN: add r[[R2:[0-9]+]], r[[R0:0]], #48			; CHECK: vld1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R1]]:128]
	; NO-REALIGN: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]			; CHECK: vld1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]
	; NO-REALIGN: add r[[R2:[0-9]+]], r[[R0]], #32			; CHECK: add r[[R1:[0-9]+]], r0, #48
	; NO-REALIGN: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]			; CHECK: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R1]]:128]
	; NO-REALIGN: vst1.32 {{{d[0-9]+, d[0-9]+}}}, [r[[R0]]:128]!			; CHECK: add r[[R1:[0-9]+]], r0, #32
	; NO-REALIGN: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R0]]:128]			; CHECK: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R1]]:128]
				; CHECK: vst1.32 {{{d[0-9]+, d[0-9]+}}}, [r0:128]!
				; CHECK: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r0:128]
	%retval = alloca <16 x float>, align 16			%retval = alloca <16 x float>, align 16
	%0 = load <16 x float>, <16 x float>* @T3_retval, align 16			%0 = load <16 x float>, <16 x float>* @T3_retval, align 16
	store <16 x float> %0, <16 x float>* %retval			store <16 x float> %0, <16 x float>* %retval
	%1 = load <16 x float>, <16 x float>* %retval			%1 = load <16 x float>, <16 x float>* %retval
	store <16 x float> %1, <16 x float>* %agg.result, align 16			store <16 x float> %1, <16 x float>* %agg.result, align 16
	ret void			ret void
	}			}

	define void @test2(<16 x float>* noalias sret %agg.result) nounwind ssp {			define void @test2(<16 x float>* noalias sret %agg.result) nounwind ssp {
	entry:			entry:
	; REALIGN-LABEL: test2			; CHECK: ldr r[[R1:[0-9]+]], [pc, r1]
	; REALIGN: bfc sp, #0, #6			; CHECK: add r[[R2:[0-9]+]], r[[R1]], #48
	; REALIGN: mov r[[R2:[0-9]+]], r[[R1:[0-9]+]]			; CHECK: vld1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]
	; REALIGN: vld1.32 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]!			; CHECK: mov r[[R2:[0-9]+]], r[[R1]]
	; REALIGN: vld1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]			; CHECK: vld1.32 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]!
	; REALIGN: add r[[R2:[0-9]+]], r[[R1]], #32			; CHECK: vld1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]
	; REALIGN: vld1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]			; CHECK: add r[[R1:[0-9]+]], r[[R1]], #32
	; REALIGN: add r[[R2:[0-9]+]], r[[R1]], #48			; CHECK: vld1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R1]]:128]
	; REALIGN: vld1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]			; CHECK: mov r[[R1:[0-9]+]], sp
				; CHECK: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R1]]:128]
				; CHECK: orr r[[R2:[0-9]+]], r[[R1]], #32
				; CHECK: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]
				; CHECK: vld1.32 {{{d[0-9]+, d[0-9]+}}}, [r[[R1]]:128]!
				; CHECK: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R1]]:128]
				; CHECK: vld1.32 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]!
				; CHECK: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]
				; CHECK: vld1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R1]]:128]
				; CHECK: vld1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]
				; CHECK: add r[[R1:[0-9]+]], r0, #48
				; CHECK: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R1]]:128]
				; CHECK: add r[[R1:[0-9]+]], r0, #32
				; CHECK: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R1]]:128]
				; CHECK: vst1.32 {{{d[0-9]+, d[0-9]+}}}, [r0:128]!
				; CHECK: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r0:128]

	; REALIGN: orr r[[R2:[0-9]+]], r[[R1:[0-9]+]], #48
	; REALIGN: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]
	; REALIGN: orr r[[R2:[0-9]+]], r[[R1]], #32
	; REALIGN: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]
	; REALIGN: orr r[[R2:[0-9]+]], r[[R1]], #16
	; REALIGN: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R2]]:128]
	; REALIGN: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R1]]:128]

	; REALIGN: add r[[R1:[0-9]+]], r[[R0:0]], #48
	; REALIGN: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R1]]:128]
	; REALIGN: add r[[R1:[0-9]+]], r[[R0]], #32
	; REALIGN: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R1]]:128]
	; REALIGN: vst1.32 {{{d[0-9]+, d[0-9]+}}}, [r[[R0]]:128]!
	; REALIGN: vst1.64 {{{d[0-9]+, d[0-9]+}}}, [r[[R0]]:128]
	%retval = alloca <16 x float>, align 16			%retval = alloca <16 x float>, align 16
	%0 = load <16 x float>, <16 x float>* @T3_retval, align 16			%0 = load <16 x float>, <16 x float>* @T3_retval, align 16
	store <16 x float> %0, <16 x float>* %retval			store <16 x float> %0, <16 x float>* %retval
	%1 = load <16 x float>, <16 x float>* %retval			%1 = load <16 x float>, <16 x float>* %retval
	store <16 x float> %1, <16 x float>* %agg.result, align 16			store <16 x float> %1, <16 x float>* %agg.result, align 16
	ret void			ret void
	}			}

test/CodeGen/ARM/gpr-paired-spill.ll

Show All 10 Lines	define void @foo(i64* %addr) {
%val6 = tail call i64 asm sideeffect "ldrexd $0, ${0:H}, [r0]", "=&r,r"(i64* %addr)		%val6 = tail call i64 asm sideeffect "ldrexd $0, ${0:H}, [r0]", "=&r,r"(i64* %addr)
%val7 = tail call i64 asm sideeffect "ldrexd $0, ${0:H}, [r0]", "=&r,r"(i64* %addr)		%val7 = tail call i64 asm sideeffect "ldrexd $0, ${0:H}, [r0]", "=&r,r"(i64* %addr)

; Key point is that enough 64-bit paired GPR values are live that		; Key point is that enough 64-bit paired GPR values are live that
; one of them has to be spilled. This used to cause an abort because		; one of them has to be spilled. This used to cause an abort because
; an LDMIA was created with both a FrameIndex and an offset, which		; an LDMIA was created with both a FrameIndex and an offset, which
; is not allowed.		; is not allowed.

; CHECK-WITH-LDRD: strd {{r[0-9]+}}, {{r[0-9]+}}, [sp, #8]		; CHECK-WITH-LDRD-DAG: strd {{r[0-9]+}}, {{r[0-9]+}}, [sp, #8]
; CHECK-WITH-LDRD: strd {{r[0-9]+}}, {{r[0-9]+}}, [sp]		; CHECK-WITH-LDRD-DAG: strd {{r[0-9]+}}, {{r[0-9]+}}, [sp]

; CHECK-WITH-LDRD: ldrd {{r[0-9]+}}, {{r[0-9]+}}, [sp, #8]		; CHECK-WITH-LDRD-DAG: ldrd {{r[0-9]+}}, {{r[0-9]+}}, [sp, #8]
; CHECK-WITH-LDRD: ldrd {{r[0-9]+}}, {{r[0-9]+}}, [sp]		; CHECK-WITH-LDRD-DAG: ldrd {{r[0-9]+}}, {{r[0-9]+}}, [sp]

; We also want to ensure the register scavenger is working (i.e. an		; We also want to ensure the register scavenger is working (i.e. an
; offset from sp can be generated), so we need two spills.		; offset from sp can be generated), so we need two spills.
; CHECK-WITHOUT-LDRD: add [[ADDRREG:[a-z0-9]+]], sp, #{{[0-9]+}}		; CHECK-WITHOUT-LDRD-DAG: add [[ADDRREG:[a-z0-9]+]], sp, #{{[0-9]+}}
; CHECK-WITHOUT-LDRD: stm [[ADDRREG]], {r{{[0-9]+}}, r{{[0-9]+}}}		; CHECK-WITHOUT-LDRD-DAG: stm [[ADDRREG]], {r{{[0-9]+}}, r{{[0-9]+}}}
; CHECK-WITHOUT-LDRD: stm sp, {r{{[0-9]+}}, r{{[0-9]+}}}		; CHECK-WITHOUT-LDRD-DAG: stm sp, {r{{[0-9]+}}, r{{[0-9]+}}}

; In principle LLVM may have to recalculate the offset. At the moment		; In principle LLVM may have to recalculate the offset. At the moment
; it reuses the original though.		; it reuses the original though.
; CHECK-WITHOUT-LDRD: ldm [[ADDRREG]], {r{{[0-9]+}}, r{{[0-9]+}}}		; CHECK-WITHOUT-LDRD-DAG: ldm [[ADDRREG]], {r{{[0-9]+}}, r{{[0-9]+}}}
; CHECK-WITHOUT-LDRD: ldm sp, {r{{[0-9]+}}, r{{[0-9]+}}}		; CHECK-WITHOUT-LDRD-DAG: ldm sp, {r{{[0-9]+}}, r{{[0-9]+}}}

store volatile i64 %val1, i64* %addr		store volatile i64 %val1, i64* %addr
store volatile i64 %val2, i64* %addr		store volatile i64 %val2, i64* %addr
store volatile i64 %val3, i64* %addr		store volatile i64 %val3, i64* %addr
store volatile i64 %val4, i64* %addr		store volatile i64 %val4, i64* %addr
store volatile i64 %val5, i64* %addr		store volatile i64 %val5, i64* %addr
store volatile i64 %val6, i64* %addr		store volatile i64 %val6, i64* %addr
store volatile i64 %val7, i64* %addr		store volatile i64 %val7, i64* %addr
ret void		ret void
}		}

test/CodeGen/ARM/ifcvt10.ll

	; RUN: llc < %s -mtriple=arm-apple-ios -arm-atomic-cfg-tidy=0 -mcpu=cortex-a9 \| FileCheck %s			; RUN: llc < %s -mtriple=arm-apple-ios -arm-atomic-cfg-tidy=0 -mcpu=cortex-a9 \| FileCheck %s
	; rdar://8402126			; rdar://8402126
	; Make sure if-converter is not predicating vldmia and ldmia. These are			; Make sure if-converter is not predicating vldmia and ldmia. These are
	; micro-coded and would have long issue latency even if predicated on			; micro-coded and would have long issue latency even if predicated on
	; false predicate.			; false predicate.

	define void @t(double %a, double %b, double %c, double %d, i32* nocapture %solutions, double* nocapture %x) nounwind "no-frame-pointer-elim"="true" {			define void @t(double %a, double %b, double %c, double %d, i32* nocapture %solutions, double* nocapture %x) nounwind "no-frame-pointer-elim"="true" {
	entry:			entry:
	; CHECK-LABEL: t:			; CHECK-LABEL: t:
	; CHECK: vpop {d8}			; CHECK: vpop {d8}
	; CHECK-NOT: vpopne			; CHECK-NOT: vpopne
	; CHECK: pop {r7, pc}			; CHECK: pop {r7, pc}
	; CHECK: vpop {d8}
	; CHECK: pop {r7, pc}
	br i1 undef, label %if.else, label %if.then			br i1 undef, label %if.else, label %if.then

	if.then: ; preds = %entry			if.then: ; preds = %entry
	%mul73 = fmul double undef, 0.000000e+00			%mul73 = fmul double undef, 0.000000e+00
	%sub76 = fsub double %mul73, undef			%sub76 = fsub double %mul73, undef
	store double %sub76, double* undef, align 4			store double %sub76, double* undef, align 4
	%call88 = tail call double @cos(double 0.000000e+00) nounwind			%call88 = tail call double @cos(double 0.000000e+00) nounwind
	%mul89 = fmul double undef, %call88			%mul89 = fmul double undef, %call88
	Show All 21 Lines

test/CodeGen/ARM/illegal-bitfield-loadstore.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc < %s -mtriple=arm-eabi \| FileCheck %s -check-prefix=LE		; RUN: llc < %s -mtriple=arm-eabi \| FileCheck %s -check-prefix=LE
; RUN: llc < %s -mtriple=armeb-eabi \| FileCheck %s -check-prefix=BE		; RUN: llc < %s -mtriple=armeb-eabi \| FileCheck %s -check-prefix=BE

define void @i24_or(i24* %a) {		define void @i24_or(i24* %a) {
; LE-LABEL: i24_or:		; LE-LABEL: i24_or:
; LE: @ BB#0:		; LE: @ BB#0:
; LE-NEXT: ldrh r1, [r0]		; LE-NEXT: ldrh r1, [r0]
; LE-NEXT: ldrb r2, [r0, #2]
; LE-NEXT: orr r1, r1, #384		; LE-NEXT: orr r1, r1, #384
; LE-NEXT: strb r2, [r0, #2]
; LE-NEXT: strh r1, [r0]		; LE-NEXT: strh r1, [r0]
; LE-NEXT: mov pc, lr		; LE-NEXT: mov pc, lr
;		;
; BE-LABEL: i24_or:		; BE-LABEL: i24_or:
; BE: @ BB#0:		; BE: @ BB#0:
; BE-NEXT: ldrh r1, [r0]		; BE-NEXT: ldrh r1, [r0]
; BE-NEXT: ldrb r2, [r0, #2]		; BE-NEXT: ldrb r2, [r0, #2]
; BE-NEXT: orr r1, r2, r1, lsl #8		; BE-NEXT: orr r1, r2, r1, lsl #8
▲ Show 20 Lines • Show All 89 Lines • ▼ Show 20 Lines	; BE-NEXT: .long 16769023 @ 0xffdfff
%d = or i24 %c, %extbit.shl		%d = or i24 %c, %extbit.shl
store i24 %d, i24* %a, align 1		store i24 %d, i24* %a, align 1
ret void		ret void
}		}

define void @i56_or(i56* %a) {		define void @i56_or(i56* %a) {
; LE-LABEL: i56_or:		; LE-LABEL: i56_or:
; LE: @ BB#0:		; LE: @ BB#0:
; LE-NEXT: mov r2, r0		; LE-NEXT: ldr r1, [r0]
; LE-NEXT: ldr r12, [r0]		; LE-NEXT: orr r1, r1, #384
; LE-NEXT: ldrh r3, [r2, #4]!
; LE-NEXT: ldrb r1, [r2, #2]
; LE-NEXT: strb r1, [r2, #2]
; LE-NEXT: orr r1, r12, #384
; LE-NEXT: str r1, [r0]		; LE-NEXT: str r1, [r0]
; LE-NEXT: strh r3, [r2]
; LE-NEXT: mov pc, lr		; LE-NEXT: mov pc, lr
;		;
; BE-LABEL: i56_or:		; BE-LABEL: i56_or:
; BE: @ BB#0:		; BE: @ BB#0:
; BE-NEXT: mov r1, r0		; BE-NEXT: mov r1, r0
; BE-NEXT: ldr r12, [r0]		; BE-NEXT: ldr r12, [r0]
; BE-NEXT: ldrh r2, [r1, #4]!		; BE-NEXT: ldrh r2, [r1, #4]!
; BE-NEXT: ldrb r3, [r1, #2]		; BE-NEXT: ldrb r3, [r1, #2]
Show All 11 Lines	; BE-NEXT: mov pc, lr
%b = or i56 %aa, 384		%b = or i56 %aa, 384
store i56 %b, i56* %a		store i56 %b, i56* %a
ret void		ret void
}		}

define void @i56_and_or(i56* %a) {		define void @i56_and_or(i56* %a) {
; LE-LABEL: i56_and_or:		; LE-LABEL: i56_and_or:
; LE: @ BB#0:		; LE: @ BB#0:
; LE-NEXT: mov r2, r0
; LE-NEXT: ldr r1, [r0]		; LE-NEXT: ldr r1, [r0]
; LE-NEXT: ldrh r12, [r2, #4]!
; LE-NEXT: orr r1, r1, #384		; LE-NEXT: orr r1, r1, #384
; LE-NEXT: ldrb r3, [r2, #2]
; LE-NEXT: bic r1, r1, #127		; LE-NEXT: bic r1, r1, #127
; LE-NEXT: strb r3, [r2, #2]
; LE-NEXT: str r1, [r0]		; LE-NEXT: str r1, [r0]
; LE-NEXT: strh r12, [r2]
; LE-NEXT: mov pc, lr		; LE-NEXT: mov pc, lr
;		;
; BE-LABEL: i56_and_or:		; BE-LABEL: i56_and_or:
; BE: @ BB#0:		; BE: @ BB#0:
; BE-NEXT: .save {r11, lr}		; BE-NEXT: mov r1, r0
; BE-NEXT: push {r11, lr}
; BE-NEXT: mov r2, r0
; BE-NEXT: ldr lr, [r0]
; BE-NEXT: mov r3, #128		; BE-NEXT: mov r3, #128
; BE-NEXT: ldrh r12, [r2, #4]!		; BE-NEXT: ldrh r2, [r1, #4]!
; BE-NEXT: strb r3, [r2, #2]		; BE-NEXT: strb r3, [r1, #2]
; BE-NEXT: lsl r3, r12, #8		; BE-NEXT: lsl r2, r2, #8
; BE-NEXT: orr r3, r3, lr, lsl #24		; BE-NEXT: ldr r12, [r0]
; BE-NEXT: orr r3, r3, #384		; BE-NEXT: orr r2, r2, r12, lsl #24
; BE-NEXT: lsr r1, r3, #8		; BE-NEXT: orr r2, r2, #384
; BE-NEXT: strh r1, [r2]		; BE-NEXT: lsr r3, r2, #8
; BE-NEXT: bic r1, lr, #255		; BE-NEXT: strh r3, [r1]
; BE-NEXT: orr r1, r1, r3, lsr #24		; BE-NEXT: bic r1, r12, #255
		; BE-NEXT: orr r1, r1, r2, lsr #24
; BE-NEXT: str r1, [r0]		; BE-NEXT: str r1, [r0]
; BE-NEXT: pop {r11, lr}
; BE-NEXT: mov pc, lr		; BE-NEXT: mov pc, lr

%b = load i56, i56* %a, align 1		%b = load i56, i56* %a, align 1
%c = and i56 %b, -128		%c = and i56 %b, -128
%d = or i56 %c, 384		%d = or i56 %c, 384
store i56 %d, i56* %a, align 1		store i56 %d, i56* %a, align 1
ret void		ret void
}		}

define void @i56_insert_bit(i56* %a, i1 zeroext %bit) {		define void @i56_insert_bit(i56* %a, i1 zeroext %bit) {
; LE-LABEL: i56_insert_bit:		; LE-LABEL: i56_insert_bit:
; LE: @ BB#0:		; LE: @ BB#0:
; LE-NEXT: .save {r11, lr}		; LE-NEXT: ldr r2, [r0]
; LE-NEXT: push {r11, lr}		; LE-NEXT: bic r2, r2, #8192
; LE-NEXT: mov r3, r0
; LE-NEXT: ldr lr, [r0]
; LE-NEXT: ldrh r12, [r3, #4]!
; LE-NEXT: ldrb r2, [r3, #2]
; LE-NEXT: strb r2, [r3, #2]
; LE-NEXT: bic r2, lr, #8192
; LE-NEXT: orr r1, r2, r1, lsl #13		; LE-NEXT: orr r1, r2, r1, lsl #13
; LE-NEXT: str r1, [r0]		; LE-NEXT: str r1, [r0]
; LE-NEXT: strh r12, [r3]
; LE-NEXT: pop {r11, lr}
; LE-NEXT: mov pc, lr		; LE-NEXT: mov pc, lr
;		;
; BE-LABEL: i56_insert_bit:		; BE-LABEL: i56_insert_bit:
; BE: @ BB#0:		; BE: @ BB#0:
; BE-NEXT: .save {r11, lr}		; BE-NEXT: .save {r11, lr}
; BE-NEXT: push {r11, lr}		; BE-NEXT: push {r11, lr}
; BE-NEXT: mov r2, r0		; BE-NEXT: mov r2, r0
; BE-NEXT: ldr lr, [r0]		; BE-NEXT: ldr lr, [r0]
Show All 23 Lines

test/CodeGen/ARM/static-addr-hoisting.ll

	; RUN: llc -mtriple=thumbv7-apple-ios %s -o - \| FileCheck %s			; RUN: llc -mtriple=thumbv7-apple-ios %s -o - \| FileCheck %s

	define void @multiple_store() {			define void @multiple_store() {
	; CHECK-LABEL: multiple_store:			; CHECK-LABEL: multiple_store:
	; CHECK: movw r[[BASE1:[0-9]+]], #16960			; CHECK: movw r[[BASE1:[0-9]+]], #16960
	; CHECK: movs [[VAL:r[0-9]+]], #42			; CHECK: movs [[VAL:r[0-9]+]], #42
	; CHECK: movt r[[BASE1]], #15			; CHECK: movt r[[BASE1]], #15

	; CHECK: str [[VAL]], [r[[BASE1]]]			; CHECK-DAG: str [[VAL]], [r[[BASE1]]]
	; CHECK: str [[VAL]], [r[[BASE1]], #24]			; CHECK-DAG: str [[VAL]], [r[[BASE1]], #24]
	; CHECK: str.w [[VAL]], [r[[BASE1]], #42]			; CHECK-DAG: str.w [[VAL]], [r[[BASE1]], #42]

	; CHECK: movw r[[BASE2:[0-9]+]], #20394			; CHECK: movw r[[BASE2:[0-9]+]], #20394
	; CHECK: movt r[[BASE2]], #18			; CHECK: movt r[[BASE2]], #18

	; CHECK: str [[VAL]], [r[[BASE2]]]			; CHECK: str [[VAL]], [r[[BASE2]]]
	store i32 42, i32* inttoptr(i32 1000000 to i32*)			store i32 42, i32* inttoptr(i32 1000000 to i32*)
	store i32 42, i32* inttoptr(i32 1000024 to i32*)			store i32 42, i32* inttoptr(i32 1000024 to i32*)
	store i32 42, i32* inttoptr(i32 1000042 to i32*)			store i32 42, i32* inttoptr(i32 1000042 to i32*)
	store i32 42, i32* inttoptr(i32 1200042 to i32*)			store i32 42, i32* inttoptr(i32 1200042 to i32*)
	ret void			ret void
	}			}

test/CodeGen/BPF/undef.ll

	; RUN: not llc < %s -march=bpf \| FileCheck %s			; RUN: not llc < %s -march=bpf \| FileCheck %s

	%struct.bpf_map_def = type { i32, i32, i32, i32 }			%struct.bpf_map_def = type { i32, i32, i32, i32 }
	%struct.__sk_buff = type opaque			%struct.__sk_buff = type opaque
	%struct.routing_key_2 = type { [6 x i8] }			%struct.routing_key_2 = type { [6 x i8] }

	@routing = global %struct.bpf_map_def { i32 1, i32 6, i32 12, i32 1024 }, section "maps", align 4			@routing = global %struct.bpf_map_def { i32 1, i32 6, i32 12, i32 1024 }, section "maps", align 4
	@routing_miss_0 = global %struct.bpf_map_def { i32 1, i32 1, i32 12, i32 1 }, section "maps", align 4			@routing_miss_0 = global %struct.bpf_map_def { i32 1, i32 1, i32 12, i32 1 }, section "maps", align 4
	@test1 = global %struct.bpf_map_def { i32 2, i32 4, i32 8, i32 1024 }, section "maps", align 4			@test1 = global %struct.bpf_map_def { i32 2, i32 4, i32 8, i32 1024 }, section "maps", align 4
	@test1_miss_4 = global %struct.bpf_map_def { i32 2, i32 1, i32 8, i32 1 }, section "maps", align 4			@test1_miss_4 = global %struct.bpf_map_def { i32 2, i32 1, i32 8, i32 1 }, section "maps", align 4
	@_license = global [4 x i8] c"GPL\00", section "license", align 1			@_license = global [4 x i8] c"GPL\00", section "license", align 1
	@llvm.used = appending global [6 x i8] [i8 getelementptr inbounds ([4 x i8], [4 x i8]* @_license, i32 0, i32 0), i8* bitcast (i32 (%struct.__sk_buff) @ebpf_filter to i8), i8 bitcast (%struct.bpf_map_def* @routing to i8), i8 bitcast (%struct.bpf_map_def* @routing_miss_0 to i8), i8 bitcast (%struct.bpf_map_def* @test1 to i8), i8 bitcast (%struct.bpf_map_def* @test1_miss_4 to i8*)], section "llvm.metadata"			@llvm.used = appending global [6 x i8] [i8 getelementptr inbounds ([4 x i8], [4 x i8]* @_license, i32 0, i32 0), i8* bitcast (i32 (%struct.__sk_buff) @ebpf_filter to i8), i8 bitcast (%struct.bpf_map_def* @routing to i8), i8 bitcast (%struct.bpf_map_def* @routing_miss_0 to i8), i8 bitcast (%struct.bpf_map_def* @test1 to i8), i8 bitcast (%struct.bpf_map_def* @test1_miss_4 to i8*)], section "llvm.metadata"

	; Function Attrs: nounwind uwtable			; Function Attrs: nounwind uwtable
	define i32 @ebpf_filter(%struct.__sk_buff* nocapture readnone %ebpf_packet) #0 section "socket1" {			define i32 @ebpf_filter(%struct.__sk_buff* nocapture readnone %ebpf_packet) #0 section "socket1" {
				; CHECK: r2 = r10
				; CHECK: r2 += -2
				; CHECK: r1 = 0
				; CHECK: (u16 )(r2 + 6) = r1
				; CHECK: (u16 )(r2 + 4) = r1
				; CHECK: (u16 )(r2 + 2) = r1
				; CHECK: r2 = 6
				; CHECK: (u8 )(r10 - 7) = r2
				; CHECK: r2 = 5
				; CHECK: (u8 )(r10 - 8) = r2
				; CHECK: r2 = 7
				; CHECK: (u8 )(r10 - 6) = r2
				; CHECK: r2 = 8
				; CHECK: (u8 )(r10 - 5) = r2
				; CHECK: r2 = 9
				; CHECK: (u8 )(r10 - 4) = r2
				; CHECK: r2 = 10
				; CHECK: (u8 )(r10 - 3) = r2
				; CHECK: (u16 )(r10 + 24) = r1
				; CHECK: (u16 )(r10 + 22) = r1
				; CHECK: (u16 )(r10 + 20) = r1
				; CHECK: (u16 )(r10 + 18) = r1
				; CHECK: (u16 )(r10 + 16) = r1
				; CHECK: (u16 )(r10 + 14) = r1
				; CHECK: (u16 )(r10 + 12) = r1
				; CHECK: (u16 )(r10 + 10) = r1
				; CHECK: (u16 )(r10 + 8) = r1
				; CHECK: (u16 )(r10 + 6) = r1
				; CHECK: (u16 )(r10 - 2) = r1
				; CHECK: (u16 )(r10 + 26) = r1
				; CHECK: r2 = r10
				; CHECK: r2 += -8
				; CHECK: r1 = <MCOperand Expr:(routing)>ll
				; CHECK: call bpf_map_lookup_elem
				; CHECK: exit
	%key = alloca %struct.routing_key_2, align 1			%key = alloca %struct.routing_key_2, align 1
	%1 = getelementptr inbounds %struct.routing_key_2, %struct.routing_key_2* %key, i64 0, i32 0, i64 0			%1 = getelementptr inbounds %struct.routing_key_2, %struct.routing_key_2* %key, i64 0, i32 0, i64 0
	; CHECK: r1 = 5
	; CHECK: (u8 )(r10 - 8) = r1
	store i8 5, i8* %1, align 1			store i8 5, i8* %1, align 1
	%2 = getelementptr inbounds %struct.routing_key_2, %struct.routing_key_2* %key, i64 0, i32 0, i64 1			%2 = getelementptr inbounds %struct.routing_key_2, %struct.routing_key_2* %key, i64 0, i32 0, i64 1
	; CHECK: r1 = 6
	; CHECK: (u8 )(r10 - 7) = r1
	store i8 6, i8* %2, align 1			store i8 6, i8* %2, align 1
	%3 = getelementptr inbounds %struct.routing_key_2, %struct.routing_key_2* %key, i64 0, i32 0, i64 2			%3 = getelementptr inbounds %struct.routing_key_2, %struct.routing_key_2* %key, i64 0, i32 0, i64 2
	; CHECK: r1 = 7
	; CHECK: (u8 )(r10 - 6) = r1
	store i8 7, i8* %3, align 1			store i8 7, i8* %3, align 1
	%4 = getelementptr inbounds %struct.routing_key_2, %struct.routing_key_2* %key, i64 0, i32 0, i64 3			%4 = getelementptr inbounds %struct.routing_key_2, %struct.routing_key_2* %key, i64 0, i32 0, i64 3
	; CHECK: r1 = 8
	; CHECK: (u8 )(r10 - 5) = r1
	store i8 8, i8* %4, align 1			store i8 8, i8* %4, align 1
	%5 = getelementptr inbounds %struct.routing_key_2, %struct.routing_key_2* %key, i64 0, i32 0, i64 4			%5 = getelementptr inbounds %struct.routing_key_2, %struct.routing_key_2* %key, i64 0, i32 0, i64 4
	; CHECK: r1 = 9
	; CHECK: (u8 )(r10 - 4) = r1
	store i8 9, i8* %5, align 1			store i8 9, i8* %5, align 1
	%6 = getelementptr inbounds %struct.routing_key_2, %struct.routing_key_2* %key, i64 0, i32 0, i64 5			%6 = getelementptr inbounds %struct.routing_key_2, %struct.routing_key_2* %key, i64 0, i32 0, i64 5
	; CHECK: r1 = 10
	; CHECK: (u8 )(r10 - 3) = r1
	store i8 10, i8* %6, align 1			store i8 10, i8* %6, align 1
	%7 = getelementptr inbounds %struct.routing_key_2, %struct.routing_key_2* %key, i64 1, i32 0, i64 0			%7 = getelementptr inbounds %struct.routing_key_2, %struct.routing_key_2* %key, i64 1, i32 0, i64 0
	; CHECK: r1 = r10
	; CHECK: r1 += -2
	; CHECK: r2 = 0
	; CHECK: (u16 )(r1 + 6) = r2
	; CHECK: (u16 )(r1 + 4) = r2
	; CHECK: (u16 )(r1 + 2) = r2
	; CHECK: (u16 )(r10 + 24) = r2
	; CHECK: (u16 )(r10 + 22) = r2
	; CHECK: (u16 )(r10 + 20) = r2
	; CHECK: (u16 )(r10 + 18) = r2
	; CHECK: (u16 )(r10 + 16) = r2
	; CHECK: (u16 )(r10 + 14) = r2
	; CHECK: (u16 )(r10 + 12) = r2
	; CHECK: (u16 )(r10 + 10) = r2
	; CHECK: (u16 )(r10 + 8) = r2
	; CHECK: (u16 )(r10 + 6) = r2
	; CHECK: (u16 )(r10 - 2) = r2
	; CHECK: (u16 )(r10 + 26) = r2
	call void @llvm.memset.p0i8.i64(i8* %7, i8 0, i64 30, i32 1, i1 false)			call void @llvm.memset.p0i8.i64(i8* %7, i8 0, i64 30, i32 1, i1 false)
	%8 = call i32 (%struct.bpf_map_def, %struct.routing_key_2, ...) bitcast (i32 (...)* @bpf_map_lookup_elem to i32 (%struct.bpf_map_def, %struct.routing_key_2, ...))(%struct.bpf_map_def nonnull @routing, %struct.routing_key_2* nonnull %key) #3			%8 = call i32 (%struct.bpf_map_def, %struct.routing_key_2, ...) bitcast (i32 (...)* @bpf_map_lookup_elem to i32 (%struct.bpf_map_def, %struct.routing_key_2, ...))(%struct.bpf_map_def nonnull @routing, %struct.routing_key_2* nonnull %key) #3
	ret i32 undef			ret i32 undef
	}			}

	; Function Attrs: nounwind argmemonly			; Function Attrs: nounwind argmemonly
	declare void @llvm.memset.p0i8.i64(i8* nocapture, i8, i64, i32, i1) #1			declare void @llvm.memset.p0i8.i64(i8* nocapture, i8, i64, i32, i1) #1

	declare i32 @bpf_map_lookup_elem(...) #2			declare i32 @bpf_map_lookup_elem(...) #2

test/CodeGen/MSP430/Inst16mm.ll

	; RUN: llc -march=msp430 -combiner-alias-analysis < %s \| FileCheck %s			; RUN: llc -march=msp430 < %s \| FileCheck %s
	target datalayout = "e-p:16:8:8-i8:8:8-i16:8:8-i32:8:8"			target datalayout = "e-p:16:8:8-i8:8:8-i16:8:8-i32:8:8"
	target triple = "msp430-generic-generic"			target triple = "msp430-generic-generic"
	@foo = common global i16 0, align 2			@foo = common global i16 0, align 2
	@bar = common global i16 0, align 2			@bar = common global i16 0, align 2

	define void @mov() nounwind {			define void @mov() nounwind {
	; CHECK-LABEL: mov:			; CHECK-LABEL: mov:
	; CHECK: mov.w &bar, &foo			; CHECK: mov.w &bar, &foo
	▲ Show 20 Lines • Show All 60 Lines • Show Last 20 Lines

test/CodeGen/Mips/cconv/arguments-float.ll

	Show First 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
	; O32-DAG: sw $5, 12([[R2]])			; O32-DAG: sw $5, 12([[R2]])
	; NEW-DAG: sd $4, 8([[R2]])			; NEW-DAG: sd $4, 8([[R2]])

	; O32-DAG: sw $6, 16([[R2]])			; O32-DAG: sw $6, 16([[R2]])
	; O32-DAG: sw $7, 20([[R2]])			; O32-DAG: sw $7, 20([[R2]])
	; NEW-DAG: sd $5, 16([[R2]])			; NEW-DAG: sd $5, 16([[R2]])

	; O32 has run out of argument registers and starts using the stack			; O32 has run out of argument registers and starts using the stack
	; O32-DAG: lw [[R3:\$([0-9]+\|gp)]], 24($sp)			; O32-DAG: lw [[R3:\$([0-9]+\|gp)]], 16($sp)
	; O32-DAG: lw [[R4:\$([0-9]+\|gp)]], 28($sp)			; O32-DAG: lw [[R4:\$([0-9]+\|gp)]], 20($sp)
	; O32-DAG: sw [[R3]], 24([[R2]])			; O32-DAG: sw [[R3]], 24([[R2]])
	; O32-DAG: sw [[R4]], 28([[R2]])			; O32-DAG: sw [[R4]], 28([[R2]])
	; NEW-DAG: sd $6, 24([[R2]])			; NEW-DAG: sd $6, 24([[R2]])

	; O32-DAG: lw [[R3:\$([0-9]+\|gp)]], 32($sp)			; O32-DAG: lw [[R3:\$([0-9]+\|gp)]], 24($sp)
	; O32-DAG: lw [[R4:\$([0-9]+\|gp)]], 36($sp)			; O32-DAG: lw [[R4:\$([0-9]+\|gp)]], 28($sp)
	; O32-DAG: sw [[R3]], 32([[R2]])			; O32-DAG: sw [[R3]], 32([[R2]])
	; O32-DAG: sw [[R4]], 36([[R2]])			; O32-DAG: sw [[R4]], 36([[R2]])
	; NEW-DAG: sd $7, 32([[R2]])			; NEW-DAG: sd $7, 32([[R2]])

	; O32-DAG: lw [[R3:\$([0-9]+\|gp)]], 40($sp)			; O32-DAG: lw [[R3:\$([0-9]+\|gp)]], 32($sp)
	; O32-DAG: lw [[R4:\$([0-9]+\|gp)]], 44($sp)			; O32-DAG: lw [[R4:\$([0-9]+\|gp)]], 36($sp)
	; O32-DAG: sw [[R3]], 40([[R2]])			; O32-DAG: sw [[R3]], 40([[R2]])
	; O32-DAG: sw [[R4]], 44([[R2]])			; O32-DAG: sw [[R4]], 44([[R2]])
	; NEW-DAG: sd $8, 40([[R2]])			; NEW-DAG: sd $8, 40([[R2]])

	; O32-DAG: lw [[R3:\$([0-9]+\|gp)]], 48($sp)			; O32-DAG: lw [[R3:\$([0-9]+\|gp)]], 40($sp)
	; O32-DAG: lw [[R4:\$([0-9]+\|gp)]], 52($sp)			; O32-DAG: lw [[R4:\$([0-9]+\|gp)]], 44($sp)
	; O32-DAG: sw [[R3]], 48([[R2]])			; O32-DAG: sw [[R3]], 48([[R2]])
	; O32-DAG: sw [[R4]], 52([[R2]])			; O32-DAG: sw [[R4]], 52([[R2]])
	; NEW-DAG: sd $9, 48([[R2]])			; NEW-DAG: sd $9, 48([[R2]])

	; O32-DAG: lw [[R3:\$([0-9]+\|gp)]], 56($sp)			; O32-DAG: lw [[R3:\$([0-9]+\|gp)]], 48($sp)
	; O32-DAG: lw [[R4:\$([0-9]+\|gp)]], 60($sp)			; O32-DAG: lw [[R4:\$([0-9]+\|gp)]], 52($sp)
	; O32-DAG: sw [[R3]], 56([[R2]])			; O32-DAG: sw [[R3]], 56([[R2]])
	; O32-DAG: sw [[R4]], 60([[R2]])			; O32-DAG: sw [[R4]], 60([[R2]])
	; NEW-DAG: sd $10, 56([[R2]])			; NEW-DAG: sd $10, 56([[R2]])

	; N32/N64 have run out of registers and starts using the stack too			; N32/N64 have run out of registers and starts using the stack too
	; O32-DAG: lw [[R3:\$[0-9]+]], 64($sp)			; O32-DAG: lw [[R3:\$[0-9]+]], 56($sp)
	; O32-DAG: lw [[R4:\$[0-9]+]], 68($sp)			; O32-DAG: lw [[R4:\$[0-9]+]], 60($sp)
	; O32-DAG: sw [[R3]], 64([[R2]])			; O32-DAG: sw [[R3]], 64([[R2]])
	; O32-DAG: sw [[R4]], 68([[R2]])			; O32-DAG: sw [[R4]], 68([[R2]])
	; NEW-DAG: ld [[R3:\$[0-9]+]], 0($sp)			; NEW-DAG: ld [[R3:\$[0-9]+]], 0($sp)
	; NEW-DAG: sd $11, 64([[R2]])			; NEW-DAG: sd $11, 64([[R2]])

	define void @float_args(float %a, float %b, float %c, float %d, float %e,			define void @float_args(float %a, float %b, float %c, float %d, float %e,
	float %f, float %g, float %h, float %i, float %j)			float %f, float %g, float %h, float %i, float %j)
	nounwind {			nounwind {
	▲ Show 20 Lines • Show All 117 Lines • Show Last 20 Lines

test/CodeGen/Mips/cconv/arguments-varargs.ll

	Show First 20 Lines • Show All 309 Lines • ▼ Show 20 Lines
	; N64-DAG: sd [[VA2]], 0([[SP]])			; N64-DAG: sd [[VA2]], 0([[SP]])

	; Load the first argument from the variable portion and copy it to the global.			; Load the first argument from the variable portion and copy it to the global.
	; This has used the stack pointer directly rather than the [[VA]] we just set			; This has used the stack pointer directly rather than the [[VA]] we just set
	; up.			; up.
	; Big-endian mode for N32/N64 must add an additional 4 to the offset due to byte			; Big-endian mode for N32/N64 must add an additional 4 to the offset due to byte
	; order.			; order.
	; O32-DAG: addiu [[GV:\$[0-9]+]], ${{[0-9]+}}, %lo(dwords)			; O32-DAG: addiu [[GV:\$[0-9]+]], ${{[0-9]+}}, %lo(dwords)
	; O32-DAG: lw [[ARG1:\$[0-9]+]], 0([[VA]])			; O32-DAG: lw [[ARG1:\$[0-9]+]], 0([[VA_TMP2]])
	; O32-DAG: sw [[ARG1]], 8([[GV]])			; O32-DAG: sw [[ARG1]], 8([[GV]])
	; O32-DAG: lw [[VA:\$[0-9]+]], 0([[SP]])			; O32-DAG: addiu [[VA3:\$[0-9]+]], [[VA2]], 4
	; O32-DAG: addiu [[VA2:\$[0-9]+]], [[VA]], 4			; O32-DAG: sw [[VA3]], 0([[SP]])
	; O32-DAG: sw [[VA2]], 0([[SP]])			; O32-DAG: lw [[ARG1:\$[0-9]+]], 4([[VA_TMP2]])
	; O32-DAG: lw [[ARG1:\$[0-9]+]], 0([[VA]])
	; O32-DAG: sw [[ARG1]], 12([[GV]])			; O32-DAG: sw [[ARG1]], 12([[GV]])

	; N32-DAG: addiu [[GV:\$[0-9]+]], ${{[0-9]+}}, %lo(dwords)			; N32-DAG: addiu [[GV:\$[0-9]+]], ${{[0-9]+}}, %lo(dwords)
	; N64-DAG: daddiu [[GV:\$[0-9]+]], ${{[0-9]+}}, %lo(dwords)			; N64-DAG: daddiu [[GV:\$[0-9]+]], ${{[0-9]+}}, %lo(dwords)
	; NEW-DAG: ld [[ARG1:\$[0-9]+]], 0([[VA]])			; NEW-DAG: ld [[ARG1:\$[0-9]+]], 0([[VA]])
	; NEW-DAG: sd [[ARG1]], 8([[GV]])			; NEW-DAG: sd [[ARG1]], 8([[GV]])

	; ALL: teqi $zero, 2			; ALL: teqi $zero, 2
	Show All 12 Lines

	; N64-DAG: ld [[VA2:\$[0-9]+]], 0([[SP]])			; N64-DAG: ld [[VA2:\$[0-9]+]], 0([[SP]])
	; N64-DAG: daddiu [[VA3:\$[0-9]+]], [[VA2]], 8			; N64-DAG: daddiu [[VA3:\$[0-9]+]], [[VA2]], 8
	; N64-DAG: sd [[VA3]], 0([[SP]])			; N64-DAG: sd [[VA3]], 0([[SP]])

	; Load the second argument from the variable portion and copy it to the global.			; Load the second argument from the variable portion and copy it to the global.
	; O32-DAG: lw [[ARG2:\$[0-9]+]], 0([[VA]])			; O32-DAG: lw [[ARG2:\$[0-9]+]], 0([[VA]])
	; O32-DAG: sw [[ARG2]], 16([[GV]])			; O32-DAG: sw [[ARG2]], 16([[GV]])
	; O32-DAG: lw [[VA:\$[0-9]+]], 0([[SP]])			; O32-DAG: addiu [[VA3:\$[0-9]+]], [[VA2]], 4
	; O32-DAG: addiu [[VA2:\$[0-9]+]], [[VA]], 4			; O32-DAG: sw [[VA3]], 0([[SP]])
	; O32-DAG: sw [[VA2]], 0([[SP]])			; O32-DAG: lw [[ARG2:\$[0-9]+]], 4([[VA_TMP2]])
	; O32-DAG: lw [[ARG2:\$[0-9]+]], 0([[VA]])
	; O32-DAG: sw [[ARG2]], 20([[GV]])			; O32-DAG: sw [[ARG2]], 20([[GV]])

	; NEW-DAG: ld [[ARG2:\$[0-9]+]], 0([[VA2]])			; NEW-DAG: ld [[ARG2:\$[0-9]+]], 0([[VA2]])
	; NEW-DAG: sd [[ARG2]], 16([[GV]])			; NEW-DAG: sd [[ARG2]], 16([[GV]])

	%ap = alloca i8*, align 8			%ap = alloca i8*, align 8
	%ap2 = bitcast i8** %ap to i8*			%ap2 = bitcast i8** %ap to i8*
	call void @llvm.va_start(i8* %ap2)			call void @llvm.va_start(i8* %ap2)
	▲ Show 20 Lines • Show All 309 Lines • ▼ Show 20 Lines
	; N64-DAG: sd [[VA2]], 0([[SP]])			; N64-DAG: sd [[VA2]], 0([[SP]])

	; Load the first argument from the variable portion and copy it to the global.			; Load the first argument from the variable portion and copy it to the global.
	; This has used the stack pointer directly rather than the [[VA]] we just set			; This has used the stack pointer directly rather than the [[VA]] we just set
	; up.			; up.
	; Big-endian mode for N32/N64 must add an additional 4 to the offset due to byte			; Big-endian mode for N32/N64 must add an additional 4 to the offset due to byte
	; order.			; order.
	; O32-DAG: addiu [[GV:\$[0-9]+]], ${{[0-9]+}}, %lo(dwords)			; O32-DAG: addiu [[GV:\$[0-9]+]], ${{[0-9]+}}, %lo(dwords)
	; O32-DAG: lw [[ARG1:\$[0-9]+]], 0([[VA]])			; O32-DAG: lw [[ARG1:\$[0-9]+]], 0([[VA_TMP2]])
	; O32-DAG: sw [[ARG1]], 8([[GV]])			; O32-DAG: sw [[ARG1]], 8([[GV]])
	; O32-DAG: lw [[VA:\$[0-9]+]], 0([[SP]])			; O32-DAG: addiu [[VA3:\$[0-9]+]], [[VA2]], 4
	; O32-DAG: addiu [[VA2:\$[0-9]+]], [[VA]], 4			; O32-DAG: sw [[VA3]], 0([[SP]])
	; O32-DAG: sw [[VA2]], 0([[SP]])			; O32-DAG: lw [[ARG1:\$[0-9]+]], 4([[VA_TMP2]])
	; O32-DAG: lw [[ARG1:\$[0-9]+]], 0([[VA]])
	; O32-DAG: sw [[ARG1]], 12([[GV]])			; O32-DAG: sw [[ARG1]], 12([[GV]])

	; N32-DAG: addiu [[GV:\$[0-9]+]], ${{[0-9]+}}, %lo(dwords)			; N32-DAG: addiu [[GV:\$[0-9]+]], ${{[0-9]+}}, %lo(dwords)
	; N64-DAG: daddiu [[GV:\$[0-9]+]], ${{[0-9]+}}, %lo(dwords)			; N64-DAG: daddiu [[GV:\$[0-9]+]], ${{[0-9]+}}, %lo(dwords)
	; NEW-DAG: ld [[ARG1:\$[0-9]+]], 0([[VA]])			; NEW-DAG: ld [[ARG1:\$[0-9]+]], 0([[VA]])
	; NEW-DAG: sd [[ARG1]], 8([[GV]])			; NEW-DAG: sd [[ARG1]], 8([[GV]])

	; ALL: teqi $zero, 2			; ALL: teqi $zero, 2
	Show All 12 Lines

	; N64-DAG: ld [[VA2:\$[0-9]+]], 0([[SP]])			; N64-DAG: ld [[VA2:\$[0-9]+]], 0([[SP]])
	; N64-DAG: daddiu [[VA3:\$[0-9]+]], [[VA2]], 8			; N64-DAG: daddiu [[VA3:\$[0-9]+]], [[VA2]], 8
	; N64-DAG: sd [[VA3]], 0([[SP]])			; N64-DAG: sd [[VA3]], 0([[SP]])

	; Load the second argument from the variable portion and copy it to the global.			; Load the second argument from the variable portion and copy it to the global.
	; O32-DAG: lw [[ARG2:\$[0-9]+]], 0([[VA]])			; O32-DAG: lw [[ARG2:\$[0-9]+]], 0([[VA]])
	; O32-DAG: sw [[ARG2]], 16([[GV]])			; O32-DAG: sw [[ARG2]], 16([[GV]])
	; O32-DAG: lw [[VA:\$[0-9]+]], 0([[SP]])			; O32-DAG: addiu [[VA3:\$[0-9]+]], [[VA2]], 4
	; O32-DAG: addiu [[VA2:\$[0-9]+]], [[VA]], 4
	; O32-DAG: sw [[VA2]], 0([[SP]])			; O32-DAG: sw [[VA2]], 0([[SP]])
	; O32-DAG: lw [[ARG2:\$[0-9]+]], 0([[VA]])			; O32-DAG: lw [[ARG2:\$[0-9]+]], 4([[VA_TMP2]])
	; O32-DAG: sw [[ARG2]], 20([[GV]])			; O32-DAG: sw [[ARG2]], 20([[GV]])

	; NEW-DAG: ld [[ARG2:\$[0-9]+]], 0([[VA2]])			; NEW-DAG: ld [[ARG2:\$[0-9]+]], 0([[VA2]])
	; NEW-DAG: sd [[ARG2]], 16([[GV]])			; NEW-DAG: sd [[ARG2]], 16([[GV]])

	%ap = alloca i8*, align 8			%ap = alloca i8*, align 8
	%ap2 = bitcast i8** %ap to i8*			%ap2 = bitcast i8** %ap to i8*
	call void @llvm.va_start(i8* %ap2)			call void @llvm.va_start(i8* %ap2)
	▲ Show 20 Lines • Show All 308 Lines • ▼ Show 20 Lines
	; Load the first argument from the variable portion and copy it to the global.			; Load the first argument from the variable portion and copy it to the global.
	; This has used the stack pointer directly rather than the [[VA]] we just set			; This has used the stack pointer directly rather than the [[VA]] we just set
	; up.			; up.
	; Big-endian mode for N32/N64 must add an additional 4 to the offset due to byte			; Big-endian mode for N32/N64 must add an additional 4 to the offset due to byte
	; order.			; order.
	; O32-DAG: addiu [[GV:\$[0-9]+]], ${{[0-9]+}}, %lo(dwords)			; O32-DAG: addiu [[GV:\$[0-9]+]], ${{[0-9]+}}, %lo(dwords)
	; O32-DAG: lw [[ARG1:\$[0-9]+]], 0([[VA]])			; O32-DAG: lw [[ARG1:\$[0-9]+]], 0([[VA]])
	; O32-DAG: sw [[ARG1]], 8([[GV]])			; O32-DAG: sw [[ARG1]], 8([[GV]])
	; O32-DAG: lw [[VA:\$[0-9]+]], 0([[SP]])			; O32-DAG: addiu [[VA3:\$[0-9]+]], [[VA2]], 4
	; O32-DAG: addiu [[VA2:\$[0-9]+]], [[VA]], 4			; O32-DAG: sw [[VA3]], 0([[SP]])
	; O32-DAG: sw [[VA2]], 0([[SP]])			; O32-DAG: lw [[ARG1:\$[0-9]+]], 4([[VA_TMP2]])
	; O32-DAG: lw [[ARG1:\$[0-9]+]], 0([[VA]])
	; O32-DAG: sw [[ARG1]], 12([[GV]])			; O32-DAG: sw [[ARG1]], 12([[GV]])

	; N32-DAG: addiu [[GV:\$[0-9]+]], ${{[0-9]+}}, %lo(dwords)			; N32-DAG: addiu [[GV:\$[0-9]+]], ${{[0-9]+}}, %lo(dwords)
	; N64-DAG: daddiu [[GV:\$[0-9]+]], ${{[0-9]+}}, %lo(dwords)			; N64-DAG: daddiu [[GV:\$[0-9]+]], ${{[0-9]+}}, %lo(dwords)
	; NEW-DAG: ld [[ARG1:\$[0-9]+]], 0([[VA]])			; NEW-DAG: ld [[ARG1:\$[0-9]+]], 0([[VA]])
	; NEW-DAG: sd [[ARG1]], 8([[GV]])			; NEW-DAG: sd [[ARG1]], 8([[GV]])

	; ALL: teqi $zero, 2			; ALL: teqi $zero, 2
	Show All 12 Lines

	; N64-DAG: ld [[VA2:\$[0-9]+]], 0([[SP]])			; N64-DAG: ld [[VA2:\$[0-9]+]], 0([[SP]])
	; N64-DAG: daddiu [[VA3:\$[0-9]+]], [[VA2]], 8			; N64-DAG: daddiu [[VA3:\$[0-9]+]], [[VA2]], 8
	; N64-DAG: sd [[VA3]], 0([[SP]])			; N64-DAG: sd [[VA3]], 0([[SP]])

	; Load the second argument from the variable portion and copy it to the global.			; Load the second argument from the variable portion and copy it to the global.
	; O32-DAG: lw [[ARG2:\$[0-9]+]], 0([[VA]])			; O32-DAG: lw [[ARG2:\$[0-9]+]], 0([[VA]])
	; O32-DAG: sw [[ARG2]], 16([[GV]])			; O32-DAG: sw [[ARG2]], 16([[GV]])
	; O32-DAG: lw [[VA:\$[0-9]+]], 0([[SP]])			; O32-DAG: addiu [[VA3:\$[0-9]+]], [[VA2]], 4
	; O32-DAG: addiu [[VA2:\$[0-9]+]], [[VA]], 4			; O32-DAG: sw [[VA3]], 0([[SP]])
	; O32-DAG: sw [[VA2]], 0([[SP]])			; O32-DAG: lw [[ARG2:\$[0-9]+]], 4([[VA_TMP2]])
	; O32-DAG: lw [[ARG2:\$[0-9]+]], 0([[VA]])
	; O32-DAG: sw [[ARG2]], 20([[GV]])			; O32-DAG: sw [[ARG2]], 20([[GV]])

	; NEW-DAG: ld [[ARG2:\$[0-9]+]], 0([[VA2]])			; NEW-DAG: ld [[ARG2:\$[0-9]+]], 0([[VA2]])
	; NEW-DAG: sd [[ARG2]], 16([[GV]])			; NEW-DAG: sd [[ARG2]], 16([[GV]])

	%ap = alloca i8*, align 8			%ap = alloca i8*, align 8
	%ap2 = bitcast i8** %ap to i8*			%ap2 = bitcast i8** %ap to i8*
	call void @llvm.va_start(i8* %ap2)			call void @llvm.va_start(i8* %ap2)
	Show All 18 Lines

test/CodeGen/Mips/fastcc.ll

Show First 20 Lines • Show All 126 Lines • ▼ Show 20 Lines	; CHECK-NACL-NOT: lw $24
%16 = load i32, i32* @gi16, align 4		%16 = load i32, i32* @gi16, align 4
tail call fastcc void @callee0(i32 %0, i32 %1, i32 %2, i32 %3, i32 %4, i32 %5, i32 %6, i32 %7, i32 %8, i32 %9, i32 %10, i32 %11, i32 %12, i32 %13, i32 %14, i32 %15, i32 %16)		tail call fastcc void @callee0(i32 %0, i32 %1, i32 %2, i32 %3, i32 %4, i32 %5, i32 %6, i32 %7, i32 %8, i32 %9, i32 %10, i32 %11, i32 %12, i32 %13, i32 %14, i32 %15, i32 %16)
ret void		ret void
}		}

define internal fastcc void @callee0(i32 %a0, i32 %a1, i32 %a2, i32 %a3, i32 %a4, i32 %a5, i32 %a6, i32 %a7, i32 %a8, i32 %a9, i32 %a10, i32 %a11, i32 %a12, i32 %a13, i32 %a14, i32 %a15, i32 %a16) nounwind noinline {		define internal fastcc void @callee0(i32 %a0, i32 %a1, i32 %a2, i32 %a3, i32 %a4, i32 %a5, i32 %a6, i32 %a7, i32 %a8, i32 %a9, i32 %a10, i32 %a11, i32 %a12, i32 %a13, i32 %a14, i32 %a15, i32 %a16) nounwind noinline {
entry:		entry:
; CHECK: callee0		; CHECK: callee0
; CHECK: sw $4		; CHECK-DAG: sw $4
; CHECK: sw $5		; CHECK-DAG: sw $5
; CHECK: sw $6		; CHECK-DAG: sw $7
; CHECK: sw $7		; CHECK-DAG: sw $8
; CHECK: sw $8		; CHECK-DAG: sw $9
; CHECK: sw $9		; CHECK-DAG: sw $10
; CHECK: sw $10		; CHECK-DAG: sw $11
; CHECK: sw $11		; CHECK-DAG: sw $12
; CHECK: sw $12		; CHECK-DAG: sw $13
; CHECK: sw $13		; CHECK-DAG: sw $14
; CHECK: sw $14		; CHECK-DAG: sw $15
; CHECK: sw $15		; CHECK-DAG: sw $24
; CHECK: sw $24		; CHECK-DAG: sw $3
; CHECK: sw $3

; t6, t7 and t8 are reserved in NaCl and cannot be used for fastcc.		; t6, t7 and t8 are reserved in NaCl and cannot be used for fastcc.
; CHECK-NACL-NOT: sw $14		; CHECK-NACL-NOT: sw $14
; CHECK-NACL-NOT: sw $15		; CHECK-NACL-NOT: sw $15
; CHECK-NACL-NOT: sw $24		; CHECK-NACL-NOT: sw $24

store i32 %a0, i32* @g0, align 4		store i32 %a0, i32* @g0, align 4
store i32 %a1, i32* @g1, align 4		store i32 %a1, i32* @g1, align 4
▲ Show 20 Lines • Show All 61 Lines • ▼ Show 20 Lines	; CHECK: lwc1 $f0
%19 = load float, float* @gfa19, align 4		%19 = load float, float* @gfa19, align 4
%20 = load float, float* @gfa20, align 4		%20 = load float, float* @gfa20, align 4
tail call fastcc void @callee1(float %0, float %1, float %2, float %3, float %4, float %5, float %6, float %7, float %8, float %9, float %10, float %11, float %12, float %13, float %14, float %15, float %16, float %17, float %18, float %19, float %20)		tail call fastcc void @callee1(float %0, float %1, float %2, float %3, float %4, float %5, float %6, float %7, float %8, float %9, float %10, float %11, float %12, float %13, float %14, float %15, float %16, float %17, float %18, float %19, float %20)
ret void		ret void
}		}

define internal fastcc void @callee1(float %a0, float %a1, float %a2, float %a3, float %a4, float %a5, float %a6, float %a7, float %a8, float %a9, float %a10, float %a11, float %a12, float %a13, float %a14, float %a15, float %a16, float %a17, float %a18, float %a19, float %a20) nounwind noinline {		define internal fastcc void @callee1(float %a0, float %a1, float %a2, float %a3, float %a4, float %a5, float %a6, float %a7, float %a8, float %a9, float %a10, float %a11, float %a12, float %a13, float %a14, float %a15, float %a16, float %a17, float %a18, float %a19, float %a20) nounwind noinline {
entry:		entry:
; CHECK: callee1		; CHECK-LABEL: callee1:
; CHECK: swc1 $f0		; CHECK-DAG: swc1 $f0
; CHECK: swc1 $f1		; CHECK-DAG: swc1 $f1
; CHECK: swc1 $f2		; CHECK-DAG: swc1 $f2
; CHECK: swc1 $f3		; CHECK-DAG: swc1 $f3
; CHECK: swc1 $f4		; CHECK-DAG: swc1 $f4
; CHECK: swc1 $f5		; CHECK-DAG: swc1 $f5
; CHECK: swc1 $f6		; CHECK-DAG: swc1 $f6
; CHECK: swc1 $f7		; CHECK-DAG: swc1 $f7
; CHECK: swc1 $f8		; CHECK-DAG: swc1 $f8
; CHECK: swc1 $f9		; CHECK-DAG: swc1 $f9
; CHECK: swc1 $f10		; CHECK-DAG: swc1 $f10
; CHECK: swc1 $f11		; CHECK-DAG: swc1 $f11
; CHECK: swc1 $f12		; CHECK-DAG: swc1 $f12
; CHECK: swc1 $f13		; CHECK-DAG: swc1 $f13
; CHECK: swc1 $f14		; CHECK-DAG: swc1 $f14
; CHECK: swc1 $f15		; CHECK-DAG: swc1 $f15
; CHECK: swc1 $f16		; CHECK-DAG: swc1 $f16
; CHECK: swc1 $f17		; CHECK-DAG: swc1 $f17
; CHECK: swc1 $f18		; CHECK-DAG: swc1 $f18
; CHECK: swc1 $f19		; CHECK-DAG: swc1 $f19

store float %a0, float* @gf0, align 4		store float %a0, float* @gf0, align 4
store float %a1, float* @gf1, align 4		store float %a1, float* @gf1, align 4
store float %a2, float* @gf2, align 4		store float %a2, float* @gf2, align 4
store float %a3, float* @gf3, align 4		store float %a3, float* @gf3, align 4
store float %a4, float* @gf4, align 4		store float %a4, float* @gf4, align 4
store float %a5, float* @gf5, align 4		store float %a5, float* @gf5, align 4
store float %a6, float* @gf6, align 4		store float %a6, float* @gf6, align 4
▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines

define fastcc void @callee2(float %a0, float %a1, float %a2, float %a3,		define fastcc void @callee2(float %a0, float %a1, float %a2, float %a3,
float %a4, float %a5, float %a6, float %a7,		float %a4, float %a5, float %a6, float %a7,
float %a8, float %a9, float %a10) {		float %a8, float %a9, float %a10) {
entry:		entry:

; NOODDSPREG-LABEL: callee2:		; NOODDSPREG-LABEL: callee2:

; NOODDSPREG: addiu $sp, $sp, -[[OFFSET:[0-9]+]]

; Check that first 10 arguments are received in even float registers		; Check that first 10 arguments are received in even float registers
; f0, f2, ... , f18. Check that 11th argument is received on stack.		; f0, f2, ... , f18. Check that 11th argument is received on stack.

; NOODDSPREG-DAG: lw $[[R0:[0-9]+]], %got(fa)(${{[0-9]+\|gp}})		; NOODDSPREG-DAG: lw $[[R0:[0-9]+]], %got(fa)(${{[0-9]+\|gp}})
; NOODDSPREG-DAG: swc1 $f0, 0($[[R0]])		; NOODDSPREG-DAG: swc1 $f0, 0($[[R0]])
; NOODDSPREG-DAG: swc1 $f2, 4($[[R0]])		; NOODDSPREG-DAG: swc1 $f2, 4($[[R0]])
; NOODDSPREG-DAG: swc1 $f4, 8($[[R0]])		; NOODDSPREG-DAG: swc1 $f4, 8($[[R0]])
; NOODDSPREG-DAG: swc1 $f6, 12($[[R0]])		; NOODDSPREG-DAG: swc1 $f6, 12($[[R0]])
; NOODDSPREG-DAG: swc1 $f8, 16($[[R0]])		; NOODDSPREG-DAG: swc1 $f8, 16($[[R0]])
; NOODDSPREG-DAG: swc1 $f10, 20($[[R0]])		; NOODDSPREG-DAG: swc1 $f10, 20($[[R0]])
; NOODDSPREG-DAG: swc1 $f12, 24($[[R0]])		; NOODDSPREG-DAG: swc1 $f12, 24($[[R0]])
; NOODDSPREG-DAG: swc1 $f14, 28($[[R0]])		; NOODDSPREG-DAG: swc1 $f14, 28($[[R0]])
; NOODDSPREG-DAG: swc1 $f16, 32($[[R0]])		; NOODDSPREG-DAG: swc1 $f16, 32($[[R0]])
; NOODDSPREG-DAG: swc1 $f18, 36($[[R0]])		; NOODDSPREG-DAG: swc1 $f18, 36($[[R0]])

; NOODDSPREG-DAG: lwc1 $[[F0:f[0-9]*[02468]]], [[OFFSET]]($sp)		; NOODDSPREG-DAG: lwc1 $[[F0:f[0-9]*[02468]]], 0($sp)
; NOODDSPREG-DAG: swc1 $[[F0]], 40($[[R0]])		; NOODDSPREG-DAG: swc1 $[[F0]], 40($[[R0]])

store float %a0, float* getelementptr ([11 x float], [11 x float]* @fa, i32 0, i32 0), align 4		store float %a0, float* getelementptr ([11 x float], [11 x float]* @fa, i32 0, i32 0), align 4
store float %a1, float* getelementptr ([11 x float], [11 x float]* @fa, i32 0, i32 1), align 4		store float %a1, float* getelementptr ([11 x float], [11 x float]* @fa, i32 0, i32 1), align 4
store float %a2, float* getelementptr ([11 x float], [11 x float]* @fa, i32 0, i32 2), align 4		store float %a2, float* getelementptr ([11 x float], [11 x float]* @fa, i32 0, i32 2), align 4
store float %a3, float* getelementptr ([11 x float], [11 x float]* @fa, i32 0, i32 3), align 4		store float %a3, float* getelementptr ([11 x float], [11 x float]* @fa, i32 0, i32 3), align 4
store float %a4, float* getelementptr ([11 x float], [11 x float]* @fa, i32 0, i32 4), align 4		store float %a4, float* getelementptr ([11 x float], [11 x float]* @fa, i32 0, i32 4), align 4
store float %a5, float* getelementptr ([11 x float], [11 x float]* @fa, i32 0, i32 5), align 4		store float %a5, float* getelementptr ([11 x float], [11 x float]* @fa, i32 0, i32 5), align 4
▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines

define fastcc void @callee3(double %a0, double %a1, double %a2, double %a3,		define fastcc void @callee3(double %a0, double %a1, double %a2, double %a3,
double %a4, double %a5, double %a6, double %a7,		double %a4, double %a5, double %a6, double %a7,
double %a8, double %a9, double %a10) {		double %a8, double %a9, double %a10) {
entry:		entry:

; FP64-NOODDSPREG-LABEL: callee3:		; FP64-NOODDSPREG-LABEL: callee3:

; FP64-NOODDSPREG: addiu $sp, $sp, -[[OFFSET:[0-9]+]]

; Check that first 10 arguments are received in even float registers		; Check that first 10 arguments are received in even float registers
; f0, f2, ... , f18. Check that 11th argument is received on stack.		; f0, f2, ... , f18. Check that 11th argument is received on stack.

; FP64-NOODDSPREG-DAG: lw $[[R0:[0-9]+]], %got(da)(${{[0-9]+\|gp}})		; FP64-NOODDSPREG-DAG: lw $[[R0:[0-9]+]], %got(da)(${{[0-9]+\|gp}})
; FP64-NOODDSPREG-DAG: sdc1 $f0, 0($[[R0]])		; FP64-NOODDSPREG-DAG: sdc1 $f0, 0($[[R0]])
; FP64-NOODDSPREG-DAG: sdc1 $f2, 8($[[R0]])		; FP64-NOODDSPREG-DAG: sdc1 $f2, 8($[[R0]])
; FP64-NOODDSPREG-DAG: sdc1 $f4, 16($[[R0]])		; FP64-NOODDSPREG-DAG: sdc1 $f4, 16($[[R0]])
; FP64-NOODDSPREG-DAG: sdc1 $f6, 24($[[R0]])		; FP64-NOODDSPREG-DAG: sdc1 $f6, 24($[[R0]])
; FP64-NOODDSPREG-DAG: sdc1 $f8, 32($[[R0]])		; FP64-NOODDSPREG-DAG: sdc1 $f8, 32($[[R0]])
; FP64-NOODDSPREG-DAG: sdc1 $f10, 40($[[R0]])		; FP64-NOODDSPREG-DAG: sdc1 $f10, 40($[[R0]])
; FP64-NOODDSPREG-DAG: sdc1 $f12, 48($[[R0]])		; FP64-NOODDSPREG-DAG: sdc1 $f12, 48($[[R0]])
; FP64-NOODDSPREG-DAG: sdc1 $f14, 56($[[R0]])		; FP64-NOODDSPREG-DAG: sdc1 $f14, 56($[[R0]])
; FP64-NOODDSPREG-DAG: sdc1 $f16, 64($[[R0]])		; FP64-NOODDSPREG-DAG: sdc1 $f16, 64($[[R0]])
; FP64-NOODDSPREG-DAG: sdc1 $f18, 72($[[R0]])		; FP64-NOODDSPREG-DAG: sdc1 $f18, 72($[[R0]])

; FP64-NOODDSPREG-DAG: ldc1 $[[F0:f[0-9]*[02468]]], [[OFFSET]]($sp)		; FP64-NOODDSPREG-DAG: ldc1 $[[F0:f[0-9]*[02468]]], 0($sp)
; FP64-NOODDSPREG-DAG: sdc1 $[[F0]], 80($[[R0]])		; FP64-NOODDSPREG-DAG: sdc1 $[[F0]], 80($[[R0]])

store double %a0, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 0), align 8		store double %a0, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 0), align 8
store double %a1, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 1), align 8		store double %a1, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 1), align 8
store double %a2, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 2), align 8		store double %a2, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 2), align 8
store double %a3, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 3), align 8		store double %a3, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 3), align 8
store double %a4, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 4), align 8		store double %a4, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 4), align 8
store double %a5, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 5), align 8		store double %a5, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 5), align 8
store double %a6, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 6), align 8		store double %a6, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 6), align 8
store double %a7, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 7), align 8		store double %a7, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 7), align 8
store double %a8, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 8), align 8		store double %a8, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 8), align 8
store double %a9, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 9), align 8		store double %a9, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 9), align 8
store double %a10, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 10), align 8		store double %a10, double* getelementptr ([11 x double], [11 x double]* @da, i32 0, i32 10), align 8
ret void		ret void
}		}

test/CodeGen/Mips/load-store-left-right.ll

	Show First 20 Lines • Show All 244 Lines • ▼ Show 20 Lines

	; MIPS32-EL: lw $[[PTR:[0-9]+]], %got(struct_s0)(			; MIPS32-EL: lw $[[PTR:[0-9]+]], %got(struct_s0)(
	; MIPS32-EB: lw $[[PTR:[0-9]+]], %got(struct_s0)(			; MIPS32-EB: lw $[[PTR:[0-9]+]], %got(struct_s0)(
	; MIPS32R6: lw $[[PTR:[0-9]+]], %got(struct_s0)(			; MIPS32R6: lw $[[PTR:[0-9]+]], %got(struct_s0)(
	; MIPS64-EL: ld $[[PTR:[0-9]+]], %got_disp(struct_s0)(			; MIPS64-EL: ld $[[PTR:[0-9]+]], %got_disp(struct_s0)(
	; MIPS64-EB: ld $[[PTR:[0-9]+]], %got_disp(struct_s0)(			; MIPS64-EB: ld $[[PTR:[0-9]+]], %got_disp(struct_s0)(
	; MIPS64R6: ld $[[PTR:[0-9]+]], %got_disp(struct_s0)(			; MIPS64R6: ld $[[PTR:[0-9]+]], %got_disp(struct_s0)(

	; FIXME: We should be able to do better than this on MIPS32r6/MIPS64r6 since			; MIPS32-DAG: lbu $[[R1:[0-9]+]], 0($[[PTR]])
	; we have unaligned halfword load/store available			; MIPS32-DAG: sb $[[R1]], 2($[[PTR]])
	; ALL-DAG: lbu $[[R1:[0-9]+]], 0($[[PTR]])			; MIPS32-DAG: lbu $[[R2:[0-9]+]], 1($[[PTR]])
	; ALL-DAG: sb $[[R1]], 2($[[PTR]])			; MIPS32-DAG: sb $[[R2]], 3($[[PTR]])
	; ALL-DAG: lbu $[[R1:[0-9]+]], 1($[[PTR]])
	; ALL-DAG: sb $[[R1]], 3($[[PTR]])			; MIPS32R6: lhu $[[R1:[0-9]+]], 0($[[PTR]])
				; MIPS32R6: sh $[[R1]], 2($[[PTR]])

				; MIPS64-DAG: lbu $[[R1:[0-9]+]], 0($[[PTR]])
				; MIPS64-DAG: sb $[[R1]], 2($[[PTR]])
				; MIPS64-DAG: lbu $[[R2:[0-9]+]], 1($[[PTR]])
				; MIPS64-DAG: sb $[[R2]], 3($[[PTR]])

	%0 = load %struct.S0, %struct.S0* getelementptr inbounds (%struct.S0, %struct.S0* @struct_s0, i32 0), align 1			%0 = load %struct.S0, %struct.S0* getelementptr inbounds (%struct.S0, %struct.S0* @struct_s0, i32 0), align 1
	store %struct.S0 %0, %struct.S0* getelementptr inbounds (%struct.S0, %struct.S0* @struct_s0, i32 1), align 1			store %struct.S0 %0, %struct.S0* getelementptr inbounds (%struct.S0, %struct.S0* @struct_s0, i32 1), align 1
	ret void			ret void
	}			}

	define void @copy_struct_S1() nounwind {			define void @copy_struct_S1() nounwind {
	entry:			entry:
	; ALL-LABEL: copy_struct_S1:			; ALL-LABEL: copy_struct_S1:

	; MIPS32-EL: lw $[[PTR:[0-9]+]], %got(struct_s1)(			; MIPS32-EL: lw $[[PTR:[0-9]+]], %got(struct_s1)(
	; MIPS32-EB: lw $[[PTR:[0-9]+]], %got(struct_s1)(			; MIPS32-EB: lw $[[PTR:[0-9]+]], %got(struct_s1)(
	; MIPS32-DAG: lbu $[[R1:[0-9]+]], 0($[[PTR]])			; MIPS32-EL-DAG: lwl $[[R1:[0-9]+]], 3($[[PTR]])
	; MIPS32-DAG: sb $[[R1]], 4($[[PTR]])			; MIPS32-EL-DAG: lwr $[[R1]], 0($[[PTR]])
	; MIPS32-DAG: lbu $[[R1:[0-9]+]], 1($[[PTR]])			; MIPS32-EL-DAG: swl $[[R1]], 7($[[PTR]])
	; MIPS32-DAG: sb $[[R1]], 5($[[PTR]])			; MIPS32-EL-DAG: swr $[[R1]], 4($[[PTR]])
	; MIPS32-DAG: lbu $[[R1:[0-9]+]], 2($[[PTR]])			; MIPS32-EB-DAG: lwl $[[R1:[0-9]+]], 0($[[PTR]])
	; MIPS32-DAG: sb $[[R1]], 6($[[PTR]])			; MIPS32-EB-DAG: lwr $[[R1]], 3($[[PTR]])
	; MIPS32-DAG: lbu $[[R1:[0-9]+]], 3($[[PTR]])			; MIPS32-EB-DAG: swl $[[R1]], 4($[[PTR]])
	; MIPS32-DAG: sb $[[R1]], 7($[[PTR]])			; MIPS32-EB-DAG: swr $[[R1]], 7($[[PTR]])

				; MIPS32-NOLEFTRIGHT-DAG: lbu $[[R1:[0-9]+]], 0($[[PTR]])
				; MIPS32-NOLEFTRIGHT-DAG: sb $[[R1]], 4($[[PTR]])
				; MIPS32-NOLEFTRIGHT-DAG: lbu $[[R1:[0-9]+]], 1($[[PTR]])
				; MIPS32-NOLEFTRIGHT-DAG: sb $[[R1]], 5($[[PTR]])
				; MIPS32-NOLEFTRIGHT-DAG: lbu $[[R1:[0-9]+]], 2($[[PTR]])
				; MIPS32-NOLEFTRIGHT-DAG: sb $[[R1]], 6($[[PTR]])
				; MIPS32-NOLEFTRIGHT-DAG: lbu $[[R1:[0-9]+]], 3($[[PTR]])
				; MIPS32-NOLEFTRIGHT-DAG: sb $[[R1]], 7($[[PTR]])

	; MIPS32R6: lw $[[PTR:[0-9]+]], %got(struct_s1)(			; MIPS32R6: lw $[[PTR:[0-9]+]], %got(struct_s1)(
	; MIPS32R6-DAG: lhu $[[R1:[0-9]+]], 0($[[PTR]])			; MIPS32R6-DAG: lw $[[R1:[0-9]+]], 0($[[PTR]])
	; MIPS32R6-DAG: sh $[[R1]], 4($[[PTR]])			; MIPS32R6-DAG: sw $[[R1]], 4($[[PTR]])
	; MIPS32R6-DAG: lhu $[[R1:[0-9]+]], 2($[[PTR]])
	; MIPS32R6-DAG: sh $[[R1]], 6($[[PTR]])

	; MIPS64-EL: ld $[[PTR:[0-9]+]], %got_disp(struct_s1)(			; MIPS64-EL: ld $[[PTR:[0-9]+]], %got_disp(struct_s1)(
	; MIPS64-EB: ld $[[PTR:[0-9]+]], %got_disp(struct_s1)(			; MIPS64-EB: ld $[[PTR:[0-9]+]], %got_disp(struct_s1)(
	; MIPS64-DAG: lbu $[[R1:[0-9]+]], 0($[[PTR]])
	; MIPS64-DAG: sb $[[R1]], 4($[[PTR]])			; MIPS64-EL-DAG: lwl $[[R1:[0-9]+]], 3($[[PTR]])
	; MIPS64-DAG: lbu $[[R1:[0-9]+]], 1($[[PTR]])			; MIPS64-EL-DAG: lwr $[[R1]], 0($[[PTR]])
	; MIPS64-DAG: sb $[[R1]], 5($[[PTR]])			; MIPS64-EL-DAG: swl $[[R1]], 7($[[PTR]])
	; MIPS64-DAG: lbu $[[R1:[0-9]+]], 2($[[PTR]])			; MIPS64-EL-DAG: swr $[[R1]], 4($[[PTR]])
	; MIPS64-DAG: sb $[[R1]], 6($[[PTR]])
	; MIPS64-DAG: lbu $[[R1:[0-9]+]], 3($[[PTR]])			; MIPS64-EB-DAG: lwl $[[R1:[0-9]+]], 0($[[PTR]])
	; MIPS64-DAG: sb $[[R1]], 7($[[PTR]])			; MIPS64-EB-DAG: lwr $[[R1]], 3($[[PTR]])
				; MIPS64-EB-DAG: swl $[[R1]], 4($[[PTR]])
				; MIPS64-EB-DAG: swr $[[R1]], 7($[[PTR]])


				; MIPS64-NOLEFTRIGHT-DAG: lbu $[[R1:[0-9]+]], 0($[[PTR]])
				; MIPS64-NOLEFTRIGHT-DAG: sb $[[R1]], 4($[[PTR]])
				; MIPS64-NOLEFTRIGHT-DAG: lbu $[[R1:[0-9]+]], 1($[[PTR]])
				; MIPS64-NOLEFTRIGHT-DAG: sb $[[R1]], 5($[[PTR]])
				; MIPS64-NOLEFTRIGHT-DAG: lbu $[[R1:[0-9]+]], 2($[[PTR]])
				; MIPS64-NOLEFTRIGHT-DAG: sb $[[R1]], 6($[[PTR]])
				; MIPS64-NOLEFTRIGHT-DAG: lbu $[[R1:[0-9]+]], 3($[[PTR]])
				; MIPS64-NOLEFTRIGHT-DAG: sb $[[R1]], 7($[[PTR]])

	; MIPS64R6: ld $[[PTR:[0-9]+]], %got_disp(struct_s1)(			; MIPS64R6: ld $[[PTR:[0-9]+]], %got_disp(struct_s1)(
	; MIPS64R6-DAG: lhu $[[R1:[0-9]+]], 0($[[PTR]])			; MIPS64R6-DAG: lw $[[R1:[0-9]+]], 0($[[PTR]])
	; MIPS64R6-DAG: sh $[[R1]], 4($[[PTR]])			; MIPS64R6-DAG: sw $[[R1]], 4($[[PTR]])
	; MIPS64R6-DAG: lhu $[[R1:[0-9]+]], 2($[[PTR]])
	; MIPS64R6-DAG: sh $[[R1]], 6($[[PTR]])

	%0 = load %struct.S1, %struct.S1* getelementptr inbounds (%struct.S1, %struct.S1* @struct_s1, i32 0), align 1			%0 = load %struct.S1, %struct.S1* getelementptr inbounds (%struct.S1, %struct.S1* @struct_s1, i32 0), align 1
	store %struct.S1 %0, %struct.S1* getelementptr inbounds (%struct.S1, %struct.S1* @struct_s1, i32 1), align 1			store %struct.S1 %0, %struct.S1* getelementptr inbounds (%struct.S1, %struct.S1* @struct_s1, i32 1), align 1
	ret void			ret void
	}			}

	define void @copy_struct_S2() nounwind {			define void @copy_struct_S2() nounwind {
	entry:			entry:
	Show All 21 Lines

	; MIPS32R6: lw $[[PTR:[0-9]+]], %got(struct_s2)(			; MIPS32R6: lw $[[PTR:[0-9]+]], %got(struct_s2)(
	; MIPS32R6-DAG: lw $[[R1:[0-9]+]], 0($[[PTR]])			; MIPS32R6-DAG: lw $[[R1:[0-9]+]], 0($[[PTR]])
	; MIPS32R6-DAG: sw $[[R1]], 8($[[PTR]])			; MIPS32R6-DAG: sw $[[R1]], 8($[[PTR]])
	; MIPS32R6-DAG: lw $[[R1:[0-9]+]], 4($[[PTR]])			; MIPS32R6-DAG: lw $[[R1:[0-9]+]], 4($[[PTR]])
	; MIPS32R6-DAG: sw $[[R1]], 12($[[PTR]])			; MIPS32R6-DAG: sw $[[R1]], 12($[[PTR]])

	; MIPS64-EL: ld $[[PTR:[0-9]+]], %got_disp(struct_s2)(			; MIPS64-EL: ld $[[PTR:[0-9]+]], %got_disp(struct_s2)(
	; MIPS64-EL-DAG: lwl $[[R1:[0-9]+]], 3($[[PTR]])
	; MIPS64-EL-DAG: lwr $[[R1]], 0($[[PTR]])			; MIPS64-EL-DAG: ldl $[[R1:[0-9]+]], 7($[[PTR]])
	; MIPS64-EL-DAG: swl $[[R1]], 11($[[PTR]])			; MIPS64-EL-DAG: ldr $[[R1]], 0($[[PTR]])
	; MIPS64-EL-DAG: swr $[[R1]], 8($[[PTR]])			; MIPS64-EL-DAG: sdl $[[R1]], 15($[[PTR]])
	; MIPS64-EL-DAG: lwl $[[R1:[0-9]+]], 7($[[PTR]])			; MIPS64-EL-DAG: sdr $[[R1]], 8($[[PTR]])
	; MIPS64-EL-DAG: lwr $[[R1]], 4($[[PTR]])
	; MIPS64-EL-DAG: swl $[[R1]], 15($[[PTR]])
	; MIPS64-EL-DAG: swr $[[R1]], 12($[[PTR]])

	; MIPS64-EB: ld $[[PTR:[0-9]+]], %got_disp(struct_s2)(			; MIPS64-EB: ld $[[PTR:[0-9]+]], %got_disp(struct_s2)(
	; MIPS64-EB-DAG: lwl $[[R1:[0-9]+]], 0($[[PTR]])			; MIPS64-EB-DAG: ldl $[[R1:[0-9]+]], 0($[[PTR]])
	; MIPS64-EB-DAG: lwr $[[R1]], 3($[[PTR]])			; MIPS64-EB-DAG: ldr $[[R1]], 7($[[PTR]])
	; MIPS64-EB-DAG: swl $[[R1]], 8($[[PTR]])			; MIPS64-EB-DAG: sdl $[[R1]], 8($[[PTR]])
	; MIPS64-EB-DAG: swr $[[R1]], 11($[[PTR]])			; MIPS64-EB-DAG: sdr $[[R1]], 15($[[PTR]])
	; MIPS64-EB-DAG: lwl $[[R1:[0-9]+]], 4($[[PTR]])
	; MIPS64-EB-DAG: lwr $[[R1]], 7($[[PTR]])
	; MIPS64-EB-DAG: swl $[[R1]], 12($[[PTR]])
	; MIPS64-EB-DAG: swr $[[R1]], 15($[[PTR]])

	; MIPS64R6: ld $[[PTR:[0-9]+]], %got_disp(struct_s2)(			; MIPS64R6: ld $[[PTR:[0-9]+]], %got_disp(struct_s2)(
	; MIPS64R6-DAG: lw $[[R1:[0-9]+]], 0($[[PTR]])			; MIPS64R6-DAG: ld $[[R1:[0-9]+]], 0($[[PTR]])
	; MIPS64R6-DAG: sw $[[R1]], 8($[[PTR]])			; MIPS64R6-DAG: sd $[[R1]], 8($[[PTR]])
	; MIPS64R6-DAG: lw $[[R1:[0-9]+]], 4($[[PTR]])
	; MIPS64R6-DAG: sw $[[R1]], 12($[[PTR]])

	%0 = load %struct.S2, %struct.S2* getelementptr inbounds (%struct.S2, %struct.S2* @struct_s2, i32 0), align 1			%0 = load %struct.S2, %struct.S2* getelementptr inbounds (%struct.S2, %struct.S2* @struct_s2, i32 0), align 1
	store %struct.S2 %0, %struct.S2* getelementptr inbounds (%struct.S2, %struct.S2* @struct_s2, i32 1), align 1			store %struct.S2 %0, %struct.S2* getelementptr inbounds (%struct.S2, %struct.S2* @struct_s2, i32 1), align 1
	ret void			ret void
	}			}

	;			;
	; Arrays are simply concatenations of the members. They are unaffected by			; Arrays are simply concatenations of the members. They are unaffected by
	Show All 40 Lines
	; MIPS32R6-EB-DAG: lbu $[[R3:[0-9]+]], 6($[[PTR]])			; MIPS32R6-EB-DAG: lbu $[[R3:[0-9]+]], 6($[[PTR]])
	; MIPS32R6-EB-DAG: sll $[[T0:[0-9]+]], $[[R2]], 16			; MIPS32R6-EB-DAG: sll $[[T0:[0-9]+]], $[[R2]], 16
	; MIPS32R6-EB-DAG: or $5, $[[T0]], $[[R3]]			; MIPS32R6-EB-DAG: or $5, $[[T0]], $[[R3]]

	; MIPS64-EL: ld $[[SPTR:[0-9]+]], %got_disp(arr)(			; MIPS64-EL: ld $[[SPTR:[0-9]+]], %got_disp(arr)(
	; MIPS64-EL-DAG: lwl $[[R1:[0-9]+]], 3($[[PTR]])			; MIPS64-EL-DAG: lwl $[[R1:[0-9]+]], 3($[[PTR]])
	; MIPS64-EL-DAG: lwr $[[R1]], 0($[[PTR]])			; MIPS64-EL-DAG: lwr $[[R1]], 0($[[PTR]])

	; MIPS64-EB: ld $[[SPTR:[0-9]+]], %got_disp(arr)(			; MIPS64-EB: ld $[[SPTR:[0-9]+]], %got_disp(arr)(
	; MIPS64-EB-DAG: lwl $[[R1:[0-9]+]], 0($[[PTR]])
	; MIPS64-EB-DAG: lwr $[[R1]], 3($[[PTR]])
	; MIPS64-EB-DAG: dsll $[[R1]], $[[R1]], 32
	; MIPS64-EB-DAG: lbu $[[R2:[0-9]+]], 5($[[PTR]])			; MIPS64-EB-DAG: lbu $[[R2:[0-9]+]], 5($[[PTR]])
	; MIPS64-EB-DAG: lbu $[[R3:[0-9]+]], 4($[[PTR]])			; MIPS64-EB-DAG: lbu $[[R3:[0-9]+]], 4($[[PTR]])
	; MIPS64-EB-DAG: dsll $[[T0:[0-9]+]], $[[R3]], 8			; MIPS64-EB-DAG: dsll $[[T0:[0-9]+]], $[[R3]], 8
	; MIPS64-EB-DAG: or $[[T1:[0-9]+]], $[[T0]], $[[R2]]			; MIPS64-EB-DAG: or $[[T1:[0-9]+]], $[[T0]], $[[R2]]
	; MIPS64-EB-DAG: dsll $[[T1]], $[[T1]], 16
	; MIPS64-EB-DAG: or $[[T3:[0-9]+]], $[[R1]], $[[T1]]
	; MIPS64-EB-DAG: lbu $[[R4:[0-9]+]], 6($[[PTR]])			; MIPS64-EB-DAG: lbu $[[R4:[0-9]+]], 6($[[PTR]])
				; MIPS64-EB-DAG: dsll $[[T1]], $[[T1]], 16
				; MIPS64-EB-DAG: lwl $[[R1:[0-9]+]], 0($[[PTR]])
				; MIPS64-EB-DAG: lwr $[[R1]], 3($[[PTR]])
				; MIPS64-EB-DAG: dsll $[[R5:[0-9]+]], $[[R1]], 32
				; MIPS64-EB-DAG: or $[[T3:[0-9]+]], $[[R5]], $[[T1]]
	; MIPS64-EB-DAG: dsll $[[T4:[0-9]+]], $[[R4]], 8			; MIPS64-EB-DAG: dsll $[[T4:[0-9]+]], $[[R4]], 8
	; MIPS64-EB-DAG: or $4, $[[T3]], $[[T4]]			; MIPS64-EB-DAG: or $4, $[[T3]], $[[T4]]

	; MIPS64R6: ld $[[SPTR:[0-9]+]], %got_disp(arr)(			; MIPS64R6: ld $[[SPTR:[0-9]+]], %got_disp(arr)(

	tail call void @extern_func([7 x i8]* byval @arr) nounwind			tail call void @extern_func([7 x i8]* byval @arr) nounwind
	ret void			ret void
	}			}

	declare void @extern_func([7 x i8]* byval)			declare void @extern_func([7 x i8]* byval)

test/CodeGen/Mips/micromips-li.ll

	; RUN: llc -march=mipsel -mcpu=mips32r2 -mattr=+micromips \			; RUN: llc -march=mipsel -mcpu=mips32r2 -mattr=+micromips \
	; RUN: -relocation-model=pic -O3 < %s \| FileCheck %s			; RUN: -relocation-model=pic -O3 < %s \| FileCheck %s

	@x = external global i32			@x = external global i32
	@y = external global i32			@y = external global i32
	@z = external global i32			@z = external global i32

	define i32 @main() nounwind {			define i32 @main() nounwind {
	entry:			entry:
	store i32 1, i32* @x, align 4			store i32 1, i32* @x, align 4
	store i32 2148, i32* @y, align 4			store i32 2148, i32* @y, align 4
	store i32 33332, i32* @z, align 4			store i32 33332, i32* @z, align 4
	ret i32 0			ret i32 0
	}			}

	; CHECK: li16 ${{[2-7]\|16\|17}}, 1
	; CHECK: addiu ${{[0-9]+}}, $zero, 2148			; CHECK: addiu ${{[0-9]+}}, $zero, 2148
				; CHECK: li16 ${{[2-7]\|16\|17}}, 1
	; CHECK: ori ${{[0-9]+}}, $zero, 33332			; CHECK: ori ${{[0-9]+}}, $zero, 33332

test/CodeGen/Mips/mips64-f128-call.ll

	; RUN: llc -march=mips64el -mcpu=mips64r2 < %s \| FileCheck %s			; RUN: llc -march=mips64el -mcpu=mips64r2 < %s \| FileCheck %s

	@gld0 = external global fp128			@gld0 = external global fp128
	@gld1 = external global fp128			@gld1 = external global fp128

	; CHECK: foo0			; CHECK: foo0
	; CHECK: sdc1 $f12, %lo(gld0)(${{[0-9]+}})			; CHECK-DAG: sdc1 $f12, %lo(gld0)(${{[0-9]+}})
	; CHECK: sdc1 $f13, 8(${{[0-9]+}})			; CHECK-DAG: sdc1 $f13, 8(${{[0-9]+}})

	define void @foo0(fp128 %a0) {			define void @foo0(fp128 %a0) {
	entry:			entry:
	store fp128 %a0, fp128* @gld0, align 16			store fp128 %a0, fp128* @gld0, align 16
	ret void			ret void
	}			}

	; CHECK: foo1			; CHECK: foo1
	; CHECK: ldc1 $f12, %lo(gld0)(${{[0-9]+}})			; CHECK-DAG: ldc1 $f12, %lo(gld0)(${{[0-9]+}})
	; CHECK: ldc1 $f13, 8(${{[0-9]+}})			; CHECK-DAG: ldc1 $f13, 8(${{[0-9]+}})

	define void @foo1() {			define void @foo1() {
	entry:			entry:
	%0 = load fp128, fp128* @gld0, align 16			%0 = load fp128, fp128* @gld0, align 16
	tail call void @foo2(fp128 %0)			tail call void @foo2(fp128 %0)
	ret void			ret void
	}			}

	declare void @foo2(fp128)			declare void @foo2(fp128)


	; CHECK: foo3:			; CHECK: foo3:
	; CHECK: daddiu $[[R0:[0-9]+]], ${{[0-9]+}}, %hi(gld0)
	; CHECK: dsll $[[R1:[0-9]+]], $[[R0]], 16			; CHECK: daddiu $[[R2:[0-9]+]], $[[R1:[0-9]+]], %lo(gld0)
	; CHECK: sdc1 $f0, %lo(gld0)($[[R1]])			; CHECK: sdc1 $f0, %lo(gld0)($[[R1]])
	; CHECK: daddiu $[[R2:[0-9]]], $[[R1]], %lo(gld0)
	; CHECK: sdc1 $f2, 8($[[R2]])			; CHECK: sdc1 $f2, 8($[[R2]])
	; CHECK: daddiu $[[R3:[0-9]+]], ${{[0-9]+}}, %hi(gld1)			; CHECK: daddiu $[[R3:[0-9]+]], ${{[0-9]+}}, %hi(gld1)
	; CHECK: dsll $[[R4:[0-9]+]], $[[R3]], 16			; CHECK: dsll $[[R4:[0-9]+]], $[[R3]], 16
	; CHECK: ldc1 $f0, %lo(gld1)($[[R4]])			; CHECK: ldc1 $f0, %lo(gld1)($[[R4]])
	; CHECK: daddiu $[[R5:[0-9]]], $[[R4]], %lo(gld1)			; CHECK: daddiu $[[R5:[0-9]]], $[[R4]], %lo(gld1)
	; CHECK: ldc1 $f2, 8($[[R5]])			; CHECK: ldc1 $f2, 8($[[R5]])



	define fp128 @foo3() {			define fp128 @foo3() {
	entry:			entry:
	%call = tail call fp128 @foo4()			%call = tail call fp128 @foo4()
	store fp128 %call, fp128* @gld0, align 16			store fp128 %call, fp128* @gld0, align 16
	%0 = load fp128, fp128* @gld1, align 16			%0 = load fp128, fp128* @gld1, align 16
	ret fp128 %0			ret fp128 %0
	}			}

	declare fp128 @foo4()			declare fp128 @foo4()

test/CodeGen/Mips/mips64-f128.ll

	Show First 20 Lines • Show All 571 Lines • ▼ Show 20 Lines
	entry:			entry:
	%0 = load double, double* @gd1, align 8			%0 = load double, double* @gd1, align 8
	%conv = fpext double %0 to fp128			%conv = fpext double %0 to fp128
	ret fp128 %conv			ret fp128 %conv
	}			}

	; ALL-LABEL: store_LD_LD:			; ALL-LABEL: store_LD_LD:
	; ALL: ld $[[R0:[0-9]+]], %got_disp(gld1)			; ALL: ld $[[R0:[0-9]+]], %got_disp(gld1)
	; ALL: ld $[[R1:[0-9]+]], 0($[[R0]])
	; ALL: ld $[[R2:[0-9]+]], 8($[[R0]])			; ALL: ld $[[R2:[0-9]+]], 8($[[R0]])
	; ALL: ld $[[R3:[0-9]+]], %got_disp(gld0)			; ALL: ld $[[R3:[0-9]+]], %got_disp(gld0)
	; ALL: sd $[[R2]], 8($[[R3]])			; ALL: sd $[[R2]], 8($[[R3]])
				; ALL: ld $[[R1:[0-9]+]], 0($[[R0]])
	; ALL: sd $[[R1]], 0($[[R3]])			; ALL: sd $[[R1]], 0($[[R3]])

	define void @store_LD_LD() {			define void @store_LD_LD() {
	entry:			entry:
	%0 = load fp128, fp128* @gld1, align 16			%0 = load fp128, fp128* @gld1, align 16
	store fp128 %0, fp128* @gld0, align 16			store fp128 %0, fp128* @gld0, align 16
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 90 Lines • Show Last 20 Lines

test/CodeGen/Mips/mno-ldc1-sdc1.ll

	Show First 20 Lines • Show All 124 Lines • ▼ Show 20 Lines
	; MM: addu $[[R2:[0-9]+]], $[[R1]], $25			; MM: addu $[[R2:[0-9]+]], $[[R1]], $25
	; MM: lw $[[R3:[0-9]+]], %got(g0)($[[R2]])			; MM: lw $[[R3:[0-9]+]], %got(g0)($[[R2]])
	; MM: ldc1 $f0, 0($[[R3]])			; MM: ldc1 $f0, 0($[[R3]])

	; MM-MNO-PIC: lui $[[R0:[0-9]+]], %hi(_gp_disp)			; MM-MNO-PIC: lui $[[R0:[0-9]+]], %hi(_gp_disp)
	; MM-MNO-PIC: addiu $[[R1:[0-9]+]], $[[R0]], %lo(_gp_disp)			; MM-MNO-PIC: addiu $[[R1:[0-9]+]], $[[R0]], %lo(_gp_disp)
	; MM-MNO-PIC: addu $[[R2:[0-9]+]], $[[R1]], $25			; MM-MNO-PIC: addu $[[R2:[0-9]+]], $[[R1]], $25
	; MM-MNO-PIC: lw $[[R3:[0-9]+]], %got(g0)($[[R2]])			; MM-MNO-PIC: lw $[[R3:[0-9]+]], %got(g0)($[[R2]])
	; MM-MNO-PIC: lw16 $[[R4:[0-9]+]], 0($[[R3]])			; MM-MNO-PIC-DAG: lw16 $[[R4:[0-9]+]], 0($[[R3]])
	; MM-MNO-PIC: lw16 $[[R5:[0-9]+]], 4($[[R3]])			; MM-MNO-PIC-DAG: lw16 $[[R5:[0-9]+]], 4($[[R3]])
	; MM-MNO-LE-PIC: mtc1 $[[R4]], $f0			; MM-MNO-LE-PIC-DAG: mtc1 $[[R4]], $f0
	; MM-MNO-LE-PIC: mthc1 $[[R5]], $f0			; MM-MNO-LE-PIC-DAG: mthc1 $[[R5]], $f0
	; MM-MNO-BE-PIC: mtc1 $[[R5]], $f0			; MM-MNO-BE-PIC-DAG: mtc1 $[[R5]], $f0
	; MM-MNO-BE-PIC: mthc1 $[[R4]], $f0			; MM-MNO-BE-PIC-DAG: mthc1 $[[R4]], $f0

	; MM-STATIC-PIC: lui $[[R0:[0-9]+]], %hi(g0)			; MM-STATIC-PIC: lui $[[R0:[0-9]+]], %hi(g0)
	; MM-STATIC-PIC: ldc1 $f0, %lo(g0)($[[R0]])			; MM-STATIC-PIC: ldc1 $f0, %lo(g0)($[[R0]])

	define double @test_ldc1() {			define double @test_ldc1() {
	entry:			entry:
	%0 = load double, double* @g0, align 8			%0 = load double, double* @g0, align 8
	ret double %0			ret double %0
	▲ Show 20 Lines • Show All 62 Lines • ▼ Show 20 Lines
	; MM: addiu $[[R1:[0-9]+]], $[[R0]], %lo(_gp_disp)			; MM: addiu $[[R1:[0-9]+]], $[[R0]], %lo(_gp_disp)
	; MM: addu $[[R2:[0-9]+]], $[[R1]], $25			; MM: addu $[[R2:[0-9]+]], $[[R1]], $25
	; MM: lw $[[R3:[0-9]+]], %got(g0)($[[R2]])			; MM: lw $[[R3:[0-9]+]], %got(g0)($[[R2]])
	; MM: sdc1 $f12, 0($[[R3]])			; MM: sdc1 $f12, 0($[[R3]])

	; MM-MNO-PIC: lui $[[R0:[0-9]+]], %hi(_gp_disp)			; MM-MNO-PIC: lui $[[R0:[0-9]+]], %hi(_gp_disp)
	; MM-MNO-PIC: addiu $[[R1:[0-9]+]], $[[R0]], %lo(_gp_disp)			; MM-MNO-PIC: addiu $[[R1:[0-9]+]], $[[R0]], %lo(_gp_disp)
	; MM-MNO-PIC: addu $[[R2:[0-9]+]], $[[R1]], $25			; MM-MNO-PIC: addu $[[R2:[0-9]+]], $[[R1]], $25
	; MM-MNO-LE-PIC: mfc1 $[[R3:[0-9]+]], $f12			; MM-MNO-LE-PIC-DAG: mfc1 $[[R3:[0-9]+]], $f12
	; MM-MNO-BE-PIC: mfhc1 $[[R3:[0-9]+]], $f12			; MM-MNO-BE-PIC-DAG: mfhc1 $[[R3:[0-9]+]], $f12
	; MM-MNO-PIC: lw $[[R4:[0-9]+]], %got(g0)($[[R2]])			; MM-MNO-PIC-DAG: lw $[[R4:[0-9]+]], %got(g0)($[[R2]])
	; MM-MNO-PIC: sw16 $[[R3]], 0($[[R4]])			; MM-MNO-PIC-DAG: sw16 $[[R3]], 0($[[R4]])
	; MM-MNO-LE-PIC: mfhc1 $[[R5:[0-9]+]], $f12			; MM-MNO-LE-PIC-DAG: mfhc1 $[[R5:[0-9]+]], $f12
	; MM-MNO-BE-PIC: mfc1 $[[R5:[0-9]+]], $f12			; MM-MNO-BE-PIC-DAG: mfc1 $[[R5:[0-9]+]], $f12
	; MM-MNO-PIC: sw16 $[[R5]], 4($[[R4]])			; MM-MNO-PIC-DAG: sw16 $[[R5]], 4($[[R4]])

	; MM-STATIC-PIC: lui $[[R0:[0-9]+]], %hi(g0)			; MM-STATIC-PIC: lui $[[R0:[0-9]+]], %hi(g0)
	; MM-STATIC-PIC: sdc1 $f12, %lo(g0)($[[R0]])			; MM-STATIC-PIC: sdc1 $f12, %lo(g0)($[[R0]])

	define void @test_sdc1(double %a) {			define void @test_sdc1(double %a) {
	entry:			entry:
	store double %a, double* @g0, align 8			store double %a, double* @g0, align 8
	ret void			ret void
	Show All 30 Lines
	; 32R6-LDC1: ldc1 $f0, 0(${{[0-9]+}})			; 32R6-LDC1: ldc1 $f0, 0(${{[0-9]+}})

	; MM: sll16 $[[R0:[0-9]+]], $5, 3			; MM: sll16 $[[R0:[0-9]+]], $5, 3
	; MM: addu16 $[[R1:[0-9]+]], $4, $[[R0]]			; MM: addu16 $[[R1:[0-9]+]], $4, $[[R0]]
	; MM: ldc1 $f0, 0($[[R1]])			; MM: ldc1 $f0, 0($[[R1]])

	; MM-MNO-PIC: sll16 $[[R0:[0-9]+]], $5, 3			; MM-MNO-PIC: sll16 $[[R0:[0-9]+]], $5, 3
	; MM-MNO-PIC: addu16 $[[R1:[0-9]+]], $4, $[[R0]]			; MM-MNO-PIC: addu16 $[[R1:[0-9]+]], $4, $[[R0]]
	; MM-MNO-PIC: lw16 $[[R2:[0-9]+]], 0($[[R1]])			; MM-MNO-PIC-DAG: lw16 $[[R2:[0-9]+]], 0($[[R1]])
	; MM-MNO-PIC: lw16 $[[R3:[0-9]+]], 4($[[R1]])			; MM-MNO-PIC-DAG: lw16 $[[R3:[0-9]+]], 4($[[R1]])
	; MM-MNO-LE-PIC: mtc1 $[[R2]], $f0			; MM-MNO-LE-PIC: mtc1 $[[R2]], $f0
	; MM-MNO-LE-PIC: mthc1 $[[R3]], $f0			; MM-MNO-LE-PIC: mthc1 $[[R3]], $f0
	; MM-MNO-BE-PIC: mtc1 $[[R3]], $f0			; MM-MNO-BE-PIC: mtc1 $[[R3]], $f0
	; MM-MNO-BE-PIC: mthc1 $[[R2]], $f0			; MM-MNO-BE-PIC: mthc1 $[[R2]], $f0

	; MM-STATIC-PIC: sll16 $[[R0:[0-9]+]], $5, 3			; MM-STATIC-PIC: sll16 $[[R0:[0-9]+]], $5, 3
	; MM-STATIC-PIC: addu16 $[[R1:[0-9]+]], $4, $[[R0]]			; MM-STATIC-PIC: addu16 $[[R1:[0-9]+]], $4, $[[R0]]
	; MM-STATIC-PIC: ldc1 $f0, 0($[[R1]])			; MM-STATIC-PIC: ldc1 $f0, 0($[[R1]])
	Show All 28 Lines
	; 32R2-LDXC1: sdxc1 $f{{[0-9]+}}, $[[OFFSET]]($6)			; 32R2-LDXC1: sdxc1 $f{{[0-9]+}}, $[[OFFSET]]($6)

	; 32R6-LDC1: sdc1 $f{{[0-9]+}}, 0(${{[0-9]+}})			; 32R6-LDC1: sdc1 $f{{[0-9]+}}, 0(${{[0-9]+}})

	; MM: sll16 $[[R0:[0-9]+]], $7, 3			; MM: sll16 $[[R0:[0-9]+]], $7, 3
	; MM: addu16 $[[R1:[0-9]+]], $6, $[[R0]]			; MM: addu16 $[[R1:[0-9]+]], $6, $[[R0]]
	; MM: sdc1 $f12, 0($[[R1]])			; MM: sdc1 $f12, 0($[[R1]])

	; MM-MNO-PIC: sll16 $[[R0:[0-9]+]], $7, 3			; MM-MNO-PIC: sll16 $[[R0:[0-9]+]], $7, 3
	; MM-MNO-PIC: addu16 $[[R1:[0-9]+]], $6, $[[R0]]			; MM-MNO-PIC: addu16 $[[R1:[0-9]+]], $6, $[[R0]]
	; MM-MNO-LE-PIC: mfc1 $[[R2:[0-9]+]], $f12			; MM-MNO-LE-PIC-DAG: mfc1 $[[R2:[0-9]+]], $f12
	; MM-MNO-BE-PIC: mfhc1 $[[R2:[0-9]+]], $f12			; MM-MNO-BE-PIC-DAG: mfhc1 $[[R2:[0-9]+]], $f12
	; MM-MNO-PIC: sw16 $[[R2]], 0($[[R1]])			; MM-MNO-PIC-DAG: sw16 $[[R2]], 0($[[R1]])
	; MM-MNO-LE-PIC: mfhc1 $[[R3:[0-9]+]], $f12			; MM-MNO-LE-PIC-DAG: mfhc1 $[[R3:[0-9]+]], $f12
	; MM-MNO-BE-PIC: mfc1 $[[R3:[0-9]+]], $f12			; MM-MNO-BE-PIC-DAG: mfc1 $[[R3:[0-9]+]], $f12
	; MM-MNO-PIC: sw16 $[[R3]], 4($[[R1]])			; MM-MNO-PIC-DAG: sw16 $[[R3]], 4($[[R1]])

	; MM-STATIC-PIC: sll16 $[[R0:[0-9]+]], $7, 3			; MM-STATIC-PIC: sll16 $[[R0:[0-9]+]], $7, 3
	; MM-STATIC-PIC: addu16 $[[R1:[0-9]+]], $6, $[[R0]]			; MM-STATIC-PIC: addu16 $[[R1:[0-9]+]], $6, $[[R0]]
	; MM-STATIC-PIC: sdc1 $f12, 0($[[R1]])			; MM-STATIC-PIC: sdc1 $f12, 0($[[R1]])

	define void @test_sdxc1(double %b, double* nocapture %a, i32 %i) {			define void @test_sdxc1(double %b, double* nocapture %a, i32 %i) {
	entry:			entry:
	%arrayidx = getelementptr inbounds double, double* %a, i32 %i			%arrayidx = getelementptr inbounds double, double* %a, i32 %i
	store double %b, double* %arrayidx, align 8			store double %b, double* %arrayidx, align 8
	ret void			ret void
	}			}

test/CodeGen/Mips/msa/f16-llvm-ir.ll

	Show First 20 Lines • Show All 228 Lines • ▼ Show 20 Lines
	; MIPSR6-N64: sub.d $f[[F2:[0-9]+]], $f[[F1]], $f[[F0]]			; MIPSR6-N64: sub.d $f[[F2:[0-9]+]], $f[[F1]], $f[[F0]]

	; MIPS32: mfc1 $[[R0:[0-9]+]], $f[[F2]]			; MIPS32: mfc1 $[[R0:[0-9]+]], $f[[F2]]
	; MIPS32: fill.w $w[[W0:[0-9]+]], $[[R0]]			; MIPS32: fill.w $w[[W0:[0-9]+]], $[[R0]]
	; MIPS32: mfhc1 $[[R1:[0-9]+]], $f[[F2]]			; MIPS32: mfhc1 $[[R1:[0-9]+]], $f[[F2]]
	; MIPS32: insert.w $w[[W0]][1], $[[R1]]			; MIPS32: insert.w $w[[W0]][1], $[[R1]]
	; MIPS32: insert.w $w[[W0]][3], $[[R1]]			; MIPS32: insert.w $w[[W0]][3], $[[R1]]

	; MIPS64-N64: ld $[[R3:[0-9]+]], %got_disp(h)			; MIPS64-N64-DAG: ld $[[R3:[0-9]+]], %got_disp(h)
	; MIPS64-N32: lw $[[R3:[0-9]+]], %got_disp(h)			; MIPS64-N32-DAG: lw $[[R3:[0-9]+]], %got_disp(h)
	; MIPS64: dmfc1 $[[R1:[0-9]+]], $f[[F2]]			; MIPS64-DAG: dmfc1 $[[R1:[0-9]+]], $f[[F2]]
	; MIPS64: fill.d $w[[W0:[0-9]+]], $[[R1]]			; MIPS64-DAG: fill.d $w[[W0:[0-9]+]], $[[R1]]

	; ALL: fexdo.w $w[[W1:[0-9]+]], $w[[W0]], $w[[W0]]			; ALL-DAG: fexdo.w $w[[W1:[0-9]+]], $w[[W0]], $w[[W0]]
	; ALL: fexdo.h $w[[W2:[0-9]+]], $w[[W1]], $w[[W1]]			; ALL-DAG: fexdo.h $w[[W2:[0-9]+]], $w[[W1]], $w[[W1]]

	; MIPS32: lw $[[R3:[0-9]+]], %got(h)			; MIPS32-DAG: lw $[[R3:[0-9]+]], %got(h)

	; ALL: copy_u.h $[[R2:[0-9]+]], $w[[W2]]			; ALL: copy_u.h $[[R2:[0-9]+]], $w[[W2]]
	; ALL: sh $[[R2]], 0($[[R3]])			; ALL: sh $[[R2]], 0($[[R3]])
	%0 = uitofp i32 %a to half			%0 = uitofp i32 %a to half
	store half %0, half * @h, align 2			store half %0, half * @h, align 2
	ret void			ret void
	}			}

	▲ Show 20 Lines • Show All 894 Lines • Show Last 20 Lines

test/CodeGen/Mips/msa/i5_ld_st.ll

Show First 20 Lines • Show All 330 Lines • ▼ Show 20 Lines	entry:
%1 = bitcast <16 x i8>* @llvm_mips_st_b_RES to i8*		%1 = bitcast <16 x i8>* @llvm_mips_st_b_RES to i8*
tail call void @llvm.mips.st.b(<16 x i8> %0, i8* %1, i32 -512)		tail call void @llvm.mips.st.b(<16 x i8> %0, i8* %1, i32 -512)
tail call void @llvm.mips.st.b(<16 x i8> %0, i8* %1, i32 511)		tail call void @llvm.mips.st.b(<16 x i8> %0, i8* %1, i32 511)
ret void		ret void
}		}

; CHECK: llvm_mips_st_b_valid_range_tests:		; CHECK: llvm_mips_st_b_valid_range_tests:
; CHECK: ld.b		; CHECK: ld.b
; CHECK: st.b [[R1:\$w[0-9]+]], -512(		; CHECK-DAG: st.b [[R1:\$w[0-9]+]], -512(
; CHECK: st.b [[R1:\$w[0-9]+]], 511(		; CHECK-DAG: st.b [[R1:\$w[0-9]+]], 511(
; CHECK: .size llvm_mips_st_b_valid_range_tests		; CHECK: .size llvm_mips_st_b_valid_range_tests
;		;

define void @llvm_mips_st_b_invalid_range_tests() nounwind {		define void @llvm_mips_st_b_invalid_range_tests() nounwind {
entry:		entry:
%0 = load <16 x i8>, <16 x i8>* @llvm_mips_st_b_ARG		%0 = load <16 x i8>, <16 x i8>* @llvm_mips_st_b_ARG
%1 = bitcast <16 x i8>* @llvm_mips_st_b_RES to i8*		%1 = bitcast <16 x i8>* @llvm_mips_st_b_RES to i8*
tail call void @llvm.mips.st.b(<16 x i8> %0, i8* %1, i32 -513)		tail call void @llvm.mips.st.b(<16 x i8> %0, i8* %1, i32 -513)
tail call void @llvm.mips.st.b(<16 x i8> %0, i8* %1, i32 512)		tail call void @llvm.mips.st.b(<16 x i8> %0, i8* %1, i32 512)
ret void		ret void
}		}

; CHECK: llvm_mips_st_b_invalid_range_tests:		; CHECK: llvm_mips_st_b_invalid_range_tests:
; CHECK: addiu $2, $1, -513		; CHECK: addiu $2, $1, 512
; CHECK: ld.b		; CHECK: ld.b
; CHECK: st.b [[R1:\$w[0-9]+]], 0(		; CHECK: st.b [[R1:\$w[0-9]+]], 0(
; CHECK: addiu $1, $1, 512		; CHECK: addiu $1, $1, -513
; CHECK: st.b [[R1:\$w[0-9]+]], 0(		; CHECK: st.b [[R1:\$w[0-9]+]], 0(
; CHECK: .size llvm_mips_st_b_invalid_range_tests		; CHECK: .size llvm_mips_st_b_invalid_range_tests
;		;

@llvm_mips_st_h_ARG = global <8 x i16> <i16 0, i16 1, i16 2, i16 3, i16 4, i16 5, i16 6, i16 7>, align 16		@llvm_mips_st_h_ARG = global <8 x i16> <i16 0, i16 1, i16 2, i16 3, i16 4, i16 5, i16 6, i16 7>, align 16
@llvm_mips_st_h_RES = global <8 x i16> <i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0>, align 16		@llvm_mips_st_h_RES = global <8 x i16> <i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0, i16 0>, align 16

define void @llvm_mips_st_h_test() nounwind {		define void @llvm_mips_st_h_test() nounwind {
Show All 33 Lines	entry:
%1 = bitcast <8 x i16>* @llvm_mips_st_h_RES to i8*		%1 = bitcast <8 x i16>* @llvm_mips_st_h_RES to i8*
tail call void @llvm.mips.st.h(<8 x i16> %0, i8* %1, i32 -1024)		tail call void @llvm.mips.st.h(<8 x i16> %0, i8* %1, i32 -1024)
tail call void @llvm.mips.st.h(<8 x i16> %0, i8* %1, i32 1022)		tail call void @llvm.mips.st.h(<8 x i16> %0, i8* %1, i32 1022)
ret void		ret void
}		}

; CHECK: llvm_mips_st_h_valid_range_tests:		; CHECK: llvm_mips_st_h_valid_range_tests:
; CHECK: ld.h		; CHECK: ld.h
; CHECK: st.h [[R1:\$w[0-9]+]], -1024(		; CHECK-DAG: st.h [[R1:\$w[0-9]+]], -1024(
; CHECK: st.h [[R1:\$w[0-9]+]], 1022(		; CHECK-DAG: st.h [[R1:\$w[0-9]+]], 1022(
; CHECK: .size llvm_mips_st_h_valid_range_tests		; CHECK: .size llvm_mips_st_h_valid_range_tests
;		;

define void @llvm_mips_st_h_invalid_range_tests() nounwind {		define void @llvm_mips_st_h_invalid_range_tests() nounwind {
entry:		entry:
%0 = load <8 x i16>, <8 x i16>* @llvm_mips_st_h_ARG		%0 = load <8 x i16>, <8 x i16>* @llvm_mips_st_h_ARG
%1 = bitcast <8 x i16>* @llvm_mips_st_h_RES to i8*		%1 = bitcast <8 x i16>* @llvm_mips_st_h_RES to i8*
tail call void @llvm.mips.st.h(<8 x i16> %0, i8* %1, i32 -1026)		tail call void @llvm.mips.st.h(<8 x i16> %0, i8* %1, i32 -1026)
tail call void @llvm.mips.st.h(<8 x i16> %0, i8* %1, i32 1024)		tail call void @llvm.mips.st.h(<8 x i16> %0, i8* %1, i32 1024)
ret void		ret void
}		}

; CHECK: llvm_mips_st_h_invalid_range_tests:		; CHECK: llvm_mips_st_h_invalid_range_tests:
; CHECK: addiu $2, $1, -1026		; CHECK: addiu $2, $1, 1024
; CHECK: ld.h		; CHECK: ld.h
; CHECK: st.h [[R1:\$w[0-9]+]], 0(		; CHECK: st.h [[R1:\$w[0-9]+]], 0(
; CHECK: addiu $1, $1, 1024		; CHECK: addiu $1, $1, -1026
; CHECK: st.h [[R1:\$w[0-9]+]], 0(		; CHECK: st.h [[R1:\$w[0-9]+]], 0(
; CHECK: .size llvm_mips_st_h_invalid_range_tests		; CHECK: .size llvm_mips_st_h_invalid_range_tests
;		;

@llvm_mips_st_w_ARG = global <4 x i32> <i32 0, i32 1, i32 2, i32 3>, align 16		@llvm_mips_st_w_ARG = global <4 x i32> <i32 0, i32 1, i32 2, i32 3>, align 16
@llvm_mips_st_w_RES = global <4 x i32> <i32 0, i32 0, i32 0, i32 0>, align 16		@llvm_mips_st_w_RES = global <4 x i32> <i32 0, i32 0, i32 0, i32 0>, align 16

define void @llvm_mips_st_w_test() nounwind {		define void @llvm_mips_st_w_test() nounwind {
Show All 33 Lines	entry:
%1 = bitcast <4 x i32>* @llvm_mips_st_w_RES to i8*		%1 = bitcast <4 x i32>* @llvm_mips_st_w_RES to i8*
tail call void @llvm.mips.st.w(<4 x i32> %0, i8* %1, i32 -2048)		tail call void @llvm.mips.st.w(<4 x i32> %0, i8* %1, i32 -2048)
tail call void @llvm.mips.st.w(<4 x i32> %0, i8* %1, i32 2044)		tail call void @llvm.mips.st.w(<4 x i32> %0, i8* %1, i32 2044)
ret void		ret void
}		}

; CHECK: llvm_mips_st_w_valid_range_tests:		; CHECK: llvm_mips_st_w_valid_range_tests:
; CHECK: ld.w		; CHECK: ld.w
; CHECK: st.w [[R1:\$w[0-9]+]], -2048(		; CHECK-DAG: st.w [[R1:\$w[0-9]+]], -2048(
; CHECK: st.w [[R1:\$w[0-9]+]], 2044(		; CHECK-DAG: st.w [[R1:\$w[0-9]+]], 2044(
; CHECK: .size llvm_mips_st_w_valid_range_tests		; CHECK: .size llvm_mips_st_w_valid_range_tests
;		;

define void @llvm_mips_st_w_invalid_range_tests() nounwind {		define void @llvm_mips_st_w_invalid_range_tests() nounwind {
entry:		entry:
%0 = load <4 x i32>, <4 x i32>* @llvm_mips_st_w_ARG		%0 = load <4 x i32>, <4 x i32>* @llvm_mips_st_w_ARG
%1 = bitcast <4 x i32>* @llvm_mips_st_w_RES to i8*		%1 = bitcast <4 x i32>* @llvm_mips_st_w_RES to i8*
tail call void @llvm.mips.st.w(<4 x i32> %0, i8* %1, i32 -2052)		tail call void @llvm.mips.st.w(<4 x i32> %0, i8* %1, i32 -2052)
tail call void @llvm.mips.st.w(<4 x i32> %0, i8* %1, i32 2048)		tail call void @llvm.mips.st.w(<4 x i32> %0, i8* %1, i32 2048)
ret void		ret void
}		}

; CHECK: llvm_mips_st_w_invalid_range_tests:		; CHECK: llvm_mips_st_w_invalid_range_tests:
; CHECK: addiu $2, $1, -2052		; CHECK: addiu $2, $1, 2048
; CHECK: ld.w		; CHECK: ld.w
; CHECK: st.w [[R1:\$w[0-9]+]], 0(		; CHECK: st.w [[R1:\$w[0-9]+]], 0(
; CHECK: addiu $1, $1, 2048		; CHECK: addiu $1, $1, -2052
; CHECK: st.w [[R1:\$w[0-9]+]], 0(		; CHECK: st.w [[R1:\$w[0-9]+]], 0(
; CHECK: .size llvm_mips_st_w_invalid_range_tests		; CHECK: .size llvm_mips_st_w_invalid_range_tests
;		;

@llvm_mips_st_d_ARG = global <2 x i64> <i64 0, i64 1>, align 16		@llvm_mips_st_d_ARG = global <2 x i64> <i64 0, i64 1>, align 16
@llvm_mips_st_d_RES = global <2 x i64> <i64 0, i64 0>, align 16		@llvm_mips_st_d_RES = global <2 x i64> <i64 0, i64 0>, align 16

define void @llvm_mips_st_d_test() nounwind {		define void @llvm_mips_st_d_test() nounwind {
Show All 33 Lines	entry:
%1 = bitcast <2 x i64>* @llvm_mips_st_d_RES to i8*		%1 = bitcast <2 x i64>* @llvm_mips_st_d_RES to i8*
tail call void @llvm.mips.st.d(<2 x i64> %0, i8* %1, i32 -4096)		tail call void @llvm.mips.st.d(<2 x i64> %0, i8* %1, i32 -4096)
tail call void @llvm.mips.st.d(<2 x i64> %0, i8* %1, i32 4088)		tail call void @llvm.mips.st.d(<2 x i64> %0, i8* %1, i32 4088)
ret void		ret void
}		}

; CHECK: llvm_mips_st_d_valid_range_tests:		; CHECK: llvm_mips_st_d_valid_range_tests:
; CHECK: ld.d		; CHECK: ld.d
; CHECK: st.d [[R1:\$w[0-9]+]], -4096(		; CHECK-DAG: st.d [[R1:\$w[0-9]+]], -4096(
; CHECK: st.d [[R1:\$w[0-9]+]], 4088(		; CHECK-DAG: st.d [[R1:\$w[0-9]+]], 4088(
; CHECK: .size llvm_mips_st_d_valid_range_tests		; CHECK: .size llvm_mips_st_d_valid_range_tests
;		;

define void @llvm_mips_st_d_invalid_range_tests() nounwind {		define void @llvm_mips_st_d_invalid_range_tests() nounwind {
entry:		entry:
%0 = load <2 x i64>, <2 x i64>* @llvm_mips_st_d_ARG		%0 = load <2 x i64>, <2 x i64>* @llvm_mips_st_d_ARG
%1 = bitcast <2 x i64>* @llvm_mips_st_d_RES to i8*		%1 = bitcast <2 x i64>* @llvm_mips_st_d_RES to i8*
tail call void @llvm.mips.st.d(<2 x i64> %0, i8* %1, i32 -4104)		tail call void @llvm.mips.st.d(<2 x i64> %0, i8* %1, i32 -4104)
tail call void @llvm.mips.st.d(<2 x i64> %0, i8* %1, i32 4096)		tail call void @llvm.mips.st.d(<2 x i64> %0, i8* %1, i32 4096)
ret void		ret void
}		}

; CHECK: llvm_mips_st_d_invalid_range_tests:		; CHECK: llvm_mips_st_d_invalid_range_tests:
; CHECK: addiu $2, $1, -4104		; CHECK: addiu $2, $1, 4096
; CHECK: ld.d		; CHECK: ld.d
; CHECK: st.d [[R1:\$w[0-9]+]], 0(		; CHECK: st.d [[R1:\$w[0-9]+]], 0(
; CHECK: addiu $1, $1, 4096		; CHECK: addiu $1, $1, -4104
; CHECK: st.d [[R1:\$w[0-9]+]], 0(		; CHECK: st.d [[R1:\$w[0-9]+]], 0(
; CHECK: .size llvm_mips_st_d_invalid_range_tests		; CHECK: .size llvm_mips_st_d_invalid_range_tests
;		;

test/CodeGen/Mips/o32_cc_byval.ll

	Show All 39 Lines

	declare void @callee2(%struct.S2* byval)			declare void @callee2(%struct.S2* byval)

	declare void @callee3(float, %struct.S3* byval, %struct.S1* byval)			declare void @callee3(float, %struct.S3* byval, %struct.S1* byval)

	define void @f2(float %f, %struct.S1* nocapture byval %s1) nounwind {			define void @f2(float %f, %struct.S1* nocapture byval %s1) nounwind {
	entry:			entry:
	; CHECK: addiu $sp, $sp, -48			; CHECK: addiu $sp, $sp, -48
	; CHECK: sw $7, 60($sp)			; CHECK-DAG: sw $7, 60($sp)
	; CHECK: sw $6, 56($sp)			; CHECK-DAG: sw $6, 56($sp)
	; CHECK: lw $4, 80($sp)			; CHECK-DAG: ldc1 $f[[F0:[0-9]+]], 72($sp)
	; CHECK: ldc1 $f[[F0:[0-9]+]], 72($sp)			; CHECK-DAG: lw $[[R3:[0-9]+]], 64($sp)
	; CHECK: lw $[[R3:[0-9]+]], 64($sp)			; CHECK-DAG: lw $[[R4:[0-9]+]], 68($sp)
	; CHECK: lw $[[R4:[0-9]+]], 68($sp)			; CHECK-DAG: lh $[[R1:[0-9]+]], 58($sp)
	; CHECK: lw $[[R2:[0-9]+]], 60($sp)			; CHECK-DAG: lb $[[R0:[0-9]+]], 56($sp)
	; CHECK: lh $[[R1:[0-9]+]], 58($sp)			; CHECK-DAG: sw $[[R0]], 32($sp)
	; CHECK: lb $[[R0:[0-9]+]], 56($sp)			; CHECK-DAG: sw $[[R1]], 28($sp)
	; CHECK: sw $[[R0]], 32($sp)			; CHECK-DAG: sw $[[R4]], 20($sp)
	; CHECK: sw $[[R1]], 28($sp)			; CHECK-DAG: sw $[[R3]], 16($sp)
	; CHECK: sw $[[R2]], 24($sp)			; CHECK-DAG: sw $7, 24($sp)
	; CHECK: sw $[[R4]], 20($sp)
	; CHECK: sw $[[R3]], 16($sp)
	; CHECK: mfc1 $6, $f[[F0]]			; CHECK: mfc1 $6, $f[[F0]]

	%i2 = getelementptr inbounds %struct.S1, %struct.S1* %s1, i32 0, i32 5			%i2 = getelementptr inbounds %struct.S1, %struct.S1* %s1, i32 0, i32 5
	%tmp = load i32, i32* %i2, align 4			%tmp = load i32, i32* %i2, align 4
	%d = getelementptr inbounds %struct.S1, %struct.S1* %s1, i32 0, i32 4			%d = getelementptr inbounds %struct.S1, %struct.S1* %s1, i32 0, i32 4
	%tmp1 = load double, double* %d, align 8			%tmp1 = load double, double* %d, align 8
	%ll = getelementptr inbounds %struct.S1, %struct.S1* %s1, i32 0, i32 3			%ll = getelementptr inbounds %struct.S1, %struct.S1* %s1, i32 0, i32 3
	%tmp2 = load i64, i64* %ll, align 8			%tmp2 = load i64, i64* %ll, align 8
	%i = getelementptr inbounds %struct.S1, %struct.S1* %s1, i32 0, i32 2			%i = getelementptr inbounds %struct.S1, %struct.S1* %s1, i32 0, i32 2
	%tmp3 = load i32, i32* %i, align 4			%tmp3 = load i32, i32* %i, align 4
	%s = getelementptr inbounds %struct.S1, %struct.S1* %s1, i32 0, i32 1			%s = getelementptr inbounds %struct.S1, %struct.S1* %s1, i32 0, i32 1
	%tmp4 = load i16, i16* %s, align 2			%tmp4 = load i16, i16* %s, align 2
	%c = getelementptr inbounds %struct.S1, %struct.S1* %s1, i32 0, i32 0			%c = getelementptr inbounds %struct.S1, %struct.S1* %s1, i32 0, i32 0
	%tmp5 = load i8, i8* %c, align 1			%tmp5 = load i8, i8* %c, align 1
	tail call void @callee4(i32 %tmp, double %tmp1, i64 %tmp2, i32 %tmp3, i16 signext %tmp4, i8 signext %tmp5, float %f) nounwind			tail call void @callee4(i32 %tmp, double %tmp1, i64 %tmp2, i32 %tmp3, i16 signext %tmp4, i8 signext %tmp5, float %f) nounwind
	ret void			ret void
	}			}

	declare void @callee4(i32, double, i64, i32, i16 signext, i8 signext, float)			declare void @callee4(i32, double, i64, i32, i16 signext, i8 signext, float)

	define void @f3(%struct.S2* nocapture byval %s2) nounwind {			define void @f3(%struct.S2* nocapture byval %s2) nounwind {
	entry:			entry:
	; CHECK: addiu $sp, $sp, -48			; CHECK: addiu $sp, $sp, -48
	; CHECK: sw $7, 60($sp)			; CHECK-DAG: sw $7, 60($sp)
	; CHECK: sw $6, 56($sp)			; CHECK-DAG: sw $6, 56($sp)
	; CHECK: sw $5, 52($sp)			; CHECK-DAG: sw $5, 52($sp)
	; CHECK: sw $4, 48($sp)			; CHECK-DAG: sw $4, 48($sp)
	; CHECK: lw $4, 48($sp)			; CHECK-DAG: sw $7, 24($sp)
	; CHECK: lw $[[R0:[0-9]+]], 60($sp)
	; CHECK: sw $[[R0]], 24($sp)

	%arrayidx = getelementptr inbounds %struct.S2, %struct.S2* %s2, i32 0, i32 0, i32 0			%arrayidx = getelementptr inbounds %struct.S2, %struct.S2* %s2, i32 0, i32 0, i32 0
	%tmp = load i32, i32* %arrayidx, align 4			%tmp = load i32, i32* %arrayidx, align 4
	%arrayidx2 = getelementptr inbounds %struct.S2, %struct.S2* %s2, i32 0, i32 0, i32 3			%arrayidx2 = getelementptr inbounds %struct.S2, %struct.S2* %s2, i32 0, i32 0, i32 3
	%tmp3 = load i32, i32* %arrayidx2, align 4			%tmp3 = load i32, i32* %arrayidx2, align 4
	tail call void @callee4(i32 %tmp, double 2.000000e+00, i64 3, i32 %tmp3, i16 signext 4, i8 signext 5, float 6.000000e+00) nounwind			tail call void @callee4(i32 %tmp, double 2.000000e+00, i64 3, i32 %tmp3, i16 signext 4, i8 signext 5, float 6.000000e+00) nounwind
	ret void			ret void
	}			}

	define void @f4(float %f, %struct.S3* nocapture byval %s3, %struct.S1* nocapture byval %s1) nounwind {			define void @f4(float %f, %struct.S3* nocapture byval %s3, %struct.S1* nocapture byval %s1) nounwind {
	entry:			entry:
	; CHECK: addiu $sp, $sp, -48			; CHECK: addiu $sp, $sp, -48
	; CHECK: sw $7, 60($sp)			; CHECK-DAG: sw $7, 60($sp)
	; CHECK: sw $6, 56($sp)			; CHECK-DAG: sw $6, 56($sp)
	; CHECK: sw $5, 52($sp)			; CHECK-DAG: sw $5, 52($sp)
	; CHECK: lw $4, 60($sp)			; CHECK-DAG: lw $[[R1:[0-9]+]], 80($sp)
	; CHECK: lw $[[R1:[0-9]+]], 80($sp)			; CHECK-DAG: lb $[[R0:[0-9]+]], 52($sp)
	; CHECK: lb $[[R0:[0-9]+]], 52($sp)			; CHECK-DAG: sw $[[R0]], 32($sp)
	; CHECK: sw $[[R0]], 32($sp)			; CHECK-DAG: sw $[[R1]], 24($sp)
	; CHECK: sw $[[R1]], 24($sp)			; CHECK: move $4, $7

	%i = getelementptr inbounds %struct.S1, %struct.S1* %s1, i32 0, i32 2			%i = getelementptr inbounds %struct.S1, %struct.S1* %s1, i32 0, i32 2
	%tmp = load i32, i32* %i, align 4			%tmp = load i32, i32* %i, align 4
	%i2 = getelementptr inbounds %struct.S1, %struct.S1* %s1, i32 0, i32 5			%i2 = getelementptr inbounds %struct.S1, %struct.S1* %s1, i32 0, i32 5
	%tmp1 = load i32, i32* %i2, align 4			%tmp1 = load i32, i32* %i2, align 4
	%c = getelementptr inbounds %struct.S3, %struct.S3* %s3, i32 0, i32 0			%c = getelementptr inbounds %struct.S3, %struct.S3* %s3, i32 0, i32 0
	%tmp2 = load i8, i8* %c, align 1			%tmp2 = load i8, i8* %c, align 1
	tail call void @callee4(i32 %tmp, double 2.000000e+00, i64 3, i32 %tmp1, i16 signext 4, i8 signext %tmp2, float 6.000000e+00) nounwind			tail call void @callee4(i32 %tmp, double 2.000000e+00, i64 3, i32 %tmp1, i16 signext 4, i8 signext %tmp2, float 6.000000e+00) nounwind
	Show All 12 Lines

test/CodeGen/Mips/o32_cc_vararg.ll

Show All 23 Lines	entry:
store i32 %0, i32* %b, align 4		store i32 %0, i32* %b, align 4
%ap2 = bitcast i8** %ap to i8*		%ap2 = bitcast i8** %ap to i8*
call void @llvm.va_end(i8* %ap2)		call void @llvm.va_end(i8* %ap2)
%tmp = load i32, i32* %b, align 4		%tmp = load i32, i32* %b, align 4
ret i32 %tmp		ret i32 %tmp

; CHECK-LABEL: va1:		; CHECK-LABEL: va1:
; CHECK: addiu $sp, $sp, -16		; CHECK: addiu $sp, $sp, -16
		; CHECK: sw $5, 20($sp)
; CHECK: sw $7, 28($sp)		; CHECK: sw $7, 28($sp)
; CHECK: sw $6, 24($sp)		; CHECK: sw $6, 24($sp)
; CHECK: sw $5, 20($sp)
; CHECK: lw $2, 20($sp)		; CHECK: lw $2, 20($sp)
}		}

; check whether the variable double argument will be accessed from the 8-byte		; check whether the variable double argument will be accessed from the 8-byte
; aligned location (i.e. whether the address is computed by adding 7 and		; aligned location (i.e. whether the address is computed by adding 7 and
; clearing lower 3 bits)		; clearing lower 3 bits)
define double @va2(i32 %a, ...) nounwind {		define double @va2(i32 %a, ...) nounwind {
entry:		entry:
Show All 35 Lines	entry:
store i32 %0, i32* %b, align 4		store i32 %0, i32* %b, align 4
%ap2 = bitcast i8** %ap to i8*		%ap2 = bitcast i8** %ap to i8*
call void @llvm.va_end(i8* %ap2)		call void @llvm.va_end(i8* %ap2)
%tmp = load i32, i32* %b, align 4		%tmp = load i32, i32* %b, align 4
ret i32 %tmp		ret i32 %tmp

; CHECK-LABEL: va3:		; CHECK-LABEL: va3:
; CHECK: addiu $sp, $sp, -16		; CHECK: addiu $sp, $sp, -16
; CHECK: sw $7, 28($sp)
; CHECK: sw $6, 24($sp)		; CHECK: sw $6, 24($sp)
		; CHECK: sw $7, 28($sp)
; CHECK: lw $2, 24($sp)		; CHECK: lw $2, 24($sp)
}		}

; double		; double
define double @va4(double %a, ...) nounwind {		define double @va4(double %a, ...) nounwind {
entry:		entry:
%a.addr = alloca double, align 8		%a.addr = alloca double, align 8
%ap = alloca i8*, align 4		%ap = alloca i8*, align 4
▲ Show 20 Lines • Show All 175 Lines • Show Last 20 Lines

test/CodeGen/PowerPC/anon_aggr.ll

Show First 20 Lines • Show All 54 Lines • ▼ Show 20 Lines	entry:
%array2_ptr = load i8, i8* %tmp		%array2_ptr = load i8, i8* %tmp
%cond = icmp eq i8* %array1_ptr, %array2_ptr		%cond = icmp eq i8* %array1_ptr, %array2_ptr
br i1 %cond, label %equal, label %unequal		br i1 %cond, label %equal, label %unequal
equal:		equal:
ret i8* %array1_ptr		ret i8* %array1_ptr
unequal:		unequal:
ret i8* %array2_ptr		ret i8* %array2_ptr
}		}

; CHECK-LABEL: func2:		; CHECK-LABEL: func2:
; CHECK: ld [[REG2:[0-9]+]], 72(1)		; CHECK: cmpld {{([0-9]+,)?}}4, 6
; CHECK: cmpld {{([0-9]+,)?}}4, [[REG2]]		; CHECK-DAG: std 6, 72(1)
; CHECK-DAG: std [[REG2]], -[[OFFSET1:[0-9]+]]		; CHECK-DAG: std 5, 64(1)
		; CHECK-DAG: std 6, -[[OFFSET1:[0-9]+]]
; CHECK-DAG: std 4, -[[OFFSET2:[0-9]+]]		; CHECK-DAG: std 4, -[[OFFSET2:[0-9]+]]
; CHECK: ld 3, -[[OFFSET2]](1)		; CHECK: ld 3, -[[OFFSET2]](1)
; CHECK: ld 3, -[[OFFSET1]](1)		; CHECK: ld 3, -[[OFFSET1]](1)

; DARWIN32: _func2:		; DARWIN32-LABEL: _func2
; DARWIN32: addi r[[REG1:[0-9]+]], r[[REGSP:[0-9]+]], 36		; DARWIN32-DAG: addi r[[REG8:[0-9]+]], r[[REGSP:[0-9]+]], 36
; DARWIN32: lwz r[[REG2:[0-9]+]], 44(r[[REGSP]])		; DARWIN32-DAG: lwz r[[REG2:[0-9]+]], 44(r[[REGSP]])
; DARWIN32: mr		; DARWIN32: mr
; DARWIN32: mr r[[REG3:[0-9]+]], r[[REGA:[0-9]+]]		; DARWIN32: mr r[[REG7:[0-9]+]], r5
; DARWIN32: cmplw {{(cr[0-9]+,)?}}r[[REGA]], r[[REG2]]		; DARWIN32-DAG: cmplw {{(cr[0-9]+,)?}}r5, r[[REG2]]
; DARWIN32: stw r[[REG3]], -[[OFFSET1:[0-9]+]]		; DARWIN32-DAG: stw r[[REG7]], -[[OFFSET1:[0-9]+]]
; DARWIN32: stw r[[REG2]], -[[OFFSET2:[0-9]+]]		; DARWIN32-DAG: stw r[[REG2]], -[[OFFSET2:[0-9]+]]
; DARWIN32: lwz r3, -[[OFFSET1]]		; DARWIN32-DAG: lwz r3, -[[OFFSET1]]
; DARWIN32: lwz r3, -[[OFFSET2]]		; DARWIN32-DAG: lwz r3, -[[OFFSET2]]


; DARWIN64: _func2:		; DARWIN64: _func2:
; DARWIN64: ld r[[REG2:[0-9]+]], 72(r1)		; DARWIN64: ld r[[REG2:[0-9]+]], 72(r1)
; DARWIN64: mr		; DARWIN64: mr
; DARWIN64: mr r[[REG3:[0-9]+]], r[[REGA:[0-9]+]]		; DARWIN64: mr r[[REG3:[0-9]+]], r[[REGA:[0-9]+]]
; DARWIN64: cmpld {{(cr[0-9]+,)?}}r[[REGA]], r[[REG2]]		; DARWIN64: cmpld {{(cr[0-9]+,)?}}r[[REGA]], r[[REG2]]
; DARWIN64: std r[[REG3]], -[[OFFSET1:[0-9]+]]
; DARWIN64: std r[[REG2]], -[[OFFSET2:[0-9]+]]		; DARWIN64: std r[[REG2]], -[[OFFSET2:[0-9]+]]
		; DARWIN64: std r[[REG3]], -[[OFFSET1:[0-9]+]]
; DARWIN64: ld r3, -[[OFFSET1]]		; DARWIN64: ld r3, -[[OFFSET1]]
; DARWIN64: ld r3, -[[OFFSET2]]		; DARWIN64: ld r3, -[[OFFSET2]]


define i8* @func3({ i64, i8* }* byval %array1, %tarray* byval %array2) {		define i8* @func3({ i64, i8* }* byval %array1, %tarray* byval %array2) {
entry:		entry:
%tmp1 = getelementptr inbounds { i64, i8* }, { i64, i8* }* %array1, i32 0, i32 1		%tmp1 = getelementptr inbounds { i64, i8* }, { i64, i8* }* %array1, i32 0, i32 1
%array1_ptr = load i8, i8* %tmp1		%array1_ptr = load i8, i8* %tmp1
%tmp2 = getelementptr inbounds %tarray, %tarray* %array2, i32 0, i32 1		%tmp2 = getelementptr inbounds %tarray, %tarray* %array2, i32 0, i32 1
%array2_ptr = load i8, i8* %tmp2		%array2_ptr = load i8, i8* %tmp2
%cond = icmp eq i8* %array1_ptr, %array2_ptr		%cond = icmp eq i8* %array1_ptr, %array2_ptr
br i1 %cond, label %equal, label %unequal		br i1 %cond, label %equal, label %unequal
equal:		equal:
ret i8* %array1_ptr		ret i8* %array1_ptr
unequal:		unequal:
ret i8* %array2_ptr		ret i8* %array2_ptr
}		}

; CHECK-LABEL: func3:		; CHECK-LABEL: func3:
; CHECK: ld [[REG3:[0-9]+]], 72(1)		; CHECK: cmpld {{([0-9]+,)?}}4, 6
; CHECK: ld [[REG4:[0-9]+]], 56(1)		; CHECK-DAG: std 4, -[[OFFSET2:[0-9]+]](1)
; CHECK: cmpld {{([0-9]+,)?}}[[REG4]], [[REG3]]		; CHECK-DAG: std 6, -[[OFFSET1:[0-9]+]](1)
; CHECK: std [[REG3]], -[[OFFSET1:[0-9]+]](1)
; CHECK: std [[REG4]], -[[OFFSET2:[0-9]+]](1)
; CHECK: ld 3, -[[OFFSET2]](1)		; CHECK: ld 3, -[[OFFSET2]](1)
; CHECK: ld 3, -[[OFFSET1]](1)		; CHECK: ld 3, -[[OFFSET1]](1)

; DARWIN32: _func3:		; DARWIN32-LABEL: _func3:
; DARWIN32: addi r[[REG1:[0-9]+]], r[[REGSP:[0-9]+]], 36		; DARWIN32-DAG: stw r[[REG8:[0-9]+]], 44(r[[REGSP:[0-9]+]])
; DARWIN32: addi r[[REG2:[0-9]+]], r[[REGSP]], 24		; DARWIN32-DAG: stw r[[REG5:[0-9]+]], 32(r[[REGSP]])
; DARWIN32: lwz r[[REG3:[0-9]+]], 44(r[[REGSP]])		; DARWIN32-DAG: addi r[[REG5a:[0-9]+]], r[[REGSP:[0-9]+]], 36
; DARWIN32: lwz r[[REG4:[0-9]+]], 32(r[[REGSP]])		; DARWIN32-DAG: addi r[[REG8a:[0-9]+]], r[[REGSP]], 24
; DARWIN32: cmplw {{(cr[0-9]+,)?}}r[[REG4]], r[[REG3]]		; DARWIN32-DAG: lwz r[[REG5a:[0-9]+]], 44(r[[REGSP]])
; DARWIN32: stw r[[REG3]], -[[OFFSET1:[0-9]+]]		; DARWIN32-DAG: lwz r[[REG8a:[0-9]+]], 32(r[[REGSP]])
; DARWIN32: stw r[[REG4]], -[[OFFSET2:[0-9]+]]		; DARWIN32-DAG: cmplw {{(cr[0-9]+,)?}}r[[REG8a]], r[[REG5a]]
; DARWIN32: lwz r3, -[[OFFSET2]]		; DARWIN32-DAG: stw r[[REG5a]], -[[OFFSET1:[0-9]+]]
; DARWIN32: lwz r3, -[[OFFSET1]]		; DARWIN32-DAG: stw r[[REG8a]], -[[OFFSET2:[0-9]+]]
		; DARWIN32-DAG: lwz r3, -[[OFFSET1:[0-9]+]]
		; DARWIN32-DAG: lwz r3, -[[OFFSET2:[0-9]+]]

; DARWIN64: _func3:		; DARWIN64: _func3:
; DARWIN64: ld r[[REG3:[0-9]+]], 72(r1)		; DARWIN64: ld r[[REG3:[0-9]+]], 72(r1)
; DARWIN64: ld r[[REG4:[0-9]+]], 56(r1)		; DARWIN64: ld r[[REG4:[0-9]+]], 56(r1)
; DARWIN64: cmpld {{(cr[0-9]+,)?}}r[[REG4]], r[[REG3]]		; DARWIN64: cmpld {{(cr[0-9]+,)?}}r[[REG4]], r[[REG3]]
; DARWIN64: std r[[REG3]], -[[OFFSET1:[0-9]+]]		; DARWIN64: std r[[REG3]], -[[OFFSET1:[0-9]+]]
; DARWIN64: std r[[REG4]], -[[OFFSET2:[0-9]+]]		; DARWIN64: std r[[REG4]], -[[OFFSET2:[0-9]+]]
; DARWIN64: ld r3, -[[OFFSET2]]		; DARWIN64: ld r3, -[[OFFSET2]]
▲ Show 20 Lines • Show All 47 Lines • Show Last 20 Lines

test/CodeGen/PowerPC/complex-return.ll

Show All 18 Lines	entry:
%imag2 = getelementptr inbounds { ppc_fp128, ppc_fp128 }, { ppc_fp128, ppc_fp128 }* %retval, i32 0, i32 1		%imag2 = getelementptr inbounds { ppc_fp128, ppc_fp128 }, { ppc_fp128, ppc_fp128 }* %retval, i32 0, i32 1
store ppc_fp128 %x.real, ppc_fp128* %real1		store ppc_fp128 %x.real, ppc_fp128* %real1
store ppc_fp128 %x.imag, ppc_fp128* %imag2		store ppc_fp128 %x.imag, ppc_fp128* %imag2
%0 = load { ppc_fp128, ppc_fp128 }, { ppc_fp128, ppc_fp128 }* %retval		%0 = load { ppc_fp128, ppc_fp128 }, { ppc_fp128, ppc_fp128 }* %retval
ret { ppc_fp128, ppc_fp128 } %0		ret { ppc_fp128, ppc_fp128 } %0
}		}

; CHECK-LABEL: foo:		; CHECK-LABEL: foo:
; CHECK: lfd 1		; CHECK-DAG: lfd 1
; CHECK: lfd 2		; CHECK-DAG: lfd 2
; CHECK: lfd 3		; CHECK-DAG: lfd 3
; CHECK: lfd 4		; CHECK_DAG: lfd 4

define { float, float } @oof() nounwind {		define { float, float } @oof() nounwind {
entry:		entry:
%retval = alloca { float, float }, align 4		%retval = alloca { float, float }, align 4
%x = alloca { float, float }, align 4		%x = alloca { float, float }, align 4
%real = getelementptr inbounds { float, float }, { float, float }* %x, i32 0, i32 0		%real = getelementptr inbounds { float, float }, { float, float }* %x, i32 0, i32 0
%imag = getelementptr inbounds { float, float }, { float, float }* %x, i32 0, i32 1		%imag = getelementptr inbounds { float, float }, { float, float }* %x, i32 0, i32 1
store float 3.500000e+00, float* %real		store float 3.500000e+00, float* %real
store float 0xC00547AE20000000, float* %imag		store float 0xC00547AE20000000, float* %imag
%x.realp = getelementptr inbounds { float, float }, { float, float }* %x, i32 0, i32 0		%x.realp = getelementptr inbounds { float, float }, { float, float }* %x, i32 0, i32 0
%x.real = load float, float* %x.realp		%x.real = load float, float* %x.realp
%x.imagp = getelementptr inbounds { float, float }, { float, float }* %x, i32 0, i32 1		%x.imagp = getelementptr inbounds { float, float }, { float, float }* %x, i32 0, i32 1
%x.imag = load float, float* %x.imagp		%x.imag = load float, float* %x.imagp
%real1 = getelementptr inbounds { float, float }, { float, float }* %retval, i32 0, i32 0		%real1 = getelementptr inbounds { float, float }, { float, float }* %retval, i32 0, i32 0
%imag2 = getelementptr inbounds { float, float }, { float, float }* %retval, i32 0, i32 1		%imag2 = getelementptr inbounds { float, float }, { float, float }* %retval, i32 0, i32 1
store float %x.real, float* %real1		store float %x.real, float* %real1
store float %x.imag, float* %imag2		store float %x.imag, float* %imag2
%0 = load { float, float }, { float, float }* %retval		%0 = load { float, float }, { float, float }* %retval
ret { float, float } %0		ret { float, float } %0
}		}

; CHECK-LABEL: oof:		; CHECK-LABEL: oof:
; CHECK: lfs 2		; CHECK-DAG: lfs 2
; CHECK: lfs 1		; CHECK-DAG: lfs 1

test/CodeGen/PowerPC/jaggedstructs.ll

	Show All 12 Lines
	%struct.S7 = type { [7 x i8] }			%struct.S7 = type { [7 x i8] }

	define void @test(%struct.S3* byval %s3, %struct.S5* byval %s5, %struct.S6* byval %s6, %struct.S7* byval %s7) nounwind {			define void @test(%struct.S3* byval %s3, %struct.S5* byval %s5, %struct.S6* byval %s6, %struct.S7* byval %s7) nounwind {
	entry:			entry:
	call void @check(%struct.S3* byval %s3, %struct.S5* byval %s5, %struct.S6* byval %s6, %struct.S7* byval %s7)			call void @check(%struct.S3* byval %s3, %struct.S5* byval %s5, %struct.S6* byval %s6, %struct.S7* byval %s7)
	ret void			ret void
	}			}

	; CHECK: std 6, 184(1)			; CHECK-DAG: std 3, 160(1)
	; CHECK: std 5, 176(1)			; CHECK-DAG: std 6, 184(1)
	; CHECK: std 4, 168(1)			; CHECK-DAG: std 5, 176(1)
	; CHECK: std 3, 160(1)			; CHECK-DAG: std 4, 168(1)
	; CHECK: lbz {{[0-9]+}}, 167(1)			; CHECK-DAG: lbz {{[0-9]+}}, 167(1)
	; CHECK: lhz {{[0-9]+}}, 165(1)			; CHECK-DAG: lhz {{[0-9]+}}, 165(1)
	; CHECK: stb {{[0-9]+}}, 55(1)			; CHECK-DAG: stb {{[0-9]+}}, 55(1)
	; CHECK: sth {{[0-9]+}}, 53(1)			; CHECK-DAG-DAG: sth {{[0-9]+}}, 53(1)
	; CHECK: lbz {{[0-9]+}}, 175(1)			; CHECK-DAG: lbz {{[0-9]+}}, 175(1)
	; CHECK: lwz {{[0-9]+}}, 171(1)			; CHECK-DAG: lwz {{[0-9]+}}, 171(1)
	; CHECK: stb {{[0-9]+}}, 63(1)			; CHECK-DAG: stb {{[0-9]+}}, 63(1)
	; CHECK: stw {{[0-9]+}}, 59(1)			; CHECK-DAG: stw {{[0-9]+}}, 59(1)
	; CHECK: lhz {{[0-9]+}}, 182(1)			; CHECK-DAG: lhz {{[0-9]+}}, 182(1)
	; CHECK: lwz {{[0-9]+}}, 178(1)			; CHECK-DAG: lwz {{[0-9]+}}, 178(1)
	; CHECK: sth {{[0-9]+}}, 70(1)			; CHECK-DAG: sth {{[0-9]+}}, 70(1)
	; CHECK: stw {{[0-9]+}}, 66(1)			; CHECK-DAG: stw {{[0-9]+}}, 66(1)
	; CHECK: lbz {{[0-9]+}}, 191(1)			; CHECK-DAG: lbz {{[0-9]+}}, 191(1)
	; CHECK: lhz {{[0-9]+}}, 189(1)			; CHECK-DAG: lhz {{[0-9]+}}, 189(1)
	; CHECK: lwz {{[0-9]+}}, 185(1)			; CHECK-DAG: lwz {{[0-9]+}}, 185(1)
	; CHECK: stb {{[0-9]+}}, 79(1)			; CHECK-DAG: stb {{[0-9]+}}, 79(1)
	; CHECK: sth {{[0-9]+}}, 77(1)			; CHECK-DAG: sth {{[0-9]+}}, 77(1)
	; CHECK: stw {{[0-9]+}}, 73(1)			; CHECK-DAG: stw {{[0-9]+}}, 73(1)
	; CHECK: ld 6, 72(1)			; CHECK-DAG: ld 6, 72(1)
	; CHECK: ld 5, 64(1)			; CHECK-DAG: ld 5, 64(1)
	; CHECK: ld 4, 56(1)			; CHECK-DAG: ld 4, 56(1)
	; CHECK: ld 3, 48(1)			; CHECK-DAG: ld 3, 48(1)

	declare void @check(%struct.S3* byval, %struct.S5* byval, %struct.S6* byval, %struct.S7* byval)			declare void @check(%struct.S3* byval, %struct.S5* byval, %struct.S6* byval, %struct.S7* byval)

test/CodeGen/PowerPC/ppc64-align-long-double.ll

	; RUN: llc -verify-machineinstrs -mcpu=pwr7 -O0 -fast-isel=false -mattr=-vsx < %s \| FileCheck %s			; RUN: llc -verify-machineinstrs -mcpu=pwr7 -O0 -fast-isel=false -mattr=-vsx < %s \| FileCheck %s
	; RUN: llc -verify-machineinstrs -mcpu=pwr7 -O0 -fast-isel=false -mattr=+vsx < %s \| FileCheck -check-prefix=CHECK-VSX %s			; RUN: llc -verify-machineinstrs -mcpu=pwr7 -O0 -fast-isel=false -mattr=+vsx < %s \| FileCheck -check-prefix=CHECK-VSX %s
	; RUN: llc -verify-machineinstrs -mcpu=pwr9 -O0 -fast-isel=false -mattr=+vsx < %s \| FileCheck %s			; RUN: llc -verify-machineinstrs -mcpu=pwr9 -O0 -fast-isel=false -mattr=+vsx < %s \| FileCheck -check-prefix=CHECK-P9 %s

	; Verify internal alignment of long double in a struct. The double			; Verify internal alignment of long double in a struct. The double
	; argument comes in in GPR3; GPR4 is skipped; GPRs 5 and 6 contain			; argument comes in in GPR3; GPR4 is skipped; GPRs 5 and 6 contain
	; the long double. Check that these are stored to proper locations			; the long double. Check that these are stored to proper locations
	; in the parameter save area and loaded from there for return in FPR1/2.			; in the parameter save area and loaded from there for return in FPR1/2.

	target datalayout = "E-p:64:64:64-i1:8:8-i8:8:8-i16:16:16-i32:32:32-i64:64:64-f32:32:32-f64:64:64-f128:128:128-v128:128:128-n32:64"			target datalayout = "E-p:64:64:64-i1:8:8-i8:8:8-i16:16:16-i32:32:32-i64:64:64-f32:32:32-f64:64:64-f128:128:128-v128:128:128-n32:64"
	target triple = "powerpc64-unknown-linux-gnu"			target triple = "powerpc64-unknown-linux-gnu"

	%struct.S = type { double, ppc_fp128 }			%struct.S = type { double, ppc_fp128 }

	define ppc_fp128 @test(%struct.S* byval %x) nounwind {			define ppc_fp128 @test(%struct.S* byval %x) nounwind {
	entry:			entry:
	%b = getelementptr inbounds %struct.S, %struct.S* %x, i32 0, i32 1			%b = getelementptr inbounds %struct.S, %struct.S* %x, i32 0, i32 1
	%0 = load ppc_fp128, ppc_fp128* %b, align 16			%0 = load ppc_fp128, ppc_fp128* %b, align 16
	ret ppc_fp128 %0			ret ppc_fp128 %0
	}			}

				; The additional stores are caused because we forward the value in the
				; store->load->bitcast path to make a store and bitcast of the same
				hfinkelUnsubmitted Not Done Reply Inline Actions TODO -> FIXME hfinkel: TODO -> FIXME
				; value. Since the target does bitcast through memory and we no longer
				; remember the address we need to do the store in a fresh local
				; address.

	; CHECK-DAG: std 6, 72(1)			; CHECK-DAG: std 6, 72(1)
	; CHECK-DAG: std 5, 64(1)			; CHECK-DAG: std 5, 64(1)
	; CHECK-DAG: std 4, 56(1)			; CHECK-DAG: std 4, 56(1)
	; CHECK-DAG: std 3, 48(1)			; CHECK-DAG: std 3, 48(1)
	; CHECK: lfd 1, 64(1)
	; CHECK: lfd 2, 72(1)			; CHECK-DAG: std 5, -16(1)
				; CHECK-DAG: std 6, -8(1)
				; CHECK-DAG: lfd 1, -16(1)
				; CHECK-DAG: lfd 2, -8(1)

				; FIXMECHECK: lfd 1, 64(1)
				; FIXMECHECK: lfd 2, 72(1)

	; CHECK-VSX-DAG: std 6, 72(1)			; CHECK-VSX-DAG: std 6, 72(1)
	; CHECK-VSX-DAG: std 5, 64(1)			; CHECK-VSX-DAG: std 5, 64(1)
	; CHECK-VSX-DAG: std 4, 56(1)			; CHECK-VSX-DAG: std 4, 56(1)
	; CHECK-VSX-DAG: std 3, 48(1)			; CHECK-VSX-DAG: std 3, 48(1)
	; CHECK-VSX: li 3, 16			; CHECK-VSX-DAG: std 5, -16(1)
	; CHECK-VSX: addi 4, 1, 48			; CHECK-VSX-DAG: std 6, -8(1)
	; CHECK-VSX: lxsdx 1, 4, 3			; CHECK-VSX: addi 3, 1, -16
	; CHECK-VSX: li 3, 24			; CHECK-VSX: lxsdx 1, 0, 3
	; CHECK-VSX: lxsdx 2, 4, 3			; CHECK-VSX: addi 3, 1, -8
				; CHECK-VSX: lxsdx 2, 0, 3

				; FIXME-VSX: addi 4, 1, 48
				; FIXME-VSX: lxsdx 1, 4, 3
				; FIXME-VSX: li 3, 24
				; FIXME-VSX: lxsdx 2, 4, 3

				; CHECK-P9: std 6, 72(1)
				; CHECK-P9: std 5, 64(1)
				; CHECK-P9: std 4, 56(1)
				; CHECK-P9: std 3, 48(1)
				; CHECK-P9: mtvsrd 1, 5
				; CHECK-P9: mtvsrd 2, 6

test/CodeGen/PowerPC/structsinmem.ll

Show First 20 Lines • Show All 107 Lines • ▼ Show 20 Lines	entry:
%a10 = getelementptr inbounds %struct.s6, %struct.s6* %v6, i32 0, i32 0		%a10 = getelementptr inbounds %struct.s6, %struct.s6* %v6, i32 0, i32 0
%5 = load i32, i32* %a10, align 4		%5 = load i32, i32* %a10, align 4
%add11 = add nsw i32 %add9, %5		%add11 = add nsw i32 %add9, %5
%a12 = getelementptr inbounds %struct.s7, %struct.s7* %v7, i32 0, i32 0		%a12 = getelementptr inbounds %struct.s7, %struct.s7* %v7, i32 0, i32 0
%6 = load i32, i32* %a12, align 4		%6 = load i32, i32* %a12, align 4
%add13 = add nsw i32 %add11, %6		%add13 = add nsw i32 %add11, %6
ret i32 %add13		ret i32 %add13

; CHECK: lha {{[0-9]+}}, 126(1)		; CHECK-DAG: lha {{[0-9]+}}, 126(1)
; CHECK: lha {{[0-9]+}}, 132(1)		; CHECK-DAG: lha {{[0-9]+}}, 132(1)
; CHECK: lbz {{[0-9]+}}, 119(1)		; CHECK-DAG: lbz {{[0-9]+}}, 119(1)
; CHECK: lwz {{[0-9]+}}, 140(1)		; CHECK-DAG: lwz {{[0-9]+}}, 140(1)
; CHECK: lwz {{[0-9]+}}, 144(1)		; CHECK-DAG: lwz {{[0-9]+}}, 144(1)
; CHECK: lwz {{[0-9]+}}, 152(1)		; CHECK-DAG: lwz {{[0-9]+}}, 152(1)
; CHECK: lwz {{[0-9]+}}, 160(1)		; CHECK-DAG: lwz {{[0-9]+}}, 160(1)
}		}

define i32 @caller2() nounwind {		define i32 @caller2() nounwind {
entry:		entry:
%p1 = alloca %struct.t1, align 1		%p1 = alloca %struct.t1, align 1
%p2 = alloca %struct.t2, align 1		%p2 = alloca %struct.t2, align 1
%p3 = alloca %struct.t3, align 1		%p3 = alloca %struct.t3, align 1
%p4 = alloca %struct.t4, align 1		%p4 = alloca %struct.t4, align 1
▲ Show 20 Lines • Show All 69 Lines • ▼ Show 20 Lines	entry:
%a10 = getelementptr inbounds %struct.t6, %struct.t6* %v6, i32 0, i32 0		%a10 = getelementptr inbounds %struct.t6, %struct.t6* %v6, i32 0, i32 0
%5 = load i32, i32* %a10, align 1		%5 = load i32, i32* %a10, align 1
%add11 = add nsw i32 %add9, %5		%add11 = add nsw i32 %add9, %5
%a12 = getelementptr inbounds %struct.t7, %struct.t7* %v7, i32 0, i32 0		%a12 = getelementptr inbounds %struct.t7, %struct.t7* %v7, i32 0, i32 0
%6 = load i32, i32* %a12, align 1		%6 = load i32, i32* %a12, align 1
%add13 = add nsw i32 %add11, %6		%add13 = add nsw i32 %add11, %6
ret i32 %add13		ret i32 %add13

; CHECK: lha {{[0-9]+}}, 126(1)		; CHECK-DAG: lha {{[0-9]+}}, 126(1)
; CHECK: lha {{[0-9]+}}, 133(1)		; CHECK-DAG: lha {{[0-9]+}}, 133(1)
; CHECK: lbz {{[0-9]+}}, 119(1)		; CHECK-DAG: lbz {{[0-9]+}}, 119(1)
; CHECK: lwz {{[0-9]+}}, 140(1)		; CHECK-DAG: lwz {{[0-9]+}}, 140(1)
; CHECK: lwz {{[0-9]+}}, 147(1)		; CHECK-DAG: lwz {{[0-9]+}}, 147(1)
; CHECK: lwz {{[0-9]+}}, 154(1)		; CHECK-DAG: lwz {{[0-9]+}}, 154(1)
; CHECK: lwz {{[0-9]+}}, 161(1)		; CHECK-DAG: lwz {{[0-9]+}}, 161(1)
}		}

test/CodeGen/PowerPC/structsinregs.ll

Show First 20 Lines • Show All 53 Lines • ▼ Show 20 Lines	entry:
call void @llvm.memcpy.p0i8.p0i8.i64(i8* %4, i8* bitcast ({ i32, i8, [3 x i8] }* @caller1.p5 to i8*), i64 8, i32 4, i1 false)		call void @llvm.memcpy.p0i8.p0i8.i64(i8* %4, i8* bitcast ({ i32, i8, [3 x i8] }* @caller1.p5 to i8*), i64 8, i32 4, i1 false)
%5 = bitcast %struct.s6* %p6 to i8*		%5 = bitcast %struct.s6* %p6 to i8*
call void @llvm.memcpy.p0i8.p0i8.i64(i8* %5, i8* bitcast ({ i32, i16, [2 x i8] }* @caller1.p6 to i8*), i64 8, i32 4, i1 false)		call void @llvm.memcpy.p0i8.p0i8.i64(i8* %5, i8* bitcast ({ i32, i16, [2 x i8] }* @caller1.p6 to i8*), i64 8, i32 4, i1 false)
%6 = bitcast %struct.s7* %p7 to i8*		%6 = bitcast %struct.s7* %p7 to i8*
call void @llvm.memcpy.p0i8.p0i8.i64(i8* %6, i8* bitcast ({ i32, i16, i8, i8 }* @caller1.p7 to i8*), i64 8, i32 4, i1 false)		call void @llvm.memcpy.p0i8.p0i8.i64(i8* %6, i8* bitcast ({ i32, i16, i8, i8 }* @caller1.p7 to i8*), i64 8, i32 4, i1 false)
%call = call i32 @callee1(%struct.s1* byval %p1, %struct.s2* byval %p2, %struct.s3* byval %p3, %struct.s4* byval %p4, %struct.s5* byval %p5, %struct.s6* byval %p6, %struct.s7* byval %p7)		%call = call i32 @callee1(%struct.s1* byval %p1, %struct.s2* byval %p2, %struct.s3* byval %p3, %struct.s4* byval %p4, %struct.s5* byval %p5, %struct.s6* byval %p6, %struct.s7* byval %p7)
ret i32 %call		ret i32 %call

		; CHECK-LABEL: caller1
; CHECK: ld 9, 112(31)		; CHECK: ld 9, 112(31)
; CHECK: ld 8, 120(31)		; CHECK: ld 8, 120(31)
; CHECK: ld 7, 128(31)		; CHECK: ld 7, 128(31)
; CHECK: lwz 6, 136(31)		; CHECK: lwz 6, 136(31)
; CHECK: lwz 5, 144(31)		; CHECK: lwz 5, 144(31)
; CHECK: lhz 4, 152(31)		; CHECK: lhz 4, 152(31)
; CHECK: lbz 3, 160(31)		; CHECK: lbz 3, 160(31)
}		}
Show All 22 Lines	entry:
%a10 = getelementptr inbounds %struct.s6, %struct.s6* %v6, i32 0, i32 0		%a10 = getelementptr inbounds %struct.s6, %struct.s6* %v6, i32 0, i32 0
%5 = load i32, i32* %a10, align 4		%5 = load i32, i32* %a10, align 4
%add11 = add nsw i32 %add9, %5		%add11 = add nsw i32 %add9, %5
%a12 = getelementptr inbounds %struct.s7, %struct.s7* %v7, i32 0, i32 0		%a12 = getelementptr inbounds %struct.s7, %struct.s7* %v7, i32 0, i32 0
%6 = load i32, i32* %a12, align 4		%6 = load i32, i32* %a12, align 4
%add13 = add nsw i32 %add11, %6		%add13 = add nsw i32 %add11, %6
ret i32 %add13		ret i32 %add13

; CHECK: std 9, 96(1)		; CHECK-LABEL: callee1
; CHECK: std 8, 88(1)		; CHECK-DAG: std 9, 96(1)
; CHECK: std 7, 80(1)		; CHECK-DAG: std 8, 88(1)
; CHECK: stw 6, 76(1)		; CHECK-DAG: std 7, 80(1)
; CHECK: stw 5, 68(1)		; CHECK-DAG: stw 6, 76(1)
; CHECK: sth 4, 62(1)		; CHECK-DAG: stw 5, 68(1)
; CHECK: stb 3, 55(1)		; CHECK-DAG: sth 4, 62(1)
; CHECK: lha {{[0-9]+}}, 62(1)		; CHECK-DAG: stb 3, 55(1)
; CHECK: lha {{[0-9]+}}, 68(1)		; CHECK-DAG: lha {{[0-9]+}}, 62(1)
; CHECK: lbz {{[0-9]+}}, 55(1)		; CHECK-DAG: lha {{[0-9]+}}, 68(1)
; CHECK: lwz {{[0-9]+}}, 76(1)		; CHECK-DAG: lbz {{[0-9]+}}, 55(1)
; CHECK: lwz {{[0-9]+}}, 80(1)		; CHECK-DAG: lwz {{[0-9]+}}, 76(1)
; CHECK: lwz {{[0-9]+}}, 88(1)		; CHECK-DAG: lwz {{[0-9]+}}, 80(1)
; CHECK: lwz {{[0-9]+}}, 96(1)		; CHECK-DAG: lwz {{[0-9]+}}, 88(1)
		; CHECK-DAG: lwz {{[0-9]+}}, 96(1)
}		}

define i32 @caller2() nounwind {		define i32 @caller2() nounwind {
entry:		entry:
%p1 = alloca %struct.t1, align 1		%p1 = alloca %struct.t1, align 1
%p2 = alloca %struct.t2, align 1		%p2 = alloca %struct.t2, align 1
%p3 = alloca %struct.t3, align 1		%p3 = alloca %struct.t3, align 1
%p4 = alloca %struct.t4, align 1		%p4 = alloca %struct.t4, align 1
Show All 12 Lines	entry:
call void @llvm.memcpy.p0i8.p0i8.i64(i8* %4, i8* bitcast (%struct.t5* @caller2.p5 to i8*), i64 5, i32 1, i1 false)		call void @llvm.memcpy.p0i8.p0i8.i64(i8* %4, i8* bitcast (%struct.t5* @caller2.p5 to i8*), i64 5, i32 1, i1 false)
%5 = bitcast %struct.t6* %p6 to i8*		%5 = bitcast %struct.t6* %p6 to i8*
call void @llvm.memcpy.p0i8.p0i8.i64(i8* %5, i8* bitcast (%struct.t6* @caller2.p6 to i8*), i64 6, i32 1, i1 false)		call void @llvm.memcpy.p0i8.p0i8.i64(i8* %5, i8* bitcast (%struct.t6* @caller2.p6 to i8*), i64 6, i32 1, i1 false)
%6 = bitcast %struct.t7* %p7 to i8*		%6 = bitcast %struct.t7* %p7 to i8*
call void @llvm.memcpy.p0i8.p0i8.i64(i8* %6, i8* bitcast (%struct.t7* @caller2.p7 to i8*), i64 7, i32 1, i1 false)		call void @llvm.memcpy.p0i8.p0i8.i64(i8* %6, i8* bitcast (%struct.t7* @caller2.p7 to i8*), i64 7, i32 1, i1 false)
%call = call i32 @callee2(%struct.t1* byval %p1, %struct.t2* byval %p2, %struct.t3* byval %p3, %struct.t4* byval %p4, %struct.t5* byval %p5, %struct.t6* byval %p6, %struct.t7* byval %p7)		%call = call i32 @callee2(%struct.t1* byval %p1, %struct.t2* byval %p2, %struct.t3* byval %p3, %struct.t4* byval %p4, %struct.t5* byval %p5, %struct.t6* byval %p6, %struct.t7* byval %p7)
ret i32 %call		ret i32 %call

		; CHECK-LABEL: caller2
; CHECK: stb {{[0-9]+}}, 71(1)		; CHECK: stb {{[0-9]+}}, 71(1)
; CHECK: sth {{[0-9]+}}, 69(1)		; CHECK: sth {{[0-9]+}}, 69(1)
; CHECK: stb {{[0-9]+}}, 87(1)		; CHECK: stb {{[0-9]+}}, 87(1)
; CHECK: stw {{[0-9]+}}, 83(1)		; CHECK: stw {{[0-9]+}}, 83(1)
; CHECK: sth {{[0-9]+}}, 94(1)		; CHECK: sth {{[0-9]+}}, 94(1)
; CHECK: stw {{[0-9]+}}, 90(1)		; CHECK: stw {{[0-9]+}}, 90(1)
; CHECK: stb {{[0-9]+}}, 103(1)		; CHECK: stb {{[0-9]+}}, 103(1)
; CHECK: sth {{[0-9]+}}, 101(1)		; CHECK: sth {{[0-9]+}}, 101(1)
Show All 29 Lines	entry:
%a10 = getelementptr inbounds %struct.t6, %struct.t6* %v6, i32 0, i32 0		%a10 = getelementptr inbounds %struct.t6, %struct.t6* %v6, i32 0, i32 0
%5 = load i32, i32* %a10, align 1		%5 = load i32, i32* %a10, align 1
%add11 = add nsw i32 %add9, %5		%add11 = add nsw i32 %add9, %5
%a12 = getelementptr inbounds %struct.t7, %struct.t7* %v7, i32 0, i32 0		%a12 = getelementptr inbounds %struct.t7, %struct.t7* %v7, i32 0, i32 0
%6 = load i32, i32* %a12, align 1		%6 = load i32, i32* %a12, align 1
%add13 = add nsw i32 %add11, %6		%add13 = add nsw i32 %add11, %6
ret i32 %add13		ret i32 %add13

; CHECK: std 9, 96(1)		; CHECK-LABEL: callee2
; CHECK: std 8, 88(1)		; CHECK-DAG: std 9, 96(1)
; CHECK: std 7, 80(1)		; CHECK-DAG: std 8, 88(1)
; CHECK: stw 6, 76(1)		; CHECK-DAG: std 7, 80(1)
; CHECK: std 5, 64(1)		; CHECK-DAG: stw 6, 76(1)
; CHECK: sth 4, 62(1)		; CHECK-DAG: std 5, 64(1)
; CHECK: stb 3, 55(1)		; CHECK-DAG: sth 4, 62(1)
; CHECK: lha {{[0-9]+}}, 62(1)		; CHECK-DAG: stb 3, 55(1)
; CHECK: lha {{[0-9]+}}, 69(1)		; CHECK-DAG: lha {{[0-9]+}}, 62(1)
; CHECK: lbz {{[0-9]+}}, 55(1)		; CHECK-DAG: lha {{[0-9]+}}, 69(1)
; CHECK: lwz {{[0-9]+}}, 76(1)		; CHECK-DAG: lbz {{[0-9]+}}, 55(1)
; CHECK: lwz {{[0-9]+}}, 83(1)		; CHECK-DAG: lwz {{[0-9]+}}, 76(1)
; CHECK: lwz {{[0-9]+}}, 90(1)		; CHECK-DAG: lwz {{[0-9]+}}, 83(1)
; CHECK: lwz {{[0-9]+}}, 97(1)		; CHECK-DAG: lwz {{[0-9]+}}, 90(1)
		; CHECK-DAG: lwz {{[0-9]+}}, 97(1)
}		}

test/CodeGen/SystemZ/unaligned-01.ll

	; Check that unaligned accesses are allowed in general. We check the			; Check that unaligned accesses are allowed in general. We check the
	; few exceptions (like CRL) in their respective test files.			; few exceptions (like CRL) in their respective test files.
	;			;
	; FIXME: -combiner-alias-analysis (the default for SystemZ) stops			; RUN: llc < %s -mtriple=s390x-linux-gnu \| FileCheck %s
	; f1 from being optimized.
	; RUN: llc < %s -mtriple=s390x-linux-gnu -combiner-alias-analysis=false \
	; RUN: \| FileCheck %s

	; Check that these four byte stores become a single word store.			; Check that these four byte stores become a single word store.
	define void @f1(i8 *%ptr) {			define void @f1(i8 *%ptr) {
	; CHECK: f1			; CHECK: f1
	; CHECK: iilf [[REG:%r[0-5]]], 66051			; CHECK: iilf [[REG:%r[0-5]]], 66051
	; CHECK: st [[REG]], 0(%r2)			; CHECK: st [[REG]], 0(%r2)
	; CHECK: br %r14			; CHECK: br %r14
	%off1 = getelementptr i8, i8 *%ptr, i64 1			%off1 = getelementptr i8, i8 *%ptr, i64 1
	▲ Show 20 Lines • Show All 47 Lines • Show Last 20 Lines

test/CodeGen/Thumb/2010-07-15-debugOrdering.ll

	; RUN: llc -mtriple=thumbv6-apple-darwin10 < %s \| FileCheck %s			; RUN: llc -mtriple=thumbv6-apple-darwin10 < %s \| FileCheck %s
	; RUN: opt -strip-debug < %s \| llc -mtriple=thumbv6-apple-darwin10 \| FileCheck %s			; RUN: opt -strip-debug < %s \| llc -mtriple=thumbv6-apple-darwin10 \| FileCheck %s
	; Stripping out debug info formerly caused the last two multiplies to be emitted in			; Stripping out debug info formerly caused the last two multiplies to be emitted in
	; the other order. 7797940 (part of it dated 6/29/2010..7/15/2010).			; the other order. 7797940 (part of it dated 6/29/2010..7/15/2010).

	%0 = type { [3 x double] }			%0 = type { [3 x double] }

	@llvm.used = appending global [1 x i8] [i8 bitcast (void (%0, i32, i32) @_Z19getClosestDiagonal3ii to i8)], section "llvm.metadata" ; <[1 x i8]*> [#uses=0]			@llvm.used = appending global [1 x i8] [i8 bitcast (void (%0, i32, i32) @_Z19getClosestDiagonal3ii to i8)], section "llvm.metadata" ; <[1 x i8]*> [#uses=0]

	define void @_Z19getClosestDiagonal3ii(%0* noalias sret, i32, i32) nounwind {			define void @_Z19getClosestDiagonal3ii(%0* noalias sret, i32, i32) nounwind {
	; CHECK: bl ___muldf3			; CHECK: bl ___muldf3
	; CHECK: bl ___muldf3
	; CHECK: beq LBB0			; CHECK: beq LBB0
	; CHECK: bl ___muldf3			; CHECK: bl ___muldf3
				; CHECK: bl ___muldf3
	; <label>:3			; <label>:3
	switch i32 %1, label %4 [			switch i32 %1, label %4 [
	i32 0, label %5			i32 0, label %5
	i32 3, label %5			i32 3, label %5
	]			]

	; <label>:4 ; preds = %3			; <label>:4 ; preds = %3
	br label %5, !dbg !0			br label %5, !dbg !0
	▲ Show 20 Lines • Show All 133 Lines • Show Last 20 Lines

test/CodeGen/Thumb/stack-access.ll

Show First 20 Lines • Show All 68 Lines • ▼ Show 20 Lines	define zeroext i16 @test6() {
%x = alloca i16, align 2		%x = alloca i16, align 2
; CHECK: mov r0, sp		; CHECK: mov r0, sp
; CHECK: ldrh r0, [r0]		; CHECK: ldrh r0, [r0]
%1 = load i16, i16* %x, align 2		%1 = load i16, i16* %x, align 2
ret i16 %1		ret i16 %1
}		}

; Accessing the bottom of a large array shouldn't require materializing a base		; Accessing the bottom of a large array shouldn't require materializing a base
		;
		; CHECK: movs [[REG:r[0-9]+]], #1
		; CHECK: str [[REG]], [sp, #16]
		; CHECK: str [[REG]], [sp, #4]

define void @test7() {		define void @test7() {
%arr = alloca [200 x i32], align 4		%arr = alloca [200 x i32], align 4

; CHECK: movs [[REG:r[0-9]+]], #1
; CHECK: str [[REG]], [sp, #4]
%arrayidx = getelementptr inbounds [200 x i32], [200 x i32]* %arr, i32 0, i32 1		%arrayidx = getelementptr inbounds [200 x i32], [200 x i32]* %arr, i32 0, i32 1
store i32 1, i32* %arrayidx, align 4		store i32 1, i32* %arrayidx, align 4

; CHECK: str [[REG]], [sp, #16]
%arrayidx1 = getelementptr inbounds [200 x i32], [200 x i32]* %arr, i32 0, i32 4		%arrayidx1 = getelementptr inbounds [200 x i32], [200 x i32]* %arr, i32 0, i32 4
store i32 1, i32* %arrayidx1, align 4		store i32 1, i32* %arrayidx1, align 4

ret void		ret void
}		}

; Check that loads/stores with out-of-range offsets are handled correctly		; Check that loads/stores with out-of-range offsets are handled correctly
define void @test8() {		define void @test8() {
%arr3 = alloca [224 x i32], align 4		%arr3 = alloca [224 x i32], align 4
%arr2 = alloca [224 x i32], align 4		%arr2 = alloca [224 x i32], align 4
%arr1 = alloca [224 x i32], align 4		%arr1 = alloca [224 x i32], align 4

; CHECK: movs [[REG:r[0-9]+]], #1		; CHECK: movs [[REG:r[0-9]+]], #1
; CHECK: str [[REG]], [sp]		; CHECK-DAG: str [[REG]], [sp]
%arr1idx1 = getelementptr inbounds [224 x i32], [224 x i32]* %arr1, i32 0, i32 0		%arr1idx1 = getelementptr inbounds [224 x i32], [224 x i32]* %arr1, i32 0, i32 0
store i32 1, i32* %arr1idx1, align 4		store i32 1, i32* %arr1idx1, align 4

; Offset in range for sp-based store, but not for non-sp-based store		; Offset in range for sp-based store, but not for non-sp-based store
; CHECK: str [[REG]], [sp, #128]		; CHECK-DAG: str [[REG]], [sp, #128]
%arr1idx2 = getelementptr inbounds [224 x i32], [224 x i32]* %arr1, i32 0, i32 32		%arr1idx2 = getelementptr inbounds [224 x i32], [224 x i32]* %arr1, i32 0, i32 32
store i32 1, i32* %arr1idx2, align 4		store i32 1, i32* %arr1idx2, align 4

; CHECK: str [[REG]], [sp, #896]		; CHECK-DAG: str [[REG]], [sp, #896]
%arr2idx1 = getelementptr inbounds [224 x i32], [224 x i32]* %arr2, i32 0, i32 0		%arr2idx1 = getelementptr inbounds [224 x i32], [224 x i32]* %arr2, i32 0, i32 0
store i32 1, i32* %arr2idx1, align 4		store i32 1, i32* %arr2idx1, align 4

; %arr2 is in range, but this element of it is not		; %arr2 is in range, but this element of it is not
; CHECK: str [[REG]], [{{r[0-9]+}}]		; CHECK-DAG: ldr [[RA:r[0-9]+]], .LCPI7_2
		; CHECK-DAG: add [[RA]], sp
		; CHECK-DAG: str [[REG]], [{{r[0-9]+}}]
%arr2idx2 = getelementptr inbounds [224 x i32], [224 x i32]* %arr2, i32 0, i32 32		%arr2idx2 = getelementptr inbounds [224 x i32], [224 x i32]* %arr2, i32 0, i32 32
store i32 1, i32* %arr2idx2, align 4		store i32 1, i32* %arr2idx2, align 4

; %arr3 is not in range		; %arr3 is not in range
; CHECK: str [[REG]], [{{r[0-9]+}}]		; CHECK-DAG: ldr [[RB:r[0-9]+]], .LCPI7_3
		; CHECK-DAG: add [[RB]], sp
		; CHECK-DAG: str [[REG]], [{{r[0-9]+}}]
%arr3idx1 = getelementptr inbounds [224 x i32], [224 x i32]* %arr3, i32 0, i32 0		%arr3idx1 = getelementptr inbounds [224 x i32], [224 x i32]* %arr3, i32 0, i32 0
store i32 1, i32* %arr3idx1, align 4		store i32 1, i32* %arr3idx1, align 4

; CHECK: str [[REG]], [{{r[0-9]+}}]		; CHECK-DAG: ldr [[RC:r[0-9]+]], .LCPI7_4
		; CHECK-DAG: add [[RC]], sp
		; CHECK-DAG: str [[REG]], [{{r[0-9]+}}]
%arr3idx2 = getelementptr inbounds [224 x i32], [224 x i32]* %arr3, i32 0, i32 32		%arr3idx2 = getelementptr inbounds [224 x i32], [224 x i32]* %arr3, i32 0, i32 32
store i32 1, i32* %arr3idx2, align 4		store i32 1, i32* %arr3idx2, align 4

ret void		ret void
}		}

test/CodeGen/X86/2010-09-17-SideEffectsInChain.ll

	; RUN: llc < %s -combiner-alias-analysis -march=x86-64 -mcpu=core2 \| FileCheck %s			; RUN: llc < %s -march=x86-64 -mcpu=core2 \| FileCheck %s

	target datalayout = "e-p:64:64:64-i1:8:8-i8:8:8-i16:16:16-i32:32:32-i64:64:64-f32:32:32-f64:64:64-v64:64:64-v128:128:128-a0:0:64-s0:64:64-f80:128:128-n8:16:32:64"			target datalayout = "e-p:64:64:64-i1:8:8-i8:8:8-i16:16:16-i32:32:32-i64:64:64-f32:32:32-f64:64:64-v64:64:64-v128:128:128-a0:0:64-s0:64:64-f80:128:128-n8:16:32:64"
	target triple = "x86_64-apple-darwin10.4"			target triple = "x86_64-apple-darwin10.4"
	declare void @llvm.memcpy.p0i8.p0i8.i64(i8* nocapture, i8* nocapture, i64, i32, i1) nounwind			declare void @llvm.memcpy.p0i8.p0i8.i64(i8* nocapture, i8* nocapture, i64, i32, i1) nounwind

	define fastcc i32 @cli_magic_scandesc(i8* %in) nounwind ssp {			define fastcc i32 @cli_magic_scandesc(i8* %in) nounwind ssp {
	entry:			entry:
	%a = alloca [64 x i8]			%a = alloca [64 x i8]
	Show All 17 Lines

test/CodeGen/X86/2012-11-28-merge-store-alias.ll

	; RUN: llc < %s -march=x86-64 -mcpu=corei7 -mtriple=x86_64-pc-win64 \| FileCheck %s			; RUN: llc < %s -march=x86-64 -mcpu=corei7 -mtriple=x86_64-pc-win64 \| FileCheck %s

	; CHECK: merge_stores_can			; CHECK: merge_stores_can
	; CHECK: callq foo			; CHECK: callq foo
	; CHECK: xorps %xmm0, %xmm0			; CHECK: xorps %xmm0, %xmm0
	; CHECK-NEXT: movl 36(%rsp), %ebp
	; CHECK-NEXT: movups %xmm0			; CHECK-NEXT: movups %xmm0
				; CHECK-NEXT: movl 36(%rsp), %ebp
	; CHECK: callq foo			; CHECK: callq foo
	; CHECK: ret			; CHECK: ret
	declare i32 @foo([10 x i32]* )			declare i32 @foo([10 x i32]* )

	define i32 @merge_stores_can() nounwind ssp {			define i32 @merge_stores_can() nounwind ssp {
	%object1 = alloca [10 x i32]			%object1 = alloca [10 x i32]

	%ret0 = call i32 @foo([10 x i32]* %object1) nounwind			%ret0 = call i32 @foo([10 x i32]* %object1) nounwind
	Show All 38 Lines

test/CodeGen/X86/MergeConsecutiveStores.ll

Show First 20 Lines • Show All 105 Lines • ▼ Show 20 Lines
._crit_edge:		._crit_edge:
ret void		ret void
}		}

; Move the first 4 constants as a single vector. Move the rest as scalars.		; Move the first 4 constants as a single vector. Move the rest as scalars.
; CHECK-LABEL: merge_nonconst_store:		; CHECK-LABEL: merge_nonconst_store:
; CHECK: movl $67305985		; CHECK: movl $67305985
; CHECK: movb		; CHECK: movb
; CHECK: movb		; CHECK: movw
; CHECK: movb
; CHECK: movb		; CHECK: movb
; CHECK: ret		; CHECK: ret
define void @merge_nonconst_store(i32 %count, i8 %zz, %struct.A* nocapture %p) nounwind uwtable noinline ssp {		define void @merge_nonconst_store(i32 %count, i8 %zz, %struct.A* nocapture %p) nounwind uwtable noinline ssp {
%1 = icmp sgt i32 %count, 0		%1 = icmp sgt i32 %count, 0
br i1 %1, label %.lr.ph, label %._crit_edge		br i1 %1, label %.lr.ph, label %._crit_edge
.lr.ph:		.lr.ph:
%i.02 = phi i32 [ %10, %.lr.ph ], [ 0, %0 ]		%i.02 = phi i32 [ %10, %.lr.ph ], [ 0, %0 ]
%.01 = phi %struct.A* [ %11, %.lr.ph ], [ %p, %0 ]		%.01 = phi %struct.A* [ %11, %.lr.ph ], [ %p, %0 ]
▲ Show 20 Lines • Show All 163 Lines • ▼ Show 20 Lines	block4: ; preds = %4, %.lr.ph
%c10 = getelementptr inbounds %struct.B, %struct.B* %.01, i64 1		%c10 = getelementptr inbounds %struct.B, %struct.B* %.01, i64 1
%exitcond = icmp eq i32 %c9, %count		%exitcond = icmp eq i32 %c9, %count
br i1 %exitcond, label %._crit_edge, label %block4		br i1 %exitcond, label %._crit_edge, label %block4

._crit_edge: ; preds = %4, %0		._crit_edge: ; preds = %4, %0
ret void		ret void
}		}

;; On x86, even unaligned copies should be merged to vector ops.		;; On x86, even unaligned copies can be merged to vector ops.
;; TODO: however, this cannot happen at the moment, due to brokenness
;; in MergeConsecutiveStores. See UseAA FIXME in DAGCombiner.cpp
;; visitSTORE.

; CHECK-LABEL: merge_loads_no_align:		; CHECK-LABEL: merge_loads_no_align:
; load:		; load:
; CHECK-NOT: vmovups ;; TODO		; CHECK: vmovups
; store:		; store:
; CHECK-NOT: vmovups ;; TODO		; CHECK: vmovups
; CHECK: ret		; CHECK: ret
define void @merge_loads_no_align(i32 %count, %struct.B* noalias nocapture %q, %struct.B* noalias nocapture %p) nounwind uwtable noinline ssp {		define void @merge_loads_no_align(i32 %count, %struct.B* noalias nocapture %q, %struct.B* noalias nocapture %p) nounwind uwtable noinline ssp {
%a1 = icmp sgt i32 %count, 0		%a1 = icmp sgt i32 %count, 0
br i1 %a1, label %.lr.ph, label %._crit_edge		br i1 %a1, label %.lr.ph, label %._crit_edge

.lr.ph: ; preds = %0		.lr.ph: ; preds = %0
%a2 = getelementptr inbounds %struct.B, %struct.B* %q, i64 0, i32 0		%a2 = getelementptr inbounds %struct.B, %struct.B* %q, i64 0, i32 0
%a3 = getelementptr inbounds %struct.B, %struct.B* %q, i64 0, i32 1		%a3 = getelementptr inbounds %struct.B, %struct.B* %q, i64 0, i32 1
▲ Show 20 Lines • Show All 265 Lines • ▼ Show 20 Lines	define void @merge_vec_element_and_scalar_load([6 x i64]* %array) {
%b = bitcast i64* %idx1 to <2 x i64>*		%b = bitcast i64* %idx1 to <2 x i64>*
%v = load <2 x i64>, <2 x i64>* %b, align 8		%v = load <2 x i64>, <2 x i64>* %b, align 8
%a1 = extractelement <2 x i64> %v, i32 0		%a1 = extractelement <2 x i64> %v, i32 0
store i64 %a1, i64* %idx5, align 8		store i64 %a1, i64* %idx5, align 8
ret void		ret void

; CHECK-LABEL: merge_vec_element_and_scalar_load		; CHECK-LABEL: merge_vec_element_and_scalar_load
; CHECK: movq (%rdi), %rax		; CHECK: movq (%rdi), %rax
		; CHECK-NEXT: movq 8(%rdi), %rcx
; CHECK-NEXT: movq %rax, 32(%rdi)		; CHECK-NEXT: movq %rax, 32(%rdi)
; CHECK-NEXT: movq 8(%rdi), %rax		; CHECK-NEXT: movq %rcx, 40(%rdi)
; CHECK-NEXT: movq %rax, 40(%rdi)
; CHECK-NEXT: retq		; CHECK-NEXT: retq
}		}

test/CodeGen/X86/avx512-mask-op.ll

	Show First 20 Lines • Show All 1,153 Lines • ▼ Show 20 Lines
	; KNL-NEXT: kshiftlw $1, %k2, %k0			; KNL-NEXT: kshiftlw $1, %k2, %k0
	; KNL-NEXT: kshiftrw $15, %k0, %k0			; KNL-NEXT: kshiftrw $15, %k0, %k0
	; KNL-NEXT: kmovw %k0, %eax			; KNL-NEXT: kmovw %k0, %eax
	; KNL-NEXT: vpinsrb $14, %eax, %xmm2, %xmm2			; KNL-NEXT: vpinsrb $14, %eax, %xmm2, %xmm2
	; KNL-NEXT: kshiftrw $15, %k2, %k0			; KNL-NEXT: kshiftrw $15, %k2, %k0
	; KNL-NEXT: kmovw %k0, %eax			; KNL-NEXT: kmovw %k0, %eax
	; KNL-NEXT: vpinsrb $15, %eax, %xmm2, %xmm2			; KNL-NEXT: vpinsrb $15, %eax, %xmm2, %xmm2
	; KNL-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2			; KNL-NEXT: vinserti128 $1, %xmm3, %ymm2, %ymm2
	; KNL-NEXT: vpsllw $7, %ymm2, %ymm2
	; KNL-NEXT: vpand {{.*}}(%rip), %ymm2, %ymm2
	; KNL-NEXT: vpxor %ymm3, %ymm3, %ymm3
	; KNL-NEXT: vpcmpgtb %ymm2, %ymm3, %ymm2
	; KNL-NEXT: vmovups 4(%rdi), %zmm3 {%k2} {z}			; KNL-NEXT: vmovups 4(%rdi), %zmm3 {%k2} {z}
	; KNL-NEXT: vmovups 68(%rdi), %zmm4 {%k1} {z}			; KNL-NEXT: vmovups 68(%rdi), %zmm4 {%k1} {z}
	; KNL-NEXT: vcmpltps %zmm4, %zmm1, %k0			; KNL-NEXT: vcmpltps %zmm4, %zmm1, %k0
	; KNL-NEXT: kshiftlw $14, %k0, %k1			; KNL-NEXT: kshiftlw $14, %k0, %k1
	; KNL-NEXT: kshiftrw $15, %k1, %k1			; KNL-NEXT: kshiftrw $15, %k1, %k1
	; KNL-NEXT: kmovw %k1, %eax			; KNL-NEXT: kmovw %k1, %eax
	; KNL-NEXT: kshiftlw $15, %k0, %k1			; KNL-NEXT: kshiftlw $15, %k0, %k1
	; KNL-NEXT: kshiftrw $15, %k1, %k1			; KNL-NEXT: kshiftrw $15, %k1, %k1
	▲ Show 20 Lines • Show All 919 Lines • Show Last 20 Lines

test/CodeGen/X86/chain_order.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mcpu=corei7-avx -mtriple=x86_64-linux \| FileCheck %s			; RUN: llc < %s -mcpu=corei7-avx -mtriple=x86_64-linux \| FileCheck %s

	; A test from pifft (after SLP-vectorization) that fails when we drop the chain on newly merged loads.			; A test from pifft (after SLP-vectorization) that fails when we drop the chain on newly merged loads.
	define void @cftx020(double* nocapture %a) {			define void @cftx020(double* nocapture %a) {
	; CHECK-LABEL: cftx020:			; CHECK-LABEL: cftx020:
	; CHECK: # BB#0: # %entry			; CHECK: # BB#0: # %entry
	; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; CHECK-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
	; CHECK-NEXT: vmovhpd {{.*#+}} xmm0 = xmm0[0],mem[0]			; CHECK-NEXT: vmovhpd {{.*#+}} xmm0 = xmm0[0],mem[0]
	; CHECK-NEXT: vmovhpd {{.*#+}} xmm1 = xmm1[0],mem[0]			; CHECK-NEXT: vmovhpd {{.*#+}} xmm1 = xmm1[0],mem[0]
	; CHECK-NEXT: vaddpd %xmm1, %xmm0, %xmm0			; CHECK-NEXT: vaddpd %xmm1, %xmm0, %xmm0
	; CHECK-NEXT: vmovupd (%rdi), %xmm1			; CHECK-NEXT: vmovupd (%rdi), %xmm1
	; CHECK-NEXT: vsubpd 16(%rdi), %xmm1, %xmm1
	; CHECK-NEXT: vmovupd %xmm0, (%rdi)			; CHECK-NEXT: vmovupd %xmm0, (%rdi)
	; CHECK-NEXT: vmovupd %xmm1, 16(%rdi)			; CHECK-NEXT: vsubpd 16(%rdi), %xmm1, %xmm0
				; CHECK-NEXT: vmovupd %xmm0, 16(%rdi)
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	%0 = load double, double* %a, align 8			%0 = load double, double* %a, align 8
	%arrayidx1 = getelementptr inbounds double, double* %a, i64 2			%arrayidx1 = getelementptr inbounds double, double* %a, i64 2
	%1 = load double, double* %arrayidx1, align 8			%1 = load double, double* %arrayidx1, align 8
	%arrayidx2 = getelementptr inbounds double, double* %a, i64 1			%arrayidx2 = getelementptr inbounds double, double* %a, i64 1
	%2 = load double, double* %arrayidx2, align 8			%2 = load double, double* %arrayidx2, align 8
	%arrayidx3 = getelementptr inbounds double, double* %a, i64 3			%arrayidx3 = getelementptr inbounds double, double* %a, i64 3
	Show All 17 Lines

test/CodeGen/X86/clear_upper_vector_element_bits.ll

	Show First 20 Lines • Show All 354 Lines • ▼ Show 20 Lines
	}			}

	define <16 x i8> @_clearupper16xi8a(<16 x i8>) nounwind {			define <16 x i8> @_clearupper16xi8a(<16 x i8>) nounwind {
	; SSE-LABEL: _clearupper16xi8a:			; SSE-LABEL: _clearupper16xi8a:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)			; SSE-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax			; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: movd %eax, %xmm0			; SSE-NEXT: movd %eax, %xmm0
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %r9d
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %edx
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %esi
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %r8d
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %edi
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax			; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: movd %eax, %xmm1			; SSE-NEXT: movd %eax, %xmm1
	; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSE-NEXT: movd %esi, %xmm0
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax			; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %esi			; SSE-NEXT: movd %eax, %xmm0
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %ecx			; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: movd %ecx, %xmm2			; SSE-NEXT: movd %eax, %xmm2
	; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
	; SSE-NEXT: movd %edx, %xmm0			; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: movd %esi, %xmm1			; SSE-NEXT: movd %eax, %xmm0
	; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: movd %edi, %xmm0			; SSE-NEXT: movd %eax, %xmm3
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %ecx
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %edx
	; SSE-NEXT: movd %edx, %xmm3
	; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3],xmm3[4],xmm1[4],xmm3[5],xmm1[5],xmm3[6],xmm1[6],xmm3[7],xmm1[7]			; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]			; SSE-NEXT: movd %eax, %xmm0
	; SSE-NEXT: movd %r9d, %xmm0			; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: movd %eax, %xmm1			; SSE-NEXT: movd %eax, %xmm1
	; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSE-NEXT: movd %r8d, %xmm0			; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3],xmm1[4],xmm3[4],xmm1[5],xmm3[5],xmm1[6],xmm3[6],xmm1[7],xmm3[7]
	; SSE-NEXT: movd %ecx, %xmm2			; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
	; SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; SSE-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; SSE-NEXT: movd {{.*#+}} xmm4 = mem[0],zero,zero,zero			; SSE-NEXT: movd {{.*#+}} xmm3 = mem[0],zero,zero,zero
	; SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
				; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]
				; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
				; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
				; SSE-NEXT: movd %eax, %xmm2
				; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
				; SSE-NEXT: movd %eax, %xmm3
				; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]
				; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
				; SSE-NEXT: movd %eax, %xmm2
				; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
				; SSE-NEXT: movd %eax, %xmm4
				; SSE-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3],xmm4[4],xmm2[4],xmm4[5],xmm2[5],xmm4[6],xmm2[6],xmm4[7],xmm2[7]
				; SSE-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3],xmm4[4],xmm3[4],xmm4[5],xmm3[5],xmm4[6],xmm3[6],xmm4[7],xmm3[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]
	; SSE-NEXT: pand {{.*}}(%rip), %xmm0			; SSE-NEXT: pand {{.*}}(%rip), %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: _clearupper16xi8a:			; AVX-LABEL: _clearupper16xi8a:
	; AVX: # BB#0:			; AVX: # BB#0:
	; AVX-NEXT: vpextrb $0, %xmm0, %eax			; AVX-NEXT: vpextrb $0, %xmm0, %eax
	; AVX-NEXT: vpextrb $1, %xmm0, %ecx			; AVX-NEXT: vpextrb $1, %xmm0, %ecx
	; AVX-NEXT: vmovd %eax, %xmm1			; AVX-NEXT: vmovd %eax, %xmm1
	▲ Show 20 Lines • Show All 70 Lines • ▼ Show 20 Lines

	define <32 x i8> @_clearupper32xi8a(<32 x i8>) nounwind {			define <32 x i8> @_clearupper32xi8a(<32 x i8>) nounwind {
	; SSE-LABEL: _clearupper32xi8a:			; SSE-LABEL: _clearupper32xi8a:
	; SSE: # BB#0:			; SSE: # BB#0:
	; SSE-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)			; SSE-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
	; SSE-NEXT: movaps %xmm1, -{{[0-9]+}}(%rsp)			; SSE-NEXT: movaps %xmm1, -{{[0-9]+}}(%rsp)
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax			; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: movd %eax, %xmm0			; SSE-NEXT: movd %eax, %xmm0
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %r9d
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %edx
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %esi
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %r8d
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %edi
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax			; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: movd %eax, %xmm1			; SSE-NEXT: movd %eax, %xmm1
	; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSE-NEXT: movd %esi, %xmm0
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax			; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %esi			; SSE-NEXT: movd %eax, %xmm0
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %ecx			; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: movd %ecx, %xmm2			; SSE-NEXT: movd %eax, %xmm2
	; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
	; SSE-NEXT: movd %edx, %xmm0			; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: movd %esi, %xmm1			; SSE-NEXT: movd %eax, %xmm0
	; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: movd %edi, %xmm0			; SSE-NEXT: movd %eax, %xmm3
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %ecx
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %edx
	; SSE-NEXT: movd %edx, %xmm3
	; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3],xmm3[4],xmm0[4],xmm3[5],xmm0[5],xmm3[6],xmm0[6],xmm3[7],xmm0[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3],xmm3[4],xmm1[4],xmm3[5],xmm1[5],xmm3[6],xmm1[6],xmm3[7],xmm1[7]			; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]			; SSE-NEXT: movd %eax, %xmm0
	; SSE-NEXT: movd %r9d, %xmm0			; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: movd %eax, %xmm1			; SSE-NEXT: movd %eax, %xmm1
	; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]
	; SSE-NEXT: movd %r8d, %xmm0			; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3],xmm1[4],xmm3[4],xmm1[5],xmm3[5],xmm1[6],xmm3[6],xmm1[7],xmm3[7]
	; SSE-NEXT: movd %ecx, %xmm2			; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3],xmm1[4],xmm2[4],xmm1[5],xmm2[5],xmm1[6],xmm2[6],xmm1[7],xmm2[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3],xmm2[4],xmm1[4],xmm2[5],xmm1[5],xmm2[6],xmm1[6],xmm2[7],xmm1[7]
	; SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; SSE-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3],xmm1[4],xmm0[4],xmm1[5],xmm0[5],xmm1[6],xmm0[6],xmm1[7],xmm0[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3],xmm2[4],xmm0[4],xmm2[5],xmm0[5],xmm2[6],xmm0[6],xmm2[7],xmm0[7]
	; SSE-NEXT: movd {{.*#+}} xmm4 = mem[0],zero,zero,zero			; SSE-NEXT: movd {{.*#+}} xmm3 = mem[0],zero,zero,zero
	; SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
				; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]
				; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
				; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
				; SSE-NEXT: movd %eax, %xmm2
				; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
				; SSE-NEXT: movd %eax, %xmm3
				; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3],xmm3[4],xmm2[4],xmm3[5],xmm2[5],xmm3[6],xmm2[6],xmm3[7],xmm2[7]
				; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
				; SSE-NEXT: movd %eax, %xmm2
				; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
				; SSE-NEXT: movd %eax, %xmm4
				; SSE-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1],xmm4[2],xmm2[2],xmm4[3],xmm2[3],xmm4[4],xmm2[4],xmm4[5],xmm2[5],xmm4[6],xmm2[6],xmm4[7],xmm2[7]
				; SSE-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3],xmm4[4],xmm3[4],xmm4[5],xmm3[5],xmm4[6],xmm3[6],xmm4[7],xmm3[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]
	; SSE-NEXT: movdqa {{.*#+}} xmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]			; SSE-NEXT: movdqa {{.*#+}} xmm2 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; SSE-NEXT: pand %xmm2, %xmm0			; SSE-NEXT: pand %xmm2, %xmm0
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax			; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: movd %eax, %xmm1			; SSE-NEXT: movd %eax, %xmm1
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %r9d
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %edx
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %esi
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %r8d
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %edi
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax			; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: movd %eax, %xmm3			; SSE-NEXT: movd %eax, %xmm3
	; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3],xmm3[4],xmm1[4],xmm3[5],xmm1[5],xmm3[6],xmm1[6],xmm3[7],xmm1[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3],xmm3[4],xmm1[4],xmm3[5],xmm1[5],xmm3[6],xmm1[6],xmm3[7],xmm1[7]
	; SSE-NEXT: movd %esi, %xmm1
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax			; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %esi			; SSE-NEXT: movd %eax, %xmm1
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %ecx			; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: movd %ecx, %xmm4			; SSE-NEXT: movd %eax, %xmm4
	; SSE-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm1[0],xmm4[1],xmm1[1],xmm4[2],xmm1[2],xmm4[3],xmm1[3],xmm4[4],xmm1[4],xmm4[5],xmm1[5],xmm4[6],xmm1[6],xmm4[7],xmm1[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm1[0],xmm4[1],xmm1[1],xmm4[2],xmm1[2],xmm4[3],xmm1[3],xmm4[4],xmm1[4],xmm4[5],xmm1[5],xmm4[6],xmm1[6],xmm4[7],xmm1[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3],xmm4[4],xmm3[4],xmm4[5],xmm3[5],xmm4[6],xmm3[6],xmm4[7],xmm3[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3],xmm4[4],xmm3[4],xmm4[5],xmm3[5],xmm4[6],xmm3[6],xmm4[7],xmm3[7]
	; SSE-NEXT: movd %edx, %xmm1			; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: movd %esi, %xmm3			; SSE-NEXT: movd %eax, %xmm1
	; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3],xmm3[4],xmm1[4],xmm3[5],xmm1[5],xmm3[6],xmm1[6],xmm3[7],xmm1[7]			; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: movd %edi, %xmm1			; SSE-NEXT: movd %eax, %xmm5
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %ecx
	; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %edx
	; SSE-NEXT: movd %edx, %xmm5
	; SSE-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm1[0],xmm5[1],xmm1[1],xmm5[2],xmm1[2],xmm5[3],xmm1[3],xmm5[4],xmm1[4],xmm5[5],xmm1[5],xmm5[6],xmm1[6],xmm5[7],xmm1[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm1[0],xmm5[1],xmm1[1],xmm5[2],xmm1[2],xmm5[3],xmm1[3],xmm5[4],xmm1[4],xmm5[5],xmm1[5],xmm5[6],xmm1[6],xmm5[7],xmm1[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm3[0],xmm5[1],xmm3[1],xmm5[2],xmm3[2],xmm5[3],xmm3[3],xmm5[4],xmm3[4],xmm5[5],xmm3[5],xmm5[6],xmm3[6],xmm5[7],xmm3[7]			; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm4[0],xmm5[1],xmm4[1],xmm5[2],xmm4[2],xmm5[3],xmm4[3],xmm5[4],xmm4[4],xmm5[5],xmm4[5],xmm5[6],xmm4[6],xmm5[7],xmm4[7]			; SSE-NEXT: movd %eax, %xmm1
	; SSE-NEXT: movd %r9d, %xmm1			; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
	; SSE-NEXT: movd %eax, %xmm3			; SSE-NEXT: movd %eax, %xmm3
	; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3],xmm3[4],xmm1[4],xmm3[5],xmm1[5],xmm3[6],xmm1[6],xmm3[7],xmm1[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3],xmm3[4],xmm1[4],xmm3[5],xmm1[5],xmm3[6],xmm1[6],xmm3[7],xmm1[7]
	; SSE-NEXT: movd %r8d, %xmm1			; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm5[0],xmm3[1],xmm5[1],xmm3[2],xmm5[2],xmm3[3],xmm5[3],xmm3[4],xmm5[4],xmm3[5],xmm5[5],xmm3[6],xmm5[6],xmm3[7],xmm5[7]
	; SSE-NEXT: movd %ecx, %xmm4			; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm4[0],xmm3[1],xmm4[1],xmm3[2],xmm4[2],xmm3[3],xmm4[3],xmm3[4],xmm4[4],xmm3[5],xmm4[5],xmm3[6],xmm4[6],xmm3[7],xmm4[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm1[0],xmm4[1],xmm1[1],xmm4[2],xmm1[2],xmm4[3],xmm1[3],xmm4[4],xmm1[4],xmm4[5],xmm1[5],xmm4[6],xmm1[6],xmm4[7],xmm1[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1],xmm4[2],xmm3[2],xmm4[3],xmm3[3],xmm4[4],xmm3[4],xmm4[5],xmm3[5],xmm4[6],xmm3[6],xmm4[7],xmm3[7]
	; SSE-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; SSE-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; SSE-NEXT: movd {{.*#+}} xmm3 = mem[0],zero,zero,zero			; SSE-NEXT: movd {{.*#+}} xmm4 = mem[0],zero,zero,zero
	; SSE-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3],xmm3[4],xmm1[4],xmm3[5],xmm1[5],xmm3[6],xmm1[6],xmm3[7],xmm1[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm1[0],xmm4[1],xmm1[1],xmm4[2],xmm1[2],xmm4[3],xmm1[3],xmm4[4],xmm1[4],xmm4[5],xmm1[5],xmm4[6],xmm1[6],xmm4[7],xmm1[7]
	; SSE-NEXT: movd {{.*#+}} xmm6 = mem[0],zero,zero,zero			; SSE-NEXT: movd {{.*#+}} xmm5 = mem[0],zero,zero,zero
	; SSE-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; SSE-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
				; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm5[0],xmm1[1],xmm5[1],xmm1[2],xmm5[2],xmm1[3],xmm5[3],xmm1[4],xmm5[4],xmm1[5],xmm5[5],xmm1[6],xmm5[6],xmm1[7],xmm5[7]
				; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1],xmm1[2],xmm4[2],xmm1[3],xmm4[3],xmm1[4],xmm4[4],xmm1[5],xmm4[5],xmm1[6],xmm4[6],xmm1[7],xmm4[7]
				; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
				; SSE-NEXT: movd %eax, %xmm4
				; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
				; SSE-NEXT: movd %eax, %xmm5
				; SSE-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm4[0],xmm5[1],xmm4[1],xmm5[2],xmm4[2],xmm5[3],xmm4[3],xmm5[4],xmm4[4],xmm5[5],xmm4[5],xmm5[6],xmm4[6],xmm5[7],xmm4[7]
				; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
				; SSE-NEXT: movd %eax, %xmm4
				; SSE-NEXT: movzbl -{{[0-9]+}}(%rsp), %eax
				; SSE-NEXT: movd %eax, %xmm6
				; SSE-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm4[0],xmm6[1],xmm4[1],xmm6[2],xmm4[2],xmm6[3],xmm4[3],xmm6[4],xmm4[4],xmm6[5],xmm4[5],xmm6[6],xmm4[6],xmm6[7],xmm4[7]
				; SSE-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm5[0],xmm6[1],xmm5[1],xmm6[2],xmm5[2],xmm6[3],xmm5[3],xmm6[4],xmm5[4],xmm6[5],xmm5[5],xmm6[6],xmm5[6],xmm6[7],xmm5[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm6[0],xmm1[1],xmm6[1],xmm1[2],xmm6[2],xmm1[3],xmm6[3],xmm1[4],xmm6[4],xmm1[5],xmm6[5],xmm1[6],xmm6[6],xmm1[7],xmm6[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm6[0],xmm1[1],xmm6[1],xmm1[2],xmm6[2],xmm1[3],xmm6[3],xmm1[4],xmm6[4],xmm1[5],xmm6[5],xmm1[6],xmm6[6],xmm1[7],xmm6[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3],xmm1[4],xmm3[4],xmm1[5],xmm3[5],xmm1[6],xmm3[6],xmm1[7],xmm3[7]			; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3],xmm1[4],xmm3[4],xmm1[5],xmm3[5],xmm1[6],xmm3[6],xmm1[7],xmm3[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1],xmm1[2],xmm4[2],xmm1[3],xmm4[3],xmm1[4],xmm4[4],xmm1[5],xmm4[5],xmm1[6],xmm4[6],xmm1[7],xmm4[7]
	; SSE-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm5[0],xmm1[1],xmm5[1],xmm1[2],xmm5[2],xmm1[3],xmm5[3],xmm1[4],xmm5[4],xmm1[5],xmm5[5],xmm1[6],xmm5[6],xmm1[7],xmm5[7]
	; SSE-NEXT: pand %xmm2, %xmm1			; SSE-NEXT: pand %xmm2, %xmm1
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: _clearupper32xi8a:			; AVX1-LABEL: _clearupper32xi8a:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: vpextrb $0, %xmm0, %eax			; AVX1-NEXT: vpextrb $0, %xmm0, %eax
	; AVX1-NEXT: vpextrb $1, %xmm0, %ecx			; AVX1-NEXT: vpextrb $1, %xmm0, %ecx
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	▲ Show 20 Lines • Show All 591 Lines • ▼ Show 20 Lines
	; SSE-NEXT: movq {{.*#+}} xmm2 = mem[0],zero			; SSE-NEXT: movq {{.*#+}} xmm2 = mem[0],zero
	; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]			; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
	; SSE-NEXT: popq %rbx			; SSE-NEXT: popq %rbx
	; SSE-NEXT: popq %r14			; SSE-NEXT: popq %r14
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: _clearupper32xi8b:			; AVX1-LABEL: _clearupper32xi8b:
	; AVX1: # BB#0:			; AVX1: # BB#0:
	; AVX1-NEXT: pushq %rbp
	; AVX1-NEXT: pushq %r15
	; AVX1-NEXT: pushq %r14			; AVX1-NEXT: pushq %r14
	; AVX1-NEXT: pushq %r13
	; AVX1-NEXT: pushq %r12
	; AVX1-NEXT: pushq %rbx			; AVX1-NEXT: pushq %rbx
	; AVX1-NEXT: vpextrq $1, %xmm0, -{{[0-9]+}}(%rsp)			; AVX1-NEXT: vpextrq $1, %xmm0, -{{[0-9]+}}(%rsp)
	; AVX1-NEXT: vmovq %xmm0, -{{[0-9]+}}(%rsp)			; AVX1-NEXT: vmovq %xmm0, -{{[0-9]+}}(%rsp)
	; AVX1-NEXT: movq -{{[0-9]+}}(%rsp), %rcx			; AVX1-NEXT: movq -{{[0-9]+}}(%rsp), %r14
	; AVX1-NEXT: movq -{{[0-9]+}}(%rsp), %rdx			; AVX1-NEXT: vpextrq $1, %xmm0, %rdx
	; AVX1-NEXT: movq %rcx, %r8			; AVX1-NEXT: movq %rdx, %r8
	; AVX1-NEXT: movq %rcx, %r9			; AVX1-NEXT: movq %rdx, %r9
	; AVX1-NEXT: movq %rcx, %r10			; AVX1-NEXT: movq %rdx, %r11
	; AVX1-NEXT: movq %rcx, %r11			; AVX1-NEXT: movq %rdx, %rsi
	; AVX1-NEXT: movq %rcx, %r14
	; AVX1-NEXT: movq %rcx, %r15
	; AVX1-NEXT: movq %rdx, %r12
	; AVX1-NEXT: movq %rdx, %r13
	; AVX1-NEXT: movq %rdx, %rdi			; AVX1-NEXT: movq %rdx, %rdi
				; AVX1-NEXT: movq %rdx, %rcx
	; AVX1-NEXT: movq %rdx, %rax			; AVX1-NEXT: movq %rdx, %rax
	; AVX1-NEXT: movq %rdx, %rsi
	; AVX1-NEXT: movq %rdx, %rbx
	; AVX1-NEXT: movq %rdx, %rbp
	; AVX1-NEXT: andb $15, %dl			; AVX1-NEXT: andb $15, %dl
	; AVX1-NEXT: movb %dl, -{{[0-9]+}}(%rsp)			; AVX1-NEXT: movb %dl, -{{[0-9]+}}(%rsp)
	; AVX1-NEXT: movq %rcx, %rdx			; AVX1-NEXT: shrq $56, %rax
				; AVX1-NEXT: andb $15, %al
				; AVX1-NEXT: movb %al, -{{[0-9]+}}(%rsp)
				; AVX1-NEXT: movq %r14, %r10
				; AVX1-NEXT: shrq $48, %rcx
	; AVX1-NEXT: andb $15, %cl			; AVX1-NEXT: andb $15, %cl
	; AVX1-NEXT: movb %cl, -{{[0-9]+}}(%rsp)			; AVX1-NEXT: movb %cl, -{{[0-9]+}}(%rsp)
	; AVX1-NEXT: shrq $56, %rbp			; AVX1-NEXT: movq %r14, %rdx
	; AVX1-NEXT: andb $15, %bpl			; AVX1-NEXT: shrq $40, %rdi
	; AVX1-NEXT: movb %bpl, -{{[0-9]+}}(%rsp)			; AVX1-NEXT: andb $15, %dil
	; AVX1-NEXT: shrq $48, %rbx			; AVX1-NEXT: movb %dil, -{{[0-9]+}}(%rsp)
				; AVX1-NEXT: movq %r14, %rax
				; AVX1-NEXT: shrq $32, %rsi
				; AVX1-NEXT: andb $15, %sil
				; AVX1-NEXT: movb %sil, -{{[0-9]+}}(%rsp)
				; AVX1-NEXT: movq %r14, %rcx
				; AVX1-NEXT: shrq $24, %r11
				; AVX1-NEXT: andb $15, %r11b
				; AVX1-NEXT: movb %r11b, -{{[0-9]+}}(%rsp)
				; AVX1-NEXT: movq %r14, %rsi
				; AVX1-NEXT: shrq $16, %r9
				; AVX1-NEXT: andb $15, %r9b
				; AVX1-NEXT: movb %r9b, -{{[0-9]+}}(%rsp)
				; AVX1-NEXT: movq %r14, %rdi
				; AVX1-NEXT: shrq $8, %r8
				; AVX1-NEXT: andb $15, %r8b
				; AVX1-NEXT: movb %r8b, -{{[0-9]+}}(%rsp)
				; AVX1-NEXT: movq %r14, %rbx
				; AVX1-NEXT: andb $15, %r14b
				; AVX1-NEXT: movb %r14b, -{{[0-9]+}}(%rsp)
				; AVX1-NEXT: shrq $8, %r10
				; AVX1-NEXT: shrq $16, %rdx
				; AVX1-NEXT: shrq $24, %rax
				; AVX1-NEXT: shrq $32, %rcx
				; AVX1-NEXT: shrq $40, %rsi
				; AVX1-NEXT: shrq $48, %rdi
				; AVX1-NEXT: shrq $56, %rbx
	; AVX1-NEXT: andb $15, %bl			; AVX1-NEXT: andb $15, %bl
	; AVX1-NEXT: movb %bl, -{{[0-9]+}}(%rsp)			; AVX1-NEXT: movb %bl, -{{[0-9]+}}(%rsp)
	; AVX1-NEXT: shrq $40, %rsi			; AVX1-NEXT: andb $15, %dil
				; AVX1-NEXT: movb %dil, -{{[0-9]+}}(%rsp)
	; AVX1-NEXT: andb $15, %sil			; AVX1-NEXT: andb $15, %sil
	; AVX1-NEXT: movb %sil, -{{[0-9]+}}(%rsp)			; AVX1-NEXT: movb %sil, -{{[0-9]+}}(%rsp)
	; AVX1-NEXT: shrq $32, %rax			; AVX1-NEXT: andb $15, %cl
				; AVX1-NEXT: movb %cl, -{{[0-9]+}}(%rsp)
	; AVX1-NEXT: andb $15, %al			; AVX1-NEXT: andb $15, %al
	; AVX1-NEXT: movb %al, -{{[0-9]+}}(%rsp)			; AVX1-NEXT: movb %al, -{{[0-9]+}}(%rsp)
	; AVX1-NEXT: shrq $24, %rdi
	; AVX1-NEXT: andb $15, %dil
	; AVX1-NEXT: movb %dil, -{{[0-9]+}}(%rsp)
	; AVX1-NEXT: shrq $16, %r13
	; AVX1-NEXT: andb $15, %r13b
	; AVX1-NEXT: movb %r13b, -{{[0-9]+}}(%rsp)
	; AVX1-NEXT: shrq $8, %r12
	; AVX1-NEXT: andb $15, %r12b
	; AVX1-NEXT: movb %r12b, -{{[0-9]+}}(%rsp)
	; AVX1-NEXT: shrq $8, %r8
	; AVX1-NEXT: shrq $16, %r9
	; AVX1-NEXT: shrq $24, %r10
	; AVX1-NEXT: shrq $32, %r11
	; AVX1-NEXT: shrq $40, %r14
	; AVX1-NEXT: shrq $48, %r15
	; AVX1-NEXT: shrq $56, %rdx
	; AVX1-NEXT: andb $15, %dl			; AVX1-NEXT: andb $15, %dl
	; AVX1-NEXT: movb %dl, -{{[0-9]+}}(%rsp)			; AVX1-NEXT: movb %dl, -{{[0-9]+}}(%rsp)
	; AVX1-NEXT: andb $15, %r15b
	; AVX1-NEXT: movb %r15b, -{{[0-9]+}}(%rsp)
	; AVX1-NEXT: andb $15, %r14b
	; AVX1-NEXT: movb %r14b, -{{[0-9]+}}(%rsp)
	; AVX1-NEXT: andb $15, %r11b
	; AVX1-NEXT: movb %r11b, -{{[0-9]+}}(%rsp)
	; AVX1-NEXT: andb $15, %r10b			; AVX1-NEXT: andb $15, %r10b
	; AVX1-NEXT: movb %r10b, -{{[0-9]+}}(%rsp)			; AVX1-NEXT: movb %r10b, -{{[0-9]+}}(%rsp)
	; AVX1-NEXT: andb $15, %r9b
	; AVX1-NEXT: movb %r9b, -{{[0-9]+}}(%rsp)
	; AVX1-NEXT: andb $15, %r8b
	; AVX1-NEXT: movb %r8b, -{{[0-9]+}}(%rsp)
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vmovq %xmm0, %rax			; AVX1-NEXT: vmovq %xmm0, %rax
	; AVX1-NEXT: movq %rax, %rcx			; AVX1-NEXT: movq %rax, %r8
	; AVX1-NEXT: movq %rax, %rdx			; AVX1-NEXT: movq %rax, %rdx
	; AVX1-NEXT: movq %rax, %rsi			; AVX1-NEXT: movq %rax, %rsi
	; AVX1-NEXT: movq %rax, %rdi			; AVX1-NEXT: movq %rax, %rdi
	; AVX1-NEXT: movl %eax, %ebp
	; AVX1-NEXT: movl %eax, %ebx			; AVX1-NEXT: movl %eax, %ebx
				; AVX1-NEXT: movl %eax, %ecx
	; AVX1-NEXT: vmovd %eax, %xmm1			; AVX1-NEXT: vmovd %eax, %xmm1
	; AVX1-NEXT: shrl $8, %eax			; AVX1-NEXT: shrl $8, %eax
	; AVX1-NEXT: vpinsrb $1, %eax, %xmm1, %xmm1			; AVX1-NEXT: vpinsrb $1, %eax, %xmm1, %xmm1
	; AVX1-NEXT: shrl $16, %ebx			; AVX1-NEXT: shrl $16, %ecx
	; AVX1-NEXT: vpinsrb $2, %ebx, %xmm1, %xmm1			; AVX1-NEXT: vpinsrb $2, %ecx, %xmm1, %xmm1
	; AVX1-NEXT: shrl $24, %ebp			; AVX1-NEXT: shrl $24, %ebx
	; AVX1-NEXT: vpinsrb $3, %ebp, %xmm1, %xmm1			; AVX1-NEXT: vpinsrb $3, %ebx, %xmm1, %xmm1
	; AVX1-NEXT: shrq $32, %rdi			; AVX1-NEXT: shrq $32, %rdi
	; AVX1-NEXT: vpinsrb $4, %edi, %xmm1, %xmm1			; AVX1-NEXT: vpinsrb $4, %edi, %xmm1, %xmm1
	; AVX1-NEXT: shrq $40, %rsi			; AVX1-NEXT: shrq $40, %rsi
	; AVX1-NEXT: vpinsrb $5, %esi, %xmm1, %xmm1			; AVX1-NEXT: vpinsrb $5, %esi, %xmm1, %xmm1
	; AVX1-NEXT: movb $0, -{{[0-9]+}}(%rsp)			; AVX1-NEXT: movb $0, -{{[0-9]+}}(%rsp)
	; AVX1-NEXT: vmovdqa -{{[0-9]+}}(%rsp), %xmm2			; AVX1-NEXT: vmovdqa -{{[0-9]+}}(%rsp), %xmm2
	; AVX1-NEXT: shrq $48, %rdx			; AVX1-NEXT: shrq $48, %rdx
	; AVX1-NEXT: vpinsrb $6, %edx, %xmm1, %xmm1			; AVX1-NEXT: vpinsrb $6, %edx, %xmm1, %xmm1
	; AVX1-NEXT: vpextrq $1, %xmm0, %rax			; AVX1-NEXT: vpextrq $1, %xmm0, %rax
	; AVX1-NEXT: shrq $56, %rcx			; AVX1-NEXT: shrq $56, %r8
	; AVX1-NEXT: vpinsrb $7, %ecx, %xmm1, %xmm0			; AVX1-NEXT: vpinsrb $7, %r8d, %xmm1, %xmm0
	; AVX1-NEXT: movl %eax, %ecx			; AVX1-NEXT: movl %eax, %ecx
	; AVX1-NEXT: shrl $8, %ecx			; AVX1-NEXT: shrl $8, %ecx
	; AVX1-NEXT: vpinsrb $8, %eax, %xmm0, %xmm0			; AVX1-NEXT: vpinsrb $8, %eax, %xmm0, %xmm0
	; AVX1-NEXT: vpinsrb $9, %ecx, %xmm0, %xmm0			; AVX1-NEXT: vpinsrb $9, %ecx, %xmm0, %xmm0
	; AVX1-NEXT: movl %eax, %ecx			; AVX1-NEXT: movl %eax, %ecx
	; AVX1-NEXT: shrl $16, %ecx			; AVX1-NEXT: shrl $16, %ecx
	; AVX1-NEXT: vpinsrb $10, %ecx, %xmm0, %xmm0			; AVX1-NEXT: vpinsrb $10, %ecx, %xmm0, %xmm0
	; AVX1-NEXT: movl %eax, %ecx			; AVX1-NEXT: movl %eax, %ecx
	▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: vpinsrb $13, %ecx, %xmm1, %xmm1			; AVX1-NEXT: vpinsrb $13, %ecx, %xmm1, %xmm1
	; AVX1-NEXT: movq %rax, %rcx			; AVX1-NEXT: movq %rax, %rcx
	; AVX1-NEXT: shrq $48, %rcx			; AVX1-NEXT: shrq $48, %rcx
	; AVX1-NEXT: vpinsrb $14, %ecx, %xmm1, %xmm1			; AVX1-NEXT: vpinsrb $14, %ecx, %xmm1, %xmm1
	; AVX1-NEXT: shrq $56, %rax			; AVX1-NEXT: shrq $56, %rax
	; AVX1-NEXT: vpinsrb $15, %eax, %xmm1, %xmm1			; AVX1-NEXT: vpinsrb $15, %eax, %xmm1, %xmm1
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; AVX1-NEXT: popq %rbx			; AVX1-NEXT: popq %rbx
	; AVX1-NEXT: popq %r12
	; AVX1-NEXT: popq %r13
	; AVX1-NEXT: popq %r14			; AVX1-NEXT: popq %r14
	; AVX1-NEXT: popq %r15
	; AVX1-NEXT: popq %rbp
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: _clearupper32xi8b:			; AVX2-LABEL: _clearupper32xi8b:
	; AVX2: # BB#0:			; AVX2: # BB#0:
	; AVX2-NEXT: pushq %rbp
	; AVX2-NEXT: pushq %r15
	; AVX2-NEXT: pushq %r14			; AVX2-NEXT: pushq %r14
	; AVX2-NEXT: pushq %r13
	; AVX2-NEXT: pushq %r12
	; AVX2-NEXT: pushq %rbx			; AVX2-NEXT: pushq %rbx
	; AVX2-NEXT: vpextrq $1, %xmm0, -{{[0-9]+}}(%rsp)			; AVX2-NEXT: vpextrq $1, %xmm0, -{{[0-9]+}}(%rsp)
	; AVX2-NEXT: vmovq %xmm0, -{{[0-9]+}}(%rsp)			; AVX2-NEXT: vmovq %xmm0, -{{[0-9]+}}(%rsp)
	; AVX2-NEXT: movq -{{[0-9]+}}(%rsp), %rcx			; AVX2-NEXT: movq -{{[0-9]+}}(%rsp), %r14
	; AVX2-NEXT: movq -{{[0-9]+}}(%rsp), %rdx			; AVX2-NEXT: vpextrq $1, %xmm0, %rdx
	; AVX2-NEXT: movq %rcx, %r8			; AVX2-NEXT: movq %rdx, %r8
	; AVX2-NEXT: movq %rcx, %r9			; AVX2-NEXT: movq %rdx, %r9
	; AVX2-NEXT: movq %rcx, %r10			; AVX2-NEXT: movq %rdx, %r11
	; AVX2-NEXT: movq %rcx, %r11			; AVX2-NEXT: movq %rdx, %rsi
	; AVX2-NEXT: movq %rcx, %r14
	; AVX2-NEXT: movq %rcx, %r15
	; AVX2-NEXT: movq %rdx, %r12
	; AVX2-NEXT: movq %rdx, %r13
	; AVX2-NEXT: movq %rdx, %rdi			; AVX2-NEXT: movq %rdx, %rdi
				; AVX2-NEXT: movq %rdx, %rcx
	; AVX2-NEXT: movq %rdx, %rax			; AVX2-NEXT: movq %rdx, %rax
	; AVX2-NEXT: movq %rdx, %rsi
	; AVX2-NEXT: movq %rdx, %rbx
	; AVX2-NEXT: movq %rdx, %rbp
	; AVX2-NEXT: andb $15, %dl			; AVX2-NEXT: andb $15, %dl
	; AVX2-NEXT: movb %dl, -{{[0-9]+}}(%rsp)			; AVX2-NEXT: movb %dl, -{{[0-9]+}}(%rsp)
	; AVX2-NEXT: movq %rcx, %rdx			; AVX2-NEXT: shrq $56, %rax
				; AVX2-NEXT: andb $15, %al
				; AVX2-NEXT: movb %al, -{{[0-9]+}}(%rsp)
				; AVX2-NEXT: movq %r14, %r10
				; AVX2-NEXT: shrq $48, %rcx
	; AVX2-NEXT: andb $15, %cl			; AVX2-NEXT: andb $15, %cl
	; AVX2-NEXT: movb %cl, -{{[0-9]+}}(%rsp)			; AVX2-NEXT: movb %cl, -{{[0-9]+}}(%rsp)
	; AVX2-NEXT: shrq $56, %rbp			; AVX2-NEXT: movq %r14, %rdx
	; AVX2-NEXT: andb $15, %bpl			; AVX2-NEXT: shrq $40, %rdi
	; AVX2-NEXT: movb %bpl, -{{[0-9]+}}(%rsp)			; AVX2-NEXT: andb $15, %dil
	; AVX2-NEXT: shrq $48, %rbx			; AVX2-NEXT: movb %dil, -{{[0-9]+}}(%rsp)
				; AVX2-NEXT: movq %r14, %rax
				; AVX2-NEXT: shrq $32, %rsi
				; AVX2-NEXT: andb $15, %sil
				; AVX2-NEXT: movb %sil, -{{[0-9]+}}(%rsp)
				; AVX2-NEXT: movq %r14, %rcx
				; AVX2-NEXT: shrq $24, %r11
				; AVX2-NEXT: andb $15, %r11b
				; AVX2-NEXT: movb %r11b, -{{[0-9]+}}(%rsp)
				; AVX2-NEXT: movq %r14, %rsi
				; AVX2-NEXT: shrq $16, %r9
				; AVX2-NEXT: andb $15, %r9b
				; AVX2-NEXT: movb %r9b, -{{[0-9]+}}(%rsp)
				; AVX2-NEXT: movq %r14, %rdi
				; AVX2-NEXT: shrq $8, %r8
				; AVX2-NEXT: andb $15, %r8b
				; AVX2-NEXT: movb %r8b, -{{[0-9]+}}(%rsp)
				; AVX2-NEXT: movq %r14, %rbx
				; AVX2-NEXT: andb $15, %r14b
				; AVX2-NEXT: movb %r14b, -{{[0-9]+}}(%rsp)
				; AVX2-NEXT: shrq $8, %r10
				; AVX2-NEXT: shrq $16, %rdx
				; AVX2-NEXT: shrq $24, %rax
				; AVX2-NEXT: shrq $32, %rcx
				; AVX2-NEXT: shrq $40, %rsi
				; AVX2-NEXT: shrq $48, %rdi
				; AVX2-NEXT: shrq $56, %rbx
	; AVX2-NEXT: andb $15, %bl			; AVX2-NEXT: andb $15, %bl
	; AVX2-NEXT: movb %bl, -{{[0-9]+}}(%rsp)			; AVX2-NEXT: movb %bl, -{{[0-9]+}}(%rsp)
	; AVX2-NEXT: shrq $40, %rsi			; AVX2-NEXT: andb $15, %dil
				; AVX2-NEXT: movb %dil, -{{[0-9]+}}(%rsp)
	; AVX2-NEXT: andb $15, %sil			; AVX2-NEXT: andb $15, %sil
	; AVX2-NEXT: movb %sil, -{{[0-9]+}}(%rsp)			; AVX2-NEXT: movb %sil, -{{[0-9]+}}(%rsp)
	; AVX2-NEXT: shrq $32, %rax			; AVX2-NEXT: andb $15, %cl
				; AVX2-NEXT: movb %cl, -{{[0-9]+}}(%rsp)
	; AVX2-NEXT: andb $15, %al			; AVX2-NEXT: andb $15, %al
	; AVX2-NEXT: movb %al, -{{[0-9]+}}(%rsp)			; AVX2-NEXT: movb %al, -{{[0-9]+}}(%rsp)
	; AVX2-NEXT: shrq $24, %rdi
	; AVX2-NEXT: andb $15, %dil
	; AVX2-NEXT: movb %dil, -{{[0-9]+}}(%rsp)
	; AVX2-NEXT: shrq $16, %r13
	; AVX2-NEXT: andb $15, %r13b
	; AVX2-NEXT: movb %r13b, -{{[0-9]+}}(%rsp)
	; AVX2-NEXT: shrq $8, %r12
	; AVX2-NEXT: andb $15, %r12b
	; AVX2-NEXT: movb %r12b, -{{[0-9]+}}(%rsp)
	; AVX2-NEXT: shrq $8, %r8
	; AVX2-NEXT: shrq $16, %r9
	; AVX2-NEXT: shrq $24, %r10
	; AVX2-NEXT: shrq $32, %r11
	; AVX2-NEXT: shrq $40, %r14
	; AVX2-NEXT: shrq $48, %r15
	; AVX2-NEXT: shrq $56, %rdx
	; AVX2-NEXT: andb $15, %dl			; AVX2-NEXT: andb $15, %dl
	; AVX2-NEXT: movb %dl, -{{[0-9]+}}(%rsp)			; AVX2-NEXT: movb %dl, -{{[0-9]+}}(%rsp)
	; AVX2-NEXT: andb $15, %r15b
	; AVX2-NEXT: movb %r15b, -{{[0-9]+}}(%rsp)
	; AVX2-NEXT: andb $15, %r14b
	; AVX2-NEXT: movb %r14b, -{{[0-9]+}}(%rsp)
	; AVX2-NEXT: andb $15, %r11b
	; AVX2-NEXT: movb %r11b, -{{[0-9]+}}(%rsp)
	; AVX2-NEXT: andb $15, %r10b			; AVX2-NEXT: andb $15, %r10b
	; AVX2-NEXT: movb %r10b, -{{[0-9]+}}(%rsp)			; AVX2-NEXT: movb %r10b, -{{[0-9]+}}(%rsp)
	; AVX2-NEXT: andb $15, %r9b
	; AVX2-NEXT: movb %r9b, -{{[0-9]+}}(%rsp)
	; AVX2-NEXT: andb $15, %r8b
	; AVX2-NEXT: movb %r8b, -{{[0-9]+}}(%rsp)
	; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0			; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0
	; AVX2-NEXT: vmovq %xmm0, %rax			; AVX2-NEXT: vmovq %xmm0, %rax
	; AVX2-NEXT: movq %rax, %rcx			; AVX2-NEXT: movq %rax, %r8
	; AVX2-NEXT: movq %rax, %rdx			; AVX2-NEXT: movq %rax, %rdx
	; AVX2-NEXT: movq %rax, %rsi			; AVX2-NEXT: movq %rax, %rsi
	; AVX2-NEXT: movq %rax, %rdi			; AVX2-NEXT: movq %rax, %rdi
	; AVX2-NEXT: movl %eax, %ebp
	; AVX2-NEXT: movl %eax, %ebx			; AVX2-NEXT: movl %eax, %ebx
				; AVX2-NEXT: movl %eax, %ecx
	; AVX2-NEXT: vmovd %eax, %xmm1			; AVX2-NEXT: vmovd %eax, %xmm1
	; AVX2-NEXT: shrl $8, %eax			; AVX2-NEXT: shrl $8, %eax
	; AVX2-NEXT: vpinsrb $1, %eax, %xmm1, %xmm1			; AVX2-NEXT: vpinsrb $1, %eax, %xmm1, %xmm1
	; AVX2-NEXT: shrl $16, %ebx			; AVX2-NEXT: shrl $16, %ecx
	; AVX2-NEXT: vpinsrb $2, %ebx, %xmm1, %xmm1			; AVX2-NEXT: vpinsrb $2, %ecx, %xmm1, %xmm1
	; AVX2-NEXT: shrl $24, %ebp			; AVX2-NEXT: shrl $24, %ebx
	; AVX2-NEXT: vpinsrb $3, %ebp, %xmm1, %xmm1			; AVX2-NEXT: vpinsrb $3, %ebx, %xmm1, %xmm1
	; AVX2-NEXT: shrq $32, %rdi			; AVX2-NEXT: shrq $32, %rdi
	; AVX2-NEXT: vpinsrb $4, %edi, %xmm1, %xmm1			; AVX2-NEXT: vpinsrb $4, %edi, %xmm1, %xmm1
	; AVX2-NEXT: shrq $40, %rsi			; AVX2-NEXT: shrq $40, %rsi
	; AVX2-NEXT: vpinsrb $5, %esi, %xmm1, %xmm1			; AVX2-NEXT: vpinsrb $5, %esi, %xmm1, %xmm1
	; AVX2-NEXT: movb $0, -{{[0-9]+}}(%rsp)			; AVX2-NEXT: movb $0, -{{[0-9]+}}(%rsp)
	; AVX2-NEXT: vmovdqa -{{[0-9]+}}(%rsp), %xmm2			; AVX2-NEXT: vmovdqa -{{[0-9]+}}(%rsp), %xmm2
	; AVX2-NEXT: shrq $48, %rdx			; AVX2-NEXT: shrq $48, %rdx
	; AVX2-NEXT: vpinsrb $6, %edx, %xmm1, %xmm1			; AVX2-NEXT: vpinsrb $6, %edx, %xmm1, %xmm1
	; AVX2-NEXT: vpextrq $1, %xmm0, %rax			; AVX2-NEXT: vpextrq $1, %xmm0, %rax
	; AVX2-NEXT: shrq $56, %rcx			; AVX2-NEXT: shrq $56, %r8
	; AVX2-NEXT: vpinsrb $7, %ecx, %xmm1, %xmm0			; AVX2-NEXT: vpinsrb $7, %r8d, %xmm1, %xmm0
	; AVX2-NEXT: movl %eax, %ecx			; AVX2-NEXT: movl %eax, %ecx
	; AVX2-NEXT: shrl $8, %ecx			; AVX2-NEXT: shrl $8, %ecx
	; AVX2-NEXT: vpinsrb $8, %eax, %xmm0, %xmm0			; AVX2-NEXT: vpinsrb $8, %eax, %xmm0, %xmm0
	; AVX2-NEXT: vpinsrb $9, %ecx, %xmm0, %xmm0			; AVX2-NEXT: vpinsrb $9, %ecx, %xmm0, %xmm0
	; AVX2-NEXT: movl %eax, %ecx			; AVX2-NEXT: movl %eax, %ecx
	; AVX2-NEXT: shrl $16, %ecx			; AVX2-NEXT: shrl $16, %ecx
	; AVX2-NEXT: vpinsrb $10, %ecx, %xmm0, %xmm0			; AVX2-NEXT: vpinsrb $10, %ecx, %xmm0, %xmm0
	; AVX2-NEXT: movl %eax, %ecx			; AVX2-NEXT: movl %eax, %ecx
	▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpinsrb $13, %ecx, %xmm1, %xmm1			; AVX2-NEXT: vpinsrb $13, %ecx, %xmm1, %xmm1
	; AVX2-NEXT: movq %rax, %rcx			; AVX2-NEXT: movq %rax, %rcx
	; AVX2-NEXT: shrq $48, %rcx			; AVX2-NEXT: shrq $48, %rcx
	; AVX2-NEXT: vpinsrb $14, %ecx, %xmm1, %xmm1			; AVX2-NEXT: vpinsrb $14, %ecx, %xmm1, %xmm1
	; AVX2-NEXT: shrq $56, %rax			; AVX2-NEXT: shrq $56, %rax
	; AVX2-NEXT: vpinsrb $15, %eax, %xmm1, %xmm1			; AVX2-NEXT: vpinsrb $15, %eax, %xmm1, %xmm1
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
	; AVX2-NEXT: popq %rbx			; AVX2-NEXT: popq %rbx
	; AVX2-NEXT: popq %r12
	; AVX2-NEXT: popq %r13
	; AVX2-NEXT: popq %r14			; AVX2-NEXT: popq %r14
	; AVX2-NEXT: popq %r15
	; AVX2-NEXT: popq %rbp
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	%x4 = bitcast <32 x i8> %0 to <64 x i4>			%x4 = bitcast <32 x i8> %0 to <64 x i4>
	%r0 = insertelement <64 x i4> %x4, i4 zeroinitializer, i32 1			%r0 = insertelement <64 x i4> %x4, i4 zeroinitializer, i32 1
	%r1 = insertelement <64 x i4> %r0, i4 zeroinitializer, i32 3			%r1 = insertelement <64 x i4> %r0, i4 zeroinitializer, i32 3
	%r2 = insertelement <64 x i4> %r1, i4 zeroinitializer, i32 5			%r2 = insertelement <64 x i4> %r1, i4 zeroinitializer, i32 5
	%r3 = insertelement <64 x i4> %r2, i4 zeroinitializer, i32 7			%r3 = insertelement <64 x i4> %r2, i4 zeroinitializer, i32 7
	%r4 = insertelement <64 x i4> %r3, i4 zeroinitializer, i32 9			%r4 = insertelement <64 x i4> %r3, i4 zeroinitializer, i32 9
	%r5 = insertelement <64 x i4> %r4, i4 zeroinitializer, i32 11			%r5 = insertelement <64 x i4> %r4, i4 zeroinitializer, i32 11
	▲ Show 20 Lines • Show All 170 Lines • Show Last 20 Lines

test/CodeGen/X86/combiner-aa-0.ll

This file was deleted.

	; RUN: llc < %s -march=x86-64 -combiner-global-alias-analysis -combiner-alias-analysis

	target datalayout = "e-p:64:64:64-i1:8:8-i8:8:8-i16:16:16-i32:32:32-i64:64:64-f32:32:32-f64:64:64-v64:64:64-v128:128:128-a0:0:64-s0:64:64-f80:128:128"
	%struct.Hash_Key = type { [4 x i32], i32 }
	@g_flipV_hashkey = external global %struct.Hash_Key, align 16 ; <%struct.Hash_Key*> [#uses=1]

	define void @foo() nounwind {
	%t0 = load i32, i32* undef, align 16 ; <i32> [#uses=1]
	%t1 = load i32, i32* null, align 4 ; <i32> [#uses=1]
	%t2 = srem i32 %t0, 32 ; <i32> [#uses=1]
	%t3 = shl i32 1, %t2 ; <i32> [#uses=1]
	%t4 = xor i32 %t3, %t1 ; <i32> [#uses=1]
	store i32 %t4, i32* null, align 4
	%t5 = getelementptr %struct.Hash_Key, %struct.Hash_Key* @g_flipV_hashkey, i64 0, i32 0, i64 0 ; <i32*> [#uses=2]
	%t6 = load i32, i32* %t5, align 4 ; <i32> [#uses=1]
	%t7 = shl i32 1, undef ; <i32> [#uses=1]
	%t8 = xor i32 %t7, %t6 ; <i32> [#uses=1]
	store i32 %t8, i32* %t5, align 4
	unreachable
	}

test/CodeGen/X86/combiner-aa-1.ll

This file was deleted.

	; RUN: llc < %s --combiner-alias-analysis --combiner-global-alias-analysis
	; PR4880

	target datalayout = "e-p:32:32:32-i1:8:8-i8:8:8-i16:16:16-i32:32:32-i64:32:64-f32:32:32-f64:32:64-v64:64:64-v128:128:128-a0:0:64-f80:32:32"
	target triple = "i386-pc-linux-gnu"

	%struct.alst_node = type { %struct.node }
	%struct.arg_node = type { %struct.node, i8, %struct.alst_node }
	%struct.arglst_node = type { %struct.alst_node, %struct.arg_node, %struct.arglst_node }
	%struct.lam_node = type { %struct.alst_node, %struct.arg_node, %struct.alst_node }
	%struct.node = type { i32 (...)*, %struct.node }

	define i32 @._ZN8lam_node18resolve_name_clashEP8arg_nodeP9alst_node._ZNK8lam_nodeeqERK8exp_node._ZN11arglst_nodeD0Ev(%struct.lam_node* %this.this, %struct.arg_node* %outer_arg, %struct.alst_node* %env.cmp, %struct.arglst_node* %this, i32 %functionID) {
	comb_entry:
	%.SV59 = alloca %struct.node* ; <%struct.node**> [#uses=1]
	%0 = load i32 (...), i32 (...)* null, align 4 ; <i32 (...)**> [#uses=1]
	%1 = getelementptr inbounds i32 (...), i32 (...)* %0, i32 3 ; <i32 (...)**> [#uses=1]
	%2 = load i32 (...), i32 (...)* %1, align 4 ; <i32 (...)*> [#uses=1]
	store %struct.node* undef, %struct.node** %.SV59
	%3 = bitcast i32 (...)* %2 to i32 (%struct.node) ; <i32 (%struct.node)> [#uses=1]
	%4 = tail call i32 %3(%struct.node* undef) ; <i32> [#uses=0]
	unreachable
	}

test/CodeGen/X86/copy-eflags.ll

	; RUN: llc -o - %s \| FileCheck %s			; RUN: llc -o - %s \| FileCheck %s
	; This tests for the problem originally reported in http://llvm.org/PR25951			; This tests for the problem originally reported in http://llvm.org/PR25951
	target triple = "i686-unknown-linux-gnu"			target triple = "i686-unknown-linux-gnu"

	@b = common global i8 0, align 1			@b = common global i8 0, align 1
	@c = common global i32 0, align 4			@c = common global i32 0, align 4
	@a = common global i8 0, align 1			@a = common global i8 0, align 1
	@d = common global i8 0, align 1			@d = common global i8 0, align 1
	@.str = private unnamed_addr constant [4 x i8] c"%d\0A\00", align 1			@.str = private unnamed_addr constant [4 x i8] c"%d\0A\00", align 1

	; CHECK-LABEL: func:			; CHECK-LABEL: func:
	; This tests whether eax is properly saved/restored around the lahf/sahf			; This tests whether eax is properly saved/restored around the
	; instruction sequences.			; lahf/sahf instruction sequences. We make mem op volatile to prevent
				jyknightUnsubmitted Done Reply Inline Actions s/volitile/volatile/ jyknight: s/volitile/volatile/
				; their reordering to avoid spills.


				jyknightUnsubmitted Done Reply Inline Actions Deleted a comment line by accident here. jyknight: Deleted a comment line by accident here.
	define i32 @func() {			define i32 @func() {
	entry:			entry:
	%bval = load i8, i8* @b			%bval = load i8, i8* @b
	%inc = add i8 %bval, 1			%inc = add i8 %bval, 1
	store i8 %inc, i8* @b			store volatile i8 %inc, i8* @b
	%cval = load i32, i32* @c			%cval = load volatile i32, i32* @c
				jyknightUnsubmitted Not Done Reply Inline Actions Is it really the best thing to add volatile to a bunch of random tests? Can't the CHECK lines be fixed instead? jyknight: Is it really the best thing to add volatile to a bunch of random tests? Can't the CHECK lines…
	%inc1 = add nsw i32 %cval, 1			%inc1 = add nsw i32 %cval, 1
				jyknightUnsubmitted Done Reply Inline Actions Same Q re addition of volatile here; why's it needed? jyknight: Same Q re addition of volatile here; why's it needed?
	store i32 %inc1, i32* @c			store volatile i32 %inc1, i32* @c
	%aval = load i8, i8* @a			%aval = load volatile i8, i8* @a
	%inc2 = add i8 %aval, 1			%inc2 = add i8 %aval, 1
	store i8 %inc2, i8* @a			store volatile i8 %inc2, i8* @a
	; Copy flags produced by the incb of %inc1 to a register, need to save+restore			; Copy flags produced by the incb of %inc1 to a register, need to save+restore
	; eax around it. The flags will be reused by %tobool.			; eax around it. The flags will be reused by %tobool.
	; CHECK: pushl %eax			; CHECK: pushl %eax
	; CHECK: seto %al			; CHECK: seto %al
	; CHECK: lahf			; CHECK: lahf
	; CHECK: movl %eax, [[REG:%[a-z]+]]			; CHECK: movl %eax, [[REG:%[a-z]+]]
	; CHECK: popl %eax			; CHECK: popl %eax
	%cmp = icmp eq i8 %aval, %bval			%cmp = icmp eq i8 %aval, %bval
	Show All 22 Lines

test/CodeGen/X86/dag-merge-fast-accesses.ll

Show First 20 Lines • Show All 45 Lines • ▼ Show 20 Lines	; SLOW-NEXT: retq
%idx1 = getelementptr double, double* %ptr, i64 1		%idx1 = getelementptr double, double* %ptr, i64 1

store double %vecext0, double* %idx0, align 8		store double %vecext0, double* %idx0, align 8
store double %vecext1, double* %idx1, align 8		store double %vecext1, double* %idx1, align 8
ret void		ret void
}		}


;; TODO: FAST should be:
;; movups (%rdi), %xmm0
;; movups %xmm0, 40(%rdi)
;; ..but is not currently. See the UseAA FIXME in DAGCombiner.cpp
;; visitSTORE.

define void @merge_vec_load_and_stores(i64 *%ptr) {		define void @merge_vec_load_and_stores(i64 *%ptr) {
; FAST-LABEL: merge_vec_load_and_stores:		; FAST-LABEL: merge_vec_load_and_stores:
; FAST: # BB#0:		; FAST: # BB#0:
; FAST-NEXT: movq (%rdi), %rax		; FAST-NEXT: movups (%rdi), %xmm0
; FAST-NEXT: movq 8(%rdi), %rcx		; FAST-NEXT: movups %xmm0, 40(%rdi)
; FAST-NEXT: movq %rax, 40(%rdi)
; FAST-NEXT: movq %rcx, 48(%rdi)
; FAST-NEXT: retq		; FAST-NEXT: retq
;		;
; SLOW-LABEL: merge_vec_load_and_stores:		; SLOW-LABEL: merge_vec_load_and_stores:
; SLOW: # BB#0:		; SLOW: # BB#0:
; SLOW-NEXT: movq (%rdi), %rax		; SLOW-NEXT: movq (%rdi), %rax
; SLOW-NEXT: movq 8(%rdi), %rcx		; SLOW-NEXT: movq 8(%rdi), %rcx
; SLOW-NEXT: movq %rax, 40(%rdi)		; SLOW-NEXT: movq %rax, 40(%rdi)
; SLOW-NEXT: movq %rcx, 48(%rdi)		; SLOW-NEXT: movq %rcx, 48(%rdi)
Show All 16 Lines

test/CodeGen/X86/dont-trunc-store-double-to-float.ll

	; RUN: llc -march=x86 < %s \| FileCheck %s			; RUN: llc -march=x86 < %s \| FileCheck %s

	; CHECK-LABEL: @bar			; CHECK-LABEL: @bar
	; CHECK: movl $1074339512,			; CHECK-DAG: movl $1074339512,
	; CHECK: movl $1374389535,			; CHECK-DAG: movl $1374389535,
	; CHECK: movl $1078523331,			; CHECK-DAG: movl $1078523331,
	define void @bar() unnamed_addr {			define void @bar() unnamed_addr {
	entry-block:			entry-block:
	%a = alloca double			%a = alloca double
	%b = alloca float			%b = alloca float

	store double 3.140000e+00, double* %a			store double 3.140000e+00, double* %a
	%0 = load double, double* %a			%0 = load double, double* %a

	%1 = fptrunc double %0 to float			%1 = fptrunc double %0 to float

	store float %1, float* %b			store float %1, float* %b

	ret void			ret void
	}			}

test/CodeGen/X86/extractelement-legalization-store-ordering.ll

	Show All 10 Lines
	; CHECK-NEXT: pushl %ebx			; CHECK-NEXT: pushl %ebx
	; CHECK-NEXT: pushl %edi			; CHECK-NEXT: pushl %edi
	; CHECK-NEXT: pushl %esi			; CHECK-NEXT: pushl %esi
	; CHECK-NEXT: movl 16(%esp), %eax			; CHECK-NEXT: movl 16(%esp), %eax
	; CHECK-NEXT: movl 24(%esp), %ecx			; CHECK-NEXT: movl 24(%esp), %ecx
	; CHECK-NEXT: movl 20(%esp), %edx			; CHECK-NEXT: movl 20(%esp), %edx
	; CHECK-NEXT: paddd (%edx), %xmm0			; CHECK-NEXT: paddd (%edx), %xmm0
	; CHECK-NEXT: movdqa %xmm0, (%edx)			; CHECK-NEXT: movdqa %xmm0, (%edx)
	; CHECK-NEXT: movl (%edx), %esi			; CHECK-NEXT: movl (%edx), %esi
	; CHECK-NEXT: movl 12(%edx), %edi			; CHECK-NEXT: movl 4(%edx), %edi
	; CHECK-NEXT: movl 8(%edx), %ebx
	; CHECK-NEXT: movl 4(%edx), %edx
	; CHECK-NEXT: shll $4, %ecx			; CHECK-NEXT: shll $4, %ecx
				; CHECK-NEXT: movl 8(%edx), %ebx
				; CHECK-NEXT: movl 12(%edx), %edx
	; CHECK-NEXT: movl %esi, 12(%eax,%ecx)			; CHECK-NEXT: movl %esi, 12(%eax,%ecx)
	; CHECK-NEXT: movl %edx, (%eax,%ecx)			; CHECK-NEXT: movl %edi, (%eax,%ecx)
	; CHECK-NEXT: movl %ebx, 8(%eax,%ecx)			; CHECK-NEXT: movl %ebx, 8(%eax,%ecx)
	; CHECK-NEXT: movl %edi, 4(%eax,%ecx)			; CHECK-NEXT: movl %edx, 4(%eax,%ecx)
	; CHECK-NEXT: popl %esi			; CHECK-NEXT: popl %esi
	; CHECK-NEXT: popl %edi			; CHECK-NEXT: popl %edi
	; CHECK-NEXT: popl %ebx			; CHECK-NEXT: popl %ebx
	; CHECK-NEXT: retl			; CHECK-NEXT: retl

	define void @test_extractelement_legalization_storereuse(<4 x i32> %a, i32* nocapture %x, i32* nocapture readonly %y, i32 %i) #0 {			define void @test_extractelement_legalization_storereuse(<4 x i32> %a, i32* nocapture %x, i32* nocapture readonly %y, i32 %i) #0 {
	entry:			entry:
	%0 = bitcast i32* %y to <4 x i32>*			%0 = bitcast i32* %y to <4 x i32>*
	%1 = load <4 x i32>, <4 x i32>* %0, align 16			%1 = load <4 x i32>, <4 x i32>* %0, align 16
	%am = add <4 x i32> %a, %1			%am = add <4 x i32> %a, %1
	store <4 x i32> %am, <4 x i32>* %0, align 16			store <4 x i32> %am, <4 x i32>* %0, align 16
	%ip0 = shl nsw i32 %i, 2			%ip0 = shl nsw i32 %i, 2
	%ip1 = or i32 %ip0, 1			%ip1 = or i32 %ip0, 1
	Show All 18 Lines

test/CodeGen/X86/i256-add.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i386-unknown \| FileCheck %s --check-prefix=X32			; RUN: llc < %s -mtriple=i386-unknown \| FileCheck %s --check-prefix=X32
	; RUN: llc < %s -mtriple=x86_64-unknown \| FileCheck %s --check-prefix=X64			; RUN: llc < %s -mtriple=x86_64-unknown \| FileCheck %s --check-prefix=X64

	define void @add(i256* %p, i256* %q) nounwind {			define void @add(i256* %p, i256* %q) nounwind {
	; X32-LABEL: add:			; X32-LABEL: add:
	; X32: # BB#0:			; X32: # BB#0:
	; X32-NEXT: pushl %ebp			; X32-NEXT: pushl %ebp
				; X32-NEXT: movl %esp, %ebp
	; X32-NEXT: pushl %ebx			; X32-NEXT: pushl %ebx
	; X32-NEXT: pushl %edi			; X32-NEXT: pushl %edi
	; X32-NEXT: pushl %esi			; X32-NEXT: pushl %esi
	; X32-NEXT: subl $16, %esp			; X32-NEXT: subl $28, %esp
	; X32-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-NEXT: movl 12(%ebp), %edi
	; X32-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X32-NEXT: movl 8(%ebp), %eax
	; X32-NEXT: movl 8(%ecx), %edi			; X32-NEXT: movl (%eax), %ecx
	; X32-NEXT: movl (%ecx), %esi			; X32-NEXT: movl (%edi), %edx
	; X32-NEXT: movl 4(%ecx), %ebx			; X32-NEXT: movl %ecx, %esi
	; X32-NEXT: movl 28(%eax), %edx			; X32-NEXT: addl %edx, %esi
	; X32-NEXT: movl %edx, {{[0-9]+}}(%esp) # 4-byte Spill			; X32-NEXT: movl 4(%edi), %ebx
	; X32-NEXT: movl 24(%eax), %edx			; X32-NEXT: movl 4(%eax), %esi
	; X32-NEXT: addl (%eax), %esi			; X32-NEXT: adcl %ebx, %esi
	; X32-NEXT: movl %esi, {{[0-9]+}}(%esp) # 4-byte Spill			; X32-NEXT: pushl %eax
	; X32-NEXT: adcl 4(%eax), %ebx			; X32-NEXT: seto %al
	; X32-NEXT: movl %ebx, (%esp) # 4-byte Spill			; X32-NEXT: lahf
	; X32-NEXT: adcl 8(%eax), %edi			; X32-NEXT: movl %eax, %esi
	; X32-NEXT: movl %edi, {{[0-9]+}}(%esp) # 4-byte Spill			; X32-NEXT: popl %eax
	; X32-NEXT: movl 20(%eax), %ebx			; X32-NEXT: movl %esi, -32(%ebp) # 4-byte Spill
	; X32-NEXT: movl 12(%eax), %esi			; X32-NEXT: movl %esi, -16(%ebp) # 4-byte Spill
	; X32-NEXT: movl 16(%eax), %edi			; X32-NEXT: addl %edx, %ecx
	; X32-NEXT: adcl 12(%ecx), %esi			; X32-NEXT: movl %ecx, -40(%ebp) # 4-byte Spill
	; X32-NEXT: adcl 16(%ecx), %edi			; X32-NEXT: movl 8(%edi), %edx
	; X32-NEXT: adcl 20(%ecx), %ebx			; X32-NEXT: movl %edx, -28(%ebp) # 4-byte Spill
	; X32-NEXT: adcl 24(%ecx), %edx			; X32-NEXT: movl 28(%edi), %ecx
	; X32-NEXT: movl {{[0-9]+}}(%esp), %eax # 4-byte Reload			; X32-NEXT: movl %ecx, -36(%ebp) # 4-byte Spill
	; X32-NEXT: adcl 28(%ecx), %eax			; X32-NEXT: movl 24(%edi), %ecx
	; X32-NEXT: movl {{[0-9]+}}(%esp), %ebp # 4-byte Reload			; X32-NEXT: movl %ecx, -20(%ebp) # 4-byte Spill
	; X32-NEXT: movl %ebp, 8(%ecx)			; X32-NEXT: movl 20(%edi), %ecx
	; X32-NEXT: movl (%esp), %ebp # 4-byte Reload			; X32-NEXT: movl 16(%edi), %esi
	; X32-NEXT: movl %ebp, 4(%ecx)			; X32-NEXT: movl %esi, -24(%ebp) # 4-byte Spill
	; X32-NEXT: movl {{[0-9]+}}(%esp), %ebp # 4-byte Reload			; X32-NEXT: movl 12(%edi), %edi
	; X32-NEXT: movl %ebp, (%ecx)			; X32-NEXT: adcl %ebx, 4(%eax)
	; X32-NEXT: movl %esi, 12(%ecx)			; X32-NEXT: movl 8(%eax), %ebx
	; X32-NEXT: movl %edi, 16(%ecx)			; X32-NEXT: movl -16(%ebp), %esi # 4-byte Reload
	; X32-NEXT: movl %ebx, 20(%ecx)			; X32-NEXT: pushl %eax
	; X32-NEXT: movl %edx, 24(%ecx)			; X32-NEXT: movl %esi, %eax
	; X32-NEXT: movl %eax, 28(%ecx)			; X32-NEXT: addb $127, %al
	; X32-NEXT: addl $16, %esp			; X32-NEXT: sahf
				; X32-NEXT: popl %eax
				; X32-NEXT: adcl %edx, %ebx
				; X32-NEXT: pushl %eax
				; X32-NEXT: seto %al
				; X32-NEXT: lahf
				; X32-NEXT: movl %eax, %ebx
				; X32-NEXT: popl %eax
				; X32-NEXT: adcl %edi, 12(%eax)
				; X32-NEXT: pushl %eax
				; X32-NEXT: movl %ebx, %eax
				; X32-NEXT: addb $127, %al
				; X32-NEXT: sahf
				; X32-NEXT: popl %eax
				; X32-NEXT: adcl 12(%eax), %edi
				; X32-NEXT: pushl %eax
				; X32-NEXT: seto %al
				; X32-NEXT: lahf
				; X32-NEXT: movl %eax, %esi
				; X32-NEXT: popl %eax
				; X32-NEXT: movl 16(%eax), %ebx
				; X32-NEXT: movl -24(%ebp), %edx # 4-byte Reload
				; X32-NEXT: adcl %edx, %ebx
				; X32-NEXT: pushl %eax
				; X32-NEXT: seto %al
				; X32-NEXT: lahf
				; X32-NEXT: movl %eax, %ebx
				; X32-NEXT: popl %eax
				; X32-NEXT: pushl %eax
				; X32-NEXT: seto %al
				; X32-NEXT: lahf
				; X32-NEXT: movl %eax, %edi
				; X32-NEXT: popl %eax
				; X32-NEXT: pushl %eax
				; X32-NEXT: movl %esi, %eax
				; X32-NEXT: addb $127, %al
				; X32-NEXT: sahf
				; X32-NEXT: popl %eax
				; X32-NEXT: adcl %edx, 16(%eax)
				; X32-NEXT: movl -32(%ebp), %edx # 4-byte Reload
				; X32-NEXT: pushl %eax
				; X32-NEXT: movl %edx, %eax
				; X32-NEXT: addb $127, %al
				; X32-NEXT: sahf
				; X32-NEXT: popl %eax
				; X32-NEXT: movl -28(%ebp), %edx # 4-byte Reload
				; X32-NEXT: adcl %edx, 8(%eax)
				; X32-NEXT: pushl %eax
				; X32-NEXT: movl %edi, %eax
				; X32-NEXT: addb $127, %al
				; X32-NEXT: sahf
				; X32-NEXT: popl %eax
				; X32-NEXT: adcl %ecx, 20(%eax)
				; X32-NEXT: pushl %eax
				; X32-NEXT: movl %ebx, %eax
				; X32-NEXT: addb $127, %al
				; X32-NEXT: sahf
				; X32-NEXT: popl %eax
				; X32-NEXT: adcl 20(%eax), %ecx
				; X32-NEXT: pushl %eax
				; X32-NEXT: seto %al
				; X32-NEXT: lahf
				; X32-NEXT: movl %eax, %ecx
				; X32-NEXT: popl %eax
				; X32-NEXT: movl -20(%ebp), %edx # 4-byte Reload
				; X32-NEXT: adcl %edx, 24(%eax)
				; X32-NEXT: pushl %eax
				; X32-NEXT: movl %ecx, %eax
				; X32-NEXT: addb $127, %al
				; X32-NEXT: sahf
				; X32-NEXT: popl %eax
				; X32-NEXT: adcl 24(%eax), %edx
				; X32-NEXT: movl -36(%ebp), %ecx # 4-byte Reload
				; X32-NEXT: adcl %ecx, 28(%eax)
				; X32-NEXT: movl -40(%ebp), %ecx # 4-byte Reload
				; X32-NEXT: movl %ecx, (%eax)
				; X32-NEXT: addl $28, %esp
	; X32-NEXT: popl %esi			; X32-NEXT: popl %esi
	; X32-NEXT: popl %edi			; X32-NEXT: popl %edi
	; X32-NEXT: popl %ebx			; X32-NEXT: popl %ebx
	; X32-NEXT: popl %ebp			; X32-NEXT: popl %ebp
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: add:			; X64-LABEL: add:
	; X64: # BB#0:			; X64: # BB#0:
	; X64-NEXT: movq 16(%rdi), %rax			; X64-NEXT: pushq %rbp
	; X64-NEXT: movq (%rdi), %r8			; X64-NEXT: movq %rsp, %rbp
	; X64-NEXT: movq 8(%rdi), %rdx			; X64-NEXT: movq (%rdi), %rdx
	; X64-NEXT: movq 24(%rsi), %rcx			; X64-NEXT: movq 8(%rdi), %r9
	; X64-NEXT: addq (%rsi), %r8			; X64-NEXT: movq 24(%rsi), %r8
	; X64-NEXT: adcq 8(%rsi), %rdx			; X64-NEXT: movq 8(%rsi), %r10
	; X64-NEXT: adcq 16(%rsi), %rax			; X64-NEXT: movq 16(%rsi), %rcx
	; X64-NEXT: adcq 24(%rdi), %rcx			; X64-NEXT: movq (%rsi), %rsi
	; X64-NEXT: movq %rax, 16(%rdi)			; X64-NEXT: movq %rdx, %rax
	; X64-NEXT: movq %rdx, 8(%rdi)			; X64-NEXT: addq %rsi, %rax
	; X64-NEXT: movq %r8, (%rdi)			; X64-NEXT: adcq %r10, 8(%rdi)
	; X64-NEXT: movq %rcx, 24(%rdi)			; X64-NEXT: addq %rsi, %rdx
				; X64-NEXT: adcq %r10, %r9
				; X64-NEXT: pushfq
				; X64-NEXT: popq %rax
				; X64-NEXT: adcq %rcx, 16(%rdi)
				; X64-NEXT: pushq %rax
				; X64-NEXT: popfq
				; X64-NEXT: adcq 16(%rdi), %rcx
				; X64-NEXT: adcq %r8, 24(%rdi)
				; X64-NEXT: movq %rdx, (%rdi)
				; X64-NEXT: popq %rbp
	; X64-NEXT: retq			; X64-NEXT: retq
	%a = load i256, i256* %p			%a = load i256, i256* %p
	%b = load i256, i256* %q			%b = load i256, i256* %q
				jyknightUnsubmitted Not Done Reply Inline Actions why volatile here. jyknight: why volatile here.
				niravdAuthorUnsubmitted Not Done Reply Inline Actions Removing dependencies in the DAG puts the two references to %p together and enables an optimization that to converts the sbbls to adcls. I've changed this to separate the srcs and dests to prevent this. niravd: Removing dependencies in the DAG puts the two references to %p together and enables an…
	%c = add i256 %a, %b			%c = add i256 %a, %b
	store i256 %c, i256* %p			store i256 %c, i256* %p
	ret void			ret void
	}			}
	define void @sub(i256* %p, i256* %q) nounwind {			define void @sub(i256* %p, i256* %q) nounwind {
	; X32-LABEL: sub:			; X32-LABEL: sub:
	; X32: # BB#0:			; X32: # BB#0:
	; X32-NEXT: pushl %ebp			; X32-NEXT: pushl %ebp
				; X32-NEXT: movl %esp, %ebp
	; X32-NEXT: pushl %ebx			; X32-NEXT: pushl %ebx
	; X32-NEXT: pushl %edi			; X32-NEXT: pushl %edi
	; X32-NEXT: pushl %esi			; X32-NEXT: pushl %esi
	; X32-NEXT: subl $12, %esp			; X32-NEXT: subl $24, %esp
	; X32-NEXT: movl {{[0-9]+}}(%esp), %ebx			; X32-NEXT: movl 12(%ebp), %edi
	; X32-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X32-NEXT: movl 8(%ebp), %ecx
	; X32-NEXT: movl 16(%ecx), %eax			; X32-NEXT: movl (%ecx), %eax
	; X32-NEXT: movl 12(%ecx), %edx			; X32-NEXT: movl 4(%ecx), %edx
	; X32-NEXT: movl 8(%ecx), %edi			; X32-NEXT: movl (%edi), %esi
	; X32-NEXT: movl (%ecx), %esi			; X32-NEXT: cmpl %esi, %eax
	; X32-NEXT: movl 4(%ecx), %ebp			; X32-NEXT: movl 4(%edi), %ebx
	; X32-NEXT: subl (%ebx), %esi			; X32-NEXT: sbbl %ebx, %edx
	; X32-NEXT: movl %esi, {{[0-9]+}}(%esp) # 4-byte Spill			; X32-NEXT: pushl %eax
	; X32-NEXT: sbbl 4(%ebx), %ebp			; X32-NEXT: seto %al
	; X32-NEXT: sbbl 8(%ebx), %edi			; X32-NEXT: lahf
	; X32-NEXT: sbbl 12(%ebx), %edx			; X32-NEXT: movl %eax, %edx
	; X32-NEXT: movl %edx, {{[0-9]+}}(%esp) # 4-byte Spill			; X32-NEXT: popl %eax
	; X32-NEXT: sbbl 16(%ebx), %eax			; X32-NEXT: movl %edx, -24(%ebp) # 4-byte Spill
	; X32-NEXT: movl %eax, (%esp) # 4-byte Spill			; X32-NEXT: movl %edx, -16(%ebp) # 4-byte Spill
	; X32-NEXT: movl 20(%ecx), %esi			; X32-NEXT: subl %esi, %eax
	; X32-NEXT: sbbl 20(%ebx), %esi			; X32-NEXT: movl %eax, -36(%ebp) # 4-byte Spill
				; X32-NEXT: movl 8(%edi), %esi
				; X32-NEXT: movl 28(%edi), %eax
				; X32-NEXT: movl %eax, -32(%ebp) # 4-byte Spill
				; X32-NEXT: movl 24(%edi), %eax
				; X32-NEXT: movl %eax, -28(%ebp) # 4-byte Spill
				; X32-NEXT: movl 20(%edi), %eax
				; X32-NEXT: movl %eax, -20(%ebp) # 4-byte Spill
				; X32-NEXT: movl 16(%edi), %edx
				; X32-NEXT: movl 12(%edi), %edi
				; X32-NEXT: sbbl %ebx, 4(%ecx)
				; X32-NEXT: movl 8(%ecx), %ebx
				; X32-NEXT: movl -16(%ebp), %eax # 4-byte Reload
				; X32-NEXT: movl %eax, %eax
				; X32-NEXT: addb $127, %al
				; X32-NEXT: sahf
				; X32-NEXT: sbbl %esi, %ebx
				; X32-NEXT: pushl %eax
				; X32-NEXT: seto %al
				; X32-NEXT: lahf
				; X32-NEXT: movl %eax, %ebx
				; X32-NEXT: popl %eax
				; X32-NEXT: sbbl %edi, 12(%ecx)
				; X32-NEXT: movl 12(%ecx), %eax
				; X32-NEXT: pushl %eax
				; X32-NEXT: movl %ebx, %eax
				; X32-NEXT: addb $127, %al
				; X32-NEXT: sahf
				; X32-NEXT: popl %eax
				; X32-NEXT: sbbl %edi, %eax
				; X32-NEXT: seto %al
				; X32-NEXT: lahf
				; X32-NEXT: movl %eax, %eax
				; X32-NEXT: movl 16(%ecx), %edi
				; X32-NEXT: sbbl %edx, %edi
				; X32-NEXT: pushl %eax
				; X32-NEXT: seto %al
				; X32-NEXT: lahf
				; X32-NEXT: movl %eax, %edi
				; X32-NEXT: popl %eax
				; X32-NEXT: pushl %eax
				; X32-NEXT: seto %al
				; X32-NEXT: lahf
				; X32-NEXT: movl %eax, %ebx
				; X32-NEXT: popl %eax
				; X32-NEXT: movl %eax, %eax
				; X32-NEXT: addb $127, %al
				; X32-NEXT: sahf
				; X32-NEXT: sbbl %edx, 16(%ecx)
				; X32-NEXT: movl -24(%ebp), %eax # 4-byte Reload
				; X32-NEXT: movl %eax, %eax
				; X32-NEXT: addb $127, %al
				; X32-NEXT: sahf
				; X32-NEXT: sbbl %esi, 8(%ecx)
				; X32-NEXT: pushl %eax
				; X32-NEXT: movl %ebx, %eax
				; X32-NEXT: addb $127, %al
				; X32-NEXT: sahf
				; X32-NEXT: popl %eax
				; X32-NEXT: movl -20(%ebp), %edx # 4-byte Reload
				; X32-NEXT: sbbl %edx, 20(%ecx)
				; X32-NEXT: movl 20(%ecx), %eax
				; X32-NEXT: pushl %eax
				; X32-NEXT: movl %edi, %eax
				; X32-NEXT: addb $127, %al
				; X32-NEXT: sahf
				; X32-NEXT: popl %eax
				; X32-NEXT: sbbl %edx, %eax
				; X32-NEXT: seto %al
				; X32-NEXT: lahf
				; X32-NEXT: movl %eax, %eax
				; X32-NEXT: movl -28(%ebp), %esi # 4-byte Reload
				; X32-NEXT: sbbl %esi, 24(%ecx)
	; X32-NEXT: movl 24(%ecx), %edx			; X32-NEXT: movl 24(%ecx), %edx
	; X32-NEXT: sbbl 24(%ebx), %edx			; X32-NEXT: movl %eax, %eax
	; X32-NEXT: movl 28(%ecx), %eax			; X32-NEXT: addb $127, %al
	; X32-NEXT: sbbl 28(%ebx), %eax			; X32-NEXT: sahf
	; X32-NEXT: movl %edi, 8(%ecx)			; X32-NEXT: sbbl %esi, %edx
	; X32-NEXT: movl %ebp, 4(%ecx)			; X32-NEXT: movl -32(%ebp), %eax # 4-byte Reload
	; X32-NEXT: movl {{[0-9]+}}(%esp), %edi # 4-byte Reload			; X32-NEXT: sbbl %eax, 28(%ecx)
	; X32-NEXT: movl %edi, (%ecx)			; X32-NEXT: movl -36(%ebp), %eax # 4-byte Reload
	; X32-NEXT: movl {{[0-9]+}}(%esp), %edi # 4-byte Reload			; X32-NEXT: movl %eax, (%ecx)
	; X32-NEXT: movl %edi, 12(%ecx)			; X32-NEXT: addl $24, %esp
	; X32-NEXT: movl (%esp), %edi # 4-byte Reload
	; X32-NEXT: movl %edi, 16(%ecx)
	; X32-NEXT: movl %esi, 20(%ecx)
	; X32-NEXT: movl %edx, 24(%ecx)
	; X32-NEXT: movl %eax, 28(%ecx)
	; X32-NEXT: addl $12, %esp
	; X32-NEXT: popl %esi			; X32-NEXT: popl %esi
	; X32-NEXT: popl %edi			; X32-NEXT: popl %edi
	; X32-NEXT: popl %ebx			; X32-NEXT: popl %ebx
	; X32-NEXT: popl %ebp			; X32-NEXT: popl %ebp
	; X32-NEXT: retl			; X32-NEXT: retl
	;			;
	; X64-LABEL: sub:			; X64-LABEL: sub:
	; X64: # BB#0:			; X64: # BB#0:
	; X64-NEXT: movq 24(%rdi), %r8			; X64-NEXT: pushq %rbp
	; X64-NEXT: movq 16(%rdi), %rcx			; X64-NEXT: movq %rsp, %rbp
	; X64-NEXT: movq (%rdi), %rdx			; X64-NEXT: movq (%rdi), %rax
	; X64-NEXT: movq 8(%rdi), %rax			; X64-NEXT: movq 8(%rdi), %rcx
	; X64-NEXT: subq (%rsi), %rdx			; X64-NEXT: movq 24(%rsi), %r8
	; X64-NEXT: sbbq 8(%rsi), %rax			; X64-NEXT: movq 8(%rsi), %rdx
	; X64-NEXT: sbbq 16(%rsi), %rcx			; X64-NEXT: movq 16(%rsi), %r9
	; X64-NEXT: sbbq 24(%rsi), %r8			; X64-NEXT: movq (%rsi), %rsi
	; X64-NEXT: movq %rcx, 16(%rdi)			; X64-NEXT: cmpq %rsi, %rax
	; X64-NEXT: movq %rax, 8(%rdi)			; X64-NEXT: sbbq %rdx, 8(%rdi)
	; X64-NEXT: movq %rdx, (%rdi)			; X64-NEXT: subq %rsi, %rax
	; X64-NEXT: movq %r8, 24(%rdi)			; X64-NEXT: sbbq %rdx, %rcx
				; X64-NEXT: pushfq
				; X64-NEXT: popq %rcx
				; X64-NEXT: sbbq %r9, 16(%rdi)
				; X64-NEXT: movq 16(%rdi), %rdx
				; X64-NEXT: pushq %rcx
				; X64-NEXT: popfq
				; X64-NEXT: sbbq %r9, %rdx
				; X64-NEXT: sbbq %r8, 24(%rdi)
				; X64-NEXT: movq %rax, (%rdi)
				; X64-NEXT: popq %rbp
	; X64-NEXT: retq			; X64-NEXT: retq
	%a = load i256, i256* %p			%a = load i256, i256* %p
	%b = load i256, i256* %q			%b = load i256, i256* %q
	%c = sub i256 %a, %b			%c = sub i256 %a, %b
	store i256 %c, i256* %p			store i256 %c, i256* %p
	ret void			ret void
	}			}

test/CodeGen/X86/i386-shrink-wrapping.ll

	Show First 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	;			;
	; ENABLE-NEXT: pushl			; ENABLE-NEXT: pushl
	; ENABLE-NEXT: pushl			; ENABLE-NEXT: pushl
	; We must not use sub here otherwise we will clobber the eflags.			; We must not use sub here otherwise we will clobber the eflags.
	; ENABLE-NEXT: leal -20(%esp), %esp			; ENABLE-NEXT: leal -20(%esp), %esp
	;			;
	; CHECK-NEXT: L_e$non_lazy_ptr, [[E:%[a-z]+]]			; CHECK-NEXT: L_e$non_lazy_ptr, [[E:%[a-z]+]]
	; CHECK-NEXT: movb [[D]], ([[E]])			; CHECK-NEXT: movb [[D]], ([[E]])
	; CHECK-NEXT: L_f$non_lazy_ptr, [[F:%[a-z]+]]			; CHECK-NEXT: movsbl ([[E]]), [[CONV:%[a-z]+]]
	; CHECK-NEXT: movsbl ([[F]]), [[CONV:%[a-z]+]]
	; CHECK-NEXT: movl $6, [[CONV:%[a-z]+]]			; CHECK-NEXT: movl $6, [[CONV:%[a-z]+]]
	; The eflags is used in the next instruction.			; The eflags is used in the next instruction.
	; If that instruction disappear, we are not exercising the bug			; If that instruction disappear, we are not exercising the bug
	; anymore.			; anymore.
	; CHECK-NEXT: cmovnel {{%[a-z]+}}, [[CONV]]			; CHECK-NEXT: cmovnel {{%[a-z]+}}, [[CONV]]
	;			;
	; Skip all the crust of vaarg lowering.			; Skip all the crust of vaarg lowering.
	; CHECK: calll _varfunc			; CHECK: calll _varfunc
	; Set the return value to 0.			; Set the return value to 0.
	; CHECK-NEXT: xorl %eax, %eax			; CHECK-NEXT: xorl %eax, %eax
	; CHECK-NEXT: addl $20, %esp			; CHECK-NEXT: addl $20, %esp
	; CHECK-NEXT: popl			; CHECK-NEXT: popl
	; CHECK-NEXT: popl			; CHECK-NEXT: popl
	; CHECK-NEXT: retl			; CHECK-NEXT: retl
	define i32 @eflagsLiveInPrologue() #0 {			define i32 @eflagsLiveInPrologue() #0 {
	entry:			entry:
	%tmp = load i32, i32* @a, align 4			%tmp = load i32, i32* @a, align 4
				jyknightUnsubmitted Not Done Reply Inline Actions why volatile here jyknight: why volatile here
				niravdAuthorUnsubmitted Not Done Reply Inline Actions Part of this test checks that we're not clobbering the flags when we shrink wrap which was clobbered because we can now move the load of @f to avoid the problem entirely. I've changed it to load @e which does the same thing. niravd: Part of this test checks that we're not clobbering the flags when we shrink wrap which was…
	%tobool = icmp eq i32 %tmp, 0			%tobool = icmp eq i32 %tmp, 0
	br i1 %tobool, label %for.cond.preheader, label %if.then			br i1 %tobool, label %for.cond.preheader, label %if.then

	if.then: ; preds = %entry			if.then: ; preds = %entry
	store i1 true, i1* @d, align 1			store i1 true, i1* @d, align 1
	br label %for.cond.preheader			br label %for.cond.preheader

	for.cond.preheader: ; preds = %if.then, %entry			for.cond.preheader: ; preds = %if.then, %entry
	%tmp1 = load i32, i32* @b, align 4			%tmp1 = load i32, i32* @b, align 4
	%tobool14 = icmp eq i32 %tmp1, 0			%tobool14 = icmp eq i32 %tmp1, 0
	br i1 %tobool14, label %for.end, label %for.body.preheader			br i1 %tobool14, label %for.end, label %for.body.preheader

	for.body.preheader: ; preds = %for.cond.preheader			for.body.preheader: ; preds = %for.cond.preheader
	br label %for.body			br label %for.body

	for.body: ; preds = %for.body, %for.body.preheader			for.body: ; preds = %for.body, %for.body.preheader
	br label %for.body			br label %for.body

	for.end: ; preds = %for.cond.preheader			for.end: ; preds = %for.cond.preheader
	%.b3 = load i1, i1* @d, align 1			%.b3 = load i1, i1* @d, align 1
	%tmp2 = select i1 %.b3, i8 0, i8 6			%tmp2 = select i1 %.b3, i8 0, i8 6
	store i8 %tmp2, i8* @e, align 1			store i8 %tmp2, i8* @e, align 1
	%tmp3 = load i8, i8* @f, align 1			%tmp3 = load i8, i8* @e, align 1
	%conv = sext i8 %tmp3 to i32			%conv = sext i8 %tmp3 to i32
	%add = add nsw i32 %conv, 1			%add = add nsw i32 %conv, 1
	%rem = srem i32 %tmp1, %add			%rem = srem i32 %tmp1, %add
	store i32 %rem, i32* @c, align 4			store i32 %rem, i32* @c, align 4
	%conv2 = select i1 %.b3, i32 0, i32 6			%conv2 = select i1 %.b3, i32 0, i32 6
	%call = tail call i32 (i8, ...) @varfunc(i8 nonnull getelementptr inbounds ([4 x i8], [4 x i8]* @.str, i32 0, i32 0), i32 %conv2) #1			%call = tail call i32 (i8, ...) @varfunc(i8 nonnull getelementptr inbounds ([4 x i8], [4 x i8]* @.str, i32 0, i32 0), i32 %conv2) #1
	ret i32 0			ret i32 0
	}			}

	; Function Attrs: nounwind			; Function Attrs: nounwind
	declare i32 @varfunc(i8* nocapture readonly, ...) #0			declare i32 @varfunc(i8* nocapture readonly, ...) #0

	attributes #0 = { nounwind "disable-tail-calls"="false" "less-precise-fpmad"="false" "no-frame-pointer-elim"="false" "no-infs-fp-math"="false" "no-nans-fp-math"="false" "stack-protector-buffer-size"="8" "target-features"="+mmx,+sse" "unsafe-fp-math"="false" "use-soft-float"="false" }			attributes #0 = { nounwind "disable-tail-calls"="false" "less-precise-fpmad"="false" "no-frame-pointer-elim"="false" "no-infs-fp-math"="false" "no-nans-fp-math"="false" "stack-protector-buffer-size"="8" "target-features"="+mmx,+sse" "unsafe-fp-math"="false" "use-soft-float"="false" }
	attributes #1 = { nounwind }			attributes #1 = { nounwind }

test/CodeGen/X86/illegal-bitfield-loadstore.ll

Show First 20 Lines • Show All 59 Lines • ▼ Show 20 Lines	; CHECK-NEXT: retq
%d = or i24 %c, %extbit.shl		%d = or i24 %c, %extbit.shl
store i24 %d, i24* %a, align 1		store i24 %d, i24* %a, align 1
ret void		ret void
}		}

define void @i56_or(i56* %a) {		define void @i56_or(i56* %a) {
; CHECK-LABEL: i56_or:		; CHECK-LABEL: i56_or:
; CHECK: # BB#0:		; CHECK: # BB#0:
; CHECK-NEXT: movzwl 4(%rdi), %eax		; ACHECK-NEXT: movzwl 4(%rdi), %eax
; CHECK-NEXT: movzbl 6(%rdi), %ecx		; ACHECK-NEXT: movzbl 6(%rdi), %ecx
; CHECK-NEXT: movl (%rdi), %edx		; ACHECK-NEXT: movl (%rdi), %edx
; CHECK-NEXT: movb %cl, 6(%rdi)		; ACHECK-NEXT: movb %cl, 6(%rdi)
; CHECK-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<kill> %RCX<def>		; ACHECK-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<kill> %RCX<def>
; CHECK-NEXT: shll $16, %ecx		; ACHECK-NEXT: shll $16, %ecx
; CHECK-NEXT: orl %eax, %ecx		; ACHECK-NEXT: orl %eax, %ecx
; CHECK-NEXT: shlq $32, %rcx		; ACHECK-NEXT: shlq $32, %rcx
; CHECK-NEXT: orq %rcx, %rdx		; ACHECK-NEXT: orq %rcx, %rdx
; CHECK-NEXT: orq $384, %rdx # imm = 0x180		; ACHECK-NEXT: orq $384, %rdx # imm = 0x180
; CHECK-NEXT: movl %edx, (%rdi)		; ACHECK-NEXT: movl %edx, (%rdi)
; CHECK-NEXT: shrq $32, %rdx		; ACHECK-NEXT: shrq $32, %rdx
; CHECK-NEXT: movw %dx, 4(%rdi)		; ACHECK-NEXT: movw %dx, 4(%rdi)
; CHECK-NEXT: retq		; ACHECK-NEXT: retq
%aa = load i56, i56* %a, align 1		%aa = load i56, i56* %a, align 1
%b = or i56 %aa, 384		%b = or i56 %aa, 384
store i56 %b, i56* %a, align 1		store i56 %b, i56* %a, align 1
ret void		ret void
}		}

define void @i56_and_or(i56* %a) {		define void @i56_and_or(i56* %a) {
; CHECK-LABEL: i56_and_or:		; CHECK-LABEL: i56_and_or:
; CHECK: # BB#0:		; CHECK: # BB#0:
; CHECK-NEXT: movzwl 4(%rdi), %eax		; CHECK-NEXT: movzwl 4(%rdi), %eax
; CHECK-NEXT: movzbl 6(%rdi), %ecx		; CHECK-NEXT: movzbl 6(%rdi), %ecx
; CHECK-NEXT: shll $16, %ecx		; CHECK-NEXT: shll $16, %ecx
; CHECK-NEXT: orl %eax, %ecx		; CHECK-NEXT: orl %eax, %ecx
; CHECK-NEXT: shlq $32, %rcx		; CHECK-NEXT: shlq $32, %rcx
; CHECK-NEXT: movl (%rdi), %eax		; CHECK-NEXT: movl (%rdi), %eax
; CHECK-NEXT: orq %rcx, %rax		; CHECK-NEXT: orq %rcx, %rax
; CHECK-NEXT: orq $384, %rax # imm = 0x180		; CHECK-NEXT: orq $384, %rax # imm = 0x180
; CHECK-NEXT: movabsq $72057594037927808, %rcx # imm = 0xFFFFFFFFFFFF80		; CHECK-NEXT: movabsq $72057594037927808, %rcx # imm = 0xFFFFFFFFFFFF80
; CHECK-NEXT: andq %rax, %rcx		; CHECK-NEXT: andq %rax, %rcx
; CHECK-NEXT: movl %ecx, (%rdi)		; CHECK-NEXT: movl %ecx, (%rdi)
; CHECK-NEXT: movq %rcx, %rax		; CHECK-NEXT: movq %rcx, %rax
; CHECK-NEXT: shrq $48, %rax		; CHECK-NEXT: shrq $32, %rax
; CHECK-NEXT: movb %al, 6(%rdi)		; CHECK-NEXT: movw %ax, 4(%rdi)
; CHECK-NEXT: shrq $32, %rcx		; CHECK-NEXT: shrq $48, %rcx
; CHECK-NEXT: movw %cx, 4(%rdi)		; CHECK-NEXT: movb %cl, 6(%rdi)
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%b = load i56, i56* %a, align 1		%b = load i56, i56* %a, align 1
%c = and i56 %b, -128		%c = and i56 %b, -128
%d = or i56 %c, 384		%d = or i56 %c, 384
store i56 %d, i56* %a, align 1		store i56 %d, i56* %a, align 1
ret void		ret void
}		}

define void @i56_insert_bit(i56* %a, i1 zeroext %bit) {		define void @i56_insert_bit(i56* %a, i1 zeroext %bit) {
; CHECK-LABEL: i56_insert_bit:		; CHECK-LABEL: i56_insert_bit:
; CHECK: # BB#0:		; CHECK: # BB#0:
; CHECK-NEXT: movzbl %sil, %eax		; CHECK-NEXT: movzbl %sil, %eax
; CHECK-NEXT: movzwl 4(%rdi), %ecx		; CHECK-NEXT: movzwl 4(%rdi), %ecx
; CHECK-NEXT: movzbl 6(%rdi), %edx		; CHECK-NEXT: movzbl 6(%rdi), %edx
; CHECK-NEXT: shll $16, %edx		; CHECK-NEXT: shll $16, %edx
; CHECK-NEXT: orl %ecx, %edx		; CHECK-NEXT: orl %ecx, %edx
; CHECK-NEXT: shlq $32, %rdx		; CHECK-NEXT: shlq $32, %rdx
; CHECK-NEXT: movl (%rdi), %ecx		; CHECK-NEXT: movl (%rdi), %ecx
; CHECK-NEXT: orq %rdx, %rcx		; CHECK-NEXT: orq %rdx, %rcx
; CHECK-NEXT: shlq $13, %rax		; CHECK-NEXT: shlq $13, %rax
; CHECK-NEXT: movabsq $72057594037919743, %rdx # imm = 0xFFFFFFFFFFDFFF		; CHECK-NEXT: movabsq $72057594037919743, %rdx # imm = 0xFFFFFFFFFFDFFF
; CHECK-NEXT: andq %rcx, %rdx		; CHECK-NEXT: andq %rcx, %rdx
; CHECK-NEXT: orq %rdx, %rax		; CHECK-NEXT: orq %rdx, %rax
		; CHECK-NEXT: movl %eax, (%rdi)
; CHECK-NEXT: shrq $48, %rdx		; CHECK-NEXT: shrq $48, %rdx
; CHECK-NEXT: movb %dl, 6(%rdi)		; CHECK-NEXT: movb %dl, 6(%rdi)
; CHECK-NEXT: movl %eax, (%rdi)
; CHECK-NEXT: shrq $32, %rax		; CHECK-NEXT: shrq $32, %rax
; CHECK-NEXT: movw %ax, 4(%rdi)		; CHECK-NEXT: movw %ax, 4(%rdi)
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%extbit = zext i1 %bit to i56		%extbit = zext i1 %bit to i56
%b = load i56, i56* %a, align 1		%b = load i56, i56* %a, align 1
%extbit.shl = shl nuw nsw i56 %extbit, 13		%extbit.shl = shl nuw nsw i56 %extbit, 13
%c = and i56 %b, -8193		%c = and i56 %b, -8193
%d = or i56 %c, %extbit.shl		%d = or i56 %c, %extbit.shl
store i56 %d, i56* %a, align 1		store i56 %d, i56* %a, align 1
ret void		ret void
}		}

test/CodeGen/X86/live-range-nosubreg.ll

	; RUN: llc -march=x86-64 < %s \| FileCheck %s			; RUN: llc -march=x86-64 < %s

	; Check for a sane output. This testcase used to crash. See PR29132.			; This testcase used to crash. See PR29132.
	; CHECK: leal -1

	target triple = "x86_64-unknown-linux-gnu"			target triple = "x86_64-unknown-linux-gnu"

	@a = common local_unnamed_addr global i16 0, align 2			@a = common local_unnamed_addr global i16 0, align 2
	@c = common global i32 0, align 4			@c = common global i32 0, align 4
	@d = common local_unnamed_addr global i8 0, align 1			@d = common local_unnamed_addr global i8 0, align 1
	@b = common global i32 0, align 4			@b = common global i32 0, align 4

	Show All 36 Lines

test/CodeGen/X86/longlong-deadload.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-pc-linux-gnu \| FileCheck %s			; RUN: llc < %s -mtriple=i686-pc-linux-gnu \| FileCheck %s
	; FIXME: This should not load or store the top part of *P.			; FIXME: This should not load or store the top part of *P.

	define void @test(i64* %P) nounwind {			define void @test(i64* %P) nounwind {
	; CHECK-LABEL: test:			; CHECK-LABEL: test:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: movl {{[0-9]+}}(%esp), %eax			; CHECK-NEXT: movl {{[0-9]+}}(%esp), %eax
	; CHECK-NEXT: movl (%eax), %ecx			; CHECK-NEXT: movl (%eax), %ecx
	; CHECK-NEXT: movl 4(%eax), %edx
	; CHECK-NEXT: xorl $1, %ecx			; CHECK-NEXT: xorl $1, %ecx
	; CHECK-NEXT: orl $2, %ecx			; CHECK-NEXT: orl $2, %ecx
	; CHECK-NEXT: movl %edx, 4(%eax)
	; CHECK-NEXT: movl %ecx, (%eax)			; CHECK-NEXT: movl %ecx, (%eax)
	; CHECK-NEXT: retl			; CHECK-NEXT: retl
	%tmp1 = load i64, i64* %P, align 8			%tmp1 = load i64, i64* %P, align 8
	%tmp2 = xor i64 %tmp1, 1			%tmp2 = xor i64 %tmp1, 1
	%tmp3 = or i64 %tmp2, 2			%tmp3 = or i64 %tmp2, 2
	store i64 %tmp3, i64* %P, align 8			store i64 %tmp3, i64* %P, align 8
	ret void			ret void
	}			}

test/CodeGen/X86/merge-consecutive-loads-128.ll

Show First 20 Lines • Show All 1,031 Lines • ▼ Show 20 Lines	; X32-SSE41-NEXT: retl
%res0 = insertelement <2 x i64> undef, i64 %val0, i32 0		%res0 = insertelement <2 x i64> undef, i64 %val0, i32 0
%res1 = insertelement <2 x i64> %res0, i64 %val1, i32 1		%res1 = insertelement <2 x i64> %res0, i64 %val1, i32 1
ret <2 x i64> %res1		ret <2 x i64> %res1
}		}

define <4 x float> @merge_4f32_f32_2345_volatile(float* %ptr) nounwind uwtable noinline ssp {		define <4 x float> @merge_4f32_f32_2345_volatile(float* %ptr) nounwind uwtable noinline ssp {
; SSE2-LABEL: merge_4f32_f32_2345_volatile:		; SSE2-LABEL: merge_4f32_f32_2345_volatile:
; SSE2: # BB#0:		; SSE2: # BB#0:
; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero		; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
		; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero		; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
; SSE2-NEXT: movss {{.*#+}} xmm3 = mem[0],zero,zero,zero
; SSE2-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]		; SSE2-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1]		; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
		; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]		; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE41-LABEL: merge_4f32_f32_2345_volatile:		; SSE41-LABEL: merge_4f32_f32_2345_volatile:
; SSE41: # BB#0:		; SSE41: # BB#0:
; SSE41-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE41-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[2,3]		; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[2,3]
; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]		; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]
; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1,2],mem[0]		; SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1,2],mem[0]
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX-LABEL: merge_4f32_f32_2345_volatile:		; AVX-LABEL: merge_4f32_f32_2345_volatile:
; AVX: # BB#0:		; AVX: # BB#0:
; AVX-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; AVX-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[2,3]		; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[2,3]
; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]		; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]
; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],mem[0]		; AVX-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],mem[0]
; AVX-NEXT: retq		; AVX-NEXT: retq
;		;
; X32-SSE1-LABEL: merge_4f32_f32_2345_volatile:		; X32-SSE1-LABEL: merge_4f32_f32_2345_volatile:
; X32-SSE1: # BB#0:		; X32-SSE1: # BB#0:
; X32-SSE1-NEXT: movl {{[0-9]+}}(%esp), %eax		; X32-SSE1-NEXT: movl {{[0-9]+}}(%esp), %eax
; X32-SSE1-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; X32-SSE1-DAG: movss 8(%eax), %[[R0:xmm[0-3]]] # [[R0]] = mem[0],zero,zero,zero
; X32-SSE1-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero		; X32-SSE1-DAG: movss 12(%eax), %[[R1:xmm[0-3]]] # [[R1]] = mem[0],zero,zero,zero
; X32-SSE1-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero		; X32-SSE1-DAG: movss 16(%eax), %[[R2:xmm[0-3]]] # [[R2]] = mem[0],zero,zero,zero
; X32-SSE1-NEXT: movss {{.*#+}} xmm3 = mem[0],zero,zero,zero		; X32-SSE1-DAG: movss 20(%eax), %[[R3:xmm[0-3]]] # [[R3]] = mem[0],zero,zero,zero
; X32-SSE1-NEXT: unpcklps {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]		; X32-SSE1-DAG: unpcklps %[[R2]], %[[R0]] # [[R0]] = [[R0]][0],[[R2]][0],[[R0]][1],[[R2]][1]
; X32-SSE1-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1]		; X32-SSE1-DAG: unpcklps %[[R3]], %[[R1]] # [[R1]] = [[R1]][0],[[R3]][0],[[R1]][1],[[R3]][1]
; X32-SSE1-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]		; X32-SSE1-DAG: unpcklps %[[R1]], %[[R0]] # [[R0]] = [[R0]][0],[[R1]][0],[[R0]][1],[[R1]][1]
; X32-SSE1-NEXT: retl		; X32-SSE1-NEXT: retl
;		;
; X32-SSE41-LABEL: merge_4f32_f32_2345_volatile:		; X32-SSE41-LABEL: merge_4f32_f32_2345_volatile:
; X32-SSE41: # BB#0:		; X32-SSE41: # BB#0:
; X32-SSE41-NEXT: movl {{[0-9]+}}(%esp), %eax		; X32-SSE41-NEXT: movl {{[0-9]+}}(%esp), %eax
; X32-SSE41-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; X32-SSE41-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; X32-SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[2,3]		; X32-SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[2,3]
; X32-SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]		; X32-SSE41-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]
▲ Show 20 Lines • Show All 90 Lines • Show Last 20 Lines

test/CodeGen/X86/merge-consecutive-loads-256.ll

Show First 20 Lines • Show All 662 Lines • ▼ Show 20 Lines	; X32-AVX-NEXT: retl
ret <4 x double> %res3		ret <4 x double> %res3
}		}

define <16 x i16> @merge_16i16_i16_0uu3zzuuuuuzCuEF_volatile(i16* %ptr) nounwind uwtable noinline ssp {		define <16 x i16> @merge_16i16_i16_0uu3zzuuuuuzCuEF_volatile(i16* %ptr) nounwind uwtable noinline ssp {
; AVX1-LABEL: merge_16i16_i16_0uu3zzuuuuuzCuEF_volatile:		; AVX1-LABEL: merge_16i16_i16_0uu3zzuuuuuzCuEF_volatile:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: vpxor %xmm0, %xmm0, %xmm0		; AVX1-NEXT: vpxor %xmm0, %xmm0, %xmm0
; AVX1-NEXT: vpinsrw $0, (%rdi), %xmm0, %xmm1		; AVX1-NEXT: vpinsrw $0, (%rdi), %xmm0, %xmm1
; AVX1-NEXT: vpinsrw $3, 6(%rdi), %xmm1, %xmm1
; AVX1-NEXT: vpinsrw $4, 24(%rdi), %xmm0, %xmm0		; AVX1-NEXT: vpinsrw $4, 24(%rdi), %xmm0, %xmm0
; AVX1-NEXT: vpinsrw $6, 28(%rdi), %xmm0, %xmm0		; AVX1-NEXT: vpinsrw $6, 28(%rdi), %xmm0, %xmm0
; AVX1-NEXT: vpinsrw $7, 30(%rdi), %xmm0, %xmm0		; AVX1-NEXT: vpinsrw $7, 30(%rdi), %xmm0, %xmm0
		; AVX1-NEXT: vpinsrw $3, 6(%rdi), %xmm1, %xmm1
; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: merge_16i16_i16_0uu3zzuuuuuzCuEF_volatile:		; AVX2-LABEL: merge_16i16_i16_0uu3zzuuuuuzCuEF_volatile:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0		; AVX2-NEXT: vpxor %xmm0, %xmm0, %xmm0
; AVX2-NEXT: vpinsrw $0, (%rdi), %xmm0, %xmm1		; AVX2-NEXT: vpinsrw $0, (%rdi), %xmm0, %xmm1
; AVX2-NEXT: vpinsrw $3, 6(%rdi), %xmm1, %xmm1
; AVX2-NEXT: vpinsrw $4, 24(%rdi), %xmm0, %xmm0		; AVX2-NEXT: vpinsrw $4, 24(%rdi), %xmm0, %xmm0
; AVX2-NEXT: vpinsrw $6, 28(%rdi), %xmm0, %xmm0		; AVX2-NEXT: vpinsrw $6, 28(%rdi), %xmm0, %xmm0
; AVX2-NEXT: vpinsrw $7, 30(%rdi), %xmm0, %xmm0		; AVX2-NEXT: vpinsrw $7, 30(%rdi), %xmm0, %xmm0
		; AVX2-NEXT: vpinsrw $3, 6(%rdi), %xmm1, %xmm1
; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0		; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512F-LABEL: merge_16i16_i16_0uu3zzuuuuuzCuEF_volatile:		; AVX512F-LABEL: merge_16i16_i16_0uu3zzuuuuuzCuEF_volatile:
; AVX512F: # BB#0:		; AVX512F: # BB#0:
; AVX512F-NEXT: vpxor %xmm0, %xmm0, %xmm0		; AVX512F-NEXT: vpxor %xmm0, %xmm0, %xmm0
; AVX512F-NEXT: vpinsrw $0, (%rdi), %xmm0, %xmm1		; AVX512F-NEXT: vpinsrw $0, (%rdi), %xmm0, %xmm1
; AVX512F-NEXT: vpinsrw $3, 6(%rdi), %xmm1, %xmm1
; AVX512F-NEXT: vpinsrw $4, 24(%rdi), %xmm0, %xmm0		; AVX512F-NEXT: vpinsrw $4, 24(%rdi), %xmm0, %xmm0
; AVX512F-NEXT: vpinsrw $6, 28(%rdi), %xmm0, %xmm0		; AVX512F-NEXT: vpinsrw $6, 28(%rdi), %xmm0, %xmm0
; AVX512F-NEXT: vpinsrw $7, 30(%rdi), %xmm0, %xmm0		; AVX512F-NEXT: vpinsrw $7, 30(%rdi), %xmm0, %xmm0
		; AVX512F-NEXT: vpinsrw $3, 6(%rdi), %xmm1, %xmm1
; AVX512F-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0		; AVX512F-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
; AVX512F-NEXT: retq		; AVX512F-NEXT: retq
;		;
; X32-AVX-LABEL: merge_16i16_i16_0uu3zzuuuuuzCuEF_volatile:		; X32-AVX-LABEL: merge_16i16_i16_0uu3zzuuuuuzCuEF_volatile:
; X32-AVX: # BB#0:		; X32-AVX: # BB#0:
; X32-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax		; X32-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax
; X32-AVX-NEXT: vpxor %xmm0, %xmm0, %xmm0		; X32-AVX-NEXT: vpxor %xmm0, %xmm0, %xmm0
; X32-AVX-NEXT: vpinsrw $0, (%eax), %xmm0, %xmm1		; X32-AVX-NEXT: vpinsrw $0, (%eax), %xmm0, %xmm1
; X32-AVX-NEXT: vpinsrw $3, 6(%eax), %xmm1, %xmm1
; X32-AVX-NEXT: vpinsrw $4, 24(%eax), %xmm0, %xmm0		; X32-AVX-NEXT: vpinsrw $4, 24(%eax), %xmm0, %xmm0
; X32-AVX-NEXT: vpinsrw $6, 28(%eax), %xmm0, %xmm0		; X32-AVX-NEXT: vpinsrw $6, 28(%eax), %xmm0, %xmm0
; X32-AVX-NEXT: vpinsrw $7, 30(%eax), %xmm0, %xmm0		; X32-AVX-NEXT: vpinsrw $7, 30(%eax), %xmm0, %xmm0
		; X32-AVX-NEXT: vpinsrw $3, 6(%eax), %xmm1, %xmm1
; X32-AVX-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0		; X32-AVX-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; X32-AVX-NEXT: retl		; X32-AVX-NEXT: retl
%ptr0 = getelementptr inbounds i16, i16* %ptr, i64 0		%ptr0 = getelementptr inbounds i16, i16* %ptr, i64 0
%ptr3 = getelementptr inbounds i16, i16* %ptr, i64 3		%ptr3 = getelementptr inbounds i16, i16* %ptr, i64 3
%ptrC = getelementptr inbounds i16, i16* %ptr, i64 12		%ptrC = getelementptr inbounds i16, i16* %ptr, i64 12
%ptrE = getelementptr inbounds i16, i16* %ptr, i64 14		%ptrE = getelementptr inbounds i16, i16* %ptr, i64 14
%ptrF = getelementptr inbounds i16, i16* %ptr, i64 15		%ptrF = getelementptr inbounds i16, i16* %ptr, i64 15
%val0 = load volatile i16, i16* %ptr0		%val0 = load volatile i16, i16* %ptr0
Show All 14 Lines

test/CodeGen/X86/merge-store-partially-alias-loads.ll

	Show All 15 Lines
	; DBGDAG-LABEL: Optimized lowered selection DAG: BB#0 'merge_store_partial_overlap_load:'			; DBGDAG-LABEL: Optimized lowered selection DAG: BB#0 'merge_store_partial_overlap_load:'
	; DBGDAG: [[ENTRYTOKEN:t[0-9]+]]: ch = EntryToken			; DBGDAG: [[ENTRYTOKEN:t[0-9]+]]: ch = EntryToken
	; DBGDAG-DAG: [[BASEPTR:t[0-9]+]]: i64,ch = CopyFromReg [[ENTRYTOKEN]],			; DBGDAG-DAG: [[BASEPTR:t[0-9]+]]: i64,ch = CopyFromReg [[ENTRYTOKEN]],
	; DBGDAG-DAG: [[ADDPTR:t[0-9]+]]: i64 = add [[BASEPTR]], Constant:i64<2>			; DBGDAG-DAG: [[ADDPTR:t[0-9]+]]: i64 = add [[BASEPTR]], Constant:i64<2>

	; DBGDAG-DAG: [[LD2:t[0-9]+]]: i16,ch = load<LD2[%tmp81](align=1)> [[ENTRYTOKEN]], [[BASEPTR]], undef:i64			; DBGDAG-DAG: [[LD2:t[0-9]+]]: i16,ch = load<LD2[%tmp81](align=1)> [[ENTRYTOKEN]], [[BASEPTR]], undef:i64
	; DBGDAG-DAG: [[LD1:t[0-9]+]]: i8,ch = load<LD1[%tmp12]> [[ENTRYTOKEN]], [[ADDPTR]], undef:i64			; DBGDAG-DAG: [[LD1:t[0-9]+]]: i8,ch = load<LD1[%tmp12]> [[ENTRYTOKEN]], [[ADDPTR]], undef:i64

	; DBGDAG: [[LOADTOKEN:t[0-9]+]]: ch = TokenFactor [[LD2]]:1, [[LD1]]:1			; DBGDAG-DAG: [[ST1:t[0-9]+]]: ch = store<ST1[%tmp14]> [[ENTRYTOKEN]], [[LD1]], t{{[0-9]+}}, undef:i64
				; DBGDAG-DAG: [[LOADTOKEN:t[0-9]+]]: ch = TokenFactor [[LD2]]:1, [[LD1]]:1
	; DBGDAG-DAG: [[ST2:t[0-9]+]]: ch = store<ST2[%tmp10](align=1)> [[LOADTOKEN]], [[LD2]], t{{[0-9]+}}, undef:i64			; DBGDAG-DAG: [[ST2:t[0-9]+]]: ch = store<ST2[%tmp10](align=1)> [[LOADTOKEN]], [[LD2]], t{{[0-9]+}}, undef:i64
	; DBGDAG-DAG: [[ST1:t[0-9]+]]: ch = store<ST1[%tmp14]> [[ST2]], [[LD1]], t{{[0-9]+}}, undef:i64
	; DBGDAG: X86ISD::RET_FLAG [[ST1]],			; DBGDAG: X86ISD::RET_FLAG t{{[0-9]+}},

	; DBGDAG: Type-legalized selection DAG: BB#0 'merge_store_partial_overlap_load:'			; DBGDAG: Type-legalized selection DAG: BB#0 'merge_store_partial_overlap_load:'
	define void @merge_store_partial_overlap_load([4 x i8]* %tmp) {			define void @merge_store_partial_overlap_load([4 x i8]* %tmp) {
	%tmp8 = getelementptr inbounds [4 x i8], [4 x i8]* %tmp, i32 0, i8 0			%tmp8 = getelementptr inbounds [4 x i8], [4 x i8]* %tmp, i32 0, i8 0
	%tmp10 = getelementptr inbounds [4 x i8], [4 x i8]* %tmp, i32 0, i8 1			%tmp10 = getelementptr inbounds [4 x i8], [4 x i8]* %tmp, i32 0, i8 1
	%tmp12 = getelementptr inbounds [4 x i8], [4 x i8]* %tmp, i32 0, i8 2			%tmp12 = getelementptr inbounds [4 x i8], [4 x i8]* %tmp, i32 0, i8 2
	%tmp14 = getelementptr [4 x i8], [4 x i8]* %tmp, i32 0, i8 3			%tmp14 = getelementptr [4 x i8], [4 x i8]* %tmp, i32 0, i8 3

	Show All 16 Lines

test/CodeGen/X86/pr18023.ll

This file was deleted.

	; RUN: llc < %s -mtriple x86_64-apple-macosx10.9.0 \| FileCheck %s
	; PR18023

	; CHECK: movabsq $4294967296, %rcx
	; CHECK: movq %rcx, (%rax)
	; CHECK: movl $1, 4(%rax)
	; CHECK: movl $0, 4(%rax)
	; CHECK: movq $1, 4(%rax)

	@c = common global i32 0, align 4
	@a = common global [3 x i32] zeroinitializer, align 4
	@b = common global i32 0, align 4
	@.str = private unnamed_addr constant [4 x i8] c"%d\0A\00", align 1

	define void @func() {
	store i32 1, i32* getelementptr inbounds ([3 x i32], [3 x i32]* @a, i64 0, i64 1), align 4
	store i32 0, i32* getelementptr inbounds ([3 x i32], [3 x i32]* @a, i64 0, i64 0), align 4
	%1 = load volatile i32, i32* @b, align 4
	store i32 1, i32* getelementptr inbounds ([3 x i32], [3 x i32]* @a, i64 0, i64 1), align 4
	store i32 0, i32* getelementptr inbounds ([3 x i32], [3 x i32]* @a, i64 0, i64 1), align 4
	%2 = load volatile i32, i32* @b, align 4
	store i32 1, i32* getelementptr inbounds ([3 x i32], [3 x i32]* @a, i64 0, i64 1), align 4
	store i32 0, i32* getelementptr inbounds ([3 x i32], [3 x i32]* @a, i64 0, i64 2), align 4
	%3 = load volatile i32, i32* @b, align 4
	store i32 3, i32* @c, align 4
	%4 = load i32, i32* getelementptr inbounds ([3 x i32], [3 x i32]* @a, i64 0, i64 1), align 4
	%call = call i32 (i8, ...) @printf(i8 getelementptr inbounds ([4 x i8], [4 x i8]* @.str, i64 0, i64 0), i32 %4)
	ret void
	}

	declare i32 @printf(i8*, ...)

test/CodeGen/X86/split-store.ll

; RUN: llc -mtriple=x86_64-unknown-unknown -force-split-store < %s \| FileCheck %s		; RUN: llc -mtriple=x86_64-unknown-unknown -force-split-store < %s \| FileCheck %s

; CHECK-LABEL: int32_float_pair		; CHECK-LABEL: int32_float_pair
; CHECK: movl %edi, (%rsi)		; CHECK-DAG: movl %edi, (%rsi)
; CHECK: movss %xmm0, 4(%rsi)		; CHECK-DAG: movss %xmm0, 4(%rsi)
define void @int32_float_pair(i32 %tmp1, float %tmp2, i64* %ref.tmp) {		define void @int32_float_pair(i32 %tmp1, float %tmp2, i64* %ref.tmp) {
entry:		entry:
%t0 = bitcast float %tmp2 to i32		%t0 = bitcast float %tmp2 to i32
%t1 = zext i32 %t0 to i64		%t1 = zext i32 %t0 to i64
%t2 = shl nuw i64 %t1, 32		%t2 = shl nuw i64 %t1, 32
%t3 = zext i32 %tmp1 to i64		%t3 = zext i32 %tmp1 to i64
%t4 = or i64 %t2, %t3		%t4 = or i64 %t2, %t3
store i64 %t4, i64* %ref.tmp, align 8		store i64 %t4, i64* %ref.tmp, align 8
ret void		ret void
}		}

; CHECK-LABEL: float_int32_pair		; CHECK-LABEL: float_int32_pair
; CHECK: movss %xmm0, (%rsi)		; CHECK-DAG: movss %xmm0, (%rsi)
; CHECK: movl %edi, 4(%rsi)		; CHECK-DAG: movl %edi, 4(%rsi)
define void @float_int32_pair(float %tmp1, i32 %tmp2, i64* %ref.tmp) {		define void @float_int32_pair(float %tmp1, i32 %tmp2, i64* %ref.tmp) {
entry:		entry:
%t0 = bitcast float %tmp1 to i32		%t0 = bitcast float %tmp1 to i32
%t1 = zext i32 %tmp2 to i64		%t1 = zext i32 %tmp2 to i64
%t2 = shl nuw i64 %t1, 32		%t2 = shl nuw i64 %t1, 32
%t3 = zext i32 %t0 to i64		%t3 = zext i32 %t0 to i64
%t4 = or i64 %t2, %t3		%t4 = or i64 %t2, %t3
store i64 %t4, i64* %ref.tmp, align 8		store i64 %t4, i64* %ref.tmp, align 8
ret void		ret void
}		}

; CHECK-LABEL: int16_float_pair		; CHECK-LABEL: int16_float_pair
; CHECK: movzwl %di, %eax		; CHECK-DAG: movzwl %di, %eax
; CHECK: movl %eax, (%rsi)		; CHECK-DAG: movl %eax, (%rsi)
; CHECK: movss %xmm0, 4(%rsi)		; CHECK-DAG: movss %xmm0, 4(%rsi)
define void @int16_float_pair(i16 signext %tmp1, float %tmp2, i64* %ref.tmp) {		define void @int16_float_pair(i16 signext %tmp1, float %tmp2, i64* %ref.tmp) {
entry:		entry:
%t0 = bitcast float %tmp2 to i32		%t0 = bitcast float %tmp2 to i32
%t1 = zext i32 %t0 to i64		%t1 = zext i32 %t0 to i64
%t2 = shl nuw i64 %t1, 32		%t2 = shl nuw i64 %t1, 32
%t3 = zext i16 %tmp1 to i64		%t3 = zext i16 %tmp1 to i64
%t4 = or i64 %t2, %t3		%t4 = or i64 %t2, %t3
store i64 %t4, i64* %ref.tmp, align 8		store i64 %t4, i64* %ref.tmp, align 8
ret void		ret void
}		}

; CHECK-LABEL: int8_float_pair		; CHECK-LABEL: int8_float_pair
; CHECK: movzbl %dil, %eax		; CHECK-DAG: movzbl %dil, %eax
; CHECK: movl %eax, (%rsi)		; CHECK-DAG: movl %eax, (%rsi)
; CHECK: movss %xmm0, 4(%rsi)		; CHECK-DAG: movss %xmm0, 4(%rsi)
define void @int8_float_pair(i8 signext %tmp1, float %tmp2, i64* %ref.tmp) {		define void @int8_float_pair(i8 signext %tmp1, float %tmp2, i64* %ref.tmp) {
entry:		entry:
%t0 = bitcast float %tmp2 to i32		%t0 = bitcast float %tmp2 to i32
%t1 = zext i32 %t0 to i64		%t1 = zext i32 %t0 to i64
%t2 = shl nuw i64 %t1, 32		%t2 = shl nuw i64 %t1, 32
%t3 = zext i8 %tmp1 to i64		%t3 = zext i8 %tmp1 to i64
%t4 = or i64 %t2, %t3		%t4 = or i64 %t2, %t3
store i64 %t4, i64* %ref.tmp, align 8		store i64 %t4, i64* %ref.tmp, align 8
▲ Show 20 Lines • Show All 83 Lines • ▼ Show 20 Lines	entry:
store i16 %t4, i16* %ref.tmp, align 2		store i16 %t4, i16* %ref.tmp, align 2
ret void		ret void
}		}

; CHECK-LABEL: int24_int24_pair		; CHECK-LABEL: int24_int24_pair
; CHECK: movw %di, (%rdx)		; CHECK: movw %di, (%rdx)
; CHECK: shrl $16, %edi		; CHECK: shrl $16, %edi
; CHECK: movb %dil, 2(%rdx)		; CHECK: movb %dil, 2(%rdx)
; CHECK: movl %esi, %eax
; CHECK: shrl $16, %eax
; CHECK: movb %al, 6(%rdx)
; CHECK: movw %si, 4(%rdx)		; CHECK: movw %si, 4(%rdx)
		; CHECK: shrl $16, %esi
		; CHECK: movb %sil, 6(%rdx)
define void @int24_int24_pair(i24 signext %tmp1, i24 signext %tmp2, i48* %ref.tmp) {		define void @int24_int24_pair(i24 signext %tmp1, i24 signext %tmp2, i48* %ref.tmp) {
entry:		entry:
%t1 = zext i24 %tmp2 to i48		%t1 = zext i24 %tmp2 to i48
%t2 = shl nuw i48 %t1, 24		%t2 = shl nuw i48 %t1, 24
%t3 = zext i24 %tmp1 to i48		%t3 = zext i24 %tmp1 to i48
%t4 = or i48 %t2, %t3		%t4 = or i48 %t2, %t3
store i48 %t4, i48* %ref.tmp, align 2		store i48 %t4, i48* %ref.tmp, align 2
ret void		ret void
▲ Show 20 Lines • Show All 96 Lines • Show Last 20 Lines

test/CodeGen/X86/stores-merging.ll

	; RUN: llc < %s \| FileCheck %s			; RUN: llc < %s \| FileCheck %s

	target datalayout = "e-m:e-i64:64-f80:128-n8:16:32:64-S128"			target datalayout = "e-m:e-i64:64-f80:128-n8:16:32:64-S128"
	target triple = "x86_64-unknown-linux-gnu"			target triple = "x86_64-unknown-linux-gnu"

	%structTy = type { i8, i32, i32 }			%structTy = type { i8, i32, i32 }

	@e = common global %structTy zeroinitializer, align 4			@e = common global %structTy zeroinitializer, align 4

	;; Ensure that MergeConsecutiveStores doesn't incorrectly reorder			;; Ensure that MergeConsecutiveStores doesn't incorrectly reorder
	;; store operations. The first test stores in increasing address			;; store operations. The first test stores in increasing address
	;; order, the second in decreasing -- but in both cases should have			;; order, the second in decreasing -- but in both cases should have
	;; the same result in memory in the end.			;; the same result in memory in the end.

	; CHECK-LABEL: redundant_stores_merging:			; CHECK-LABEL: redundant_stores_merging:
	; CHECK: movl $123, e+8(%rip)			; CHECK: movabsq $528280977409, %rax
	; CHECK: movabsq $1958505086977, %rax
	; CHECK: movq %rax, e+4(%rip)			; CHECK: movq %rax, e+4(%rip)
				; CHECK: movl $456, e+8(%rip)
	define void @redundant_stores_merging() {			define void @redundant_stores_merging() {
	entry:			entry:
	store i32 1, i32* getelementptr inbounds (%structTy, %structTy* @e, i64 0, i32 1), align 4			store i32 1, i32* getelementptr inbounds (%structTy, %structTy* @e, i64 0, i32 1), align 4
	store i32 123, i32* getelementptr inbounds (%structTy, %structTy* @e, i64 0, i32 2), align 4			store i32 123, i32* getelementptr inbounds (%structTy, %structTy* @e, i64 0, i32 2), align 4
	store i32 456, i32* getelementptr inbounds (%structTy, %structTy* @e, i64 0, i32 2), align 4			store i32 456, i32* getelementptr inbounds (%structTy, %structTy* @e, i64 0, i32 2), align 4
	ret void			ret void
	}			}

	;; This variant tests PR25154.			;; This variant tests PR25154.
	; CHECK-LABEL: redundant_stores_merging_reverse:			; CHECK-LABEL: redundant_stores_merging_reverse:
	; CHECK: movl $123, e+8(%rip)			; CHECK: movabsq $528280977409, %rax
	; CHECK: movabsq $1958505086977, %rax
	; CHECK: movq %rax, e+4(%rip)			; CHECK: movq %rax, e+4(%rip)
				; CHECK: movl $456, e+8(%rip)
	define void @redundant_stores_merging_reverse() {			define void @redundant_stores_merging_reverse() {
	entry:			entry:
	store i32 123, i32* getelementptr inbounds (%structTy, %structTy* @e, i64 0, i32 2), align 4			store i32 123, i32* getelementptr inbounds (%structTy, %structTy* @e, i64 0, i32 2), align 4
	store i32 456, i32* getelementptr inbounds (%structTy, %structTy* @e, i64 0, i32 2), align 4			store i32 456, i32* getelementptr inbounds (%structTy, %structTy* @e, i64 0, i32 2), align 4
	store i32 1, i32* getelementptr inbounds (%structTy, %structTy* @e, i64 0, i32 1), align 4			store i32 1, i32* getelementptr inbounds (%structTy, %structTy* @e, i64 0, i32 1), align 4
	ret void			ret void
	}			}

	@b = common global [8 x i8] zeroinitializer, align 2			@b = common global [8 x i8] zeroinitializer, align 2

	;; The 2-byte store to offset 3 overlaps the 2-byte store to offset 2;			;; The 2-byte store to offset 3 overlaps the 2-byte store to offset 2;
	;; these must not be reordered in MergeConsecutiveStores such that the			;; these must not be reordered in MergeConsecutiveStores such that the
	;; store to 3 comes first (e.g. by merging the stores to 0 and 2 into			;; store to 3 comes first (e.g. by merging the stores to 0 and 2 into
	;; a movl, after the store to 3).			;; a movl, after the store to 3).

	;; CHECK-LABEL: overlapping_stores_merging:			;; CHECK-LABEL: overlapping_stores_merging:
	;; CHECK: movw $0, b+2(%rip)			;; CHECK: movl $1, b(%rip)
	;; CHECK: movw $2, b+3(%rip)			;; CHECK: movw $2, b+3(%rip)
	;; CHECK: movw $1, b(%rip)
	define void @overlapping_stores_merging() {			define void @overlapping_stores_merging() {
	entry:			entry:
	store i16 0, i16* bitcast (i8* getelementptr inbounds ([8 x i8], [8 x i8]* @b, i64 0, i64 2) to i16*), align 2			store i16 0, i16* bitcast (i8* getelementptr inbounds ([8 x i8], [8 x i8]* @b, i64 0, i64 2) to i16*), align 2
	store i16 2, i16* bitcast (i8* getelementptr inbounds ([8 x i8], [8 x i8]* @b, i64 0, i64 3) to i16*), align 1			store i16 2, i16* bitcast (i8* getelementptr inbounds ([8 x i8], [8 x i8]* @b, i64 0, i64 3) to i16*), align 1
	store i16 1, i16* bitcast (i8* getelementptr inbounds ([8 x i8], [8 x i8]* @b, i64 0, i64 0) to i16*), align 2			store i16 1, i16* bitcast (i8* getelementptr inbounds ([8 x i8], [8 x i8]* @b, i64 0, i64 0) to i16*), align 2
	ret void			ret void
	}			}

test/CodeGen/X86/vector-compare-results.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=SSE --check-prefix=SSE2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse2 \| FileCheck %s --check-prefix=SSE --check-prefix=SSE2
				jyknightUnsubmitted Done Reply Inline Actions Unfortunate duplicate line jyknight: Unfortunate duplicate line
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.2 \| FileCheck %s --check-prefix=SSE --check-prefix=SSE42			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.2 \| FileCheck %s --check-prefix=SSE --check-prefix=SSE42
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=AVX --check-prefix=AVX1			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx \| FileCheck %s --check-prefix=AVX --check-prefix=AVX1
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=AVX --check-prefix=AVX2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2 \| FileCheck %s --check-prefix=AVX --check-prefix=AVX2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f \| FileCheck %s --check-prefix=AVX --check-prefix=AVX512 --check-prefix=AVX512F			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512f \| FileCheck %s --check-prefix=AVX --check-prefix=AVX512 --check-prefix=AVX512F
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512dq \| FileCheck %s --check-prefix=AVX --check-prefix=AVX512 --check-prefix=AVX512DQ			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512dq \| FileCheck %s --check-prefix=AVX --check-prefix=AVX512 --check-prefix=AVX512DQ
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bw \| FileCheck %s --check-prefix=AVX --check-prefix=AVX512 --check-prefix=AVX512BW			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bw \| FileCheck %s --check-prefix=AVX --check-prefix=AVX512 --check-prefix=AVX512BW

	;			;
	▲ Show 20 Lines • Show All 327 Lines • ▼ Show 20 Lines
	; SSE2-LABEL: test_cmp_v32i8:			; SSE2-LABEL: test_cmp_v32i8:
	; SSE2: # BB#0:			; SSE2: # BB#0:
	; SSE2-NEXT: pcmpgtb %xmm2, %xmm0			; SSE2-NEXT: pcmpgtb %xmm2, %xmm0
	; SSE2-NEXT: pcmpgtb %xmm3, %xmm1			; SSE2-NEXT: pcmpgtb %xmm3, %xmm1
	; SSE2-NEXT: movdqa %xmm1, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: movdqa %xmm1, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 2(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
				; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, (%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movq %rdi, %rax			; SSE2-NEXT: movq %rdi, %rax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: test_cmp_v32i8:			; SSE42-LABEL: test_cmp_v32i8:
	; SSE42: # BB#0:			; SSE42: # BB#0:
	; SSE42-NEXT: pcmpgtb %xmm2, %xmm0			; SSE42-NEXT: pcmpgtb %xmm2, %xmm0
	▲ Show 20 Lines • Show All 430 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pand %xmm5, %xmm3			; SSE2-NEXT: pand %xmm5, %xmm3
	; SSE2-NEXT: pcmpgtw %xmm6, %xmm2			; SSE2-NEXT: pcmpgtw %xmm6, %xmm2
	; SSE2-NEXT: pand %xmm5, %xmm2			; SSE2-NEXT: pand %xmm5, %xmm2
	; SSE2-NEXT: packuswb %xmm3, %xmm2			; SSE2-NEXT: packuswb %xmm3, %xmm2
	; SSE2-NEXT: movdqa %xmm2, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: movdqa %xmm2, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 2(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
				; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, (%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movq %rdi, %rax			; SSE2-NEXT: movq %rdi, %rax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: test_cmp_v32i16:			; SSE42-LABEL: test_cmp_v32i16:
	; SSE42: # BB#0:			; SSE42: # BB#0:
	; SSE42-NEXT: pcmpgtw %xmm5, %xmm1			; SSE42-NEXT: pcmpgtw %xmm5, %xmm1
	▲ Show 20 Lines • Show All 168 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pcmpgtb %xmm4, %xmm0			; SSE2-NEXT: pcmpgtb %xmm4, %xmm0
	; SSE2-NEXT: pcmpgtb %xmm5, %xmm1			; SSE2-NEXT: pcmpgtb %xmm5, %xmm1
	; SSE2-NEXT: pcmpgtb %xmm6, %xmm2			; SSE2-NEXT: pcmpgtb %xmm6, %xmm2
	; SSE2-NEXT: pcmpgtb %xmm7, %xmm3			; SSE2-NEXT: pcmpgtb %xmm7, %xmm3
	; SSE2-NEXT: movdqa %xmm3, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: movdqa %xmm3, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movdqa %xmm2, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movdqa %xmm1, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 6(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
				; SSE2-NEXT: movdqa %xmm2, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 4(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
				; SSE2-NEXT: movdqa %xmm1, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 2(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
				; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, (%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movq %rdi, %rax			; SSE2-NEXT: movq %rdi, %rax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: test_cmp_v64i8:			; SSE42-LABEL: test_cmp_v64i8:
	; SSE42: # BB#0:			; SSE42: # BB#0:
	; SSE42-NEXT: pcmpgtb %xmm4, %xmm0			; SSE42-NEXT: pcmpgtb %xmm4, %xmm0
	▲ Show 20 Lines • Show All 1,111 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: psllw $15, %xmm4			; SSE2-NEXT: psllw $15, %xmm4
	; SSE2-NEXT: psraw $15, %xmm4			; SSE2-NEXT: psraw $15, %xmm4
	; SSE2-NEXT: pand %xmm3, %xmm4			; SSE2-NEXT: pand %xmm3, %xmm4
	; SSE2-NEXT: packuswb %xmm2, %xmm4			; SSE2-NEXT: packuswb %xmm2, %xmm4
	; SSE2-NEXT: movdqa %xmm4, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: movdqa %xmm4, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 2(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
				; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, (%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movq %rdi, %rax			; SSE2-NEXT: movq %rdi, %rax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: test_cmp_v32f32:			; SSE42-LABEL: test_cmp_v32f32:
	; SSE42: # BB#0:			; SSE42: # BB#0:
	; SSE42-NEXT: movaps {{[0-9]+}}(%rsp), %xmm9			; SSE42-NEXT: movaps {{[0-9]+}}(%rsp), %xmm9
	▲ Show 20 Lines • Show All 1,395 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: psllw $15, %xmm4			; SSE2-NEXT: psllw $15, %xmm4
	; SSE2-NEXT: psraw $15, %xmm4			; SSE2-NEXT: psraw $15, %xmm4
	; SSE2-NEXT: pand %xmm3, %xmm4			; SSE2-NEXT: pand %xmm3, %xmm4
	; SSE2-NEXT: packuswb %xmm2, %xmm4			; SSE2-NEXT: packuswb %xmm2, %xmm4
	; SSE2-NEXT: movdqa %xmm4, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: movdqa %xmm4, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 2(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
				; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, (%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movq %rdi, %rax			; SSE2-NEXT: movq %rdi, %rax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: test_cmp_v32i32:			; SSE42-LABEL: test_cmp_v32i32:
	; SSE42: # BB#0:			; SSE42: # BB#0:
	; SSE42-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm3			; SSE42-NEXT: pcmpgtd {{[0-9]+}}(%rsp), %xmm3
	▲ Show 20 Lines • Show All 853 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pand %xmm8, %xmm7			; SSE2-NEXT: pand %xmm8, %xmm7
	; SSE2-NEXT: pcmpgtw {{[0-9]+}}(%rsp), %xmm6			; SSE2-NEXT: pcmpgtw {{[0-9]+}}(%rsp), %xmm6
	; SSE2-NEXT: pand %xmm8, %xmm6			; SSE2-NEXT: pand %xmm8, %xmm6
	; SSE2-NEXT: packuswb %xmm7, %xmm6			; SSE2-NEXT: packuswb %xmm7, %xmm6
	; SSE2-NEXT: movdqa %xmm6, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: movdqa %xmm6, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movdqa %xmm4, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movdqa %xmm2, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 6(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
				; SSE2-NEXT: movdqa %xmm4, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 4(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
				; SSE2-NEXT: movdqa %xmm2, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 2(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
				; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, (%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movq %rdi, %rax			; SSE2-NEXT: movq %rdi, %rax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: test_cmp_v64i16:			; SSE42-LABEL: test_cmp_v64i16:
	; SSE42: # BB#0:			; SSE42: # BB#0:
	; SSE42-NEXT: pcmpgtw {{[0-9]+}}(%rsp), %xmm1			; SSE42-NEXT: pcmpgtw {{[0-9]+}}(%rsp), %xmm1
	▲ Show 20 Lines • Show All 1,636 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: pcmpgtb {{[0-9]+}}(%rsp), %xmm4			; SSE2-NEXT: pcmpgtb {{[0-9]+}}(%rsp), %xmm4
	; SSE2-NEXT: pcmpgtb {{[0-9]+}}(%rsp), %xmm5			; SSE2-NEXT: pcmpgtb {{[0-9]+}}(%rsp), %xmm5
	; SSE2-NEXT: pcmpgtb {{[0-9]+}}(%rsp), %xmm6			; SSE2-NEXT: pcmpgtb {{[0-9]+}}(%rsp), %xmm6
	; SSE2-NEXT: pcmpgtb {{[0-9]+}}(%rsp), %xmm7			; SSE2-NEXT: pcmpgtb {{[0-9]+}}(%rsp), %xmm7
	; SSE2-NEXT: movdqa %xmm7, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: movdqa %xmm7, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 14(%rdi)			; SSE2-NEXT: movb %al, 14(%rdi)
	; SSE2-NEXT: movdqa %xmm6, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 12(%rdi)			; SSE2-NEXT: movb %al, 14(%rdi)
	; SSE2-NEXT: movdqa %xmm5, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 10(%rdi)
	; SSE2-NEXT: movdqa %xmm4, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 8(%rdi)
	; SSE2-NEXT: movdqa %xmm3, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 14(%rdi)
	; SSE2-NEXT: movdqa %xmm2, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 14(%rdi)
	; SSE2-NEXT: movdqa %xmm1, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 14(%rdi)
	; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 14(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 14(%rdi)			; SSE2-NEXT: movb %al, 14(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 12(%rdi)			; SSE2-NEXT: movb %al, 14(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 10(%rdi)			; SSE2-NEXT: movb %al, 14(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 8(%rdi)			; SSE2-NEXT: movb %al, 14(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 14(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 14(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 14(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 14(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 14(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 14(%rdi)			; SSE2-NEXT: movb %al, 14(%rdi)
				; SSE2-NEXT: movdqa %xmm6, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 12(%rdi)			; SSE2-NEXT: movb %al, 12(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 10(%rdi)			; SSE2-NEXT: movb %al, 12(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 8(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 12(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 12(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 12(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 14(%rdi)			; SSE2-NEXT: movb %al, 12(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 12(%rdi)			; SSE2-NEXT: movb %al, 12(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 10(%rdi)			; SSE2-NEXT: movb %al, 12(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 8(%rdi)			; SSE2-NEXT: movb %al, 12(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 12(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 12(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 12(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 12(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 14(%rdi)			; SSE2-NEXT: movb %al, 12(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 12(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 12(%rdi)			; SSE2-NEXT: movb %al, 12(%rdi)
				; SSE2-NEXT: movdqa %xmm5, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 10(%rdi)			; SSE2-NEXT: movb %al, 10(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 8(%rdi)			; SSE2-NEXT: movb %al, 10(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 10(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 10(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 14(%rdi)			; SSE2-NEXT: movb %al, 10(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 12(%rdi)			; SSE2-NEXT: movb %al, 10(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 10(%rdi)			; SSE2-NEXT: movb %al, 10(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 8(%rdi)			; SSE2-NEXT: movb %al, 10(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 10(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 10(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 10(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 10(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 14(%rdi)			; SSE2-NEXT: movb %al, 10(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 12(%rdi)			; SSE2-NEXT: movb %al, 10(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 10(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 10(%rdi)			; SSE2-NEXT: movb %al, 10(%rdi)
				; SSE2-NEXT: movdqa %xmm4, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 8(%rdi)			; SSE2-NEXT: movb %al, 8(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 8(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 8(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 14(%rdi)			; SSE2-NEXT: movb %al, 8(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 12(%rdi)			; SSE2-NEXT: movb %al, 8(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 10(%rdi)			; SSE2-NEXT: movb %al, 8(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 8(%rdi)			; SSE2-NEXT: movb %al, 8(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 8(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 8(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 8(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 8(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 14(%rdi)			; SSE2-NEXT: movb %al, 8(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 12(%rdi)			; SSE2-NEXT: movb %al, 8(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 10(%rdi)			; SSE2-NEXT: movb %al, 8(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 8(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 8(%rdi)			; SSE2-NEXT: movb %al, 8(%rdi)
				; SSE2-NEXT: movdqa %xmm3, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 14(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 12(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 10(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 8(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 14(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 12(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 6(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 10(%rdi)			; SSE2-NEXT: movb %al, 6(%rdi)
				; SSE2-NEXT: movdqa %xmm2, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 8(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 14(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 12(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 10(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 8(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 14(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 4(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 12(%rdi)			; SSE2-NEXT: movb %al, 4(%rdi)
				; SSE2-NEXT: movdqa %xmm1, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 10(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 8(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 14(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 12(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 10(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 8(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 2(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 14(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
				; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 12(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 10(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 8(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 14(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 12(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 10(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 8(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 6(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 4(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, (%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movq %rdi, %rax			; SSE2-NEXT: movq %rdi, %rax
	; SSE2-NEXT: popq %rcx			; SSE2-NEXT: popq %rcx
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: test_cmp_v128i8:			; SSE42-LABEL: test_cmp_v128i8:
	; SSE42: # BB#0:			; SSE42: # BB#0:
	▲ Show 20 Lines • Show All 1,402 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: psllw $15, %xmm2			; SSE2-NEXT: psllw $15, %xmm2
	; SSE2-NEXT: psraw $15, %xmm2			; SSE2-NEXT: psraw $15, %xmm2
	; SSE2-NEXT: pand %xmm1, %xmm2			; SSE2-NEXT: pand %xmm1, %xmm2
	; SSE2-NEXT: packuswb %xmm3, %xmm2			; SSE2-NEXT: packuswb %xmm3, %xmm2
	; SSE2-NEXT: movdqa %xmm2, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: movdqa %xmm2, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 2(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
				; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, (%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movq %rdi, %rax			; SSE2-NEXT: movq %rdi, %rax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: test_cmp_v32f64:			; SSE42-LABEL: test_cmp_v32f64:
	; SSE42: # BB#0:			; SSE42: # BB#0:
	; SSE42-NEXT: pushq %rbp			; SSE42-NEXT: pushq %rbp
	▲ Show 20 Lines • Show All 1,215 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: psllw $15, %xmm3			; SSE2-NEXT: psllw $15, %xmm3
	; SSE2-NEXT: psraw $15, %xmm3			; SSE2-NEXT: psraw $15, %xmm3
	; SSE2-NEXT: pand %xmm9, %xmm3			; SSE2-NEXT: pand %xmm9, %xmm3
	; SSE2-NEXT: packuswb %xmm1, %xmm3			; SSE2-NEXT: packuswb %xmm1, %xmm3
	; SSE2-NEXT: movdqa %xmm3, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: movdqa %xmm3, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, 2(%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, 2(%rdi)
				; SSE2-NEXT: movdqa %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, 2(%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al			; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %al
				; SSE2-NEXT: movb -{{[0-9]+}}(%rsp), %cl
				; SSE2-NEXT: andb $1, %cl
				; SSE2-NEXT: movb %cl, (%rdi)
	; SSE2-NEXT: andb $1, %al			; SSE2-NEXT: andb $1, %al
	; SSE2-NEXT: movb %al, (%rdi)			; SSE2-NEXT: movb %al, (%rdi)
	; SSE2-NEXT: movq %rdi, %rax			; SSE2-NEXT: movq %rdi, %rax
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: test_cmp_v32i64:			; SSE42-LABEL: test_cmp_v32i64:
	; SSE42: # BB#0:			; SSE42: # BB#0:
	; SSE42-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm8			; SSE42-NEXT: movdqa {{[0-9]+}}(%rsp), %xmm8
	▲ Show 20 Lines • Show All 1,048 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-shuffle-variable-128.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE2		; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE2
		jyknightUnsubmitted Done Reply Inline Actions Here too. jyknight: Here too.
; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=+ssse3 \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSSE3		; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=+ssse3 \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSSE3
; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=+sse4.1 \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE41		; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=+sse4.1 \| FileCheck %s --check-prefix=ALL --check-prefix=SSE --check-prefix=SSE41
; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=+avx \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX1		; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=+avx \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX1
; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=+avx2 \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX2		; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=+avx2 \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX2

;		;
; Unary shuffle indices from registers		; Unary shuffle indices from registers
;		;
Show All 26 Lines
define <2 x i64> @var_shuffle_v2i64_v2i64_xx_i64(<2 x i64> %x, i32 %i0, i32 %i1) nounwind {		define <2 x i64> @var_shuffle_v2i64_v2i64_xx_i64(<2 x i64> %x, i32 %i0, i32 %i1) nounwind {
; SSE-LABEL: var_shuffle_v2i64_v2i64_xx_i64:		; SSE-LABEL: var_shuffle_v2i64_v2i64_xx_i64:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>		; SSE-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>
; SSE-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>		; SSE-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
; SSE-NEXT: andl $1, %edi		; SSE-NEXT: andl $1, %edi
; SSE-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSE-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSE-NEXT: andl $1, %esi		; SSE-NEXT: andl $1, %esi
; SSE-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
; SSE-NEXT: movq {{.*#+}} xmm1 = mem[0],zero		; SSE-NEXT: movq {{.*#+}} xmm1 = mem[0],zero
		; SSE-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; SSE-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: var_shuffle_v2i64_v2i64_xx_i64:		; AVX-LABEL: var_shuffle_v2i64_v2i64_xx_i64:
; AVX: # BB#0:		; AVX: # BB#0:
; AVX-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>		; AVX-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>
; AVX-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>		; AVX-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
; AVX-NEXT: andl $1, %edi		; AVX-NEXT: andl $1, %edi
; AVX-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)		; AVX-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)
; AVX-NEXT: andl $1, %esi		; AVX-NEXT: andl $1, %esi
; AVX-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
; AVX-NEXT: retq		; AVX-NEXT: retq
%x0 = extractelement <2 x i64> %x, i32 %i0		%x0 = extractelement <2 x i64> %x, i32 %i0
%x1 = extractelement <2 x i64> %x, i32 %i1		%x1 = extractelement <2 x i64> %x, i32 %i1
%r0 = insertelement <2 x i64> undef, i64 %x0, i32 0		%r0 = insertelement <2 x i64> undef, i64 %x0, i32 0
%r1 = insertelement <2 x i64> %r0, i64 %x1, i32 1		%r1 = insertelement <2 x i64> %r0, i64 %x1, i32 1
ret <2 x i64> %r1		ret <2 x i64> %r1
}		}

define <4 x float> @var_shuffle_v4f32_v4f32_xxxx_i32(<4 x float> %x, i32 %i0, i32 %i1, i32 %i2, i32 %i3) nounwind {		define <4 x float> @var_shuffle_v4f32_v4f32_xxxx_i32(<4 x float> %x, i32 %i0, i32 %i1, i32 %i2, i32 %i3) nounwind {
; SSE2-LABEL: var_shuffle_v4f32_v4f32_xxxx_i32:		; SSE2-LABEL: var_shuffle_v4f32_v4f32_xxxx_i32:
; SSE2: # BB#0:		; SSE2: # BB#0:
; SSE2-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>		; SSE2-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
; SSE2-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>		; SSE2-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
; SSE2-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>		; SSE2-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>
; SSE2-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>		; SSE2-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
; SSE2-NEXT: andl $3, %edi		; SSE2-NEXT: andl $3, %edi
; SSE2-NEXT: andl $3, %esi		; SSE2-NEXT: andl $3, %esi
; SSE2-NEXT: andl $3, %edx		; SSE2-NEXT: andl $3, %edx
; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSE2-NEXT: andl $3, %ecx		; SSE2-NEXT: andl $3, %ecx
; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero		; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
		; SSE2-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero		; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
		; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]		; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
; SSE2-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; SSE2-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: var_shuffle_v4f32_v4f32_xxxx_i32:		; SSSE3-LABEL: var_shuffle_v4f32_v4f32_xxxx_i32:
; SSSE3: # BB#0:		; SSSE3: # BB#0:
; SSSE3-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>		; SSSE3-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
; SSSE3-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>		; SSSE3-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
; SSSE3-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>		; SSSE3-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>
; SSSE3-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>		; SSSE3-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
; SSSE3-NEXT: andl $3, %edi		; SSSE3-NEXT: andl $3, %edi
; SSSE3-NEXT: andl $3, %esi		; SSSE3-NEXT: andl $3, %esi
; SSSE3-NEXT: andl $3, %edx		; SSSE3-NEXT: andl $3, %edx
; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSSE3-NEXT: andl $3, %ecx		; SSSE3-NEXT: andl $3, %ecx
; SSSE3-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSSE3-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSSE3-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero		; SSSE3-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
		; SSSE3-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; SSSE3-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero		; SSSE3-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
		; SSSE3-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSSE3-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]		; SSSE3-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSSE3-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero
; SSSE3-NEXT: unpcklps {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; SSSE3-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; SSSE3-NEXT: unpcklps {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: var_shuffle_v4f32_v4f32_xxxx_i32:		; SSE41-LABEL: var_shuffle_v4f32_v4f32_xxxx_i32:
; SSE41: # BB#0:		; SSE41: # BB#0:
; SSE41-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>		; SSE41-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
; SSE41-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>		; SSE41-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
; SSE41-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>		; SSE41-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>
▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
; SSE2-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>		; SSE2-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
; SSE2-NEXT: andl $3, %edi		; SSE2-NEXT: andl $3, %edi
; SSE2-NEXT: andl $3, %esi		; SSE2-NEXT: andl $3, %esi
; SSE2-NEXT: andl $3, %edx		; SSE2-NEXT: andl $3, %edx
; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSE2-NEXT: andl $3, %ecx		; SSE2-NEXT: andl $3, %ecx
; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero		; SSE2-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
		; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; SSE2-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero		; SSE2-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
		; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSE2-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: var_shuffle_v4i32_v4i32_xxxx_i32:		; SSSE3-LABEL: var_shuffle_v4i32_v4i32_xxxx_i32:
; SSSE3: # BB#0:		; SSSE3: # BB#0:
; SSSE3-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>		; SSSE3-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
; SSSE3-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>		; SSSE3-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
; SSSE3-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>		; SSSE3-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>
; SSSE3-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>		; SSSE3-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
; SSSE3-NEXT: andl $3, %edi		; SSSE3-NEXT: andl $3, %edi
; SSSE3-NEXT: andl $3, %esi		; SSSE3-NEXT: andl $3, %esi
; SSSE3-NEXT: andl $3, %edx		; SSSE3-NEXT: andl $3, %edx
; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSSE3-NEXT: andl $3, %ecx		; SSSE3-NEXT: andl $3, %ecx
; SSSE3-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSSE3-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSSE3-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero		; SSSE3-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
		; SSSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; SSSE3-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero		; SSSE3-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
		; SSSE3-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]		; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSSE3-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
; SSSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1]
; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: var_shuffle_v4i32_v4i32_xxxx_i32:		; SSE41-LABEL: var_shuffle_v4i32_v4i32_xxxx_i32:
; SSE41: # BB#0:		; SSE41: # BB#0:
; SSE41-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>		; SSE41-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
; SSE41-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>		; SSE41-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
; SSE41-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>		; SSE41-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>
▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
; SSE2-NEXT: andl $7, %ecx		; SSE2-NEXT: andl $7, %ecx
; SSE2-NEXT: andl $7, %r8d		; SSE2-NEXT: andl $7, %r8d
; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSE2-NEXT: andl $7, %r9d		; SSE2-NEXT: andl $7, %r9d
; SSE2-NEXT: movzwl {{[0-9]+}}(%rsp), %r10d		; SSE2-NEXT: movzwl {{[0-9]+}}(%rsp), %r10d
; SSE2-NEXT: andl $7, %r10d		; SSE2-NEXT: andl $7, %r10d
; SSE2-NEXT: movzwl {{[0-9]+}}(%rsp), %eax		; SSE2-NEXT: movzwl {{[0-9]+}}(%rsp), %eax
; SSE2-NEXT: andl $7, %eax		; SSE2-NEXT: andl $7, %eax
; SSE2-NEXT: movzwl -24(%rsp,%r10,2), %r10d
; SSE2-NEXT: movzwl -24(%rsp,%rax,2), %eax		; SSE2-NEXT: movzwl -24(%rsp,%rax,2), %eax
; SSE2-NEXT: movzwl -24(%rsp,%rdi,2), %edi		; SSE2-NEXT: movd %eax, %xmm0
; SSE2-NEXT: movzwl -24(%rsp,%rsi,2), %esi		; SSE2-NEXT: movzwl -24(%rsp,%rcx,2), %eax
; SSE2-NEXT: movd %r10d, %xmm0
; SSE2-NEXT: movzwl -24(%rsp,%rdx,2), %edx
; SSE2-NEXT: movd %edx, %xmm1
; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
; SSE2-NEXT: movzwl -24(%rsp,%rcx,2), %ecx
; SSE2-NEXT: movd %edi, %xmm0
; SSE2-NEXT: movzwl -24(%rsp,%r8,2), %edx
; SSE2-NEXT: movd %edx, %xmm2
; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
; SSE2-NEXT: movd %eax, %xmm1		; SSE2-NEXT: movd %eax, %xmm1
; SSE2-NEXT: movd %ecx, %xmm2		; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
; SSE2-NEXT: movd %esi, %xmm1
; SSE2-NEXT: movzwl -24(%rsp,%r9,2), %eax		; SSE2-NEXT: movzwl -24(%rsp,%r9,2), %eax
		; SSE2-NEXT: movd %eax, %xmm0
		; SSE2-NEXT: movzwl -24(%rsp,%rsi,2), %eax
		; SSE2-NEXT: movd %eax, %xmm2
		; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
		; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
		; SSE2-NEXT: movzwl -24(%rsp,%r10,2), %eax
		; SSE2-NEXT: movd %eax, %xmm0
		; SSE2-NEXT: movzwl -24(%rsp,%rdx,2), %eax
		; SSE2-NEXT: movd %eax, %xmm1
		; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
		; SSE2-NEXT: movzwl -24(%rsp,%r8,2), %eax
; SSE2-NEXT: movd %eax, %xmm3		; SSE2-NEXT: movd %eax, %xmm3
; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3]		; SSE2-NEXT: movzwl -24(%rsp,%rdi,2), %eax
; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]		; SSE2-NEXT: movd %eax, %xmm0
		; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]		; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
		; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: var_shuffle_v8i16_v8i16_xxxxxxxx_i16:		; SSSE3-LABEL: var_shuffle_v8i16_v8i16_xxxxxxxx_i16:
; SSSE3: # BB#0:		; SSSE3: # BB#0:
; SSSE3-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>		; SSSE3-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>
; SSSE3-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>		; SSSE3-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>
; SSSE3-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>		; SSSE3-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
; SSSE3-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>		; SSSE3-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
; SSSE3-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>		; SSSE3-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>
; SSSE3-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>		; SSSE3-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
; SSSE3-NEXT: andl $7, %edi		; SSSE3-NEXT: andl $7, %edi
; SSSE3-NEXT: andl $7, %esi		; SSSE3-NEXT: andl $7, %esi
; SSSE3-NEXT: andl $7, %edx		; SSSE3-NEXT: andl $7, %edx
; SSSE3-NEXT: andl $7, %ecx		; SSSE3-NEXT: andl $7, %ecx
; SSSE3-NEXT: andl $7, %r8d		; SSSE3-NEXT: andl $7, %r8d
; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSSE3-NEXT: andl $7, %r9d		; SSSE3-NEXT: andl $7, %r9d
; SSSE3-NEXT: movzwl {{[0-9]+}}(%rsp), %r10d		; SSSE3-NEXT: movzwl {{[0-9]+}}(%rsp), %r10d
; SSSE3-NEXT: andl $7, %r10d		; SSSE3-NEXT: andl $7, %r10d
; SSSE3-NEXT: movzwl {{[0-9]+}}(%rsp), %eax		; SSSE3-NEXT: movzwl {{[0-9]+}}(%rsp), %eax
; SSSE3-NEXT: andl $7, %eax		; SSSE3-NEXT: andl $7, %eax
; SSSE3-NEXT: movzwl -24(%rsp,%r10,2), %r10d
; SSSE3-NEXT: movzwl -24(%rsp,%rax,2), %eax		; SSSE3-NEXT: movzwl -24(%rsp,%rax,2), %eax
; SSSE3-NEXT: movzwl -24(%rsp,%rdi,2), %edi		; SSSE3-NEXT: movd %eax, %xmm0
; SSSE3-NEXT: movzwl -24(%rsp,%rsi,2), %esi		; SSSE3-NEXT: movzwl -24(%rsp,%rcx,2), %eax
; SSSE3-NEXT: movd %r10d, %xmm0
; SSSE3-NEXT: movzwl -24(%rsp,%rdx,2), %edx
; SSSE3-NEXT: movd %edx, %xmm1
; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
; SSSE3-NEXT: movzwl -24(%rsp,%rcx,2), %ecx
; SSSE3-NEXT: movd %edi, %xmm0
; SSSE3-NEXT: movzwl -24(%rsp,%r8,2), %edx
; SSSE3-NEXT: movd %edx, %xmm2
; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
; SSSE3-NEXT: movd %eax, %xmm1		; SSSE3-NEXT: movd %eax, %xmm1
; SSSE3-NEXT: movd %ecx, %xmm2		; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
; SSSE3-NEXT: movd %esi, %xmm1
; SSSE3-NEXT: movzwl -24(%rsp,%r9,2), %eax		; SSSE3-NEXT: movzwl -24(%rsp,%r9,2), %eax
		; SSSE3-NEXT: movd %eax, %xmm0
		; SSSE3-NEXT: movzwl -24(%rsp,%rsi,2), %eax
		; SSSE3-NEXT: movd %eax, %xmm2
		; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
		; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
		; SSSE3-NEXT: movzwl -24(%rsp,%r10,2), %eax
		; SSSE3-NEXT: movd %eax, %xmm0
		; SSSE3-NEXT: movzwl -24(%rsp,%rdx,2), %eax
		; SSSE3-NEXT: movd %eax, %xmm1
		; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]
		; SSSE3-NEXT: movzwl -24(%rsp,%r8,2), %eax
; SSSE3-NEXT: movd %eax, %xmm3		; SSSE3-NEXT: movd %eax, %xmm3
; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm3[0],xmm1[1],xmm3[1],xmm1[2],xmm3[2],xmm1[3],xmm3[3]		; SSSE3-NEXT: movzwl -24(%rsp,%rdi,2), %eax
; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm2[0],xmm1[1],xmm2[1],xmm1[2],xmm2[2],xmm1[3],xmm2[3]		; SSSE3-NEXT: movd %eax, %xmm0
		; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]		; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
		; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: var_shuffle_v8i16_v8i16_xxxxxxxx_i16:		; SSE41-LABEL: var_shuffle_v8i16_v8i16_xxxxxxxx_i16:
; SSE41: # BB#0:		; SSE41: # BB#0:
; SSE41-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>		; SSE41-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>
; SSE41-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>		; SSE41-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>
; SSE41-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>		; SSE41-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
; SSE41-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>		; SSE41-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
; SSE41-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>		; SSE41-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>
; SSE41-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>		; SSE41-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
; SSE41-NEXT: andl $7, %edi		; SSE41-NEXT: andl $7, %edi
; SSE41-NEXT: andl $7, %esi		; SSE41-NEXT: andl $7, %esi
; SSE41-NEXT: andl $7, %edx		; SSE41-NEXT: andl $7, %edx
; SSE41-NEXT: andl $7, %ecx		; SSE41-NEXT: andl $7, %ecx
; SSE41-NEXT: andl $7, %r8d		; SSE41-NEXT: andl $7, %r8d
; SSE41-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSE41-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSE41-NEXT: andl $7, %r9d		; SSE41-NEXT: andl $7, %r9d
; SSE41-NEXT: movzwl {{[0-9]+}}(%rsp), %r10d		; SSE41-NEXT: movzwl {{[0-9]+}}(%rsp), %r10d
; SSE41-NEXT: andl $7, %r10d		; SSE41-NEXT: andl $7, %r10d
; SSE41-NEXT: movzwl {{[0-9]+}}(%rsp), %eax		; SSE41-NEXT: movzwl {{[0-9]+}}(%rsp), %eax
; SSE41-NEXT: andl $7, %eax		; SSE41-NEXT: andl $7, %eax
; SSE41-NEXT: movzwl -24(%rsp,%r10,2), %r10d
; SSE41-NEXT: movzwl -24(%rsp,%rax,2), %eax
; SSE41-NEXT: movzwl -24(%rsp,%rdi,2), %edi		; SSE41-NEXT: movzwl -24(%rsp,%rdi,2), %edi
; SSE41-NEXT: movd %edi, %xmm0		; SSE41-NEXT: movd %edi, %xmm0
; SSE41-NEXT: pinsrw $1, -24(%rsp,%rsi,2), %xmm0		; SSE41-NEXT: pinsrw $1, -24(%rsp,%rsi,2), %xmm0
; SSE41-NEXT: pinsrw $2, -24(%rsp,%rdx,2), %xmm0		; SSE41-NEXT: pinsrw $2, -24(%rsp,%rdx,2), %xmm0
; SSE41-NEXT: pinsrw $3, -24(%rsp,%rcx,2), %xmm0		; SSE41-NEXT: pinsrw $3, -24(%rsp,%rcx,2), %xmm0
; SSE41-NEXT: pinsrw $4, -24(%rsp,%r8,2), %xmm0		; SSE41-NEXT: pinsrw $4, -24(%rsp,%r8,2), %xmm0
; SSE41-NEXT: pinsrw $5, -24(%rsp,%r9,2), %xmm0		; SSE41-NEXT: pinsrw $5, -24(%rsp,%r9,2), %xmm0
; SSE41-NEXT: pinsrw $6, %r10d, %xmm0		; SSE41-NEXT: pinsrw $6, -24(%rsp,%r10,2), %xmm0
; SSE41-NEXT: pinsrw $7, %eax, %xmm0		; SSE41-NEXT: pinsrw $7, -24(%rsp,%rax,2), %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX-LABEL: var_shuffle_v8i16_v8i16_xxxxxxxx_i16:		; AVX-LABEL: var_shuffle_v8i16_v8i16_xxxxxxxx_i16:
; AVX: # BB#0:		; AVX: # BB#0:
; AVX-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>		; AVX-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>
; AVX-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>		; AVX-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>
; AVX-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>		; AVX-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
; AVX-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>		; AVX-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
; AVX-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>		; AVX-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>
; AVX-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>		; AVX-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
; AVX-NEXT: andl $7, %edi		; AVX-NEXT: andl $7, %edi
; AVX-NEXT: andl $7, %esi		; AVX-NEXT: andl $7, %esi
; AVX-NEXT: andl $7, %edx		; AVX-NEXT: andl $7, %edx
; AVX-NEXT: andl $7, %ecx		; AVX-NEXT: andl $7, %ecx
; AVX-NEXT: andl $7, %r8d		; AVX-NEXT: andl $7, %r8d
; AVX-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)		; AVX-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)
; AVX-NEXT: andl $7, %r9d		; AVX-NEXT: andl $7, %r9d
; AVX-NEXT: movzwl {{[0-9]+}}(%rsp), %r10d		; AVX-NEXT: movzwl {{[0-9]+}}(%rsp), %r10d
; AVX-NEXT: andl $7, %r10d		; AVX-NEXT: andl $7, %r10d
; AVX-NEXT: movzwl {{[0-9]+}}(%rsp), %eax		; AVX-NEXT: movzwl {{[0-9]+}}(%rsp), %eax
; AVX-NEXT: andl $7, %eax		; AVX-NEXT: andl $7, %eax
; AVX-NEXT: movzwl -24(%rsp,%r10,2), %r10d
; AVX-NEXT: movzwl -24(%rsp,%rax,2), %eax
; AVX-NEXT: movzwl -24(%rsp,%rdi,2), %edi		; AVX-NEXT: movzwl -24(%rsp,%rdi,2), %edi
; AVX-NEXT: vmovd %edi, %xmm0		; AVX-NEXT: vmovd %edi, %xmm0
; AVX-NEXT: vpinsrw $1, -24(%rsp,%rsi,2), %xmm0, %xmm0		; AVX-NEXT: vpinsrw $1, -24(%rsp,%rsi,2), %xmm0, %xmm0
; AVX-NEXT: vpinsrw $2, -24(%rsp,%rdx,2), %xmm0, %xmm0		; AVX-NEXT: vpinsrw $2, -24(%rsp,%rdx,2), %xmm0, %xmm0
; AVX-NEXT: vpinsrw $3, -24(%rsp,%rcx,2), %xmm0, %xmm0		; AVX-NEXT: vpinsrw $3, -24(%rsp,%rcx,2), %xmm0, %xmm0
; AVX-NEXT: vpinsrw $4, -24(%rsp,%r8,2), %xmm0, %xmm0		; AVX-NEXT: vpinsrw $4, -24(%rsp,%r8,2), %xmm0, %xmm0
; AVX-NEXT: vpinsrw $5, -24(%rsp,%r9,2), %xmm0, %xmm0		; AVX-NEXT: vpinsrw $5, -24(%rsp,%r9,2), %xmm0, %xmm0
; AVX-NEXT: vpinsrw $6, %r10d, %xmm0, %xmm0		; AVX-NEXT: vpinsrw $6, -24(%rsp,%r10,2), %xmm0, %xmm0
; AVX-NEXT: vpinsrw $7, %eax, %xmm0, %xmm0		; AVX-NEXT: vpinsrw $7, -24(%rsp,%rax,2), %xmm0, %xmm0
; AVX-NEXT: retq		; AVX-NEXT: retq
%x0 = extractelement <8 x i16> %x, i16 %i0		%x0 = extractelement <8 x i16> %x, i16 %i0
%x1 = extractelement <8 x i16> %x, i16 %i1		%x1 = extractelement <8 x i16> %x, i16 %i1
%x2 = extractelement <8 x i16> %x, i16 %i2		%x2 = extractelement <8 x i16> %x, i16 %i2
%x3 = extractelement <8 x i16> %x, i16 %i3		%x3 = extractelement <8 x i16> %x, i16 %i3
%x4 = extractelement <8 x i16> %x, i16 %i4		%x4 = extractelement <8 x i16> %x, i16 %i4
%x5 = extractelement <8 x i16> %x, i16 %i5		%x5 = extractelement <8 x i16> %x, i16 %i5
%x6 = extractelement <8 x i16> %x, i16 %i6		%x6 = extractelement <8 x i16> %x, i16 %i6
Show All 14 Lines
; SSE2: # BB#0:		; SSE2: # BB#0:
; SSE2-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>		; SSE2-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>
; SSE2-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>		; SSE2-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>
; SSE2-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>		; SSE2-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
; SSE2-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>		; SSE2-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
; SSE2-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>		; SSE2-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>
; SSE2-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>		; SSE2-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %r10d
; SSE2-NEXT: andl $15, %r10d
; SSE2-NEXT: leaq -{{[0-9]+}}(%rsp), %r11
; SSE2-NEXT: movzbl (%r10,%r11), %eax
; SSE2-NEXT: movd %eax, %xmm15
; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax		; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
; SSE2-NEXT: andl $15, %eax		; SSE2-NEXT: andl $15, %eax
; SSE2-NEXT: movzbl (%rax,%r11), %eax		; SSE2-NEXT: leaq -{{[0-9]+}}(%rsp), %r10
		; SSE2-NEXT: movzbl (%rax,%r10), %eax
; SSE2-NEXT: movd %eax, %xmm8		; SSE2-NEXT: movd %eax, %xmm8
; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax		; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
; SSE2-NEXT: andl $15, %eax		; SSE2-NEXT: andl $15, %eax
; SSE2-NEXT: movzbl (%rax,%r11), %eax		; SSE2-NEXT: movzbl (%rax,%r10), %eax
		; SSE2-NEXT: movd %eax, %xmm15
		; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
		; SSE2-NEXT: andl $15, %eax
		; SSE2-NEXT: movzbl (%rax,%r10), %eax
; SSE2-NEXT: movd %eax, %xmm9		; SSE2-NEXT: movd %eax, %xmm9
; SSE2-NEXT: andl $15, %edx		; SSE2-NEXT: andl $15, %ecx
; SSE2-NEXT: movzbl (%rdx,%r11), %eax		; SSE2-NEXT: movzbl (%rcx,%r10), %eax
; SSE2-NEXT: movd %eax, %xmm3		; SSE2-NEXT: movd %eax, %xmm3
; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax		; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
; SSE2-NEXT: andl $15, %eax		; SSE2-NEXT: andl $15, %eax
; SSE2-NEXT: movzbl (%rax,%r11), %eax		; SSE2-NEXT: movzbl (%rax,%r10), %eax
; SSE2-NEXT: movd %eax, %xmm10		; SSE2-NEXT: movd %eax, %xmm10
; SSE2-NEXT: andl $15, %edi		; SSE2-NEXT: andl $15, %r9d
; SSE2-NEXT: movzbl (%rdi,%r11), %eax		; SSE2-NEXT: movzbl (%r9,%r10), %eax
; SSE2-NEXT: movd %eax, %xmm0		; SSE2-NEXT: movd %eax, %xmm7
; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax		; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
; SSE2-NEXT: andl $15, %eax		; SSE2-NEXT: andl $15, %eax
; SSE2-NEXT: movzbl (%rax,%r11), %eax		; SSE2-NEXT: movzbl (%rax,%r10), %eax
; SSE2-NEXT: movd %eax, %xmm11		; SSE2-NEXT: movd %eax, %xmm11
; SSE2-NEXT: andl $15, %r8d		; SSE2-NEXT: andl $15, %esi
; SSE2-NEXT: movzbl (%r8,%r11), %eax		; SSE2-NEXT: movzbl (%rsi,%r10), %eax
; SSE2-NEXT: movd %eax, %xmm7		; SSE2-NEXT: movd %eax, %xmm6
; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax		; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
; SSE2-NEXT: andl $15, %eax		; SSE2-NEXT: andl $15, %eax
; SSE2-NEXT: movzbl (%rax,%r11), %eax		; SSE2-NEXT: movzbl (%rax,%r10), %eax
; SSE2-NEXT: movd %eax, %xmm2		; SSE2-NEXT: movd %eax, %xmm12
; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax		; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
; SSE2-NEXT: andl $15, %eax		; SSE2-NEXT: andl $15, %eax
; SSE2-NEXT: movzbl (%rax,%r11), %eax		; SSE2-NEXT: movzbl (%rax,%r10), %eax
; SSE2-NEXT: movd %eax, %xmm12		; SSE2-NEXT: movd %eax, %xmm5
; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax		; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
; SSE2-NEXT: andl $15, %eax		; SSE2-NEXT: andl $15, %eax
; SSE2-NEXT: movzbl (%rax,%r11), %eax		; SSE2-NEXT: movzbl (%rax,%r10), %eax
; SSE2-NEXT: movd %eax, %xmm13		; SSE2-NEXT: movd %eax, %xmm13
; SSE2-NEXT: andl $15, %ecx		; SSE2-NEXT: andl $15, %edx
; SSE2-NEXT: movzbl (%rcx,%r11), %eax		; SSE2-NEXT: movzbl (%rdx,%r10), %eax
; SSE2-NEXT: movd %eax, %xmm6		; SSE2-NEXT: movd %eax, %xmm4
; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax		; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
; SSE2-NEXT: andl $15, %eax		; SSE2-NEXT: andl $15, %eax
; SSE2-NEXT: movzbl (%rax,%r11), %eax		; SSE2-NEXT: movzbl (%rax,%r10), %eax
; SSE2-NEXT: movd %eax, %xmm14		; SSE2-NEXT: movd %eax, %xmm14
; SSE2-NEXT: andl $15, %esi		; SSE2-NEXT: andl $15, %r8d
; SSE2-NEXT: movzbl (%rsi,%r11), %eax		; SSE2-NEXT: movzbl (%r8,%r10), %eax
; SSE2-NEXT: movd %eax, %xmm5		; SSE2-NEXT: movd %eax, %xmm1
; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax		; SSE2-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
; SSE2-NEXT: andl $15, %eax		; SSE2-NEXT: andl $15, %eax
; SSE2-NEXT: movzbl (%rax,%r11), %eax		; SSE2-NEXT: movzbl (%rax,%r10), %eax
; SSE2-NEXT: movd %eax, %xmm4		; SSE2-NEXT: movd %eax, %xmm2
; SSE2-NEXT: andl $15, %r9d		; SSE2-NEXT: andl $15, %edi
; SSE2-NEXT: movzbl (%r9,%r11), %eax		; SSE2-NEXT: movzbl (%rdi,%r10), %eax
; SSE2-NEXT: movd %eax, %xmm1		; SSE2-NEXT: movd %eax, %xmm0
; SSE2-NEXT: punpcklbw {{.*#+}} xmm15 = xmm15[0],xmm8[0],xmm15[1],xmm8[1],xmm15[2],xmm8[2],xmm15[3],xmm8[3],xmm15[4],xmm8[4],xmm15[5],xmm8[5],xmm15[6],xmm8[6],xmm15[7],xmm8[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm15 = xmm15[0],xmm8[0],xmm15[1],xmm8[1],xmm15[2],xmm8[2],xmm15[3],xmm8[3],xmm15[4],xmm8[4],xmm15[5],xmm8[5],xmm15[6],xmm8[6],xmm15[7],xmm8[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm9[0],xmm3[1],xmm9[1],xmm3[2],xmm9[2],xmm3[3],xmm9[3],xmm3[4],xmm9[4],xmm3[5],xmm9[5],xmm3[6],xmm9[6],xmm3[7],xmm9[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm9[0],xmm3[1],xmm9[1],xmm3[2],xmm9[2],xmm3[3],xmm9[3],xmm3[4],xmm9[4],xmm3[5],xmm9[5],xmm3[6],xmm9[6],xmm3[7],xmm9[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm15[0],xmm3[1],xmm15[1],xmm3[2],xmm15[2],xmm3[3],xmm15[3],xmm3[4],xmm15[4],xmm3[5],xmm15[5],xmm3[6],xmm15[6],xmm3[7],xmm15[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm15[0],xmm3[1],xmm15[1],xmm3[2],xmm15[2],xmm3[3],xmm15[3],xmm3[4],xmm15[4],xmm3[5],xmm15[5],xmm3[6],xmm15[6],xmm3[7],xmm15[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm10[0],xmm0[1],xmm10[1],xmm0[2],xmm10[2],xmm0[3],xmm10[3],xmm0[4],xmm10[4],xmm0[5],xmm10[5],xmm0[6],xmm10[6],xmm0[7],xmm10[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm7 = xmm7[0],xmm10[0],xmm7[1],xmm10[1],xmm7[2],xmm10[2],xmm7[3],xmm10[3],xmm7[4],xmm10[4],xmm7[5],xmm10[5],xmm7[6],xmm10[6],xmm7[7],xmm10[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm7 = xmm7[0],xmm11[0],xmm7[1],xmm11[1],xmm7[2],xmm11[2],xmm7[3],xmm11[3],xmm7[4],xmm11[4],xmm7[5],xmm11[5],xmm7[6],xmm11[6],xmm7[7],xmm11[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm11[0],xmm6[1],xmm11[1],xmm6[2],xmm11[2],xmm6[3],xmm11[3],xmm6[4],xmm11[4],xmm6[5],xmm11[5],xmm6[6],xmm11[6],xmm6[7],xmm11[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm7[0],xmm0[1],xmm7[1],xmm0[2],xmm7[2],xmm0[3],xmm7[3],xmm0[4],xmm7[4],xmm0[5],xmm7[5],xmm0[6],xmm7[6],xmm0[7],xmm7[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm7[0],xmm6[1],xmm7[1],xmm6[2],xmm7[2],xmm6[3],xmm7[3],xmm6[4],xmm7[4],xmm6[5],xmm7[5],xmm6[6],xmm7[6],xmm6[7],xmm7[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm3[0],xmm6[1],xmm3[1],xmm6[2],xmm3[2],xmm6[3],xmm3[3],xmm6[4],xmm3[4],xmm6[5],xmm3[5],xmm6[6],xmm3[6],xmm6[7],xmm3[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm12[0],xmm2[1],xmm12[1],xmm2[2],xmm12[2],xmm2[3],xmm12[3],xmm2[4],xmm12[4],xmm2[5],xmm12[5],xmm2[6],xmm12[6],xmm2[7],xmm12[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm12[0],xmm5[1],xmm12[1],xmm5[2],xmm12[2],xmm5[3],xmm12[3],xmm5[4],xmm12[4],xmm5[5],xmm12[5],xmm5[6],xmm12[6],xmm5[7],xmm12[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm13[0],xmm6[1],xmm13[1],xmm6[2],xmm13[2],xmm6[3],xmm13[3],xmm6[4],xmm13[4],xmm6[5],xmm13[5],xmm6[6],xmm13[6],xmm6[7],xmm13[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm13[0],xmm4[1],xmm13[1],xmm4[2],xmm13[2],xmm4[3],xmm13[3],xmm4[4],xmm13[4],xmm4[5],xmm13[5],xmm4[6],xmm13[6],xmm4[7],xmm13[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm2[0],xmm6[1],xmm2[1],xmm6[2],xmm2[2],xmm6[3],xmm2[3],xmm6[4],xmm2[4],xmm6[5],xmm2[5],xmm6[6],xmm2[6],xmm6[7],xmm2[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1],xmm4[2],xmm5[2],xmm4[3],xmm5[3],xmm4[4],xmm5[4],xmm4[5],xmm5[5],xmm4[6],xmm5[6],xmm4[7],xmm5[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm14[0],xmm5[1],xmm14[1],xmm5[2],xmm14[2],xmm5[3],xmm14[3],xmm5[4],xmm14[4],xmm5[5],xmm14[5],xmm5[6],xmm14[6],xmm5[7],xmm14[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm14[0],xmm1[1],xmm14[1],xmm1[2],xmm14[2],xmm1[3],xmm14[3],xmm1[4],xmm14[4],xmm1[5],xmm14[5],xmm1[6],xmm14[6],xmm1[7],xmm14[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1],xmm1[2],xmm4[2],xmm1[3],xmm4[3],xmm1[4],xmm4[4],xmm1[5],xmm4[5],xmm1[6],xmm4[6],xmm1[7],xmm4[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm1[0],xmm5[1],xmm1[1],xmm5[2],xmm1[2],xmm5[3],xmm1[3],xmm5[4],xmm1[4],xmm5[5],xmm1[5],xmm5[6],xmm1[6],xmm5[7],xmm1[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm6[0],xmm5[1],xmm6[1],xmm5[2],xmm6[2],xmm5[3],xmm6[3],xmm5[4],xmm6[4],xmm5[5],xmm6[5],xmm5[6],xmm6[6],xmm5[7],xmm6[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm5[0],xmm0[1],xmm5[1],xmm0[2],xmm5[2],xmm0[3],xmm5[3],xmm0[4],xmm5[4],xmm0[5],xmm5[5],xmm0[6],xmm5[6],xmm0[7],xmm5[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1],xmm0[2],xmm6[2],xmm0[3],xmm6[3],xmm0[4],xmm6[4],xmm0[5],xmm6[5],xmm0[6],xmm6[6],xmm0[7],xmm6[7]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: var_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8:		; SSSE3-LABEL: var_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8:
; SSSE3: # BB#0:		; SSSE3: # BB#0:
; SSSE3-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>		; SSSE3-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>
; SSSE3-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>		; SSSE3-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>
; SSSE3-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>		; SSSE3-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
; SSSE3-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>		; SSSE3-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
; SSSE3-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>		; SSSE3-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>
; SSSE3-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>		; SSSE3-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %r10d
; SSSE3-NEXT: andl $15, %r10d
; SSSE3-NEXT: leaq -{{[0-9]+}}(%rsp), %r11
; SSSE3-NEXT: movzbl (%r10,%r11), %eax
; SSSE3-NEXT: movd %eax, %xmm15
; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax		; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
; SSSE3-NEXT: andl $15, %eax		; SSSE3-NEXT: andl $15, %eax
; SSSE3-NEXT: movzbl (%rax,%r11), %eax		; SSSE3-NEXT: leaq -{{[0-9]+}}(%rsp), %r10
		; SSSE3-NEXT: movzbl (%rax,%r10), %eax
; SSSE3-NEXT: movd %eax, %xmm8		; SSSE3-NEXT: movd %eax, %xmm8
; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax		; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
; SSSE3-NEXT: andl $15, %eax		; SSSE3-NEXT: andl $15, %eax
; SSSE3-NEXT: movzbl (%rax,%r11), %eax		; SSSE3-NEXT: movzbl (%rax,%r10), %eax
		; SSSE3-NEXT: movd %eax, %xmm15
		; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
		; SSSE3-NEXT: andl $15, %eax
		; SSSE3-NEXT: movzbl (%rax,%r10), %eax
; SSSE3-NEXT: movd %eax, %xmm9		; SSSE3-NEXT: movd %eax, %xmm9
; SSSE3-NEXT: andl $15, %edx		; SSSE3-NEXT: andl $15, %ecx
; SSSE3-NEXT: movzbl (%rdx,%r11), %eax		; SSSE3-NEXT: movzbl (%rcx,%r10), %eax
; SSSE3-NEXT: movd %eax, %xmm3		; SSSE3-NEXT: movd %eax, %xmm3
; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax		; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
; SSSE3-NEXT: andl $15, %eax		; SSSE3-NEXT: andl $15, %eax
; SSSE3-NEXT: movzbl (%rax,%r11), %eax		; SSSE3-NEXT: movzbl (%rax,%r10), %eax
; SSSE3-NEXT: movd %eax, %xmm10		; SSSE3-NEXT: movd %eax, %xmm10
; SSSE3-NEXT: andl $15, %edi		; SSSE3-NEXT: andl $15, %r9d
; SSSE3-NEXT: movzbl (%rdi,%r11), %eax		; SSSE3-NEXT: movzbl (%r9,%r10), %eax
; SSSE3-NEXT: movd %eax, %xmm0		; SSSE3-NEXT: movd %eax, %xmm7
; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax		; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
; SSSE3-NEXT: andl $15, %eax		; SSSE3-NEXT: andl $15, %eax
; SSSE3-NEXT: movzbl (%rax,%r11), %eax		; SSSE3-NEXT: movzbl (%rax,%r10), %eax
; SSSE3-NEXT: movd %eax, %xmm11		; SSSE3-NEXT: movd %eax, %xmm11
; SSSE3-NEXT: andl $15, %r8d		; SSSE3-NEXT: andl $15, %esi
; SSSE3-NEXT: movzbl (%r8,%r11), %eax		; SSSE3-NEXT: movzbl (%rsi,%r10), %eax
; SSSE3-NEXT: movd %eax, %xmm7		; SSSE3-NEXT: movd %eax, %xmm6
; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax		; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
; SSSE3-NEXT: andl $15, %eax		; SSSE3-NEXT: andl $15, %eax
; SSSE3-NEXT: movzbl (%rax,%r11), %eax		; SSSE3-NEXT: movzbl (%rax,%r10), %eax
; SSSE3-NEXT: movd %eax, %xmm2		; SSSE3-NEXT: movd %eax, %xmm12
; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax		; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
; SSSE3-NEXT: andl $15, %eax		; SSSE3-NEXT: andl $15, %eax
; SSSE3-NEXT: movzbl (%rax,%r11), %eax		; SSSE3-NEXT: movzbl (%rax,%r10), %eax
; SSSE3-NEXT: movd %eax, %xmm12		; SSSE3-NEXT: movd %eax, %xmm5
; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax		; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
; SSSE3-NEXT: andl $15, %eax		; SSSE3-NEXT: andl $15, %eax
; SSSE3-NEXT: movzbl (%rax,%r11), %eax		; SSSE3-NEXT: movzbl (%rax,%r10), %eax
; SSSE3-NEXT: movd %eax, %xmm13		; SSSE3-NEXT: movd %eax, %xmm13
; SSSE3-NEXT: andl $15, %ecx		; SSSE3-NEXT: andl $15, %edx
; SSSE3-NEXT: movzbl (%rcx,%r11), %eax		; SSSE3-NEXT: movzbl (%rdx,%r10), %eax
; SSSE3-NEXT: movd %eax, %xmm6		; SSSE3-NEXT: movd %eax, %xmm4
; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax		; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
; SSSE3-NEXT: andl $15, %eax		; SSSE3-NEXT: andl $15, %eax
; SSSE3-NEXT: movzbl (%rax,%r11), %eax		; SSSE3-NEXT: movzbl (%rax,%r10), %eax
; SSSE3-NEXT: movd %eax, %xmm14		; SSSE3-NEXT: movd %eax, %xmm14
; SSSE3-NEXT: andl $15, %esi		; SSSE3-NEXT: andl $15, %r8d
; SSSE3-NEXT: movzbl (%rsi,%r11), %eax		; SSSE3-NEXT: movzbl (%r8,%r10), %eax
; SSSE3-NEXT: movd %eax, %xmm5		; SSSE3-NEXT: movd %eax, %xmm1
; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax		; SSSE3-NEXT: movzbl {{[0-9]+}}(%rsp), %eax
; SSSE3-NEXT: andl $15, %eax		; SSSE3-NEXT: andl $15, %eax
; SSSE3-NEXT: movzbl (%rax,%r11), %eax		; SSSE3-NEXT: movzbl (%rax,%r10), %eax
; SSSE3-NEXT: movd %eax, %xmm4		; SSSE3-NEXT: movd %eax, %xmm2
; SSSE3-NEXT: andl $15, %r9d		; SSSE3-NEXT: andl $15, %edi
; SSSE3-NEXT: movzbl (%r9,%r11), %eax		; SSSE3-NEXT: movzbl (%rdi,%r10), %eax
; SSSE3-NEXT: movd %eax, %xmm1		; SSSE3-NEXT: movd %eax, %xmm0
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm15 = xmm15[0],xmm8[0],xmm15[1],xmm8[1],xmm15[2],xmm8[2],xmm15[3],xmm8[3],xmm15[4],xmm8[4],xmm15[5],xmm8[5],xmm15[6],xmm8[6],xmm15[7],xmm8[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm15 = xmm15[0],xmm8[0],xmm15[1],xmm8[1],xmm15[2],xmm8[2],xmm15[3],xmm8[3],xmm15[4],xmm8[4],xmm15[5],xmm8[5],xmm15[6],xmm8[6],xmm15[7],xmm8[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm9[0],xmm3[1],xmm9[1],xmm3[2],xmm9[2],xmm3[3],xmm9[3],xmm3[4],xmm9[4],xmm3[5],xmm9[5],xmm3[6],xmm9[6],xmm3[7],xmm9[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm9[0],xmm3[1],xmm9[1],xmm3[2],xmm9[2],xmm3[3],xmm9[3],xmm3[4],xmm9[4],xmm3[5],xmm9[5],xmm3[6],xmm9[6],xmm3[7],xmm9[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm15[0],xmm3[1],xmm15[1],xmm3[2],xmm15[2],xmm3[3],xmm15[3],xmm3[4],xmm15[4],xmm3[5],xmm15[5],xmm3[6],xmm15[6],xmm3[7],xmm15[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm15[0],xmm3[1],xmm15[1],xmm3[2],xmm15[2],xmm3[3],xmm15[3],xmm3[4],xmm15[4],xmm3[5],xmm15[5],xmm3[6],xmm15[6],xmm3[7],xmm15[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm10[0],xmm0[1],xmm10[1],xmm0[2],xmm10[2],xmm0[3],xmm10[3],xmm0[4],xmm10[4],xmm0[5],xmm10[5],xmm0[6],xmm10[6],xmm0[7],xmm10[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm7 = xmm7[0],xmm10[0],xmm7[1],xmm10[1],xmm7[2],xmm10[2],xmm7[3],xmm10[3],xmm7[4],xmm10[4],xmm7[5],xmm10[5],xmm7[6],xmm10[6],xmm7[7],xmm10[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm7 = xmm7[0],xmm11[0],xmm7[1],xmm11[1],xmm7[2],xmm11[2],xmm7[3],xmm11[3],xmm7[4],xmm11[4],xmm7[5],xmm11[5],xmm7[6],xmm11[6],xmm7[7],xmm11[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm11[0],xmm6[1],xmm11[1],xmm6[2],xmm11[2],xmm6[3],xmm11[3],xmm6[4],xmm11[4],xmm6[5],xmm11[5],xmm6[6],xmm11[6],xmm6[7],xmm11[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm7[0],xmm0[1],xmm7[1],xmm0[2],xmm7[2],xmm0[3],xmm7[3],xmm0[4],xmm7[4],xmm0[5],xmm7[5],xmm0[6],xmm7[6],xmm0[7],xmm7[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm7[0],xmm6[1],xmm7[1],xmm6[2],xmm7[2],xmm6[3],xmm7[3],xmm6[4],xmm7[4],xmm6[5],xmm7[5],xmm6[6],xmm7[6],xmm6[7],xmm7[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm3[0],xmm6[1],xmm3[1],xmm6[2],xmm3[2],xmm6[3],xmm3[3],xmm6[4],xmm3[4],xmm6[5],xmm3[5],xmm6[6],xmm3[6],xmm6[7],xmm3[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm12[0],xmm2[1],xmm12[1],xmm2[2],xmm12[2],xmm2[3],xmm12[3],xmm2[4],xmm12[4],xmm2[5],xmm12[5],xmm2[6],xmm12[6],xmm2[7],xmm12[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm12[0],xmm5[1],xmm12[1],xmm5[2],xmm12[2],xmm5[3],xmm12[3],xmm5[4],xmm12[4],xmm5[5],xmm12[5],xmm5[6],xmm12[6],xmm5[7],xmm12[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm13[0],xmm6[1],xmm13[1],xmm6[2],xmm13[2],xmm6[3],xmm13[3],xmm6[4],xmm13[4],xmm6[5],xmm13[5],xmm6[6],xmm13[6],xmm6[7],xmm13[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm13[0],xmm4[1],xmm13[1],xmm4[2],xmm13[2],xmm4[3],xmm13[3],xmm4[4],xmm13[4],xmm4[5],xmm13[5],xmm4[6],xmm13[6],xmm4[7],xmm13[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm2[0],xmm6[1],xmm2[1],xmm6[2],xmm2[2],xmm6[3],xmm2[3],xmm6[4],xmm2[4],xmm6[5],xmm2[5],xmm6[6],xmm2[6],xmm6[7],xmm2[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1],xmm4[2],xmm5[2],xmm4[3],xmm5[3],xmm4[4],xmm5[4],xmm4[5],xmm5[5],xmm4[6],xmm5[6],xmm4[7],xmm5[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm14[0],xmm5[1],xmm14[1],xmm5[2],xmm14[2],xmm5[3],xmm14[3],xmm5[4],xmm14[4],xmm5[5],xmm14[5],xmm5[6],xmm14[6],xmm5[7],xmm14[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm14[0],xmm1[1],xmm14[1],xmm1[2],xmm14[2],xmm1[3],xmm14[3],xmm1[4],xmm14[4],xmm1[5],xmm14[5],xmm1[6],xmm14[6],xmm1[7],xmm14[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1],xmm1[2],xmm4[2],xmm1[3],xmm4[3],xmm1[4],xmm4[4],xmm1[5],xmm4[5],xmm1[6],xmm4[6],xmm1[7],xmm4[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm1[0],xmm5[1],xmm1[1],xmm5[2],xmm1[2],xmm5[3],xmm1[3],xmm5[4],xmm1[4],xmm5[5],xmm1[5],xmm5[6],xmm1[6],xmm5[7],xmm1[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm6[0],xmm5[1],xmm6[1],xmm5[2],xmm6[2],xmm5[3],xmm6[3],xmm5[4],xmm6[4],xmm5[5],xmm6[5],xmm5[6],xmm6[6],xmm5[7],xmm6[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm5[0],xmm0[1],xmm5[1],xmm0[2],xmm5[2],xmm0[3],xmm5[3],xmm0[4],xmm5[4],xmm0[5],xmm5[5],xmm0[6],xmm5[6],xmm0[7],xmm5[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1],xmm0[2],xmm6[2],xmm0[3],xmm6[3],xmm0[4],xmm6[4],xmm0[5],xmm6[5],xmm0[6],xmm6[6],xmm0[7],xmm6[7]
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: var_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8:		; SSE41-LABEL: var_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8:
; SSE41: # BB#0:		; SSE41: # BB#0:
; SSE41-NEXT: pushq %rbp
; SSE41-NEXT: pushq %r15
; SSE41-NEXT: pushq %r14
; SSE41-NEXT: pushq %r12
; SSE41-NEXT: pushq %rbx
; SSE41-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>		; SSE41-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>
; SSE41-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>		; SSE41-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>
; SSE41-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>		; SSE41-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
; SSE41-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>		; SSE41-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
; SSE41-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>		; SSE41-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>
; SSE41-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>		; SSE41-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
; SSE41-NEXT: andl $15, %edi		; SSE41-NEXT: andl $15, %edi
; SSE41-NEXT: andl $15, %esi
; SSE41-NEXT: andl $15, %edx
; SSE41-NEXT: andl $15, %ecx
; SSE41-NEXT: andl $15, %r8d
; SSE41-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSE41-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSE41-NEXT: andl $15, %r9d
; SSE41-NEXT: movzbl {{[0-9]+}}(%rsp), %r10d
; SSE41-NEXT: andl $15, %r10d
; SSE41-NEXT: movzbl {{[0-9]+}}(%rsp), %r11d
; SSE41-NEXT: andl $15, %r11d
; SSE41-NEXT: movzbl {{[0-9]+}}(%rsp), %r14d
; SSE41-NEXT: andl $15, %r14d
; SSE41-NEXT: movzbl {{[0-9]+}}(%rsp), %r15d
; SSE41-NEXT: andl $15, %r15d
; SSE41-NEXT: leaq -{{[0-9]+}}(%rsp), %rax		; SSE41-NEXT: leaq -{{[0-9]+}}(%rsp), %rax
; SSE41-NEXT: movzbl (%rdi,%rax), %edi		; SSE41-NEXT: movzbl (%rdi,%rax), %edi
; SSE41-NEXT: movd %edi, %xmm0		; SSE41-NEXT: movd %edi, %xmm0
; SSE41-NEXT: movzbl {{[0-9]+}}(%rsp), %r12d
; SSE41-NEXT: andl $15, %r12d
; SSE41-NEXT: pinsrb $1, (%rsi,%rax), %xmm0
; SSE41-NEXT: movzbl {{[0-9]+}}(%rsp), %esi
; SSE41-NEXT: andl $15, %esi		; SSE41-NEXT: andl $15, %esi
; SSE41-NEXT: pinsrb $2, (%rdx,%rax), %xmm0		; SSE41-NEXT: pinsrb $1, (%rsi,%rax), %xmm0
; SSE41-NEXT: movzbl {{[0-9]+}}(%rsp), %edx
; SSE41-NEXT: andl $15, %edx		; SSE41-NEXT: andl $15, %edx
; SSE41-NEXT: pinsrb $3, (%rcx,%rax), %xmm0		; SSE41-NEXT: pinsrb $2, (%rdx,%rax), %xmm0
; SSE41-NEXT: movzbl {{[0-9]+}}(%rsp), %ecx
; SSE41-NEXT: andl $15, %ecx		; SSE41-NEXT: andl $15, %ecx
		; SSE41-NEXT: pinsrb $3, (%rcx,%rax), %xmm0
		; SSE41-NEXT: andl $15, %r8d
; SSE41-NEXT: pinsrb $4, (%r8,%rax), %xmm0		; SSE41-NEXT: pinsrb $4, (%r8,%rax), %xmm0
; SSE41-NEXT: movzbl {{[0-9]+}}(%rsp), %ebx		; SSE41-NEXT: andl $15, %r9d
; SSE41-NEXT: andl $15, %ebx
; SSE41-NEXT: pinsrb $5, (%r9,%rax), %xmm0		; SSE41-NEXT: pinsrb $5, (%r9,%rax), %xmm0
; SSE41-NEXT: movzbl {{[0-9]+}}(%rsp), %edi		; SSE41-NEXT: movzbl {{[0-9]+}}(%rsp), %ecx
; SSE41-NEXT: andl $15, %edi		; SSE41-NEXT: andl $15, %ecx
; SSE41-NEXT: movzbl (%r10,%rax), %r8d		; SSE41-NEXT: pinsrb $6, (%rcx,%rax), %xmm0
; SSE41-NEXT: movzbl (%r11,%rax), %r9d		; SSE41-NEXT: movzbl {{[0-9]+}}(%rsp), %ecx
; SSE41-NEXT: movzbl (%r14,%rax), %r10d		; SSE41-NEXT: andl $15, %ecx
; SSE41-NEXT: movzbl (%r15,%rax), %r11d		; SSE41-NEXT: pinsrb $7, (%rcx,%rax), %xmm0
; SSE41-NEXT: movzbl (%r12,%rax), %ebp		; SSE41-NEXT: movzbl {{[0-9]+}}(%rsp), %ecx
; SSE41-NEXT: movzbl (%rsi,%rax), %esi		; SSE41-NEXT: andl $15, %ecx
; SSE41-NEXT: movzbl (%rdx,%rax), %edx		; SSE41-NEXT: pinsrb $8, (%rcx,%rax), %xmm0
; SSE41-NEXT: movzbl (%rcx,%rax), %ecx		; SSE41-NEXT: movzbl {{[0-9]+}}(%rsp), %ecx
; SSE41-NEXT: movzbl (%rbx,%rax), %ebx		; SSE41-NEXT: andl $15, %ecx
; SSE41-NEXT: movzbl (%rdi,%rax), %eax		; SSE41-NEXT: pinsrb $9, (%rcx,%rax), %xmm0
; SSE41-NEXT: pinsrb $6, %r8d, %xmm0		; SSE41-NEXT: movzbl {{[0-9]+}}(%rsp), %ecx
; SSE41-NEXT: pinsrb $7, %r9d, %xmm0		; SSE41-NEXT: andl $15, %ecx
; SSE41-NEXT: pinsrb $8, %r10d, %xmm0		; SSE41-NEXT: pinsrb $10, (%rcx,%rax), %xmm0
; SSE41-NEXT: pinsrb $9, %r11d, %xmm0		; SSE41-NEXT: movzbl {{[0-9]+}}(%rsp), %ecx
; SSE41-NEXT: pinsrb $10, %ebp, %xmm0		; SSE41-NEXT: andl $15, %ecx
; SSE41-NEXT: pinsrb $11, %esi, %xmm0		; SSE41-NEXT: pinsrb $11, (%rcx,%rax), %xmm0
; SSE41-NEXT: pinsrb $12, %edx, %xmm0		; SSE41-NEXT: movzbl {{[0-9]+}}(%rsp), %ecx
; SSE41-NEXT: pinsrb $13, %ecx, %xmm0		; SSE41-NEXT: andl $15, %ecx
; SSE41-NEXT: pinsrb $14, %ebx, %xmm0		; SSE41-NEXT: pinsrb $12, (%rcx,%rax), %xmm0
; SSE41-NEXT: pinsrb $15, %eax, %xmm0		; SSE41-NEXT: movzbl {{[0-9]+}}(%rsp), %ecx
; SSE41-NEXT: popq %rbx		; SSE41-NEXT: andl $15, %ecx
; SSE41-NEXT: popq %r12		; SSE41-NEXT: pinsrb $13, (%rcx,%rax), %xmm0
; SSE41-NEXT: popq %r14		; SSE41-NEXT: movzbl {{[0-9]+}}(%rsp), %ecx
; SSE41-NEXT: popq %r15		; SSE41-NEXT: andl $15, %ecx
; SSE41-NEXT: popq %rbp		; SSE41-NEXT: pinsrb $14, (%rcx,%rax), %xmm0
		; SSE41-NEXT: movzbl {{[0-9]+}}(%rsp), %ecx
		; SSE41-NEXT: andl $15, %ecx
		; SSE41-NEXT: pinsrb $15, (%rcx,%rax), %xmm0
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX-LABEL: var_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8:		; AVX-LABEL: var_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8:
; AVX: # BB#0:		; AVX: # BB#0:
; AVX-NEXT: pushq %rbp
; AVX-NEXT: pushq %r15
; AVX-NEXT: pushq %r14
; AVX-NEXT: pushq %r12
; AVX-NEXT: pushq %rbx
; AVX-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>		; AVX-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>
; AVX-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>		; AVX-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>
; AVX-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>		; AVX-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
; AVX-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>		; AVX-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
; AVX-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>		; AVX-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>
; AVX-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>		; AVX-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
; AVX-NEXT: andl $15, %edi		; AVX-NEXT: andl $15, %edi
; AVX-NEXT: andl $15, %esi
; AVX-NEXT: andl $15, %edx
; AVX-NEXT: andl $15, %ecx
; AVX-NEXT: andl $15, %r8d
; AVX-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)		; AVX-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)
; AVX-NEXT: andl $15, %r9d
; AVX-NEXT: movzbl {{[0-9]+}}(%rsp), %r10d
; AVX-NEXT: andl $15, %r10d
; AVX-NEXT: movzbl {{[0-9]+}}(%rsp), %r11d
; AVX-NEXT: andl $15, %r11d
; AVX-NEXT: movzbl {{[0-9]+}}(%rsp), %r14d
; AVX-NEXT: andl $15, %r14d
; AVX-NEXT: movzbl {{[0-9]+}}(%rsp), %r15d
; AVX-NEXT: andl $15, %r15d
; AVX-NEXT: leaq -{{[0-9]+}}(%rsp), %rax		; AVX-NEXT: leaq -{{[0-9]+}}(%rsp), %rax
; AVX-NEXT: movzbl (%rdi,%rax), %edi		; AVX-NEXT: movzbl (%rdi,%rax), %edi
; AVX-NEXT: vmovd %edi, %xmm0		; AVX-NEXT: vmovd %edi, %xmm0
; AVX-NEXT: movzbl {{[0-9]+}}(%rsp), %r12d
; AVX-NEXT: andl $15, %r12d
; AVX-NEXT: vpinsrb $1, (%rsi,%rax), %xmm0, %xmm0
; AVX-NEXT: movzbl {{[0-9]+}}(%rsp), %esi
; AVX-NEXT: andl $15, %esi		; AVX-NEXT: andl $15, %esi
; AVX-NEXT: vpinsrb $2, (%rdx,%rax), %xmm0, %xmm0		; AVX-NEXT: vpinsrb $1, (%rsi,%rax), %xmm0, %xmm0
; AVX-NEXT: movzbl {{[0-9]+}}(%rsp), %edx
; AVX-NEXT: andl $15, %edx		; AVX-NEXT: andl $15, %edx
; AVX-NEXT: vpinsrb $3, (%rcx,%rax), %xmm0, %xmm0		; AVX-NEXT: vpinsrb $2, (%rdx,%rax), %xmm0, %xmm0
; AVX-NEXT: movzbl {{[0-9]+}}(%rsp), %ecx
; AVX-NEXT: andl $15, %ecx		; AVX-NEXT: andl $15, %ecx
		; AVX-NEXT: vpinsrb $3, (%rcx,%rax), %xmm0, %xmm0
		; AVX-NEXT: andl $15, %r8d
; AVX-NEXT: vpinsrb $4, (%r8,%rax), %xmm0, %xmm0		; AVX-NEXT: vpinsrb $4, (%r8,%rax), %xmm0, %xmm0
; AVX-NEXT: movzbl {{[0-9]+}}(%rsp), %ebx		; AVX-NEXT: andl $15, %r9d
; AVX-NEXT: andl $15, %ebx
; AVX-NEXT: vpinsrb $5, (%r9,%rax), %xmm0, %xmm0		; AVX-NEXT: vpinsrb $5, (%r9,%rax), %xmm0, %xmm0
; AVX-NEXT: movzbl {{[0-9]+}}(%rsp), %edi		; AVX-NEXT: movzbl {{[0-9]+}}(%rsp), %ecx
; AVX-NEXT: andl $15, %edi		; AVX-NEXT: andl $15, %ecx
; AVX-NEXT: movzbl (%r10,%rax), %r8d		; AVX-NEXT: vpinsrb $6, (%rcx,%rax), %xmm0, %xmm0
; AVX-NEXT: movzbl (%r11,%rax), %r9d		; AVX-NEXT: movzbl {{[0-9]+}}(%rsp), %ecx
; AVX-NEXT: movzbl (%r14,%rax), %r10d		; AVX-NEXT: andl $15, %ecx
; AVX-NEXT: movzbl (%r15,%rax), %r11d		; AVX-NEXT: vpinsrb $7, (%rcx,%rax), %xmm0, %xmm0
; AVX-NEXT: movzbl (%r12,%rax), %ebp		; AVX-NEXT: movzbl {{[0-9]+}}(%rsp), %ecx
; AVX-NEXT: movzbl (%rsi,%rax), %esi		; AVX-NEXT: andl $15, %ecx
; AVX-NEXT: movzbl (%rdx,%rax), %edx		; AVX-NEXT: vpinsrb $8, (%rcx,%rax), %xmm0, %xmm0
; AVX-NEXT: movzbl (%rcx,%rax), %ecx		; AVX-NEXT: movzbl {{[0-9]+}}(%rsp), %ecx
; AVX-NEXT: movzbl (%rbx,%rax), %ebx		; AVX-NEXT: andl $15, %ecx
; AVX-NEXT: movzbl (%rdi,%rax), %eax		; AVX-NEXT: vpinsrb $9, (%rcx,%rax), %xmm0, %xmm0
; AVX-NEXT: vpinsrb $6, %r8d, %xmm0, %xmm0		; AVX-NEXT: movzbl {{[0-9]+}}(%rsp), %ecx
; AVX-NEXT: vpinsrb $7, %r9d, %xmm0, %xmm0		; AVX-NEXT: andl $15, %ecx
; AVX-NEXT: vpinsrb $8, %r10d, %xmm0, %xmm0		; AVX-NEXT: vpinsrb $10, (%rcx,%rax), %xmm0, %xmm0
; AVX-NEXT: vpinsrb $9, %r11d, %xmm0, %xmm0		; AVX-NEXT: movzbl {{[0-9]+}}(%rsp), %ecx
; AVX-NEXT: vpinsrb $10, %ebp, %xmm0, %xmm0		; AVX-NEXT: andl $15, %ecx
; AVX-NEXT: vpinsrb $11, %esi, %xmm0, %xmm0		; AVX-NEXT: vpinsrb $11, (%rcx,%rax), %xmm0, %xmm0
; AVX-NEXT: vpinsrb $12, %edx, %xmm0, %xmm0		; AVX-NEXT: movzbl {{[0-9]+}}(%rsp), %ecx
; AVX-NEXT: vpinsrb $13, %ecx, %xmm0, %xmm0		; AVX-NEXT: andl $15, %ecx
; AVX-NEXT: vpinsrb $14, %ebx, %xmm0, %xmm0		; AVX-NEXT: vpinsrb $12, (%rcx,%rax), %xmm0, %xmm0
; AVX-NEXT: vpinsrb $15, %eax, %xmm0, %xmm0		; AVX-NEXT: movzbl {{[0-9]+}}(%rsp), %ecx
; AVX-NEXT: popq %rbx		; AVX-NEXT: andl $15, %ecx
; AVX-NEXT: popq %r12		; AVX-NEXT: vpinsrb $13, (%rcx,%rax), %xmm0, %xmm0
; AVX-NEXT: popq %r14		; AVX-NEXT: movzbl {{[0-9]+}}(%rsp), %ecx
; AVX-NEXT: popq %r15		; AVX-NEXT: andl $15, %ecx
; AVX-NEXT: popq %rbp		; AVX-NEXT: vpinsrb $14, (%rcx,%rax), %xmm0, %xmm0
		; AVX-NEXT: movzbl {{[0-9]+}}(%rsp), %ecx
		; AVX-NEXT: andl $15, %ecx
		; AVX-NEXT: vpinsrb $15, (%rcx,%rax), %xmm0, %xmm0
; AVX-NEXT: retq		; AVX-NEXT: retq
%x0 = extractelement <16 x i8> %x, i8 %i0		%x0 = extractelement <16 x i8> %x, i8 %i0
%x1 = extractelement <16 x i8> %x, i8 %i1		%x1 = extractelement <16 x i8> %x, i8 %i1
%x2 = extractelement <16 x i8> %x, i8 %i2		%x2 = extractelement <16 x i8> %x, i8 %i2
%x3 = extractelement <16 x i8> %x, i8 %i3		%x3 = extractelement <16 x i8> %x, i8 %i3
%x4 = extractelement <16 x i8> %x, i8 %i4		%x4 = extractelement <16 x i8> %x, i8 %i4
%x5 = extractelement <16 x i8> %x, i8 %i5		%x5 = extractelement <16 x i8> %x, i8 %i5
%x6 = extractelement <16 x i8> %x, i8 %i6		%x6 = extractelement <16 x i8> %x, i8 %i6
Show All 38 Lines
; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSE2-NEXT: andl $3, %ecx		; SSE2-NEXT: andl $3, %ecx
; SSE2-NEXT: movl 8(%rdi), %edx		; SSE2-NEXT: movl 8(%rdi), %edx
; SSE2-NEXT: andl $3, %edx		; SSE2-NEXT: andl $3, %edx
; SSE2-NEXT: movl 12(%rdi), %esi		; SSE2-NEXT: movl 12(%rdi), %esi
; SSE2-NEXT: andl $3, %esi		; SSE2-NEXT: andl $3, %esi
; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero		; SSE2-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
		; SSE2-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; SSE2-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero		; SSE2-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
		; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSE2-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero		; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE2-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: mem_shuffle_v4i32_v4i32_xxxx_i32:		; SSSE3-LABEL: mem_shuffle_v4i32_v4i32_xxxx_i32:
; SSSE3: # BB#0:		; SSSE3: # BB#0:
; SSSE3-NEXT: movl (%rdi), %eax		; SSSE3-NEXT: movl (%rdi), %eax
; SSSE3-NEXT: movl 4(%rdi), %ecx		; SSSE3-NEXT: movl 4(%rdi), %ecx
; SSSE3-NEXT: andl $3, %eax		; SSSE3-NEXT: andl $3, %eax
; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSSE3-NEXT: andl $3, %ecx		; SSSE3-NEXT: andl $3, %ecx
; SSSE3-NEXT: movl 8(%rdi), %edx		; SSSE3-NEXT: movl 8(%rdi), %edx
; SSSE3-NEXT: andl $3, %edx		; SSSE3-NEXT: andl $3, %edx
; SSSE3-NEXT: movl 12(%rdi), %esi		; SSSE3-NEXT: movl 12(%rdi), %esi
; SSSE3-NEXT: andl $3, %esi		; SSSE3-NEXT: andl $3, %esi
; SSSE3-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero		; SSSE3-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSSE3-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero		; SSSE3-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
		; SSSE3-NEXT: punpckldq {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1]
; SSSE3-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero		; SSSE3-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
		; SSSE3-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero
; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]		; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSSE3-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero		; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSSE3-NEXT: punpckldq {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1]
; SSSE3-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1]
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: mem_shuffle_v4i32_v4i32_xxxx_i32:		; SSE41-LABEL: mem_shuffle_v4i32_v4i32_xxxx_i32:
; SSE41: # BB#0:		; SSE41: # BB#0:
; SSE41-NEXT: movl (%rdi), %eax		; SSE41-NEXT: movl (%rdi), %eax
; SSE41-NEXT: movl 4(%rdi), %ecx		; SSE41-NEXT: movl 4(%rdi), %ecx
; SSE41-NEXT: andl $3, %eax		; SSE41-NEXT: andl $3, %eax
; SSE41-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSE41-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
%r3 = insertelement <4 x i32> %r2, i32 %x3, i32 3		%r3 = insertelement <4 x i32> %r2, i32 %x3, i32 3
ret <4 x i32> %r3		ret <4 x i32> %r3
}		}

define <16 x i8> @mem_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8(<16 x i8> %x, i8* %i) nounwind {		define <16 x i8> @mem_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8(<16 x i8> %x, i8* %i) nounwind {
; SSE2-LABEL: mem_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8:		; SSE2-LABEL: mem_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8:
; SSE2: # BB#0:		; SSE2: # BB#0:
; SSE2-NEXT: movzbl (%rdi), %eax		; SSE2-NEXT: movzbl (%rdi), %eax
; SSE2-NEXT: andl $15, %eax
; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
		; SSE2-NEXT: movzbl 15(%rdi), %edx
		; SSE2-NEXT: andl $15, %edx
; SSE2-NEXT: leaq -{{[0-9]+}}(%rsp), %rcx		; SSE2-NEXT: leaq -{{[0-9]+}}(%rsp), %rcx
; SSE2-NEXT: movzbl (%rax,%rcx), %eax		; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
; SSE2-NEXT: movd %eax, %xmm0		; SSE2-NEXT: movd %edx, %xmm8
; SSE2-NEXT: movzbl 8(%rdi), %eax		; SSE2-NEXT: movzbl 7(%rdi), %edx
; SSE2-NEXT: andl $15, %eax		; SSE2-NEXT: andl $15, %edx
; SSE2-NEXT: movzbl (%rax,%rcx), %eax		; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
; SSE2-NEXT: movd %eax, %xmm8		; SSE2-NEXT: movd %edx, %xmm15
; SSE2-NEXT: movzbl 12(%rdi), %eax		; SSE2-NEXT: movzbl 11(%rdi), %edx
; SSE2-NEXT: andl $15, %eax		; SSE2-NEXT: andl $15, %edx
; SSE2-NEXT: movzbl (%rax,%rcx), %eax		; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
; SSE2-NEXT: movd %eax, %xmm9		; SSE2-NEXT: movd %edx, %xmm9
; SSE2-NEXT: movzbl 4(%rdi), %eax		; SSE2-NEXT: movzbl 3(%rdi), %edx
; SSE2-NEXT: andl $15, %eax		; SSE2-NEXT: andl $15, %edx
; SSE2-NEXT: movzbl (%rax,%rcx), %eax		; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
; SSE2-NEXT: movd %eax, %xmm3		; SSE2-NEXT: movd %edx, %xmm3
; SSE2-NEXT: movzbl 14(%rdi), %eax		; SSE2-NEXT: movzbl 13(%rdi), %edx
; SSE2-NEXT: andl $15, %eax		; SSE2-NEXT: andl $15, %edx
; SSE2-NEXT: movzbl (%rax,%rcx), %eax		; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
; SSE2-NEXT: movd %eax, %xmm10		; SSE2-NEXT: movd %edx, %xmm10
; SSE2-NEXT: movzbl 6(%rdi), %eax		; SSE2-NEXT: movzbl 5(%rdi), %edx
; SSE2-NEXT: andl $15, %eax		; SSE2-NEXT: andl $15, %edx
; SSE2-NEXT: movzbl (%rax,%rcx), %eax		; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
; SSE2-NEXT: movd %eax, %xmm5		; SSE2-NEXT: movd %edx, %xmm7
; SSE2-NEXT: movzbl 10(%rdi), %eax		; SSE2-NEXT: movzbl 9(%rdi), %edx
; SSE2-NEXT: andl $15, %eax		; SSE2-NEXT: andl $15, %edx
; SSE2-NEXT: movzbl (%rax,%rcx), %eax		; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
; SSE2-NEXT: movd %eax, %xmm11		; SSE2-NEXT: movd %edx, %xmm11
; SSE2-NEXT: movzbl 2(%rdi), %eax		; SSE2-NEXT: movzbl 1(%rdi), %edx
; SSE2-NEXT: andl $15, %eax		; SSE2-NEXT: andl $15, %edx
; SSE2-NEXT: movzbl (%rax,%rcx), %eax		; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
; SSE2-NEXT: movd %eax, %xmm7		; SSE2-NEXT: movd %edx, %xmm6
; SSE2-NEXT: movzbl 15(%rdi), %eax		; SSE2-NEXT: movzbl 14(%rdi), %edx
; SSE2-NEXT: andl $15, %eax		; SSE2-NEXT: andl $15, %edx
; SSE2-NEXT: movzbl (%rax,%rcx), %eax		; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
; SSE2-NEXT: movd %eax, %xmm12		; SSE2-NEXT: movd %edx, %xmm12
; SSE2-NEXT: movzbl 7(%rdi), %eax		; SSE2-NEXT: movzbl 6(%rdi), %edx
; SSE2-NEXT: andl $15, %eax		; SSE2-NEXT: andl $15, %edx
; SSE2-NEXT: movzbl (%rax,%rcx), %eax		; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
; SSE2-NEXT: movd %eax, %xmm2		; SSE2-NEXT: movd %edx, %xmm5
; SSE2-NEXT: movzbl 11(%rdi), %eax		; SSE2-NEXT: movzbl 10(%rdi), %edx
; SSE2-NEXT: andl $15, %eax		; SSE2-NEXT: andl $15, %edx
; SSE2-NEXT: movzbl (%rax,%rcx), %eax		; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
; SSE2-NEXT: movd %eax, %xmm13		; SSE2-NEXT: movd %edx, %xmm13
; SSE2-NEXT: movzbl 3(%rdi), %eax		; SSE2-NEXT: movzbl 2(%rdi), %edx
; SSE2-NEXT: andl $15, %eax		; SSE2-NEXT: andl $15, %edx
; SSE2-NEXT: movzbl (%rax,%rcx), %eax		; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
; SSE2-NEXT: movd %eax, %xmm6		; SSE2-NEXT: movd %edx, %xmm4
; SSE2-NEXT: movzbl 13(%rdi), %eax		; SSE2-NEXT: movzbl 12(%rdi), %edx
; SSE2-NEXT: andl $15, %eax		; SSE2-NEXT: andl $15, %edx
; SSE2-NEXT: movzbl (%rax,%rcx), %eax		; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
; SSE2-NEXT: movd %eax, %xmm14		; SSE2-NEXT: movd %edx, %xmm14
; SSE2-NEXT: movzbl 5(%rdi), %eax		; SSE2-NEXT: movzbl 4(%rdi), %edx
; SSE2-NEXT: andl $15, %eax		; SSE2-NEXT: andl $15, %edx
; SSE2-NEXT: movzbl (%rax,%rcx), %eax		; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
; SSE2-NEXT: movd %eax, %xmm4		; SSE2-NEXT: movd %edx, %xmm1
; SSE2-NEXT: movzbl 9(%rdi), %eax		; SSE2-NEXT: movzbl 8(%rdi), %edx
; SSE2-NEXT: andl $15, %eax		; SSE2-NEXT: andl $15, %edx
; SSE2-NEXT: movzbl (%rax,%rcx), %eax		; SSE2-NEXT: movzbl (%rdx,%rcx), %edx
; SSE2-NEXT: movd %eax, %xmm15		; SSE2-NEXT: movd %edx, %xmm2
; SSE2-NEXT: movzbl 1(%rdi), %eax
; SSE2-NEXT: andl $15, %eax		; SSE2-NEXT: andl $15, %eax
; SSE2-NEXT: movzbl (%rax,%rcx), %eax		; SSE2-NEXT: movzbl (%rax,%rcx), %eax
; SSE2-NEXT: movd %eax, %xmm1		; SSE2-NEXT: movd %eax, %xmm0
; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3],xmm0[4],xmm8[4],xmm0[5],xmm8[5],xmm0[6],xmm8[6],xmm0[7],xmm8[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm15 = xmm15[0],xmm8[0],xmm15[1],xmm8[1],xmm15[2],xmm8[2],xmm15[3],xmm8[3],xmm15[4],xmm8[4],xmm15[5],xmm8[5],xmm15[6],xmm8[6],xmm15[7],xmm8[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm9[0],xmm3[1],xmm9[1],xmm3[2],xmm9[2],xmm3[3],xmm9[3],xmm3[4],xmm9[4],xmm3[5],xmm9[5],xmm3[6],xmm9[6],xmm3[7],xmm9[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm9[0],xmm3[1],xmm9[1],xmm3[2],xmm9[2],xmm3[3],xmm9[3],xmm3[4],xmm9[4],xmm3[5],xmm9[5],xmm3[6],xmm9[6],xmm3[7],xmm9[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm15[0],xmm3[1],xmm15[1],xmm3[2],xmm15[2],xmm3[3],xmm15[3],xmm3[4],xmm15[4],xmm3[5],xmm15[5],xmm3[6],xmm15[6],xmm3[7],xmm15[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm10[0],xmm5[1],xmm10[1],xmm5[2],xmm10[2],xmm5[3],xmm10[3],xmm5[4],xmm10[4],xmm5[5],xmm10[5],xmm5[6],xmm10[6],xmm5[7],xmm10[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm7 = xmm7[0],xmm10[0],xmm7[1],xmm10[1],xmm7[2],xmm10[2],xmm7[3],xmm10[3],xmm7[4],xmm10[4],xmm7[5],xmm10[5],xmm7[6],xmm10[6],xmm7[7],xmm10[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm7 = xmm7[0],xmm11[0],xmm7[1],xmm11[1],xmm7[2],xmm11[2],xmm7[3],xmm11[3],xmm7[4],xmm11[4],xmm7[5],xmm11[5],xmm7[6],xmm11[6],xmm7[7],xmm11[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm11[0],xmm6[1],xmm11[1],xmm6[2],xmm11[2],xmm6[3],xmm11[3],xmm6[4],xmm11[4],xmm6[5],xmm11[5],xmm6[6],xmm11[6],xmm6[7],xmm11[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm7 = xmm7[0],xmm5[0],xmm7[1],xmm5[1],xmm7[2],xmm5[2],xmm7[3],xmm5[3],xmm7[4],xmm5[4],xmm7[5],xmm5[5],xmm7[6],xmm5[6],xmm7[7],xmm5[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm7[0],xmm6[1],xmm7[1],xmm6[2],xmm7[2],xmm6[3],xmm7[3],xmm6[4],xmm7[4],xmm6[5],xmm7[5],xmm6[6],xmm7[6],xmm6[7],xmm7[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm7[0],xmm0[1],xmm7[1],xmm0[2],xmm7[2],xmm0[3],xmm7[3],xmm0[4],xmm7[4],xmm0[5],xmm7[5],xmm0[6],xmm7[6],xmm0[7],xmm7[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm3[0],xmm6[1],xmm3[1],xmm6[2],xmm3[2],xmm6[3],xmm3[3],xmm6[4],xmm3[4],xmm6[5],xmm3[5],xmm6[6],xmm3[6],xmm6[7],xmm3[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm12[0],xmm2[1],xmm12[1],xmm2[2],xmm12[2],xmm2[3],xmm12[3],xmm2[4],xmm12[4],xmm2[5],xmm12[5],xmm2[6],xmm12[6],xmm2[7],xmm12[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm12[0],xmm5[1],xmm12[1],xmm5[2],xmm12[2],xmm5[3],xmm12[3],xmm5[4],xmm12[4],xmm5[5],xmm12[5],xmm5[6],xmm12[6],xmm5[7],xmm12[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm13[0],xmm6[1],xmm13[1],xmm6[2],xmm13[2],xmm6[3],xmm13[3],xmm6[4],xmm13[4],xmm6[5],xmm13[5],xmm6[6],xmm13[6],xmm6[7],xmm13[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm13[0],xmm4[1],xmm13[1],xmm4[2],xmm13[2],xmm4[3],xmm13[3],xmm4[4],xmm13[4],xmm4[5],xmm13[5],xmm4[6],xmm13[6],xmm4[7],xmm13[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm2[0],xmm6[1],xmm2[1],xmm6[2],xmm2[2],xmm6[3],xmm2[3],xmm6[4],xmm2[4],xmm6[5],xmm2[5],xmm6[6],xmm2[6],xmm6[7],xmm2[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1],xmm4[2],xmm5[2],xmm4[3],xmm5[3],xmm4[4],xmm5[4],xmm4[5],xmm5[5],xmm4[6],xmm5[6],xmm4[7],xmm5[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm14[0],xmm4[1],xmm14[1],xmm4[2],xmm14[2],xmm4[3],xmm14[3],xmm4[4],xmm14[4],xmm4[5],xmm14[5],xmm4[6],xmm14[6],xmm4[7],xmm14[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm14[0],xmm1[1],xmm14[1],xmm1[2],xmm14[2],xmm1[3],xmm14[3],xmm1[4],xmm14[4],xmm1[5],xmm14[5],xmm1[6],xmm14[6],xmm1[7],xmm14[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm15[0],xmm1[1],xmm15[1],xmm1[2],xmm15[2],xmm1[3],xmm15[3],xmm1[4],xmm15[4],xmm1[5],xmm15[5],xmm1[6],xmm15[6],xmm1[7],xmm15[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1],xmm1[2],xmm4[2],xmm1[3],xmm4[3],xmm1[4],xmm4[4],xmm1[5],xmm4[5],xmm1[6],xmm4[6],xmm1[7],xmm4[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm6[0],xmm1[1],xmm6[1],xmm1[2],xmm6[2],xmm1[3],xmm6[3],xmm1[4],xmm6[4],xmm1[5],xmm6[5],xmm1[6],xmm6[6],xmm1[7],xmm6[7]
; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]		; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
		; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]
		; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1],xmm0[2],xmm6[2],xmm0[3],xmm6[3],xmm0[4],xmm6[4],xmm0[5],xmm6[5],xmm0[6],xmm6[6],xmm0[7],xmm6[7]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: mem_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8:		; SSSE3-LABEL: mem_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8:
; SSSE3: # BB#0:		; SSSE3: # BB#0:
; SSSE3-NEXT: movzbl (%rdi), %eax		; SSSE3-NEXT: movzbl (%rdi), %eax
; SSSE3-NEXT: andl $15, %eax
; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
		; SSSE3-NEXT: movzbl 15(%rdi), %edx
		; SSSE3-NEXT: andl $15, %edx
; SSSE3-NEXT: leaq -{{[0-9]+}}(%rsp), %rcx		; SSSE3-NEXT: leaq -{{[0-9]+}}(%rsp), %rcx
; SSSE3-NEXT: movzbl (%rax,%rcx), %eax		; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
; SSSE3-NEXT: movd %eax, %xmm0		; SSSE3-NEXT: movd %edx, %xmm8
; SSSE3-NEXT: movzbl 8(%rdi), %eax		; SSSE3-NEXT: movzbl 7(%rdi), %edx
; SSSE3-NEXT: andl $15, %eax		; SSSE3-NEXT: andl $15, %edx
; SSSE3-NEXT: movzbl (%rax,%rcx), %eax		; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
; SSSE3-NEXT: movd %eax, %xmm8		; SSSE3-NEXT: movd %edx, %xmm15
; SSSE3-NEXT: movzbl 12(%rdi), %eax		; SSSE3-NEXT: movzbl 11(%rdi), %edx
; SSSE3-NEXT: andl $15, %eax		; SSSE3-NEXT: andl $15, %edx
; SSSE3-NEXT: movzbl (%rax,%rcx), %eax		; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
; SSSE3-NEXT: movd %eax, %xmm9		; SSSE3-NEXT: movd %edx, %xmm9
; SSSE3-NEXT: movzbl 4(%rdi), %eax		; SSSE3-NEXT: movzbl 3(%rdi), %edx
; SSSE3-NEXT: andl $15, %eax		; SSSE3-NEXT: andl $15, %edx
; SSSE3-NEXT: movzbl (%rax,%rcx), %eax		; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
; SSSE3-NEXT: movd %eax, %xmm3		; SSSE3-NEXT: movd %edx, %xmm3
; SSSE3-NEXT: movzbl 14(%rdi), %eax		; SSSE3-NEXT: movzbl 13(%rdi), %edx
; SSSE3-NEXT: andl $15, %eax		; SSSE3-NEXT: andl $15, %edx
; SSSE3-NEXT: movzbl (%rax,%rcx), %eax		; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
; SSSE3-NEXT: movd %eax, %xmm10		; SSSE3-NEXT: movd %edx, %xmm10
; SSSE3-NEXT: movzbl 6(%rdi), %eax		; SSSE3-NEXT: movzbl 5(%rdi), %edx
; SSSE3-NEXT: andl $15, %eax		; SSSE3-NEXT: andl $15, %edx
; SSSE3-NEXT: movzbl (%rax,%rcx), %eax		; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
; SSSE3-NEXT: movd %eax, %xmm5		; SSSE3-NEXT: movd %edx, %xmm7
; SSSE3-NEXT: movzbl 10(%rdi), %eax		; SSSE3-NEXT: movzbl 9(%rdi), %edx
; SSSE3-NEXT: andl $15, %eax		; SSSE3-NEXT: andl $15, %edx
; SSSE3-NEXT: movzbl (%rax,%rcx), %eax		; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
; SSSE3-NEXT: movd %eax, %xmm11		; SSSE3-NEXT: movd %edx, %xmm11
; SSSE3-NEXT: movzbl 2(%rdi), %eax		; SSSE3-NEXT: movzbl 1(%rdi), %edx
; SSSE3-NEXT: andl $15, %eax		; SSSE3-NEXT: andl $15, %edx
; SSSE3-NEXT: movzbl (%rax,%rcx), %eax		; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
; SSSE3-NEXT: movd %eax, %xmm7		; SSSE3-NEXT: movd %edx, %xmm6
; SSSE3-NEXT: movzbl 15(%rdi), %eax		; SSSE3-NEXT: movzbl 14(%rdi), %edx
; SSSE3-NEXT: andl $15, %eax		; SSSE3-NEXT: andl $15, %edx
; SSSE3-NEXT: movzbl (%rax,%rcx), %eax		; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
; SSSE3-NEXT: movd %eax, %xmm12		; SSSE3-NEXT: movd %edx, %xmm12
; SSSE3-NEXT: movzbl 7(%rdi), %eax		; SSSE3-NEXT: movzbl 6(%rdi), %edx
; SSSE3-NEXT: andl $15, %eax		; SSSE3-NEXT: andl $15, %edx
; SSSE3-NEXT: movzbl (%rax,%rcx), %eax		; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
; SSSE3-NEXT: movd %eax, %xmm2		; SSSE3-NEXT: movd %edx, %xmm5
; SSSE3-NEXT: movzbl 11(%rdi), %eax		; SSSE3-NEXT: movzbl 10(%rdi), %edx
; SSSE3-NEXT: andl $15, %eax		; SSSE3-NEXT: andl $15, %edx
; SSSE3-NEXT: movzbl (%rax,%rcx), %eax		; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
; SSSE3-NEXT: movd %eax, %xmm13		; SSSE3-NEXT: movd %edx, %xmm13
; SSSE3-NEXT: movzbl 3(%rdi), %eax		; SSSE3-NEXT: movzbl 2(%rdi), %edx
; SSSE3-NEXT: andl $15, %eax		; SSSE3-NEXT: andl $15, %edx
; SSSE3-NEXT: movzbl (%rax,%rcx), %eax		; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
; SSSE3-NEXT: movd %eax, %xmm6		; SSSE3-NEXT: movd %edx, %xmm4
; SSSE3-NEXT: movzbl 13(%rdi), %eax		; SSSE3-NEXT: movzbl 12(%rdi), %edx
; SSSE3-NEXT: andl $15, %eax		; SSSE3-NEXT: andl $15, %edx
; SSSE3-NEXT: movzbl (%rax,%rcx), %eax		; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
; SSSE3-NEXT: movd %eax, %xmm14		; SSSE3-NEXT: movd %edx, %xmm14
; SSSE3-NEXT: movzbl 5(%rdi), %eax		; SSSE3-NEXT: movzbl 4(%rdi), %edx
; SSSE3-NEXT: andl $15, %eax		; SSSE3-NEXT: andl $15, %edx
; SSSE3-NEXT: movzbl (%rax,%rcx), %eax		; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
; SSSE3-NEXT: movd %eax, %xmm4		; SSSE3-NEXT: movd %edx, %xmm1
; SSSE3-NEXT: movzbl 9(%rdi), %eax		; SSSE3-NEXT: movzbl 8(%rdi), %edx
; SSSE3-NEXT: andl $15, %eax		; SSSE3-NEXT: andl $15, %edx
; SSSE3-NEXT: movzbl (%rax,%rcx), %eax		; SSSE3-NEXT: movzbl (%rdx,%rcx), %edx
; SSSE3-NEXT: movd %eax, %xmm15		; SSSE3-NEXT: movd %edx, %xmm2
; SSSE3-NEXT: movzbl 1(%rdi), %eax
; SSSE3-NEXT: andl $15, %eax		; SSSE3-NEXT: andl $15, %eax
; SSSE3-NEXT: movzbl (%rax,%rcx), %eax		; SSSE3-NEXT: movzbl (%rax,%rcx), %eax
; SSSE3-NEXT: movd %eax, %xmm1		; SSSE3-NEXT: movd %eax, %xmm0
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm8[0],xmm0[1],xmm8[1],xmm0[2],xmm8[2],xmm0[3],xmm8[3],xmm0[4],xmm8[4],xmm0[5],xmm8[5],xmm0[6],xmm8[6],xmm0[7],xmm8[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm15 = xmm15[0],xmm8[0],xmm15[1],xmm8[1],xmm15[2],xmm8[2],xmm15[3],xmm8[3],xmm15[4],xmm8[4],xmm15[5],xmm8[5],xmm15[6],xmm8[6],xmm15[7],xmm8[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm9[0],xmm3[1],xmm9[1],xmm3[2],xmm9[2],xmm3[3],xmm9[3],xmm3[4],xmm9[4],xmm3[5],xmm9[5],xmm3[6],xmm9[6],xmm3[7],xmm9[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm9[0],xmm3[1],xmm9[1],xmm3[2],xmm9[2],xmm3[3],xmm9[3],xmm3[4],xmm9[4],xmm3[5],xmm9[5],xmm3[6],xmm9[6],xmm3[7],xmm9[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3],xmm0[4],xmm3[4],xmm0[5],xmm3[5],xmm0[6],xmm3[6],xmm0[7],xmm3[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm3 = xmm3[0],xmm15[0],xmm3[1],xmm15[1],xmm3[2],xmm15[2],xmm3[3],xmm15[3],xmm3[4],xmm15[4],xmm3[5],xmm15[5],xmm3[6],xmm15[6],xmm3[7],xmm15[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm10[0],xmm5[1],xmm10[1],xmm5[2],xmm10[2],xmm5[3],xmm10[3],xmm5[4],xmm10[4],xmm5[5],xmm10[5],xmm5[6],xmm10[6],xmm5[7],xmm10[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm7 = xmm7[0],xmm10[0],xmm7[1],xmm10[1],xmm7[2],xmm10[2],xmm7[3],xmm10[3],xmm7[4],xmm10[4],xmm7[5],xmm10[5],xmm7[6],xmm10[6],xmm7[7],xmm10[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm7 = xmm7[0],xmm11[0],xmm7[1],xmm11[1],xmm7[2],xmm11[2],xmm7[3],xmm11[3],xmm7[4],xmm11[4],xmm7[5],xmm11[5],xmm7[6],xmm11[6],xmm7[7],xmm11[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm11[0],xmm6[1],xmm11[1],xmm6[2],xmm11[2],xmm6[3],xmm11[3],xmm6[4],xmm11[4],xmm6[5],xmm11[5],xmm6[6],xmm11[6],xmm6[7],xmm11[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm7 = xmm7[0],xmm5[0],xmm7[1],xmm5[1],xmm7[2],xmm5[2],xmm7[3],xmm5[3],xmm7[4],xmm5[4],xmm7[5],xmm5[5],xmm7[6],xmm5[6],xmm7[7],xmm5[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm7[0],xmm6[1],xmm7[1],xmm6[2],xmm7[2],xmm6[3],xmm7[3],xmm6[4],xmm7[4],xmm6[5],xmm7[5],xmm6[6],xmm7[6],xmm6[7],xmm7[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm7[0],xmm0[1],xmm7[1],xmm0[2],xmm7[2],xmm0[3],xmm7[3],xmm0[4],xmm7[4],xmm0[5],xmm7[5],xmm0[6],xmm7[6],xmm0[7],xmm7[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm3[0],xmm6[1],xmm3[1],xmm6[2],xmm3[2],xmm6[3],xmm3[3],xmm6[4],xmm3[4],xmm6[5],xmm3[5],xmm6[6],xmm3[6],xmm6[7],xmm3[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm2 = xmm2[0],xmm12[0],xmm2[1],xmm12[1],xmm2[2],xmm12[2],xmm2[3],xmm12[3],xmm2[4],xmm12[4],xmm2[5],xmm12[5],xmm2[6],xmm12[6],xmm2[7],xmm12[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm5 = xmm5[0],xmm12[0],xmm5[1],xmm12[1],xmm5[2],xmm12[2],xmm5[3],xmm12[3],xmm5[4],xmm12[4],xmm5[5],xmm12[5],xmm5[6],xmm12[6],xmm5[7],xmm12[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm13[0],xmm6[1],xmm13[1],xmm6[2],xmm13[2],xmm6[3],xmm13[3],xmm6[4],xmm13[4],xmm6[5],xmm13[5],xmm6[6],xmm13[6],xmm6[7],xmm13[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm13[0],xmm4[1],xmm13[1],xmm4[2],xmm13[2],xmm4[3],xmm13[3],xmm4[4],xmm13[4],xmm4[5],xmm13[5],xmm4[6],xmm13[6],xmm4[7],xmm13[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm6 = xmm6[0],xmm2[0],xmm6[1],xmm2[1],xmm6[2],xmm2[2],xmm6[3],xmm2[3],xmm6[4],xmm2[4],xmm6[5],xmm2[5],xmm6[6],xmm2[6],xmm6[7],xmm2[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm5[0],xmm4[1],xmm5[1],xmm4[2],xmm5[2],xmm4[3],xmm5[3],xmm4[4],xmm5[4],xmm4[5],xmm5[5],xmm4[6],xmm5[6],xmm4[7],xmm5[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm4 = xmm4[0],xmm14[0],xmm4[1],xmm14[1],xmm4[2],xmm14[2],xmm4[3],xmm14[3],xmm4[4],xmm14[4],xmm4[5],xmm14[5],xmm4[6],xmm14[6],xmm4[7],xmm14[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm14[0],xmm1[1],xmm14[1],xmm1[2],xmm14[2],xmm1[3],xmm14[3],xmm1[4],xmm14[4],xmm1[5],xmm14[5],xmm1[6],xmm14[6],xmm1[7],xmm14[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm15[0],xmm1[1],xmm15[1],xmm1[2],xmm15[2],xmm1[3],xmm15[3],xmm1[4],xmm15[4],xmm1[5],xmm15[5],xmm1[6],xmm15[6],xmm1[7],xmm15[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3],xmm0[4],xmm2[4],xmm0[5],xmm2[5],xmm0[6],xmm2[6],xmm0[7],xmm2[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm4[0],xmm1[1],xmm4[1],xmm1[2],xmm4[2],xmm1[3],xmm4[3],xmm1[4],xmm4[4],xmm1[5],xmm4[5],xmm1[6],xmm4[6],xmm1[7],xmm4[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm1 = xmm1[0],xmm6[0],xmm1[1],xmm6[1],xmm1[2],xmm6[2],xmm1[3],xmm6[3],xmm1[4],xmm6[4],xmm1[5],xmm6[5],xmm1[6],xmm6[6],xmm1[7],xmm6[7]
; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3],xmm0[4],xmm1[4],xmm0[5],xmm1[5],xmm0[6],xmm1[6],xmm0[7],xmm1[7]
		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm4[0],xmm0[1],xmm4[1],xmm0[2],xmm4[2],xmm0[3],xmm4[3],xmm0[4],xmm4[4],xmm0[5],xmm4[5],xmm0[6],xmm4[6],xmm0[7],xmm4[7]
		; SSSE3-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0],xmm6[0],xmm0[1],xmm6[1],xmm0[2],xmm6[2],xmm0[3],xmm6[3],xmm0[4],xmm6[4],xmm0[5],xmm6[5],xmm0[6],xmm6[6],xmm0[7],xmm6[7]
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: mem_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8:		; SSE41-LABEL: mem_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8:
; SSE41: # BB#0:		; SSE41: # BB#0:
; SSE41-NEXT: pushq %rbp		; SSE41-NEXT: movzbl (%rdi), %eax
; SSE41-NEXT: pushq %r15		; SSE41-NEXT: andl $15, %eax
; SSE41-NEXT: pushq %r14
; SSE41-NEXT: pushq %r13
; SSE41-NEXT: pushq %r12
; SSE41-NEXT: pushq %rbx
; SSE41-NEXT: movzbl (%rdi), %r11d
; SSE41-NEXT: andl $15, %r11d
; SSE41-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSE41-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSE41-NEXT: movzbl 1(%rdi), %r9d		; SSE41-NEXT: leaq -{{[0-9]+}}(%rsp), %rcx
; SSE41-NEXT: andl $15, %r9d		; SSE41-NEXT: movzbl (%rax,%rcx), %eax
		; SSE41-NEXT: movd %eax, %xmm0
		; SSE41-NEXT: movzbl 1(%rdi), %eax
		; SSE41-NEXT: andl $15, %eax
		; SSE41-NEXT: pinsrb $1, (%rax,%rcx), %xmm0
; SSE41-NEXT: movzbl 2(%rdi), %eax		; SSE41-NEXT: movzbl 2(%rdi), %eax
; SSE41-NEXT: andl $15, %eax		; SSE41-NEXT: andl $15, %eax
; SSE41-NEXT: movq %rax, -{{[0-9]+}}(%rsp) # 8-byte Spill		; SSE41-NEXT: pinsrb $2, (%rax,%rcx), %xmm0
; SSE41-NEXT: movzbl 3(%rdi), %eax		; SSE41-NEXT: movzbl 3(%rdi), %eax
; SSE41-NEXT: andl $15, %eax		; SSE41-NEXT: andl $15, %eax
; SSE41-NEXT: movq %rax, -{{[0-9]+}}(%rsp) # 8-byte Spill		; SSE41-NEXT: pinsrb $3, (%rax,%rcx), %xmm0
; SSE41-NEXT: movzbl 4(%rdi), %r14d		; SSE41-NEXT: movzbl 4(%rdi), %eax
; SSE41-NEXT: andl $15, %r14d		; SSE41-NEXT: andl $15, %eax
; SSE41-NEXT: movzbl 5(%rdi), %r15d		; SSE41-NEXT: pinsrb $4, (%rax,%rcx), %xmm0
; SSE41-NEXT: andl $15, %r15d		; SSE41-NEXT: movzbl 5(%rdi), %eax
; SSE41-NEXT: movzbl 6(%rdi), %r12d		; SSE41-NEXT: andl $15, %eax
; SSE41-NEXT: andl $15, %r12d		; SSE41-NEXT: pinsrb $5, (%rax,%rcx), %xmm0
; SSE41-NEXT: movzbl 7(%rdi), %r13d		; SSE41-NEXT: movzbl 6(%rdi), %eax
; SSE41-NEXT: andl $15, %r13d		; SSE41-NEXT: andl $15, %eax
; SSE41-NEXT: movzbl 8(%rdi), %r8d		; SSE41-NEXT: pinsrb $6, (%rax,%rcx), %xmm0
; SSE41-NEXT: andl $15, %r8d		; SSE41-NEXT: movzbl 7(%rdi), %eax
		; SSE41-NEXT: andl $15, %eax
		; SSE41-NEXT: pinsrb $7, (%rax,%rcx), %xmm0
		; SSE41-NEXT: movzbl 8(%rdi), %eax
		; SSE41-NEXT: andl $15, %eax
		; SSE41-NEXT: pinsrb $8, (%rax,%rcx), %xmm0
; SSE41-NEXT: movzbl 9(%rdi), %eax		; SSE41-NEXT: movzbl 9(%rdi), %eax
; SSE41-NEXT: andl $15, %eax		; SSE41-NEXT: andl $15, %eax
; SSE41-NEXT: movzbl 10(%rdi), %ecx		; SSE41-NEXT: pinsrb $9, (%rax,%rcx), %xmm0
; SSE41-NEXT: andl $15, %ecx		; SSE41-NEXT: movzbl 10(%rdi), %eax
; SSE41-NEXT: movzbl 11(%rdi), %edx		; SSE41-NEXT: andl $15, %eax
; SSE41-NEXT: andl $15, %edx		; SSE41-NEXT: pinsrb $10, (%rax,%rcx), %xmm0
; SSE41-NEXT: movzbl 12(%rdi), %esi		; SSE41-NEXT: movzbl 11(%rdi), %eax
; SSE41-NEXT: andl $15, %esi		; SSE41-NEXT: andl $15, %eax
; SSE41-NEXT: leaq -{{[0-9]+}}(%rsp), %rbp		; SSE41-NEXT: pinsrb $11, (%rax,%rcx), %xmm0
; SSE41-NEXT: movzbl (%r11,%rbp), %ebx		; SSE41-NEXT: movzbl 12(%rdi), %eax
; SSE41-NEXT: movd %ebx, %xmm0		; SSE41-NEXT: andl $15, %eax
; SSE41-NEXT: movzbl 13(%rdi), %r11d		; SSE41-NEXT: pinsrb $12, (%rax,%rcx), %xmm0
; SSE41-NEXT: andl $15, %r11d		; SSE41-NEXT: movzbl 13(%rdi), %eax
; SSE41-NEXT: pinsrb $1, (%r9,%rbp), %xmm0		; SSE41-NEXT: andl $15, %eax
; SSE41-NEXT: movzbl 14(%rdi), %ebx		; SSE41-NEXT: pinsrb $13, (%rax,%rcx), %xmm0
; SSE41-NEXT: andl $15, %ebx		; SSE41-NEXT: movzbl 14(%rdi), %eax
; SSE41-NEXT: movzbl 15(%rdi), %edi		; SSE41-NEXT: andl $15, %eax
; SSE41-NEXT: andl $15, %edi		; SSE41-NEXT: pinsrb $14, (%rax,%rcx), %xmm0
; SSE41-NEXT: movzbl (%rdi,%rbp), %r10d		; SSE41-NEXT: movzbl 15(%rdi), %eax
; SSE41-NEXT: movzbl (%rbx,%rbp), %r9d		; SSE41-NEXT: andl $15, %eax
; SSE41-NEXT: movzbl (%r11,%rbp), %r11d		; SSE41-NEXT: pinsrb $15, (%rax,%rcx), %xmm0
; SSE41-NEXT: movzbl (%rsi,%rbp), %esi
; SSE41-NEXT: movzbl (%rdx,%rbp), %edx
; SSE41-NEXT: movzbl (%rcx,%rbp), %ecx
; SSE41-NEXT: movzbl (%rax,%rbp), %eax
; SSE41-NEXT: movzbl (%r8,%rbp), %r8d
; SSE41-NEXT: movzbl (%r13,%rbp), %r13d
; SSE41-NEXT: movzbl (%r12,%rbp), %r12d
; SSE41-NEXT: movzbl (%r15,%rbp), %r15d
; SSE41-NEXT: movzbl (%r14,%rbp), %r14d
; SSE41-NEXT: movq -{{[0-9]+}}(%rsp), %rdi # 8-byte Reload
; SSE41-NEXT: movzbl (%rdi,%rbp), %edi
; SSE41-NEXT: movq -{{[0-9]+}}(%rsp), %rbx # 8-byte Reload
; SSE41-NEXT: movzbl (%rbx,%rbp), %ebp
; SSE41-NEXT: pinsrb $2, %ebp, %xmm0
; SSE41-NEXT: pinsrb $3, %edi, %xmm0
; SSE41-NEXT: pinsrb $4, %r14d, %xmm0
; SSE41-NEXT: pinsrb $5, %r15d, %xmm0
; SSE41-NEXT: pinsrb $6, %r12d, %xmm0
; SSE41-NEXT: pinsrb $7, %r13d, %xmm0
; SSE41-NEXT: pinsrb $8, %r8d, %xmm0
; SSE41-NEXT: pinsrb $9, %eax, %xmm0
; SSE41-NEXT: pinsrb $10, %ecx, %xmm0
; SSE41-NEXT: pinsrb $11, %edx, %xmm0
; SSE41-NEXT: pinsrb $12, %esi, %xmm0
; SSE41-NEXT: pinsrb $13, %r11d, %xmm0
; SSE41-NEXT: pinsrb $14, %r9d, %xmm0
; SSE41-NEXT: pinsrb $15, %r10d, %xmm0
; SSE41-NEXT: popq %rbx
; SSE41-NEXT: popq %r12
; SSE41-NEXT: popq %r13
; SSE41-NEXT: popq %r14
; SSE41-NEXT: popq %r15
; SSE41-NEXT: popq %rbp
; SSE41-NEXT: retq		; SSE41-NEXT: retq
;		;
; AVX-LABEL: mem_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8:		; AVX-LABEL: mem_shuffle_v16i8_v16i8_xxxxxxxxxxxxxxxx_i8:
; AVX: # BB#0:		; AVX: # BB#0:
; AVX-NEXT: pushq %rbp		; AVX-NEXT: movzbl (%rdi), %eax
; AVX-NEXT: pushq %r15		; AVX-NEXT: andl $15, %eax
; AVX-NEXT: pushq %r14
; AVX-NEXT: pushq %r13
; AVX-NEXT: pushq %r12
; AVX-NEXT: pushq %rbx
; AVX-NEXT: movzbl (%rdi), %r11d
; AVX-NEXT: andl $15, %r11d
; AVX-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)		; AVX-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)
; AVX-NEXT: movzbl 1(%rdi), %r9d		; AVX-NEXT: leaq -{{[0-9]+}}(%rsp), %rcx
; AVX-NEXT: andl $15, %r9d		; AVX-NEXT: movzbl (%rax,%rcx), %eax
		; AVX-NEXT: vmovd %eax, %xmm0
		; AVX-NEXT: movzbl 1(%rdi), %eax
		; AVX-NEXT: andl $15, %eax
		; AVX-NEXT: vpinsrb $1, (%rax,%rcx), %xmm0, %xmm0
; AVX-NEXT: movzbl 2(%rdi), %eax		; AVX-NEXT: movzbl 2(%rdi), %eax
; AVX-NEXT: andl $15, %eax		; AVX-NEXT: andl $15, %eax
; AVX-NEXT: movq %rax, -{{[0-9]+}}(%rsp) # 8-byte Spill		; AVX-NEXT: vpinsrb $2, (%rax,%rcx), %xmm0, %xmm0
; AVX-NEXT: movzbl 3(%rdi), %eax		; AVX-NEXT: movzbl 3(%rdi), %eax
; AVX-NEXT: andl $15, %eax		; AVX-NEXT: andl $15, %eax
; AVX-NEXT: movq %rax, -{{[0-9]+}}(%rsp) # 8-byte Spill		; AVX-NEXT: vpinsrb $3, (%rax,%rcx), %xmm0, %xmm0
; AVX-NEXT: movzbl 4(%rdi), %r14d		; AVX-NEXT: movzbl 4(%rdi), %eax
; AVX-NEXT: andl $15, %r14d		; AVX-NEXT: andl $15, %eax
; AVX-NEXT: movzbl 5(%rdi), %r15d		; AVX-NEXT: vpinsrb $4, (%rax,%rcx), %xmm0, %xmm0
; AVX-NEXT: andl $15, %r15d		; AVX-NEXT: movzbl 5(%rdi), %eax
; AVX-NEXT: movzbl 6(%rdi), %r12d		; AVX-NEXT: andl $15, %eax
; AVX-NEXT: andl $15, %r12d		; AVX-NEXT: vpinsrb $5, (%rax,%rcx), %xmm0, %xmm0
; AVX-NEXT: movzbl 7(%rdi), %r13d		; AVX-NEXT: movzbl 6(%rdi), %eax
; AVX-NEXT: andl $15, %r13d		; AVX-NEXT: andl $15, %eax
; AVX-NEXT: movzbl 8(%rdi), %r8d		; AVX-NEXT: vpinsrb $6, (%rax,%rcx), %xmm0, %xmm0
; AVX-NEXT: andl $15, %r8d		; AVX-NEXT: movzbl 7(%rdi), %eax
		; AVX-NEXT: andl $15, %eax
		; AVX-NEXT: vpinsrb $7, (%rax,%rcx), %xmm0, %xmm0
		; AVX-NEXT: movzbl 8(%rdi), %eax
		; AVX-NEXT: andl $15, %eax
		; AVX-NEXT: vpinsrb $8, (%rax,%rcx), %xmm0, %xmm0
; AVX-NEXT: movzbl 9(%rdi), %eax		; AVX-NEXT: movzbl 9(%rdi), %eax
; AVX-NEXT: andl $15, %eax		; AVX-NEXT: andl $15, %eax
; AVX-NEXT: movzbl 10(%rdi), %ecx		; AVX-NEXT: vpinsrb $9, (%rax,%rcx), %xmm0, %xmm0
; AVX-NEXT: andl $15, %ecx		; AVX-NEXT: movzbl 10(%rdi), %eax
; AVX-NEXT: movzbl 11(%rdi), %edx		; AVX-NEXT: andl $15, %eax
; AVX-NEXT: andl $15, %edx		; AVX-NEXT: vpinsrb $10, (%rax,%rcx), %xmm0, %xmm0
; AVX-NEXT: movzbl 12(%rdi), %esi		; AVX-NEXT: movzbl 11(%rdi), %eax
; AVX-NEXT: andl $15, %esi		; AVX-NEXT: andl $15, %eax
; AVX-NEXT: leaq -{{[0-9]+}}(%rsp), %rbp		; AVX-NEXT: vpinsrb $11, (%rax,%rcx), %xmm0, %xmm0
; AVX-NEXT: movzbl (%r11,%rbp), %ebx		; AVX-NEXT: movzbl 12(%rdi), %eax
; AVX-NEXT: vmovd %ebx, %xmm0		; AVX-NEXT: andl $15, %eax
; AVX-NEXT: movzbl 13(%rdi), %r11d		; AVX-NEXT: vpinsrb $12, (%rax,%rcx), %xmm0, %xmm0
; AVX-NEXT: andl $15, %r11d		; AVX-NEXT: movzbl 13(%rdi), %eax
; AVX-NEXT: vpinsrb $1, (%r9,%rbp), %xmm0, %xmm0		; AVX-NEXT: andl $15, %eax
; AVX-NEXT: movzbl 14(%rdi), %ebx		; AVX-NEXT: vpinsrb $13, (%rax,%rcx), %xmm0, %xmm0
; AVX-NEXT: andl $15, %ebx		; AVX-NEXT: movzbl 14(%rdi), %eax
; AVX-NEXT: movzbl 15(%rdi), %edi		; AVX-NEXT: andl $15, %eax
; AVX-NEXT: andl $15, %edi		; AVX-NEXT: vpinsrb $14, (%rax,%rcx), %xmm0, %xmm0
; AVX-NEXT: movzbl (%rdi,%rbp), %r10d		; AVX-NEXT: movzbl 15(%rdi), %eax
; AVX-NEXT: movzbl (%rbx,%rbp), %r9d		; AVX-NEXT: andl $15, %eax
; AVX-NEXT: movzbl (%r11,%rbp), %r11d		; AVX-NEXT: vpinsrb $15, (%rax,%rcx), %xmm0, %xmm0
; AVX-NEXT: movzbl (%rsi,%rbp), %esi
; AVX-NEXT: movzbl (%rdx,%rbp), %edx
; AVX-NEXT: movzbl (%rcx,%rbp), %ecx
; AVX-NEXT: movzbl (%rax,%rbp), %eax
; AVX-NEXT: movzbl (%r8,%rbp), %r8d
; AVX-NEXT: movzbl (%r13,%rbp), %r13d
; AVX-NEXT: movzbl (%r12,%rbp), %r12d
; AVX-NEXT: movzbl (%r15,%rbp), %r15d
; AVX-NEXT: movzbl (%r14,%rbp), %r14d
; AVX-NEXT: movq -{{[0-9]+}}(%rsp), %rdi # 8-byte Reload
; AVX-NEXT: movzbl (%rdi,%rbp), %edi
; AVX-NEXT: movq -{{[0-9]+}}(%rsp), %rbx # 8-byte Reload
; AVX-NEXT: movzbl (%rbx,%rbp), %ebp
; AVX-NEXT: vpinsrb $2, %ebp, %xmm0, %xmm0
; AVX-NEXT: vpinsrb $3, %edi, %xmm0, %xmm0
; AVX-NEXT: vpinsrb $4, %r14d, %xmm0, %xmm0
; AVX-NEXT: vpinsrb $5, %r15d, %xmm0, %xmm0
; AVX-NEXT: vpinsrb $6, %r12d, %xmm0, %xmm0
; AVX-NEXT: vpinsrb $7, %r13d, %xmm0, %xmm0
; AVX-NEXT: vpinsrb $8, %r8d, %xmm0, %xmm0
; AVX-NEXT: vpinsrb $9, %eax, %xmm0, %xmm0
; AVX-NEXT: vpinsrb $10, %ecx, %xmm0, %xmm0
; AVX-NEXT: vpinsrb $11, %edx, %xmm0, %xmm0
; AVX-NEXT: vpinsrb $12, %esi, %xmm0, %xmm0
; AVX-NEXT: vpinsrb $13, %r11d, %xmm0, %xmm0
; AVX-NEXT: vpinsrb $14, %r9d, %xmm0, %xmm0
; AVX-NEXT: vpinsrb $15, %r10d, %xmm0, %xmm0
; AVX-NEXT: popq %rbx
; AVX-NEXT: popq %r12
; AVX-NEXT: popq %r13
; AVX-NEXT: popq %r14
; AVX-NEXT: popq %r15
; AVX-NEXT: popq %rbp
; AVX-NEXT: retq		; AVX-NEXT: retq
%p0 = getelementptr inbounds i8, i8* %i, i64 0		%p0 = getelementptr inbounds i8, i8* %i, i64 0
%p1 = getelementptr inbounds i8, i8* %i, i64 1		%p1 = getelementptr inbounds i8, i8* %i, i64 1
%p2 = getelementptr inbounds i8, i8* %i, i64 2		%p2 = getelementptr inbounds i8, i8* %i, i64 2
%p3 = getelementptr inbounds i8, i8* %i, i64 3		%p3 = getelementptr inbounds i8, i8* %i, i64 3
%p4 = getelementptr inbounds i8, i8* %i, i64 4		%p4 = getelementptr inbounds i8, i8* %i, i64 4
%p5 = getelementptr inbounds i8, i8* %i, i64 5		%p5 = getelementptr inbounds i8, i8* %i, i64 5
%p6 = getelementptr inbounds i8, i8* %i, i64 6		%p6 = getelementptr inbounds i8, i8* %i, i64 6
▲ Show 20 Lines • Show All 118 Lines • ▼ Show 20 Lines
; SSE2-NEXT: andl $7, %edi		; SSE2-NEXT: andl $7, %edi
; SSE2-NEXT: andl $7, %esi		; SSE2-NEXT: andl $7, %esi
; SSE2-NEXT: andl $7, %edx		; SSE2-NEXT: andl $7, %edx
; SSE2-NEXT: andl $7, %ecx		; SSE2-NEXT: andl $7, %ecx
; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSE2-NEXT: andl $7, %r8d		; SSE2-NEXT: andl $7, %r8d
; SSE2-NEXT: movdqa %xmm1, -{{[0-9]+}}(%rsp)		; SSE2-NEXT: movdqa %xmm1, -{{[0-9]+}}(%rsp)
; SSE2-NEXT: andl $7, %r9d		; SSE2-NEXT: andl $7, %r9d
; SSE2-NEXT: movzwl -24(%rsp,%rsi,2), %eax		; SSE2-NEXT: movzwl -24(%rsp,%rcx,2), %eax
; SSE2-NEXT: movzwl -24(%rsp,%rcx,2), %ecx		; SSE2-NEXT: movd %eax, %xmm0
; SSE2-NEXT: movd %ecx, %xmm0
; SSE2-NEXT: pxor %xmm1, %xmm1		; SSE2-NEXT: pxor %xmm1, %xmm1
; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]		; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
; SSE2-NEXT: movd %eax, %xmm2
; SSE2-NEXT: movzwl -24(%rsp,%r9,2), %eax		; SSE2-NEXT: movzwl -24(%rsp,%r9,2), %eax
		; SSE2-NEXT: movd %eax, %xmm2
		; SSE2-NEXT: movzwl -24(%rsp,%rsi,2), %eax
; SSE2-NEXT: movd %eax, %xmm3		; SSE2-NEXT: movd %eax, %xmm3
; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1],xmm2[2],xmm3[2],xmm2[3],xmm3[3]		; SSE2-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]		; SSE2-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3]
; SSE2-NEXT: movzwl -40(%rsp,%rdi,2), %eax		; SSE2-NEXT: movzwl -40(%rsp,%rdx,2), %eax
; SSE2-NEXT: movzwl -40(%rsp,%rdx,2), %ecx		; SSE2-NEXT: movd %eax, %xmm2
; SSE2-NEXT: movd %ecx, %xmm3		; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
; SSE2-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]
; SSE2-NEXT: movd %eax, %xmm0
; SSE2-NEXT: movzwl -40(%rsp,%r8,2), %eax		; SSE2-NEXT: movzwl -40(%rsp,%r8,2), %eax
; SSE2-NEXT: movd %eax, %xmm1		; SSE2-NEXT: movd %eax, %xmm1
		; SSE2-NEXT: movzwl -40(%rsp,%rdi,2), %eax
		; SSE2-NEXT: movd %eax, %xmm0
; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]		; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]		; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
		; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSSE3-LABEL: var_shuffle_v8i16_v8i16_xyxyxy00_i16:		; SSSE3-LABEL: var_shuffle_v8i16_v8i16_xyxyxy00_i16:
; SSSE3: # BB#0:		; SSSE3: # BB#0:
; SSSE3-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>		; SSSE3-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>
; SSSE3-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>		; SSSE3-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>
; SSSE3-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>		; SSSE3-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
; SSSE3-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>		; SSSE3-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
; SSSE3-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>		; SSSE3-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>
; SSSE3-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>		; SSSE3-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
; SSSE3-NEXT: andl $7, %edi		; SSSE3-NEXT: andl $7, %edi
; SSSE3-NEXT: andl $7, %esi		; SSSE3-NEXT: andl $7, %esi
; SSSE3-NEXT: andl $7, %edx		; SSSE3-NEXT: andl $7, %edx
; SSSE3-NEXT: andl $7, %ecx		; SSSE3-NEXT: andl $7, %ecx
; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)		; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
; SSSE3-NEXT: andl $7, %r8d		; SSSE3-NEXT: andl $7, %r8d
; SSSE3-NEXT: movdqa %xmm1, -{{[0-9]+}}(%rsp)		; SSSE3-NEXT: movdqa %xmm1, -{{[0-9]+}}(%rsp)
; SSSE3-NEXT: andl $7, %r9d		; SSSE3-NEXT: andl $7, %r9d
; SSSE3-NEXT: movzwl -24(%rsp,%rsi,2), %eax		; SSSE3-NEXT: movzwl -24(%rsp,%rcx,2), %eax
; SSSE3-NEXT: movzwl -24(%rsp,%rcx,2), %ecx		; SSSE3-NEXT: movd %eax, %xmm0
; SSSE3-NEXT: movd %ecx, %xmm0
; SSSE3-NEXT: pxor %xmm1, %xmm1		; SSSE3-NEXT: pxor %xmm1, %xmm1
; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]		; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
; SSSE3-NEXT: movd %eax, %xmm2
; SSSE3-NEXT: movzwl -24(%rsp,%r9,2), %eax		; SSSE3-NEXT: movzwl -24(%rsp,%r9,2), %eax
		; SSSE3-NEXT: movd %eax, %xmm2
		; SSSE3-NEXT: movzwl -24(%rsp,%rsi,2), %eax
; SSSE3-NEXT: movd %eax, %xmm3		; SSSE3-NEXT: movd %eax, %xmm3
; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1],xmm2[2],xmm3[2],xmm2[3],xmm3[3]		; SSSE3-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm2[0],xmm3[1],xmm2[1],xmm3[2],xmm2[2],xmm3[3],xmm2[3]
; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]		; SSSE3-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm0[0],xmm3[1],xmm0[1],xmm3[2],xmm0[2],xmm3[3],xmm0[3]
; SSSE3-NEXT: movzwl -40(%rsp,%rdi,2), %eax		; SSSE3-NEXT: movzwl -40(%rsp,%rdx,2), %eax
; SSSE3-NEXT: movzwl -40(%rsp,%rdx,2), %ecx		; SSSE3-NEXT: movd %eax, %xmm2
; SSSE3-NEXT: movd %ecx, %xmm3		; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]
; SSSE3-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]
; SSSE3-NEXT: movd %eax, %xmm0
; SSSE3-NEXT: movzwl -40(%rsp,%r8,2), %eax		; SSSE3-NEXT: movzwl -40(%rsp,%r8,2), %eax
; SSSE3-NEXT: movd %eax, %xmm1		; SSSE3-NEXT: movd %eax, %xmm1
		; SSSE3-NEXT: movzwl -40(%rsp,%rdi,2), %eax
		; SSSE3-NEXT: movd %eax, %xmm0
; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]		; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]		; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
		; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: var_shuffle_v8i16_v8i16_xyxyxy00_i16:		; SSE41-LABEL: var_shuffle_v8i16_v8i16_xyxyxy00_i16:
; SSE41: # BB#0:		; SSE41: # BB#0:
; SSE41-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>		; SSE41-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>
; SSE41-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>		; SSE41-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>
; SSE41-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>		; SSE41-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
; SSE41-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>		; SSE41-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
▲ Show 20 Lines • Show All 92 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-shuffle-variable-256.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
		; NOTE: Assertions have been autogenerated by update_llc_test_checks.py
; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=+avx \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX1		; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=+avx \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX1
; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=+avx2 \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX2		; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=x86-64 -mattr=+avx2 \| FileCheck %s --check-prefix=ALL --check-prefix=AVX --check-prefix=AVX2

;		;
; Unary shuffle indices from registers		; Unary shuffle indices from registers
;		;

define <4 x double> @var_shuffle_v4f64_v4f64_xxxx_i64(<4 x double> %x, i64 %i0, i64 %i1, i64 %i2, i64 %i3) nounwind {		define <4 x double> @var_shuffle_v4f64_v4f64_xxxx_i64(<4 x double> %x, i64 %i0, i64 %i1, i64 %i2, i64 %i3) nounwind {
; ALL-LABEL: var_shuffle_v4f64_v4f64_xxxx_i64:		; ALL-LABEL: var_shuffle_v4f64_v4f64_xxxx_i64:
; ALL: # BB#0:		; ALL: # BB#0:
; ALL-NEXT: pushq %rbp		; ALL-NEXT: pushq %rbp
; ALL-NEXT: movq %rsp, %rbp		; ALL-NEXT: movq %rsp, %rbp
; ALL-NEXT: andq $-32, %rsp		; ALL-NEXT: andq $-32, %rsp
; ALL-NEXT: subq $64, %rsp		; ALL-NEXT: subq $64, %rsp
; ALL-NEXT: andl $3, %ecx
; ALL-NEXT: andl $3, %edx
; ALL-NEXT: andl $3, %esi		; ALL-NEXT: andl $3, %esi
; ALL-NEXT: andl $3, %edi		; ALL-NEXT: andl $3, %edi
		; ALL-NEXT: andl $3, %ecx
		; ALL-NEXT: andl $3, %edx
; ALL-NEXT: vmovaps %ymm0, (%rsp)		; ALL-NEXT: vmovaps %ymm0, (%rsp)
; ALL-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero		; ALL-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
; ALL-NEXT: vmovhpd {{.*#+}} xmm0 = xmm0[0],mem[0]		; ALL-NEXT: vmovhpd {{.*#+}} xmm0 = xmm0[0],mem[0]
; ALL-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero		; ALL-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
; ALL-NEXT: vmovhpd {{.*#+}} xmm1 = xmm1[0],mem[0]		; ALL-NEXT: vmovhpd {{.*#+}} xmm1 = xmm1[0],mem[0]
; ALL-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; ALL-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; ALL-NEXT: movq %rbp, %rsp		; ALL-NEXT: movq %rbp, %rsp
; ALL-NEXT: popq %rbp		; ALL-NEXT: popq %rbp
; ALL-NEXT: retq		; ALL-NEXT: retq
%x0 = extractelement <4 x double> %x, i64 %i0		%x0 = extractelement <4 x double> %x, i64 %i0
%x1 = extractelement <4 x double> %x, i64 %i1		%x1 = extractelement <4 x double> %x, i64 %i1
%x2 = extractelement <4 x double> %x, i64 %i2		%x2 = extractelement <4 x double> %x, i64 %i2
%x3 = extractelement <4 x double> %x, i64 %i3		%x3 = extractelement <4 x double> %x, i64 %i3
%r0 = insertelement <4 x double> undef, double %x0, i32 0		%r0 = insertelement <4 x double> undef, double %x0, i32 0
Show All 29 Lines	; ALL-NEXT: retq
%r2 = insertelement <4 x double> %r1, double %x2, i32 2		%r2 = insertelement <4 x double> %r1, double %x2, i32 2
%r3 = insertelement <4 x double> %r2, double 0.0, i32 3		%r3 = insertelement <4 x double> %r2, double 0.0, i32 3
ret <4 x double> %r3		ret <4 x double> %r3
}		}

define <4 x double> @var_shuffle_v4f64_v2f64_xxxx_i64(<2 x double> %x, i64 %i0, i64 %i1, i64 %i2, i64 %i3) nounwind {		define <4 x double> @var_shuffle_v4f64_v2f64_xxxx_i64(<2 x double> %x, i64 %i0, i64 %i1, i64 %i2, i64 %i3) nounwind {
; ALL-LABEL: var_shuffle_v4f64_v2f64_xxxx_i64:		; ALL-LABEL: var_shuffle_v4f64_v2f64_xxxx_i64:
; ALL: # BB#0:		; ALL: # BB#0:
; ALL-NEXT: andl $1, %ecx
; ALL-NEXT: andl $1, %edx
; ALL-NEXT: andl $1, %esi		; ALL-NEXT: andl $1, %esi
; ALL-NEXT: andl $1, %edi		; ALL-NEXT: andl $1, %edi
		; ALL-NEXT: andl $1, %ecx
		; ALL-NEXT: andl $1, %edx
; ALL-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)		; ALL-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)
; ALL-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero		; ALL-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
; ALL-NEXT: vmovhpd {{.*#+}} xmm0 = xmm0[0],mem[0]		; ALL-NEXT: vmovhpd {{.*#+}} xmm0 = xmm0[0],mem[0]
; ALL-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero		; ALL-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
; ALL-NEXT: vmovhpd {{.*#+}} xmm1 = xmm1[0],mem[0]		; ALL-NEXT: vmovhpd {{.*#+}} xmm1 = xmm1[0],mem[0]
; ALL-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; ALL-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; ALL-NEXT: retq		; ALL-NEXT: retq
%x0 = extractelement <2 x double> %x, i64 %i0		%x0 = extractelement <2 x double> %x, i64 %i0
%x1 = extractelement <2 x double> %x, i64 %i1		%x1 = extractelement <2 x double> %x, i64 %i1
%x2 = extractelement <2 x double> %x, i64 %i2		%x2 = extractelement <2 x double> %x, i64 %i2
%x3 = extractelement <2 x double> %x, i64 %i3		%x3 = extractelement <2 x double> %x, i64 %i3
%r0 = insertelement <4 x double> undef, double %x0, i32 0		%r0 = insertelement <4 x double> undef, double %x0, i32 0
%r1 = insertelement <4 x double> %r0, double %x1, i32 1		%r1 = insertelement <4 x double> %r0, double %x1, i32 1
%r2 = insertelement <4 x double> %r1, double %x2, i32 2		%r2 = insertelement <4 x double> %r1, double %x2, i32 2
%r3 = insertelement <4 x double> %r2, double %x3, i32 3		%r3 = insertelement <4 x double> %r2, double %x3, i32 3
ret <4 x double> %r3		ret <4 x double> %r3
}		}

define <4 x i64> @var_shuffle_v4i64_v4i64_xxxx_i64(<4 x i64> %x, i64 %i0, i64 %i1, i64 %i2, i64 %i3) nounwind {		define <4 x i64> @var_shuffle_v4i64_v4i64_xxxx_i64(<4 x i64> %x, i64 %i0, i64 %i1, i64 %i2, i64 %i3) nounwind {
; AVX1-LABEL: var_shuffle_v4i64_v4i64_xxxx_i64:		; AVX1-LABEL: var_shuffle_v4i64_v4i64_xxxx_i64:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: pushq %rbp		; AVX1-NEXT: pushq %rbp
; AVX1-NEXT: movq %rsp, %rbp		; AVX1-NEXT: movq %rsp, %rbp
; AVX1-NEXT: andq $-32, %rsp		; AVX1-NEXT: andq $-32, %rsp
; AVX1-NEXT: subq $64, %rsp		; AVX1-NEXT: subq $64, %rsp
; AVX1-NEXT: andl $3, %ecx
; AVX1-NEXT: andl $3, %edx
; AVX1-NEXT: andl $3, %esi
; AVX1-NEXT: andl $3, %edi		; AVX1-NEXT: andl $3, %edi
		; AVX1-NEXT: andl $3, %esi
		; AVX1-NEXT: andl $3, %edx
		; AVX1-NEXT: andl $3, %ecx
; AVX1-NEXT: vmovaps %ymm0, (%rsp)		; AVX1-NEXT: vmovaps %ymm0, (%rsp)
; AVX1-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX1-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]		; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; AVX1-NEXT: movq %rbp, %rsp		; AVX1-NEXT: movq %rbp, %rsp
; AVX1-NEXT: popq %rbp		; AVX1-NEXT: popq %rbp
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: var_shuffle_v4i64_v4i64_xxxx_i64:		; AVX2-LABEL: var_shuffle_v4i64_v4i64_xxxx_i64:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: pushq %rbp		; AVX2-NEXT: pushq %rbp
; AVX2-NEXT: movq %rsp, %rbp		; AVX2-NEXT: movq %rsp, %rbp
; AVX2-NEXT: andq $-32, %rsp		; AVX2-NEXT: andq $-32, %rsp
; AVX2-NEXT: subq $64, %rsp		; AVX2-NEXT: subq $64, %rsp
; AVX2-NEXT: andl $3, %ecx
; AVX2-NEXT: andl $3, %edx
; AVX2-NEXT: andl $3, %esi
; AVX2-NEXT: andl $3, %edi		; AVX2-NEXT: andl $3, %edi
		; AVX2-NEXT: andl $3, %esi
		; AVX2-NEXT: andl $3, %edx
		; AVX2-NEXT: andl $3, %ecx
; AVX2-NEXT: vmovaps %ymm0, (%rsp)		; AVX2-NEXT: vmovaps %ymm0, (%rsp)
; AVX2-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX2-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX2-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero		; AVX2-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]		; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0		; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
; AVX2-NEXT: movq %rbp, %rsp		; AVX2-NEXT: movq %rbp, %rsp
; AVX2-NEXT: popq %rbp		; AVX2-NEXT: popq %rbp
; AVX2-NEXT: retq		; AVX2-NEXT: retq
%x0 = extractelement <4 x i64> %x, i64 %i0		%x0 = extractelement <4 x i64> %x, i64 %i0
%x1 = extractelement <4 x i64> %x, i64 %i1		%x1 = extractelement <4 x i64> %x, i64 %i1
%x2 = extractelement <4 x i64> %x, i64 %i2		%x2 = extractelement <4 x i64> %x, i64 %i2
%x3 = extractelement <4 x i64> %x, i64 %i3		%x3 = extractelement <4 x i64> %x, i64 %i3
%r0 = insertelement <4 x i64> undef, i64 %x0, i32 0		%r0 = insertelement <4 x i64> undef, i64 %x0, i32 0
%r1 = insertelement <4 x i64> %r0, i64 %x1, i32 1		%r1 = insertelement <4 x i64> %r0, i64 %x1, i32 1
%r2 = insertelement <4 x i64> %r1, i64 %x2, i32 2		%r2 = insertelement <4 x i64> %r1, i64 %x2, i32 2
%r3 = insertelement <4 x i64> %r2, i64 %x3, i32 3		%r3 = insertelement <4 x i64> %r2, i64 %x3, i32 3
ret <4 x i64> %r3		ret <4 x i64> %r3
}		}

define <4 x i64> @var_shuffle_v4i64_v4i64_xx00_i64(<4 x i64> %x, i64 %i0, i64 %i1, i64 %i2, i64 %i3) nounwind {		define <4 x i64> @var_shuffle_v4i64_v4i64_xx00_i64(<4 x i64> %x, i64 %i0, i64 %i1, i64 %i2, i64 %i3) nounwind {
; AVX1-LABEL: var_shuffle_v4i64_v4i64_xx00_i64:		; AVX1-LABEL: var_shuffle_v4i64_v4i64_xx00_i64:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: pushq %rbp		; AVX1-NEXT: pushq %rbp
; AVX1-NEXT: movq %rsp, %rbp		; AVX1-NEXT: movq %rsp, %rbp
; AVX1-NEXT: andq $-32, %rsp		; AVX1-NEXT: andq $-32, %rsp
; AVX1-NEXT: subq $64, %rsp		; AVX1-NEXT: subq $64, %rsp
; AVX1-NEXT: andl $3, %esi
; AVX1-NEXT: andl $3, %edi		; AVX1-NEXT: andl $3, %edi
		; AVX1-NEXT: andl $3, %esi
; AVX1-NEXT: vmovaps %ymm0, (%rsp)		; AVX1-NEXT: vmovaps %ymm0, (%rsp)
; AVX1-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1		; AVX1-NEXT: vpxor %xmm1, %xmm1, %xmm1
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: movq %rbp, %rsp		; AVX1-NEXT: movq %rbp, %rsp
; AVX1-NEXT: popq %rbp		; AVX1-NEXT: popq %rbp
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: var_shuffle_v4i64_v4i64_xx00_i64:		; AVX2-LABEL: var_shuffle_v4i64_v4i64_xx00_i64:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: pushq %rbp		; AVX2-NEXT: pushq %rbp
; AVX2-NEXT: movq %rsp, %rbp		; AVX2-NEXT: movq %rsp, %rbp
; AVX2-NEXT: andq $-32, %rsp		; AVX2-NEXT: andq $-32, %rsp
; AVX2-NEXT: subq $64, %rsp		; AVX2-NEXT: subq $64, %rsp
; AVX2-NEXT: andl $3, %esi
; AVX2-NEXT: andl $3, %edi		; AVX2-NEXT: andl $3, %edi
		; AVX2-NEXT: andl $3, %esi
; AVX2-NEXT: vmovaps %ymm0, (%rsp)		; AVX2-NEXT: vmovaps %ymm0, (%rsp)
; AVX2-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX2-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1		; AVX2-NEXT: vpxor %xmm1, %xmm1, %xmm1
; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0		; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
; AVX2-NEXT: movq %rbp, %rsp		; AVX2-NEXT: movq %rbp, %rsp
; AVX2-NEXT: popq %rbp		; AVX2-NEXT: popq %rbp
; AVX2-NEXT: retq		; AVX2-NEXT: retq
%x0 = extractelement <4 x i64> %x, i64 %i0		%x0 = extractelement <4 x i64> %x, i64 %i0
%x1 = extractelement <4 x i64> %x, i64 %i1		%x1 = extractelement <4 x i64> %x, i64 %i1
%x2 = extractelement <4 x i64> %x, i64 %i2		%x2 = extractelement <4 x i64> %x, i64 %i2
%x3 = extractelement <4 x i64> %x, i64 %i3		%x3 = extractelement <4 x i64> %x, i64 %i3
%r0 = insertelement <4 x i64> undef, i64 %x0, i32 0		%r0 = insertelement <4 x i64> undef, i64 %x0, i32 0
%r1 = insertelement <4 x i64> %r0, i64 %x1, i32 1		%r1 = insertelement <4 x i64> %r0, i64 %x1, i32 1
%r2 = insertelement <4 x i64> %r1, i64 0, i32 2		%r2 = insertelement <4 x i64> %r1, i64 0, i32 2
%r3 = insertelement <4 x i64> %r2, i64 0, i32 3		%r3 = insertelement <4 x i64> %r2, i64 0, i32 3
ret <4 x i64> %r3		ret <4 x i64> %r3
}		}

define <4 x i64> @var_shuffle_v4i64_v2i64_xxxx_i64(<2 x i64> %x, i64 %i0, i64 %i1, i64 %i2, i64 %i3) nounwind {		define <4 x i64> @var_shuffle_v4i64_v2i64_xxxx_i64(<2 x i64> %x, i64 %i0, i64 %i1, i64 %i2, i64 %i3) nounwind {
; AVX1-LABEL: var_shuffle_v4i64_v2i64_xxxx_i64:		; AVX1-LABEL: var_shuffle_v4i64_v2i64_xxxx_i64:
; AVX1: # BB#0:		; AVX1: # BB#0:
; AVX1-NEXT: andl $1, %ecx
; AVX1-NEXT: andl $1, %edx
; AVX1-NEXT: andl $1, %esi
; AVX1-NEXT: andl $1, %edi		; AVX1-NEXT: andl $1, %edi
		; AVX1-NEXT: andl $1, %esi
		; AVX1-NEXT: andl $1, %edx
		; AVX1-NEXT: andl $1, %ecx
; AVX1-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)		; AVX1-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)
; AVX1-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX1-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]		; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: var_shuffle_v4i64_v2i64_xxxx_i64:		; AVX2-LABEL: var_shuffle_v4i64_v2i64_xxxx_i64:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: andl $1, %ecx
; AVX2-NEXT: andl $1, %edx
; AVX2-NEXT: andl $1, %esi
; AVX2-NEXT: andl $1, %edi		; AVX2-NEXT: andl $1, %edi
		; AVX2-NEXT: andl $1, %esi
		; AVX2-NEXT: andl $1, %edx
		; AVX2-NEXT: andl $1, %ecx
; AVX2-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)		; AVX2-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)
; AVX2-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX2-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0]		; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX2-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero		; AVX2-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]		; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0		; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
%x0 = extractelement <2 x i64> %x, i64 %i0		%x0 = extractelement <2 x i64> %x, i64 %i0
%x1 = extractelement <2 x i64> %x, i64 %i1		%x1 = extractelement <2 x i64> %x, i64 %i1
%x2 = extractelement <2 x i64> %x, i64 %i2		%x2 = extractelement <2 x i64> %x, i64 %i2
%x3 = extractelement <2 x i64> %x, i64 %i3		%x3 = extractelement <2 x i64> %x, i64 %i3
%r0 = insertelement <4 x i64> undef, i64 %x0, i32 0		%r0 = insertelement <4 x i64> undef, i64 %x0, i32 0
%r1 = insertelement <4 x i64> %r0, i64 %x1, i32 1		%r1 = insertelement <4 x i64> %r0, i64 %x1, i32 1
%r2 = insertelement <4 x i64> %r1, i64 %x2, i32 2		%r2 = insertelement <4 x i64> %r1, i64 %x2, i32 2
Show All 21 Lines
; ALL-NEXT: andl $7, %r8d		; ALL-NEXT: andl $7, %r8d
; ALL-NEXT: vmovaps %ymm0, (%rsp)		; ALL-NEXT: vmovaps %ymm0, (%rsp)
; ALL-NEXT: andl $7, %r9d		; ALL-NEXT: andl $7, %r9d
; ALL-NEXT: movl 16(%rbp), %r10d		; ALL-NEXT: movl 16(%rbp), %r10d
; ALL-NEXT: andl $7, %r10d		; ALL-NEXT: andl $7, %r10d
; ALL-NEXT: movl 24(%rbp), %eax		; ALL-NEXT: movl 24(%rbp), %eax
; ALL-NEXT: andl $7, %eax		; ALL-NEXT: andl $7, %eax
; ALL-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; ALL-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
		; ALL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[2,3]
		; ALL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]
		; ALL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],mem[0]
; ALL-NEXT: vmovss {{.*#+}} xmm1 = mem[0],zero,zero,zero		; ALL-NEXT: vmovss {{.*#+}} xmm1 = mem[0],zero,zero,zero
; ALL-NEXT: vmovss {{.*#+}} xmm2 = mem[0],zero,zero,zero		; ALL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0],mem[0],xmm1[2,3]
; ALL-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0],mem[0],xmm2[2,3]		; ALL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],mem[0],xmm1[3]
; ALL-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],mem[0],xmm2[3]		; ALL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1,2],mem[0]
; ALL-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1,2],mem[0]		; ALL-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; ALL-NEXT: vmovss {{.*#+}} xmm3 = mem[0],zero,zero,zero
; ALL-NEXT: vinsertps {{.*#+}} xmm3 = xmm3[0],mem[0],xmm3[2,3]
; ALL-NEXT: vinsertps {{.*#+}} xmm0 = xmm3[0,1],xmm0[0],xmm3[3]
; ALL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[0]
; ALL-NEXT: vinsertf128 $1, %xmm0, %ymm2, %ymm0
; ALL-NEXT: movq %rbp, %rsp		; ALL-NEXT: movq %rbp, %rsp
; ALL-NEXT: popq %rbp		; ALL-NEXT: popq %rbp
; ALL-NEXT: retq		; ALL-NEXT: retq
%x0 = extractelement <8 x float> %x, i32 %i0		%x0 = extractelement <8 x float> %x, i32 %i0
%x1 = extractelement <8 x float> %x, i32 %i1		%x1 = extractelement <8 x float> %x, i32 %i1
%x2 = extractelement <8 x float> %x, i32 %i2		%x2 = extractelement <8 x float> %x, i32 %i2
%x3 = extractelement <8 x float> %x, i32 %i3		%x3 = extractelement <8 x float> %x, i32 %i3
%x4 = extractelement <8 x float> %x, i32 %i4		%x4 = extractelement <8 x float> %x, i32 %i4
Show All 27 Lines
; ALL-NEXT: andl $3, %r8d		; ALL-NEXT: andl $3, %r8d
; ALL-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)		; ALL-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)
; ALL-NEXT: andl $3, %r9d		; ALL-NEXT: andl $3, %r9d
; ALL-NEXT: movl {{[0-9]+}}(%rsp), %r10d		; ALL-NEXT: movl {{[0-9]+}}(%rsp), %r10d
; ALL-NEXT: andl $3, %r10d		; ALL-NEXT: andl $3, %r10d
; ALL-NEXT: movl {{[0-9]+}}(%rsp), %eax		; ALL-NEXT: movl {{[0-9]+}}(%rsp), %eax
; ALL-NEXT: andl $3, %eax		; ALL-NEXT: andl $3, %eax
; ALL-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero		; ALL-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero
		; ALL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[2,3]
		; ALL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]
		; ALL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],mem[0]
; ALL-NEXT: vmovss {{.*#+}} xmm1 = mem[0],zero,zero,zero		; ALL-NEXT: vmovss {{.*#+}} xmm1 = mem[0],zero,zero,zero
; ALL-NEXT: vmovss {{.*#+}} xmm2 = mem[0],zero,zero,zero		; ALL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0],mem[0],xmm1[2,3]
; ALL-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0],mem[0],xmm2[2,3]		; ALL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1],mem[0],xmm1[3]
; ALL-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1],mem[0],xmm2[3]		; ALL-NEXT: vinsertps {{.*#+}} xmm1 = xmm1[0,1,2],mem[0]
; ALL-NEXT: vinsertps {{.*#+}} xmm2 = xmm2[0,1,2],mem[0]		; ALL-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; ALL-NEXT: vmovss {{.*#+}} xmm3 = mem[0],zero,zero,zero
; ALL-NEXT: vinsertps {{.*#+}} xmm3 = xmm3[0],mem[0],xmm3[2,3]
; ALL-NEXT: vinsertps {{.*#+}} xmm0 = xmm3[0,1],xmm0[0],xmm3[3]
; ALL-NEXT: vinsertps {{.*#+}} xmm0 = xmm0[0,1,2],xmm1[0]
; ALL-NEXT: vinsertf128 $1, %xmm0, %ymm2, %ymm0
; ALL-NEXT: retq		; ALL-NEXT: retq
%x0 = extractelement <4 x float> %x, i32 %i0		%x0 = extractelement <4 x float> %x, i32 %i0
%x1 = extractelement <4 x float> %x, i32 %i1		%x1 = extractelement <4 x float> %x, i32 %i1
%x2 = extractelement <4 x float> %x, i32 %i2		%x2 = extractelement <4 x float> %x, i32 %i2
%x3 = extractelement <4 x float> %x, i32 %i3		%x3 = extractelement <4 x float> %x, i32 %i3
%x4 = extractelement <4 x float> %x, i32 %i4		%x4 = extractelement <4 x float> %x, i32 %i4
%x5 = extractelement <4 x float> %x, i32 %i5		%x5 = extractelement <4 x float> %x, i32 %i5
%x6 = extractelement <4 x float> %x, i32 %i6		%x6 = extractelement <4 x float> %x, i32 %i6
Show All 24 Lines
; AVX1-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>		; AVX1-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
; AVX1-NEXT: vmovaps %ymm0, (%rsp)		; AVX1-NEXT: vmovaps %ymm0, (%rsp)
; AVX1-NEXT: movl 32(%rbp), %eax		; AVX1-NEXT: movl 32(%rbp), %eax
; AVX1-NEXT: andl $15, %eax		; AVX1-NEXT: andl $15, %eax
; AVX1-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX1-NEXT: movzwl (%rsp,%rax,2), %eax
; AVX1-NEXT: vmovd %eax, %xmm0		; AVX1-NEXT: vmovd %eax, %xmm0
; AVX1-NEXT: movl 40(%rbp), %eax		; AVX1-NEXT: movl 40(%rbp), %eax
; AVX1-NEXT: andl $15, %eax		; AVX1-NEXT: andl $15, %eax
; AVX1-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX1-NEXT: vpinsrw $1, (%rsp,%rax,2), %xmm0, %xmm0
; AVX1-NEXT: vpinsrw $1, %eax, %xmm0, %xmm0
; AVX1-NEXT: movl 48(%rbp), %eax		; AVX1-NEXT: movl 48(%rbp), %eax
; AVX1-NEXT: andl $15, %eax		; AVX1-NEXT: andl $15, %eax
; AVX1-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX1-NEXT: vpinsrw $2, (%rsp,%rax,2), %xmm0, %xmm0
; AVX1-NEXT: vpinsrw $2, %eax, %xmm0, %xmm0
; AVX1-NEXT: movl 56(%rbp), %eax		; AVX1-NEXT: movl 56(%rbp), %eax
; AVX1-NEXT: andl $15, %eax		; AVX1-NEXT: andl $15, %eax
; AVX1-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX1-NEXT: vpinsrw $3, (%rsp,%rax,2), %xmm0, %xmm0
; AVX1-NEXT: vpinsrw $3, %eax, %xmm0, %xmm0
; AVX1-NEXT: movl 64(%rbp), %eax		; AVX1-NEXT: movl 64(%rbp), %eax
; AVX1-NEXT: andl $15, %eax		; AVX1-NEXT: andl $15, %eax
; AVX1-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX1-NEXT: vpinsrw $4, (%rsp,%rax,2), %xmm0, %xmm0
; AVX1-NEXT: vpinsrw $4, %eax, %xmm0, %xmm0
; AVX1-NEXT: movl 72(%rbp), %eax		; AVX1-NEXT: movl 72(%rbp), %eax
; AVX1-NEXT: andl $15, %eax		; AVX1-NEXT: andl $15, %eax
; AVX1-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX1-NEXT: vpinsrw $5, (%rsp,%rax,2), %xmm0, %xmm0
; AVX1-NEXT: vpinsrw $5, %eax, %xmm0, %xmm0
; AVX1-NEXT: movl 80(%rbp), %eax		; AVX1-NEXT: movl 80(%rbp), %eax
; AVX1-NEXT: andl $15, %eax		; AVX1-NEXT: andl $15, %eax
; AVX1-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX1-NEXT: vpinsrw $6, (%rsp,%rax,2), %xmm0, %xmm0
; AVX1-NEXT: vpinsrw $6, %eax, %xmm0, %xmm0
; AVX1-NEXT: movl 88(%rbp), %eax		; AVX1-NEXT: movl 88(%rbp), %eax
; AVX1-NEXT: andl $15, %eax		; AVX1-NEXT: andl $15, %eax
; AVX1-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX1-NEXT: vpinsrw $7, (%rsp,%rax,2), %xmm0, %xmm0
; AVX1-NEXT: vpinsrw $7, %eax, %xmm0, %xmm0
; AVX1-NEXT: andl $15, %edi		; AVX1-NEXT: andl $15, %edi
; AVX1-NEXT: movzwl (%rsp,%rdi,2), %eax		; AVX1-NEXT: movzwl (%rsp,%rdi,2), %eax
; AVX1-NEXT: vmovd %eax, %xmm1		; AVX1-NEXT: vmovd %eax, %xmm1
; AVX1-NEXT: andl $15, %esi		; AVX1-NEXT: andl $15, %esi
; AVX1-NEXT: vpinsrw $1, (%rsp,%rsi,2), %xmm1, %xmm1		; AVX1-NEXT: vpinsrw $1, (%rsp,%rsi,2), %xmm1, %xmm1
; AVX1-NEXT: andl $15, %edx		; AVX1-NEXT: andl $15, %edx
; AVX1-NEXT: vpinsrw $2, (%rsp,%rdx,2), %xmm1, %xmm1		; AVX1-NEXT: vpinsrw $2, (%rsp,%rdx,2), %xmm1, %xmm1
; AVX1-NEXT: andl $15, %ecx		; AVX1-NEXT: andl $15, %ecx
; AVX1-NEXT: vpinsrw $3, (%rsp,%rcx,2), %xmm1, %xmm1		; AVX1-NEXT: vpinsrw $3, (%rsp,%rcx,2), %xmm1, %xmm1
; AVX1-NEXT: andl $15, %r8d		; AVX1-NEXT: andl $15, %r8d
; AVX1-NEXT: vpinsrw $4, (%rsp,%r8,2), %xmm1, %xmm1		; AVX1-NEXT: vpinsrw $4, (%rsp,%r8,2), %xmm1, %xmm1
; AVX1-NEXT: andl $15, %r9d		; AVX1-NEXT: andl $15, %r9d
; AVX1-NEXT: vpinsrw $5, (%rsp,%r9,2), %xmm1, %xmm1		; AVX1-NEXT: vpinsrw $5, (%rsp,%r9,2), %xmm1, %xmm1
; AVX1-NEXT: movl 16(%rbp), %eax		; AVX1-NEXT: movl 16(%rbp), %eax
; AVX1-NEXT: andl $15, %eax		; AVX1-NEXT: andl $15, %eax
; AVX1-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX1-NEXT: vpinsrw $6, (%rsp,%rax,2), %xmm1, %xmm1
; AVX1-NEXT: vpinsrw $6, %eax, %xmm1, %xmm1
; AVX1-NEXT: movl 24(%rbp), %eax		; AVX1-NEXT: movl 24(%rbp), %eax
; AVX1-NEXT: andl $15, %eax		; AVX1-NEXT: andl $15, %eax
; AVX1-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX1-NEXT: vpinsrw $7, (%rsp,%rax,2), %xmm1, %xmm1
; AVX1-NEXT: vpinsrw $7, %eax, %xmm1, %xmm1
; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; AVX1-NEXT: movq %rbp, %rsp		; AVX1-NEXT: movq %rbp, %rsp
; AVX1-NEXT: popq %rbp		; AVX1-NEXT: popq %rbp
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: var_shuffle_v16i16_v16i16_xxxxxxxxxxxxxxxx_i16:		; AVX2-LABEL: var_shuffle_v16i16_v16i16_xxxxxxxxxxxxxxxx_i16:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: pushq %rbp		; AVX2-NEXT: pushq %rbp
; AVX2-NEXT: movq %rsp, %rbp		; AVX2-NEXT: movq %rsp, %rbp
; AVX2-NEXT: andq $-32, %rsp		; AVX2-NEXT: andq $-32, %rsp
; AVX2-NEXT: subq $64, %rsp		; AVX2-NEXT: subq $64, %rsp
; AVX2-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>		; AVX2-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>
; AVX2-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>		; AVX2-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>
; AVX2-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>		; AVX2-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
; AVX2-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>		; AVX2-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
; AVX2-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>		; AVX2-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>
; AVX2-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>		; AVX2-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
; AVX2-NEXT: vmovaps %ymm0, (%rsp)		; AVX2-NEXT: vmovaps %ymm0, (%rsp)
; AVX2-NEXT: movl 32(%rbp), %eax		; AVX2-NEXT: movl 32(%rbp), %eax
; AVX2-NEXT: andl $15, %eax		; AVX2-NEXT: andl $15, %eax
; AVX2-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX2-NEXT: movzwl (%rsp,%rax,2), %eax
; AVX2-NEXT: vmovd %eax, %xmm0		; AVX2-NEXT: vmovd %eax, %xmm0
; AVX2-NEXT: movl 40(%rbp), %eax		; AVX2-NEXT: movl 40(%rbp), %eax
; AVX2-NEXT: andl $15, %eax		; AVX2-NEXT: andl $15, %eax
; AVX2-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX2-NEXT: vpinsrw $1, (%rsp,%rax,2), %xmm0, %xmm0
; AVX2-NEXT: vpinsrw $1, %eax, %xmm0, %xmm0
; AVX2-NEXT: movl 48(%rbp), %eax		; AVX2-NEXT: movl 48(%rbp), %eax
; AVX2-NEXT: andl $15, %eax		; AVX2-NEXT: andl $15, %eax
; AVX2-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX2-NEXT: vpinsrw $2, (%rsp,%rax,2), %xmm0, %xmm0
; AVX2-NEXT: vpinsrw $2, %eax, %xmm0, %xmm0
; AVX2-NEXT: movl 56(%rbp), %eax		; AVX2-NEXT: movl 56(%rbp), %eax
; AVX2-NEXT: andl $15, %eax		; AVX2-NEXT: andl $15, %eax
; AVX2-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX2-NEXT: vpinsrw $3, (%rsp,%rax,2), %xmm0, %xmm0
; AVX2-NEXT: vpinsrw $3, %eax, %xmm0, %xmm0
; AVX2-NEXT: movl 64(%rbp), %eax		; AVX2-NEXT: movl 64(%rbp), %eax
; AVX2-NEXT: andl $15, %eax		; AVX2-NEXT: andl $15, %eax
; AVX2-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX2-NEXT: vpinsrw $4, (%rsp,%rax,2), %xmm0, %xmm0
; AVX2-NEXT: vpinsrw $4, %eax, %xmm0, %xmm0
; AVX2-NEXT: movl 72(%rbp), %eax		; AVX2-NEXT: movl 72(%rbp), %eax
; AVX2-NEXT: andl $15, %eax		; AVX2-NEXT: andl $15, %eax
; AVX2-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX2-NEXT: vpinsrw $5, (%rsp,%rax,2), %xmm0, %xmm0
; AVX2-NEXT: vpinsrw $5, %eax, %xmm0, %xmm0
; AVX2-NEXT: movl 80(%rbp), %eax		; AVX2-NEXT: movl 80(%rbp), %eax
; AVX2-NEXT: andl $15, %eax		; AVX2-NEXT: andl $15, %eax
; AVX2-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX2-NEXT: vpinsrw $6, (%rsp,%rax,2), %xmm0, %xmm0
; AVX2-NEXT: vpinsrw $6, %eax, %xmm0, %xmm0
; AVX2-NEXT: movl 88(%rbp), %eax		; AVX2-NEXT: movl 88(%rbp), %eax
; AVX2-NEXT: andl $15, %eax		; AVX2-NEXT: andl $15, %eax
; AVX2-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX2-NEXT: vpinsrw $7, (%rsp,%rax,2), %xmm0, %xmm0
; AVX2-NEXT: vpinsrw $7, %eax, %xmm0, %xmm0
; AVX2-NEXT: andl $15, %edi		; AVX2-NEXT: andl $15, %edi
; AVX2-NEXT: movzwl (%rsp,%rdi,2), %eax		; AVX2-NEXT: movzwl (%rsp,%rdi,2), %eax
; AVX2-NEXT: vmovd %eax, %xmm1		; AVX2-NEXT: vmovd %eax, %xmm1
; AVX2-NEXT: andl $15, %esi		; AVX2-NEXT: andl $15, %esi
; AVX2-NEXT: vpinsrw $1, (%rsp,%rsi,2), %xmm1, %xmm1		; AVX2-NEXT: vpinsrw $1, (%rsp,%rsi,2), %xmm1, %xmm1
; AVX2-NEXT: andl $15, %edx		; AVX2-NEXT: andl $15, %edx
; AVX2-NEXT: vpinsrw $2, (%rsp,%rdx,2), %xmm1, %xmm1		; AVX2-NEXT: vpinsrw $2, (%rsp,%rdx,2), %xmm1, %xmm1
; AVX2-NEXT: andl $15, %ecx		; AVX2-NEXT: andl $15, %ecx
; AVX2-NEXT: vpinsrw $3, (%rsp,%rcx,2), %xmm1, %xmm1		; AVX2-NEXT: vpinsrw $3, (%rsp,%rcx,2), %xmm1, %xmm1
; AVX2-NEXT: andl $15, %r8d		; AVX2-NEXT: andl $15, %r8d
; AVX2-NEXT: vpinsrw $4, (%rsp,%r8,2), %xmm1, %xmm1		; AVX2-NEXT: vpinsrw $4, (%rsp,%r8,2), %xmm1, %xmm1
; AVX2-NEXT: andl $15, %r9d		; AVX2-NEXT: andl $15, %r9d
; AVX2-NEXT: vpinsrw $5, (%rsp,%r9,2), %xmm1, %xmm1		; AVX2-NEXT: vpinsrw $5, (%rsp,%r9,2), %xmm1, %xmm1
; AVX2-NEXT: movl 16(%rbp), %eax		; AVX2-NEXT: movl 16(%rbp), %eax
; AVX2-NEXT: andl $15, %eax		; AVX2-NEXT: andl $15, %eax
; AVX2-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX2-NEXT: vpinsrw $6, (%rsp,%rax,2), %xmm1, %xmm1
; AVX2-NEXT: vpinsrw $6, %eax, %xmm1, %xmm1
; AVX2-NEXT: movl 24(%rbp), %eax		; AVX2-NEXT: movl 24(%rbp), %eax
; AVX2-NEXT: andl $15, %eax		; AVX2-NEXT: andl $15, %eax
; AVX2-NEXT: movzwl (%rsp,%rax,2), %eax		; AVX2-NEXT: vpinsrw $7, (%rsp,%rax,2), %xmm1, %xmm1
; AVX2-NEXT: vpinsrw $7, %eax, %xmm1, %xmm1
; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0		; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
; AVX2-NEXT: movq %rbp, %rsp		; AVX2-NEXT: movq %rbp, %rsp
; AVX2-NEXT: popq %rbp		; AVX2-NEXT: popq %rbp
; AVX2-NEXT: retq		; AVX2-NEXT: retq
%x0 = extractelement <16 x i16> %x, i32 %i0		%x0 = extractelement <16 x i16> %x, i32 %i0
%x1 = extractelement <16 x i16> %x, i32 %i1		%x1 = extractelement <16 x i16> %x, i32 %i1
%x2 = extractelement <16 x i16> %x, i32 %i2		%x2 = extractelement <16 x i16> %x, i32 %i2
%x3 = extractelement <16 x i16> %x, i32 %i3		%x3 = extractelement <16 x i16> %x, i32 %i3
Show All 39 Lines
; AVX1-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>		; AVX1-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
; AVX1-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)		; AVX1-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)
; AVX1-NEXT: movl {{[0-9]+}}(%rsp), %eax		; AVX1-NEXT: movl {{[0-9]+}}(%rsp), %eax
; AVX1-NEXT: andl $7, %eax		; AVX1-NEXT: andl $7, %eax
; AVX1-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX1-NEXT: movzwl -24(%rsp,%rax,2), %eax
; AVX1-NEXT: vmovd %eax, %xmm0		; AVX1-NEXT: vmovd %eax, %xmm0
; AVX1-NEXT: movl {{[0-9]+}}(%rsp), %eax		; AVX1-NEXT: movl {{[0-9]+}}(%rsp), %eax
; AVX1-NEXT: andl $7, %eax		; AVX1-NEXT: andl $7, %eax
; AVX1-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX1-NEXT: vpinsrw $1, -24(%rsp,%rax,2), %xmm0, %xmm0
; AVX1-NEXT: vpinsrw $1, %eax, %xmm0, %xmm0
; AVX1-NEXT: movl {{[0-9]+}}(%rsp), %eax		; AVX1-NEXT: movl {{[0-9]+}}(%rsp), %eax
; AVX1-NEXT: andl $7, %eax		; AVX1-NEXT: andl $7, %eax
; AVX1-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX1-NEXT: vpinsrw $2, -24(%rsp,%rax,2), %xmm0, %xmm0
; AVX1-NEXT: vpinsrw $2, %eax, %xmm0, %xmm0
; AVX1-NEXT: movl {{[0-9]+}}(%rsp), %eax		; AVX1-NEXT: movl {{[0-9]+}}(%rsp), %eax
; AVX1-NEXT: andl $7, %eax		; AVX1-NEXT: andl $7, %eax
; AVX1-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX1-NEXT: vpinsrw $3, -24(%rsp,%rax,2), %xmm0, %xmm0
; AVX1-NEXT: vpinsrw $3, %eax, %xmm0, %xmm0
; AVX1-NEXT: movl {{[0-9]+}}(%rsp), %eax		; AVX1-NEXT: movl {{[0-9]+}}(%rsp), %eax
; AVX1-NEXT: andl $7, %eax		; AVX1-NEXT: andl $7, %eax
; AVX1-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX1-NEXT: vpinsrw $4, -24(%rsp,%rax,2), %xmm0, %xmm0
; AVX1-NEXT: vpinsrw $4, %eax, %xmm0, %xmm0
; AVX1-NEXT: movl {{[0-9]+}}(%rsp), %eax		; AVX1-NEXT: movl {{[0-9]+}}(%rsp), %eax
; AVX1-NEXT: andl $7, %eax		; AVX1-NEXT: andl $7, %eax
; AVX1-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX1-NEXT: vpinsrw $5, -24(%rsp,%rax,2), %xmm0, %xmm0
; AVX1-NEXT: vpinsrw $5, %eax, %xmm0, %xmm0
; AVX1-NEXT: movl {{[0-9]+}}(%rsp), %eax		; AVX1-NEXT: movl {{[0-9]+}}(%rsp), %eax
; AVX1-NEXT: andl $7, %eax		; AVX1-NEXT: andl $7, %eax
; AVX1-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX1-NEXT: vpinsrw $6, -24(%rsp,%rax,2), %xmm0, %xmm0
; AVX1-NEXT: vpinsrw $6, %eax, %xmm0, %xmm0
; AVX1-NEXT: movl {{[0-9]+}}(%rsp), %eax		; AVX1-NEXT: movl {{[0-9]+}}(%rsp), %eax
; AVX1-NEXT: andl $7, %eax		; AVX1-NEXT: andl $7, %eax
; AVX1-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX1-NEXT: vpinsrw $7, -24(%rsp,%rax,2), %xmm0, %xmm0
; AVX1-NEXT: vpinsrw $7, %eax, %xmm0, %xmm0
; AVX1-NEXT: andl $7, %edi		; AVX1-NEXT: andl $7, %edi
; AVX1-NEXT: movzwl -24(%rsp,%rdi,2), %eax		; AVX1-NEXT: movzwl -24(%rsp,%rdi,2), %eax
; AVX1-NEXT: vmovd %eax, %xmm1		; AVX1-NEXT: vmovd %eax, %xmm1
; AVX1-NEXT: andl $7, %esi		; AVX1-NEXT: andl $7, %esi
; AVX1-NEXT: vpinsrw $1, -24(%rsp,%rsi,2), %xmm1, %xmm1		; AVX1-NEXT: vpinsrw $1, -24(%rsp,%rsi,2), %xmm1, %xmm1
; AVX1-NEXT: andl $7, %edx		; AVX1-NEXT: andl $7, %edx
; AVX1-NEXT: vpinsrw $2, -24(%rsp,%rdx,2), %xmm1, %xmm1		; AVX1-NEXT: vpinsrw $2, -24(%rsp,%rdx,2), %xmm1, %xmm1
; AVX1-NEXT: andl $7, %ecx		; AVX1-NEXT: andl $7, %ecx
; AVX1-NEXT: vpinsrw $3, -24(%rsp,%rcx,2), %xmm1, %xmm1		; AVX1-NEXT: vpinsrw $3, -24(%rsp,%rcx,2), %xmm1, %xmm1
; AVX1-NEXT: andl $7, %r8d		; AVX1-NEXT: andl $7, %r8d
; AVX1-NEXT: vpinsrw $4, -24(%rsp,%r8,2), %xmm1, %xmm1		; AVX1-NEXT: vpinsrw $4, -24(%rsp,%r8,2), %xmm1, %xmm1
; AVX1-NEXT: andl $7, %r9d		; AVX1-NEXT: andl $7, %r9d
; AVX1-NEXT: vpinsrw $5, -24(%rsp,%r9,2), %xmm1, %xmm1		; AVX1-NEXT: vpinsrw $5, -24(%rsp,%r9,2), %xmm1, %xmm1
; AVX1-NEXT: movl {{[0-9]+}}(%rsp), %eax		; AVX1-NEXT: movl {{[0-9]+}}(%rsp), %eax
; AVX1-NEXT: andl $7, %eax		; AVX1-NEXT: andl $7, %eax
; AVX1-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX1-NEXT: vpinsrw $6, -24(%rsp,%rax,2), %xmm1, %xmm1
; AVX1-NEXT: vpinsrw $6, %eax, %xmm1, %xmm1
; AVX1-NEXT: movl {{[0-9]+}}(%rsp), %eax		; AVX1-NEXT: movl {{[0-9]+}}(%rsp), %eax
; AVX1-NEXT: andl $7, %eax		; AVX1-NEXT: andl $7, %eax
; AVX1-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX1-NEXT: vpinsrw $7, -24(%rsp,%rax,2), %xmm1, %xmm1
; AVX1-NEXT: vpinsrw $7, %eax, %xmm1, %xmm1
; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0		; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: var_shuffle_v16i16_v8i16_xxxxxxxxxxxxxxxx_i16:		; AVX2-LABEL: var_shuffle_v16i16_v8i16_xxxxxxxxxxxxxxxx_i16:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>		; AVX2-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>
; AVX2-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>		; AVX2-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>
; AVX2-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>		; AVX2-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
; AVX2-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>		; AVX2-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
; AVX2-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>		; AVX2-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>
; AVX2-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>		; AVX2-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
; AVX2-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)		; AVX2-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)
; AVX2-NEXT: movl {{[0-9]+}}(%rsp), %eax		; AVX2-NEXT: movl {{[0-9]+}}(%rsp), %eax
; AVX2-NEXT: andl $7, %eax		; AVX2-NEXT: andl $7, %eax
; AVX2-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX2-NEXT: movzwl -24(%rsp,%rax,2), %eax
; AVX2-NEXT: vmovd %eax, %xmm0		; AVX2-NEXT: vmovd %eax, %xmm0
; AVX2-NEXT: movl {{[0-9]+}}(%rsp), %eax		; AVX2-NEXT: movl {{[0-9]+}}(%rsp), %eax
; AVX2-NEXT: andl $7, %eax		; AVX2-NEXT: andl $7, %eax
; AVX2-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX2-NEXT: vpinsrw $1, -24(%rsp,%rax,2), %xmm0, %xmm0
; AVX2-NEXT: vpinsrw $1, %eax, %xmm0, %xmm0
; AVX2-NEXT: movl {{[0-9]+}}(%rsp), %eax		; AVX2-NEXT: movl {{[0-9]+}}(%rsp), %eax
; AVX2-NEXT: andl $7, %eax		; AVX2-NEXT: andl $7, %eax
; AVX2-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX2-NEXT: vpinsrw $2, -24(%rsp,%rax,2), %xmm0, %xmm0
; AVX2-NEXT: vpinsrw $2, %eax, %xmm0, %xmm0
; AVX2-NEXT: movl {{[0-9]+}}(%rsp), %eax		; AVX2-NEXT: movl {{[0-9]+}}(%rsp), %eax
; AVX2-NEXT: andl $7, %eax		; AVX2-NEXT: andl $7, %eax
; AVX2-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX2-NEXT: vpinsrw $3, -24(%rsp,%rax,2), %xmm0, %xmm0
; AVX2-NEXT: vpinsrw $3, %eax, %xmm0, %xmm0
; AVX2-NEXT: movl {{[0-9]+}}(%rsp), %eax		; AVX2-NEXT: movl {{[0-9]+}}(%rsp), %eax
; AVX2-NEXT: andl $7, %eax		; AVX2-NEXT: andl $7, %eax
; AVX2-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX2-NEXT: vpinsrw $4, -24(%rsp,%rax,2), %xmm0, %xmm0
; AVX2-NEXT: vpinsrw $4, %eax, %xmm0, %xmm0
; AVX2-NEXT: movl {{[0-9]+}}(%rsp), %eax		; AVX2-NEXT: movl {{[0-9]+}}(%rsp), %eax
; AVX2-NEXT: andl $7, %eax		; AVX2-NEXT: andl $7, %eax
; AVX2-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX2-NEXT: vpinsrw $5, -24(%rsp,%rax,2), %xmm0, %xmm0
; AVX2-NEXT: vpinsrw $5, %eax, %xmm0, %xmm0
; AVX2-NEXT: movl {{[0-9]+}}(%rsp), %eax		; AVX2-NEXT: movl {{[0-9]+}}(%rsp), %eax
; AVX2-NEXT: andl $7, %eax		; AVX2-NEXT: andl $7, %eax
; AVX2-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX2-NEXT: vpinsrw $6, -24(%rsp,%rax,2), %xmm0, %xmm0
; AVX2-NEXT: vpinsrw $6, %eax, %xmm0, %xmm0
; AVX2-NEXT: movl {{[0-9]+}}(%rsp), %eax		; AVX2-NEXT: movl {{[0-9]+}}(%rsp), %eax
; AVX2-NEXT: andl $7, %eax		; AVX2-NEXT: andl $7, %eax
; AVX2-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX2-NEXT: vpinsrw $7, -24(%rsp,%rax,2), %xmm0, %xmm0
; AVX2-NEXT: vpinsrw $7, %eax, %xmm0, %xmm0
; AVX2-NEXT: andl $7, %edi		; AVX2-NEXT: andl $7, %edi
; AVX2-NEXT: movzwl -24(%rsp,%rdi,2), %eax		; AVX2-NEXT: movzwl -24(%rsp,%rdi,2), %eax
; AVX2-NEXT: vmovd %eax, %xmm1		; AVX2-NEXT: vmovd %eax, %xmm1
; AVX2-NEXT: andl $7, %esi		; AVX2-NEXT: andl $7, %esi
; AVX2-NEXT: vpinsrw $1, -24(%rsp,%rsi,2), %xmm1, %xmm1		; AVX2-NEXT: vpinsrw $1, -24(%rsp,%rsi,2), %xmm1, %xmm1
; AVX2-NEXT: andl $7, %edx		; AVX2-NEXT: andl $7, %edx
; AVX2-NEXT: vpinsrw $2, -24(%rsp,%rdx,2), %xmm1, %xmm1		; AVX2-NEXT: vpinsrw $2, -24(%rsp,%rdx,2), %xmm1, %xmm1
; AVX2-NEXT: andl $7, %ecx		; AVX2-NEXT: andl $7, %ecx
; AVX2-NEXT: vpinsrw $3, -24(%rsp,%rcx,2), %xmm1, %xmm1		; AVX2-NEXT: vpinsrw $3, -24(%rsp,%rcx,2), %xmm1, %xmm1
; AVX2-NEXT: andl $7, %r8d		; AVX2-NEXT: andl $7, %r8d
; AVX2-NEXT: vpinsrw $4, -24(%rsp,%r8,2), %xmm1, %xmm1		; AVX2-NEXT: vpinsrw $4, -24(%rsp,%r8,2), %xmm1, %xmm1
; AVX2-NEXT: andl $7, %r9d		; AVX2-NEXT: andl $7, %r9d
; AVX2-NEXT: vpinsrw $5, -24(%rsp,%r9,2), %xmm1, %xmm1		; AVX2-NEXT: vpinsrw $5, -24(%rsp,%r9,2), %xmm1, %xmm1
; AVX2-NEXT: movl {{[0-9]+}}(%rsp), %eax		; AVX2-NEXT: movl {{[0-9]+}}(%rsp), %eax
; AVX2-NEXT: andl $7, %eax		; AVX2-NEXT: andl $7, %eax
; AVX2-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX2-NEXT: vpinsrw $6, -24(%rsp,%rax,2), %xmm1, %xmm1
; AVX2-NEXT: vpinsrw $6, %eax, %xmm1, %xmm1
; AVX2-NEXT: movl {{[0-9]+}}(%rsp), %eax		; AVX2-NEXT: movl {{[0-9]+}}(%rsp), %eax
; AVX2-NEXT: andl $7, %eax		; AVX2-NEXT: andl $7, %eax
; AVX2-NEXT: movzwl -24(%rsp,%rax,2), %eax		; AVX2-NEXT: vpinsrw $7, -24(%rsp,%rax,2), %xmm1, %xmm1
; AVX2-NEXT: vpinsrw $7, %eax, %xmm1, %xmm1
; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0		; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
%x0 = extractelement <8 x i16> %x, i32 %i0		%x0 = extractelement <8 x i16> %x, i32 %i0
%x1 = extractelement <8 x i16> %x, i32 %i1		%x1 = extractelement <8 x i16> %x, i32 %i1
%x2 = extractelement <8 x i16> %x, i32 %i2		%x2 = extractelement <8 x i16> %x, i32 %i2
%x3 = extractelement <8 x i16> %x, i32 %i3		%x3 = extractelement <8 x i16> %x, i32 %i3
%x4 = extractelement <8 x i16> %x, i32 %i4		%x4 = extractelement <8 x i16> %x, i32 %i4
%x5 = extractelement <8 x i16> %x, i32 %i5		%x5 = extractelement <8 x i16> %x, i32 %i5
▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
; AVX1-NEXT: andl $3, %ecx		; AVX1-NEXT: andl $3, %ecx
; AVX1-NEXT: movq 16(%rdi), %rdx		; AVX1-NEXT: movq 16(%rdi), %rdx
; AVX1-NEXT: andl $3, %edx		; AVX1-NEXT: andl $3, %edx
; AVX1-NEXT: movq 24(%rdi), %rsi		; AVX1-NEXT: movq 24(%rdi), %rsi
; AVX1-NEXT: andl $3, %esi		; AVX1-NEXT: andl $3, %esi
; AVX1-NEXT: vmovaps %ymm0, (%rsp)		; AVX1-NEXT: vmovaps %ymm0, (%rsp)
; AVX1-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
		; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
		; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX1-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]		; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
; AVX1-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero		; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: movq %rbp, %rsp		; AVX1-NEXT: movq %rbp, %rsp
; AVX1-NEXT: popq %rbp		; AVX1-NEXT: popq %rbp
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: mem_shuffle_v4i64_v4i64_xxxx_i64:		; AVX2-LABEL: mem_shuffle_v4i64_v4i64_xxxx_i64:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: pushq %rbp		; AVX2-NEXT: pushq %rbp
; AVX2-NEXT: movq %rsp, %rbp		; AVX2-NEXT: movq %rsp, %rbp
; AVX2-NEXT: andq $-32, %rsp		; AVX2-NEXT: andq $-32, %rsp
; AVX2-NEXT: subq $64, %rsp		; AVX2-NEXT: subq $64, %rsp
; AVX2-NEXT: movq (%rdi), %rax		; AVX2-NEXT: movq (%rdi), %rax
; AVX2-NEXT: movq 8(%rdi), %rcx		; AVX2-NEXT: movq 8(%rdi), %rcx
; AVX2-NEXT: andl $3, %eax		; AVX2-NEXT: andl $3, %eax
; AVX2-NEXT: andl $3, %ecx		; AVX2-NEXT: andl $3, %ecx
; AVX2-NEXT: movq 16(%rdi), %rdx		; AVX2-NEXT: movq 16(%rdi), %rdx
; AVX2-NEXT: andl $3, %edx		; AVX2-NEXT: andl $3, %edx
; AVX2-NEXT: movq 24(%rdi), %rsi		; AVX2-NEXT: movq 24(%rdi), %rsi
; AVX2-NEXT: andl $3, %esi		; AVX2-NEXT: andl $3, %esi
; AVX2-NEXT: vmovaps %ymm0, (%rsp)		; AVX2-NEXT: vmovaps %ymm0, (%rsp)
; AVX2-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX2-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
		; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
		; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX2-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero		; AVX2-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]		; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
; AVX2-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero		; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
; AVX2-NEXT: movq %rbp, %rsp		; AVX2-NEXT: movq %rbp, %rsp
; AVX2-NEXT: popq %rbp		; AVX2-NEXT: popq %rbp
; AVX2-NEXT: retq		; AVX2-NEXT: retq
%p0 = getelementptr inbounds i64, i64* %i, i32 0		%p0 = getelementptr inbounds i64, i64* %i, i32 0
%p1 = getelementptr inbounds i64, i64* %i, i32 1		%p1 = getelementptr inbounds i64, i64* %i, i32 1
%p2 = getelementptr inbounds i64, i64* %i, i32 2		%p2 = getelementptr inbounds i64, i64* %i, i32 2
%p3 = getelementptr inbounds i64, i64* %i, i32 3		%p3 = getelementptr inbounds i64, i64* %i, i32 3
%i0 = load i64, i64* %p0, align 4		%i0 = load i64, i64* %p0, align 4
Show All 20 Lines
; AVX1-NEXT: andl $1, %ecx		; AVX1-NEXT: andl $1, %ecx
; AVX1-NEXT: movq 16(%rdi), %rdx		; AVX1-NEXT: movq 16(%rdi), %rdx
; AVX1-NEXT: andl $1, %edx		; AVX1-NEXT: andl $1, %edx
; AVX1-NEXT: movq 24(%rdi), %rsi		; AVX1-NEXT: movq 24(%rdi), %rsi
; AVX1-NEXT: andl $1, %esi		; AVX1-NEXT: andl $1, %esi
; AVX1-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)		; AVX1-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)
; AVX1-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
		; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
		; AVX1-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX1-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero		; AVX1-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]		; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
; AVX1-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero		; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
; AVX1-NEXT: retq		; AVX1-NEXT: retq
;		;
; AVX2-LABEL: mem_shuffle_v4i64_v2i64_xxxx_i64:		; AVX2-LABEL: mem_shuffle_v4i64_v2i64_xxxx_i64:
; AVX2: # BB#0:		; AVX2: # BB#0:
; AVX2-NEXT: movq (%rdi), %rax		; AVX2-NEXT: movq (%rdi), %rax
; AVX2-NEXT: movq 8(%rdi), %rcx		; AVX2-NEXT: movq 8(%rdi), %rcx
; AVX2-NEXT: andl $1, %eax		; AVX2-NEXT: andl $1, %eax
; AVX2-NEXT: andl $1, %ecx		; AVX2-NEXT: andl $1, %ecx
; AVX2-NEXT: movq 16(%rdi), %rdx		; AVX2-NEXT: movq 16(%rdi), %rdx
; AVX2-NEXT: andl $1, %edx		; AVX2-NEXT: andl $1, %edx
; AVX2-NEXT: movq 24(%rdi), %rsi		; AVX2-NEXT: movq 24(%rdi), %rsi
; AVX2-NEXT: andl $1, %esi		; AVX2-NEXT: andl $1, %esi
; AVX2-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)		; AVX2-NEXT: vmovaps %xmm0, -{{[0-9]+}}(%rsp)
; AVX2-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero		; AVX2-NEXT: vmovq {{.*#+}} xmm0 = mem[0],zero
; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero		; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
		; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
		; AVX2-NEXT: vmovq {{.*#+}} xmm1 = mem[0],zero
; AVX2-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero		; AVX2-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero
; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]		; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0]
; AVX2-NEXT: vmovq {{.*#+}} xmm2 = mem[0],zero		; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm2[0]
; AVX2-NEXT: vinserti128 $1, %xmm1, %ymm0, %ymm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
%p0 = getelementptr inbounds i64, i64* %i, i32 0		%p0 = getelementptr inbounds i64, i64* %i, i32 0
%p1 = getelementptr inbounds i64, i64* %i, i32 1		%p1 = getelementptr inbounds i64, i64* %i, i32 1
%p2 = getelementptr inbounds i64, i64* %i, i32 2		%p2 = getelementptr inbounds i64, i64* %i, i32 2
%p3 = getelementptr inbounds i64, i64* %i, i32 3		%p3 = getelementptr inbounds i64, i64* %i, i32 3
%i0 = load i64, i64* %p0, align 4		%i0 = load i64, i64* %p0, align 4
%i1 = load i64, i64* %p1, align 4		%i1 = load i64, i64* %p1, align 4
%i2 = load i64, i64* %p2, align 4		%i2 = load i64, i64* %p2, align 4
Show All 11 Lines

test/CodeGen/X86/vectorcall.ll

Show First 20 Lines • Show All 97 Lines • ▼ Show 20 Lines	entry:
%b = alloca %struct.HVA4, align 16		%b = alloca %struct.HVA4, align 16
store %struct.HVA4 %bb, %struct.HVA4* %b, align 16		store %struct.HVA4 %bb, %struct.HVA4* %b, align 16
%w1 = getelementptr inbounds %struct.HVA4, %struct.HVA4* %b, i32 0, i32 1		%w1 = getelementptr inbounds %struct.HVA4, %struct.HVA4* %b, i32 0, i32 1
%0 = load <4 x float>, <4 x float>* %w1, align 16		%0 = load <4 x float>, <4 x float>* %w1, align 16
ret <4 x float> %0		ret <4 x float> %0
}		}
; CHECK-LABEL: test_mixed_1		; CHECK-LABEL: test_mixed_1
; CHECK: movaps %xmm1, 16(%{{(e\|r)}}sp)		; CHECK: movaps %xmm1, 16(%{{(e\|r)}}sp)
; CHECK: movaps 16(%{{(e\|r)}}sp), %xmm0		; CHECK: movaps %xmm1, %xmm0
; CHECK: ret{{q\|l}}		; CHECK: ret{{q\|l}}

define x86_vectorcallcc <4 x float> @test_mixed_2(%struct.HVA4 inreg %a, %struct.HVA4* %b, <4 x float> %c) {		define x86_vectorcallcc <4 x float> @test_mixed_2(%struct.HVA4 inreg %a, %struct.HVA4* %b, <4 x float> %c) {
entry:		entry:
%c.addr = alloca <4 x float>, align 16		%c.addr = alloca <4 x float>, align 16
store <4 x float> %c, <4 x float>* %c.addr, align 16		store <4 x float> %c, <4 x float>* %c.addr, align 16
%0 = load <4 x float>, <4 x float>* %c.addr, align 16		%0 = load <4 x float>, <4 x float>* %c.addr, align 16
ret <4 x float> %0		ret <4 x float> %0
Show All 29 Lines	entry:
%d = alloca %struct.HVA2, align 16		%d = alloca %struct.HVA2, align 16
store %struct.HVA2 %dd, %struct.HVA2* %d, align 16		store %struct.HVA2 %dd, %struct.HVA2* %d, align 16
%y5 = getelementptr inbounds %struct.HVA2, %struct.HVA2* %d, i32 0, i32 1		%y5 = getelementptr inbounds %struct.HVA2, %struct.HVA2* %d, i32 0, i32 1
%0 = load <4 x float>, <4 x float>* %y5, align 16		%0 = load <4 x float>, <4 x float>* %y5, align 16
ret <4 x float> %0		ret <4 x float> %0
}		}
; CHECK-LABEL: test_mixed_5		; CHECK-LABEL: test_mixed_5
; CHECK: movaps %xmm5, 16(%{{(e\|r)}}sp)		; CHECK: movaps %xmm5, 16(%{{(e\|r)}}sp)
; CHECK: movaps 16(%{{(e\|r)}}sp), %xmm0		; CHECK: movaps %xmm5, %xmm0
; CHECK: ret{{[ql]}}		; CHECK: ret{{[ql]}}

define x86_vectorcallcc %struct.HVA4 @test_mixed_6(%struct.HVA4 inreg %a, %struct.HVA4* %b) {		define x86_vectorcallcc %struct.HVA4 @test_mixed_6(%struct.HVA4 inreg %a, %struct.HVA4* %b) {
entry:		entry:
%retval = alloca %struct.HVA4, align 16		%retval = alloca %struct.HVA4, align 16
%0 = bitcast %struct.HVA4* %retval to i8*		%0 = bitcast %struct.HVA4* %retval to i8*
%1 = bitcast %struct.HVA4* %b to i8*		%1 = bitcast %struct.HVA4* %b to i8*
call void @llvm.memcpy.p0i8.p0i8.i32(i8* %0, i8* %1, i32 64, i32 16, i1 false)		call void @llvm.memcpy.p0i8.p0i8.i32(i8* %0, i8* %1, i32 64, i32 16, i1 false)
▲ Show 20 Lines • Show All 63 Lines • Show Last 20 Lines

test/CodeGen/X86/win32-eh.ll

Show All 21 Lines	lpad:
%cs = catchswitch within none [label %catch] unwind to caller		%cs = catchswitch within none [label %catch] unwind to caller
catch:		catch:
%p = catchpad within %cs [i8* bitcast (i32 ()* @catchall_filt to i8*)]		%p = catchpad within %cs [i8* bitcast (i32 ()* @catchall_filt to i8*)]
catchret from %p to label %cont		catchret from %p to label %cont
}		}

; CHECK-LABEL: _use_except_handler3:		; CHECK-LABEL: _use_except_handler3:
; CHECK: pushl %ebp		; CHECK: pushl %ebp
; CHECK: movl %esp, %ebp		; CHECK-NEXT: movl %esp, %ebp
; CHECK: pushl %ebx		; CHECK-NEXT: pushl %ebx
; CHECK: pushl %edi		; CHECK-NEXT: pushl %edi
; CHECK: pushl %esi		; CHECK-NEXT: pushl %esi
; CHECK: subl ${{[0-9]+}}, %esp		; CHECK-NEXT: subl ${{[0-9]+}}, %esp
; CHECK: movl $-1, -16(%ebp)		; CHECK-NEXT: movl %esp, -36(%ebp)
; CHECK: movl $L__ehtable$use_except_handler3, -20(%ebp)		; CHECK-NEXT: movl $-1, -16(%ebp)
; CHECK: leal -28(%ebp), %[[node:[^ ,]*]]		; CHECK-NEXT: movl $L__ehtable$use_except_handler3, -20(%ebp)
; CHECK: movl $__except_handler3, -24(%ebp)		; CHECK-NEXT: leal -28(%ebp), %[[node:[^ ,]*]]
; CHECK: movl %fs:0, %[[next:[^ ,]*]]		; CHECK-NEXT: movl $__except_handler3, -24(%ebp)
; CHECK: movl %[[next]], -28(%ebp)		; CHECK-NEXT: movl %fs:0, %[[next:[^ ,]*]]
; CHECK: movl %[[node]], %fs:0		; CHECK-NEXT: movl %[[next]], -28(%ebp)
; CHECK: calll _may_throw_or_crash		; CHECK-NEXT: movl %[[node]], %fs:0
		; CHECK-NEXT: movl $0, -16(%ebp)
		; CHECK-NEXT: calll _may_throw_or_crash

; CHECK: movl -28(%ebp), %[[next:[^ ,]*]]		; CHECK: movl -28(%ebp), %[[next:[^ ,]*]]
; CHECK: movl %[[next]], %fs:0		; CHECK-NEXT: movl %[[next]], %fs:0
; CHECK: retl		; CHECK: retl
; CHECK: LBB1_2: # %catch{{$}}		; CHECK-NEXT: LBB1_2: # %catch{{$}}

; CHECK: .section .xdata,"dr"		; CHECK: .section .xdata,"dr"
; CHECK-LABEL: L__ehtable$use_except_handler3:		; CHECK-LABEL: L__ehtable$use_except_handler3:
; CHECK-NEXT: .long -1		; CHECK-NEXT: .long -1
; CHECK-NEXT: .long _catchall_filt		; CHECK-NEXT: .long _catchall_filt
; CHECK-NEXT: .long LBB1_2		; CHECK-NEXT: .long LBB1_2

define void @use_except_handler4() personality i32 (...)* @_except_handler4 {		define void @use_except_handler4() personality i32 (...)* @_except_handler4 {
entry:		entry:
invoke void @may_throw_or_crash()		invoke void @may_throw_or_crash()
to label %cont unwind label %lpad		to label %cont unwind label %lpad
cont:		cont:
ret void		ret void
lpad:		lpad:
%cs = catchswitch within none [label %catch] unwind to caller		%cs = catchswitch within none [label %catch] unwind to caller
catch:		catch:
%p = catchpad within %cs [i8* bitcast (i32 ()* @catchall_filt to i8*)]		%p = catchpad within %cs [i8* bitcast (i32 ()* @catchall_filt to i8*)]
catchret from %p to label %cont		catchret from %p to label %cont
}		}

; CHECK-LABEL: _use_except_handler4:		; CHECK-LABEL: _use_except_handler4:
; CHECK: pushl %ebp		; CHECK: pushl %ebp
; CHECK: movl %esp, %ebp		; CHECK-NEXT: movl %esp, %ebp
		jyknightUnsubmitted Not Done Reply Inline Actions What's up with this test change? jyknight: What's up with this test change?
		niravdAuthorUnsubmitted Not Done Reply Inline Actions Now that we do alias analysis by universally, we can see that there is no dependence between the reference to the __security_cookie address and the stack and we share the two loads now identical memory loads of the security cookie. niravd: Now that we do alias analysis by universally, we can see that there is no dependence between…
; CHECK: subl ${{[0-9]+}}, %esp		; CHECK-NEXT: pushl %ebx
; CHECK: movl %esp, -36(%ebp)		; CHECK-NEXT: pushl %edi
; CHECK: movl $-2, -16(%ebp)		; CHECK-NEXT: pushl %esi
; CHECK: movl $L__ehtable$use_except_handler4, %[[lsda:[^ ,]*]]		; CHECK-NEXT: subl ${{[0-9]+}}, %esp
; CHECK: xorl ___security_cookie, %[[lsda]]		; CHECK-NEXT: movl %ebp, %eax
; CHECK: movl %[[lsda]], -20(%ebp)		; CHECK-NEXT: movl %esp, -36(%ebp)
; CHECK: leal -28(%ebp), %[[node:[^ ,]*]]		; CHECK-NEXT: movl $-2, -16(%ebp)
; CHECK: movl $__except_handler4, -24(%ebp)		; CHECK-NEXT: movl $L__ehtable$use_except_handler4, %[[lsda:[^ ,]*]]
; CHECK: movl %fs:0, %[[next:[^ ,]*]]		; CHECK-NEXT: movl ___security_cookie, %[[seccookie:[^ ,]*]]
; CHECK: movl %[[next]], -28(%ebp)		; CHECK-NEXT: xorl %[[seccookie]], %[[lsda]]
; CHECK: movl %[[node]], %fs:0		; CHECK-NEXT: movl %[[lsda]], -20(%ebp)
; CHECK: calll _may_throw_or_crash		; CHECK-NEXT: xorl %[[seccookie]], %[[tmp1:[^ ,]*]]
		; CHECK-NEXT: movl %[[tmp1]], -40(%ebp)
		; CHECK-NEXT: leal -28(%ebp), %[[node:[^ ,]*]]
		; CHECK-NEXT: movl $__except_handler4, -24(%ebp)
		; CHECK-NEXT: movl %fs:0, %[[next:[^ ,]*]]
		; CHECK-NEXT: movl %[[next]], -28(%ebp)
		; CHECK-NEXT: movl %[[node]], %fs:0
		; CHECK-NEXT: movl $0, -16(%ebp)
		; CHECK-NEXT: calll _may_throw_or_crash

; CHECK: movl -28(%ebp), %[[next:[^ ,]*]]		; CHECK: movl -28(%ebp), %[[next:[^ ,]*]]
; CHECK: movl %[[next]], %fs:0		; CHECK-NEXT: movl %[[next]], %fs:0
; CHECK: retl		; CHECK-NEXT: addl $28, %esp
; CHECK: LBB2_2: # %catch{{$}}		; CHECK-NEXT: popl %esi
		; CHECK-NEXT: popl %edi
		; CHECK-NEXT: popl %ebx
		; CHECK-NEXT: popl %ebp
		; CHECK-NEXT: retl
		; CHECK-NEXT: LBB2_2: # %catch{{$}}

; CHECK: .section .xdata,"dr"		; CHECK: .section .xdata,"dr"
; CHECK-LABEL: L__ehtable$use_except_handler4:		; CHECK-LABEL: L__ehtable$use_except_handler4:
; CHECK-NEXT: .long -2		; CHECK-NEXT: .long -2
; CHECK-NEXT: .long 0		; CHECK-NEXT: .long 0
; CHECK-NEXT: .long -40		; CHECK-NEXT: .long -40
; CHECK-NEXT: .long 0		; CHECK-NEXT: .long 0
; CHECK-NEXT: .long -2		; CHECK-NEXT: .long -2
Show All 10 Lines	lpad:
%cs = catchswitch within none [label %catch] unwind to caller		%cs = catchswitch within none [label %catch] unwind to caller
catch:		catch:
%p = catchpad within %cs [i8* bitcast (i32 ()* @catchall_filt to i8*)]		%p = catchpad within %cs [i8* bitcast (i32 ()* @catchall_filt to i8*)]
catchret from %p to label %cont		catchret from %p to label %cont
}		}

; CHECK-LABEL: _use_except_handler4_ssp:		; CHECK-LABEL: _use_except_handler4_ssp:
; CHECK: pushl %ebp		; CHECK: pushl %ebp
; CHECK: movl %esp, %ebp		; CHECK-NEXT: movl %esp, %ebp
; CHECK: subl ${{[0-9]+}}, %esp		; CHECK-NEXT: pushl %ebx
; CHECK: movl %ebp, %[[ehguard:[^ ,]*]]		; CHECK-NEXT: pushl %edi
; CHECK: movl %esp, -36(%ebp)		; CHECK-NEXT: pushl %esi
; CHECK: movl $-2, -16(%ebp)		; CHECK-NEXT: subl ${{[0-9]+}}, %esp
; CHECK: movl $L__ehtable$use_except_handler4_ssp, %[[lsda:[^ ,]*]]		; CHECK-NEXT: movl %ebp, %[[ehguard:[^ ,]*]]
; CHECK: xorl ___security_cookie, %[[lsda]]		; CHECK-NEXT: movl %esp, -36(%ebp)
; CHECK: movl %[[lsda]], -20(%ebp)		; CHECK-NEXT: movl $-2, -16(%ebp)
; CHECK: xorl ___security_cookie, %[[ehguard]]		; CHECK-NEXT: movl $L__ehtable$use_except_handler4_ssp, %[[lsda:[^ ,]*]]
; CHECK: movl %[[ehguard]], -40(%ebp)		; CHECK-NEXT: movl ___security_cookie, %[[seccookie:[^ ,]*]]
; CHECK: leal -28(%ebp), %[[node:[^ ,]*]]		; CHECK-NEXT: xorl %[[seccookie]], %[[lsda]]
; CHECK: movl $__except_handler4, -24(%ebp)		; CHECK-NEXT: movl %[[lsda]], -20(%ebp)
; CHECK: movl %fs:0, %[[next:[^ ,]*]]		; CHECK-NEXT: xorl %[[seccookie]], %[[ehguard]]
; CHECK: movl %[[next]], -28(%ebp)		; CHECK-NEXT: movl %[[ehguard]], -40(%ebp)
; CHECK: movl %[[node]], %fs:0		; CHECK-NEXT: leal -28(%ebp), %[[node:[^ ,]*]]
; CHECK: calll _may_throw_or_crash		; CHECK-NEXT: movl $__except_handler4, -24(%ebp)
		; CHECK-NEXT: movl %fs:0, %[[next:[^ ,]*]]
		; CHECK-NEXT: movl %[[next]], -28(%ebp)
		; CHECK-NEXT: movl %[[node]], %fs:0
		; CHECK-NEXT: movl $0, -16(%ebp)
		; CHECK-NEXT: calll _may_throw_or_crash
; CHECK: movl -28(%ebp), %[[next:[^ ,]*]]		; CHECK: movl -28(%ebp), %[[next:[^ ,]*]]
; CHECK: movl %[[next]], %fs:0		; CHECK-NEXT: movl %[[next]], %fs:0
; CHECK: retl		; CHECK: retl
; CHECK: [[catch:[^ ,]*]]: # %catch{{$}}		; CHECK-NEXT: [[catch:[^ ,]*]]: # %catch{{$}}



; CHECK: .section .xdata,"dr"		; CHECK: .section .xdata,"dr"
; CHECK-LABEL: L__ehtable$use_except_handler4_ssp:		; CHECK-LABEL: L__ehtable$use_except_handler4_ssp:
; CHECK-NEXT: .long -2		; CHECK-NEXT: .long -2
; CHECK-NEXT: .long 0		; CHECK-NEXT: .long 0
; CHECK-NEXT: .long -40		; CHECK-NEXT: .long -40
; CHECK-NEXT: .long 0		; CHECK-NEXT: .long 0
; CHECK-NEXT: .long -2		; CHECK-NEXT: .long -2
Show All 10 Lines	catchall:
%cs = catchswitch within none [label %catch] unwind to caller		%cs = catchswitch within none [label %catch] unwind to caller
catch:		catch:
%p = catchpad within %cs [i8* null, i32 64, i8* null]		%p = catchpad within %cs [i8* null, i32 64, i8* null]
catchret from %p to label %cont		catchret from %p to label %cont
}		}

; CHECK-LABEL: _use_CxxFrameHandler3:		; CHECK-LABEL: _use_CxxFrameHandler3:
; CHECK: pushl %ebp		; CHECK: pushl %ebp
; CHECK: movl %esp, %ebp		; CHECK-NEXT: movl %esp, %ebp
; CHECK: subl ${{[0-9]+}}, %esp		; CHECK-NEXT: pushl %ebx
; CHECK: movl %esp, -28(%ebp)		; CHECK-NEXT: pushl %edi
; CHECK: movl $-1, -16(%ebp)		; CHECK-NEXT: pushl %esi
; CHECK: leal -24(%ebp), %[[node:[^ ,]*]]		; CHECK-NEXT: subl ${{[0-9]+}}, %esp
; CHECK: movl $___ehhandler$use_CxxFrameHandler3, -20(%ebp)		; CHECK-NEXT: movl %esp, -28(%ebp)
; CHECK: movl %fs:0, %[[next:[^ ,]*]]		; CHECK-NEXT: movl $-1, -16(%ebp)
; CHECK: movl %[[next]], -24(%ebp)		; CHECK-NEXT: leal -24(%ebp), %[[node:[^ ,]*]]
; CHECK: movl %[[node]], %fs:0		; CHECK-NEXT: movl $___ehhandler$use_CxxFrameHandler3, -20(%ebp)
; CHECK: movl $0, -16(%ebp)		; CHECK-NEXT: movl %fs:0, %[[next:[^ ,]*]]
; CHECK: calll _may_throw_or_crash		; CHECK-NEXT: movl %[[next]], -24(%ebp)
		; CHECK-NEXT: movl %[[node]], %fs:0
		; CHECK-NEXT: movl $0, -16(%ebp)
		; CHECK-NEXT: calll _may_throw_or_crash
; CHECK: movl -24(%ebp), %[[next:[^ ,]*]]		; CHECK: movl -24(%ebp), %[[next:[^ ,]*]]
; CHECK: movl %[[next]], %fs:0		; CHECK-NEXT: movl %[[next]], %fs:0
; CHECK: retl		; CHECK: retl

; CHECK: .section .xdata,"dr"		; CHECK: .section .xdata,"dr"
; CHECK: .p2align 2		; CHECK-NEXT: .p2align 2
; CHECK-LABEL: L__ehtable$use_CxxFrameHandler3:		; CHECK-LABEL: L__ehtable$use_CxxFrameHandler3:
; CHECK-NEXT: .long 429065506		; CHECK-NEXT: .long 429065506
; CHECK-NEXT: .long 2		; CHECK-NEXT: .long 2
; CHECK-NEXT: .long ($stateUnwindMap$use_CxxFrameHandler3)		; CHECK-NEXT: .long ($stateUnwindMap$use_CxxFrameHandler3)
; CHECK-NEXT: .long 1		; CHECK-NEXT: .long 1
; CHECK-NEXT: .long ($tryMap$use_CxxFrameHandler3)		; CHECK-NEXT: .long ($tryMap$use_CxxFrameHandler3)
; CHECK-NEXT: .long 0		; CHECK-NEXT: .long 0
; CHECK-NEXT: .long 0		; CHECK-NEXT: .long 0
; CHECK-NEXT: .long 0		; CHECK-NEXT: .long 0
; CHECK-NEXT: .long 1		; CHECK-NEXT: .long 1

; CHECK-LABEL: ___ehhandler$use_CxxFrameHandler3:		; CHECK-LABEL: ___ehhandler$use_CxxFrameHandler3:
; CHECK: movl $L__ehtable$use_CxxFrameHandler3, %eax		; CHECK: movl $L__ehtable$use_CxxFrameHandler3, %eax
; CHECK: jmp ___CxxFrameHandler3 # TAILCALL		; CHECK-NEXT: jmp ___CxxFrameHandler3 # TAILCALL

; CHECK: .safeseh __except_handler3		; CHECK: .safeseh __except_handler3
; CHECK: .safeseh __except_handler4		; CHECK-NEXT: .safeseh __except_handler4
; CHECK: .safeseh ___ehhandler$use_CxxFrameHandler3		; CHECK-NEXT: .safeseh ___ehhandler$use_CxxFrameHandler3

test/CodeGen/XCore/varargs.ll

	Show All 20 Lines
	declare void @llvm.va_start(i8*) nounwind			declare void @llvm.va_start(i8*) nounwind
	declare void @llvm.va_end(i8*) nounwind			declare void @llvm.va_end(i8*) nounwind
	declare void @f(i32) nounwind			declare void @f(i32) nounwind
	define void @test_vararg(...) nounwind {			define void @test_vararg(...) nounwind {
	entry:			entry:
	; CHECK-LABEL: test_vararg			; CHECK-LABEL: test_vararg
	; CHECK: extsp 6			; CHECK: extsp 6
	; CHECK: stw lr, sp[1]			; CHECK: stw lr, sp[1]
				; CHECK: stw r3, sp[6]
	; CHECK: stw r0, sp[3]			; CHECK: stw r0, sp[3]
	; CHECK: stw r1, sp[4]			; CHECK: stw r1, sp[4]
	; CHECK: stw r2, sp[5]			; CHECK: stw r2, sp[5]
	; CHECK: stw r3, sp[6]
	; CHECK: ldaw r0, sp[3]			; CHECK: ldaw r0, sp[3]
	; CHECK: stw r0, sp[2]			; CHECK: stw r0, sp[2]
	%list = alloca i8*, align 4			%list = alloca i8*, align 4
	%list1 = bitcast i8** %list to i8*			%list1 = bitcast i8** %list to i8*
	call void @llvm.va_start(i8* %list1)			call void @llvm.va_start(i8* %list1)
	br label %for.cond			br label %for.cond

	; CHECK-LABEL: .LBB1_1			; CHECK-LABEL: .LBB1_1
	Show All 15 Lines

This is an archive of the discontinued LLVM Phabricator instance.

In visitSTORE, always use FindBetterChain, rather than only when UseAA is enabled.ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 89783

include/llvm/Target/TargetLowering.h

lib/CodeGen/SelectionDAG/DAGCombiner.cpp

lib/CodeGen/TargetLoweringBase.cpp

lib/Target/AArch64/AArch64ISelLowering.cpp

lib/Target/ARM/ARMISelLowering.h

test/CodeGen/AArch64/argument-blocks.ll

test/CodeGen/AArch64/arm64-abi.ll

test/CodeGen/AArch64/arm64-memset-inline.ll

test/CodeGen/AArch64/arm64-variadic-aapcs.ll

test/CodeGen/AArch64/merge-store.ll

test/CodeGen/AArch64/vector_merge_dep_check.ll

test/CodeGen/AMDGPU/debugger-insert-nops.ll

test/CodeGen/AMDGPU/insert_vector_elt.ll

test/CodeGen/AMDGPU/merge-stores.ll

test/CodeGen/AMDGPU/private-element-size.ll

test/CodeGen/AMDGPU/si-triv-disjoint-mem-access.ll

test/CodeGen/ARM/2012-10-04-AAPCS-byval-align8.ll

test/CodeGen/ARM/alloc-no-stack-realign.ll

test/CodeGen/ARM/gpr-paired-spill.ll

test/CodeGen/ARM/ifcvt10.ll

test/CodeGen/ARM/illegal-bitfield-loadstore.ll

test/CodeGen/ARM/static-addr-hoisting.ll

test/CodeGen/BPF/undef.ll

test/CodeGen/MSP430/Inst16mm.ll

test/CodeGen/Mips/cconv/arguments-float.ll

test/CodeGen/Mips/cconv/arguments-varargs.ll

test/CodeGen/Mips/fastcc.ll

test/CodeGen/Mips/load-store-left-right.ll

test/CodeGen/Mips/micromips-li.ll

test/CodeGen/Mips/mips64-f128-call.ll

test/CodeGen/Mips/mips64-f128.ll

test/CodeGen/Mips/mno-ldc1-sdc1.ll

test/CodeGen/Mips/msa/f16-llvm-ir.ll

test/CodeGen/Mips/msa/i5_ld_st.ll

test/CodeGen/Mips/o32_cc_byval.ll

test/CodeGen/Mips/o32_cc_vararg.ll

test/CodeGen/PowerPC/anon_aggr.ll

test/CodeGen/PowerPC/complex-return.ll

test/CodeGen/PowerPC/jaggedstructs.ll

test/CodeGen/PowerPC/ppc64-align-long-double.ll

test/CodeGen/PowerPC/structsinmem.ll

test/CodeGen/PowerPC/structsinregs.ll

test/CodeGen/SystemZ/unaligned-01.ll

test/CodeGen/Thumb/2010-07-15-debugOrdering.ll

test/CodeGen/Thumb/stack-access.ll

test/CodeGen/X86/2010-09-17-SideEffectsInChain.ll

test/CodeGen/X86/2012-11-28-merge-store-alias.ll

test/CodeGen/X86/MergeConsecutiveStores.ll

test/CodeGen/X86/avx512-mask-op.ll

test/CodeGen/X86/chain_order.ll

test/CodeGen/X86/clear_upper_vector_element_bits.ll

test/CodeGen/X86/combiner-aa-0.ll

test/CodeGen/X86/combiner-aa-1.ll

test/CodeGen/X86/copy-eflags.ll

test/CodeGen/X86/dag-merge-fast-accesses.ll

test/CodeGen/X86/dont-trunc-store-double-to-float.ll

test/CodeGen/X86/extractelement-legalization-store-ordering.ll

test/CodeGen/X86/i256-add.ll

test/CodeGen/X86/i386-shrink-wrapping.ll

test/CodeGen/X86/illegal-bitfield-loadstore.ll

test/CodeGen/X86/live-range-nosubreg.ll

test/CodeGen/X86/longlong-deadload.ll

test/CodeGen/X86/merge-consecutive-loads-128.ll

test/CodeGen/X86/merge-consecutive-loads-256.ll

test/CodeGen/X86/merge-store-partially-alias-loads.ll

test/CodeGen/X86/pr18023.ll

test/CodeGen/X86/split-store.ll

test/CodeGen/X86/stores-merging.ll

test/CodeGen/X86/vector-compare-results.ll

test/CodeGen/X86/vector-shuffle-variable-128.ll

test/CodeGen/X86/vector-shuffle-variable-256.ll

test/CodeGen/X86/vectorcall.ll

test/CodeGen/X86/win32-eh.ll

In visitSTORE, always use FindBetterChain, rather than only when UseAA is enabled.
ClosedPublic