This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Transforms/Scalar/
-
Transforms/
-
Scalar/
1/1
SROA.cpp
-
test/Transforms/SROA/
-
Transforms/
-
SROA/
-
widen-load-of-small-alloca.ll

Differential D140493

[SROA] Support promotion in presence of variably-indexed loads
Needs ReviewPublic

Authored by lebedev.ri on Dec 21 2022, 12:41 PM.

Download Raw Diff

Details

Reviewers

arsenm
spatel
efriedma
nikic

Summary

This originally started out as an InstCombine patch,
but it does not really fit there: https://reviews.llvm.org/D138766

Here, when we encounter a load with variable index,
instead of immediately bailing, we bail only if profitability check says it's not worth it,
and otherwise record it, and rewrite it iff we don't bail for other reasons.
Rewrite is straight-forward - just load whole alloca, and extract the required bit sequence.

https://discourse.llvm.org/t/where-could-we-perform-sudo-sroa-with-non-constant-offsets/66645

First, consider: (example 0)

#include <cstdlib>
#include <cstring>
#include <algorithm>

void sink(char*);

constexpr int size = 4;

void entry(char* input, int length, int position) {
    int max_bytes = length - position;
    int bytes = std::min(size, max_bytes);
    char res[size] = {};
    memcpy(res, input + position, bytes);
    sink(res);
}

This function has to perform dynamically-sized, but bound, memcpy,
which may or may not be good, given particular use case: https://godbolt.org/z/3cd6bvEq5

Now, let's look at another variant (not strictly identical): (example 1)

#include <cstdlib>
#include <cstring>
#include <algorithm>

void sink(char*);

constexpr int size = 4;

void entry(char* input, int length, int position) {
    int last_pos = length - size;
    int clamped_pos = std::min(position, last_pos);
    char tmp[2 * size] = {};
    memcpy(tmp, &input + clamped_pos, size);
    int num_leading_padding_bytes = std::min(size, position - clamped_pos);
    char res[size] = {};
    memcpy(res, tmp + num_leading_padding_bytes, size);
    sink(res);
}

Here, both memory loads are statically-sized.
Under some external preconditions, that are not relevant here,
the examples are equivalent.

Problem is, the second memcpy loads from a non-constant offset into tmp,
SROA does not deal with non-constant offsets, so we end up with tmp
not being promoted into a register: https://godbolt.org/z/ebPrrjaa6

So while this may or may not already be better than the original variant,
this is still not great. This can come up in hot paths, e.g. (example 0) is
https://github.com/darktable-org/rawspeed/blob/6be00ea43b92c876692593436f9edbbf70d4c3d4/src/librawspeed/io/BitStream.h#L145-L173
and i was in procees of improving it into (example 1) but got stuck on performance.

The transformation itself isn't that complicated,
we just don't have a great place for it.
I've added hopefully sufficiently exhaustive test coverage,
and verified it with alive.

Now, huge caveat: indeed, this needs a profitability check.
Profitability reasoning: we expect that for the largest legal int type, we
do have good support for variable-amount shifts. For the type 2x that
width, the legalization will expand the shift into, at worst, 3 legal-sized
shifts + 5 supporting ALU ops. We expect that such an expansion is still
not worse than the original pattern we have matched here.
But for any bit width larger than that, this isn't worth it.
Codegen for true i128 case: https://alive2.llvm.org/ce/z/Tu85qE

I think, this is pretty uncontentious for largest legal integer,
but unfortunately i'm interested in "load i32 from i64" and "load i64 from i128" :)
Sliver-lining: in the case i'm looking at, the upper half of the alloca is always zeros,
so after SROA, this becomes: https://alive2.llvm.org/ce/z/FgRHaZ,
and now that i128 codegen is rather good, isn't it?

D140638 ([Codegen][LegalizeIntegerTypes] New legalization strategy for scalar shifts: shift through stack.)
has taught LLVM how to undo this kind transformation during codegen,
in fact, using effectively the very same profitability heuristic,
so we don't seem to need a TLI hook here.

https://llvm-compile-time-tracker.com/compare.php?from=4d255f9e3374ecc5a85ac30ecbe65f3a737dfe35&to=aaaef46a6e3ef5c21178f86a18ce8911113ab026&stat=instructions%3Au

Diff Detail

Repository: rG LLVM Github Monorepo

Unit TestsFailed

	Time	Test
	2,029 ms	x64 debian > AddressSanitizer-x86_64-linux-dynamic.TestCases::stack-buffer-overflow.cpp
	2,560 ms	x64 debian > AddressSanitizer-x86_64-linux.TestCases::stack-buffer-overflow.cpp
	240 ms	x64 debian > LLVM.CodeGen/AMDGPU::amdgcn.private-memory.ll
	720 ms	x64 debian > LLVM.CodeGen/AMDGPU::amdgpu.private-memory.ll
	100 ms	x64 debian > LLVM.CodeGen/AMDGPU::amdpal.ll
		View Full Test Results (9 Failed)

Event Timeline

lebedev.ri created this revision.Dec 21 2022, 12:41 PM

Herald added a project: Restricted Project. · View Herald TranscriptDec 21 2022, 12:41 PM

Herald added subscribers: arphaman, hiraditya. · View Herald Transcript

lebedev.ri requested review of this revision.Dec 21 2022, 12:41 PM

Herald added a subscriber: wdng. · View Herald TranscriptDec 21 2022, 12:41 PM

lebedev.ri mentioned this in D138766: [InstCombine] If loading from small alloca, load whole alloca and perform variable extraction.Dec 21 2022, 12:42 PM

lebedev.ri added a subscriber: nlopes.

lebedev.ri added inline comments.Dec 21 2022, 12:45 PM

llvm/lib/Transforms/Scalar/SROA.cpp
1252–1253	We could maintain a cache for these two functions, but it would only be effective for the current `AllocaSlices`, so i'm not sure if that is something we want?

RKSimon added a subscriber: RKSimon.Dec 21 2022, 12:55 PM

Harbormaster completed remote builds in B204434: Diff 484648.Dec 21 2022, 1:23 PM

FYI sqlite3 from llvm-test-suite fails to build in ReleaseLTO-g configuration with the following error:

/usr/bin/ld: error: LLVM gold plugin: Invalid value reference from metadata

Some more tests.

In D140493#4011599, @nikic wrote:

FYI sqlite3 from llvm-test-suite fails to build in ReleaseLTO-g configuration with the following error:

/usr/bin/ld: error: LLVM gold plugin: Invalid value reference from metadata

Yeah, this is a rough version of the patch, it still probably needs some polishing.

Could ScalarEvolution + SCEVExpander help with computing / materializing the offset?
It is mainly used for loop transformations, but it should be possible to use it for linear code as well.
One caveat: ScalarEvolution does not peek through addrspacecasts (is it safe to ignore them anyway?).

Can't bitcast int <-> ptr, give up on those.

lebedev.ri edited the summary of this revision. (Show Details)Dec 21 2022, 2:47 PM

In D140493#4011795, @barannikov88 wrote:

Could ScalarEvolution + SCEVExpander help with computing / materializing the offset?
It is mainly used for loop transformations, but it should be possible to use it for linear code as well.
One caveat: ScalarEvolution does not peek through addrspacecasts (is it safe to ignore them anyway?).

Oh believe me, i've thought about that one.
For the minuscule amount of functionality we need,
i don't think it's worth all the extra complexity it would bring.

In D140493#4011659, @lebedev.ri wrote:

In D140493#4011599, @nikic wrote:

FYI sqlite3 from llvm-test-suite fails to build in ReleaseLTO-g configuration with the following error:

/usr/bin/ld: error: LLVM gold plugin: Invalid value reference from metadata

Yeah, this is a rough version of the patch, it still probably needs some polishing.

All good now: https://llvm-compile-time-tracker.com/compare.php?from=4d255f9e3374ecc5a85ac30ecbe65f3a737dfe35&to=aaaef46a6e3ef5c21178f86a18ce8911113ab026&stat=instructions%3Au

Harbormaster completed remote builds in B204460: Diff 484684.Dec 21 2022, 3:20 PM

In D140493#4011883, @lebedev.ri wrote:

In D140493#4011659, @lebedev.ri wrote:

In D140493#4011599, @nikic wrote:

FYI sqlite3 from llvm-test-suite fails to build in ReleaseLTO-g configuration with the following error:

/usr/bin/ld: error: LLVM gold plugin: Invalid value reference from metadata

Yeah, this is a rough version of the patch, it still probably needs some polishing.

All good now: https://llvm-compile-time-tracker.com/compare.php?from=4d255f9e3374ecc5a85ac30ecbe65f3a737dfe35&to=aaaef46a6e3ef5c21178f86a18ce8911113ab026&stat=instructions%3Au

Looks like caching makes things worse: https://llvm-compile-time-tracker.com/compare.php?from=967ba1a86d4f949e7663467b40abce0d97ac7673&to=247be4da9921aaf357db80032fce9a8d1d05414a&stat=instructions:u
Either switching to manual GEP expansion will help somewhat, or those are "expected" second-order effects.

I think this is moving in the right direction in terms of how the transform should be implemented. However, I have two high-level concerns:

The first one is basically the same as for the "whole alloca to vector promotion": If we perform this transform and then inline and it turns out that the offset is now known, it's likely that we're now going to generate much worse code -- we're likely not going to be able to get rid of the freeze and vector manipulation. I think it is very likely that the "second-order effects" you refer to are codegen regressions rather than improvements (will need to be investigated in either case).

The second is that even if we ignore that case, the profitability of this transform is very unclear to me. https://llvm.godbolt.org/z/W6e7K5W9d has a representative case (load i32 from 8 byte buffer after sroa+instcombine, with two kinds of init because some targets really hate the vector init). I'm not even sure that this is better on x86_64, but there are some targets where it's clearly worse, e.g. riscv32: https://llvm.godbolt.org/z/fzK8sbaEv If we want to do this transform, we'll probably not be able to avoid TTI-based cost modelling. It's also possible that this transform just isn't profitable in isolation (i.e. without the larger context of your examples).

Regarding the rewrite itself, are you possibly looking for the EmitGEPOffset() helper? It should be possible to sum the results of EmitGEPOffset() on all the GEPs in the chain to obtain the desired offset.

@craig.topper @reames Hi! Can you comment on the profitability heuristic here? Does it appear that we need a TTI hook?

In D140493#4012533, @nikic wrote:

I think this is moving in the right direction in terms of how the transform should be implemented. However, I have two high-level concerns:

The first one is basically the same as for the "whole alloca to vector promotion": If we perform this transform and then inline and it turns out that the offset is now known, it's likely that we're now going to generate much worse code -- we're likely not going to be able to get rid of the freeze and vector manipulation. I think it is very likely that the "second-order effects" you refer to are codegen regressions rather than improvements (will need to be investigated in either case).

The second is that even if we ignore that case, the profitability of this transform is very unclear to me. https://llvm.godbolt.org/z/W6e7K5W9d has a representative case (load i32 from 8 byte buffer after sroa+instcombine, with two kinds of init because some targets really hate the vector init). I'm not even sure that this is better on x86_64, but there are some targets where it's clearly worse, e.g. riscv32: https://llvm.godbolt.org/z/fzK8sbaEv If we want to do this transform, we'll probably not be able to avoid TTI-based cost modelling. It's also possible that this transform just isn't profitable in isolation (i.e. without the larger context of your examples).

Regarding the rewrite itself, are you possibly looking for the EmitGEPOffset() helper? It should be possible to sum the results of EmitGEPOffset() on all the GEPs in the chain to obtain the desired offset.

Directly expand GEP's into math, seems nicer, and seems to help a tiny bit, but not sufficiently.
Also, don't cache non-GEP's.
https://llvm-compile-time-tracker.com/compare.php?from=19e55791c4fa484401d0b4a4e5d66dd313251ade&to=9b20759171567953b78b9a2c5b2b4257a4762f00&stat=instructions:u

In D140493#4013142, @lebedev.ri wrote:

@craig.topper @reames Hi! Can you comment on the profitability heuristic here? Does it appear that we need a TTI hook?

In D140493#4012533, @nikic wrote:

I think this is moving in the right direction in terms of how the transform should be implemented. However, I have two high-level concerns:

The first one is basically the same as for the "whole alloca to vector promotion": If we perform this transform and then inline and it turns out that the offset is now known, it's likely that we're now going to generate much worse code -- we're likely not going to be able to get rid of the freeze and vector manipulation. I think it is very likely that the "second-order effects" you refer to are codegen regressions rather than improvements (will need to be investigated in either case).

The second is that even if we ignore that case, the profitability of this transform is very unclear to me. https://llvm.godbolt.org/z/W6e7K5W9d has a representative case (load i32 from 8 byte buffer after sroa+instcombine, with two kinds of init because some targets really hate the vector init). I'm not even sure that this is better on x86_64, but there are some targets where it's clearly worse, e.g. riscv32: https://llvm.godbolt.org/z/fzK8sbaEv If we want to do this transform, we'll probably not be able to avoid TTI-based cost modelling. It's also possible that this transform just isn't profitable in isolation (i.e. without the larger context of your examples).

Regarding the rewrite itself, are you possibly looking for the EmitGEPOffset() helper? It should be possible to sum the results of EmitGEPOffset() on all the GEPs in the chain to obtain the desired offset.

From a quick glance I'm seeing a couple issues. The first is that the basic RISC-V base ISA doesn't support vectors and SelectionDAG is fully scalarizing the vector load/store.

The other issue is that the test contains a variable shift of an i64 which isn't directly supported on a 32-bit target. RISC-V doesn't have an instructions like X86's SHLD/SHRD so we have to do it in multiple instructions.

@craig.topper thank you!

In D140493#4013450, @craig.topper wrote:

In D140493#4013142, @lebedev.ri wrote:

@craig.topper @reames Hi! Can you comment on the profitability heuristic here? Does it appear that we need a TTI hook?

In D140493#4012533, @nikic wrote:

I think this is moving in the right direction in terms of how the transform should be implemented. However, I have two high-level concerns:

The first one is basically the same as for the "whole alloca to vector promotion": If we perform this transform and then inline and it turns out that the offset is now known, it's likely that we're now going to generate much worse code -- we're likely not going to be able to get rid of the freeze and vector manipulation. I think it is very likely that the "second-order effects" you refer to are codegen regressions rather than improvements (will need to be investigated in either case).

The second is that even if we ignore that case, the profitability of this transform is very unclear to me. https://llvm.godbolt.org/z/W6e7K5W9d has a representative case (load i32 from 8 byte buffer after sroa+instcombine, with two kinds of init because some targets really hate the vector init). I'm not even sure that this is better on x86_64, but there are some targets where it's clearly worse, e.g. riscv32: https://llvm.godbolt.org/z/fzK8sbaEv If we want to do this transform, we'll probably not be able to avoid TTI-based cost modelling. It's also possible that this transform just isn't profitable in isolation (i.e. without the larger context of your examples).

Regarding the rewrite itself, are you possibly looking for the EmitGEPOffset() helper? It should be possible to sum the results of EmitGEPOffset() on all the GEPs in the chain to obtain the desired offset.

From a quick glance I'm seeing a couple issues. The first is that the basic RISC-V base ISA doesn't support vectors and SelectionDAG is fully scalarizing the vector load/store.

Right, i'm looking into that right now. We should be getting rid of vector loads in these cases in SDAG.

The other issue is that the test contains a variable shift of an i64 which isn't directly supported on a 32-bit target. RISC-V doesn't have an instructions like X86's SHLD/SHRD so we have to do it in multiple instructions.

Err, this is actually expected, see profitability reasoning in description/diff.

Harbormaster completed remote builds in B204608: Diff 484871.Dec 22 2022, 11:03 AM

@craig.topper i'm somewhat confused with that RISC-V codegen.
The fact that it scalarizes *all* vector loads is a pretty glaring bug,
which a bit disqualifies cost modelling question, since there are
wider integer loads, that could be used instead. I'm rather not familiar
with that target, so i'm not sure if i should look into it.

And after that, we are back to the question:

is there support for shifts in base ISA?
what is the widest integer type that can be shifted?

In D140493#4013457, @lebedev.ri wrote:

@craig.topper thank you!

In D140493#4013450, @craig.topper wrote:

In D140493#4013142, @lebedev.ri wrote:

@craig.topper @reames Hi! Can you comment on the profitability heuristic here? Does it appear that we need a TTI hook?

In D140493#4012533, @nikic wrote:

I think this is moving in the right direction in terms of how the transform should be implemented. However, I have two high-level concerns:

The first one is basically the same as for the "whole alloca to vector promotion": If we perform this transform and then inline and it turns out that the offset is now known, it's likely that we're now going to generate much worse code -- we're likely not going to be able to get rid of the freeze and vector manipulation. I think it is very likely that the "second-order effects" you refer to are codegen regressions rather than improvements (will need to be investigated in either case).

The second is that even if we ignore that case, the profitability of this transform is very unclear to me. https://llvm.godbolt.org/z/W6e7K5W9d has a representative case (load i32 from 8 byte buffer after sroa+instcombine, with two kinds of init because some targets really hate the vector init). I'm not even sure that this is better on x86_64, but there are some targets where it's clearly worse, e.g. riscv32: https://llvm.godbolt.org/z/fzK8sbaEv If we want to do this transform, we'll probably not be able to avoid TTI-based cost modelling. It's also possible that this transform just isn't profitable in isolation (i.e. without the larger context of your examples).

Regarding the rewrite itself, are you possibly looking for the EmitGEPOffset() helper? It should be possible to sum the results of EmitGEPOffset() on all the GEPs in the chain to obtain the desired offset.

From a quick glance I'm seeing a couple issues. The first is that the basic RISC-V base ISA doesn't support vectors and SelectionDAG is fully scalarizing the vector load/store.

Right, i'm looking into that right now. We should be getting rid of vector loads in these cases in SDAG.

At least for X86, I've mostly fixed that, except for 16-byte alloca case,
no more vectors there: https://godbolt.org/z/TE78e44hq
I know how deal with 16-byte case too, will do that in a bit.

The other issue is that the test contains a variable shift of an i64 which isn't directly supported on a 32-bit target. RISC-V doesn't have an instructions like X86's SHLD/SHRD so we have to do it in multiple instructions.

Err, this is actually expected, see profitability reasoning in description/diff.

@craig.topper ^ FYI

@craig.topper i'm somewhat confused with that RISC-V codegen.
The fact that it scalarizes *all* vector loads is a pretty glaring bug,
which a bit disqualifies cost modelling question, since there are
wider integer loads, that could be used instead. I'm rather not familiar
with that target, so i'm not sure if i should look into it.

I haven't looked but I assume that's the type legalizer just doing SplitVector repeatedly and then doing ScalarizeVector. There is no intelligence for loads that are only used by stores.

NOTE: RISC-V also requires all scalar loads to be naturally aligned which can introduce additional restrictions on how a vector load/store can be scalarized.

And after that, we are back to the question:

is there support for shifts in base ISA?
what is the widest integer type that can be shifted?

Yes there are shifts. riscv32 has 32-bit shifts. riscv64 has 64-bit shifts. smaller shifts need to promoted. wider shifts will be expanded. There is no cmov so expansion requires a select to be expanded to control flow.

lebedev.ri mentioned this in rGe7f21d750cc5: [NFC][Codegen][X86] Tests w/ final optimized IR of SROA-with-variably-indexed….Dec 22 2022, 5:42 PM

(added x86 codegen tests in e7f21d750cc51f5a9610b7f13586b2b6907c6097)

In D140493#4014396, @craig.topper wrote:

@craig.topper i'm somewhat confused with that RISC-V codegen.
The fact that it scalarizes *all* vector loads is a pretty glaring bug,
which a bit disqualifies cost modelling question, since there are
wider integer loads, that could be used instead. I'm rather not familiar
with that target, so i'm not sure if i should look into it.

I haven't looked but I assume that's the type legalizer just doing SplitVector repeatedly and then doing ScalarizeVector. There is no intelligence for loads that are only used by stores.

Yes, i have looked before posting that comment, and yes that is what happens.

NOTE: RISC-V also requires all scalar loads to be naturally aligned which can introduce additional restrictions on how a vector load/store can be scalarized.

Aha, i had forgotten about that. That does complicate things, to say the least,
but then the pre-SROA codegen would be just as, err, uninspiring:
this is the current codegen diff https://godbolt.org/z/qzjc7Wxoa

Would you say that as far as RISCV is concerned guarding with a simple profitability check
of "alloca size must not be more than 2x the largest legal integer size
(and we expect we have good variable shifts for largest legal integer size)"
is not sufficient and a TTI hook is needed?

And after that, we are back to the question:

is there support for shifts in base ISA?
what is the widest integer type that can be shifted?

Yes there are shifts. riscv32 has 32-bit shifts. riscv64 has 64-bit shifts. smaller shifts need to promoted. wider shifts will be expanded. There is no cmov so expansion requires a select to be expanded to control flow.

Though even for fully aligned loads, they are still split: https://godbolt.org/z/z5T4cKGYT
This is silly. There is no other way to write load-of-bytes.

lebedev.ri mentioned this in D140638: [Codegen][LegalizeIntegerTypes] New legalization strategy for scalar shifts: shift through stack.Dec 23 2022, 2:57 PM

lebedev.ri mentioned this in rGcc39c3b17fb2: [Codegen][LegalizeIntegerTypes] New legalization strategy for scalar shifts….Jan 14 2023, 8:13 AM

lebedev.ri edited the summary of this revision. (Show Details)Jan 17 2023, 9:43 AM

Herald added a subscriber: StephenFan. · View Herald TranscriptJan 17 2023, 9:43 AM

I'm still looking into a few codegen improvements,
but otherwise i'm not tracking any other issues with this,
so once i'm done with codegen, this will proceed.
(SROA still needs a "are we done with inlining?" flag, yes.)

Revision Contents

Path

Size

llvm/

lib/

Transforms/

Scalar/

SROA.cpp

222 lines

test/

Transforms/

SROA/

widen-load-of-small-alloca.ll

1218 lines

Diff 484871

llvm/lib/Transforms/Scalar/SROA.cpp

Show All 36 Lines
#include "llvm/ADT/Twine.h"		#include "llvm/ADT/Twine.h"
#include "llvm/ADT/iterator.h"		#include "llvm/ADT/iterator.h"
#include "llvm/ADT/iterator_range.h"		#include "llvm/ADT/iterator_range.h"
#include "llvm/Analysis/AssumptionCache.h"		#include "llvm/Analysis/AssumptionCache.h"
#include "llvm/Analysis/DomTreeUpdater.h"		#include "llvm/Analysis/DomTreeUpdater.h"
#include "llvm/Analysis/GlobalsModRef.h"		#include "llvm/Analysis/GlobalsModRef.h"
#include "llvm/Analysis/Loads.h"		#include "llvm/Analysis/Loads.h"
#include "llvm/Analysis/PtrUseVisitor.h"		#include "llvm/Analysis/PtrUseVisitor.h"
		#include "llvm/Analysis/Utils/Local.h"
#include "llvm/Config/llvm-config.h"		#include "llvm/Config/llvm-config.h"
#include "llvm/IR/BasicBlock.h"		#include "llvm/IR/BasicBlock.h"
#include "llvm/IR/Constant.h"		#include "llvm/IR/Constant.h"
#include "llvm/IR/ConstantFolder.h"		#include "llvm/IR/ConstantFolder.h"
#include "llvm/IR/Constants.h"		#include "llvm/IR/Constants.h"
#include "llvm/IR/DIBuilder.h"		#include "llvm/IR/DIBuilder.h"
#include "llvm/IR/DataLayout.h"		#include "llvm/IR/DataLayout.h"
#include "llvm/IR/DebugInfo.h"		#include "llvm/IR/DebugInfo.h"
▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines
STATISTIC(NumLoadsSpeculated, "Number of loads speculated to allow promotion");		STATISTIC(NumLoadsSpeculated, "Number of loads speculated to allow promotion");
STATISTIC(NumLoadsPredicated,		STATISTIC(NumLoadsPredicated,
"Number of loads rewritten into predicated loads to allow promotion");		"Number of loads rewritten into predicated loads to allow promotion");
STATISTIC(		STATISTIC(
NumStoresPredicated,		NumStoresPredicated,
"Number of stores rewritten into predicated loads to allow promotion");		"Number of stores rewritten into predicated loads to allow promotion");
STATISTIC(NumDeleted, "Number of instructions deleted");		STATISTIC(NumDeleted, "Number of instructions deleted");
STATISTIC(NumVectorized, "Number of vectorized aggregates");		STATISTIC(NumVectorized, "Number of vectorized aggregates");
		STATISTIC(
		NumVariablyIndexedLoadsRewritten,
		"Number of variably-indexed loads rewritten into wide load + bit math");

/// Hidden option to experiment with completely strict handling of inbounds		/// Hidden option to experiment with completely strict handling of inbounds
/// GEPs.		/// GEPs.
static cl::opt<bool> SROAStrictInbounds("sroa-strict-inbounds", cl::init(false),		static cl::opt<bool> SROAStrictInbounds("sroa-strict-inbounds", cl::init(false),
cl::Hidden);		cl::Hidden);
namespace {		namespace {
/// Find linked dbg.assign and generate a new one with the correct		/// Find linked dbg.assign and generate a new one with the correct
/// FragmentInfo. Link Inst to the new dbg.assign. If Value is nullptr the		/// FragmentInfo. Link Inst to the new dbg.assign. If Value is nullptr the
▲ Show 20 Lines • Show All 270 Lines • ▼ Show 20 Lines	void printSlice(raw_ostream &OS, const_iterator I,
StringRef Indent = " ") const;		StringRef Indent = " ") const;
void printUse(raw_ostream &OS, const_iterator I,		void printUse(raw_ostream &OS, const_iterator I,
StringRef Indent = " ") const;		StringRef Indent = " ") const;
void print(raw_ostream &OS) const;		void print(raw_ostream &OS) const;
void dump(const_iterator I) const;		void dump(const_iterator I) const;
void dump() const;		void dump() const;
#endif		#endif

		struct CacheEntry {
		Value AccumulatedByteOffset = nullptr, AccumulatedBitOffset = nullptr;
		};
		using GEPCacheTy = SmallDenseMap<GetElementPtrInst *, CacheEntry, 32>;

private:		private:
template <typename DerivedT, typename RetT = void> class BuilderBase;		template <typename DerivedT, typename RetT = void> class BuilderBase;
class SliceBuilder;		class SliceBuilder;

		void rewriteVariablyIndexedLoad(Instruction &Root, LoadInst *LI,
		GEPCacheTy &GEPCache, IRBuilderTy &Builder);
		Instruction &rewriteVariablyIndexedLoads(ArrayRef<LoadInst *> LIs);

friend class AllocaSlices::SliceBuilder;		friend class AllocaSlices::SliceBuilder;

#if !defined(NDEBUG) \|\| defined(LLVM_ENABLE_DUMP)
/// Handle to alloca instruction to simplify method interfaces.		/// Handle to alloca instruction to simplify method interfaces.
AllocaInst &AI;		AllocaInst &AI;
#endif

/// The instruction responsible for this alloca not having a known set		/// The instruction responsible for this alloca not having a known set
/// of slices.		/// of slices.
///		///
/// When an instruction (potentially) escapes the pointer to the alloca, we		/// When an instruction (potentially) escapes the pointer to the alloca, we
/// store a pointer to that here and abort trying to form slices of the		/// store a pointer to that here and abort trying to form slices of the
/// alloca. This will be null if the alloca slices are analyzed successfully.		/// alloca. This will be null if the alloca slices are analyzed successfully.
Instruction *PointerEscapingInstr;		Instruction *PointerEscapingInstr;
▲ Show 20 Lines • Show All 332 Lines • ▼ Show 20 Lines	class AllocaSlices::SliceBuilder : public PtrUseVisitor<SliceBuilder> {
using Base = PtrUseVisitor<SliceBuilder>;		using Base = PtrUseVisitor<SliceBuilder>;

const uint64_t AllocSize;		const uint64_t AllocSize;
AllocaSlices &AS;		AllocaSlices &AS;

SmallDenseMap<Instruction *, unsigned> MemTransferSliceMap;		SmallDenseMap<Instruction *, unsigned> MemTransferSliceMap;
SmallDenseMap<Instruction *, uint64_t> PHIOrSelectSizes;		SmallDenseMap<Instruction *, uint64_t> PHIOrSelectSizes;

		/// All `load`s with non-constant offsets.
		SmallVectorImpl<LoadInst *> &VariablyIndexedLoads;

/// Set to de-duplicate dead instructions found in the use walk.		/// Set to de-duplicate dead instructions found in the use walk.
SmallPtrSet<Instruction *, 4> VisitedDeadInsts;		SmallPtrSet<Instruction *, 4> VisitedDeadInsts;

public:		public:
SliceBuilder(const DataLayout &DL, AllocaInst &AI, AllocaSlices &AS)		SliceBuilder(const DataLayout &DL, AllocaInst &AI, AllocaSlices &AS,
		SmallVectorImpl<LoadInst *> &VariablyIndexedLoads_)
: PtrUseVisitor<SliceBuilder>(DL),		: PtrUseVisitor<SliceBuilder>(DL),
AllocSize(DL.getTypeAllocSize(AI.getAllocatedType()).getFixedSize()),		AllocSize(DL.getTypeAllocSize(AI.getAllocatedType()).getFixedSize()),
AS(AS) {}		AS(AS), VariablyIndexedLoads(VariablyIndexedLoads_) {}

private:		private:
void markAsDead(Instruction &I) {		void markAsDead(Instruction &I) {
if (VisitedDeadInsts.insert(&I).second)		if (VisitedDeadInsts.insert(&I).second)
AS.DeadUsers.push_back(&I);		AS.DeadUsers.push_back(&I);
}		}

void insertUse(Instruction &I, const APInt &Offset, uint64_t Size,		void insertUse(Instruction &I, const APInt &Offset, uint64_t Size,
▲ Show 20 Lines • Show All 100 Lines • ▼ Show 20 Lines	void handleLoadOrStore(Type *Ty, Instruction &I, const APInt &Offset,
// integer type. These may be used to implement 'memcpy' or other "transfer		// integer type. These may be used to implement 'memcpy' or other "transfer
// of bits" patterns.		// of bits" patterns.
bool IsSplittable =		bool IsSplittable =
Ty->isIntegerTy() && !IsVolatile && DL.typeSizeEqualsStoreSize(Ty);		Ty->isIntegerTy() && !IsVolatile && DL.typeSizeEqualsStoreSize(Ty);

insertUse(I, Offset, Size, IsSplittable);		insertUse(I, Offset, Size, IsSplittable);
}		}

		void handleVariablyIndexedLoad(Type *Ty, LoadInst &LI, uint64_t Size,
		bool IsVolatile) {
		if (IsVolatile)
		return PI.setAborted(&LI);
		Type LoadBitTy = IntegerType::get(LI.getContext(), 8 Size);
		// We must be able to cast to the load's type from iN type. So no pointers.
		if (!BitCastInst::isBitCastable(LoadBitTy, Ty))
		return PI.setAborted(&LI);
		// Profitability reasoning: we expect that for the largest legal int type,
		// we do have good support for variable-amount shifts. For the type 2x that
		// width, the legalization will expand the shift into, at worst, 3 shifts
		// plus 5 supporting ALU ops. We expect that such an expansion is still not
		// worse than failing to promote the alloca.
		// But for any bit width larger than that, this isn't worth it.
		uint64_t AllocaBitwidth = 8 * AllocSize;
		if (unsigned MaxIntBitwidth = DL.getLargestLegalIntTypeSizeInBits();
		AllocaBitwidth > 2 * MaxIntBitwidth)
		return PI.setAborted(&LI);
		VariablyIndexedLoads.emplace_back(&LI);
		}

void visitLoadInst(LoadInst &LI) {		void visitLoadInst(LoadInst &LI) {
assert((!LI.isSimple() \|\| LI.getType()->isSingleValueType()) &&		assert((!LI.isSimple() \|\| LI.getType()->isSingleValueType()) &&
"All simple FCA loads should have been pre-split");		"All simple FCA loads should have been pre-split");

if (!IsOffsetKnown)
return PI.setAborted(&LI);

if (isa<ScalableVectorType>(LI.getType()))		if (isa<ScalableVectorType>(LI.getType()))
return PI.setAborted(&LI);		return PI.setAborted(&LI);

uint64_t Size = DL.getTypeStoreSize(LI.getType()).getFixedSize();		uint64_t Size = DL.getTypeStoreSize(LI.getType()).getFixedSize();
		if (!IsOffsetKnown)
		return handleVariablyIndexedLoad(LI.getType(), LI, Size, LI.isVolatile());
return handleLoadOrStore(LI.getType(), LI, Offset, Size, LI.isVolatile());		return handleLoadOrStore(LI.getType(), LI, Offset, Size, LI.isVolatile());
}		}

void visitStoreInst(StoreInst &SI) {		void visitStoreInst(StoreInst &SI) {
Value *ValOp = SI.getValueOperand();		Value *ValOp = SI.getValueOperand();
if (ValOp == *U)		if (ValOp == *U)
return PI.setEscapedAndAborted(&SI);		return PI.setEscapedAndAborted(&SI);
if (!IsOffsetKnown)		if (!IsOffsetKnown)
▲ Show 20 Lines • Show All 249 Lines • ▼ Show 20 Lines	private:

void visitSelectInst(SelectInst &SI) { visitPHINodeOrSelectInst(SI); }		void visitSelectInst(SelectInst &SI) { visitPHINodeOrSelectInst(SI); }

/// Disable SROA entirely if there are unhandled users of the alloca.		/// Disable SROA entirely if there are unhandled users of the alloca.
void visitInstruction(Instruction &I) { PI.setAborted(&I); }		void visitInstruction(Instruction &I) { PI.setAborted(&I); }
};		};

AllocaSlices::AllocaSlices(const DataLayout &DL, AllocaInst &AI)		AllocaSlices::AllocaSlices(const DataLayout &DL, AllocaInst &AI)
:		: AI(AI), PointerEscapingInstr(nullptr) {
#if !defined(NDEBUG) \|\| defined(LLVM_ENABLE_DUMP)		SmallVector<LoadInst *, 8> VariablyIndexedLoads;
AI(AI),		SliceBuilder PB(DL, AI, *this, VariablyIndexedLoads);
#endif
PointerEscapingInstr(nullptr) {
SliceBuilder PB(DL, AI, *this);
SliceBuilder::PtrInfo PtrI = PB.visitPtr(AI);		SliceBuilder::PtrInfo PtrI = PB.visitPtr(AI);
if (PtrI.isEscaped() \|\| PtrI.isAborted()) {		if (PtrI.isEscaped() \|\| PtrI.isAborted()) {
// FIXME: We should sink the escape vs. abort info into the caller nicely,		// FIXME: We should sink the escape vs. abort info into the caller nicely,
// possibly by just storing the PtrInfo in the AllocaSlices.		// possibly by just storing the PtrInfo in the AllocaSlices.
PointerEscapingInstr = PtrI.getEscapingInst() ? PtrI.getEscapingInst()		PointerEscapingInstr = PtrI.getEscapingInst() ? PtrI.getEscapingInst()
: PtrI.getAbortingInst();		: PtrI.getAbortingInst();
assert(PointerEscapingInstr && "Did not track a bad instruction");		assert(PointerEscapingInstr && "Did not track a bad instruction");
return;		return;
}		}

		// Ok, if we are still here, then we can deal with everything we encountered.

		if (!VariablyIndexedLoads.empty()) {
		Instruction &Root = rewriteVariablyIndexedLoads(VariablyIndexedLoads);
		SliceBuilder::PtrInfo PtrI = PB.visitPtr(Root);
		assert(!PtrI.isEscaped() && !PtrI.isAborted());
		}

llvm::erase_if(Slices, [](const Slice &S) { return S.isDead(); });		llvm::erase_if(Slices, [](const Slice &S) { return S.isDead(); });

// Sort the uses. This arranges for the offsets to be in ascending order,		// Sort the uses. This arranges for the offsets to be in ascending order,
// and the sizes to be in descending order.		// and the sizes to be in descending order.
llvm::stable_sort(Slices);		llvm::stable_sort(Slices);
}		}

		// Given the load \p LI, how do we come up with it's address?
		// Recurse until we reach the base `alloca`, remembering `Instruction` sequence.
		static SmallVector<GetElementPtrInst *, 8>
		getAddressCalculationStack(LoadInst *LI, AllocaSlices::GEPCacheTy &GEPCache) {
		SmallVector<GetElementPtrInst *, 8> GEPStack;
		Value *Root = LI->getPointerOperand();
		while (true) {
		auto *I = dyn_cast<Instruction>(Root);
		assert(I && I->getType()->isPointerTy() && "Not a ptr-to-ptr instruction");
		switch (I->getOpcode()) {
		case Instruction::Alloca:
		return GEPStack; // We're done.
		case Instruction::GetElementPtr: {
		// Remember the GEP regardless.
		auto *CurrGEP = cast<GetElementPtrInst>(I);
		GEPStack.emplace_back(CurrGEP);
		// Did we previously deal with this GEP?
		if (!GEPCache.insert({CurrGEP, {}}).second)
		return GEPStack; // We know it's accumulated byte offset. We're done.
		[[fallthrough]]; // Continue recursing further.
		}
		case Instruction::BitCast:
		case Instruction::AddrSpaceCast:
		Root = I->getOperand(0); // Recurse further.
		break;
		default:
		// We don't allow `select`s/`PHI`s of variably-offset addresses,
		// so we should not get here.
		llvm_unreachable("Unexpected address-calculating instruction.");
		}
		}
		lebedev.riAuthorUnsubmitted Done Reply Inline Actions We could maintain a cache for these two functions, but it would only be effective for the current `AllocaSlices`, so i'm not sure if that is something we want? lebedev.ri: We could maintain a cache for these two functions, but it would only be effective for the…
		return GEPStack;
		}

		// Given the \p LI load's address, produce an expression equivalent to the
		// CHAR_BIT * (ptrtoint(address into alloca) - ptrtoint(alloca))
		// but without referencing the alloca itself, or doing any GEP's.
		static Value getVariableBitOffsetIntoAlloca(LoadInst LI,
		AllocaSlices::GEPCacheTy &GEPCache,
		IRBuilderTy &Builder) {
		const DataLayout &DL = LI->getModule()->getDataLayout();
		SmallVector<GetElementPtrInst *, 8> GEPStack =
		getAddressCalculationStack(LI, GEPCache);

		// Do we already know the answer?
		// NOTE: we look at the outermost/first entry in the stack!
		if (Value *AccumulatedBitOffset =
		GEPCache[GEPStack.front()].AccumulatedBitOffset)
		return AccumulatedBitOffset;

		// Ok, looks like we need to actually compute it.

		GetElementPtrInst *CurrGEP = GEPStack.back();
		Value *AccumulatedByteOffset = nullptr;
		// If we already have accumulated byte offset of this GEP, get it from cache.
		if ((AccumulatedByteOffset = GEPCache[CurrGEP].AccumulatedByteOffset))
		GEPStack.pop_back(); // Don't re-compute this GEP.

		assert(!GEPStack.empty() && "No GEP's to evaluate?");
		while (!GEPStack.empty()) {
		CurrGEP = GEPStack.pop_back_val();
		auto &CacheEntry = GEPCache[CurrGEP];
		assert(!CacheEntry.AccumulatedByteOffset &&
		!CacheEntry.AccumulatedBitOffset &&
		"We don't have anything cached for this GEP.");
		Builder.SetInsertPoint(CurrGEP);
		Value *CurrByteOffset =
		EmitGEPOffset(&Builder, DL, CurrGEP, /NoAssumptions=/false);
		if (!AccumulatedByteOffset)
		AccumulatedByteOffset = CurrByteOffset;
		else {
		assert(AccumulatedByteOffset->getType() == CurrByteOffset->getType() &&
		"Index type changed?");
		AccumulatedByteOffset =
		Builder.CreateAdd(AccumulatedByteOffset, CurrByteOffset,
		CurrGEP->getName() + ".byteoff", /HasNUW=/false,
		/HasNSW=/CurrGEP->isInBounds());
		}
		CacheEntry.AccumulatedByteOffset = AccumulatedByteOffset;
		}

		// Finally, we know the byte offset, multiply by CHAR_BIT to get bit offset.
		Value *&AccumulatedBitOffset = GEPCache[CurrGEP].AccumulatedBitOffset;
		AccumulatedBitOffset = Builder.CreateMul(
		AccumulatedByteOffset,
		ConstantInt::get(AccumulatedByteOffset->getType(), 8),
		AccumulatedByteOffset->getName() + ".numbits", /HasNUW=/true,
		/HasNSW=/true);
		return AccumulatedBitOffset;
		}

		// For each variably-indexed load, perform a wide load of the whole alloca
		// (and now that we can promote), compute the byte offset into alloca
		// from which we've originally loaded, and then use bit math to extract
		// the equivalent bit sequence from the wide load.
		void AllocaSlices::rewriteVariablyIndexedLoad(
		Instruction &Root, LoadInst *LI, AllocaSlices::GEPCacheTy &GEPCache,
		IRBuilderTy &Builder) {
		const DataLayout &DL = LI->getModule()->getDataLayout();

		Type *LoadTy = LI->getType();
		assert(!isa<ScalableVectorType>(LoadTy) && "Scalable types don't reach us.");

		uint64_t AllocByteSize =
		DL.getTypeAllocSize(AI.getAllocatedType()).getFixedSize();
		uint64_t AllocBitwidth = 8 * AllocByteSize;

		uint64_t LoadBitwidth = 8 * DL.getTypeStoreSize(LI->getType()).getFixedSize();

		Type *LoadBitTy = IntegerType::get(LI->getContext(), LoadBitwidth);
		Type *AllocBitTy = IntegerType::get(LI->getContext(), AllocBitwidth);
		Type *AllocByteTy = FixedVectorType::get(
		IntegerType::getInt8Ty(LI->getContext()), AllocByteSize);

		Value *Offset = getVariableBitOffsetIntoAlloca(LI, GEPCache, Builder);

		Builder.SetInsertPoint(LI);
		Value *V = Builder.CreateAlignedLoad(AllocByteTy, &Root, AI.getAlign(),
		AI.getName() + ".val");
		V = Builder.CreateFreeze(V, V->getName() + ".frozen");
		V = Builder.CreateBitCast(V, AllocBitTy, V->getName() + ".bits");

		Offset = Builder.CreateZExtOrTrunc(Offset, AllocBitTy,
		Offset->getName() + ".wide");

		// NOTE: all shifts here are inexact.
		if (DL.isLittleEndian())
		V = Builder.CreateLShr(V, Offset, V->getName() + ".positioned");
		else {
		V = Builder.CreateShl(V, Offset, V->getName() + ".positioned");
		V = Builder.CreateLShr(
		V, ConstantInt::get(V->getType(), AllocBitwidth - LoadBitwidth),
		V->getName() + ".part");
		}
		V = Builder.CreateTrunc(V, LoadBitTy, V->getName() + ".extracted");
		V = Builder.CreateBitCast(V, LoadTy);
		LI->replaceAllUsesWith(V);
		DeadUsers.emplace_back(LI);
		++NumVariablyIndexedLoadsRewritten;
		}

		Instruction &
		AllocaSlices::rewriteVariablyIndexedLoads(ArrayRef<LoadInst *> LIs) {
		IRBuilderTy Builder(AI.getContext());
		// Create empty GEP for to base all our newly-inserted instructions off of,
		// so we can feed it back into `SliceBuilder` to record our instructions.
		Instruction &Root = *GetElementPtrInst::CreateInBounds(
		IntegerType::getInt8Ty(AI.getContext()), &AI, {});
		Root.insertAfter(&AI);
		// And just rewrite each `load` we previously recorded.
		GEPCacheTy GEPCache;
		for (LoadInst *LI : LIs)
		rewriteVariablyIndexedLoad(Root, LI, GEPCache, Builder);
		return Root;
		}

#if !defined(NDEBUG) \|\| defined(LLVM_ENABLE_DUMP)		#if !defined(NDEBUG) \|\| defined(LLVM_ENABLE_DUMP)

void AllocaSlices::print(raw_ostream &OS, const_iterator I,		void AllocaSlices::print(raw_ostream &OS, const_iterator I,
StringRef Indent) const {		StringRef Indent) const {
printSlice(OS, I, Indent);		printSlice(OS, I, Indent);
OS << "\n";		OS << "\n";
printUse(OS, I, Indent);		printUse(OS, I, Indent);
}		}
▲ Show 20 Lines • Show All 4,066 Lines • Show Last 20 Lines

llvm/test/Transforms/SROA/widen-load-of-small-alloca.ll

; NOTE: Assertions have been autogenerated by utils/update_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_test_checks.py
; RUN: opt -passes='sroa<preserve-cfg>' -data-layout="e-n8:16:32:64" -S %s \| FileCheck %s --check-prefixes=CHECK-ALL,CHECK-SCALAR,CHECK-SCALAR-64,CHECK-LE-64		; RUN: opt -passes='sroa<preserve-cfg>' -data-layout="e-n8:16:32:64" -S %s \| FileCheck %s --check-prefixes=CHECK-ALL,CHECK-SCALAR,CHECK-SCALAR-64,CHECK-LE-64
; RUN: opt -passes='sroa<modify-cfg>' -data-layout="e-n8:16:32:64" -S %s \| FileCheck %s --check-prefixes=CHECK-ALL,CHECK-SCALAR,CHECK-SCALAR-64,CHECK-LE-64		; RUN: opt -passes='sroa<modify-cfg>' -data-layout="e-n8:16:32:64" -S %s \| FileCheck %s --check-prefixes=CHECK-ALL,CHECK-SCALAR,CHECK-SCALAR-64,CHECK-LE-64
; RUN: opt -passes='sroa<preserve-cfg>' -data-layout="e-n8:16:32" -S %s \| FileCheck %s --check-prefixes=CHECK-ALL,CHECK-SCALAR,CHECK-SCALAR-32,CHECK-LE-32		; RUN: opt -passes='sroa<preserve-cfg>' -data-layout="e-n8:16:32" -S %s \| FileCheck %s --check-prefixes=CHECK-ALL,CHECK-SCALAR,CHECK-SCALAR-32,CHECK-LE-32
; RUN: opt -passes='sroa<modify-cfg>' -data-layout="e-n8:16:32" -S %s \| FileCheck %s --check-prefixes=CHECK-ALL,CHECK-SCALAR,CHECK-SCALAR-32,CHECK-LE-32		; RUN: opt -passes='sroa<modify-cfg>' -data-layout="e-n8:16:32" -S %s \| FileCheck %s --check-prefixes=CHECK-ALL,CHECK-SCALAR,CHECK-SCALAR-32,CHECK-LE-32
; RUN: opt -passes='sroa<preserve-cfg>' -data-layout="E-n8:16:32:64" -S %s \| FileCheck %s --check-prefixes=CHECK-ALL,CHECK-SCALAR,CHECK-SCALAR-64,CHECK-BE-64		; RUN: opt -passes='sroa<preserve-cfg>' -data-layout="E-n8:16:32:64" -S %s \| FileCheck %s --check-prefixes=CHECK-ALL,CHECK-SCALAR,CHECK-SCALAR-64,CHECK-BE-64
; RUN: opt -passes='sroa<modify-cfg>' -data-layout="E-n8:16:32:64" -S %s \| FileCheck %s --check-prefixes=CHECK-ALL,CHECK-SCALAR,CHECK-SCALAR-64,CHECK-BE-64		; RUN: opt -passes='sroa<modify-cfg>' -data-layout="E-n8:16:32:64" -S %s \| FileCheck %s --check-prefixes=CHECK-ALL,CHECK-SCALAR,CHECK-SCALAR-64,CHECK-BE-64
; RUN: opt -passes='sroa<preserve-cfg>' -data-layout="E-n8:16:32" -S %s \| FileCheck %s --check-prefixes=CHECK-ALL,CHECK-SCALAR,CHECK-SCALAR-32,CHECK-BE-32		; RUN: opt -passes='sroa<preserve-cfg>' -data-layout="E-n8:16:32" -S %s \| FileCheck %s --check-prefixes=CHECK-ALL,CHECK-SCALAR,CHECK-SCALAR-32,CHECK-BE-32
; RUN: opt -passes='sroa<modify-cfg>' -data-layout="E-n8:16:32" -S %s \| FileCheck %s --check-prefixes=CHECK-ALL,CHECK-SCALAR,CHECK-SCALAR-32,CHECK-BE-32		; RUN: opt -passes='sroa<modify-cfg>' -data-layout="E-n8:16:32" -S %s \| FileCheck %s --check-prefixes=CHECK-ALL,CHECK-SCALAR,CHECK-SCALAR-32,CHECK-BE-32

define void @load-1byte-chunk-of-1byte-alloca(ptr %src, i64 %byteOff) {		define void @load-1byte-chunk-of-1byte-alloca(ptr %src, i64 %byteOff) {
; CHECK-ALL-LABEL: @load-1byte-chunk-of-1byte-alloca(		; CHECK-LE-64-LABEL: @load-1byte-chunk-of-1byte-alloca(
; CHECK-ALL-NEXT: [[INTERMEDIATE:%.*]] = alloca [1 x i8], align 64		; CHECK-LE-64-NEXT: [[INIT:%.]] = load <1 x i8>, ptr [[SRC:%.]], align 1
; CHECK-ALL-NEXT: [[INIT:%.]] = load <1 x i8>, ptr [[SRC:%.]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
; CHECK-ALL-NEXT: store <1 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <1 x i8> [[INIT]]
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <1 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i8
; CHECK-ALL-NEXT: [[CHUNK:%.*]] = load <1 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = trunc i64 [[BYTEOFF_NUMBITS]] to i8
; CHECK-ALL-NEXT: call void @use.v1i8(<1 x i8> [[CHUNK]])		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i8 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
; CHECK-ALL-NEXT: ret void		; CHECK-LE-64-NEXT: [[TMP1:%.*]] = bitcast i8 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to <1 x i8>
		; CHECK-LE-64-NEXT: call void @use.v1i8(<1 x i8> [[TMP1]])
		; CHECK-LE-64-NEXT: ret void
		;
		; CHECK-LE-32-LABEL: @load-1byte-chunk-of-1byte-alloca(
		; CHECK-LE-32-NEXT: [[INIT:%.]] = load <1 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-LE-32-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <1 x i8> [[INIT]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <1 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i8
		; CHECK-LE-32-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = trunc i64 [[BYTEOFF_NUMBITS]] to i8
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i8 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-LE-32-NEXT: [[TMP1:%.*]] = bitcast i8 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to <1 x i8>
		; CHECK-LE-32-NEXT: call void @use.v1i8(<1 x i8> [[TMP1]])
		; CHECK-LE-32-NEXT: ret void
		;
		; CHECK-BE-64-LABEL: @load-1byte-chunk-of-1byte-alloca(
		; CHECK-BE-64-NEXT: [[INIT:%.]] = load <1 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <1 x i8> [[INIT]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <1 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i8
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = trunc i64 [[BYTEOFF_NUMBITS]] to i8
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i8 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i8 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 0
		; CHECK-BE-64-NEXT: [[TMP1:%.*]] = bitcast i8 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to <1 x i8>
		; CHECK-BE-64-NEXT: call void @use.v1i8(<1 x i8> [[TMP1]])
		; CHECK-BE-64-NEXT: ret void
		;
		; CHECK-BE-32-LABEL: @load-1byte-chunk-of-1byte-alloca(
		; CHECK-BE-32-NEXT: [[INIT:%.]] = load <1 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-32-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <1 x i8> [[INIT]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <1 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i8
		; CHECK-BE-32-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = trunc i64 [[BYTEOFF_NUMBITS]] to i8
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i8 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i8 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 0
		; CHECK-BE-32-NEXT: [[TMP1:%.*]] = bitcast i8 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to <1 x i8>
		; CHECK-BE-32-NEXT: call void @use.v1i8(<1 x i8> [[TMP1]])
		; CHECK-BE-32-NEXT: ret void
;		;
%intermediate = alloca [1 x i8], align 64		%intermediate = alloca [1 x i8], align 64
%init = load <1 x i8>, ptr %src, align 1		%init = load <1 x i8>, ptr %src, align 1
store <1 x i8> %init, ptr %intermediate, align 64		store <1 x i8> %init, ptr %intermediate, align 64
%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff		%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff
%chunk = load <1 x i8>, ptr %intermediate.off.addr, align 1		%chunk = load <1 x i8>, ptr %intermediate.off.addr, align 1
call void @use.v1i8(<1 x i8> %chunk)		call void @use.v1i8(<1 x i8> %chunk)
ret void		ret void
}		}

define void @load-1byte-chunk-of-2byte-alloca(ptr %src, i64 %byteOff) {		define void @load-1byte-chunk-of-2byte-alloca(ptr %src, i64 %byteOff) {
; CHECK-ALL-LABEL: @load-1byte-chunk-of-2byte-alloca(		; CHECK-LE-64-LABEL: @load-1byte-chunk-of-2byte-alloca(
; CHECK-ALL-NEXT: [[INTERMEDIATE:%.*]] = alloca [2 x i8], align 64		; CHECK-LE-64-NEXT: [[INIT:%.]] = load <2 x i8>, ptr [[SRC:%.]], align 1
; CHECK-ALL-NEXT: [[INIT:%.]] = load <2 x i8>, ptr [[SRC:%.]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
; CHECK-ALL-NEXT: store <2 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <2 x i8> [[INIT]]
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <2 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i16
; CHECK-ALL-NEXT: [[CHUNK:%.*]] = load <1 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = trunc i64 [[BYTEOFF_NUMBITS]] to i16
; CHECK-ALL-NEXT: call void @use.v1i8(<1 x i8> [[CHUNK]])		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i16 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
; CHECK-ALL-NEXT: ret void		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i8
		; CHECK-LE-64-NEXT: [[TMP1:%.*]] = bitcast i8 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <1 x i8>
		; CHECK-LE-64-NEXT: call void @use.v1i8(<1 x i8> [[TMP1]])
		; CHECK-LE-64-NEXT: ret void
		;
		; CHECK-LE-32-LABEL: @load-1byte-chunk-of-2byte-alloca(
		; CHECK-LE-32-NEXT: [[INIT:%.]] = load <2 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-LE-32-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <2 x i8> [[INIT]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <2 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i16
		; CHECK-LE-32-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = trunc i64 [[BYTEOFF_NUMBITS]] to i16
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i16 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i8
		; CHECK-LE-32-NEXT: [[TMP1:%.*]] = bitcast i8 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <1 x i8>
		; CHECK-LE-32-NEXT: call void @use.v1i8(<1 x i8> [[TMP1]])
		; CHECK-LE-32-NEXT: ret void
		;
		; CHECK-BE-64-LABEL: @load-1byte-chunk-of-2byte-alloca(
		; CHECK-BE-64-NEXT: [[INIT:%.]] = load <2 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <2 x i8> [[INIT]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <2 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i16
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = trunc i64 [[BYTEOFF_NUMBITS]] to i16
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i16 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 8
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i8
		; CHECK-BE-64-NEXT: [[TMP1:%.*]] = bitcast i8 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <1 x i8>
		; CHECK-BE-64-NEXT: call void @use.v1i8(<1 x i8> [[TMP1]])
		; CHECK-BE-64-NEXT: ret void
		;
		; CHECK-BE-32-LABEL: @load-1byte-chunk-of-2byte-alloca(
		; CHECK-BE-32-NEXT: [[INIT:%.]] = load <2 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-32-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <2 x i8> [[INIT]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <2 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i16
		; CHECK-BE-32-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = trunc i64 [[BYTEOFF_NUMBITS]] to i16
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i16 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 8
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i8
		; CHECK-BE-32-NEXT: [[TMP1:%.*]] = bitcast i8 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <1 x i8>
		; CHECK-BE-32-NEXT: call void @use.v1i8(<1 x i8> [[TMP1]])
		; CHECK-BE-32-NEXT: ret void
;		;
%intermediate = alloca [2 x i8], align 64		%intermediate = alloca [2 x i8], align 64
%init = load <2 x i8>, ptr %src, align 1		%init = load <2 x i8>, ptr %src, align 1
store <2 x i8> %init, ptr %intermediate, align 64		store <2 x i8> %init, ptr %intermediate, align 64
%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff		%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff
%chunk = load <1 x i8>, ptr %intermediate.off.addr, align 1		%chunk = load <1 x i8>, ptr %intermediate.off.addr, align 1
call void @use.v1i8(<1 x i8> %chunk)		call void @use.v1i8(<1 x i8> %chunk)
ret void		ret void
}		}

define void @load-2byte-chunk-of-2byte-alloca(ptr %src, i64 %byteOff) {		define void @load-2byte-chunk-of-2byte-alloca(ptr %src, i64 %byteOff) {
; CHECK-ALL-LABEL: @load-2byte-chunk-of-2byte-alloca(		; CHECK-LE-64-LABEL: @load-2byte-chunk-of-2byte-alloca(
; CHECK-ALL-NEXT: [[INTERMEDIATE:%.*]] = alloca [2 x i8], align 64		; CHECK-LE-64-NEXT: [[INIT:%.]] = load <2 x i8>, ptr [[SRC:%.]], align 1
; CHECK-ALL-NEXT: [[INIT:%.]] = load <2 x i8>, ptr [[SRC:%.]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
; CHECK-ALL-NEXT: store <2 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <2 x i8> [[INIT]]
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <2 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i16
; CHECK-ALL-NEXT: [[CHUNK:%.*]] = load <2 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = trunc i64 [[BYTEOFF_NUMBITS]] to i16
; CHECK-ALL-NEXT: call void @use.v2i8(<2 x i8> [[CHUNK]])		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i16 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
; CHECK-ALL-NEXT: ret void		; CHECK-LE-64-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to <2 x i8>
		; CHECK-LE-64-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-LE-64-NEXT: ret void
		;
		; CHECK-LE-32-LABEL: @load-2byte-chunk-of-2byte-alloca(
		; CHECK-LE-32-NEXT: [[INIT:%.]] = load <2 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-LE-32-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <2 x i8> [[INIT]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <2 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i16
		; CHECK-LE-32-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = trunc i64 [[BYTEOFF_NUMBITS]] to i16
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i16 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-LE-32-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to <2 x i8>
		; CHECK-LE-32-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-LE-32-NEXT: ret void
		;
		; CHECK-BE-64-LABEL: @load-2byte-chunk-of-2byte-alloca(
		; CHECK-BE-64-NEXT: [[INIT:%.]] = load <2 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <2 x i8> [[INIT]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <2 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i16
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = trunc i64 [[BYTEOFF_NUMBITS]] to i16
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i16 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 0
		; CHECK-BE-64-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to <2 x i8>
		; CHECK-BE-64-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-BE-64-NEXT: ret void
		;
		; CHECK-BE-32-LABEL: @load-2byte-chunk-of-2byte-alloca(
		; CHECK-BE-32-NEXT: [[INIT:%.]] = load <2 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-32-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <2 x i8> [[INIT]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <2 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i16
		; CHECK-BE-32-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = trunc i64 [[BYTEOFF_NUMBITS]] to i16
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i16 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 0
		; CHECK-BE-32-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to <2 x i8>
		; CHECK-BE-32-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-BE-32-NEXT: ret void
;		;
%intermediate = alloca [2 x i8], align 64		%intermediate = alloca [2 x i8], align 64
%init = load <2 x i8>, ptr %src, align 1		%init = load <2 x i8>, ptr %src, align 1
store <2 x i8> %init, ptr %intermediate, align 64		store <2 x i8> %init, ptr %intermediate, align 64
%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff		%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff
%chunk = load <2 x i8>, ptr %intermediate.off.addr, align 1		%chunk = load <2 x i8>, ptr %intermediate.off.addr, align 1
call void @use.v2i8(<2 x i8> %chunk)		call void @use.v2i8(<2 x i8> %chunk)
ret void		ret void
}		}

define void @load-1byte-chunk-of-4byte-alloca(ptr %src, i64 %byteOff) {		define void @load-1byte-chunk-of-4byte-alloca(ptr %src, i64 %byteOff) {
; CHECK-ALL-LABEL: @load-1byte-chunk-of-4byte-alloca(		; CHECK-LE-64-LABEL: @load-1byte-chunk-of-4byte-alloca(
; CHECK-ALL-NEXT: [[INTERMEDIATE:%.*]] = alloca [4 x i8], align 64		; CHECK-LE-64-NEXT: [[INIT:%.]] = load <4 x i8>, ptr [[SRC:%.]], align 1
; CHECK-ALL-NEXT: [[INIT:%.]] = load <4 x i8>, ptr [[SRC:%.]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
; CHECK-ALL-NEXT: store <4 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <4 x i8> [[INIT]]
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <4 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i32
; CHECK-ALL-NEXT: [[CHUNK:%.*]] = load <1 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = trunc i64 [[BYTEOFF_NUMBITS]] to i32
; CHECK-ALL-NEXT: call void @use.v1i8(<1 x i8> [[CHUNK]])		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i32 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
; CHECK-ALL-NEXT: ret void		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i8
		; CHECK-LE-64-NEXT: [[TMP1:%.*]] = bitcast i8 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <1 x i8>
		; CHECK-LE-64-NEXT: call void @use.v1i8(<1 x i8> [[TMP1]])
		; CHECK-LE-64-NEXT: ret void
		;
		; CHECK-LE-32-LABEL: @load-1byte-chunk-of-4byte-alloca(
		; CHECK-LE-32-NEXT: [[INIT:%.]] = load <4 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-LE-32-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <4 x i8> [[INIT]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <4 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i32
		; CHECK-LE-32-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = trunc i64 [[BYTEOFF_NUMBITS]] to i32
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i32 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i8
		; CHECK-LE-32-NEXT: [[TMP1:%.*]] = bitcast i8 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <1 x i8>
		; CHECK-LE-32-NEXT: call void @use.v1i8(<1 x i8> [[TMP1]])
		; CHECK-LE-32-NEXT: ret void
		;
		; CHECK-BE-64-LABEL: @load-1byte-chunk-of-4byte-alloca(
		; CHECK-BE-64-NEXT: [[INIT:%.]] = load <4 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <4 x i8> [[INIT]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <4 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i32
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = trunc i64 [[BYTEOFF_NUMBITS]] to i32
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i32 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 24
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i8
		; CHECK-BE-64-NEXT: [[TMP1:%.*]] = bitcast i8 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <1 x i8>
		; CHECK-BE-64-NEXT: call void @use.v1i8(<1 x i8> [[TMP1]])
		; CHECK-BE-64-NEXT: ret void
		;
		; CHECK-BE-32-LABEL: @load-1byte-chunk-of-4byte-alloca(
		; CHECK-BE-32-NEXT: [[INIT:%.]] = load <4 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-32-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <4 x i8> [[INIT]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <4 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i32
		; CHECK-BE-32-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = trunc i64 [[BYTEOFF_NUMBITS]] to i32
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i32 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 24
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i8
		; CHECK-BE-32-NEXT: [[TMP1:%.*]] = bitcast i8 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <1 x i8>
		; CHECK-BE-32-NEXT: call void @use.v1i8(<1 x i8> [[TMP1]])
		; CHECK-BE-32-NEXT: ret void
;		;
%intermediate = alloca [4 x i8], align 64		%intermediate = alloca [4 x i8], align 64
%init = load <4 x i8>, ptr %src, align 1		%init = load <4 x i8>, ptr %src, align 1
store <4 x i8> %init, ptr %intermediate, align 64		store <4 x i8> %init, ptr %intermediate, align 64
%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff		%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff
%chunk = load <1 x i8>, ptr %intermediate.off.addr, align 1		%chunk = load <1 x i8>, ptr %intermediate.off.addr, align 1
call void @use.v1i8(<1 x i8> %chunk)		call void @use.v1i8(<1 x i8> %chunk)
ret void		ret void
}		}

define void @load-2byte-chunk-of-4byte-alloca(ptr %src, i64 %byteOff) {		define void @load-2byte-chunk-of-4byte-alloca(ptr %src, i64 %byteOff) {
; CHECK-ALL-LABEL: @load-2byte-chunk-of-4byte-alloca(		; CHECK-LE-64-LABEL: @load-2byte-chunk-of-4byte-alloca(
; CHECK-ALL-NEXT: [[INTERMEDIATE:%.*]] = alloca [4 x i8], align 64		; CHECK-LE-64-NEXT: [[INIT:%.]] = load <4 x i8>, ptr [[SRC:%.]], align 1
; CHECK-ALL-NEXT: [[INIT:%.]] = load <4 x i8>, ptr [[SRC:%.]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
; CHECK-ALL-NEXT: store <4 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <4 x i8> [[INIT]]
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <4 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i32
; CHECK-ALL-NEXT: [[CHUNK:%.*]] = load <2 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = trunc i64 [[BYTEOFF_NUMBITS]] to i32
; CHECK-ALL-NEXT: call void @use.v2i8(<2 x i8> [[CHUNK]])		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i32 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
; CHECK-ALL-NEXT: ret void		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i16
		; CHECK-LE-64-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <2 x i8>
		; CHECK-LE-64-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-LE-64-NEXT: ret void
		;
		; CHECK-LE-32-LABEL: @load-2byte-chunk-of-4byte-alloca(
		; CHECK-LE-32-NEXT: [[INIT:%.]] = load <4 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-LE-32-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <4 x i8> [[INIT]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <4 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i32
		; CHECK-LE-32-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = trunc i64 [[BYTEOFF_NUMBITS]] to i32
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i32 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i16
		; CHECK-LE-32-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <2 x i8>
		; CHECK-LE-32-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-LE-32-NEXT: ret void
		;
		; CHECK-BE-64-LABEL: @load-2byte-chunk-of-4byte-alloca(
		; CHECK-BE-64-NEXT: [[INIT:%.]] = load <4 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <4 x i8> [[INIT]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <4 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i32
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = trunc i64 [[BYTEOFF_NUMBITS]] to i32
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i32 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 16
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i16
		; CHECK-BE-64-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <2 x i8>
		; CHECK-BE-64-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-BE-64-NEXT: ret void
		;
		; CHECK-BE-32-LABEL: @load-2byte-chunk-of-4byte-alloca(
		; CHECK-BE-32-NEXT: [[INIT:%.]] = load <4 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-32-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <4 x i8> [[INIT]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <4 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i32
		; CHECK-BE-32-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = trunc i64 [[BYTEOFF_NUMBITS]] to i32
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i32 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 16
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i16
		; CHECK-BE-32-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <2 x i8>
		; CHECK-BE-32-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-BE-32-NEXT: ret void
;		;
%intermediate = alloca [4 x i8], align 64		%intermediate = alloca [4 x i8], align 64
%init = load <4 x i8>, ptr %src, align 1		%init = load <4 x i8>, ptr %src, align 1
store <4 x i8> %init, ptr %intermediate, align 64		store <4 x i8> %init, ptr %intermediate, align 64
%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff		%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff
%chunk = load <2 x i8>, ptr %intermediate.off.addr, align 1		%chunk = load <2 x i8>, ptr %intermediate.off.addr, align 1
call void @use.v2i8(<2 x i8> %chunk)		call void @use.v2i8(<2 x i8> %chunk)
ret void		ret void
}		}

define void @load-4byte-chunk-of-4byte-alloca(ptr %src, i64 %byteOff) {		define void @load-4byte-chunk-of-4byte-alloca(ptr %src, i64 %byteOff) {
; CHECK-ALL-LABEL: @load-4byte-chunk-of-4byte-alloca(		; CHECK-LE-64-LABEL: @load-4byte-chunk-of-4byte-alloca(
; CHECK-ALL-NEXT: [[INTERMEDIATE:%.*]] = alloca [4 x i8], align 64		; CHECK-LE-64-NEXT: [[INIT:%.]] = load <4 x i8>, ptr [[SRC:%.]], align 1
; CHECK-ALL-NEXT: [[INIT:%.]] = load <4 x i8>, ptr [[SRC:%.]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
; CHECK-ALL-NEXT: store <4 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <4 x i8> [[INIT]]
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <4 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i32
; CHECK-ALL-NEXT: [[CHUNK:%.*]] = load <4 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = trunc i64 [[BYTEOFF_NUMBITS]] to i32
; CHECK-ALL-NEXT: call void @use.v4i8(<4 x i8> [[CHUNK]])		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i32 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
; CHECK-ALL-NEXT: ret void		; CHECK-LE-64-NEXT: [[TMP1:%.*]] = bitcast i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to <4 x i8>
		; CHECK-LE-64-NEXT: call void @use.v4i8(<4 x i8> [[TMP1]])
		; CHECK-LE-64-NEXT: ret void
		;
		; CHECK-LE-32-LABEL: @load-4byte-chunk-of-4byte-alloca(
		; CHECK-LE-32-NEXT: [[INIT:%.]] = load <4 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-LE-32-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <4 x i8> [[INIT]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <4 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i32
		; CHECK-LE-32-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = trunc i64 [[BYTEOFF_NUMBITS]] to i32
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i32 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-LE-32-NEXT: [[TMP1:%.*]] = bitcast i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to <4 x i8>
		; CHECK-LE-32-NEXT: call void @use.v4i8(<4 x i8> [[TMP1]])
		; CHECK-LE-32-NEXT: ret void
		;
		; CHECK-BE-64-LABEL: @load-4byte-chunk-of-4byte-alloca(
		; CHECK-BE-64-NEXT: [[INIT:%.]] = load <4 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <4 x i8> [[INIT]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <4 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i32
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = trunc i64 [[BYTEOFF_NUMBITS]] to i32
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i32 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 0
		; CHECK-BE-64-NEXT: [[TMP1:%.*]] = bitcast i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to <4 x i8>
		; CHECK-BE-64-NEXT: call void @use.v4i8(<4 x i8> [[TMP1]])
		; CHECK-BE-64-NEXT: ret void
		;
		; CHECK-BE-32-LABEL: @load-4byte-chunk-of-4byte-alloca(
		; CHECK-BE-32-NEXT: [[INIT:%.]] = load <4 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-32-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <4 x i8> [[INIT]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <4 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i32
		; CHECK-BE-32-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = trunc i64 [[BYTEOFF_NUMBITS]] to i32
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i32 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 0
		; CHECK-BE-32-NEXT: [[TMP1:%.*]] = bitcast i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to <4 x i8>
		; CHECK-BE-32-NEXT: call void @use.v4i8(<4 x i8> [[TMP1]])
		; CHECK-BE-32-NEXT: ret void
;		;
%intermediate = alloca [4 x i8], align 64		%intermediate = alloca [4 x i8], align 64
%init = load <4 x i8>, ptr %src, align 1		%init = load <4 x i8>, ptr %src, align 1
store <4 x i8> %init, ptr %intermediate, align 64		store <4 x i8> %init, ptr %intermediate, align 64
%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff		%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff
%chunk = load <4 x i8>, ptr %intermediate.off.addr, align 1		%chunk = load <4 x i8>, ptr %intermediate.off.addr, align 1
call void @use.v4i8(<4 x i8> %chunk)		call void @use.v4i8(<4 x i8> %chunk)
ret void		ret void
}		}

define void @load-1byte-chunk-of-8byte-alloca(ptr %src, i64 %byteOff) {		define void @load-1byte-chunk-of-8byte-alloca(ptr %src, i64 %byteOff) {
; CHECK-ALL-LABEL: @load-1byte-chunk-of-8byte-alloca(		; CHECK-LE-64-LABEL: @load-1byte-chunk-of-8byte-alloca(
; CHECK-ALL-NEXT: [[INTERMEDIATE:%.*]] = alloca [8 x i8], align 64		; CHECK-LE-64-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
; CHECK-ALL-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
; CHECK-ALL-NEXT: store <8 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
; CHECK-ALL-NEXT: [[CHUNK:%.*]] = load <1 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS]]
; CHECK-ALL-NEXT: call void @use.v1i8(<1 x i8> [[CHUNK]])		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i8
; CHECK-ALL-NEXT: ret void		; CHECK-LE-64-NEXT: [[TMP1:%.*]] = bitcast i8 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <1 x i8>
		; CHECK-LE-64-NEXT: call void @use.v1i8(<1 x i8> [[TMP1]])
		; CHECK-LE-64-NEXT: ret void
		;
		; CHECK-LE-32-LABEL: @load-1byte-chunk-of-8byte-alloca(
		; CHECK-LE-32-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-LE-32-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i8
		; CHECK-LE-32-NEXT: [[TMP1:%.*]] = bitcast i8 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <1 x i8>
		; CHECK-LE-32-NEXT: call void @use.v1i8(<1 x i8> [[TMP1]])
		; CHECK-LE-32-NEXT: ret void
		;
		; CHECK-BE-64-LABEL: @load-1byte-chunk-of-8byte-alloca(
		; CHECK-BE-64-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 56
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i8
		; CHECK-BE-64-NEXT: [[TMP1:%.*]] = bitcast i8 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <1 x i8>
		; CHECK-BE-64-NEXT: call void @use.v1i8(<1 x i8> [[TMP1]])
		; CHECK-BE-64-NEXT: ret void
		;
		; CHECK-BE-32-LABEL: @load-1byte-chunk-of-8byte-alloca(
		; CHECK-BE-32-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-32-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 56
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i8
		; CHECK-BE-32-NEXT: [[TMP1:%.*]] = bitcast i8 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <1 x i8>
		; CHECK-BE-32-NEXT: call void @use.v1i8(<1 x i8> [[TMP1]])
		; CHECK-BE-32-NEXT: ret void
;		;
%intermediate = alloca [8 x i8], align 64		%intermediate = alloca [8 x i8], align 64
%init = load <8 x i8>, ptr %src, align 1		%init = load <8 x i8>, ptr %src, align 1
store <8 x i8> %init, ptr %intermediate, align 64		store <8 x i8> %init, ptr %intermediate, align 64
%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff		%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff
%chunk = load <1 x i8>, ptr %intermediate.off.addr, align 1		%chunk = load <1 x i8>, ptr %intermediate.off.addr, align 1
call void @use.v1i8(<1 x i8> %chunk)		call void @use.v1i8(<1 x i8> %chunk)
ret void		ret void
}		}

define void @load-2byte-chunk-of-8byte-alloca(ptr %src, i64 %byteOff) {		define void @load-2byte-chunk-of-8byte-alloca(ptr %src, i64 %byteOff) {
; CHECK-ALL-LABEL: @load-2byte-chunk-of-8byte-alloca(		; CHECK-LE-64-LABEL: @load-2byte-chunk-of-8byte-alloca(
; CHECK-ALL-NEXT: [[INTERMEDIATE:%.*]] = alloca [8 x i8], align 64		; CHECK-LE-64-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
; CHECK-ALL-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
; CHECK-ALL-NEXT: store <8 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
; CHECK-ALL-NEXT: [[CHUNK:%.*]] = load <2 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS]]
; CHECK-ALL-NEXT: call void @use.v2i8(<2 x i8> [[CHUNK]])		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i16
; CHECK-ALL-NEXT: ret void		; CHECK-LE-64-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <2 x i8>
		; CHECK-LE-64-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-LE-64-NEXT: ret void
		;
		; CHECK-LE-32-LABEL: @load-2byte-chunk-of-8byte-alloca(
		; CHECK-LE-32-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-LE-32-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i16
		; CHECK-LE-32-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <2 x i8>
		; CHECK-LE-32-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-LE-32-NEXT: ret void
		;
		; CHECK-BE-64-LABEL: @load-2byte-chunk-of-8byte-alloca(
		; CHECK-BE-64-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 48
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i16
		; CHECK-BE-64-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <2 x i8>
		; CHECK-BE-64-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-BE-64-NEXT: ret void
		;
		; CHECK-BE-32-LABEL: @load-2byte-chunk-of-8byte-alloca(
		; CHECK-BE-32-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-32-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 48
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i16
		; CHECK-BE-32-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <2 x i8>
		; CHECK-BE-32-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-BE-32-NEXT: ret void
;		;
%intermediate = alloca [8 x i8], align 64		%intermediate = alloca [8 x i8], align 64
%init = load <8 x i8>, ptr %src, align 1		%init = load <8 x i8>, ptr %src, align 1
store <8 x i8> %init, ptr %intermediate, align 64		store <8 x i8> %init, ptr %intermediate, align 64
%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff		%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff
%chunk = load <2 x i8>, ptr %intermediate.off.addr, align 1		%chunk = load <2 x i8>, ptr %intermediate.off.addr, align 1
call void @use.v2i8(<2 x i8> %chunk)		call void @use.v2i8(<2 x i8> %chunk)
ret void		ret void
}		}

define void @load-4byte-chunk-of-8byte-alloca(ptr %src, i64 %byteOff) {		define void @load-4byte-chunk-of-8byte-alloca(ptr %src, i64 %byteOff) {
; CHECK-ALL-LABEL: @load-4byte-chunk-of-8byte-alloca(		; CHECK-LE-64-LABEL: @load-4byte-chunk-of-8byte-alloca(
; CHECK-ALL-NEXT: [[INTERMEDIATE:%.*]] = alloca [8 x i8], align 64		; CHECK-LE-64-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
; CHECK-ALL-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
; CHECK-ALL-NEXT: store <8 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
; CHECK-ALL-NEXT: [[CHUNK:%.*]] = load <4 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS]]
; CHECK-ALL-NEXT: call void @use.v4i8(<4 x i8> [[CHUNK]])		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i32
; CHECK-ALL-NEXT: ret void		; CHECK-LE-64-NEXT: [[TMP1:%.*]] = bitcast i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <4 x i8>
		; CHECK-LE-64-NEXT: call void @use.v4i8(<4 x i8> [[TMP1]])
		; CHECK-LE-64-NEXT: ret void
		;
		; CHECK-LE-32-LABEL: @load-4byte-chunk-of-8byte-alloca(
		; CHECK-LE-32-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-LE-32-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i32
		; CHECK-LE-32-NEXT: [[TMP1:%.*]] = bitcast i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <4 x i8>
		; CHECK-LE-32-NEXT: call void @use.v4i8(<4 x i8> [[TMP1]])
		; CHECK-LE-32-NEXT: ret void
		;
		; CHECK-BE-64-LABEL: @load-4byte-chunk-of-8byte-alloca(
		; CHECK-BE-64-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 32
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i32
		; CHECK-BE-64-NEXT: [[TMP1:%.*]] = bitcast i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <4 x i8>
		; CHECK-BE-64-NEXT: call void @use.v4i8(<4 x i8> [[TMP1]])
		; CHECK-BE-64-NEXT: ret void
		;
		; CHECK-BE-32-LABEL: @load-4byte-chunk-of-8byte-alloca(
		; CHECK-BE-32-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-32-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 32
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i32
		; CHECK-BE-32-NEXT: [[TMP1:%.*]] = bitcast i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <4 x i8>
		; CHECK-BE-32-NEXT: call void @use.v4i8(<4 x i8> [[TMP1]])
		; CHECK-BE-32-NEXT: ret void
;		;
%intermediate = alloca [8 x i8], align 64		%intermediate = alloca [8 x i8], align 64
%init = load <8 x i8>, ptr %src, align 1		%init = load <8 x i8>, ptr %src, align 1
store <8 x i8> %init, ptr %intermediate, align 64		store <8 x i8> %init, ptr %intermediate, align 64
%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff		%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff
%chunk = load <4 x i8>, ptr %intermediate.off.addr, align 1		%chunk = load <4 x i8>, ptr %intermediate.off.addr, align 1
call void @use.v4i8(<4 x i8> %chunk)		call void @use.v4i8(<4 x i8> %chunk)
ret void		ret void
}		}

define void @load-8byte-chunk-of-8byte-alloca(ptr %src, i64 %byteOff) {		define void @load-8byte-chunk-of-8byte-alloca(ptr %src, i64 %byteOff) {
; CHECK-ALL-LABEL: @load-8byte-chunk-of-8byte-alloca(		; CHECK-LE-64-LABEL: @load-8byte-chunk-of-8byte-alloca(
; CHECK-ALL-NEXT: [[INTERMEDIATE:%.*]] = alloca [8 x i8], align 64		; CHECK-LE-64-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
; CHECK-ALL-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
; CHECK-ALL-NEXT: store <8 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
; CHECK-ALL-NEXT: [[CHUNK:%.*]] = load <8 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS]]
; CHECK-ALL-NEXT: call void @use.v8i8(<8 x i8> [[CHUNK]])		; CHECK-LE-64-NEXT: [[TMP1:%.*]] = bitcast i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to <8 x i8>
; CHECK-ALL-NEXT: ret void		; CHECK-LE-64-NEXT: call void @use.v8i8(<8 x i8> [[TMP1]])
		; CHECK-LE-64-NEXT: ret void
		;
		; CHECK-LE-32-LABEL: @load-8byte-chunk-of-8byte-alloca(
		; CHECK-LE-32-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-LE-32-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS]]
		; CHECK-LE-32-NEXT: [[TMP1:%.*]] = bitcast i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to <8 x i8>
		; CHECK-LE-32-NEXT: call void @use.v8i8(<8 x i8> [[TMP1]])
		; CHECK-LE-32-NEXT: ret void
		;
		; CHECK-BE-64-LABEL: @load-8byte-chunk-of-8byte-alloca(
		; CHECK-BE-64-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 0
		; CHECK-BE-64-NEXT: [[TMP1:%.*]] = bitcast i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to <8 x i8>
		; CHECK-BE-64-NEXT: call void @use.v8i8(<8 x i8> [[TMP1]])
		; CHECK-BE-64-NEXT: ret void
		;
		; CHECK-BE-32-LABEL: @load-8byte-chunk-of-8byte-alloca(
		; CHECK-BE-32-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-32-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 0
		; CHECK-BE-32-NEXT: [[TMP1:%.*]] = bitcast i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to <8 x i8>
		; CHECK-BE-32-NEXT: call void @use.v8i8(<8 x i8> [[TMP1]])
		; CHECK-BE-32-NEXT: ret void
;		;
%intermediate = alloca [8 x i8], align 64		%intermediate = alloca [8 x i8], align 64
%init = load <8 x i8>, ptr %src, align 1		%init = load <8 x i8>, ptr %src, align 1
store <8 x i8> %init, ptr %intermediate, align 64		store <8 x i8> %init, ptr %intermediate, align 64
%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff		%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff
%chunk = load <8 x i8>, ptr %intermediate.off.addr, align 1		%chunk = load <8 x i8>, ptr %intermediate.off.addr, align 1
call void @use.v8i8(<8 x i8> %chunk)		call void @use.v8i8(<8 x i8> %chunk)
ret void		ret void
}		}

define void @load-1byte-chunk-of-16byte-alloca(ptr %src, i64 %byteOff) {		define void @load-1byte-chunk-of-16byte-alloca(ptr %src, i64 %byteOff) {
; CHECK-ALL-LABEL: @load-1byte-chunk-of-16byte-alloca(		; CHECK-LE-64-LABEL: @load-1byte-chunk-of-16byte-alloca(
; CHECK-ALL-NEXT: [[INTERMEDIATE:%.*]] = alloca [16 x i8], align 64		; CHECK-LE-64-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1
; CHECK-ALL-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
; CHECK-ALL-NEXT: store <16 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <16 x i8> [[INIT]]
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <16 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i128
; CHECK-ALL-NEXT: [[CHUNK:%.*]] = load <1 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = zext i64 [[BYTEOFF_NUMBITS]] to i128
; CHECK-ALL-NEXT: call void @use.v1i8(<1 x i8> [[CHUNK]])		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i128 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
; CHECK-ALL-NEXT: ret void		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i128 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i8
		; CHECK-LE-64-NEXT: [[TMP1:%.*]] = bitcast i8 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <1 x i8>
		; CHECK-LE-64-NEXT: call void @use.v1i8(<1 x i8> [[TMP1]])
		; CHECK-LE-64-NEXT: ret void
		;
		; CHECK-SCALAR-32-LABEL: @load-1byte-chunk-of-16byte-alloca(
		; CHECK-SCALAR-32-NEXT: [[INTERMEDIATE:%.*]] = alloca [16 x i8], align 64
		; CHECK-SCALAR-32-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-SCALAR-32-NEXT: store <16 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
		; CHECK-SCALAR-32-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
		; CHECK-SCALAR-32-NEXT: [[CHUNK:%.*]] = load <1 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1
		; CHECK-SCALAR-32-NEXT: call void @use.v1i8(<1 x i8> [[CHUNK]])
		; CHECK-SCALAR-32-NEXT: ret void
		;
		; CHECK-BE-64-LABEL: @load-1byte-chunk-of-16byte-alloca(
		; CHECK-BE-64-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <16 x i8> [[INIT]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <16 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i128
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = zext i64 [[BYTEOFF_NUMBITS]] to i128
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i128 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i128 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 120
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i128 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i8
		; CHECK-BE-64-NEXT: [[TMP1:%.*]] = bitcast i8 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <1 x i8>
		; CHECK-BE-64-NEXT: call void @use.v1i8(<1 x i8> [[TMP1]])
		; CHECK-BE-64-NEXT: ret void
;		;
%intermediate = alloca [16 x i8], align 64		%intermediate = alloca [16 x i8], align 64
%init = load <16 x i8>, ptr %src, align 1		%init = load <16 x i8>, ptr %src, align 1
store <16 x i8> %init, ptr %intermediate, align 64		store <16 x i8> %init, ptr %intermediate, align 64
%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff		%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff
%chunk = load <1 x i8>, ptr %intermediate.off.addr, align 1		%chunk = load <1 x i8>, ptr %intermediate.off.addr, align 1
call void @use.v1i8(<1 x i8> %chunk)		call void @use.v1i8(<1 x i8> %chunk)
ret void		ret void
}		}

define void @load-2byte-chunk-of-16byte-alloca(ptr %src, i64 %byteOff) {		define void @load-2byte-chunk-of-16byte-alloca(ptr %src, i64 %byteOff) {
; CHECK-ALL-LABEL: @load-2byte-chunk-of-16byte-alloca(		; CHECK-LE-64-LABEL: @load-2byte-chunk-of-16byte-alloca(
; CHECK-ALL-NEXT: [[INTERMEDIATE:%.*]] = alloca [16 x i8], align 64		; CHECK-LE-64-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1
; CHECK-ALL-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
; CHECK-ALL-NEXT: store <16 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <16 x i8> [[INIT]]
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <16 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i128
; CHECK-ALL-NEXT: [[CHUNK:%.*]] = load <2 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = zext i64 [[BYTEOFF_NUMBITS]] to i128
; CHECK-ALL-NEXT: call void @use.v2i8(<2 x i8> [[CHUNK]])		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i128 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
; CHECK-ALL-NEXT: ret void		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i128 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i16
		; CHECK-LE-64-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <2 x i8>
		; CHECK-LE-64-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-LE-64-NEXT: ret void
		;
		; CHECK-SCALAR-32-LABEL: @load-2byte-chunk-of-16byte-alloca(
		; CHECK-SCALAR-32-NEXT: [[INTERMEDIATE:%.*]] = alloca [16 x i8], align 64
		; CHECK-SCALAR-32-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-SCALAR-32-NEXT: store <16 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
		; CHECK-SCALAR-32-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
		; CHECK-SCALAR-32-NEXT: [[CHUNK:%.*]] = load <2 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1
		; CHECK-SCALAR-32-NEXT: call void @use.v2i8(<2 x i8> [[CHUNK]])
		; CHECK-SCALAR-32-NEXT: ret void
		;
		; CHECK-BE-64-LABEL: @load-2byte-chunk-of-16byte-alloca(
		; CHECK-BE-64-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <16 x i8> [[INIT]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <16 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i128
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = zext i64 [[BYTEOFF_NUMBITS]] to i128
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i128 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i128 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 112
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i128 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i16
		; CHECK-BE-64-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <2 x i8>
		; CHECK-BE-64-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-BE-64-NEXT: ret void
;		;
%intermediate = alloca [16 x i8], align 64		%intermediate = alloca [16 x i8], align 64
%init = load <16 x i8>, ptr %src, align 1		%init = load <16 x i8>, ptr %src, align 1
store <16 x i8> %init, ptr %intermediate, align 64		store <16 x i8> %init, ptr %intermediate, align 64
%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff		%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff
%chunk = load <2 x i8>, ptr %intermediate.off.addr, align 1		%chunk = load <2 x i8>, ptr %intermediate.off.addr, align 1
call void @use.v2i8(<2 x i8> %chunk)		call void @use.v2i8(<2 x i8> %chunk)
ret void		ret void
}		}

define void @load-4byte-chunk-of-16byte-alloca(ptr %src, i64 %byteOff) {		define void @load-4byte-chunk-of-16byte-alloca(ptr %src, i64 %byteOff) {
; CHECK-ALL-LABEL: @load-4byte-chunk-of-16byte-alloca(		; CHECK-LE-64-LABEL: @load-4byte-chunk-of-16byte-alloca(
; CHECK-ALL-NEXT: [[INTERMEDIATE:%.*]] = alloca [16 x i8], align 64		; CHECK-LE-64-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1
; CHECK-ALL-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
; CHECK-ALL-NEXT: store <16 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <16 x i8> [[INIT]]
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <16 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i128
; CHECK-ALL-NEXT: [[CHUNK:%.*]] = load <4 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = zext i64 [[BYTEOFF_NUMBITS]] to i128
; CHECK-ALL-NEXT: call void @use.v4i8(<4 x i8> [[CHUNK]])		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i128 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
; CHECK-ALL-NEXT: ret void		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i128 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i32
		; CHECK-LE-64-NEXT: [[TMP1:%.*]] = bitcast i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <4 x i8>
		; CHECK-LE-64-NEXT: call void @use.v4i8(<4 x i8> [[TMP1]])
		; CHECK-LE-64-NEXT: ret void
		;
		; CHECK-SCALAR-32-LABEL: @load-4byte-chunk-of-16byte-alloca(
		; CHECK-SCALAR-32-NEXT: [[INTERMEDIATE:%.*]] = alloca [16 x i8], align 64
		; CHECK-SCALAR-32-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-SCALAR-32-NEXT: store <16 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
		; CHECK-SCALAR-32-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
		; CHECK-SCALAR-32-NEXT: [[CHUNK:%.*]] = load <4 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1
		; CHECK-SCALAR-32-NEXT: call void @use.v4i8(<4 x i8> [[CHUNK]])
		; CHECK-SCALAR-32-NEXT: ret void
		;
		; CHECK-BE-64-LABEL: @load-4byte-chunk-of-16byte-alloca(
		; CHECK-BE-64-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <16 x i8> [[INIT]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <16 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i128
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = zext i64 [[BYTEOFF_NUMBITS]] to i128
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i128 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i128 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 96
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i128 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i32
		; CHECK-BE-64-NEXT: [[TMP1:%.*]] = bitcast i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <4 x i8>
		; CHECK-BE-64-NEXT: call void @use.v4i8(<4 x i8> [[TMP1]])
		; CHECK-BE-64-NEXT: ret void
;		;
%intermediate = alloca [16 x i8], align 64		%intermediate = alloca [16 x i8], align 64
%init = load <16 x i8>, ptr %src, align 1		%init = load <16 x i8>, ptr %src, align 1
store <16 x i8> %init, ptr %intermediate, align 64		store <16 x i8> %init, ptr %intermediate, align 64
%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff		%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff
%chunk = load <4 x i8>, ptr %intermediate.off.addr, align 1		%chunk = load <4 x i8>, ptr %intermediate.off.addr, align 1
call void @use.v4i8(<4 x i8> %chunk)		call void @use.v4i8(<4 x i8> %chunk)
ret void		ret void
}		}

define void @load-8byte-chunk-of-16byte-alloca(ptr %src, i64 %byteOff) {		define void @load-8byte-chunk-of-16byte-alloca(ptr %src, i64 %byteOff) {
; CHECK-ALL-LABEL: @load-8byte-chunk-of-16byte-alloca(		; CHECK-LE-64-LABEL: @load-8byte-chunk-of-16byte-alloca(
; CHECK-ALL-NEXT: [[INTERMEDIATE:%.*]] = alloca [16 x i8], align 64		; CHECK-LE-64-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1
; CHECK-ALL-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
; CHECK-ALL-NEXT: store <16 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <16 x i8> [[INIT]]
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <16 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i128
; CHECK-ALL-NEXT: [[CHUNK:%.*]] = load <8 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = zext i64 [[BYTEOFF_NUMBITS]] to i128
; CHECK-ALL-NEXT: call void @use.v8i8(<8 x i8> [[CHUNK]])		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i128 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
; CHECK-ALL-NEXT: ret void		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i128 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i64
		; CHECK-LE-64-NEXT: [[TMP1:%.*]] = bitcast i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <8 x i8>
		; CHECK-LE-64-NEXT: call void @use.v8i8(<8 x i8> [[TMP1]])
		; CHECK-LE-64-NEXT: ret void
		;
		; CHECK-SCALAR-32-LABEL: @load-8byte-chunk-of-16byte-alloca(
		; CHECK-SCALAR-32-NEXT: [[INTERMEDIATE:%.*]] = alloca [16 x i8], align 64
		; CHECK-SCALAR-32-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-SCALAR-32-NEXT: store <16 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
		; CHECK-SCALAR-32-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
		; CHECK-SCALAR-32-NEXT: [[CHUNK:%.*]] = load <8 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1
		; CHECK-SCALAR-32-NEXT: call void @use.v8i8(<8 x i8> [[CHUNK]])
		; CHECK-SCALAR-32-NEXT: ret void
		;
		; CHECK-BE-64-LABEL: @load-8byte-chunk-of-16byte-alloca(
		; CHECK-BE-64-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <16 x i8> [[INIT]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <16 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i128
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = zext i64 [[BYTEOFF_NUMBITS]] to i128
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i128 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i128 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 64
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i128 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i64
		; CHECK-BE-64-NEXT: [[TMP1:%.*]] = bitcast i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <8 x i8>
		; CHECK-BE-64-NEXT: call void @use.v8i8(<8 x i8> [[TMP1]])
		; CHECK-BE-64-NEXT: ret void
;		;
%intermediate = alloca [16 x i8], align 64		%intermediate = alloca [16 x i8], align 64
%init = load <16 x i8>, ptr %src, align 1		%init = load <16 x i8>, ptr %src, align 1
store <16 x i8> %init, ptr %intermediate, align 64		store <16 x i8> %init, ptr %intermediate, align 64
%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff		%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff
%chunk = load <8 x i8>, ptr %intermediate.off.addr, align 1		%chunk = load <8 x i8>, ptr %intermediate.off.addr, align 1
call void @use.v8i8(<8 x i8> %chunk)		call void @use.v8i8(<8 x i8> %chunk)
ret void		ret void
}		}

define void @load-16byte-chunk-of-16byte-alloca(ptr %src, i64 %byteOff) {		define void @load-16byte-chunk-of-16byte-alloca(ptr %src, i64 %byteOff) {
; CHECK-ALL-LABEL: @load-16byte-chunk-of-16byte-alloca(		; CHECK-LE-64-LABEL: @load-16byte-chunk-of-16byte-alloca(
; CHECK-ALL-NEXT: [[INTERMEDIATE:%.*]] = alloca [16 x i8], align 64		; CHECK-LE-64-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1
; CHECK-ALL-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
; CHECK-ALL-NEXT: store <16 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <16 x i8> [[INIT]]
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <16 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i128
; CHECK-ALL-NEXT: [[CHUNK:%.*]] = load <16 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = zext i64 [[BYTEOFF_NUMBITS]] to i128
; CHECK-ALL-NEXT: call void @use.v16i8(<16 x i8> [[CHUNK]])		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i128 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
; CHECK-ALL-NEXT: ret void		; CHECK-LE-64-NEXT: [[TMP1:%.*]] = bitcast i128 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to <16 x i8>
		; CHECK-LE-64-NEXT: call void @use.v16i8(<16 x i8> [[TMP1]])
		; CHECK-LE-64-NEXT: ret void
		;
		; CHECK-SCALAR-32-LABEL: @load-16byte-chunk-of-16byte-alloca(
		; CHECK-SCALAR-32-NEXT: [[INTERMEDIATE:%.*]] = alloca [16 x i8], align 64
		; CHECK-SCALAR-32-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-SCALAR-32-NEXT: store <16 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
		; CHECK-SCALAR-32-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
		; CHECK-SCALAR-32-NEXT: [[CHUNK:%.*]] = load <16 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1
		; CHECK-SCALAR-32-NEXT: call void @use.v16i8(<16 x i8> [[CHUNK]])
		; CHECK-SCALAR-32-NEXT: ret void
		;
		; CHECK-BE-64-LABEL: @load-16byte-chunk-of-16byte-alloca(
		; CHECK-BE-64-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <16 x i8> [[INIT]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <16 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i128
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = zext i64 [[BYTEOFF_NUMBITS]] to i128
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i128 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i128 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 0
		; CHECK-BE-64-NEXT: [[TMP1:%.*]] = bitcast i128 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to <16 x i8>
		; CHECK-BE-64-NEXT: call void @use.v16i8(<16 x i8> [[TMP1]])
		; CHECK-BE-64-NEXT: ret void
;		;
%intermediate = alloca [16 x i8], align 64		%intermediate = alloca [16 x i8], align 64
%init = load <16 x i8>, ptr %src, align 1		%init = load <16 x i8>, ptr %src, align 1
store <16 x i8> %init, ptr %intermediate, align 64		store <16 x i8> %init, ptr %intermediate, align 64
%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff		%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff
%chunk = load <16 x i8>, ptr %intermediate.off.addr, align 1		%chunk = load <16 x i8>, ptr %intermediate.off.addr, align 1
call void @use.v16i8(<16 x i8> %chunk)		call void @use.v16i8(<16 x i8> %chunk)
ret void		ret void
▲ Show 20 Lines • Show All 111 Lines • ▼ Show 20 Lines	;
%chunk = load <32 x i8>, ptr %intermediate.off.addr, align 1		%chunk = load <32 x i8>, ptr %intermediate.off.addr, align 1
call void @use.v32i8(<32 x i8> %chunk)		call void @use.v32i8(<32 x i8> %chunk)
ret void		ret void
}		}

;; Special test		;; Special test

define void @load-2byte-chunk-of-8byte-alloca-with-2byte-step(ptr %src, i64 %byteOff) {		define void @load-2byte-chunk-of-8byte-alloca-with-2byte-step(ptr %src, i64 %byteOff) {
; CHECK-ALL-LABEL: @load-2byte-chunk-of-8byte-alloca-with-2byte-step(		; CHECK-LE-64-LABEL: @load-2byte-chunk-of-8byte-alloca-with-2byte-step(
; CHECK-ALL-NEXT: [[INTERMEDIATE:%.*]] = alloca [8 x i8], align 64		; CHECK-LE-64-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
; CHECK-ALL-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1		; CHECK-LE-64-NEXT: [[INTERMEDIATE_OFF_ADDR_IDX:%.]] = mul nsw i64 [[BYTEOFF:%.]], 2
; CHECK-ALL-NEXT: store <8 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64		; CHECK-LE-64-NEXT: [[INTERMEDIATE_OFF_ADDR_IDX_NUMBITS:%.*]] = mul nuw nsw i64 [[INTERMEDIATE_OFF_ADDR_IDX]], 8
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i16, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
; CHECK-ALL-NEXT: [[CHUNK:%.*]] = load <2 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
; CHECK-ALL-NEXT: call void @use.v2i8(<2 x i8> [[CHUNK]])		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[INTERMEDIATE_OFF_ADDR_IDX_NUMBITS]]
; CHECK-ALL-NEXT: ret void		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i16
		; CHECK-LE-64-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <2 x i8>
		; CHECK-LE-64-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-LE-64-NEXT: ret void
		;
		; CHECK-LE-32-LABEL: @load-2byte-chunk-of-8byte-alloca-with-2byte-step(
		; CHECK-LE-32-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_OFF_ADDR_IDX:%.]] = mul nsw i64 [[BYTEOFF:%.]], 2
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_OFF_ADDR_IDX_NUMBITS:%.*]] = mul nuw nsw i64 [[INTERMEDIATE_OFF_ADDR_IDX]], 8
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[INTERMEDIATE_OFF_ADDR_IDX_NUMBITS]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i16
		; CHECK-LE-32-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <2 x i8>
		; CHECK-LE-32-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-LE-32-NEXT: ret void
		;
		; CHECK-BE-64-LABEL: @load-2byte-chunk-of-8byte-alloca-with-2byte-step(
		; CHECK-BE-64-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_OFF_ADDR_IDX:%.]] = mul nsw i64 [[BYTEOFF:%.]], 2
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_OFF_ADDR_IDX_NUMBITS:%.*]] = mul nuw nsw i64 [[INTERMEDIATE_OFF_ADDR_IDX]], 8
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[INTERMEDIATE_OFF_ADDR_IDX_NUMBITS]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 48
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i16
		; CHECK-BE-64-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <2 x i8>
		; CHECK-BE-64-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-BE-64-NEXT: ret void
		;
		; CHECK-BE-32-LABEL: @load-2byte-chunk-of-8byte-alloca-with-2byte-step(
		; CHECK-BE-32-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_OFF_ADDR_IDX:%.]] = mul nsw i64 [[BYTEOFF:%.]], 2
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_OFF_ADDR_IDX_NUMBITS:%.*]] = mul nuw nsw i64 [[INTERMEDIATE_OFF_ADDR_IDX]], 8
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[INTERMEDIATE_OFF_ADDR_IDX_NUMBITS]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 48
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i16
		; CHECK-BE-32-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <2 x i8>
		; CHECK-BE-32-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-BE-32-NEXT: ret void
;		;
%intermediate = alloca [8 x i8], align 64		%intermediate = alloca [8 x i8], align 64
%init = load <8 x i8>, ptr %src, align 1		%init = load <8 x i8>, ptr %src, align 1
store <8 x i8> %init, ptr %intermediate, align 64		store <8 x i8> %init, ptr %intermediate, align 64
%intermediate.off.addr = getelementptr inbounds i16, ptr %intermediate, i64 %byteOff		%intermediate.off.addr = getelementptr inbounds i16, ptr %intermediate, i64 %byteOff
%chunk = load <2 x i8>, ptr %intermediate.off.addr, align 1		%chunk = load <2 x i8>, ptr %intermediate.off.addr, align 1
call void @use.v2i8(<2 x i8> %chunk)		call void @use.v2i8(<2 x i8> %chunk)
ret void		ret void
▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines	;
%intermediate.off.addr = getelementptr inbounds i16, ptr %intermediate, i64 %byteOff		%intermediate.off.addr = getelementptr inbounds i16, ptr %intermediate, i64 %byteOff
store volatile <2 x i8> %reinit, ptr %intermediate.off.addr, align 1		store volatile <2 x i8> %reinit, ptr %intermediate.off.addr, align 1
%final = load <8 x i8>, ptr %intermediate, align 1		%final = load <8 x i8>, ptr %intermediate, align 1
call void @use.v8i8(<8 x i8> %final)		call void @use.v8i8(<8 x i8> %final)
ret void		ret void
}		}

define void @load-2byte-chunk-of-8byte-alloca-with-2byte-step-with-constant-offset-beforehand(ptr %src, i64 %byteOff) {		define void @load-2byte-chunk-of-8byte-alloca-with-2byte-step-with-constant-offset-beforehand(ptr %src, i64 %byteOff) {
; CHECK-ALL-LABEL: @load-2byte-chunk-of-8byte-alloca-with-2byte-step-with-constant-offset-beforehand(		; CHECK-LE-64-LABEL: @load-2byte-chunk-of-8byte-alloca-with-2byte-step-with-constant-offset-beforehand(
; CHECK-ALL-NEXT: [[INTERMEDIATE:%.*]] = alloca [8 x i8], align 64		; CHECK-LE-64-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
; CHECK-ALL-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1		; CHECK-LE-64-NEXT: [[INTERMEDIATE_OFF_ADDR_IDX:%.]] = mul nsw i64 [[BYTEOFF:%.]], 2
; CHECK-ALL-NEXT: store <8 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64		; CHECK-LE-64-NEXT: [[INTERMEDIATE_OFF_ADDR_BYTEOFF:%.*]] = add nsw i64 2, [[INTERMEDIATE_OFF_ADDR_IDX]]
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF_ADDR_CST:%.*]] = getelementptr inbounds i16, ptr [[INTERMEDIATE]], i64 1		; CHECK-LE-64-NEXT: [[INTERMEDIATE_OFF_ADDR_BYTEOFF_NUMBITS:%.*]] = mul nuw nsw i64 [[INTERMEDIATE_OFF_ADDR_BYTEOFF]], 8
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i16, ptr [[INTERMEDIATE_OFF_ADDR_CST]], i64 [[BYTEOFF:%.]]		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
; CHECK-ALL-NEXT: [[CHUNK:%.*]] = load <2 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
; CHECK-ALL-NEXT: call void @use.v2i8(<2 x i8> [[CHUNK]])		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[INTERMEDIATE_OFF_ADDR_BYTEOFF_NUMBITS]]
; CHECK-ALL-NEXT: ret void		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i16
		; CHECK-LE-64-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <2 x i8>
		; CHECK-LE-64-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-LE-64-NEXT: ret void
		;
		; CHECK-LE-32-LABEL: @load-2byte-chunk-of-8byte-alloca-with-2byte-step-with-constant-offset-beforehand(
		; CHECK-LE-32-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_OFF_ADDR_IDX:%.]] = mul nsw i64 [[BYTEOFF:%.]], 2
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_OFF_ADDR_BYTEOFF:%.*]] = add nsw i64 2, [[INTERMEDIATE_OFF_ADDR_IDX]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_OFF_ADDR_BYTEOFF_NUMBITS:%.*]] = mul nuw nsw i64 [[INTERMEDIATE_OFF_ADDR_BYTEOFF]], 8
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[INTERMEDIATE_OFF_ADDR_BYTEOFF_NUMBITS]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i16
		; CHECK-LE-32-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <2 x i8>
		; CHECK-LE-32-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-LE-32-NEXT: ret void
		;
		; CHECK-BE-64-LABEL: @load-2byte-chunk-of-8byte-alloca-with-2byte-step-with-constant-offset-beforehand(
		; CHECK-BE-64-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_OFF_ADDR_IDX:%.]] = mul nsw i64 [[BYTEOFF:%.]], 2
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_OFF_ADDR_BYTEOFF:%.*]] = add nsw i64 2, [[INTERMEDIATE_OFF_ADDR_IDX]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_OFF_ADDR_BYTEOFF_NUMBITS:%.*]] = mul nuw nsw i64 [[INTERMEDIATE_OFF_ADDR_BYTEOFF]], 8
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[INTERMEDIATE_OFF_ADDR_BYTEOFF_NUMBITS]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 48
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i16
		; CHECK-BE-64-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <2 x i8>
		; CHECK-BE-64-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-BE-64-NEXT: ret void
		;
		; CHECK-BE-32-LABEL: @load-2byte-chunk-of-8byte-alloca-with-2byte-step-with-constant-offset-beforehand(
		; CHECK-BE-32-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_OFF_ADDR_IDX:%.]] = mul nsw i64 [[BYTEOFF:%.]], 2
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_OFF_ADDR_BYTEOFF:%.*]] = add nsw i64 2, [[INTERMEDIATE_OFF_ADDR_IDX]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_OFF_ADDR_BYTEOFF_NUMBITS:%.*]] = mul nuw nsw i64 [[INTERMEDIATE_OFF_ADDR_BYTEOFF]], 8
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[INTERMEDIATE_OFF_ADDR_BYTEOFF_NUMBITS]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 48
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i16
		; CHECK-BE-32-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <2 x i8>
		; CHECK-BE-32-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-BE-32-NEXT: ret void
;		;
%intermediate = alloca [8 x i8], align 64		%intermediate = alloca [8 x i8], align 64
%init = load <8 x i8>, ptr %src, align 1		%init = load <8 x i8>, ptr %src, align 1
store <8 x i8> %init, ptr %intermediate, align 64		store <8 x i8> %init, ptr %intermediate, align 64
%intermediate.off.addr.cst = getelementptr inbounds i16, ptr %intermediate, i64 1		%intermediate.off.addr.cst = getelementptr inbounds i16, ptr %intermediate, i64 1
%intermediate.off.addr = getelementptr inbounds i16, ptr %intermediate.off.addr.cst, i64 %byteOff		%intermediate.off.addr = getelementptr inbounds i16, ptr %intermediate.off.addr.cst, i64 %byteOff
%chunk = load <2 x i8>, ptr %intermediate.off.addr, align 1		%chunk = load <2 x i8>, ptr %intermediate.off.addr, align 1
call void @use.v2i8(<2 x i8> %chunk)		call void @use.v2i8(<2 x i8> %chunk)
ret void		ret void
}		}

define void @load-2byte-chunk-of-8byte-alloca-with-2byte-step-with-constant-offset-afterwards(ptr %src, i64 %byteOff) {		define void @load-2byte-chunk-of-8byte-alloca-with-2byte-step-with-constant-offset-afterwards(ptr %src, i64 %byteOff) {
; CHECK-ALL-LABEL: @load-2byte-chunk-of-8byte-alloca-with-2byte-step-with-constant-offset-afterwards(		; CHECK-LE-64-LABEL: @load-2byte-chunk-of-8byte-alloca-with-2byte-step-with-constant-offset-afterwards(
; CHECK-ALL-NEXT: [[INTERMEDIATE:%.*]] = alloca [8 x i8], align 64		; CHECK-LE-64-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
; CHECK-ALL-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1		; CHECK-LE-64-NEXT: [[INTERMEDIATE_OFF_ADDR_VARIABLE_IDX:%.]] = mul nsw i64 [[BYTEOFF:%.]], 2
; CHECK-ALL-NEXT: store <8 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64		; CHECK-LE-64-NEXT: [[INTERMEDIATE_OFF_ADDR_BYTEOFF:%.*]] = add nsw i64 [[INTERMEDIATE_OFF_ADDR_VARIABLE_IDX]], 2
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF_ADDR_VARIABLE:%.]] = getelementptr inbounds i16, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]		; CHECK-LE-64-NEXT: [[INTERMEDIATE_OFF_ADDR_BYTEOFF_NUMBITS:%.*]] = mul nuw nsw i64 [[INTERMEDIATE_OFF_ADDR_BYTEOFF]], 8
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF_ADDR:%.*]] = getelementptr inbounds i16, ptr [[INTERMEDIATE_OFF_ADDR_VARIABLE]], i64 1		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
; CHECK-ALL-NEXT: [[CHUNK:%.*]] = load <2 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
; CHECK-ALL-NEXT: call void @use.v2i8(<2 x i8> [[CHUNK]])		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[INTERMEDIATE_OFF_ADDR_BYTEOFF_NUMBITS]]
; CHECK-ALL-NEXT: ret void		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i16
		; CHECK-LE-64-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <2 x i8>
		; CHECK-LE-64-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-LE-64-NEXT: ret void
		;
		; CHECK-LE-32-LABEL: @load-2byte-chunk-of-8byte-alloca-with-2byte-step-with-constant-offset-afterwards(
		; CHECK-LE-32-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_OFF_ADDR_VARIABLE_IDX:%.]] = mul nsw i64 [[BYTEOFF:%.]], 2
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_OFF_ADDR_BYTEOFF:%.*]] = add nsw i64 [[INTERMEDIATE_OFF_ADDR_VARIABLE_IDX]], 2
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_OFF_ADDR_BYTEOFF_NUMBITS:%.*]] = mul nuw nsw i64 [[INTERMEDIATE_OFF_ADDR_BYTEOFF]], 8
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[INTERMEDIATE_OFF_ADDR_BYTEOFF_NUMBITS]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i16
		; CHECK-LE-32-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <2 x i8>
		; CHECK-LE-32-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-LE-32-NEXT: ret void
		;
		; CHECK-BE-64-LABEL: @load-2byte-chunk-of-8byte-alloca-with-2byte-step-with-constant-offset-afterwards(
		; CHECK-BE-64-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_OFF_ADDR_VARIABLE_IDX:%.]] = mul nsw i64 [[BYTEOFF:%.]], 2
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_OFF_ADDR_BYTEOFF:%.*]] = add nsw i64 [[INTERMEDIATE_OFF_ADDR_VARIABLE_IDX]], 2
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_OFF_ADDR_BYTEOFF_NUMBITS:%.*]] = mul nuw nsw i64 [[INTERMEDIATE_OFF_ADDR_BYTEOFF]], 8
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[INTERMEDIATE_OFF_ADDR_BYTEOFF_NUMBITS]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 48
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i16
		; CHECK-BE-64-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <2 x i8>
		; CHECK-BE-64-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-BE-64-NEXT: ret void
		;
		; CHECK-BE-32-LABEL: @load-2byte-chunk-of-8byte-alloca-with-2byte-step-with-constant-offset-afterwards(
		; CHECK-BE-32-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_OFF_ADDR_VARIABLE_IDX:%.]] = mul nsw i64 [[BYTEOFF:%.]], 2
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_OFF_ADDR_BYTEOFF:%.*]] = add nsw i64 [[INTERMEDIATE_OFF_ADDR_VARIABLE_IDX]], 2
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_OFF_ADDR_BYTEOFF_NUMBITS:%.*]] = mul nuw nsw i64 [[INTERMEDIATE_OFF_ADDR_BYTEOFF]], 8
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[INTERMEDIATE_OFF_ADDR_BYTEOFF_NUMBITS]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 48
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i16
		; CHECK-BE-32-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <2 x i8>
		; CHECK-BE-32-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-BE-32-NEXT: ret void
;		;
%intermediate = alloca [8 x i8], align 64		%intermediate = alloca [8 x i8], align 64
%init = load <8 x i8>, ptr %src, align 1		%init = load <8 x i8>, ptr %src, align 1
store <8 x i8> %init, ptr %intermediate, align 64		store <8 x i8> %init, ptr %intermediate, align 64
%intermediate.off.addr.variable = getelementptr inbounds i16, ptr %intermediate, i64 %byteOff		%intermediate.off.addr.variable = getelementptr inbounds i16, ptr %intermediate, i64 %byteOff
%intermediate.off.addr = getelementptr inbounds i16, ptr %intermediate.off.addr.variable, i64 1		%intermediate.off.addr = getelementptr inbounds i16, ptr %intermediate.off.addr.variable, i64 1
%chunk = load <2 x i8>, ptr %intermediate.off.addr, align 1		%chunk = load <2 x i8>, ptr %intermediate.off.addr, align 1
call void @use.v2i8(<2 x i8> %chunk)		call void @use.v2i8(<2 x i8> %chunk)
ret void		ret void
}		}

define void @load-2byte-chunk-of-8byte-alloca-with-2byte-step-with-variable-offset-inbetween-constant-offsets(ptr %src, i64 %byteOff) {		define void @load-2byte-chunk-of-8byte-alloca-with-2byte-step-with-variable-offset-inbetween-constant-offsets(ptr %src, i64 %byteOff) {
; CHECK-ALL-LABEL: @load-2byte-chunk-of-8byte-alloca-with-2byte-step-with-variable-offset-inbetween-constant-offsets(		; CHECK-LE-64-LABEL: @load-2byte-chunk-of-8byte-alloca-with-2byte-step-with-variable-offset-inbetween-constant-offsets(
; CHECK-ALL-NEXT: [[INTERMEDIATE:%.*]] = alloca [8 x i8], align 64		; CHECK-LE-64-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
; CHECK-ALL-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1		; CHECK-LE-64-NEXT: [[INTERMEDIATE_OFF_ADDR_VARIABLE_IDX:%.]] = mul nsw i64 [[BYTEOFF:%.]], 2
; CHECK-ALL-NEXT: store <8 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64		; CHECK-LE-64-NEXT: [[INTERMEDIATE_OFF_ADDR_VARIABLE_BYTEOFF:%.*]] = add nsw i64 2, [[INTERMEDIATE_OFF_ADDR_VARIABLE_IDX]]
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF_ADDR_CST:%.*]] = getelementptr inbounds i16, ptr [[INTERMEDIATE]], i64 1		; CHECK-LE-64-NEXT: [[INTERMEDIATE_OFF_ADDR_BYTEOFF:%.*]] = add nsw i64 [[INTERMEDIATE_OFF_ADDR_VARIABLE_BYTEOFF]], 2
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF_ADDR_VARIABLE:%.]] = getelementptr inbounds i16, ptr [[INTERMEDIATE_OFF_ADDR_CST]], i64 [[BYTEOFF:%.]]		; CHECK-LE-64-NEXT: [[INTERMEDIATE_OFF_ADDR_BYTEOFF_NUMBITS:%.*]] = mul nuw nsw i64 [[INTERMEDIATE_OFF_ADDR_BYTEOFF]], 8
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF_ADDR:%.*]] = getelementptr inbounds i16, ptr [[INTERMEDIATE_OFF_ADDR_VARIABLE]], i64 1		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
; CHECK-ALL-NEXT: [[CHUNK:%.*]] = load <2 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
; CHECK-ALL-NEXT: call void @use.v2i8(<2 x i8> [[CHUNK]])		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[INTERMEDIATE_OFF_ADDR_BYTEOFF_NUMBITS]]
; CHECK-ALL-NEXT: ret void		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i16
		; CHECK-LE-64-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <2 x i8>
		; CHECK-LE-64-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-LE-64-NEXT: ret void
		;
		; CHECK-LE-32-LABEL: @load-2byte-chunk-of-8byte-alloca-with-2byte-step-with-variable-offset-inbetween-constant-offsets(
		; CHECK-LE-32-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_OFF_ADDR_VARIABLE_IDX:%.]] = mul nsw i64 [[BYTEOFF:%.]], 2
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_OFF_ADDR_VARIABLE_BYTEOFF:%.*]] = add nsw i64 2, [[INTERMEDIATE_OFF_ADDR_VARIABLE_IDX]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_OFF_ADDR_BYTEOFF:%.*]] = add nsw i64 [[INTERMEDIATE_OFF_ADDR_VARIABLE_BYTEOFF]], 2
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_OFF_ADDR_BYTEOFF_NUMBITS:%.*]] = mul nuw nsw i64 [[INTERMEDIATE_OFF_ADDR_BYTEOFF]], 8
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[INTERMEDIATE_OFF_ADDR_BYTEOFF_NUMBITS]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i16
		; CHECK-LE-32-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <2 x i8>
		; CHECK-LE-32-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-LE-32-NEXT: ret void
		;
		; CHECK-BE-64-LABEL: @load-2byte-chunk-of-8byte-alloca-with-2byte-step-with-variable-offset-inbetween-constant-offsets(
		; CHECK-BE-64-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_OFF_ADDR_VARIABLE_IDX:%.]] = mul nsw i64 [[BYTEOFF:%.]], 2
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_OFF_ADDR_VARIABLE_BYTEOFF:%.*]] = add nsw i64 2, [[INTERMEDIATE_OFF_ADDR_VARIABLE_IDX]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_OFF_ADDR_BYTEOFF:%.*]] = add nsw i64 [[INTERMEDIATE_OFF_ADDR_VARIABLE_BYTEOFF]], 2
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_OFF_ADDR_BYTEOFF_NUMBITS:%.*]] = mul nuw nsw i64 [[INTERMEDIATE_OFF_ADDR_BYTEOFF]], 8
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[INTERMEDIATE_OFF_ADDR_BYTEOFF_NUMBITS]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 48
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i16
		; CHECK-BE-64-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <2 x i8>
		; CHECK-BE-64-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-BE-64-NEXT: ret void
		;
		; CHECK-BE-32-LABEL: @load-2byte-chunk-of-8byte-alloca-with-2byte-step-with-variable-offset-inbetween-constant-offsets(
		; CHECK-BE-32-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_OFF_ADDR_VARIABLE_IDX:%.]] = mul nsw i64 [[BYTEOFF:%.]], 2
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_OFF_ADDR_VARIABLE_BYTEOFF:%.*]] = add nsw i64 2, [[INTERMEDIATE_OFF_ADDR_VARIABLE_IDX]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_OFF_ADDR_BYTEOFF:%.*]] = add nsw i64 [[INTERMEDIATE_OFF_ADDR_VARIABLE_BYTEOFF]], 2
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_OFF_ADDR_BYTEOFF_NUMBITS:%.*]] = mul nuw nsw i64 [[INTERMEDIATE_OFF_ADDR_BYTEOFF]], 8
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[INTERMEDIATE_OFF_ADDR_BYTEOFF_NUMBITS]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 48
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i16
		; CHECK-BE-32-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <2 x i8>
		; CHECK-BE-32-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-BE-32-NEXT: ret void
;		;
%intermediate = alloca [8 x i8], align 64		%intermediate = alloca [8 x i8], align 64
%init = load <8 x i8>, ptr %src, align 1		%init = load <8 x i8>, ptr %src, align 1
store <8 x i8> %init, ptr %intermediate, align 64		store <8 x i8> %init, ptr %intermediate, align 64
%intermediate.off.addr.cst = getelementptr inbounds i16, ptr %intermediate, i64 1		%intermediate.off.addr.cst = getelementptr inbounds i16, ptr %intermediate, i64 1
%intermediate.off.addr.variable = getelementptr inbounds i16, ptr %intermediate.off.addr.cst, i64 %byteOff		%intermediate.off.addr.variable = getelementptr inbounds i16, ptr %intermediate.off.addr.cst, i64 %byteOff
%intermediate.off.addr = getelementptr inbounds i16, ptr %intermediate.off.addr.variable, i64 1		%intermediate.off.addr = getelementptr inbounds i16, ptr %intermediate.off.addr.variable, i64 1
%chunk = load <2 x i8>, ptr %intermediate.off.addr, align 1		%chunk = load <2 x i8>, ptr %intermediate.off.addr, align 1
▲ Show 20 Lines • Show All 87 Lines • ▼ Show 20 Lines	;
store <16 x i8> %init, ptr %intermediate, align 64		store <16 x i8> %init, ptr %intermediate, align 64
%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff		%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff
%chunk = load <1 x ptr>, ptr %intermediate.off.addr, align 1		%chunk = load <1 x ptr>, ptr %intermediate.off.addr, align 1
call void @use.v1ptr(<1 x ptr> %chunk)		call void @use.v1ptr(<1 x ptr> %chunk)
ret void		ret void
}		}

define void @load-float-chunk-of-16byte-alloca(ptr %src, i64 %byteOff) {		define void @load-float-chunk-of-16byte-alloca(ptr %src, i64 %byteOff) {
; CHECK-ALL-LABEL: @load-float-chunk-of-16byte-alloca(		; CHECK-LE-64-LABEL: @load-float-chunk-of-16byte-alloca(
; CHECK-ALL-NEXT: [[INTERMEDIATE:%.*]] = alloca [16 x i8], align 64		; CHECK-LE-64-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1
; CHECK-ALL-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
; CHECK-ALL-NEXT: store <16 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <16 x i8> [[INIT]]
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <16 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i128
; CHECK-ALL-NEXT: [[CHUNK:%.*]] = load <1 x float>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = zext i64 [[BYTEOFF_NUMBITS]] to i128
; CHECK-ALL-NEXT: call void @use.v1float(<1 x float> [[CHUNK]])		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i128 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
; CHECK-ALL-NEXT: ret void		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i128 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i32
		; CHECK-LE-64-NEXT: [[TMP1:%.*]] = bitcast i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <1 x float>
		; CHECK-LE-64-NEXT: call void @use.v1float(<1 x float> [[TMP1]])
		; CHECK-LE-64-NEXT: ret void
		;
		; CHECK-SCALAR-32-LABEL: @load-float-chunk-of-16byte-alloca(
		; CHECK-SCALAR-32-NEXT: [[INTERMEDIATE:%.*]] = alloca [16 x i8], align 64
		; CHECK-SCALAR-32-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-SCALAR-32-NEXT: store <16 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
		; CHECK-SCALAR-32-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
		; CHECK-SCALAR-32-NEXT: [[CHUNK:%.*]] = load <1 x float>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1
		; CHECK-SCALAR-32-NEXT: call void @use.v1float(<1 x float> [[CHUNK]])
		; CHECK-SCALAR-32-NEXT: ret void
		;
		; CHECK-BE-64-LABEL: @load-float-chunk-of-16byte-alloca(
		; CHECK-BE-64-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS:%.]] = mul nuw nsw i64 [[BYTEOFF:%.]], 8
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <16 x i8> [[INIT]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <16 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i128
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = zext i64 [[BYTEOFF_NUMBITS]] to i128
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i128 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i128 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 96
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i128 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i32
		; CHECK-BE-64-NEXT: [[TMP1:%.*]] = bitcast i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <1 x float>
		; CHECK-BE-64-NEXT: call void @use.v1float(<1 x float> [[TMP1]])
		; CHECK-BE-64-NEXT: ret void
;		;
%intermediate = alloca [16 x i8], align 64		%intermediate = alloca [16 x i8], align 64
%init = load <16 x i8>, ptr %src, align 1		%init = load <16 x i8>, ptr %src, align 1
store <16 x i8> %init, ptr %intermediate, align 64		store <16 x i8> %init, ptr %intermediate, align 64
%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff		%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff
%chunk = load <1 x float>, ptr %intermediate.off.addr, align 1		%chunk = load <1 x float>, ptr %intermediate.off.addr, align 1
call void @use.v1float(<1 x float> %chunk)		call void @use.v1float(<1 x float> %chunk)
ret void		ret void
}		}

define void @two-loads-of-same-2byte-chunks-of-8byte-alloca-with-2byte-step-variable-gep(ptr %src, i64 %byteOff) {		define void @two-loads-of-same-2byte-chunks-of-8byte-alloca-with-2byte-step-variable-gep(ptr %src, i64 %byteOff) {
; CHECK-ALL-LABEL: @two-loads-of-same-2byte-chunks-of-8byte-alloca-with-2byte-step-variable-gep(		; CHECK-LE-64-LABEL: @two-loads-of-same-2byte-chunks-of-8byte-alloca-with-2byte-step-variable-gep(
; CHECK-ALL-NEXT: [[INTERMEDIATE:%.*]] = alloca [8 x i8], align 64		; CHECK-LE-64-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
; CHECK-ALL-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1		; CHECK-LE-64-NEXT: [[INTERMEDIATE_OFF_IDX:%.]] = mul nsw i64 [[BYTEOFF:%.]], 2
; CHECK-ALL-NEXT: store <8 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64		; CHECK-LE-64-NEXT: [[INTERMEDIATE_OFF_IDX_NUMBITS:%.*]] = mul nuw nsw i64 [[INTERMEDIATE_OFF_IDX]], 8
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF:%.]] = getelementptr inbounds i16, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
; CHECK-ALL-NEXT: [[CHUNK0:%.*]] = load <2 x i8>, ptr [[INTERMEDIATE_OFF]], align 1		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
; CHECK-ALL-NEXT: call void @use.v2i8(<2 x i8> [[CHUNK0]])		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[INTERMEDIATE_OFF_IDX_NUMBITS]]
; CHECK-ALL-NEXT: [[CHUNK1:%.*]] = load <2 x i8>, ptr [[INTERMEDIATE_OFF]], align 1		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i16
; CHECK-ALL-NEXT: call void @use.v2i8(<2 x i8> [[CHUNK1]])		; CHECK-LE-64-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <2 x i8>
; CHECK-ALL-NEXT: ret void		; CHECK-LE-64-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL1_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL1_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL1_FROZEN]] to i64
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED:%.*]] = lshr i64 [[INTERMEDIATE_VAL1_FROZEN_BITS]], [[INTERMEDIATE_OFF_IDX_NUMBITS]]
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED]] to i16
		; CHECK-LE-64-NEXT: [[TMP2:%.*]] = bitcast i16 [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED_EXTRACTED]] to <2 x i8>
		; CHECK-LE-64-NEXT: call void @use.v2i8(<2 x i8> [[TMP2]])
		; CHECK-LE-64-NEXT: ret void
		;
		; CHECK-LE-32-LABEL: @two-loads-of-same-2byte-chunks-of-8byte-alloca-with-2byte-step-variable-gep(
		; CHECK-LE-32-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_OFF_IDX:%.]] = mul nsw i64 [[BYTEOFF:%.]], 2
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_OFF_IDX_NUMBITS:%.*]] = mul nuw nsw i64 [[INTERMEDIATE_OFF_IDX]], 8
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[INTERMEDIATE_OFF_IDX_NUMBITS]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i16
		; CHECK-LE-32-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <2 x i8>
		; CHECK-LE-32-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL1_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL1_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL1_FROZEN]] to i64
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED:%.*]] = lshr i64 [[INTERMEDIATE_VAL1_FROZEN_BITS]], [[INTERMEDIATE_OFF_IDX_NUMBITS]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED]] to i16
		; CHECK-LE-32-NEXT: [[TMP2:%.*]] = bitcast i16 [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED_EXTRACTED]] to <2 x i8>
		; CHECK-LE-32-NEXT: call void @use.v2i8(<2 x i8> [[TMP2]])
		; CHECK-LE-32-NEXT: ret void
		;
		; CHECK-BE-64-LABEL: @two-loads-of-same-2byte-chunks-of-8byte-alloca-with-2byte-step-variable-gep(
		; CHECK-BE-64-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_OFF_IDX:%.]] = mul nsw i64 [[BYTEOFF:%.]], 2
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_OFF_IDX_NUMBITS:%.*]] = mul nuw nsw i64 [[INTERMEDIATE_OFF_IDX]], 8
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[INTERMEDIATE_OFF_IDX_NUMBITS]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 48
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i16
		; CHECK-BE-64-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <2 x i8>
		; CHECK-BE-64-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL1_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL1_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL1_FROZEN]] to i64
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED:%.*]] = shl i64 [[INTERMEDIATE_VAL1_FROZEN_BITS]], [[INTERMEDIATE_OFF_IDX_NUMBITS]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i64 [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED]], 48
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED_PART]] to i16
		; CHECK-BE-64-NEXT: [[TMP2:%.*]] = bitcast i16 [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <2 x i8>
		; CHECK-BE-64-NEXT: call void @use.v2i8(<2 x i8> [[TMP2]])
		; CHECK-BE-64-NEXT: ret void
		;
		; CHECK-BE-32-LABEL: @two-loads-of-same-2byte-chunks-of-8byte-alloca-with-2byte-step-variable-gep(
		; CHECK-BE-32-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_OFF_IDX:%.]] = mul nsw i64 [[BYTEOFF:%.]], 2
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_OFF_IDX_NUMBITS:%.*]] = mul nuw nsw i64 [[INTERMEDIATE_OFF_IDX]], 8
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[INTERMEDIATE_OFF_IDX_NUMBITS]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 48
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i16
		; CHECK-BE-32-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <2 x i8>
		; CHECK-BE-32-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL1_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL1_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL1_FROZEN]] to i64
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED:%.*]] = shl i64 [[INTERMEDIATE_VAL1_FROZEN_BITS]], [[INTERMEDIATE_OFF_IDX_NUMBITS]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i64 [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED]], 48
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED_PART]] to i16
		; CHECK-BE-32-NEXT: [[TMP2:%.*]] = bitcast i16 [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <2 x i8>
		; CHECK-BE-32-NEXT: call void @use.v2i8(<2 x i8> [[TMP2]])
		; CHECK-BE-32-NEXT: ret void
;		;
%intermediate = alloca [8 x i8], align 64		%intermediate = alloca [8 x i8], align 64
%init = load <8 x i8>, ptr %src, align 1		%init = load <8 x i8>, ptr %src, align 1
store <8 x i8> %init, ptr %intermediate, align 64		store <8 x i8> %init, ptr %intermediate, align 64
%intermediate.off = getelementptr inbounds i16, ptr %intermediate, i64 %byteOff		%intermediate.off = getelementptr inbounds i16, ptr %intermediate, i64 %byteOff
%chunk0 = load <2 x i8>, ptr %intermediate.off, align 1		%chunk0 = load <2 x i8>, ptr %intermediate.off, align 1
call void @use.v2i8(<2 x i8> %chunk0)		call void @use.v2i8(<2 x i8> %chunk0)
%chunk1 = load <2 x i8>, ptr %intermediate.off, align 1		%chunk1 = load <2 x i8>, ptr %intermediate.off, align 1
call void @use.v2i8(<2 x i8> %chunk1)		call void @use.v2i8(<2 x i8> %chunk1)
ret void		ret void
}		}

define void @two-loads-of-two-2byte-chunks-of-8byte-alloca-with-2byte-step-variable-geps(ptr %src, i64 %byteOff0, i64 %byteOff1) {		define void @two-loads-of-two-2byte-chunks-of-8byte-alloca-with-2byte-step-variable-geps(ptr %src, i64 %byteOff0, i64 %byteOff1) {
; CHECK-ALL-LABEL: @two-loads-of-two-2byte-chunks-of-8byte-alloca-with-2byte-step-variable-geps(		; CHECK-LE-64-LABEL: @two-loads-of-two-2byte-chunks-of-8byte-alloca-with-2byte-step-variable-geps(
; CHECK-ALL-NEXT: [[INTERMEDIATE:%.*]] = alloca [8 x i8], align 64		; CHECK-LE-64-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
; CHECK-ALL-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1		; CHECK-LE-64-NEXT: [[INTERMEDIATE_OFF0_IDX:%.]] = mul nsw i64 [[BYTEOFF0:%.]], 2
; CHECK-ALL-NEXT: store <8 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64		; CHECK-LE-64-NEXT: [[INTERMEDIATE_OFF0_IDX_NUMBITS:%.*]] = mul nuw nsw i64 [[INTERMEDIATE_OFF0_IDX]], 8
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF0:%.]] = getelementptr inbounds i16, ptr [[INTERMEDIATE]], i64 [[BYTEOFF0:%.]]		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
; CHECK-ALL-NEXT: [[CHUNK0:%.*]] = load <2 x i8>, ptr [[INTERMEDIATE_OFF0]], align 1		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
; CHECK-ALL-NEXT: call void @use.v2i8(<2 x i8> [[CHUNK0]])		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[INTERMEDIATE_OFF0_IDX_NUMBITS]]
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF1:%.]] = getelementptr inbounds i16, ptr [[INTERMEDIATE_OFF0]], i64 [[BYTEOFF1:%.]]		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i16
; CHECK-ALL-NEXT: [[CHUNK1:%.*]] = load <2 x i8>, ptr [[INTERMEDIATE_OFF1]], align 1		; CHECK-LE-64-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <2 x i8>
; CHECK-ALL-NEXT: call void @use.v2i8(<2 x i8> [[CHUNK1]])		; CHECK-LE-64-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
; CHECK-ALL-NEXT: ret void		; CHECK-LE-64-NEXT: [[INTERMEDIATE_OFF1_IDX:%.]] = mul nsw i64 [[BYTEOFF1:%.]], 2
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_OFF1_BYTEOFF:%.*]] = add nsw i64 [[INTERMEDIATE_OFF0_IDX]], [[INTERMEDIATE_OFF1_IDX]]
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_OFF1_BYTEOFF_NUMBITS:%.*]] = mul nuw nsw i64 [[INTERMEDIATE_OFF1_BYTEOFF]], 8
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL1_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL1_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL1_FROZEN]] to i64
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED:%.*]] = lshr i64 [[INTERMEDIATE_VAL1_FROZEN_BITS]], [[INTERMEDIATE_OFF1_BYTEOFF_NUMBITS]]
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED]] to i16
		; CHECK-LE-64-NEXT: [[TMP2:%.*]] = bitcast i16 [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED_EXTRACTED]] to <2 x i8>
		; CHECK-LE-64-NEXT: call void @use.v2i8(<2 x i8> [[TMP2]])
		; CHECK-LE-64-NEXT: ret void
		;
		; CHECK-LE-32-LABEL: @two-loads-of-two-2byte-chunks-of-8byte-alloca-with-2byte-step-variable-geps(
		; CHECK-LE-32-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_OFF0_IDX:%.]] = mul nsw i64 [[BYTEOFF0:%.]], 2
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_OFF0_IDX_NUMBITS:%.*]] = mul nuw nsw i64 [[INTERMEDIATE_OFF0_IDX]], 8
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[INTERMEDIATE_OFF0_IDX_NUMBITS]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i16
		; CHECK-LE-32-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <2 x i8>
		; CHECK-LE-32-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_OFF1_IDX:%.]] = mul nsw i64 [[BYTEOFF1:%.]], 2
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_OFF1_BYTEOFF:%.*]] = add nsw i64 [[INTERMEDIATE_OFF0_IDX]], [[INTERMEDIATE_OFF1_IDX]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_OFF1_BYTEOFF_NUMBITS:%.*]] = mul nuw nsw i64 [[INTERMEDIATE_OFF1_BYTEOFF]], 8
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL1_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL1_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL1_FROZEN]] to i64
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED:%.*]] = lshr i64 [[INTERMEDIATE_VAL1_FROZEN_BITS]], [[INTERMEDIATE_OFF1_BYTEOFF_NUMBITS]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED]] to i16
		; CHECK-LE-32-NEXT: [[TMP2:%.*]] = bitcast i16 [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED_EXTRACTED]] to <2 x i8>
		; CHECK-LE-32-NEXT: call void @use.v2i8(<2 x i8> [[TMP2]])
		; CHECK-LE-32-NEXT: ret void
		;
		; CHECK-BE-64-LABEL: @two-loads-of-two-2byte-chunks-of-8byte-alloca-with-2byte-step-variable-geps(
		; CHECK-BE-64-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_OFF0_IDX:%.]] = mul nsw i64 [[BYTEOFF0:%.]], 2
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_OFF0_IDX_NUMBITS:%.*]] = mul nuw nsw i64 [[INTERMEDIATE_OFF0_IDX]], 8
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[INTERMEDIATE_OFF0_IDX_NUMBITS]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 48
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i16
		; CHECK-BE-64-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <2 x i8>
		; CHECK-BE-64-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_OFF1_IDX:%.]] = mul nsw i64 [[BYTEOFF1:%.]], 2
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_OFF1_BYTEOFF:%.*]] = add nsw i64 [[INTERMEDIATE_OFF0_IDX]], [[INTERMEDIATE_OFF1_IDX]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_OFF1_BYTEOFF_NUMBITS:%.*]] = mul nuw nsw i64 [[INTERMEDIATE_OFF1_BYTEOFF]], 8
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL1_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL1_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL1_FROZEN]] to i64
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED:%.*]] = shl i64 [[INTERMEDIATE_VAL1_FROZEN_BITS]], [[INTERMEDIATE_OFF1_BYTEOFF_NUMBITS]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i64 [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED]], 48
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED_PART]] to i16
		; CHECK-BE-64-NEXT: [[TMP2:%.*]] = bitcast i16 [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <2 x i8>
		; CHECK-BE-64-NEXT: call void @use.v2i8(<2 x i8> [[TMP2]])
		; CHECK-BE-64-NEXT: ret void
		;
		; CHECK-BE-32-LABEL: @two-loads-of-two-2byte-chunks-of-8byte-alloca-with-2byte-step-variable-geps(
		; CHECK-BE-32-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_OFF0_IDX:%.]] = mul nsw i64 [[BYTEOFF0:%.]], 2
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_OFF0_IDX_NUMBITS:%.*]] = mul nuw nsw i64 [[INTERMEDIATE_OFF0_IDX]], 8
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[INTERMEDIATE_OFF0_IDX_NUMBITS]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 48
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i16
		; CHECK-BE-32-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <2 x i8>
		; CHECK-BE-32-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_OFF1_IDX:%.]] = mul nsw i64 [[BYTEOFF1:%.]], 2
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_OFF1_BYTEOFF:%.*]] = add nsw i64 [[INTERMEDIATE_OFF0_IDX]], [[INTERMEDIATE_OFF1_IDX]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_OFF1_BYTEOFF_NUMBITS:%.*]] = mul nuw nsw i64 [[INTERMEDIATE_OFF1_BYTEOFF]], 8
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL1_FROZEN:%.*]] = freeze <8 x i8> [[INIT]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL1_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL1_FROZEN]] to i64
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED:%.*]] = shl i64 [[INTERMEDIATE_VAL1_FROZEN_BITS]], [[INTERMEDIATE_OFF1_BYTEOFF_NUMBITS]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i64 [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED]], 48
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED_PART]] to i16
		; CHECK-BE-32-NEXT: [[TMP2:%.*]] = bitcast i16 [[INTERMEDIATE_VAL1_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <2 x i8>
		; CHECK-BE-32-NEXT: call void @use.v2i8(<2 x i8> [[TMP2]])
		; CHECK-BE-32-NEXT: ret void
;		;
%intermediate = alloca [8 x i8], align 64		%intermediate = alloca [8 x i8], align 64
%init = load <8 x i8>, ptr %src, align 1		%init = load <8 x i8>, ptr %src, align 1
store <8 x i8> %init, ptr %intermediate, align 64		store <8 x i8> %init, ptr %intermediate, align 64
%intermediate.off0 = getelementptr inbounds i16, ptr %intermediate, i64 %byteOff0		%intermediate.off0 = getelementptr inbounds i16, ptr %intermediate, i64 %byteOff0
%chunk0 = load <2 x i8>, ptr %intermediate.off0, align 1		%chunk0 = load <2 x i8>, ptr %intermediate.off0, align 1
call void @use.v2i8(<2 x i8> %chunk0)		call void @use.v2i8(<2 x i8> %chunk0)
%intermediate.off1 = getelementptr inbounds i16, ptr %intermediate.off0, i64 %byteOff1		%intermediate.off1 = getelementptr inbounds i16, ptr %intermediate.off0, i64 %byteOff1
%chunk1 = load <2 x i8>, ptr %intermediate.off1, align 1		%chunk1 = load <2 x i8>, ptr %intermediate.off1, align 1
call void @use.v2i8(<2 x i8> %chunk1)		call void @use.v2i8(<2 x i8> %chunk1)
ret void		ret void
}		}

declare void @use.v1ptr(<1 x ptr>)		declare void @use.v1ptr(<1 x ptr>)
declare void @use.v1float(<1 x float>)		declare void @use.v1float(<1 x float>)
declare void @use.v1i8(<1 x i8>)		declare void @use.v1i8(<1 x i8>)
declare void @use.v2i8(<2 x i8>)		declare void @use.v2i8(<2 x i8>)
declare void @use.v4i8(<4 x i8>)		declare void @use.v4i8(<4 x i8>)
declare void @use.v8i8(<8 x i8>)		declare void @use.v8i8(<8 x i8>)
declare void @use.v16i8(<16 x i8>)		declare void @use.v16i8(<16 x i8>)
declare void @use.v32i8(<32 x i8>)		declare void @use.v32i8(<32 x i8>)
;; NOTE: These prefixes are unused and the list is autogenerated. Do not add tests below this line:		;; NOTE: These prefixes are unused and the list is autogenerated. Do not add tests below this line:
; CHECK-BE-32: {{.*}}
; CHECK-BE-64: {{.*}}
; CHECK-LE-32: {{.*}}
; CHECK-LE-64: {{.*}}
; CHECK-SCALAR: {{.*}}		; CHECK-SCALAR: {{.*}}
; CHECK-SCALAR-32: {{.*}}
; CHECK-SCALAR-64: {{.*}}		; CHECK-SCALAR-64: {{.*}}