This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Transforms/InstCombine/
-
Transforms/
-
InstCombine/
-
InstCombineLoadStoreAlloca.cpp
-
test/Transforms/InstCombine/
-
Transforms/
-
InstCombine/
1
widen-load-of-small-alloca.ll

Differential D138766

[InstCombine] If loading from small alloca, load whole alloca and perform variable extraction
AbandonedPublic

Authored by lebedev.ri on Nov 27 2022, 11:18 AM.

Download Raw Diff

Details

Reviewers

spatel
RKSimon
efriedma
craig.topper
nikic

Summary

Ok, beforehand, i must admit, this fold is esoteric,
does not really fit into InstCombine,
and we don't have any reasonable place for it.

https://discourse.llvm.org/t/where-could-we-perform-sudo-sroa-with-non-constant-offsets/66645

First, consider: (example 0)

#include <cstdlib>
#include <cstring>
#include <algorithm>

void sink(char*);

constexpr int size = 4;

void entry(char* input, int length, int position) {
    int max_bytes = length - position;
    int bytes = std::min(size, max_bytes);
    char res[size] = {};
    memcpy(res, input + position, bytes);
    sink(res);
}

This function has to perform dynamically-sized, but bound, memcpy,
which may or may not be good, given particular use case: https://godbolt.org/z/3cd6bvEq5

Now, let's look at another variant (not strictly identical): (example 1)

#include <cstdlib>
#include <cstring>
#include <algorithm>

void sink(char*);

constexpr int size = 4;

void entry(char* input, int length, int position) {
    int last_pos = length - size;
    int clamped_pos = std::min(position, last_pos);
    char tmp[2 * size] = {};
    memcpy(tmp, &input + clamped_pos, size);
    int num_leading_padding_bytes = std::min(size, position - clamped_pos);
    char res[size] = {};
    memcpy(res, tmp + num_leading_padding_bytes, size);
    sink(res);
}

Here, both memory loads are statically-sized.
Under some external preconditions, that are not relevant here,
the examples are equivalent.

Problem is, the second memcpy loads from a non-constant offset into tmp,
SROA does not deal with non-constant offsets, so we end up with tmp
not being promoted into a register: https://godbolt.org/z/ebPrrjaa6

So while this may or may not already be better than the original variant,
this is still not great. This can come up in hot paths, e.g. (example 0) is
https://github.com/darktable-org/rawspeed/blob/6be00ea43b92c876692593436f9edbbf70d4c3d4/src/librawspeed/io/BitStream.h#L145-L173
and i was in procees of improving it into (example 1) but got stuck on performance.

The transformation itself isn't that complicated,
we just don't have a great place for it.
I've added hopefully sufficiently exhaustive test coverage,
and verified it with alive.

Now, huge caveat: indeed, this needs a profitability check.
Profitability reasoning: we expect that for the largest legal int type, we
do have good support for variable-amount shifts. For the type 2x that
width, the legalization will expand the shift into, at worst, 3 legal-sized
shifts + 5 supporting ALU ops. We expect that such an expansion is still
not worse than the original pattern we have matched here.
But for any bit width larger than that, this isn't worth it.
Codegen for true i128 case: https://alive2.llvm.org/ce/z/Tu85qE

I think, this is pretty uncontentious for largest legal integer,
but unfortunately i'm interested in "load i32 from i64" and "load i64 from i128" :)
Sliver-lining: in the case i'm looking at, the upper half of the alloca is always zeros,
so after SROA, this becomes: https://alive2.llvm.org/ce/z/FgRHaZ,
and now that i128 codegen is rather good, isn't it?

Thoughts?

Diff Detail

Repository: rG LLVM Github Monorepo

Unit TestsFailed

	Time	Test
	560 ms	x64 debian > AddressSanitizer-x86_64-linux-dynamic.TestCases::stack-buffer-overflow-with-position.cpp
	5,170 ms	x64 debian > AddressSanitizer-x86_64-linux-dynamic.TestCases/Linux::uar_signals.cpp
	1,420 ms	x64 debian > AddressSanitizer-x86_64-linux.TestCases::stack-buffer-overflow-with-position.cpp
	4,980 ms	x64 debian > AddressSanitizer-x86_64-linux.TestCases/Linux::uar_signals.cpp
	940 ms	x64 debian > LLVM.Examples/OrcV2Examples::lljit-with-thinlto-summaries.test
		View Full Test Results (6 Failed)

Event Timeline

lebedev.ri created this revision.Nov 27 2022, 11:18 AM

Herald added a project: Restricted Project. · View Herald TranscriptNov 27 2022, 11:18 AM

Herald added a subscriber: hiraditya. · View Herald Transcript

lebedev.ri requested review of this revision.Nov 27 2022, 11:18 AM

Harbormaster completed remote builds in B199661: Diff 478111.Nov 27 2022, 12:02 PM

Correction: while we can't do much for i128 case in general,
in the case i'm looking at, the upper half of the alloca is always zeros,
so after SROA, this becomes: https://alive2.llvm.org/ce/z/FgRHaZ,
and now that i128 codegen is rather good, isn't it?

I'm not quite sure we can/should factor that into profitability check though,
we'd need to look at other stores into alloca, etc.
But we can look into at least teaching optimizations to do that after SROA.

Note, here the main question i want to resolve is the profitability check.
The rest i could be comfortable taking into post-commit review mode after adding a bit more tests.

I'm confused by the tests - do we care if the full load already exists? That's not part of the pattern match.

Does the 2x register limit mean we are also creating a double-width load? Are we relying on later passes/codegen to narrow that?

If we're trying to justify this target-independently, then lets use a less familiar target to avoid reaching the conclusion that the transform is generally good.
I have very little idea about what is happening here with RISCV64:
https://godbolt.org/z/vEcMP6P4x

Herald added a subscriber: StephenFan. · View Herald TranscriptDec 1 2022, 8:23 AM

Thank you for taking a look!
I'm really looking forward to this change.

In D138766#3963906, @spatel wrote:

I'm confused by the tests - do we care if the full load already exists? That's not part of the pattern match.

Perhaps i should adjust the tests. That was
mostly for illustrative purposes, and it stuck.

Does the 2x register limit mean we are also creating a double-width load? Are we relying on later passes/codegen to narrow that?

We are indeed creating double-width load,
which is generally going to survive until Codegen.
Alternatively, we could produce non-canonical IR here,
by performing legalization ourselves.
Would that be better?

If we're trying to justify this target-independently, then lets use a less familiar target to avoid reaching the conclusion that the transform is generally good.
I have very little idea about what is happening here with RISCV64:
https://godbolt.org/z/vEcMP6P4x

Please clarify, would be be less burdensome to first proceed with
a single-width change, and then discuss relaxing it to double-width?

Does the 2x register limit mean we are also creating a double-width load? Are we relying on later passes/codegen to narrow that?

We are indeed creating double-width load,
which is generally going to survive until Codegen.
Alternatively, we could produce non-canonical IR here,
by performing legalization ourselves.
Would that be better?

I'm not sure it makes much difference to subsequent IR transforms, but creating a known illegal load seems like a (scary) precedent for target-independent canonicalization.

If we're trying to justify this target-independently, then lets use a less familiar target to avoid reaching the conclusion that the transform is generally good.
I have very little idea about what is happening here with RISCV64:
https://godbolt.org/z/vEcMP6P4x

Please clarify, would be be less burdensome to first proceed with
a single-width change, and then discuss relaxing it to double-width?

Yes, the single-width seems less scary, but we're still really stretching to call this a canonicalization. Does transforming later in IR miss some other optimizations that you want to happen?
For example, I'm still not sure what is happening here:
https://godbolt.org/z/Tcq8af83j

Have I messed up the target specification in some way? Assuming the 2nd version is worse, how is a target expected to reverse it?

Thank you for taking a look!

In D138766#3964237, @spatel wrote:

I remember now, that extra IR was needed to make alive2 happy,
it still has rough edges about not checking the content of pointers passed to calls,
so we have to spell the IR somehow..

Does the 2x register limit mean we are also creating a double-width load? Are we relying on later passes/codegen to narrow that?

We are indeed creating double-width load,
which is generally going to survive until Codegen.
Alternatively, we could produce non-canonical IR here,
by performing legalization ourselves.
Would that be better?

I'm not sure it makes much difference to subsequent IR transforms, but creating a known illegal load seems like a (scary) precedent for target-independent canonicalization.

If we're trying to justify this target-independently, then lets use a less familiar target to avoid reaching the conclusion that the transform is generally good.
I have very little idea about what is happening here with RISCV64:
https://godbolt.org/z/vEcMP6P4x

Please clarify, would be be less burdensome to first proceed with
a single-width change, and then discuss relaxing it to double-width?

Yes, the single-width seems less scary, but we're still really stretching to call this a canonicalization.

Does transforming later in IR miss some other optimizations that you want to happen?

What does "transforming later" mean? If we don't do this transform,
then we are left with variable-indexed load into alloca,
with which we won't be able to do anything else,
and the entirety of the alloca won't be promoted to registers,
and now that is usually a big loss.

For example, I'm still not sure what is happening here:
https://godbolt.org/z/Tcq8af83j

Have I messed up the target specification in some way? Assuming the 2nd version is worse, how is a target expected to reverse it?

I'm sorry, i'm not familiar with that architecture.
@craig.topper / @reames should be able to comment on that..

riscv64 doesn't have vectors without the "v" extension, so anything involving byte vectors is going to get scalarized to something very messy. With -mattr=+v, you get something similar to what you'd expect on other targets.

It feels a little weird to me that you're using an integer shift on a vector... I'd guess in most cases, you'd want some sort of variable shuffle (like x86 pshufb).

Thank you for taking a look!

In D138766#3964537, @efriedma wrote:

riscv64 doesn't have vectors without the "v" extension, so anything involving byte vectors is going to get scalarized to something very messy. With -mattr=+v, you get something similar to what you'd expect on other targets.

It feels a little weird to me that you're using an integer shift on a vector... I'd guess in most cases, you'd want some sort of variable shuffle (like x86 pshufb).

As per langref, poison is byte-wise, so in situations like this, we can't just load i64,
we must load <8 x i8>, freeze it(!), and finally bitcast to the i64.
I'm not using vector for anything else here, shift is scalar.
Also, we don't really have a way in LLVM IR to represent a shuffle with variable mask.
Shift is the right choice here.

I'm not using vector for anything else here

All your testcases involve using the result as a vector? That seems relevant.

Also, we don't really have a way in LLVM IR to represent a shuffle with variable mask.

Not in a target-independent way, no. Almost every target with a vector unit has some sort of variable shuffle intrinsic, but the semantics aren't consistent.

In D138766#3964585, @efriedma wrote:

I'm not using vector for anything else here

All your testcases involve using the result as a vector? That seems relevant.

The call void @use.v8i8(<8 x i8> %init) things are test artifacts,
common to instcombine and other passes that are well-tested
They have two purposes.

mark the value as not having just a single use, but some unknown opaque user
escape it (it's value) as a side-effect. This allows e.g. alive2 to complain if somehow the value changes.

So no, i really don't use it as a vector. @spatel will confirm this.

Also, we don't really have a way in LLVM IR to represent a shuffle with variable mask.

Not in a target-independent way, no. Almost every target with a vector unit has some sort of variable shuffle intrinsic, but the semantics aren't consistent.

ping

nikic added a reviewer: nikic.Dec 5 2022, 11:53 AM

(if an off-list conversation about could help move things forward, please feel free to email me...)

nikic added inline comments.Dec 8 2022, 6:24 AM

llvm/test/Transforms/InstCombine/widen-load-of-small-alloca.ll
111	As far as I can tell, this transform can only ever be profitable if we actually do end up promoting the alloca. In your tests here this is not going to happen because the pointer escapes. In this case, we just end up replacing a simple load with a complex large load and extract pattern. That's generally going to be a pretty significant regression, no? So I think promotion has to be a pre-condition for the transform, in which case this might potentially fit into SROA? Basically allow a whole-alloca promotion by rewriting the dynamic offset access in terms of operations like these. Not sure how well that would work in practice, and of course that leaves the cost modelling question.

nikic mentioned this in D134410: [clang][CodeGen] Add noundef metadata to load instructions (preliminary 1 or 5).Dec 9 2022, 12:40 AM

FWIW, I've discovered today that GVN does a similar optimization (but without the freeze..).
See here (scroll to the bottom): https://web.ist.utl.pt/nuno.lopes/alive2/index.php?hash=aed14c64378404c9&test=Transforms%2FPhaseOrdering%2FX86%2Fvec-load-combine.ll

In D138766#3995896, @nlopes wrote:

FWIW, I've discovered today that GVN does a similar optimization (but without the freeze..).
See here (scroll to the bottom): https://web.ist.utl.pt/nuno.lopes/alive2/index.php?hash=aed14c64378404c9&test=Transforms%2FPhaseOrdering%2FX86%2Fvec-load-combine.ll

That seems to be with constant indexes, though?

In D138766#3995966, @lebedev.ri wrote:

In D138766#3995896, @nlopes wrote:

FWIW, I've discovered today that GVN does a similar optimization (but without the freeze..).
See here (scroll to the bottom): https://web.ist.utl.pt/nuno.lopes/alive2/index.php?hash=aed14c64378404c9&test=Transforms%2FPhaseOrdering%2FX86%2Fvec-load-combine.ll

That seems to be with constant indexes, though?

True.
So it could use a simple extractelement rather than bit masking.

Thank you for looking into it!

In D138766#3996126, @nlopes wrote:

In D138766#3995966, @lebedev.ri wrote:

In D138766#3995896, @nlopes wrote:

FWIW, I've discovered today that GVN does a similar optimization (but without the freeze..).
See here (scroll to the bottom): https://web.ist.utl.pt/nuno.lopes/alive2/index.php?hash=aed14c64378404c9&test=Transforms%2FPhaseOrdering%2FX86%2Fvec-load-combine.ll

That seems to be with constant indexes, though?

True.
So it could use a simple extractelement rather than bit masking.

Define "could"? Define "simple"?
I've looked at alternative lowerings (shufflevector or chain of extractelement's),
and they all result in worse codegen. We can not use a single `extractelement,
because the byte offset may not be a multiple of the element size.
The shift is the optimal lowering here, any alternative chosen lowering
would need to be canonicalized into it, and and which point why bother?

(Yes, i will look into doing this in SROA.)

In D138766#3996152, @lebedev.ri wrote:

Thank you for looking into it!

In D138766#3996126, @nlopes wrote:

In D138766#3995966, @lebedev.ri wrote:

In D138766#3995896, @nlopes wrote:

FWIW, I've discovered today that GVN does a similar optimization (but without the freeze..).
See here (scroll to the bottom): https://web.ist.utl.pt/nuno.lopes/alive2/index.php?hash=aed14c64378404c9&test=Transforms%2FPhaseOrdering%2FX86%2Fvec-load-combine.ll

That seems to be with constant indexes, though?

True.
So it could use a simple extractelement rather than bit masking.

Define "could"? Define "simple"?
I've looked at alternative lowerings (shufflevector or chain of extractelement's),
and they all result in worse codegen. We can not use a single `extractelement,
because the byte offset may not be a multiple of the element size.
The shift is the optimal lowering here, any alternative chosen lowering
would need to be canonicalized into it, and and which point why bother?

I meant for the GVN case, with constant indexes.
Your case is annoying as neither sufflevector or extractelement allow for easy vector extraction w/ dynamic indexes.

In D138766#3996200, @nlopes wrote:

In D138766#3996152, @lebedev.ri wrote:

Thank you for looking into it!

In D138766#3996126, @nlopes wrote:

In D138766#3995966, @lebedev.ri wrote:

In D138766#3995896, @nlopes wrote:

FWIW, I've discovered today that GVN does a similar optimization (but without the freeze..).
See here (scroll to the bottom): https://web.ist.utl.pt/nuno.lopes/alive2/index.php?hash=aed14c64378404c9&test=Transforms%2FPhaseOrdering%2FX86%2Fvec-load-combine.ll

That seems to be with constant indexes, though?

True.
So it could use a simple extractelement rather than bit masking.

Define "could"? Define "simple"?
I've looked at alternative lowerings (shufflevector or chain of extractelement's),
and they all result in worse codegen. We can not use a single `extractelement,
because the byte offset may not be a multiple of the element size.
The shift is the optimal lowering here, any alternative chosen lowering
would need to be canonicalized into it, and and which point why bother?

I meant for the GVN case, with constant indexes.

D'oh! Sorry!

Your case is annoying as neither sufflevector or extractelement allow for easy vector extraction w/ dynamic indexes.

Let's move this over to SROA variant: https://reviews.llvm.org/D140493

Revision Contents

Path

Size

llvm/

lib/

Transforms/

InstCombine/

InstCombineLoadStoreAlloca.cpp

74 lines

test/

Transforms/

InstCombine/

widen-load-of-small-alloca.ll

844 lines

Diff 478111

llvm/lib/Transforms/InstCombine/InstCombineLoadStoreAlloca.cpp

Show All 17 Lines
#include "llvm/Analysis/Loads.h"		#include "llvm/Analysis/Loads.h"
#include "llvm/IR/DataLayout.h"		#include "llvm/IR/DataLayout.h"
#include "llvm/IR/DebugInfoMetadata.h"		#include "llvm/IR/DebugInfoMetadata.h"
#include "llvm/IR/IntrinsicInst.h"		#include "llvm/IR/IntrinsicInst.h"
#include "llvm/IR/LLVMContext.h"		#include "llvm/IR/LLVMContext.h"
#include "llvm/IR/PatternMatch.h"		#include "llvm/IR/PatternMatch.h"
#include "llvm/Transforms/InstCombine/InstCombiner.h"		#include "llvm/Transforms/InstCombine/InstCombiner.h"
#include "llvm/Transforms/Utils/Local.h"		#include "llvm/Transforms/Utils/Local.h"
		#include <numeric>
using namespace llvm;		using namespace llvm;
using namespace PatternMatch;		using namespace PatternMatch;

#define DEBUG_TYPE "instcombine"		#define DEBUG_TYPE "instcombine"

STATISTIC(NumDeadStore, "Number of dead stores eliminated");		STATISTIC(NumDeadStore, "Number of dead stores eliminated");
STATISTIC(NumGlobalCopies, "Number of allocas copied from constant global");		STATISTIC(NumGlobalCopies, "Number of allocas copied from constant global");

▲ Show 20 Lines • Show All 897 Lines • ▼ Show 20 Lines	static bool canSimplifyNullLoadOrGEP(LoadInst &LI, Value *Op) {
}		}
if (isa<UndefValue>(Op) \|\|		if (isa<UndefValue>(Op) \|\|
(isa<ConstantPointerNull>(Op) &&		(isa<ConstantPointerNull>(Op) &&
!NullPointerIsDefined(LI.getFunction(), LI.getPointerAddressSpace())))		!NullPointerIsDefined(LI.getFunction(), LI.getPointerAddressSpace())))
return true;		return true;
return false;		return false;
}		}

		static Value *foldLoadOfPartOfSmallAlloca(LoadInst &LI,
		IRBuilderBase &Builder) {
		const DataLayout &DL = LI.getModule()->getDataLayout();

		Type *FinalTy = LI.getType();
		if (isa<ScalableVectorType>(FinalTy))
		return nullptr;

		uint64_t FinalBitwidth = 8 * DL.getTypeStoreSize(FinalTy).getFixedSize();

		auto *GEPI = dyn_cast<GetElementPtrInst>(LI.getPointerOperand());
		if (!GEPI \|\| GEPI->getNumIndices() != 1)
		return nullptr;

		auto *AI = dyn_cast<AllocaInst>(GEPI->getPointerOperand());
		if (!AI)
		return nullptr;

		Optional<TypeSize> AllocaBitwidth = AI->getAllocationSizeInBits(DL);
		// NOTE: in multiples of 8!
		if (!AllocaBitwidth \|\| AllocaBitwidth->isScalable() \|\|
		FinalBitwidth >= *AllocaBitwidth)
		return nullptr;

		// Profitability reasoning: we expect that for the largest legal int type, we
		// do have good support for variable-amount shifts. For the type 2x that
		// width, the legalization will expand the shift into, at worst, 3 legal-sized
		// shifts + 5 supporting ALU ops. We expect that such an expansion is still
		// not worse than the original pattern we have matched here.
		// But for any bit width larger than that, this isn't worth it.
		if (unsigned MaxIntBitwidth = DL.getLargestLegalIntTypeSizeInBits();
		AllocaBitwidth > 2 MaxIntBitwidth)
		return nullptr;

		Type *FinalBitTy = IntegerType::get(Builder.getContext(), FinalBitwidth);
		Type WideBitTy = IntegerType::get(Builder.getContext(), AllocaBitwidth);
		Type *WideByteTy = FixedVectorType::get(
		IntegerType::getInt8Ty(Builder.getContext()), *AllocaBitwidth / 8);

		unsigned GEPBitStep = GEPI->getSourceElementType()->getScalarSizeInBits();
		Value *Offset = GEPI->getOperand(1);
		Offset =
		Builder.CreateMul(Offset, ConstantInt::get(Offset->getType(), GEPBitStep),
		Offset->getName() + ".numbits");
		if (auto *I = dyn_cast<Instruction>(Offset)) {
		I->setHasNoSignedWrap();
		I->setHasNoUnsignedWrap();
		}
		Offset =
		Builder.CreateZExtOrTrunc(Offset, WideBitTy, Offset->getName() + ".wide");

		Value *V = Builder.CreateAlignedLoad(WideByteTy, AI, AI->getAlign(),
		AI->getName() + ".val");
		V = Builder.CreateFreeze(V, V->getName() + ".frozen");
		V = Builder.CreateBitCast(V, WideBitTy, V->getName() + ".bits");
		if (DL.isLittleEndian())
		V = Builder.CreateLShr(V, Offset, V->getName() + ".positioned"); // inexact.
		else {
		V = Builder.CreateShl(V, Offset, V->getName() + ".positioned"); // inexact.
		V = Builder.CreateLShr(
		V, ConstantInt::get(V->getType(), *AllocaBitwidth - FinalBitwidth),
		V->getName() + ".part");
		}
		V = Builder.CreateTrunc(V, FinalBitTy, V->getName() + ".extracted");
		V = Builder.CreateBitCast(V, FinalTy);

		return V;
		}

Instruction *InstCombinerImpl::visitLoadInst(LoadInst &LI) {		Instruction *InstCombinerImpl::visitLoadInst(LoadInst &LI) {
Value *Op = LI.getOperand(0);		Value *Op = LI.getOperand(0);

// Try to canonicalize the loaded type.		// Try to canonicalize the loaded type.
if (Instruction Res = combineLoadToOperationType(this, LI))		if (Instruction Res = combineLoadToOperationType(this, LI))
return Res;		return Res;

// Attempt to improve the alignment.		// Attempt to improve the alignment.
▲ Show 20 Lines • Show All 82 Lines • ▼ Show 20 Lines	if (SelectInst *SI = dyn_cast<SelectInst>(Op)) {

// load (select (cond, P, null)) -> load P		// load (select (cond, P, null)) -> load P
if (isa<ConstantPointerNull>(SI->getOperand(2)) &&		if (isa<ConstantPointerNull>(SI->getOperand(2)) &&
!NullPointerIsDefined(SI->getFunction(),		!NullPointerIsDefined(SI->getFunction(),
LI.getPointerAddressSpace()))		LI.getPointerAddressSpace()))
return replaceOperand(LI, 0, SI->getOperand(1));		return replaceOperand(LI, 0, SI->getOperand(1));
}		}
}		}

		if (auto *V = foldLoadOfPartOfSmallAlloca(LI, Builder))
		return replaceInstUsesWith(LI, V);

return nullptr;		return nullptr;
}		}

/// Look for extractelement/insertvalue sequence that acts like a bitcast.		/// Look for extractelement/insertvalue sequence that acts like a bitcast.
///		///
/// \returns underlying value that was "cast", or nullptr otherwise.		/// \returns underlying value that was "cast", or nullptr otherwise.
///		///
/// For example, if we have:		/// For example, if we have:
▲ Show 20 Lines • Show All 527 Lines • Show Last 20 Lines

llvm/test/Transforms/InstCombine/widen-load-of-small-alloca.ll

Show All 26 Lines	;
%chunk = load <1 x i8>, ptr %intermediate.off.addr, align 1		%chunk = load <1 x i8>, ptr %intermediate.off.addr, align 1

call void @use.ptr(ptr %intermediate.off.addr)		call void @use.ptr(ptr %intermediate.off.addr)
call void @use.v1i8(<1 x i8> %chunk)		call void @use.v1i8(<1 x i8> %chunk)
ret void		ret void
}		}

define void @load-1byte-chunk-of-2byte-alloca(ptr %src, i64 %byteOff, ptr %escape) {		define void @load-1byte-chunk-of-2byte-alloca(ptr %src, i64 %byteOff, ptr %escape) {
; CHECK-ALL-LABEL: @load-1byte-chunk-of-2byte-alloca(		; CHECK-LE-64-LABEL: @load-1byte-chunk-of-2byte-alloca(
; CHECK-ALL-NEXT: [[INTERMEDIATE:%.*]] = alloca [2 x i8], align 64		; CHECK-LE-64-NEXT: [[INTERMEDIATE:%.*]] = alloca [2 x i8], align 64
; CHECK-ALL-NEXT: [[INIT:%.]] = load <2 x i8>, ptr [[SRC:%.]], align 1		; CHECK-LE-64-NEXT: [[INIT:%.]] = load <2 x i8>, ptr [[SRC:%.]], align 1
; CHECK-ALL-NEXT: store <2 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64		; CHECK-LE-64-NEXT: store <2 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
; CHECK-ALL-NEXT: call void @use.v2i8(<2 x i8> [[INIT]])		; CHECK-LE-64-NEXT: call void @use.v2i8(<2 x i8> [[INIT]])
; CHECK-ALL-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])		; CHECK-LE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]		; CHECK-LE-64-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
; CHECK-ALL-NEXT: [[CHUNK:%.*]] = load <1 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_TR:%.*]] = trunc i64 [[BYTEOFF]] to i16
; CHECK-ALL-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = shl i16 [[BYTEOFF_TR]], 3
; CHECK-ALL-NEXT: call void @use.v1i8(<1 x i8> [[CHUNK]])		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL:%.*]] = load <2 x i8>, ptr [[INTERMEDIATE]], align 64
; CHECK-ALL-NEXT: ret void		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <2 x i8> [[INTERMEDIATE_VAL]]
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <2 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i16
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i16 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i8
		; CHECK-LE-64-NEXT: [[TMP1:%.*]] = insertelement <1 x i8> poison, i8 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]], i64 0
		; CHECK-LE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-LE-64-NEXT: call void @use.v1i8(<1 x i8> [[TMP1]])
		; CHECK-LE-64-NEXT: ret void
		;
		; CHECK-LE-32-LABEL: @load-1byte-chunk-of-2byte-alloca(
		; CHECK-LE-32-NEXT: [[INTERMEDIATE:%.*]] = alloca [2 x i8], align 64
		; CHECK-LE-32-NEXT: [[INIT:%.]] = load <2 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-LE-32-NEXT: store <2 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
		; CHECK-LE-32-NEXT: call void @use.v2i8(<2 x i8> [[INIT]])
		; CHECK-LE-32-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
		; CHECK-LE-32-NEXT: [[BYTEOFF_TR:%.*]] = trunc i64 [[BYTEOFF]] to i16
		; CHECK-LE-32-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = shl i16 [[BYTEOFF_TR]], 3
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL:%.*]] = load <2 x i8>, ptr [[INTERMEDIATE]], align 64
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <2 x i8> [[INTERMEDIATE_VAL]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <2 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i16
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i16 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i8
		; CHECK-LE-32-NEXT: [[TMP1:%.*]] = insertelement <1 x i8> poison, i8 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]], i64 0
		; CHECK-LE-32-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-LE-32-NEXT: call void @use.v1i8(<1 x i8> [[TMP1]])
		; CHECK-LE-32-NEXT: ret void
		;
		; CHECK-BE-64-LABEL: @load-1byte-chunk-of-2byte-alloca(
		; CHECK-BE-64-NEXT: [[INTERMEDIATE:%.*]] = alloca [2 x i8], align 64
		; CHECK-BE-64-NEXT: [[INIT:%.]] = load <2 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-64-NEXT: store <2 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
		; CHECK-BE-64-NEXT: call void @use.v2i8(<2 x i8> [[INIT]])
		; CHECK-BE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
		; CHECK-BE-64-NEXT: [[BYTEOFF_TR:%.*]] = trunc i64 [[BYTEOFF]] to i16
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = shl i16 [[BYTEOFF_TR]], 3
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL:%.*]] = load <2 x i8>, ptr [[INTERMEDIATE]], align 64
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <2 x i8> [[INTERMEDIATE_VAL]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <2 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i16
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i16 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 8
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i8
		; CHECK-BE-64-NEXT: [[TMP1:%.*]] = insertelement <1 x i8> poison, i8 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]], i64 0
		; CHECK-BE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-BE-64-NEXT: call void @use.v1i8(<1 x i8> [[TMP1]])
		; CHECK-BE-64-NEXT: ret void
		;
		; CHECK-BE-32-LABEL: @load-1byte-chunk-of-2byte-alloca(
		; CHECK-BE-32-NEXT: [[INTERMEDIATE:%.*]] = alloca [2 x i8], align 64
		; CHECK-BE-32-NEXT: [[INIT:%.]] = load <2 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-32-NEXT: store <2 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
		; CHECK-BE-32-NEXT: call void @use.v2i8(<2 x i8> [[INIT]])
		; CHECK-BE-32-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
		; CHECK-BE-32-NEXT: [[BYTEOFF_TR:%.*]] = trunc i64 [[BYTEOFF]] to i16
		; CHECK-BE-32-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = shl i16 [[BYTEOFF_TR]], 3
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL:%.*]] = load <2 x i8>, ptr [[INTERMEDIATE]], align 64
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <2 x i8> [[INTERMEDIATE_VAL]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <2 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i16
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i16 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 8
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i8
		; CHECK-BE-32-NEXT: [[TMP1:%.*]] = insertelement <1 x i8> poison, i8 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]], i64 0
		; CHECK-BE-32-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-BE-32-NEXT: call void @use.v1i8(<1 x i8> [[TMP1]])
		; CHECK-BE-32-NEXT: ret void
		nikicUnsubmitted Not Done Reply Inline Actions As far as I can tell, this transform can only ever be profitable if we actually do end up promoting the alloca. In your tests here this is not going to happen because the pointer escapes. In this case, we just end up replacing a simple load with a complex large load and extract pattern. That's generally going to be a pretty significant regression, no? So I think promotion has to be a pre-condition for the transform, in which case this might potentially fit into SROA? Basically allow a whole-alloca promotion by rewriting the dynamic offset access in terms of operations like these. Not sure how well that would work in practice, and of course that leaves the cost modelling question. nikic: As far as I can tell, this transform can only ever be profitable if we actually do end up…
;		;
%intermediate = alloca [2 x i8], align 64		%intermediate = alloca [2 x i8], align 64
%init = load <2 x i8>, ptr %src, align 1		%init = load <2 x i8>, ptr %src, align 1
store <2 x i8> %init, ptr %intermediate, align 64		store <2 x i8> %init, ptr %intermediate, align 64
call void @use.v2i8(<2 x i8> %init)		call void @use.v2i8(<2 x i8> %init)
call void @use.ptr(ptr %intermediate)		call void @use.ptr(ptr %intermediate)

%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff		%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff
Show All 27 Lines	;
%chunk = load <2 x i8>, ptr %intermediate.off.addr, align 1		%chunk = load <2 x i8>, ptr %intermediate.off.addr, align 1

call void @use.ptr(ptr %intermediate.off.addr)		call void @use.ptr(ptr %intermediate.off.addr)
call void @use.v2i8(<2 x i8> %chunk)		call void @use.v2i8(<2 x i8> %chunk)
ret void		ret void
}		}

define void @load-1byte-chunk-of-4byte-alloca(ptr %src, i64 %byteOff, ptr %escape) {		define void @load-1byte-chunk-of-4byte-alloca(ptr %src, i64 %byteOff, ptr %escape) {
; CHECK-ALL-LABEL: @load-1byte-chunk-of-4byte-alloca(		; CHECK-LE-64-LABEL: @load-1byte-chunk-of-4byte-alloca(
; CHECK-ALL-NEXT: [[INTERMEDIATE:%.*]] = alloca [4 x i8], align 64		; CHECK-LE-64-NEXT: [[INTERMEDIATE:%.*]] = alloca [4 x i8], align 64
; CHECK-ALL-NEXT: [[INIT:%.]] = load <4 x i8>, ptr [[SRC:%.]], align 1		; CHECK-LE-64-NEXT: [[INIT:%.]] = load <4 x i8>, ptr [[SRC:%.]], align 1
; CHECK-ALL-NEXT: store <4 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64		; CHECK-LE-64-NEXT: store <4 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
; CHECK-ALL-NEXT: call void @use.v4i8(<4 x i8> [[INIT]])		; CHECK-LE-64-NEXT: call void @use.v4i8(<4 x i8> [[INIT]])
; CHECK-ALL-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])		; CHECK-LE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]		; CHECK-LE-64-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
; CHECK-ALL-NEXT: [[CHUNK:%.*]] = load <1 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_TR:%.*]] = trunc i64 [[BYTEOFF]] to i32
; CHECK-ALL-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = shl i32 [[BYTEOFF_TR]], 3
; CHECK-ALL-NEXT: call void @use.v1i8(<1 x i8> [[CHUNK]])		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL:%.*]] = load <4 x i8>, ptr [[INTERMEDIATE]], align 64
; CHECK-ALL-NEXT: ret void		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <4 x i8> [[INTERMEDIATE_VAL]]
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <4 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i32
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i32 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i8
		; CHECK-LE-64-NEXT: [[TMP1:%.*]] = insertelement <1 x i8> poison, i8 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]], i64 0
		; CHECK-LE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-LE-64-NEXT: call void @use.v1i8(<1 x i8> [[TMP1]])
		; CHECK-LE-64-NEXT: ret void
		;
		; CHECK-LE-32-LABEL: @load-1byte-chunk-of-4byte-alloca(
		; CHECK-LE-32-NEXT: [[INTERMEDIATE:%.*]] = alloca [4 x i8], align 64
		; CHECK-LE-32-NEXT: [[INIT:%.]] = load <4 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-LE-32-NEXT: store <4 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
		; CHECK-LE-32-NEXT: call void @use.v4i8(<4 x i8> [[INIT]])
		; CHECK-LE-32-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
		; CHECK-LE-32-NEXT: [[BYTEOFF_TR:%.*]] = trunc i64 [[BYTEOFF]] to i32
		; CHECK-LE-32-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = shl i32 [[BYTEOFF_TR]], 3
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL:%.*]] = load <4 x i8>, ptr [[INTERMEDIATE]], align 64
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <4 x i8> [[INTERMEDIATE_VAL]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <4 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i32
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i32 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i8
		; CHECK-LE-32-NEXT: [[TMP1:%.*]] = insertelement <1 x i8> poison, i8 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]], i64 0
		; CHECK-LE-32-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-LE-32-NEXT: call void @use.v1i8(<1 x i8> [[TMP1]])
		; CHECK-LE-32-NEXT: ret void
		;
		; CHECK-BE-64-LABEL: @load-1byte-chunk-of-4byte-alloca(
		; CHECK-BE-64-NEXT: [[INTERMEDIATE:%.*]] = alloca [4 x i8], align 64
		; CHECK-BE-64-NEXT: [[INIT:%.]] = load <4 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-64-NEXT: store <4 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
		; CHECK-BE-64-NEXT: call void @use.v4i8(<4 x i8> [[INIT]])
		; CHECK-BE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
		; CHECK-BE-64-NEXT: [[BYTEOFF_TR:%.*]] = trunc i64 [[BYTEOFF]] to i32
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = shl i32 [[BYTEOFF_TR]], 3
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL:%.*]] = load <4 x i8>, ptr [[INTERMEDIATE]], align 64
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <4 x i8> [[INTERMEDIATE_VAL]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <4 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i32
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i32 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 24
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i8
		; CHECK-BE-64-NEXT: [[TMP1:%.*]] = insertelement <1 x i8> poison, i8 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]], i64 0
		; CHECK-BE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-BE-64-NEXT: call void @use.v1i8(<1 x i8> [[TMP1]])
		; CHECK-BE-64-NEXT: ret void
		;
		; CHECK-BE-32-LABEL: @load-1byte-chunk-of-4byte-alloca(
		; CHECK-BE-32-NEXT: [[INTERMEDIATE:%.*]] = alloca [4 x i8], align 64
		; CHECK-BE-32-NEXT: [[INIT:%.]] = load <4 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-32-NEXT: store <4 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
		; CHECK-BE-32-NEXT: call void @use.v4i8(<4 x i8> [[INIT]])
		; CHECK-BE-32-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
		; CHECK-BE-32-NEXT: [[BYTEOFF_TR:%.*]] = trunc i64 [[BYTEOFF]] to i32
		; CHECK-BE-32-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = shl i32 [[BYTEOFF_TR]], 3
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL:%.*]] = load <4 x i8>, ptr [[INTERMEDIATE]], align 64
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <4 x i8> [[INTERMEDIATE_VAL]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <4 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i32
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i32 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 24
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i8
		; CHECK-BE-32-NEXT: [[TMP1:%.*]] = insertelement <1 x i8> poison, i8 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]], i64 0
		; CHECK-BE-32-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-BE-32-NEXT: call void @use.v1i8(<1 x i8> [[TMP1]])
		; CHECK-BE-32-NEXT: ret void
;		;
%intermediate = alloca [4 x i8], align 64		%intermediate = alloca [4 x i8], align 64
%init = load <4 x i8>, ptr %src, align 1		%init = load <4 x i8>, ptr %src, align 1
store <4 x i8> %init, ptr %intermediate, align 64		store <4 x i8> %init, ptr %intermediate, align 64
call void @use.v4i8(<4 x i8> %init)		call void @use.v4i8(<4 x i8> %init)
call void @use.ptr(ptr %intermediate)		call void @use.ptr(ptr %intermediate)

%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff		%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff
%chunk = load <1 x i8>, ptr %intermediate.off.addr, align 1		%chunk = load <1 x i8>, ptr %intermediate.off.addr, align 1

call void @use.ptr(ptr %intermediate.off.addr)		call void @use.ptr(ptr %intermediate.off.addr)
call void @use.v1i8(<1 x i8> %chunk)		call void @use.v1i8(<1 x i8> %chunk)
ret void		ret void
}		}

define void @load-2byte-chunk-of-4byte-alloca(ptr %src, i64 %byteOff, ptr %escape) {		define void @load-2byte-chunk-of-4byte-alloca(ptr %src, i64 %byteOff, ptr %escape) {
; CHECK-ALL-LABEL: @load-2byte-chunk-of-4byte-alloca(		; CHECK-LE-64-LABEL: @load-2byte-chunk-of-4byte-alloca(
; CHECK-ALL-NEXT: [[INTERMEDIATE:%.*]] = alloca [4 x i8], align 64		; CHECK-LE-64-NEXT: [[INTERMEDIATE:%.*]] = alloca [4 x i8], align 64
; CHECK-ALL-NEXT: [[INIT:%.]] = load <4 x i8>, ptr [[SRC:%.]], align 1		; CHECK-LE-64-NEXT: [[INIT:%.]] = load <4 x i8>, ptr [[SRC:%.]], align 1
; CHECK-ALL-NEXT: store <4 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64		; CHECK-LE-64-NEXT: store <4 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
; CHECK-ALL-NEXT: call void @use.v4i8(<4 x i8> [[INIT]])		; CHECK-LE-64-NEXT: call void @use.v4i8(<4 x i8> [[INIT]])
; CHECK-ALL-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])		; CHECK-LE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]		; CHECK-LE-64-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
; CHECK-ALL-NEXT: [[CHUNK:%.*]] = load <2 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_TR:%.*]] = trunc i64 [[BYTEOFF]] to i32
; CHECK-ALL-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = shl i32 [[BYTEOFF_TR]], 3
; CHECK-ALL-NEXT: call void @use.v2i8(<2 x i8> [[CHUNK]])		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL:%.*]] = load <4 x i8>, ptr [[INTERMEDIATE]], align 64
; CHECK-ALL-NEXT: ret void		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <4 x i8> [[INTERMEDIATE_VAL]]
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <4 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i32
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i32 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i16
		; CHECK-LE-64-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <2 x i8>
		; CHECK-LE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-LE-64-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-LE-64-NEXT: ret void
		;
		; CHECK-LE-32-LABEL: @load-2byte-chunk-of-4byte-alloca(
		; CHECK-LE-32-NEXT: [[INTERMEDIATE:%.*]] = alloca [4 x i8], align 64
		; CHECK-LE-32-NEXT: [[INIT:%.]] = load <4 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-LE-32-NEXT: store <4 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
		; CHECK-LE-32-NEXT: call void @use.v4i8(<4 x i8> [[INIT]])
		; CHECK-LE-32-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
		; CHECK-LE-32-NEXT: [[BYTEOFF_TR:%.*]] = trunc i64 [[BYTEOFF]] to i32
		; CHECK-LE-32-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = shl i32 [[BYTEOFF_TR]], 3
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL:%.*]] = load <4 x i8>, ptr [[INTERMEDIATE]], align 64
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <4 x i8> [[INTERMEDIATE_VAL]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <4 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i32
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i32 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i16
		; CHECK-LE-32-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <2 x i8>
		; CHECK-LE-32-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-LE-32-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-LE-32-NEXT: ret void
		;
		; CHECK-BE-64-LABEL: @load-2byte-chunk-of-4byte-alloca(
		; CHECK-BE-64-NEXT: [[INTERMEDIATE:%.*]] = alloca [4 x i8], align 64
		; CHECK-BE-64-NEXT: [[INIT:%.]] = load <4 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-64-NEXT: store <4 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
		; CHECK-BE-64-NEXT: call void @use.v4i8(<4 x i8> [[INIT]])
		; CHECK-BE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
		; CHECK-BE-64-NEXT: [[BYTEOFF_TR:%.*]] = trunc i64 [[BYTEOFF]] to i32
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = shl i32 [[BYTEOFF_TR]], 3
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL:%.*]] = load <4 x i8>, ptr [[INTERMEDIATE]], align 64
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <4 x i8> [[INTERMEDIATE_VAL]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <4 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i32
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i32 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 16
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i16
		; CHECK-BE-64-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <2 x i8>
		; CHECK-BE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-BE-64-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-BE-64-NEXT: ret void
		;
		; CHECK-BE-32-LABEL: @load-2byte-chunk-of-4byte-alloca(
		; CHECK-BE-32-NEXT: [[INTERMEDIATE:%.*]] = alloca [4 x i8], align 64
		; CHECK-BE-32-NEXT: [[INIT:%.]] = load <4 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-32-NEXT: store <4 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
		; CHECK-BE-32-NEXT: call void @use.v4i8(<4 x i8> [[INIT]])
		; CHECK-BE-32-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
		; CHECK-BE-32-NEXT: [[BYTEOFF_TR:%.*]] = trunc i64 [[BYTEOFF]] to i32
		; CHECK-BE-32-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = shl i32 [[BYTEOFF_TR]], 3
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL:%.*]] = load <4 x i8>, ptr [[INTERMEDIATE]], align 64
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <4 x i8> [[INTERMEDIATE_VAL]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <4 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i32
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i32 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 16
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i16
		; CHECK-BE-32-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <2 x i8>
		; CHECK-BE-32-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-BE-32-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-BE-32-NEXT: ret void
;		;
%intermediate = alloca [4 x i8], align 64		%intermediate = alloca [4 x i8], align 64
%init = load <4 x i8>, ptr %src, align 1		%init = load <4 x i8>, ptr %src, align 1
store <4 x i8> %init, ptr %intermediate, align 64		store <4 x i8> %init, ptr %intermediate, align 64
call void @use.v4i8(<4 x i8> %init)		call void @use.v4i8(<4 x i8> %init)
call void @use.ptr(ptr %intermediate)		call void @use.ptr(ptr %intermediate)

%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff		%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff
Show All 27 Lines	;
%chunk = load <4 x i8>, ptr %intermediate.off.addr, align 1		%chunk = load <4 x i8>, ptr %intermediate.off.addr, align 1

call void @use.ptr(ptr %intermediate.off.addr)		call void @use.ptr(ptr %intermediate.off.addr)
call void @use.v4i8(<4 x i8> %chunk)		call void @use.v4i8(<4 x i8> %chunk)
ret void		ret void
}		}

define void @load-1byte-chunk-of-8byte-alloca(ptr %src, i64 %byteOff, ptr %escape) {		define void @load-1byte-chunk-of-8byte-alloca(ptr %src, i64 %byteOff, ptr %escape) {
; CHECK-ALL-LABEL: @load-1byte-chunk-of-8byte-alloca(		; CHECK-LE-64-LABEL: @load-1byte-chunk-of-8byte-alloca(
; CHECK-ALL-NEXT: [[INTERMEDIATE:%.*]] = alloca [8 x i8], align 64		; CHECK-LE-64-NEXT: [[INTERMEDIATE:%.*]] = alloca [8 x i8], align 64
; CHECK-ALL-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1		; CHECK-LE-64-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
; CHECK-ALL-NEXT: store <8 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64		; CHECK-LE-64-NEXT: store <8 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
; CHECK-ALL-NEXT: call void @use.v8i8(<8 x i8> [[INIT]])		; CHECK-LE-64-NEXT: call void @use.v8i8(<8 x i8> [[INIT]])
; CHECK-ALL-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])		; CHECK-LE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]		; CHECK-LE-64-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
; CHECK-ALL-NEXT: [[CHUNK:%.*]] = load <1 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS:%.*]] = shl nuw nsw i64 [[BYTEOFF]], 3
; CHECK-ALL-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL:%.*]] = load <8 x i8>, ptr [[INTERMEDIATE]], align 64
; CHECK-ALL-NEXT: call void @use.v1i8(<1 x i8> [[CHUNK]])		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INTERMEDIATE_VAL]]
; CHECK-ALL-NEXT: ret void		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS]]
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i8
		; CHECK-LE-64-NEXT: [[TMP1:%.*]] = insertelement <1 x i8> poison, i8 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]], i64 0
		; CHECK-LE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-LE-64-NEXT: call void @use.v1i8(<1 x i8> [[TMP1]])
		; CHECK-LE-64-NEXT: ret void
		;
		; CHECK-LE-32-LABEL: @load-1byte-chunk-of-8byte-alloca(
		; CHECK-LE-32-NEXT: [[INTERMEDIATE:%.*]] = alloca [8 x i8], align 64
		; CHECK-LE-32-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-LE-32-NEXT: store <8 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
		; CHECK-LE-32-NEXT: call void @use.v8i8(<8 x i8> [[INIT]])
		; CHECK-LE-32-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
		; CHECK-LE-32-NEXT: [[BYTEOFF_NUMBITS:%.*]] = shl nuw nsw i64 [[BYTEOFF]], 3
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL:%.*]] = load <8 x i8>, ptr [[INTERMEDIATE]], align 64
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INTERMEDIATE_VAL]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i8
		; CHECK-LE-32-NEXT: [[TMP1:%.*]] = insertelement <1 x i8> poison, i8 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]], i64 0
		; CHECK-LE-32-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-LE-32-NEXT: call void @use.v1i8(<1 x i8> [[TMP1]])
		; CHECK-LE-32-NEXT: ret void
		;
		; CHECK-BE-64-LABEL: @load-1byte-chunk-of-8byte-alloca(
		; CHECK-BE-64-NEXT: [[INTERMEDIATE:%.*]] = alloca [8 x i8], align 64
		; CHECK-BE-64-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-64-NEXT: store <8 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
		; CHECK-BE-64-NEXT: call void @use.v8i8(<8 x i8> [[INIT]])
		; CHECK-BE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS:%.*]] = shl nuw nsw i64 [[BYTEOFF]], 3
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL:%.*]] = load <8 x i8>, ptr [[INTERMEDIATE]], align 64
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INTERMEDIATE_VAL]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 56
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i8
		; CHECK-BE-64-NEXT: [[TMP1:%.*]] = insertelement <1 x i8> poison, i8 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]], i64 0
		; CHECK-BE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-BE-64-NEXT: call void @use.v1i8(<1 x i8> [[TMP1]])
		; CHECK-BE-64-NEXT: ret void
		;
		; CHECK-BE-32-LABEL: @load-1byte-chunk-of-8byte-alloca(
		; CHECK-BE-32-NEXT: [[INTERMEDIATE:%.*]] = alloca [8 x i8], align 64
		; CHECK-BE-32-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-32-NEXT: store <8 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
		; CHECK-BE-32-NEXT: call void @use.v8i8(<8 x i8> [[INIT]])
		; CHECK-BE-32-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
		; CHECK-BE-32-NEXT: [[BYTEOFF_NUMBITS:%.*]] = shl nuw nsw i64 [[BYTEOFF]], 3
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL:%.*]] = load <8 x i8>, ptr [[INTERMEDIATE]], align 64
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INTERMEDIATE_VAL]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 56
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i8
		; CHECK-BE-32-NEXT: [[TMP1:%.*]] = insertelement <1 x i8> poison, i8 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]], i64 0
		; CHECK-BE-32-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-BE-32-NEXT: call void @use.v1i8(<1 x i8> [[TMP1]])
		; CHECK-BE-32-NEXT: ret void
;		;
%intermediate = alloca [8 x i8], align 64		%intermediate = alloca [8 x i8], align 64
%init = load <8 x i8>, ptr %src, align 1		%init = load <8 x i8>, ptr %src, align 1
store <8 x i8> %init, ptr %intermediate, align 64		store <8 x i8> %init, ptr %intermediate, align 64
call void @use.v8i8(<8 x i8> %init)		call void @use.v8i8(<8 x i8> %init)
call void @use.ptr(ptr %intermediate)		call void @use.ptr(ptr %intermediate)

%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff		%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff
%chunk = load <1 x i8>, ptr %intermediate.off.addr, align 1		%chunk = load <1 x i8>, ptr %intermediate.off.addr, align 1

call void @use.ptr(ptr %intermediate.off.addr)		call void @use.ptr(ptr %intermediate.off.addr)
call void @use.v1i8(<1 x i8> %chunk)		call void @use.v1i8(<1 x i8> %chunk)
ret void		ret void
}		}

define void @load-2byte-chunk-of-8byte-alloca(ptr %src, i64 %byteOff, ptr %escape) {		define void @load-2byte-chunk-of-8byte-alloca(ptr %src, i64 %byteOff, ptr %escape) {
; CHECK-ALL-LABEL: @load-2byte-chunk-of-8byte-alloca(		; CHECK-LE-64-LABEL: @load-2byte-chunk-of-8byte-alloca(
; CHECK-ALL-NEXT: [[INTERMEDIATE:%.*]] = alloca [8 x i8], align 64		; CHECK-LE-64-NEXT: [[INTERMEDIATE:%.*]] = alloca [8 x i8], align 64
; CHECK-ALL-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1		; CHECK-LE-64-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
; CHECK-ALL-NEXT: store <8 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64		; CHECK-LE-64-NEXT: store <8 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
; CHECK-ALL-NEXT: call void @use.v8i8(<8 x i8> [[INIT]])		; CHECK-LE-64-NEXT: call void @use.v8i8(<8 x i8> [[INIT]])
; CHECK-ALL-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])		; CHECK-LE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]		; CHECK-LE-64-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
; CHECK-ALL-NEXT: [[CHUNK:%.*]] = load <2 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS:%.*]] = shl nuw nsw i64 [[BYTEOFF]], 3
; CHECK-ALL-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL:%.*]] = load <8 x i8>, ptr [[INTERMEDIATE]], align 64
; CHECK-ALL-NEXT: call void @use.v2i8(<2 x i8> [[CHUNK]])		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INTERMEDIATE_VAL]]
; CHECK-ALL-NEXT: ret void		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS]]
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i16
		; CHECK-LE-64-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <2 x i8>
		; CHECK-LE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-LE-64-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-LE-64-NEXT: ret void
		;
		; CHECK-LE-32-LABEL: @load-2byte-chunk-of-8byte-alloca(
		; CHECK-LE-32-NEXT: [[INTERMEDIATE:%.*]] = alloca [8 x i8], align 64
		; CHECK-LE-32-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-LE-32-NEXT: store <8 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
		; CHECK-LE-32-NEXT: call void @use.v8i8(<8 x i8> [[INIT]])
		; CHECK-LE-32-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
		; CHECK-LE-32-NEXT: [[BYTEOFF_NUMBITS:%.*]] = shl nuw nsw i64 [[BYTEOFF]], 3
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL:%.*]] = load <8 x i8>, ptr [[INTERMEDIATE]], align 64
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INTERMEDIATE_VAL]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i16
		; CHECK-LE-32-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <2 x i8>
		; CHECK-LE-32-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-LE-32-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-LE-32-NEXT: ret void
		;
		; CHECK-BE-64-LABEL: @load-2byte-chunk-of-8byte-alloca(
		; CHECK-BE-64-NEXT: [[INTERMEDIATE:%.*]] = alloca [8 x i8], align 64
		; CHECK-BE-64-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-64-NEXT: store <8 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
		; CHECK-BE-64-NEXT: call void @use.v8i8(<8 x i8> [[INIT]])
		; CHECK-BE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS:%.*]] = shl nuw nsw i64 [[BYTEOFF]], 3
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL:%.*]] = load <8 x i8>, ptr [[INTERMEDIATE]], align 64
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INTERMEDIATE_VAL]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 48
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i16
		; CHECK-BE-64-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <2 x i8>
		; CHECK-BE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-BE-64-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-BE-64-NEXT: ret void
		;
		; CHECK-BE-32-LABEL: @load-2byte-chunk-of-8byte-alloca(
		; CHECK-BE-32-NEXT: [[INTERMEDIATE:%.*]] = alloca [8 x i8], align 64
		; CHECK-BE-32-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-32-NEXT: store <8 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
		; CHECK-BE-32-NEXT: call void @use.v8i8(<8 x i8> [[INIT]])
		; CHECK-BE-32-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
		; CHECK-BE-32-NEXT: [[BYTEOFF_NUMBITS:%.*]] = shl nuw nsw i64 [[BYTEOFF]], 3
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL:%.*]] = load <8 x i8>, ptr [[INTERMEDIATE]], align 64
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INTERMEDIATE_VAL]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 48
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i16
		; CHECK-BE-32-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <2 x i8>
		; CHECK-BE-32-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-BE-32-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-BE-32-NEXT: ret void
;		;
%intermediate = alloca [8 x i8], align 64		%intermediate = alloca [8 x i8], align 64
%init = load <8 x i8>, ptr %src, align 1		%init = load <8 x i8>, ptr %src, align 1
store <8 x i8> %init, ptr %intermediate, align 64		store <8 x i8> %init, ptr %intermediate, align 64
call void @use.v8i8(<8 x i8> %init)		call void @use.v8i8(<8 x i8> %init)
call void @use.ptr(ptr %intermediate)		call void @use.ptr(ptr %intermediate)

%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff		%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff
%chunk = load <2 x i8>, ptr %intermediate.off.addr, align 1		%chunk = load <2 x i8>, ptr %intermediate.off.addr, align 1

call void @use.ptr(ptr %intermediate.off.addr)		call void @use.ptr(ptr %intermediate.off.addr)
call void @use.v2i8(<2 x i8> %chunk)		call void @use.v2i8(<2 x i8> %chunk)
ret void		ret void
}		}

define void @load-4byte-chunk-of-8byte-alloca(ptr %src, i64 %byteOff, ptr %escape) {		define void @load-4byte-chunk-of-8byte-alloca(ptr %src, i64 %byteOff, ptr %escape) {
; CHECK-ALL-LABEL: @load-4byte-chunk-of-8byte-alloca(		; CHECK-LE-64-LABEL: @load-4byte-chunk-of-8byte-alloca(
; CHECK-ALL-NEXT: [[INTERMEDIATE:%.*]] = alloca [8 x i8], align 64		; CHECK-LE-64-NEXT: [[INTERMEDIATE:%.*]] = alloca [8 x i8], align 64
; CHECK-ALL-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1		; CHECK-LE-64-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
; CHECK-ALL-NEXT: store <8 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64		; CHECK-LE-64-NEXT: store <8 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
; CHECK-ALL-NEXT: call void @use.v8i8(<8 x i8> [[INIT]])		; CHECK-LE-64-NEXT: call void @use.v8i8(<8 x i8> [[INIT]])
; CHECK-ALL-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])		; CHECK-LE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]		; CHECK-LE-64-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
; CHECK-ALL-NEXT: [[CHUNK:%.*]] = load <4 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS:%.*]] = shl nuw nsw i64 [[BYTEOFF]], 3
; CHECK-ALL-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL:%.*]] = load <8 x i8>, ptr [[INTERMEDIATE]], align 64
; CHECK-ALL-NEXT: call void @use.v4i8(<4 x i8> [[CHUNK]])		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INTERMEDIATE_VAL]]
; CHECK-ALL-NEXT: ret void		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS]]
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i32
		; CHECK-LE-64-NEXT: [[TMP1:%.*]] = bitcast i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <4 x i8>
		; CHECK-LE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-LE-64-NEXT: call void @use.v4i8(<4 x i8> [[TMP1]])
		; CHECK-LE-64-NEXT: ret void
		;
		; CHECK-LE-32-LABEL: @load-4byte-chunk-of-8byte-alloca(
		; CHECK-LE-32-NEXT: [[INTERMEDIATE:%.*]] = alloca [8 x i8], align 64
		; CHECK-LE-32-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-LE-32-NEXT: store <8 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
		; CHECK-LE-32-NEXT: call void @use.v8i8(<8 x i8> [[INIT]])
		; CHECK-LE-32-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
		; CHECK-LE-32-NEXT: [[BYTEOFF_NUMBITS:%.*]] = shl nuw nsw i64 [[BYTEOFF]], 3
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL:%.*]] = load <8 x i8>, ptr [[INTERMEDIATE]], align 64
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INTERMEDIATE_VAL]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i32
		; CHECK-LE-32-NEXT: [[TMP1:%.*]] = bitcast i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <4 x i8>
		; CHECK-LE-32-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-LE-32-NEXT: call void @use.v4i8(<4 x i8> [[TMP1]])
		; CHECK-LE-32-NEXT: ret void
		;
		; CHECK-BE-64-LABEL: @load-4byte-chunk-of-8byte-alloca(
		; CHECK-BE-64-NEXT: [[INTERMEDIATE:%.*]] = alloca [8 x i8], align 64
		; CHECK-BE-64-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-64-NEXT: store <8 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
		; CHECK-BE-64-NEXT: call void @use.v8i8(<8 x i8> [[INIT]])
		; CHECK-BE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS:%.*]] = shl nuw nsw i64 [[BYTEOFF]], 3
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL:%.*]] = load <8 x i8>, ptr [[INTERMEDIATE]], align 64
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INTERMEDIATE_VAL]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 32
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i32
		; CHECK-BE-64-NEXT: [[TMP1:%.*]] = bitcast i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <4 x i8>
		; CHECK-BE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-BE-64-NEXT: call void @use.v4i8(<4 x i8> [[TMP1]])
		; CHECK-BE-64-NEXT: ret void
		;
		; CHECK-BE-32-LABEL: @load-4byte-chunk-of-8byte-alloca(
		; CHECK-BE-32-NEXT: [[INTERMEDIATE:%.*]] = alloca [8 x i8], align 64
		; CHECK-BE-32-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-32-NEXT: store <8 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
		; CHECK-BE-32-NEXT: call void @use.v8i8(<8 x i8> [[INIT]])
		; CHECK-BE-32-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
		; CHECK-BE-32-NEXT: [[BYTEOFF_NUMBITS:%.*]] = shl nuw nsw i64 [[BYTEOFF]], 3
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL:%.*]] = load <8 x i8>, ptr [[INTERMEDIATE]], align 64
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INTERMEDIATE_VAL]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 32
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i32
		; CHECK-BE-32-NEXT: [[TMP1:%.*]] = bitcast i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <4 x i8>
		; CHECK-BE-32-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-BE-32-NEXT: call void @use.v4i8(<4 x i8> [[TMP1]])
		; CHECK-BE-32-NEXT: ret void
;		;
%intermediate = alloca [8 x i8], align 64		%intermediate = alloca [8 x i8], align 64
%init = load <8 x i8>, ptr %src, align 1		%init = load <8 x i8>, ptr %src, align 1
store <8 x i8> %init, ptr %intermediate, align 64		store <8 x i8> %init, ptr %intermediate, align 64
call void @use.v8i8(<8 x i8> %init)		call void @use.v8i8(<8 x i8> %init)
call void @use.ptr(ptr %intermediate)		call void @use.ptr(ptr %intermediate)

%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff		%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff
Show All 27 Lines	;
%chunk = load <8 x i8>, ptr %intermediate.off.addr, align 1		%chunk = load <8 x i8>, ptr %intermediate.off.addr, align 1

call void @use.ptr(ptr %intermediate.off.addr)		call void @use.ptr(ptr %intermediate.off.addr)
call void @use.v8i8(<8 x i8> %chunk)		call void @use.v8i8(<8 x i8> %chunk)
ret void		ret void
}		}

define void @load-1byte-chunk-of-16byte-alloca(ptr %src, i64 %byteOff, ptr %escape) {		define void @load-1byte-chunk-of-16byte-alloca(ptr %src, i64 %byteOff, ptr %escape) {
; CHECK-ALL-LABEL: @load-1byte-chunk-of-16byte-alloca(		; CHECK-LE-64-LABEL: @load-1byte-chunk-of-16byte-alloca(
; CHECK-ALL-NEXT: [[INTERMEDIATE:%.*]] = alloca [16 x i8], align 64		; CHECK-LE-64-NEXT: [[INTERMEDIATE:%.*]] = alloca [16 x i8], align 64
; CHECK-ALL-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1		; CHECK-LE-64-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1
; CHECK-ALL-NEXT: store <16 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64		; CHECK-LE-64-NEXT: store <16 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
; CHECK-ALL-NEXT: call void @use.v16i8(<16 x i8> [[INIT]])		; CHECK-LE-64-NEXT: call void @use.v16i8(<16 x i8> [[INIT]])
; CHECK-ALL-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])		; CHECK-LE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]		; CHECK-LE-64-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
; CHECK-ALL-NEXT: [[CHUNK:%.*]] = load <1 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS:%.*]] = shl nuw nsw i64 [[BYTEOFF]], 3
; CHECK-ALL-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = zext i64 [[BYTEOFF_NUMBITS]] to i128
; CHECK-ALL-NEXT: call void @use.v1i8(<1 x i8> [[CHUNK]])		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL:%.*]] = load <16 x i8>, ptr [[INTERMEDIATE]], align 64
; CHECK-ALL-NEXT: ret void		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <16 x i8> [[INTERMEDIATE_VAL]]
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <16 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i128
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i128 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i128 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i8
		; CHECK-LE-64-NEXT: [[TMP1:%.*]] = insertelement <1 x i8> poison, i8 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]], i64 0
		; CHECK-LE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-LE-64-NEXT: call void @use.v1i8(<1 x i8> [[TMP1]])
		; CHECK-LE-64-NEXT: ret void
		;
		; CHECK-SCALAR-32-LABEL: @load-1byte-chunk-of-16byte-alloca(
		; CHECK-SCALAR-32-NEXT: [[INTERMEDIATE:%.*]] = alloca [16 x i8], align 64
		; CHECK-SCALAR-32-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-SCALAR-32-NEXT: store <16 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
		; CHECK-SCALAR-32-NEXT: call void @use.v16i8(<16 x i8> [[INIT]])
		; CHECK-SCALAR-32-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
		; CHECK-SCALAR-32-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
		; CHECK-SCALAR-32-NEXT: [[CHUNK:%.*]] = load <1 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1
		; CHECK-SCALAR-32-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-SCALAR-32-NEXT: call void @use.v1i8(<1 x i8> [[CHUNK]])
		; CHECK-SCALAR-32-NEXT: ret void
		;
		; CHECK-BE-64-LABEL: @load-1byte-chunk-of-16byte-alloca(
		; CHECK-BE-64-NEXT: [[INTERMEDIATE:%.*]] = alloca [16 x i8], align 64
		; CHECK-BE-64-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-64-NEXT: store <16 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
		; CHECK-BE-64-NEXT: call void @use.v16i8(<16 x i8> [[INIT]])
		; CHECK-BE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS:%.*]] = shl nuw nsw i64 [[BYTEOFF]], 3
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = zext i64 [[BYTEOFF_NUMBITS]] to i128
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL:%.*]] = load <16 x i8>, ptr [[INTERMEDIATE]], align 64
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <16 x i8> [[INTERMEDIATE_VAL]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <16 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i128
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i128 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i128 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 120
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i128 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i8
		; CHECK-BE-64-NEXT: [[TMP1:%.*]] = insertelement <1 x i8> poison, i8 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]], i64 0
		; CHECK-BE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-BE-64-NEXT: call void @use.v1i8(<1 x i8> [[TMP1]])
		; CHECK-BE-64-NEXT: ret void
;		;
%intermediate = alloca [16 x i8], align 64		%intermediate = alloca [16 x i8], align 64
%init = load <16 x i8>, ptr %src, align 1		%init = load <16 x i8>, ptr %src, align 1
store <16 x i8> %init, ptr %intermediate, align 64		store <16 x i8> %init, ptr %intermediate, align 64
call void @use.v16i8(<16 x i8> %init)		call void @use.v16i8(<16 x i8> %init)
call void @use.ptr(ptr %intermediate)		call void @use.ptr(ptr %intermediate)

%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff		%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff
%chunk = load <1 x i8>, ptr %intermediate.off.addr, align 1		%chunk = load <1 x i8>, ptr %intermediate.off.addr, align 1

call void @use.ptr(ptr %intermediate.off.addr)		call void @use.ptr(ptr %intermediate.off.addr)
call void @use.v1i8(<1 x i8> %chunk)		call void @use.v1i8(<1 x i8> %chunk)
ret void		ret void
}		}

define void @load-2byte-chunk-of-16byte-alloca(ptr %src, i64 %byteOff, ptr %escape) {		define void @load-2byte-chunk-of-16byte-alloca(ptr %src, i64 %byteOff, ptr %escape) {
; CHECK-ALL-LABEL: @load-2byte-chunk-of-16byte-alloca(		; CHECK-LE-64-LABEL: @load-2byte-chunk-of-16byte-alloca(
; CHECK-ALL-NEXT: [[INTERMEDIATE:%.*]] = alloca [16 x i8], align 64		; CHECK-LE-64-NEXT: [[INTERMEDIATE:%.*]] = alloca [16 x i8], align 64
; CHECK-ALL-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1		; CHECK-LE-64-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1
; CHECK-ALL-NEXT: store <16 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64		; CHECK-LE-64-NEXT: store <16 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
; CHECK-ALL-NEXT: call void @use.v16i8(<16 x i8> [[INIT]])		; CHECK-LE-64-NEXT: call void @use.v16i8(<16 x i8> [[INIT]])
; CHECK-ALL-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])		; CHECK-LE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]		; CHECK-LE-64-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
; CHECK-ALL-NEXT: [[CHUNK:%.*]] = load <2 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS:%.*]] = shl nuw nsw i64 [[BYTEOFF]], 3
; CHECK-ALL-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = zext i64 [[BYTEOFF_NUMBITS]] to i128
; CHECK-ALL-NEXT: call void @use.v2i8(<2 x i8> [[CHUNK]])		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL:%.*]] = load <16 x i8>, ptr [[INTERMEDIATE]], align 64
; CHECK-ALL-NEXT: ret void		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <16 x i8> [[INTERMEDIATE_VAL]]
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <16 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i128
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i128 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i128 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i16
		; CHECK-LE-64-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <2 x i8>
		; CHECK-LE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-LE-64-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-LE-64-NEXT: ret void
		;
		; CHECK-SCALAR-32-LABEL: @load-2byte-chunk-of-16byte-alloca(
		; CHECK-SCALAR-32-NEXT: [[INTERMEDIATE:%.*]] = alloca [16 x i8], align 64
		; CHECK-SCALAR-32-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-SCALAR-32-NEXT: store <16 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
		; CHECK-SCALAR-32-NEXT: call void @use.v16i8(<16 x i8> [[INIT]])
		; CHECK-SCALAR-32-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
		; CHECK-SCALAR-32-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
		; CHECK-SCALAR-32-NEXT: [[CHUNK:%.*]] = load <2 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1
		; CHECK-SCALAR-32-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-SCALAR-32-NEXT: call void @use.v2i8(<2 x i8> [[CHUNK]])
		; CHECK-SCALAR-32-NEXT: ret void
		;
		; CHECK-BE-64-LABEL: @load-2byte-chunk-of-16byte-alloca(
		; CHECK-BE-64-NEXT: [[INTERMEDIATE:%.*]] = alloca [16 x i8], align 64
		; CHECK-BE-64-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-64-NEXT: store <16 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
		; CHECK-BE-64-NEXT: call void @use.v16i8(<16 x i8> [[INIT]])
		; CHECK-BE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS:%.*]] = shl nuw nsw i64 [[BYTEOFF]], 3
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = zext i64 [[BYTEOFF_NUMBITS]] to i128
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL:%.*]] = load <16 x i8>, ptr [[INTERMEDIATE]], align 64
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <16 x i8> [[INTERMEDIATE_VAL]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <16 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i128
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i128 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i128 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 112
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i128 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i16
		; CHECK-BE-64-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <2 x i8>
		; CHECK-BE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-BE-64-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-BE-64-NEXT: ret void
;		;
%intermediate = alloca [16 x i8], align 64		%intermediate = alloca [16 x i8], align 64
%init = load <16 x i8>, ptr %src, align 1		%init = load <16 x i8>, ptr %src, align 1
store <16 x i8> %init, ptr %intermediate, align 64		store <16 x i8> %init, ptr %intermediate, align 64
call void @use.v16i8(<16 x i8> %init)		call void @use.v16i8(<16 x i8> %init)
call void @use.ptr(ptr %intermediate)		call void @use.ptr(ptr %intermediate)

%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff		%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff
%chunk = load <2 x i8>, ptr %intermediate.off.addr, align 1		%chunk = load <2 x i8>, ptr %intermediate.off.addr, align 1

call void @use.ptr(ptr %intermediate.off.addr)		call void @use.ptr(ptr %intermediate.off.addr)
call void @use.v2i8(<2 x i8> %chunk)		call void @use.v2i8(<2 x i8> %chunk)
ret void		ret void
}		}

define void @load-4byte-chunk-of-16byte-alloca(ptr %src, i64 %byteOff, ptr %escape) {		define void @load-4byte-chunk-of-16byte-alloca(ptr %src, i64 %byteOff, ptr %escape) {
; CHECK-ALL-LABEL: @load-4byte-chunk-of-16byte-alloca(		; CHECK-LE-64-LABEL: @load-4byte-chunk-of-16byte-alloca(
; CHECK-ALL-NEXT: [[INTERMEDIATE:%.*]] = alloca [16 x i8], align 64		; CHECK-LE-64-NEXT: [[INTERMEDIATE:%.*]] = alloca [16 x i8], align 64
; CHECK-ALL-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1		; CHECK-LE-64-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1
; CHECK-ALL-NEXT: store <16 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64		; CHECK-LE-64-NEXT: store <16 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
; CHECK-ALL-NEXT: call void @use.v16i8(<16 x i8> [[INIT]])		; CHECK-LE-64-NEXT: call void @use.v16i8(<16 x i8> [[INIT]])
; CHECK-ALL-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])		; CHECK-LE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]		; CHECK-LE-64-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
; CHECK-ALL-NEXT: [[CHUNK:%.*]] = load <4 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS:%.*]] = shl nuw nsw i64 [[BYTEOFF]], 3
; CHECK-ALL-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = zext i64 [[BYTEOFF_NUMBITS]] to i128
; CHECK-ALL-NEXT: call void @use.v4i8(<4 x i8> [[CHUNK]])		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL:%.*]] = load <16 x i8>, ptr [[INTERMEDIATE]], align 64
; CHECK-ALL-NEXT: ret void		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <16 x i8> [[INTERMEDIATE_VAL]]
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <16 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i128
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i128 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i128 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i32
		; CHECK-LE-64-NEXT: [[TMP1:%.*]] = bitcast i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <4 x i8>
		; CHECK-LE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-LE-64-NEXT: call void @use.v4i8(<4 x i8> [[TMP1]])
		; CHECK-LE-64-NEXT: ret void
		;
		; CHECK-SCALAR-32-LABEL: @load-4byte-chunk-of-16byte-alloca(
		; CHECK-SCALAR-32-NEXT: [[INTERMEDIATE:%.*]] = alloca [16 x i8], align 64
		; CHECK-SCALAR-32-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-SCALAR-32-NEXT: store <16 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
		; CHECK-SCALAR-32-NEXT: call void @use.v16i8(<16 x i8> [[INIT]])
		; CHECK-SCALAR-32-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
		; CHECK-SCALAR-32-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
		; CHECK-SCALAR-32-NEXT: [[CHUNK:%.*]] = load <4 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1
		; CHECK-SCALAR-32-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-SCALAR-32-NEXT: call void @use.v4i8(<4 x i8> [[CHUNK]])
		; CHECK-SCALAR-32-NEXT: ret void
		;
		; CHECK-BE-64-LABEL: @load-4byte-chunk-of-16byte-alloca(
		; CHECK-BE-64-NEXT: [[INTERMEDIATE:%.*]] = alloca [16 x i8], align 64
		; CHECK-BE-64-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-64-NEXT: store <16 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
		; CHECK-BE-64-NEXT: call void @use.v16i8(<16 x i8> [[INIT]])
		; CHECK-BE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS:%.*]] = shl nuw nsw i64 [[BYTEOFF]], 3
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = zext i64 [[BYTEOFF_NUMBITS]] to i128
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL:%.*]] = load <16 x i8>, ptr [[INTERMEDIATE]], align 64
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <16 x i8> [[INTERMEDIATE_VAL]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <16 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i128
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i128 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i128 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 96
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i128 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i32
		; CHECK-BE-64-NEXT: [[TMP1:%.*]] = bitcast i32 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <4 x i8>
		; CHECK-BE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-BE-64-NEXT: call void @use.v4i8(<4 x i8> [[TMP1]])
		; CHECK-BE-64-NEXT: ret void
;		;
%intermediate = alloca [16 x i8], align 64		%intermediate = alloca [16 x i8], align 64
%init = load <16 x i8>, ptr %src, align 1		%init = load <16 x i8>, ptr %src, align 1
store <16 x i8> %init, ptr %intermediate, align 64		store <16 x i8> %init, ptr %intermediate, align 64
call void @use.v16i8(<16 x i8> %init)		call void @use.v16i8(<16 x i8> %init)
call void @use.ptr(ptr %intermediate)		call void @use.ptr(ptr %intermediate)

%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff		%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff
%chunk = load <4 x i8>, ptr %intermediate.off.addr, align 1		%chunk = load <4 x i8>, ptr %intermediate.off.addr, align 1

call void @use.ptr(ptr %intermediate.off.addr)		call void @use.ptr(ptr %intermediate.off.addr)
call void @use.v4i8(<4 x i8> %chunk)		call void @use.v4i8(<4 x i8> %chunk)
ret void		ret void
}		}

define void @load-8byte-chunk-of-16byte-alloca(ptr %src, i64 %byteOff, ptr %escape) {		define void @load-8byte-chunk-of-16byte-alloca(ptr %src, i64 %byteOff, ptr %escape) {
; CHECK-ALL-LABEL: @load-8byte-chunk-of-16byte-alloca(		; CHECK-LE-64-LABEL: @load-8byte-chunk-of-16byte-alloca(
; CHECK-ALL-NEXT: [[INTERMEDIATE:%.*]] = alloca [16 x i8], align 64		; CHECK-LE-64-NEXT: [[INTERMEDIATE:%.*]] = alloca [16 x i8], align 64
; CHECK-ALL-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1		; CHECK-LE-64-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1
; CHECK-ALL-NEXT: store <16 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64		; CHECK-LE-64-NEXT: store <16 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
; CHECK-ALL-NEXT: call void @use.v16i8(<16 x i8> [[INIT]])		; CHECK-LE-64-NEXT: call void @use.v16i8(<16 x i8> [[INIT]])
; CHECK-ALL-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])		; CHECK-LE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]		; CHECK-LE-64-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
; CHECK-ALL-NEXT: [[CHUNK:%.*]] = load <8 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS:%.*]] = shl nuw nsw i64 [[BYTEOFF]], 3
; CHECK-ALL-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = zext i64 [[BYTEOFF_NUMBITS]] to i128
; CHECK-ALL-NEXT: call void @use.v8i8(<8 x i8> [[CHUNK]])		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL:%.*]] = load <16 x i8>, ptr [[INTERMEDIATE]], align 64
; CHECK-ALL-NEXT: ret void		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <16 x i8> [[INTERMEDIATE_VAL]]
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <16 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i128
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i128 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i128 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i64
		; CHECK-LE-64-NEXT: [[TMP1:%.*]] = bitcast i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <8 x i8>
		; CHECK-LE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-LE-64-NEXT: call void @use.v8i8(<8 x i8> [[TMP1]])
		; CHECK-LE-64-NEXT: ret void
		;
		; CHECK-SCALAR-32-LABEL: @load-8byte-chunk-of-16byte-alloca(
		; CHECK-SCALAR-32-NEXT: [[INTERMEDIATE:%.*]] = alloca [16 x i8], align 64
		; CHECK-SCALAR-32-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-SCALAR-32-NEXT: store <16 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
		; CHECK-SCALAR-32-NEXT: call void @use.v16i8(<16 x i8> [[INIT]])
		; CHECK-SCALAR-32-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
		; CHECK-SCALAR-32-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
		; CHECK-SCALAR-32-NEXT: [[CHUNK:%.*]] = load <8 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 1
		; CHECK-SCALAR-32-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-SCALAR-32-NEXT: call void @use.v8i8(<8 x i8> [[CHUNK]])
		; CHECK-SCALAR-32-NEXT: ret void
		;
		; CHECK-BE-64-LABEL: @load-8byte-chunk-of-16byte-alloca(
		; CHECK-BE-64-NEXT: [[INTERMEDIATE:%.*]] = alloca [16 x i8], align 64
		; CHECK-BE-64-NEXT: [[INIT:%.]] = load <16 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-64-NEXT: store <16 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
		; CHECK-BE-64-NEXT: call void @use.v16i8(<16 x i8> [[INIT]])
		; CHECK-BE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i8, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS:%.*]] = shl nuw nsw i64 [[BYTEOFF]], 3
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS_WIDE:%.*]] = zext i64 [[BYTEOFF_NUMBITS]] to i128
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL:%.*]] = load <16 x i8>, ptr [[INTERMEDIATE]], align 64
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <16 x i8> [[INTERMEDIATE_VAL]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <16 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i128
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i128 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS_WIDE]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i128 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 64
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i128 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i64
		; CHECK-BE-64-NEXT: [[TMP1:%.*]] = bitcast i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <8 x i8>
		; CHECK-BE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-BE-64-NEXT: call void @use.v8i8(<8 x i8> [[TMP1]])
		; CHECK-BE-64-NEXT: ret void
;		;
%intermediate = alloca [16 x i8], align 64		%intermediate = alloca [16 x i8], align 64
%init = load <16 x i8>, ptr %src, align 1		%init = load <16 x i8>, ptr %src, align 1
store <16 x i8> %init, ptr %intermediate, align 64		store <16 x i8> %init, ptr %intermediate, align 64
call void @use.v16i8(<16 x i8> %init)		call void @use.v16i8(<16 x i8> %init)
call void @use.ptr(ptr %intermediate)		call void @use.ptr(ptr %intermediate)

%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff		%intermediate.off.addr = getelementptr inbounds i8, ptr %intermediate, i64 %byteOff
▲ Show 20 Lines • Show All 191 Lines • ▼ Show 20 Lines	;
call void @use.ptr(ptr %intermediate.off.addr)		call void @use.ptr(ptr %intermediate.off.addr)
call void @use.v32i8(<32 x i8> %chunk)		call void @use.v32i8(<32 x i8> %chunk)
ret void		ret void
}		}

;; Special test		;; Special test

define void @load-2byte-chunk-of-8byte-alloca-with-2byte-step(ptr %src, i64 %byteOff, ptr %escape) {		define void @load-2byte-chunk-of-8byte-alloca-with-2byte-step(ptr %src, i64 %byteOff, ptr %escape) {
; CHECK-ALL-LABEL: @load-2byte-chunk-of-8byte-alloca-with-2byte-step(		; CHECK-LE-64-LABEL: @load-2byte-chunk-of-8byte-alloca-with-2byte-step(
; CHECK-ALL-NEXT: [[INTERMEDIATE:%.*]] = alloca [8 x i8], align 64		; CHECK-LE-64-NEXT: [[INTERMEDIATE:%.*]] = alloca [8 x i8], align 64
; CHECK-ALL-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1		; CHECK-LE-64-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
; CHECK-ALL-NEXT: store <8 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64		; CHECK-LE-64-NEXT: store <8 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
; CHECK-ALL-NEXT: call void @use.v8i8(<8 x i8> [[INIT]])		; CHECK-LE-64-NEXT: call void @use.v8i8(<8 x i8> [[INIT]])
; CHECK-ALL-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])		; CHECK-LE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
; CHECK-ALL-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i16, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]		; CHECK-LE-64-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i16, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
; CHECK-ALL-NEXT: [[CHUNK:%.*]] = load <2 x i8>, ptr [[INTERMEDIATE_OFF_ADDR]], align 2		; CHECK-LE-64-NEXT: [[BYTEOFF_NUMBITS:%.*]] = shl nuw nsw i64 [[BYTEOFF]], 4
; CHECK-ALL-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL:%.*]] = load <8 x i8>, ptr [[INTERMEDIATE]], align 64
; CHECK-ALL-NEXT: call void @use.v2i8(<2 x i8> [[CHUNK]])		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INTERMEDIATE_VAL]]
; CHECK-ALL-NEXT: ret void		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS]]
		; CHECK-LE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i16
		; CHECK-LE-64-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <2 x i8>
		; CHECK-LE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-LE-64-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-LE-64-NEXT: ret void
		;
		; CHECK-LE-32-LABEL: @load-2byte-chunk-of-8byte-alloca-with-2byte-step(
		; CHECK-LE-32-NEXT: [[INTERMEDIATE:%.*]] = alloca [8 x i8], align 64
		; CHECK-LE-32-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-LE-32-NEXT: store <8 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
		; CHECK-LE-32-NEXT: call void @use.v8i8(<8 x i8> [[INIT]])
		; CHECK-LE-32-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i16, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
		; CHECK-LE-32-NEXT: [[BYTEOFF_NUMBITS:%.*]] = shl nuw nsw i64 [[BYTEOFF]], 4
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL:%.*]] = load <8 x i8>, ptr [[INTERMEDIATE]], align 64
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INTERMEDIATE_VAL]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS]]
		; CHECK-LE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]] to i16
		; CHECK-LE-32-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_EXTRACTED]] to <2 x i8>
		; CHECK-LE-32-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-LE-32-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-LE-32-NEXT: ret void
		;
		; CHECK-BE-64-LABEL: @load-2byte-chunk-of-8byte-alloca-with-2byte-step(
		; CHECK-BE-64-NEXT: [[INTERMEDIATE:%.*]] = alloca [8 x i8], align 64
		; CHECK-BE-64-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-64-NEXT: store <8 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
		; CHECK-BE-64-NEXT: call void @use.v8i8(<8 x i8> [[INIT]])
		; CHECK-BE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i16, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
		; CHECK-BE-64-NEXT: [[BYTEOFF_NUMBITS:%.*]] = shl nuw nsw i64 [[BYTEOFF]], 4
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL:%.*]] = load <8 x i8>, ptr [[INTERMEDIATE]], align 64
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INTERMEDIATE_VAL]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS]]
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 48
		; CHECK-BE-64-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i16
		; CHECK-BE-64-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <2 x i8>
		; CHECK-BE-64-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-BE-64-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-BE-64-NEXT: ret void
		;
		; CHECK-BE-32-LABEL: @load-2byte-chunk-of-8byte-alloca-with-2byte-step(
		; CHECK-BE-32-NEXT: [[INTERMEDIATE:%.*]] = alloca [8 x i8], align 64
		; CHECK-BE-32-NEXT: [[INIT:%.]] = load <8 x i8>, ptr [[SRC:%.]], align 1
		; CHECK-BE-32-NEXT: store <8 x i8> [[INIT]], ptr [[INTERMEDIATE]], align 64
		; CHECK-BE-32-NEXT: call void @use.v8i8(<8 x i8> [[INIT]])
		; CHECK-BE-32-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE]])
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_OFF_ADDR:%.]] = getelementptr inbounds i16, ptr [[INTERMEDIATE]], i64 [[BYTEOFF:%.]]
		; CHECK-BE-32-NEXT: [[BYTEOFF_NUMBITS:%.*]] = shl nuw nsw i64 [[BYTEOFF]], 4
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL:%.*]] = load <8 x i8>, ptr [[INTERMEDIATE]], align 64
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN:%.*]] = freeze <8 x i8> [[INTERMEDIATE_VAL]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS:%.*]] = bitcast <8 x i8> [[INTERMEDIATE_VAL_FROZEN]] to i64
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED:%.*]] = shl i64 [[INTERMEDIATE_VAL_FROZEN_BITS]], [[BYTEOFF_NUMBITS]]
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART:%.*]] = lshr i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED]], 48
		; CHECK-BE-32-NEXT: [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED:%.*]] = trunc i64 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART]] to i16
		; CHECK-BE-32-NEXT: [[TMP1:%.*]] = bitcast i16 [[INTERMEDIATE_VAL_FROZEN_BITS_POSITIONED_PART_EXTRACTED]] to <2 x i8>
		; CHECK-BE-32-NEXT: call void @use.ptr(ptr nonnull [[INTERMEDIATE_OFF_ADDR]])
		; CHECK-BE-32-NEXT: call void @use.v2i8(<2 x i8> [[TMP1]])
		; CHECK-BE-32-NEXT: ret void
;		;
%intermediate = alloca [8 x i8], align 64		%intermediate = alloca [8 x i8], align 64
%init = load <8 x i8>, ptr %src, align 1		%init = load <8 x i8>, ptr %src, align 1
store <8 x i8> %init, ptr %intermediate, align 64		store <8 x i8> %init, ptr %intermediate, align 64
call void @use.v8i8(<8 x i8> %init)		call void @use.v8i8(<8 x i8> %init)
call void @use.ptr(ptr %intermediate)		call void @use.ptr(ptr %intermediate)

%intermediate.off.addr = getelementptr inbounds i16, ptr %intermediate, i64 %byteOff		%intermediate.off.addr = getelementptr inbounds i16, ptr %intermediate, i64 %byteOff
Show All 14 Lines