This is an archive of the discontinued LLVM Phabricator instance.

LoadStoreVectorizer: Split even sized illegal chains properly
ClosedPublic

Authored by arsenm on Feb 6 2017, 6:20 PM.

Download Raw Diff

Details

Reviewers

volkan
• tstellarAMD
escha
arsenm

Summary

Implement isLegalToVectorizeLoadChain for AMDGPU to avoid
producing private address spaces accesses that will need to be
split up later. This was doing the wrong thing in the case
where the queried chain was an even number of elements.

A possible <4 x i32> store was being split into
store <2 x i32>
store i32
store i32

rather than
store <2 x i32>
store <2 x i32>

when legal.

Diff Detail

Event Timeline

arsenm created this revision.Feb 6 2017, 6:20 PM

Herald added a reviewer: • tstellarAMD. · View Herald TranscriptFeb 6 2017, 6:20 PM

Herald added subscribers: tpr, mehdi_amini, nhaehnle and 2 others. · View Herald Transcript

The changes in LoadStoreVectorizer LGTM.

Thanks,
Volkan

lib/Target/AMDGPU/AMDGPUTargetTransformInfo.cpp
132	I think a separate function for this check would be better. You can call that function in isLegalToVectorizeLoadChain and isLegalToVectorizeStoreChain.
137	Typo: legalization

r295933

This revision is now accepted and ready to land.Feb 22 2017, 8:10 PM

arsenm closed this revision.Feb 22 2017, 8:10 PM

Revision Contents

Path

Size

lib/

Target/

AMDGPU/

AMDGPUTargetTransformInfo.h

7 lines

AMDGPUTargetTransformInfo.cpp

19 lines

Transforms/

Vectorize/

LoadStoreVectorizer.cpp

9 lines

test/

Transforms/

LoadStoreVectorizer/

AMDGPU/

adjust-alloca-alignment.ll

5 lines

merge-stores-private.ll

178 lines

Diff 87353

lib/Target/AMDGPU/AMDGPUTargetTransformInfo.h

Show First 20 Lines • Show All 72 Lines • ▼ Show 20 Lines	public:
TTI::PopcntSupportKind getPopcntSupport(unsigned TyWidth) {		TTI::PopcntSupportKind getPopcntSupport(unsigned TyWidth) {
assert(isPowerOf2_32(TyWidth) && "Ty width must be power of 2");		assert(isPowerOf2_32(TyWidth) && "Ty width must be power of 2");
return TTI::PSK_FastHardware;		return TTI::PSK_FastHardware;
}		}

unsigned getNumberOfRegisters(bool Vector);		unsigned getNumberOfRegisters(bool Vector);
unsigned getRegisterBitWidth(bool Vector);		unsigned getRegisterBitWidth(bool Vector);
unsigned getLoadStoreVecRegBitWidth(unsigned AddrSpace) const;		unsigned getLoadStoreVecRegBitWidth(unsigned AddrSpace) const;
		bool isLegalToVectorizeLoadChain(unsigned ChainSizeInBytes,
		unsigned Alignment,
		unsigned AddrSpace) const;
		bool isLegalToVectorizeStoreChain(unsigned ChainSizeInBytes,
		unsigned Alignment,
		unsigned AddrSpace) const;

unsigned getMaxInterleaveFactor(unsigned VF);		unsigned getMaxInterleaveFactor(unsigned VF);

int getArithmeticInstrCost(		int getArithmeticInstrCost(
unsigned Opcode, Type *Ty,		unsigned Opcode, Type *Ty,
TTI::OperandValueKind Opd1Info = TTI::OK_AnyValue,		TTI::OperandValueKind Opd1Info = TTI::OK_AnyValue,
TTI::OperandValueKind Opd2Info = TTI::OK_AnyValue,		TTI::OperandValueKind Opd2Info = TTI::OK_AnyValue,
TTI::OperandValueProperties Opd1PropInfo = TTI::OP_None,		TTI::OperandValueProperties Opd1PropInfo = TTI::OP_None,
TTI::OperandValueProperties Opd2PropInfo = TTI::OP_None,		TTI::OperandValueProperties Opd2PropInfo = TTI::OP_None,
Show All 22 Lines

lib/Target/AMDGPU/AMDGPUTargetTransformInfo.cpp

Show First 20 Lines • Show All 123 Lines • ▼ Show 20 Lines	if (ST->getGeneration() <= AMDGPUSubtarget::NORTHERN_ISLANDS &&
AddrSpace == AMDGPUAS::PARAM_I_ADDRESS \|\|		AddrSpace == AMDGPUAS::PARAM_I_ADDRESS \|\|
(AddrSpace >= AMDGPUAS::CONSTANT_BUFFER_0 &&		(AddrSpace >= AMDGPUAS::CONSTANT_BUFFER_0 &&
AddrSpace <= AMDGPUAS::CONSTANT_BUFFER_15)))		AddrSpace <= AMDGPUAS::CONSTANT_BUFFER_15)))
return 128;		return 128;
llvm_unreachable("unhandled address space");		llvm_unreachable("unhandled address space");
}		}
}		}

		bool AMDGPUTTIImpl::isLegalToVectorizeLoadChain(unsigned ChainSizeInBytes,
		volkanUnsubmitted Done Reply Inline Actions I think a separate function for this check would be better. You can call that function in isLegalToVectorizeLoadChain and isLegalToVectorizeStoreChain. volkan: I think a separate function for this check would be better. You can call that function in…
		unsigned Alignment,
		unsigned AddrSpace) const {
		// We allow vectorization of flat stores, even though we may need to decompose
		// them later if they may access private memory. We don't have enough context
		// here, and leglization can handle it.
		volkanUnsubmitted Done Reply Inline Actions Typo: legalization volkan: Typo: legalization
		if (AddrSpace == AMDGPUAS::PRIVATE_ADDRESS) {
		return (Alignment >= 4 \|\| ST->hasUnalignedScratchAccess()) &&
		ChainSizeInBytes <= ST->getMaxPrivateElementSize();
		}
		return true;
		}

		bool AMDGPUTTIImpl::isLegalToVectorizeStoreChain(unsigned ChainSizeInBytes,
		unsigned Alignment,
		unsigned AddrSpace) const {
		return isLegalToVectorizeLoadChain(ChainSizeInBytes, Alignment, AddrSpace);
		}

unsigned AMDGPUTTIImpl::getMaxInterleaveFactor(unsigned VF) {		unsigned AMDGPUTTIImpl::getMaxInterleaveFactor(unsigned VF) {
// Semi-arbitrary large amount.		// Semi-arbitrary large amount.
return 64;		return 64;
}		}

int AMDGPUTTIImpl::getArithmeticInstrCost(		int AMDGPUTTIImpl::getArithmeticInstrCost(
unsigned Opcode, Type *Ty, TTI::OperandValueKind Opd1Info,		unsigned Opcode, Type *Ty, TTI::OperandValueKind Opd1Info,
TTI::OperandValueKind Opd2Info, TTI::OperandValueProperties Opd1PropInfo,		TTI::OperandValueKind Opd2Info, TTI::OperandValueProperties Opd1PropInfo,
▲ Show 20 Lines • Show All 231 Lines • Show Last 20 Lines

lib/Transforms/Vectorize/LoadStoreVectorizer.cpp

	Show First 20 Lines • Show All 426 Lines • ▼ Show 20 Lines
	}			}

	std::pair<ArrayRef<Instruction >, ArrayRef<Instruction >>			std::pair<ArrayRef<Instruction >, ArrayRef<Instruction >>
	Vectorizer::splitOddVectorElts(ArrayRef<Instruction *> Chain,			Vectorizer::splitOddVectorElts(ArrayRef<Instruction *> Chain,
	unsigned ElementSizeBits) {			unsigned ElementSizeBits) {
	unsigned ElementSizeBytes = ElementSizeBits / 8;			unsigned ElementSizeBytes = ElementSizeBits / 8;
	unsigned SizeBytes = ElementSizeBytes * Chain.size();			unsigned SizeBytes = ElementSizeBytes * Chain.size();
	unsigned NumLeft = (SizeBytes - (SizeBytes % 4)) / ElementSizeBytes;			unsigned NumLeft = (SizeBytes - (SizeBytes % 4)) / ElementSizeBytes;
	if (NumLeft == Chain.size())			if (NumLeft == Chain.size()) {
	--NumLeft;			if ((NumLeft & 1) == 0)
	else if (NumLeft == 0)			NumLeft /= 2; // Split even in half
				else
				--NumLeft; // Split off last element
				} else if (NumLeft == 0)
	NumLeft = 1;			NumLeft = 1;
	return std::make_pair(Chain.slice(0, NumLeft), Chain.slice(NumLeft));			return std::make_pair(Chain.slice(0, NumLeft), Chain.slice(NumLeft));
	}			}

	ArrayRef<Instruction *>			ArrayRef<Instruction *>
	Vectorizer::getVectorizablePrefix(ArrayRef<Instruction *> Chain) {			Vectorizer::getVectorizablePrefix(ArrayRef<Instruction *> Chain) {
	// These are in BB order, unlike Chain, which is in address order.			// These are in BB order, unlike Chain, which is in address order.
	SmallVector<Instruction *, 16> MemoryInstrs;			SmallVector<Instruction *, 16> MemoryInstrs;
	▲ Show 20 Lines • Show All 611 Lines • Show Last 20 Lines

test/Transforms/LoadStoreVectorizer/AMDGPU/adjust-alloca-alignment.ll

	Show First 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	}			}

	; FIXME: Should always increase alignment of the load			; FIXME: Should always increase alignment of the load
	; Make sure alloca alignment isn't decreased			; Make sure alloca alignment isn't decreased
	; ALL-LABEL: @load_alloca16_unknown_offset_align1_i32(			; ALL-LABEL: @load_alloca16_unknown_offset_align1_i32(
	; ALL: alloca [128 x i32], align 16			; ALL: alloca [128 x i32], align 16

	; UNALIGNED: load <2 x i32>, <2 x i32>* %{{[0-9]+}}, align 1{{$}}			; UNALIGNED: load <2 x i32>, <2 x i32>* %{{[0-9]+}}, align 1{{$}}
	; ALIGNED: load <2 x i32>, <2 x i32>* %{{[0-9]+}}, align 4{{$}}
				; FIXME: Should change alignment
				; ALIGNED: load i32
				; ALIGNED: load i32
	define void @load_alloca16_unknown_offset_align1_i32(i32 addrspace(1)* noalias %out, i32 %offset) #0 {			define void @load_alloca16_unknown_offset_align1_i32(i32 addrspace(1)* noalias %out, i32 %offset) #0 {
	%alloca = alloca [128 x i32], align 16			%alloca = alloca [128 x i32], align 16
	%ptr0 = getelementptr inbounds [128 x i32], [128 x i32]* %alloca, i32 0, i32 %offset			%ptr0 = getelementptr inbounds [128 x i32], [128 x i32]* %alloca, i32 0, i32 %offset
	%val0 = load i32, i32* %ptr0, align 1			%val0 = load i32, i32* %ptr0, align 1
	%ptr1 = getelementptr inbounds i32, i32* %ptr0, i32 1			%ptr1 = getelementptr inbounds i32, i32* %ptr0, i32 1
	%val1 = load i32, i32* %ptr1, align 1			%val1 = load i32, i32* %ptr1, align 1
	%add = add i32 %val0, %val1			%add = add i32 %val0, %val1
	store i32 %add, i32 addrspace(1)* %out			store i32 %add, i32 addrspace(1)* %out
	▲ Show 20 Lines • Show All 54 Lines • Show Last 20 Lines

test/Transforms/LoadStoreVectorizer/AMDGPU/merge-stores-private.ll

; RUN: opt -mtriple=amdgcn-amd-amdhsa -mattr=+max-private-element-size-4 -load-store-vectorizer -S -o - %s \| FileCheck -check-prefixes=ELT4,ALIGNED,ALL %s		; RUN: opt -mtriple=amdgcn-amd-amdhsa -mattr=+max-private-element-size-4,-unaligned-scratch-access -load-store-vectorizer -S -o - %s \| FileCheck -check-prefixes=ELT4,ELT4-ALIGNED,ALIGNED,ALL %s
; RUN: opt -mtriple=amdgcn-amd-amdhsa -mattr=+max-private-element-size-8 -load-store-vectorizer -S -o - %s \| FileCheck -check-prefixes=ELT8,ALIGNED,ALL %s		; RUN: opt -mtriple=amdgcn-amd-amdhsa -mattr=+max-private-element-size-8,-unaligned-scratch-access -load-store-vectorizer -S -o - %s \| FileCheck -check-prefixes=ELT8,ELT8-ALIGNED,ALIGNED,ALL %s
; RUN: opt -mtriple=amdgcn-amd-amdhsa -mattr=+max-private-element-size-8,+unaligned-scratch-access -load-store-vectorizer -S -o - %s \| FileCheck -check-prefix=ELT8-UNALIGNED -check-prefix=ALL %s		; RUN: opt -mtriple=amdgcn-amd-amdhsa -mattr=+max-private-element-size-16,-unaligned-scratch-access -load-store-vectorizer -S -o - %s \| FileCheck -check-prefixes=ELT16,ELT16-ALIGNED,ALIGNED,ALL %s
; RUN: opt -mtriple=amdgcn-amd-amdhsa -mattr=+max-private-element-size-16 -load-store-vectorizer -S -o - %s \| FileCheck -check-prefixes=ELT16,ALIGNED,ALL %s		; RUN: opt -mtriple=amdgcn-amd-amdhsa -mattr=+max-private-element-size-4,+unaligned-scratch-access -load-store-vectorizer -S -o - %s \| FileCheck -check-prefixes=ELT4,ELT4-UNALIGNED,UNALIGNED,ALL %s
; RUN: opt -mtriple=amdgcn-amd-amdhsa -mattr=+max-private-element-size-16,+unaligned-scratch-access -load-store-vectorizer -S -o - %s \| FileCheck -check-prefix=ELT16-UNALIGNED -check-prefix=ALL %s		; RUN: opt -mtriple=amdgcn-amd-amdhsa -mattr=+max-private-element-size-8,+unaligned-scratch-access -load-store-vectorizer -S -o - %s \| FileCheck -check-prefixes=ELT8,ELT8-UNALIGNED,UNALIGNED,ALL %s
		; RUN: opt -mtriple=amdgcn-amd-amdhsa -mattr=+max-private-element-size-16,+unaligned-scratch-access -load-store-vectorizer -S -o - %s \| FileCheck -check-prefixes=ELT16,ELT16-UNALIGNED,UNALIGNED,ALL %s

target datalayout = "e-p:32:32-p1:64:64-p2:64:64-p3:32:32-p4:64:64-p5:32:32-p24:64:64-i64:64-v16:16-v24:32-v32:32-v48:64-v96:128-v192:256-v256:256-v512:512-v1024:1024-v2048:2048-n32:64"		target datalayout = "e-p:32:32-p1:64:64-p2:64:64-p3:32:32-p4:64:64-p5:32:32-p24:64:64-i64:64-v16:16-v24:32-v32:32-v48:64-v96:128-v192:256-v256:256-v512:512-v1024:1024-v2048:2048-n32:64"

; ALL-LABEL: @merge_private_store_4_vector_elts_loads_v4i32		; ALL-LABEL: @merge_private_store_4_vector_elts_loads_v4i32
; ELT4: store i32		; ELT4: store i32
; ELT4: store i32		; ELT4: store i32
; ELT4: store i32		; ELT4: store i32
; ELT4: store i32		; ELT4: store i32
Show All 9 Lines	define void @merge_private_store_4_vector_elts_loads_v4i32(i32* %out) #0 {

store i32 9, i32* %out		store i32 9, i32* %out
store i32 1, i32* %out.gep.1		store i32 1, i32* %out.gep.1
store i32 23, i32* %out.gep.2		store i32 23, i32* %out.gep.2
store i32 19, i32* %out.gep.3		store i32 19, i32* %out.gep.3
ret void		ret void
}		}

		; ALL-LABEL: @merge_private_store_4_vector_elts_loads_v4i32_align1(
		; ALIGNED: store i32 9, i32* %out, align 1
		; ALIGNED: store i32 1, i32* %out.gep.1, align 1
		; ALIGNED: store i32 23, i32* %out.gep.2, align 1
		; ALIGNED: store i32 19, i32* %out.gep.3, align 1

		; ELT16-UNALIGNED: store <4 x i32> <i32 9, i32 1, i32 23, i32 19>, <4 x i32>* %1, align 1

		; ELT8-UNALIGNED: store <2 x i32> <i32 9, i32 1>, <2 x i32>* %1, align 1
		; ELT8-UNALIGNED: store <2 x i32> <i32 23, i32 19>, <2 x i32>* %2, align 1

		; ELT4-UNALIGNED: store i32
		; ELT4-UNALIGNED: store i32
		; ELT4-UNALIGNED: store i32
		; ELT4-UNALIGNED: store i32
		define void @merge_private_store_4_vector_elts_loads_v4i32_align1(i32* %out) #0 {
		%out.gep.1 = getelementptr i32, i32* %out, i32 1
		%out.gep.2 = getelementptr i32, i32* %out, i32 2
		%out.gep.3 = getelementptr i32, i32* %out, i32 3

		store i32 9, i32* %out, align 1
		store i32 1, i32* %out.gep.1, align 1
		store i32 23, i32* %out.gep.2, align 1
		store i32 19, i32* %out.gep.3, align 1
		ret void
		}

		; ALL-LABEL: @merge_private_store_4_vector_elts_loads_v4i32_align2(
		; ALIGNED: store i32 9, i32* %out, align 2
		; ALIGNED: store i32 1, i32* %out.gep.1, align 2
		; ALIGNED: store i32 23, i32* %out.gep.2, align 2
		; ALIGNED: store i32 19, i32* %out.gep.3, align 2

		; ELT16-UNALIGNED: store <4 x i32> <i32 9, i32 1, i32 23, i32 19>, <4 x i32>* %1, align 2

		; ELT8-UNALIGNED: store <2 x i32>
		; ELT8-UNALIGNED: store <2 x i32>

		; ELT4-UNALIGNED: store i32
		; ELT4-UNALIGNED: store i32
		; ELT4-UNALIGNED: store i32
		; ELT4-UNALIGNED: store i32
		define void @merge_private_store_4_vector_elts_loads_v4i32_align2(i32* %out) #0 {
		%out.gep.1 = getelementptr i32, i32* %out, i32 1
		%out.gep.2 = getelementptr i32, i32* %out, i32 2
		%out.gep.3 = getelementptr i32, i32* %out, i32 3

		store i32 9, i32* %out, align 2
		store i32 1, i32* %out.gep.1, align 2
		store i32 23, i32* %out.gep.2, align 2
		store i32 19, i32* %out.gep.3, align 2
		ret void
		}

; ALL-LABEL: @merge_private_store_4_vector_elts_loads_v4i8(		; ALL-LABEL: @merge_private_store_4_vector_elts_loads_v4i8(
; ALL: store <4 x i8>		; ALL: store <4 x i8>
define void @merge_private_store_4_vector_elts_loads_v4i8(i8* %out) #0 {		define void @merge_private_store_4_vector_elts_loads_v4i8(i8* %out) #0 {
%out.gep.1 = getelementptr i8, i8* %out, i32 1		%out.gep.1 = getelementptr i8, i8* %out, i32 1
%out.gep.2 = getelementptr i8, i8* %out, i32 2		%out.gep.2 = getelementptr i8, i8* %out, i32 2
%out.gep.3 = getelementptr i8, i8* %out, i32 3		%out.gep.3 = getelementptr i8, i8* %out, i32 3

store i8 9, i8* %out, align 4		store i8 9, i8* %out, align 4
store i8 1, i8* %out.gep.1		store i8 1, i8* %out.gep.1
store i8 23, i8* %out.gep.2		store i8 23, i8* %out.gep.2
store i8 19, i8* %out.gep.3		store i8 19, i8* %out.gep.3
ret void		ret void
}		}

		; ALL-LABEL: @merge_private_store_4_vector_elts_loads_v4i8_align1(
		; ALIGNED: store i8
		; ALIGNED: store i8
		; ALIGNED: store i8
		; ALIGNED: store i8

		; UNALIGNED: store <4 x i8> <i8 9, i8 1, i8 23, i8 19>, <4 x i8>* %1, align 1
		define void @merge_private_store_4_vector_elts_loads_v4i8_align1(i8* %out) #0 {
		%out.gep.1 = getelementptr i8, i8* %out, i32 1
		%out.gep.2 = getelementptr i8, i8* %out, i32 2
		%out.gep.3 = getelementptr i8, i8* %out, i32 3

		store i8 9, i8* %out, align 1
		store i8 1, i8* %out.gep.1, align 1
		store i8 23, i8* %out.gep.2, align 1
		store i8 19, i8* %out.gep.3, align 1
		ret void
		}

; ALL-LABEL: @merge_private_store_4_vector_elts_loads_v2i16(		; ALL-LABEL: @merge_private_store_4_vector_elts_loads_v2i16(
; ALL: store <2 x i16>		; ALL: store <2 x i16>
define void @merge_private_store_4_vector_elts_loads_v2i16(i16* %out) #0 {		define void @merge_private_store_4_vector_elts_loads_v2i16(i16* %out) #0 {
%out.gep.1 = getelementptr i16, i16* %out, i32 1		%out.gep.1 = getelementptr i16, i16* %out, i32 1

store i16 9, i16* %out, align 4		store i16 9, i16* %out, align 4
store i16 12, i16* %out.gep.1		store i16 12, i16* %out.gep.1
ret void		ret void
}		}

		; ALL-LABEL: @merge_private_store_4_vector_elts_loads_v2i16_align2(
		; ALIGNED: store i16
		; ALIGNED: store i16

		; UNALIGNED: store <2 x i16> <i16 9, i16 12>, <2 x i16>* %1, align 2
		define void @merge_private_store_4_vector_elts_loads_v2i16_align2(i16* %out) #0 {
		%out.gep.1 = getelementptr i16, i16* %out, i32 1

		store i16 9, i16* %out, align 2
		store i16 12, i16* %out.gep.1, align 2
		ret void
		}

		; ALL-LABEL: @merge_private_store_4_vector_elts_loads_v2i16_align1(
		; ALIGNED: store i16
		; ALIGNED: store i16

		; UNALIGNED: store <2 x i16> <i16 9, i16 12>, <2 x i16>* %1, align 1
		define void @merge_private_store_4_vector_elts_loads_v2i16_align1(i16* %out) #0 {
		%out.gep.1 = getelementptr i16, i16* %out, i32 1

		store i16 9, i16* %out, align 1
		store i16 12, i16* %out.gep.1, align 1
		ret void
		}

		; ALL-LABEL: @merge_private_store_4_vector_elts_loads_v2i16_align8(
		; ALL: store <2 x i16> <i16 9, i16 12>, <2 x i16>* %1, align 8
		define void @merge_private_store_4_vector_elts_loads_v2i16_align8(i16* %out) #0 {
		%out.gep.1 = getelementptr i16, i16* %out, i32 1

		store i16 9, i16* %out, align 8
		store i16 12, i16* %out.gep.1, align 2
		ret void
		}

		; ALL-LABEL: @merge_private_store_3_vector_elts_loads_v4i32
		; ELT4: store i32
		; ELT4: store i32
		; ELT4: store i32

		; ELT8: store <2 x i32>
		; ELT8: store i32

		; ELT16: store <3 x i32>
		define void @merge_private_store_3_vector_elts_loads_v4i32(i32* %out) #0 {
		%out.gep.1 = getelementptr i32, i32* %out, i32 1
		%out.gep.2 = getelementptr i32, i32* %out, i32 2

		store i32 9, i32* %out
		store i32 1, i32* %out.gep.1
		store i32 23, i32* %out.gep.2
		ret void
		}

		; ALL-LABEL: @merge_private_store_3_vector_elts_loads_v4i32_align1(
		; ALIGNED: store i32
		; ALIGNED: store i32
		; ALIGNED: store i32

		; ELT4-UNALIGNED: store i32
		; ELT4-UNALIGNED: store i32
		; ELT4-UNALIGNED: store i32

		; ELT8-UNALIGNED: store <2 x i32>
		; ELT8-UNALIGNED: store i32

		; ELT16-UNALIGNED: store <3 x i32>
		define void @merge_private_store_3_vector_elts_loads_v4i32_align1(i32* %out) #0 {
		%out.gep.1 = getelementptr i32, i32* %out, i32 1
		%out.gep.2 = getelementptr i32, i32* %out, i32 2

		store i32 9, i32* %out, align 1
		store i32 1, i32* %out.gep.1, align 1
		store i32 23, i32* %out.gep.2, align 1
		ret void
		}

		; ALL-LABEL: @merge_private_store_3_vector_elts_loads_v4i8_align1(
		; ALIGNED: store i8
		; ALIGNED: store i8
		; ALIGNED: store i8

		; UNALIGNED: store <3 x i8>
		define void @merge_private_store_3_vector_elts_loads_v4i8_align1(i8* %out) #0 {
		%out.gep.1 = getelementptr i8, i8* %out, i8 1
		%out.gep.2 = getelementptr i8, i8* %out, i8 2

		store i8 9, i8* %out, align 1
		store i8 1, i8* %out.gep.1, align 1
		store i8 23, i8* %out.gep.2, align 1
		ret void
		}

attributes #0 = { nounwind }		attributes #0 = { nounwind }