This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Target/ARM/
-
Target/
-
ARM/
3/5
ARMInstrMVE.td
-
test/CodeGen/Thumb2/
-
CodeGen/
-
Thumb2/
-
mve-shuffle.ll
-
mve-vld3.ll
-
mve-vst3.ll

Differential D95456

[ARM] i16 insert-of-extract to VINS pattern
ClosedPublic

Authored by dmgreen on Jan 26 2021, 9:56 AM.

Download Raw Diff

Details

Reviewers

SjoerdMeijer
NickGuy
efriedma
ostannard
simon_tatham

Commits

rG1b435eb8f3b7: [ARM] i16 insert-of-extract to VINS pattern

Summary

This adds another tablegen fold that converts an i16 odd-lane-insert of an even-lane-extract into a VINS. We extract the existing f32 value from the destination register and VINS the new value into it. The rest of the backend then is able to optimize the INSERT_SUBREG/COPY_TO_REGCLASS/EXTRACT_SUBREG.

Diff Detail

Event Timeline

dmgreen created this revision.Jan 26 2021, 9:56 AM

Herald added subscribers: danielkiss, hiraditya, kristof.beyls. · View Herald TranscriptJan 26 2021, 9:56 AM

dmgreen requested review of this revision.Jan 26 2021, 9:56 AM

Herald added a project: Restricted Project. · View Herald TranscriptJan 26 2021, 9:56 AM

dmgreen added a parent revision: D95433: [ARM] Mark MVE_VMOV_to_lane_32 as isInsertSubregLike.Jan 26 2021, 9:57 AM

dmgreen added a child revision: D95471: [ARM] VINS f16 pattern.Jan 26 2021, 12:31 PM

ping

simon_tatham added inline comments.Feb 4 2021, 4:56 AM

llvm/lib/Target/ARM/ARMInstrMVE.td
1882	I don't understand this part – if $src1 is already an MQPR, why does it need a COPY_TO_REGCLASS?

dmgreen added inline comments.Feb 4 2021, 11:58 AM

llvm/lib/Target/ARM/ARMInstrMVE.td
1882	Hmm. I added it as a typecast, essentially. Otherwise the INSERT_SUBREG fails to make it through the tablegen type checks. Trying it as `(INSERT_SUBREG (v4f32 MQPR:$src1), ...` gives an error that looks like the insertsubreg has conflicting input types `(INSERT_SUBREG:{ :[v4f32] } MQPR:{ :[] }:$src1`

simon_tatham added inline comments.Feb 5 2021, 1:05 AM

llvm/lib/Target/ARM/ARMInstrMVE.td
1882	Ah, I see – it's not that you needed to convert from MQPR to MQPR, it's just that a side effect of that is that you also get to convert from v8i16 to v4f32, which was what you really needed. In that case, is that implicit conversion from v8i16 to v4f32 acting as a bitcast, or a VECTOR_REG_CAST? Does this pattern do the right thing when tested big-endian?

dmgreen added inline comments.Feb 5 2021, 7:52 AM

llvm/lib/Target/ARM/ARMInstrMVE.td
1882	The COPY machine instruction (which is what a COPY_TO_REGCLASS will eventually turn into) loses any type info so will always act as a VECTOR_REG_CAST. So should be fine in big and little endian - and seems to be OK in my testing.

simon_tatham accepted this revision.Feb 5 2021, 7:55 AM

simon_tatham added inline comments.

llvm/lib/Target/ARM/ARMInstrMVE.td
1882	Fair enough. Thanks for checking.

This revision is now accepted and ready to land.Feb 5 2021, 7:55 AM

Closed by commit rG1b435eb8f3b7: [ARM] i16 insert-of-extract to VINS pattern (authored by dmgreen). · Explain WhyFeb 8 2021, 12:42 AM

This revision was automatically updated to reflect the committed changes.

dmgreen added a commit: rG1b435eb8f3b7: [ARM] i16 insert-of-extract to VINS pattern.

Revision Contents

Path

Size

llvm/

lib/

Target/

ARM/

ARMInstrMVE.td

6 lines

test/

CodeGen/

Thumb2/

mve-shuffle.ll

12 lines

mve-vld3.ll

196 lines

mve-vst3.ll

279 lines

Diff 319325

llvm/lib/Target/ARM/ARMInstrMVE.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 1,871 Lines • ▼ Show 20 Lines	let Predicates = [HasMVEInt] in {
def : Pat<(ARMvgetlanes (v8f16 MQPR:$src), imm:$lane),		def : Pat<(ARMvgetlanes (v8f16 MQPR:$src), imm:$lane),
(MVE_VMOV_from_lane_s16 MQPR:$src, imm:$lane)>;		(MVE_VMOV_from_lane_s16 MQPR:$src, imm:$lane)>;
def : Pat<(ARMvgetlaneu (v16i8 MQPR:$src), imm:$lane),		def : Pat<(ARMvgetlaneu (v16i8 MQPR:$src), imm:$lane),
(MVE_VMOV_from_lane_u8 MQPR:$src, imm:$lane)>;		(MVE_VMOV_from_lane_u8 MQPR:$src, imm:$lane)>;
def : Pat<(ARMvgetlaneu (v8i16 MQPR:$src), imm:$lane),		def : Pat<(ARMvgetlaneu (v8i16 MQPR:$src), imm:$lane),
(MVE_VMOV_from_lane_u16 MQPR:$src, imm:$lane)>;		(MVE_VMOV_from_lane_u16 MQPR:$src, imm:$lane)>;
def : Pat<(ARMvgetlaneu (v8f16 MQPR:$src), imm:$lane),		def : Pat<(ARMvgetlaneu (v8f16 MQPR:$src), imm:$lane),
(MVE_VMOV_from_lane_u16 MQPR:$src, imm:$lane)>;		(MVE_VMOV_from_lane_u16 MQPR:$src, imm:$lane)>;
		// For i16's inserts being extracted from low lanes, then may use VINS.
		def : Pat<(ARMinsertelt (v8i16 MQPR:$src1), (ARMvgetlaneu (v8i16 MQPR:$src2), imm_even:$extlane), imm_odd:$inslane),
		(COPY_TO_REGCLASS (INSERT_SUBREG (v4f32 (COPY_TO_REGCLASS MQPR:$src1, MQPR)),
		simon_tathamUnsubmitted Not Done Reply Inline Actions I don't understand this part – if $src1 is already an MQPR, why does it need a COPY_TO_REGCLASS? simon_tatham: I don't understand this part – if $src1 is already an MQPR, why does it need a COPY_TO_REGCLASS?
		dmgreenAuthorUnsubmitted Done Reply Inline Actions Hmm. I added it as a typecast, essentially. Otherwise the INSERT_SUBREG fails to make it through the tablegen type checks. Trying it as `(INSERT_SUBREG (v4f32 MQPR:$src1), ...` gives an error that looks like the insertsubreg has conflicting input types `(INSERT_SUBREG:{ :[v4f32] } MQPR:{ :[] }:$src1` dmgreen: Hmm. I added it as a typecast, essentially. Otherwise the INSERT_SUBREG fails to make it…
		simon_tathamUnsubmitted Not Done Reply Inline Actions Ah, I see – it's not that you needed to convert from MQPR to MQPR, it's just that a side effect of that is that you also get to convert from v8i16 to v4f32, which was what you really needed. In that case, is that implicit conversion from v8i16 to v4f32 acting as a bitcast, or a VECTOR_REG_CAST? Does this pattern do the right thing when tested big-endian? simon_tatham: Ah, I see – it's not that you needed to convert from MQPR to MQPR, it's just that a side effect…
		dmgreenAuthorUnsubmitted Done Reply Inline Actions The COPY machine instruction (which is what a COPY_TO_REGCLASS will eventually turn into) loses any type info so will always act as a VECTOR_REG_CAST. So should be fine in big and little endian - and seems to be OK in my testing. dmgreen: The COPY machine instruction (which is what a COPY_TO_REGCLASS will eventually turn into) loses…
		simon_tathamUnsubmitted Done Reply Inline Actions Fair enough. Thanks for checking. simon_tatham: Fair enough. Thanks for checking.
		(VINSH (EXTRACT_SUBREG MQPR:$src1, (SSubReg_f16_reg imm_odd:$inslane)),
		(EXTRACT_SUBREG MQPR:$src2, (SSubReg_f16_reg imm_even:$extlane))),
		(SSubReg_f16_reg imm_odd:$inslane)), MQPR)>;

def : Pat<(v16i8 (scalar_to_vector GPR:$src)),		def : Pat<(v16i8 (scalar_to_vector GPR:$src)),
(MVE_VMOV_to_lane_8 (v16i8 (IMPLICIT_DEF)), rGPR:$src, (i32 0))>;		(MVE_VMOV_to_lane_8 (v16i8 (IMPLICIT_DEF)), rGPR:$src, (i32 0))>;
def : Pat<(v8i16 (scalar_to_vector GPR:$src)),		def : Pat<(v8i16 (scalar_to_vector GPR:$src)),
(MVE_VMOV_to_lane_16 (v8i16 (IMPLICIT_DEF)), rGPR:$src, (i32 0))>;		(MVE_VMOV_to_lane_16 (v8i16 (IMPLICIT_DEF)), rGPR:$src, (i32 0))>;
def : Pat<(v4i32 (scalar_to_vector GPR:$src)),		def : Pat<(v4i32 (scalar_to_vector GPR:$src)),
(MVE_VMOV_to_lane_32 (v4i32 (IMPLICIT_DEF)), rGPR:$src, (i32 0))>;		(MVE_VMOV_to_lane_32 (v4i32 (IMPLICIT_DEF)), rGPR:$src, (i32 0))>;

▲ Show 20 Lines • Show All 5,578 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-shuffle.ll

	Show First 20 Lines • Show All 274 Lines • ▼ Show 20 Lines
	entry:			entry:
	%out = shufflevector <8 x i16> %src1, <8 x i16> %src2, <8 x i32> <i32 8, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>			%out = shufflevector <8 x i16> %src1, <8 x i16> %src2, <8 x i32> <i32 8, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
	ret <8 x i16> %out			ret <8 x i16> %out
	}			}

	define arm_aapcs_vfpcc <8 x i16> @oneoff21_i16(<8 x i16> %src1, <8 x i16> %src2) {			define arm_aapcs_vfpcc <8 x i16> @oneoff21_i16(<8 x i16> %src1, <8 x i16> %src2) {
	; CHECK-LABEL: oneoff21_i16:			; CHECK-LABEL: oneoff21_i16:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: vmov.u16 r0, q0[0]			; CHECK-NEXT: vins.f16 s5, s0
	; CHECK-NEXT: vmov.16 q1[3], r0
	; CHECK-NEXT: vmov q0, q1			; CHECK-NEXT: vmov q0, q1
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%out = shufflevector <8 x i16> %src1, <8 x i16> %src2, <8 x i32> <i32 8, i32 9, i32 10, i32 0, i32 12, i32 13, i32 14, i32 15>			%out = shufflevector <8 x i16> %src1, <8 x i16> %src2, <8 x i32> <i32 8, i32 9, i32 10, i32 0, i32 12, i32 13, i32 14, i32 15>
	ret <8 x i16> %out			ret <8 x i16> %out
	}			}

	define arm_aapcs_vfpcc <8 x i16> @oneoff22_i16(<8 x i16> %src1, <8 x i16> %src2) {			define arm_aapcs_vfpcc <8 x i16> @oneoff22_i16(<8 x i16> %src1, <8 x i16> %src2) {
	▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vmov.u16 r0, q1[4]			; CHECK-NEXT: vmov.u16 r0, q1[4]
	; CHECK-NEXT: vmov.16 q3[4], r0			; CHECK-NEXT: vmov.16 q3[4], r0
	; CHECK-NEXT: vmov.u16 r0, q2[2]			; CHECK-NEXT: vmov.u16 r0, q2[2]
	; CHECK-NEXT: vmov.16 q4[6], r0			; CHECK-NEXT: vmov.16 q4[6], r0
	; CHECK-NEXT: vmov.u16 r0, q2[5]			; CHECK-NEXT: vmov.u16 r0, q2[5]
	; CHECK-NEXT: vmov.16 q4[7], r0			; CHECK-NEXT: vmov.16 q4[7], r0
	; CHECK-NEXT: vmov.u16 r0, q1[7]			; CHECK-NEXT: vmov.u16 r0, q1[7]
	; CHECK-NEXT: vmov.16 q3[5], r0			; CHECK-NEXT: vmov.16 q3[5], r0
				; CHECK-NEXT: vmov.u16 r0, q2[4]
				; CHECK-NEXT: vmov.16 q5[6], r0
	; CHECK-NEXT: vmov.u16 r0, q0[2]			; CHECK-NEXT: vmov.u16 r0, q0[2]
	; CHECK-NEXT: vmov.f32 s15, s19			; CHECK-NEXT: vmov.f32 s15, s19
	; CHECK-NEXT: vmov.16 q4[0], r0			; CHECK-NEXT: vmov.16 q4[0], r0
	; CHECK-NEXT: vmov.u16 r0, q0[5]			; CHECK-NEXT: vmov.u16 r0, q0[5]
	; CHECK-NEXT: vmov.16 q4[1], r0			; CHECK-NEXT: vmov.16 q4[1], r0
	; CHECK-NEXT: vmov.u16 r0, q1[0]			; CHECK-NEXT: vmov.u16 r0, q1[0]
	; CHECK-NEXT: vmov.16 q4[2], r0			; CHECK-NEXT: vmov.16 q4[2], r0
	; CHECK-NEXT: vmov.u16 r0, q1[3]			; CHECK-NEXT: vmov.u16 r0, q1[3]
	; CHECK-NEXT: vmov.16 q4[3], r0			; CHECK-NEXT: vmov.16 q4[3], r0
	; CHECK-NEXT: vmov.u16 r0, q2[4]
	; CHECK-NEXT: vmov.16 q5[6], r0
	; CHECK-NEXT: vmov.u16 r0, q2[7]			; CHECK-NEXT: vmov.u16 r0, q2[7]
	; CHECK-NEXT: vmov.16 q5[7], r0			; CHECK-NEXT: vmov.16 q5[7], r0
	; CHECK-NEXT: vmov.f32 s18, s7			; CHECK-NEXT: vmov.f32 s18, s7
	; CHECK-NEXT: vmov.f32 s22, s8			; CHECK-NEXT: vmov.f32 s22, s8
	; CHECK-NEXT: vmov.u16 r0, q2[0]			; CHECK-NEXT: vmov.u16 r0, q1[5]
	; CHECK-NEXT: vmov q6, q5			; CHECK-NEXT: vmov q6, q5
	; CHECK-NEXT: vmovnb.i32 q6, q4			; CHECK-NEXT: vmovnb.i32 q6, q4
	; CHECK-NEXT: vmov.f32 s18, s26			; CHECK-NEXT: vmov.f32 s18, s26
	; CHECK-NEXT: vmov.f32 s19, s23			; CHECK-NEXT: vmov.f32 s19, s23
	; CHECK-NEXT: vmov.16 q5[5], r0			; CHECK-NEXT: vins.f16 s22, s8
	; CHECK-NEXT: vmovx.f16 s23, s9			; CHECK-NEXT: vmovx.f16 s23, s9
	; CHECK-NEXT: vmov.u16 r0, q1[5]
	; CHECK-NEXT: vins.f16 s23, s11			; CHECK-NEXT: vins.f16 s23, s11
	; CHECK-NEXT: vmovx.f16 s8, s0			; CHECK-NEXT: vmovx.f16 s8, s0
	; CHECK-NEXT: vins.f16 s8, s2			; CHECK-NEXT: vins.f16 s8, s2
	; CHECK-NEXT: vmovx.f16 s9, s3			; CHECK-NEXT: vmovx.f16 s9, s3
	; CHECK-NEXT: vmov q0, q5			; CHECK-NEXT: vmov q0, q5
	; CHECK-NEXT: vins.f16 s9, s5			; CHECK-NEXT: vins.f16 s9, s5
	; CHECK-NEXT: vmov.16 q2[4], r0			; CHECK-NEXT: vmov.16 q2[4], r0
	; CHECK-NEXT: vmovnb.i32 q0, q2			; CHECK-NEXT: vmovnb.i32 q0, q2
	▲ Show 20 Lines • Show All 1,429 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vld3.ll

Show First 20 Lines • Show All 282 Lines • ▼ Show 20 Lines	entry:
%a = add <4 x i16> %a1, %s3		%a = add <4 x i16> %a1, %s3
store <4 x i16> %a, <4 x i16> *%dst		store <4 x i16> %a, <4 x i16> *%dst
ret void		ret void
}		}

define void @vld3_v8i16(<24 x i16> %src, <8 x i16> %dst) {		define void @vld3_v8i16(<24 x i16> %src, <8 x i16> %dst) {
; CHECK-LABEL: vld3_v8i16:		; CHECK-LABEL: vld3_v8i16:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9, d10, d11}		; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13}
; CHECK-NEXT: vpush {d8, d9, d10, d11}		; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13}
; CHECK-NEXT: vldrw.u32 q3, [r0]		; CHECK-NEXT: vldrw.u32 q3, [r0]
; CHECK-NEXT: vldrw.u32 q1, [r0, #32]		; CHECK-NEXT: vldrw.u32 q1, [r0, #32]
; CHECK-NEXT: vldrw.u32 q2, [r0, #16]		; CHECK-NEXT: vldrw.u32 q2, [r0, #16]
; CHECK-NEXT: vmov.u16 r0, q3[2]		; CHECK-NEXT: vmov.u16 r0, q3[2]
; CHECK-NEXT: vmov.16 q0[0], r0		; CHECK-NEXT: vmov.16 q0[0], r0
; CHECK-NEXT: vmov.u16 r0, q3[5]		; CHECK-NEXT: vmov.u16 r0, q3[5]
; CHECK-NEXT: vmov.16 q0[1], r0		; CHECK-NEXT: vmov.16 q0[1], r0
; CHECK-NEXT: vmov.u16 r0, q2[0]		; CHECK-NEXT: vmov.u16 r0, q2[0]
; CHECK-NEXT: vmov.16 q0[2], r0		; CHECK-NEXT: vmov.16 q0[2], r0
; CHECK-NEXT: vmov.u16 r0, q2[3]		; CHECK-NEXT: vmov.u16 r0, q2[3]
; CHECK-NEXT: vmov.16 q0[3], r0		; CHECK-NEXT: vmov.16 q0[3], r0
; CHECK-NEXT: vmov.u16 r0, q1[4]		; CHECK-NEXT: vmov.u16 r0, q1[4]
; CHECK-NEXT: vmov.16 q4[6], r0		; CHECK-NEXT: vmov.16 q5[6], r0
; CHECK-NEXT: vmov.u16 r0, q1[7]		; CHECK-NEXT: vmov.u16 r0, q1[7]
; CHECK-NEXT: vmov.16 q4[7], r0		; CHECK-NEXT: vmov.16 q5[7], r0
; CHECK-NEXT: vmov.f32 s2, s11
; CHECK-NEXT: vmov.f32 s18, s4
; CHECK-NEXT: vmov.u16 r0, q3[0]		; CHECK-NEXT: vmov.u16 r0, q3[0]
; CHECK-NEXT: vmov q5, q4
; CHECK-NEXT: vmovnb.i32 q5, q0
; CHECK-NEXT: vmov.f32 s2, s22
; CHECK-NEXT: vmov.f32 s3, s19
; CHECK-NEXT: vmov.16 q4[0], r0		; CHECK-NEXT: vmov.16 q4[0], r0
; CHECK-NEXT: vmov.u16 r0, q3[3]		; CHECK-NEXT: vmov.u16 r0, q3[3]
		; CHECK-NEXT: vmov.f32 s22, s4
; CHECK-NEXT: vmov.16 q4[1], r0		; CHECK-NEXT: vmov.16 q4[1], r0
; CHECK-NEXT: vmov.u16 r0, q3[6]		; CHECK-NEXT: vmov.u16 r0, q3[6]
		; CHECK-NEXT: vmov.f32 s2, s11
		; CHECK-NEXT: vmov q6, q5
; CHECK-NEXT: vmov.16 q4[2], r0		; CHECK-NEXT: vmov.16 q4[2], r0
; CHECK-NEXT: vmov.u16 r0, q2[1]		; CHECK-NEXT: vmov.u16 r0, q2[1]
		; CHECK-NEXT: vmovnb.i32 q6, q0
; CHECK-NEXT: vmov.16 q4[3], r0		; CHECK-NEXT: vmov.16 q4[3], r0
; CHECK-NEXT: vmov.u16 r0, q2[4]		; CHECK-NEXT: vmov.u16 r0, q2[4]
		; CHECK-NEXT: vmov.f32 s2, s26
; CHECK-NEXT: vmov.16 q4[4], r0		; CHECK-NEXT: vmov.16 q4[4], r0
; CHECK-NEXT: vmov.u16 r0, q1[2]		; CHECK-NEXT: vmov.u16 r0, q1[2]
		; CHECK-NEXT: vmov.f32 s3, s23
; CHECK-NEXT: vmov.16 q5[6], r0		; CHECK-NEXT: vmov.16 q5[6], r0
; CHECK-NEXT: vmov.u16 r0, q1[5]		; CHECK-NEXT: vmov.u16 r0, q1[5]
; CHECK-NEXT: vmov.16 q5[7], r0		; CHECK-NEXT: vmov.16 q5[7], r0
; CHECK-NEXT: vmov.u16 r0, q2[7]		; CHECK-NEXT: vmov.u16 r0, q2[7]
; CHECK-NEXT: vmov.16 q4[5], r0		; CHECK-NEXT: vmov.16 q4[5], r0
; CHECK-NEXT: vmov.u16 r0, q2[5]		; CHECK-NEXT: vmov.u16 r0, q2[5]
; CHECK-NEXT: vmov.f32 s19, s23		; CHECK-NEXT: vmov.f32 s19, s23
; CHECK-NEXT: vmovx.f16 s20, s12		; CHECK-NEXT: vmovx.f16 s20, s12
; CHECK-NEXT: vins.f16 s20, s14		; CHECK-NEXT: vins.f16 s20, s14
; CHECK-NEXT: vmovx.f16 s21, s15		; CHECK-NEXT: vmovx.f16 s21, s15
; CHECK-NEXT: vins.f16 s21, s9		; CHECK-NEXT: vins.f16 s21, s9
; CHECK-NEXT: vmov.16 q5[4], r0		; CHECK-NEXT: vins.f16 s10, s4
; CHECK-NEXT: vmov.u16 r0, q1[0]
; CHECK-NEXT: vmov.16 q2[5], r0
; CHECK-NEXT: vmovx.f16 s11, s5		; CHECK-NEXT: vmovx.f16 s11, s5
		; CHECK-NEXT: vmov.16 q5[4], r0
; CHECK-NEXT: vins.f16 s11, s7		; CHECK-NEXT: vins.f16 s11, s7
; CHECK-NEXT: vmov q1, q2		; CHECK-NEXT: vmov q1, q2
; CHECK-NEXT: vmovnb.i32 q1, q5		; CHECK-NEXT: vmovnb.i32 q1, q5
; CHECK-NEXT: vmov.f32 s22, s6		; CHECK-NEXT: vmov.f32 s22, s6
; CHECK-NEXT: vmov.f32 s23, s11		; CHECK-NEXT: vmov.f32 s23, s11
; CHECK-NEXT: vadd.i16 q1, q4, q5		; CHECK-NEXT: vadd.i16 q1, q4, q5
; CHECK-NEXT: vadd.i16 q0, q1, q0		; CHECK-NEXT: vadd.i16 q0, q1, q0
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: vpop {d8, d9, d10, d11}		; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%l1 = load <24 x i16>, <24 x i16>* %src, align 4		%l1 = load <24 x i16>, <24 x i16>* %src, align 4
%s1 = shufflevector <24 x i16> %l1, <24 x i16> undef, <8 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21>		%s1 = shufflevector <24 x i16> %l1, <24 x i16> undef, <8 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21>
%s2 = shufflevector <24 x i16> %l1, <24 x i16> undef, <8 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22>		%s2 = shufflevector <24 x i16> %l1, <24 x i16> undef, <8 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22>
%s3 = shufflevector <24 x i16> %l1, <24 x i16> undef, <8 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23>		%s3 = shufflevector <24 x i16> %l1, <24 x i16> undef, <8 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23>
%a1 = add <8 x i16> %s1, %s2		%a1 = add <8 x i16> %s1, %s2
%a = add <8 x i16> %a1, %s3		%a = add <8 x i16> %a1, %s3
store <8 x i16> %a, <8 x i16> *%dst		store <8 x i16> %a, <8 x i16> *%dst
ret void		ret void
}		}

define void @vld3_v16i16(<48 x i16> %src, <16 x i16> %dst) {		define void @vld3_v16i16(<48 x i16> %src, <16 x i16> %dst) {
; CHECK-LABEL: vld3_v16i16:		; CHECK-LABEL: vld3_v16i16:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: .pad #32		; CHECK-NEXT: .pad #16
; CHECK-NEXT: sub sp, #32		; CHECK-NEXT: sub sp, #16
; CHECK-NEXT: vldrw.u32 q3, [r0, #48]		; CHECK-NEXT: vldrw.u32 q2, [r0, #48]
; CHECK-NEXT: vldrw.u32 q2, [r0, #64]		; CHECK-NEXT: vldrw.u32 q1, [r0, #64]
; CHECK-NEXT: vldrw.u32 q5, [r0, #80]		; CHECK-NEXT: vldrw.u32 q3, [r0, #80]
; CHECK-NEXT: vldrw.u32 q0, [r0, #16]
; CHECK-NEXT: vmov.u16 r2, q3[2]
; CHECK-NEXT: vmov.16 q1[0], r2
; CHECK-NEXT: vmov.u16 r2, q3[5]
; CHECK-NEXT: vmov.16 q1[1], r2
; CHECK-NEXT: vmov.u16 r2, q2[0]		; CHECK-NEXT: vmov.u16 r2, q2[0]
; CHECK-NEXT: vmov.16 q1[2], r2		; CHECK-NEXT: vmov.16 q0[0], r2
; CHECK-NEXT: vmov.u16 r2, q2[3]		; CHECK-NEXT: vmov.u16 r2, q2[3]
; CHECK-NEXT: vmov.16 q1[3], r2		; CHECK-NEXT: vmov.16 q0[1], r2
; CHECK-NEXT: vmov.u16 r2, q5[4]		; CHECK-NEXT: vmov.u16 r2, q2[6]
; CHECK-NEXT: vmov.16 q6[6], r2		; CHECK-NEXT: vmov.16 q0[2], r2
; CHECK-NEXT: vmov.u16 r2, q5[7]		; CHECK-NEXT: vmov.u16 r2, q1[1]
; CHECK-NEXT: vmov.16 q6[7], r2		; CHECK-NEXT: vmov.16 q0[3], r2
; CHECK-NEXT: vmov.u16 r2, q3[0]		; CHECK-NEXT: vmov.u16 r2, q1[4]
		; CHECK-NEXT: vmov.16 q0[4], r2
		; CHECK-NEXT: vmov.u16 r2, q3[2]
		; CHECK-NEXT: vmov.16 q4[6], r2
		; CHECK-NEXT: vmov.u16 r2, q3[5]
		; CHECK-NEXT: vmov.16 q4[7], r2
		; CHECK-NEXT: vmov.u16 r2, q1[7]
		; CHECK-NEXT: vmov.16 q0[5], r2
		; CHECK-NEXT: vmov.u16 r2, q3[4]
		; CHECK-NEXT: vmov.16 q5[6], r2
		; CHECK-NEXT: vmov.u16 r2, q2[2]
		; CHECK-NEXT: vmov.f32 s3, s19
; CHECK-NEXT: vmov.16 q4[0], r2		; CHECK-NEXT: vmov.16 q4[0], r2
; CHECK-NEXT: vmov.u16 r2, q3[3]		; CHECK-NEXT: vmov.u16 r2, q2[5]
; CHECK-NEXT: vmov.16 q4[1], r2		; CHECK-NEXT: vmov.16 q4[1], r2
; CHECK-NEXT: vmov.u16 r2, q3[6]		; CHECK-NEXT: vmov.u16 r2, q1[0]
; CHECK-NEXT: vmov.16 q4[2], r2		; CHECK-NEXT: vmov.16 q4[2], r2
; CHECK-NEXT: vmov.u16 r2, q2[1]		; CHECK-NEXT: vmov.u16 r2, q1[3]
; CHECK-NEXT: vmov.16 q4[3], r2		; CHECK-NEXT: vmov.16 q4[3], r2
; CHECK-NEXT: vmov.u16 r2, q2[4]		; CHECK-NEXT: vmov.u16 r2, q3[7]
; CHECK-NEXT: vmov.f32 s26, s20		; CHECK-NEXT: vmov.16 q5[7], r2
; CHECK-NEXT: vmov.16 q4[4], r2		; CHECK-NEXT: vmov.f32 s18, s7
; CHECK-NEXT: vmov.u16 r2, q5[2]		; CHECK-NEXT: vmov.f32 s22, s12
; CHECK-NEXT: vstrw.32 q0, [sp, #16] @ 16-byte Spill		; CHECK-NEXT: vmov.u16 r2, q1[5]
; CHECK-NEXT: vmov.16 q0[6], r2		; CHECK-NEXT: vmov q6, q5
; CHECK-NEXT: vmov.u16 r2, q5[5]		; CHECK-NEXT: vmovnb.i32 q6, q4
; CHECK-NEXT: vmov.f32 s6, s11		; CHECK-NEXT: vmov.f32 s18, s26
; CHECK-NEXT: vmov q7, q6		; CHECK-NEXT: vmov.f32 s19, s23
; CHECK-NEXT: vmovnb.i32 q7, q1		; CHECK-NEXT: vins.f16 s22, s12
; CHECK-NEXT: vmov.16 q0[7], r2		; CHECK-NEXT: vmovx.f16 s23, s13
; CHECK-NEXT: vmov.u16 r2, q2[7]		; CHECK-NEXT: vins.f16 s23, s15
; CHECK-NEXT: vmov.f32 s6, s30		; CHECK-NEXT: vmovx.f16 s12, s8
; CHECK-NEXT: vmov.16 q4[5], r2		; CHECK-NEXT: vins.f16 s12, s10
; CHECK-NEXT: vmov.u16 r2, q5[0]		; CHECK-NEXT: vmovx.f16 s13, s11
; CHECK-NEXT: vmov.f32 s7, s27		; CHECK-NEXT: vldrw.u32 q2, [r0, #16]
; CHECK-NEXT: vmov.16 q6[5], r2		; CHECK-NEXT: vins.f16 s13, s5
; CHECK-NEXT: vmovx.f16 s27, s21		; CHECK-NEXT: vmov q1, q5
; CHECK-NEXT: vmov.u16 r2, q2[5]		; CHECK-NEXT: vmov.16 q3[4], r2
; CHECK-NEXT: vins.f16 s27, s23		; CHECK-NEXT: vmovnb.i32 q1, q3
; CHECK-NEXT: vmovx.f16 s20, s12		; CHECK-NEXT: vmov.f32 s14, s6
; CHECK-NEXT: vins.f16 s20, s14		; CHECK-NEXT: vmov.f32 s15, s23
; CHECK-NEXT: vmov.f32 s19, s3
; CHECK-NEXT: vmovx.f16 s21, s15
; CHECK-NEXT: vmov q0, q6
; CHECK-NEXT: vins.f16 s21, s9
; CHECK-NEXT: vldrw.u32 q3, [r0]
; CHECK-NEXT: vmov.16 q5[4], r2
; CHECK-NEXT: vmovnb.i32 q0, q5
; CHECK-NEXT: vmov.u16 r2, q3[2]
; CHECK-NEXT: vmov.f32 s22, s2
; CHECK-NEXT: vmov.16 q2[0], r2
; CHECK-NEXT: vmov.f32 s23, s27
; CHECK-NEXT: vmov.u16 r2, q3[5]
; CHECK-NEXT: vadd.i16 q0, q4, q5
; CHECK-NEXT: vldrw.u32 q5, [r0, #32]		; CHECK-NEXT: vldrw.u32 q5, [r0, #32]
; CHECK-NEXT: vadd.i16 q0, q0, q1		; CHECK-NEXT: vadd.i16 q0, q0, q3
; CHECK-NEXT: vldrw.u32 q1, [sp, #16] @ 16-byte Reload		; CHECK-NEXT: vldrw.u32 q3, [r0]
; CHECK-NEXT: vmov.u16 r0, q5[4]		; CHECK-NEXT: vmov.u16 r0, q5[4]
; CHECK-NEXT: vmov.16 q2[1], r2		; CHECK-NEXT: vadd.i16 q0, q0, q4
		; CHECK-NEXT: vmov.u16 r2, q3[2]
; CHECK-NEXT: vmov.16 q6[6], r0		; CHECK-NEXT: vmov.16 q6[6], r0
		; CHECK-NEXT: vmov.16 q1[0], r2
		; CHECK-NEXT: vmov.u16 r2, q3[5]
		; CHECK-NEXT: vmov.16 q1[1], r2
		; CHECK-NEXT: vmov.u16 r2, q2[0]
; CHECK-NEXT: vmov.u16 r0, q5[7]		; CHECK-NEXT: vmov.u16 r0, q5[7]
		; CHECK-NEXT: vmov.16 q1[2], r2
; CHECK-NEXT: vmov.16 q6[7], r0		; CHECK-NEXT: vmov.16 q6[7], r0
		; CHECK-NEXT: vmov.u16 r2, q2[3]
		; CHECK-NEXT: vmov.16 q1[3], r2
		; CHECK-NEXT: vmov.f32 s26, s20
; CHECK-NEXT: vmov.u16 r0, q3[0]		; CHECK-NEXT: vmov.u16 r0, q3[0]
		; CHECK-NEXT: vmov.f32 s6, s11
		; CHECK-NEXT: vmov q7, q6
; CHECK-NEXT: vmov.16 q4[0], r0		; CHECK-NEXT: vmov.16 q4[0], r0
; CHECK-NEXT: vmov.u16 r0, q3[3]		; CHECK-NEXT: vmov.u16 r0, q3[3]
		; CHECK-NEXT: vmovnb.i32 q7, q1
; CHECK-NEXT: vmov.16 q4[1], r0		; CHECK-NEXT: vmov.16 q4[1], r0
; CHECK-NEXT: vmov.u16 r0, q3[6]		; CHECK-NEXT: vmov.u16 r0, q3[6]
; CHECK-NEXT: vmov.u16 r2, q1[0]		; CHECK-NEXT: vmov.f32 s6, s30
; CHECK-NEXT: vmov.16 q4[2], r0		; CHECK-NEXT: vmov.16 q4[2], r0
; CHECK-NEXT: vmov.u16 r0, q1[1]		; CHECK-NEXT: vmov.u16 r0, q2[1]
; CHECK-NEXT: vmov.16 q2[2], r2		; CHECK-NEXT: vmov.f32 s7, s27
; CHECK-NEXT: vmov.u16 r2, q1[3]		; CHECK-NEXT: vins.f16 s26, s20
; CHECK-NEXT: vmov.16 q4[3], r0		; CHECK-NEXT: vmov.16 q4[3], r0
; CHECK-NEXT: vmov.u16 r0, q1[4]		; CHECK-NEXT: vmov.u16 r0, q2[4]
; CHECK-NEXT: vmov.16 q2[3], r2		; CHECK-NEXT: vmovx.f16 s27, s21
; CHECK-NEXT: vmov.f32 s26, s20
; CHECK-NEXT: vmov.16 q4[4], r0		; CHECK-NEXT: vmov.16 q4[4], r0
; CHECK-NEXT: vmov.u16 r0, q5[2]		; CHECK-NEXT: vmov.u16 r0, q5[2]
; CHECK-NEXT: vstrw.32 q0, [sp] @ 16-byte Spill		; CHECK-NEXT: vstrw.32 q0, [sp] @ 16-byte Spill
; CHECK-NEXT: vmov.16 q0[6], r0		; CHECK-NEXT: vmov.16 q0[6], r0
; CHECK-NEXT: vmov.u16 r0, q5[5]		; CHECK-NEXT: vmov.u16 r0, q5[5]
; CHECK-NEXT: vmov.f32 s10, s7
; CHECK-NEXT: vmov q7, q6
; CHECK-NEXT: vmovnb.i32 q7, q2
; CHECK-NEXT: vmov.16 q0[7], r0
; CHECK-NEXT: vmov.u16 r0, q1[7]
; CHECK-NEXT: vmov.f32 s10, s30
; CHECK-NEXT: vmov.16 q4[5], r0
; CHECK-NEXT: vmov.u16 r0, q5[0]
; CHECK-NEXT: vmov.f32 s11, s27
; CHECK-NEXT: vmov.16 q6[5], r0
; CHECK-NEXT: vmovx.f16 s27, s21
; CHECK-NEXT: vmov.u16 r0, q1[5]
; CHECK-NEXT: vins.f16 s27, s23		; CHECK-NEXT: vins.f16 s27, s23
; CHECK-NEXT: vmovx.f16 s20, s12		; CHECK-NEXT: vmovx.f16 s20, s12
		; CHECK-NEXT: vmov.16 q0[7], r0
; CHECK-NEXT: vins.f16 s20, s14		; CHECK-NEXT: vins.f16 s20, s14
; CHECK-NEXT: vmov.f32 s19, s3		; CHECK-NEXT: vmov.u16 r0, q2[7]
; CHECK-NEXT: vmovx.f16 s21, s15		; CHECK-NEXT: vmovx.f16 s21, s15
; CHECK-NEXT: vmov q0, q6		; CHECK-NEXT: vmov.16 q4[5], r0
; CHECK-NEXT: vins.f16 s21, s5		; CHECK-NEXT: vins.f16 s21, s9
; CHECK-NEXT: vldrw.u32 q1, [sp] @ 16-byte Reload		; CHECK-NEXT: vmov.u16 r0, q2[5]
		; CHECK-NEXT: vmov.f32 s19, s3
; CHECK-NEXT: vmov.16 q5[4], r0		; CHECK-NEXT: vmov.16 q5[4], r0
		; CHECK-NEXT: vmov q0, q6
; CHECK-NEXT: vmovnb.i32 q0, q5		; CHECK-NEXT: vmovnb.i32 q0, q5
; CHECK-NEXT: vstrw.32 q1, [r1, #16]
; CHECK-NEXT: vmov.f32 s22, s2		; CHECK-NEXT: vmov.f32 s22, s2
; CHECK-NEXT: vmov.f32 s23, s27		; CHECK-NEXT: vmov.f32 s23, s27
; CHECK-NEXT: vadd.i16 q0, q4, q5		; CHECK-NEXT: vadd.i16 q0, q4, q5
; CHECK-NEXT: vadd.i16 q0, q0, q2		; CHECK-NEXT: vadd.i16 q0, q0, q1
		; CHECK-NEXT: vldrw.u32 q1, [sp] @ 16-byte Reload
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: add sp, #32		; CHECK-NEXT: vstrw.32 q1, [r1, #16]
		; CHECK-NEXT: add sp, #16
; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%l1 = load <48 x i16>, <48 x i16>* %src, align 4		%l1 = load <48 x i16>, <48 x i16>* %src, align 4
%s1 = shufflevector <48 x i16> %l1, <48 x i16> undef, <16 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21, i32 24, i32 27, i32 30, i32 33, i32 36, i32 39, i32 42, i32 45>		%s1 = shufflevector <48 x i16> %l1, <48 x i16> undef, <16 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21, i32 24, i32 27, i32 30, i32 33, i32 36, i32 39, i32 42, i32 45>
%s2 = shufflevector <48 x i16> %l1, <48 x i16> undef, <16 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22, i32 25, i32 28, i32 31, i32 34, i32 37, i32 40, i32 43, i32 46>		%s2 = shufflevector <48 x i16> %l1, <48 x i16> undef, <16 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22, i32 25, i32 28, i32 31, i32 34, i32 37, i32 40, i32 43, i32 46>
%s3 = shufflevector <48 x i16> %l1, <48 x i16> undef, <16 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23, i32 26, i32 29, i32 32, i32 35, i32 38, i32 41, i32 44, i32 47>		%s3 = shufflevector <48 x i16> %l1, <48 x i16> undef, <16 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23, i32 26, i32 29, i32 32, i32 35, i32 38, i32 41, i32 44, i32 47>
%a1 = add <16 x i16> %s1, %s2		%a1 = add <16 x i16> %s1, %s2
▲ Show 20 Lines • Show All 94 Lines • ▼ Show 20 Lines
; CHECK-NEXT: vmov.u8 r0, q1[4]		; CHECK-NEXT: vmov.u8 r0, q1[4]
; CHECK-NEXT: vmov.16 q2[1], r0		; CHECK-NEXT: vmov.16 q2[1], r0
; CHECK-NEXT: vmov.u8 r0, q1[7]		; CHECK-NEXT: vmov.u8 r0, q1[7]
; CHECK-NEXT: vmov.16 q2[2], r0		; CHECK-NEXT: vmov.16 q2[2], r0
; CHECK-NEXT: vmov.u8 r0, q1[10]		; CHECK-NEXT: vmov.u8 r0, q1[10]
; CHECK-NEXT: vmov.16 q2[3], r0		; CHECK-NEXT: vmov.16 q2[3], r0
; CHECK-NEXT: vmov.u8 r0, q1[13]		; CHECK-NEXT: vmov.u8 r0, q1[13]
; CHECK-NEXT: vmov.16 q2[4], r0		; CHECK-NEXT: vmov.16 q2[4], r0
; CHECK-NEXT: vmov.u16 r0, q0[0]
; CHECK-NEXT: vmov.16 q2[5], r0
; CHECK-NEXT: vmov.u8 r0, q1[0]		; CHECK-NEXT: vmov.u8 r0, q1[0]
; CHECK-NEXT: vmov.16 q3[0], r0		; CHECK-NEXT: vmov.16 q3[0], r0
; CHECK-NEXT: vmov.u8 r0, q1[3]		; CHECK-NEXT: vmov.u8 r0, q1[3]
; CHECK-NEXT: vmov.16 q3[1], r0		; CHECK-NEXT: vmov.16 q3[1], r0
; CHECK-NEXT: vmov.u8 r0, q1[6]		; CHECK-NEXT: vmov.u8 r0, q1[6]
; CHECK-NEXT: vmov.16 q3[2], r0		; CHECK-NEXT: vmov.16 q3[2], r0
; CHECK-NEXT: vmov.u8 r0, q1[9]		; CHECK-NEXT: vmov.u8 r0, q1[9]
; CHECK-NEXT: vmov.16 q3[3], r0		; CHECK-NEXT: vmov.16 q3[3], r0
; CHECK-NEXT: vmov.u8 r0, q1[12]		; CHECK-NEXT: vmov.u8 r0, q1[12]
; CHECK-NEXT: vmov.16 q3[4], r0		; CHECK-NEXT: vmov.16 q3[4], r0
; CHECK-NEXT: vmov.u8 r0, q1[15]		; CHECK-NEXT: vmov.u8 r0, q1[15]
		; CHECK-NEXT: vins.f16 s10, s0
; CHECK-NEXT: vmov.16 q3[5], r0		; CHECK-NEXT: vmov.16 q3[5], r0
; CHECK-NEXT: vmov.u16 r0, q0[2]		; CHECK-NEXT: vmov.u16 r0, q0[2]
; CHECK-NEXT: vmovx.f16 s11, s1		; CHECK-NEXT: vmovx.f16 s11, s1
; CHECK-NEXT: vmov.16 q3[6], r0		; CHECK-NEXT: vmov.16 q3[6], r0
; CHECK-NEXT: vmov.u16 r0, q0[5]		; CHECK-NEXT: vmov.u16 r0, q0[5]
; CHECK-NEXT: vins.f16 s11, s3
; CHECK-NEXT: vmov.16 q3[7], r0		; CHECK-NEXT: vmov.16 q3[7], r0
		; CHECK-NEXT: vins.f16 s11, s3
; CHECK-NEXT: vmov.u8 r0, q1[2]		; CHECK-NEXT: vmov.u8 r0, q1[2]
; CHECK-NEXT: vadd.i16 q2, q3, q2		; CHECK-NEXT: vadd.i16 q2, q3, q2
; CHECK-NEXT: vmov.16 q3[0], r0		; CHECK-NEXT: vmov.16 q3[0], r0
; CHECK-NEXT: vmov.u8 r0, q1[5]		; CHECK-NEXT: vmov.u8 r0, q1[5]
; CHECK-NEXT: vmov.16 q3[1], r0		; CHECK-NEXT: vmov.16 q3[1], r0
; CHECK-NEXT: vmov.u8 r0, q1[8]		; CHECK-NEXT: vmov.u8 r0, q1[8]
; CHECK-NEXT: vmov.16 q3[2], r0		; CHECK-NEXT: vmov.16 q3[2], r0
; CHECK-NEXT: vmov.u8 r0, q1[11]		; CHECK-NEXT: vmov.u8 r0, q1[11]
▲ Show 20 Lines • Show All 845 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vst3.ll

	Show First 20 Lines • Show All 367 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vmov.16 q5[3], r2			; CHECK-NEXT: vmov.16 q5[3], r2
	; CHECK-NEXT: vmov.16 q5[4], r0			; CHECK-NEXT: vmov.16 q5[4], r0
	; CHECK-NEXT: vmov.u16 r0, q4[5]			; CHECK-NEXT: vmov.u16 r0, q4[5]
	; CHECK-NEXT: vmov.16 q5[5], r0			; CHECK-NEXT: vmov.16 q5[5], r0
	; CHECK-NEXT: vmov.u16 r0, q1[5]			; CHECK-NEXT: vmov.u16 r0, q1[5]
	; CHECK-NEXT: vmov.16 q4[0], r0			; CHECK-NEXT: vmov.16 q4[0], r0
	; CHECK-NEXT: vmov.u16 r0, q3[5]			; CHECK-NEXT: vmov.u16 r0, q3[5]
	; CHECK-NEXT: vmov.16 q4[1], r0			; CHECK-NEXT: vmov.16 q4[1], r0
	; CHECK-NEXT: vmov.u16 r0, q1[6]
	; CHECK-NEXT: vmov.f32 s1, s21			; CHECK-NEXT: vmov.f32 s1, s21
	; CHECK-NEXT: vmov.16 q4[3], r0			; CHECK-NEXT: vins.f16 s17, s7
	; CHECK-NEXT: vmov.u16 r0, q1[7]			; CHECK-NEXT: vmov.u16 r0, q1[7]
	; CHECK-NEXT: vmov.f32 s2, s22			; CHECK-NEXT: vmov.f32 s2, s22
	; CHECK-NEXT: vmov.f32 s21, s11
	; CHECK-NEXT: vmov.16 q4[6], r0			; CHECK-NEXT: vmov.16 q4[6], r0
				; CHECK-NEXT: vmov.f32 s21, s11
	; CHECK-NEXT: vmov.u16 r0, q3[7]			; CHECK-NEXT: vmov.u16 r0, q3[7]
	; CHECK-NEXT: vmov.f32 s22, s11
	; CHECK-NEXT: vmov.16 q4[7], r0			; CHECK-NEXT: vmov.16 q4[7], r0
	; CHECK-NEXT: vmov.u16 r2, q5[2]			; CHECK-NEXT: vmov.f32 s22, s11
	; CHECK-NEXT: vmov.f32 s18, s15			; CHECK-NEXT: vmov.f32 s18, s15
	; CHECK-NEXT: vmov.16 q6[2], r2			; CHECK-NEXT: vmov.u16 r2, q5[2]
	; CHECK-NEXT: vmov.u16 r0, q4[3]			; CHECK-NEXT: vmov.u16 r0, q4[3]
	; CHECK-NEXT: vrev32.16 q1, q1			; CHECK-NEXT: vmov.16 q6[2], r2
	; CHECK-NEXT: vmov.16 q6[3], r0			; CHECK-NEXT: vmov.16 q6[3], r0
	; CHECK-NEXT: vmov.u16 r0, q4[4]			; CHECK-NEXT: vmov.u16 r0, q4[4]
	; CHECK-NEXT: vmov.16 q6[4], r0			; CHECK-NEXT: vmov.16 q6[4], r0
	; CHECK-NEXT: vmov.u16 r0, q5[5]			; CHECK-NEXT: vmov.u16 r0, q5[5]
	; CHECK-NEXT: vmov.16 q6[5], r0			; CHECK-NEXT: vmov.16 q6[5], r0
	; CHECK-NEXT: vmov.u16 r0, q3[2]			; CHECK-NEXT: vmov.u16 r0, q3[2]
	; CHECK-NEXT: vmov.16 q5[0], r0			; CHECK-NEXT: vmov.16 q5[0], r0
	; CHECK-NEXT: vmov.u16 r0, q2[3]			; CHECK-NEXT: vmov.u16 r0, q2[3]
	; CHECK-NEXT: vmov.16 q5[1], r0			; CHECK-NEXT: vmov.16 q5[1], r0
	; CHECK-NEXT: vmov.u16 r0, q3[4]			; CHECK-NEXT: vmov.u16 r0, q3[4]
	; CHECK-NEXT: vmov.16 q5[6], r0			; CHECK-NEXT: vmov.16 q5[6], r0
	; CHECK-NEXT: vmov.u16 r0, q2[5]			; CHECK-NEXT: vmov.u16 r0, q2[5]
	; CHECK-NEXT: vmov.16 q5[7], r0			; CHECK-NEXT: vmov.16 q5[7], r0
	; CHECK-NEXT: vmov.u16 r2, q1[2]			; CHECK-NEXT: vrev32.16 q1, q1
	; CHECK-NEXT: vmov.f32 s21, s13			; CHECK-NEXT: vmov.f32 s21, s13
	; CHECK-NEXT: vstrw.32 q0, [r1]			; CHECK-NEXT: vmov.u16 r2, q1[2]
	; CHECK-NEXT: vmov.f32 s22, s10			; CHECK-NEXT: vmov.f32 s22, s10
	; CHECK-NEXT: vmov.16 q2[2], r2			; CHECK-NEXT: vmov.16 q2[2], r2
	; CHECK-NEXT: vmov.u16 r0, q5[3]			; CHECK-NEXT: vmov.u16 r0, q5[3]
	; CHECK-NEXT: vmov.f32 s17, s25			; CHECK-NEXT: vmov.f32 s17, s25
	; CHECK-NEXT: vmov.16 q2[3], r0			; CHECK-NEXT: vmov.16 q2[3], r0
	; CHECK-NEXT: vmov.u16 r0, q5[4]			; CHECK-NEXT: vmov.u16 r0, q5[4]
	; CHECK-NEXT: vmov.16 q2[4], r0			; CHECK-NEXT: vmov.16 q2[4], r0
	; CHECK-NEXT: vmov.u16 r0, q1[5]			; CHECK-NEXT: vmov.u16 r0, q1[5]
	; CHECK-NEXT: vmov.16 q2[5], r0			; CHECK-NEXT: vmov.16 q2[5], r0
	; CHECK-NEXT: vmov.f32 s18, s26			; CHECK-NEXT: vmov.f32 s18, s26
	; CHECK-NEXT: vmov.f32 s21, s9			; CHECK-NEXT: vmov.f32 s21, s9
	; CHECK-NEXT: vstrw.32 q4, [r1, #32]			; CHECK-NEXT: vstrw.32 q4, [r1, #32]
	; CHECK-NEXT: vmov.f32 s22, s10			; CHECK-NEXT: vmov.f32 s22, s10
				; CHECK-NEXT: vstrw.32 q0, [r1]
	; CHECK-NEXT: vstrw.32 q5, [r1, #16]			; CHECK-NEXT: vstrw.32 q5, [r1, #16]
	; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13}			; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13}
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%s1 = getelementptr <8 x i16>, <8 x i16>* %src, i32 0			%s1 = getelementptr <8 x i16>, <8 x i16>* %src, i32 0
	%l1 = load <8 x i16>, <8 x i16>* %s1, align 4			%l1 = load <8 x i16>, <8 x i16>* %s1, align 4
	%s2 = getelementptr <8 x i16>, <8 x i16>* %src, i32 1			%s2 = getelementptr <8 x i16>, <8 x i16>* %src, i32 1
	%l2 = load <8 x i16>, <8 x i16>* %s2, align 4			%l2 = load <8 x i16>, <8 x i16>* %s2, align 4
	%s3 = getelementptr <8 x i16>, <8 x i16>* %src, i32 2			%s3 = getelementptr <8 x i16>, <8 x i16>* %src, i32 2
	%l3 = load <8 x i16>, <8 x i16>* %s3, align 4			%l3 = load <8 x i16>, <8 x i16>* %s3, align 4
	%t1 = shufflevector <8 x i16> %l1, <8 x i16> %l2, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>			%t1 = shufflevector <8 x i16> %l1, <8 x i16> %l2, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
	%t2 = shufflevector <8 x i16> %l3, <8 x i16> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%t2 = shufflevector <8 x i16> %l3, <8 x i16> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%s = shufflevector <16 x i16> %t1, <16 x i16> %t2, <24 x i32> <i32 0, i32 8, i32 16, i32 1, i32 9, i32 17, i32 2, i32 10, i32 18, i32 3, i32 11, i32 19, i32 4, i32 12, i32 20, i32 5, i32 13, i32 21, i32 6, i32 14, i32 22, i32 7, i32 15, i32 23>			%s = shufflevector <16 x i16> %t1, <16 x i16> %t2, <24 x i32> <i32 0, i32 8, i32 16, i32 1, i32 9, i32 17, i32 2, i32 10, i32 18, i32 3, i32 11, i32 19, i32 4, i32 12, i32 20, i32 5, i32 13, i32 21, i32 6, i32 14, i32 22, i32 7, i32 15, i32 23>
	store <24 x i16> %s, <24 x i16> *%dst			store <24 x i16> %s, <24 x i16> *%dst
	ret void			ret void
	}			}

	define void @vst3_v16i16(<16 x i16> %src, <48 x i16> %dst) {			define void @vst3_v16i16(<16 x i16> %src, <48 x i16> %dst) {
	; CHECK-LABEL: vst3_v16i16:			; CHECK-LABEL: vst3_v16i16:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}			; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}
	; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}			; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}
	; CHECK-NEXT: .pad #80			; CHECK-NEXT: .pad #112
	; CHECK-NEXT: sub sp, #80			; CHECK-NEXT: sub sp, #112
	; CHECK-NEXT: vldrw.u32 q6, [r0, #16]			; CHECK-NEXT: vldrw.u32 q1, [r0, #16]
	; CHECK-NEXT: vldrw.u32 q5, [r0, #48]			; CHECK-NEXT: vldrw.u32 q0, [r0, #48]
	; CHECK-NEXT: vldrw.u32 q7, [r0, #80]			; CHECK-NEXT: vldrw.u32 q7, [r0, #64]
	; CHECK-NEXT: vldrw.u32 q3, [r0, #32]			; CHECK-NEXT: vmov.f64 d12, d2
	; CHECK-NEXT: vmov.f64 d8, d12			; CHECK-NEXT: vmov.u16 r2, q0[1]
	; CHECK-NEXT: vmov.u16 r2, q5[1]			; CHECK-NEXT: vmov q2, q1
	; CHECK-NEXT: vstrw.32 q3, [sp, #64] @ 16-byte Spill			; CHECK-NEXT: vstrw.32 q0, [sp, #48] @ 16-byte Spill
	; CHECK-NEXT: vstrw.32 q5, [sp, #16] @ 16-byte Spill			; CHECK-NEXT: vstrw.32 q2, [sp, #64] @ 16-byte Spill
	; CHECK-NEXT: vstrw.32 q6, [sp] @ 16-byte Spill			; CHECK-NEXT: vstrw.32 q7, [sp] @ 16-byte Spill
	; CHECK-NEXT: vins.f16 s16, s20			; CHECK-NEXT: vins.f16 s24, s0
	; CHECK-NEXT: vmov.f32 s5, s28			; CHECK-NEXT: vmov.16 q6[4], r2
	; CHECK-NEXT: vmov.16 q4[4], r2			; CHECK-NEXT: vmov.f32 s27, s5
	; CHECK-NEXT: vmov.f32 s6, s28			; CHECK-NEXT: vldrw.u32 q1, [r0, #80]
	; CHECK-NEXT: vmov.f32 s19, s25			; CHECK-NEXT: vins.f16 s27, s1
	; CHECK-NEXT: vmov.u16 r3, q1[2]
	; CHECK-NEXT: vins.f16 s19, s21
	; CHECK-NEXT: vmov.16 q0[2], r3
	; CHECK-NEXT: vmov.f32 s17, s24
	; CHECK-NEXT: vmov.u16 r2, q4[3]
	; CHECK-NEXT: vmov.16 q0[3], r2
	; CHECK-NEXT: vmov.u16 r2, q4[4]
	; CHECK-NEXT: vmov.16 q0[4], r2
	; CHECK-NEXT: vmov.u16 r2, q1[5]
	; CHECK-NEXT: vldrw.u32 q1, [r0]
	; CHECK-NEXT: vmov.16 q0[5], r2
	; CHECK-NEXT: vmov.u16 r2, q3[1]
	; CHECK-NEXT: vmov.f32 s17, s1
	; CHECK-NEXT: vmov.f64 d4, d2
	; CHECK-NEXT: vstrw.32 q1, [sp, #48] @ 16-byte Spill
	; CHECK-NEXT: vins.f16 s8, s12
	; CHECK-NEXT: vmov.f32 s18, s2
	; CHECK-NEXT: vmov.16 q2[4], r2
	; CHECK-NEXT: vldrw.u32 q0, [sp, #64] @ 16-byte Reload
	; CHECK-NEXT: vmov.f32 s11, s5
	; CHECK-NEXT: vins.f16 s11, s13
	; CHECK-NEXT: vmov.f32 s9, s4
	; CHECK-NEXT: vldrw.u32 q1, [r0, #64]
	; CHECK-NEXT: vmov.u16 r2, q2[3]
	; CHECK-NEXT: vstrw.32 q4, [r1, #48]
	; CHECK-NEXT: vmov.f32 s13, s4			; CHECK-NEXT: vmov.f32 s13, s4
	; CHECK-NEXT: vstrw.32 q1, [sp, #32] @ 16-byte Spill			; CHECK-NEXT: vstrw.32 q1, [sp, #80] @ 16-byte Spill
	; CHECK-NEXT: vmov.f32 s14, s4			; CHECK-NEXT: vmov.f32 s14, s4
	; CHECK-NEXT: vmov.u16 r0, q3[2]			; CHECK-NEXT: vmov.f32 s25, s8
	; CHECK-NEXT: vmov.16 q1[2], r0			; CHECK-NEXT: vmov.u16 r3, q3[2]
	; CHECK-NEXT: vmov.u16 r0, q2[4]			; CHECK-NEXT: vstrw.32 q3, [sp, #16] @ 16-byte Spill
				; CHECK-NEXT: vmov.u16 r2, q6[3]
				; CHECK-NEXT: vmov.16 q3[2], r3
				; CHECK-NEXT: vmov.16 q3[3], r2
				; CHECK-NEXT: vmov.u16 r2, q6[4]
				; CHECK-NEXT: vmov.16 q3[4], r2
				; CHECK-NEXT: vmov.u16 r2, q0[5]
				; CHECK-NEXT: vmov.16 q5[0], r2
				; CHECK-NEXT: vmov.u16 r2, q1[5]
				; CHECK-NEXT: vmov.16 q5[1], r2
				; CHECK-NEXT: vmov.u16 r2, q0[7]
				; CHECK-NEXT: vins.f16 s21, s3
				; CHECK-NEXT: vmov q0, q2
				; CHECK-NEXT: vmov.f32 s9, s3
				; CHECK-NEXT: vmov.16 q5[6], r2
				; CHECK-NEXT: vmov.u16 r2, q1[7]
				; CHECK-NEXT: vmov.f32 s10, s3
				; CHECK-NEXT: vmov.16 q5[7], r2
				; CHECK-NEXT: vmov.u16 r3, q2[2]
				; CHECK-NEXT: vmov.f32 s22, s7
				; CHECK-NEXT: vmov.16 q1[2], r3
				; CHECK-NEXT: vmov.u16 r2, q5[3]
				; CHECK-NEXT: vldrw.u32 q0, [r0, #32]
	; CHECK-NEXT: vmov.16 q1[3], r2			; CHECK-NEXT: vmov.16 q1[3], r2
				; CHECK-NEXT: vmov.u16 r2, q5[4]
				; CHECK-NEXT: vmov.16 q1[4], r2
				; CHECK-NEXT: vmov.u16 r2, q2[5]
				; CHECK-NEXT: vldrw.u32 q2, [r0]
				; CHECK-NEXT: vmov.16 q1[5], r2
				; CHECK-NEXT: vmov.u16 r2, q0[1]
				; CHECK-NEXT: vmov.f32 s21, s5
				; CHECK-NEXT: vmov.f64 d8, d4
				; CHECK-NEXT: vstrw.32 q2, [sp, #96] @ 16-byte Spill
				; CHECK-NEXT: vstrw.32 q0, [sp, #32] @ 16-byte Spill
				; CHECK-NEXT: vins.f16 s16, s0
				; CHECK-NEXT: vmov.f32 s22, s6
				; CHECK-NEXT: vmov.16 q4[4], r2
				; CHECK-NEXT: vstrw.32 q5, [r1, #80]
				; CHECK-NEXT: vmov.f32 s19, s9
				; CHECK-NEXT: vins.f16 s19, s1
				; CHECK-NEXT: vmov.f32 s17, s8
				; CHECK-NEXT: vmov.f32 s9, s28
				; CHECK-NEXT: vmov.u16 r0, q4[3]
				; CHECK-NEXT: vmov.f32 s10, s28
				; CHECK-NEXT: vmov.u16 r2, q2[2]
				; CHECK-NEXT: vmov.16 q1[2], r2
				; CHECK-NEXT: vmov.16 q1[3], r0
				; CHECK-NEXT: vmov.u16 r0, q4[4]
	; CHECK-NEXT: vmov.16 q1[4], r0			; CHECK-NEXT: vmov.16 q1[4], r0
	; CHECK-NEXT: vmov.u16 r0, q3[5]			; CHECK-NEXT: vmov.u16 r0, q2[5]
				; CHECK-NEXT: vldrw.u32 q2, [sp, #16] @ 16-byte Reload
	; CHECK-NEXT: vmov.16 q1[5], r0			; CHECK-NEXT: vmov.16 q1[5], r0
	; CHECK-NEXT: vmov.u16 r0, q5[5]			; CHECK-NEXT: vmov.f32 s17, s5
	; CHECK-NEXT: vmov q3, q5			; CHECK-NEXT: vmov.u16 r0, q2[5]
	; CHECK-NEXT: vmov.16 q5[0], r0			; CHECK-NEXT: vmov.f32 s18, s6
	; CHECK-NEXT: vmov.u16 r0, q7[5]
	; CHECK-NEXT: vmov.f32 s9, s5
	; CHECK-NEXT: vmov.16 q5[1], r0
	; CHECK-NEXT: vmov.u16 r0, q3[6]
	; CHECK-NEXT: vmov.16 q5[3], r0
	; CHECK-NEXT: vmov.u16 r0, q3[7]
	; CHECK-NEXT: vmov.f32 s10, s6
	; CHECK-NEXT: vmov.16 q5[6], r0
	; CHECK-NEXT: vmov.f32 s5, s27
	; CHECK-NEXT: vmov.u16 r0, q7[7]
	; CHECK-NEXT: vmov.16 q5[7], r0
	; CHECK-NEXT: vmov.f32 s6, s27
	; CHECK-NEXT: vmov.f32 s22, s31
	; CHECK-NEXT: vmov.u16 r2, q1[2]
	; CHECK-NEXT: vmov.u16 r0, q5[3]
	; CHECK-NEXT: vmov.16 q3[2], r2
	; CHECK-NEXT: vmov.16 q3[3], r0
	; CHECK-NEXT: vmov.u16 r0, q5[4]
	; CHECK-NEXT: vmov.16 q3[4], r0
	; CHECK-NEXT: vmov.u16 r0, q1[5]
	; CHECK-NEXT: vldrw.u32 q6, [sp, #32] @ 16-byte Reload
	; CHECK-NEXT: vmov.16 q3[5], r0			; CHECK-NEXT: vmov.16 q3[5], r0
	; CHECK-NEXT: vmov.u16 r0, q0[5]			; CHECK-NEXT: vmov.u16 r0, q0[5]
	; CHECK-NEXT: vmov.f32 s21, s13			; CHECK-NEXT: vmov.16 q2[0], r0
	; CHECK-NEXT: vmov.16 q1[0], r0			; CHECK-NEXT: vmov.u16 r0, q7[5]
	; CHECK-NEXT: vmov.u16 r0, q6[5]			; CHECK-NEXT: vmov.16 q2[1], r0
	; CHECK-NEXT: vmov.16 q1[1], r0
	; CHECK-NEXT: vmov.u16 r0, q0[6]
	; CHECK-NEXT: vmov.16 q1[3], r0
	; CHECK-NEXT: vmov.u16 r0, q0[7]			; CHECK-NEXT: vmov.u16 r0, q0[7]
	; CHECK-NEXT: vldrw.u32 q0, [sp, #48] @ 16-byte Reload			; CHECK-NEXT: vins.f16 s9, s3
	; CHECK-NEXT: vmov.f32 s22, s14			; CHECK-NEXT: vldrw.u32 q0, [sp, #96] @ 16-byte Reload
	; CHECK-NEXT: vmov.16 q1[6], r0			; CHECK-NEXT: vmov.16 q2[6], r0
	; CHECK-NEXT: vmov.u16 r0, q6[7]			; CHECK-NEXT: vmov.u16 r0, q7[7]
	; CHECK-NEXT: vmov.f32 s13, s3			; CHECK-NEXT: vmov.f32 s5, s3
	; CHECK-NEXT: vmov.16 q1[7], r0			; CHECK-NEXT: vmov.16 q2[7], r0
	; CHECK-NEXT: vmov.f32 s14, s3			; CHECK-NEXT: vmov.f32 s6, s3
	; CHECK-NEXT: vstrw.32 q5, [r1, #80]			; CHECK-NEXT: vstrw.32 q4, [r1]
	; CHECK-NEXT: vmov.f32 s6, s27			; CHECK-NEXT: vmov.f32 s10, s31
	; CHECK-NEXT: vmov.u16 r2, q3[2]			; CHECK-NEXT: vmov.u16 r2, q1[2]
	; CHECK-NEXT: vmov.u16 r0, q1[3]			; CHECK-NEXT: vmov.u16 r0, q2[3]
	; CHECK-NEXT: vmov.16 q0[2], r2			; CHECK-NEXT: vmov.16 q0[2], r2
	; CHECK-NEXT: vmov.16 q0[3], r0			; CHECK-NEXT: vmov.16 q0[3], r0
	; CHECK-NEXT: vmov.u16 r0, q1[4]			; CHECK-NEXT: vmov.u16 r0, q2[4]
				; CHECK-NEXT: vmov.f32 s25, s13
	; CHECK-NEXT: vmov.16 q0[4], r0			; CHECK-NEXT: vmov.16 q0[4], r0
	; CHECK-NEXT: vmov.u16 r0, q3[5]			; CHECK-NEXT: vmov.u16 r0, q1[5]
	; CHECK-NEXT: vldrw.u32 q3, [sp, #16] @ 16-byte Reload			; CHECK-NEXT: vldrw.u32 q1, [sp, #48] @ 16-byte Reload
	; CHECK-NEXT: vldrw.u32 q6, [sp] @ 16-byte Reload			; CHECK-NEXT: vldrw.u32 q7, [sp, #80] @ 16-byte Reload
				; CHECK-NEXT: vmov.f32 s26, s14
				; CHECK-NEXT: vldrw.u32 q3, [sp, #64] @ 16-byte Reload
	; CHECK-NEXT: vmov.16 q0[5], r0			; CHECK-NEXT: vmov.16 q0[5], r0
				; CHECK-NEXT: vrev32.16 q1, q1
	; CHECK-NEXT: vmov.u16 r0, q7[2]			; CHECK-NEXT: vmov.u16 r0, q7[2]
	; CHECK-NEXT: vrev32.16 q3, q3			; CHECK-NEXT: vstrw.32 q1, [sp, #48] @ 16-byte Spill
	; CHECK-NEXT: vmov.f32 s5, s1			; CHECK-NEXT: vmov.16 q1[0], r0
	; CHECK-NEXT: vstrw.32 q3, [sp, #16] @ 16-byte Spill
	; CHECK-NEXT: vmov.16 q3[0], r0
	; CHECK-NEXT: vmov.u16 r0, q6[3]
	; CHECK-NEXT: vmov.f32 s6, s2
	; CHECK-NEXT: vmov.16 q3[1], r0
	; CHECK-NEXT: vmov.u16 r0, q7[4]
	; CHECK-NEXT: vmov.16 q3[6], r0
	; CHECK-NEXT: vmov.u16 r0, q6[5]
	; CHECK-NEXT: vmov.16 q3[7], r0
	; CHECK-NEXT: vstrw.32 q1, [r1, #32]
	; CHECK-NEXT: vmov.f32 s13, s29
	; CHECK-NEXT: vstrw.32 q2, [r1]
	; CHECK-NEXT: vmov.f32 s14, s26
	; CHECK-NEXT: vldrw.u32 q6, [sp, #16] @ 16-byte Reload
	; CHECK-NEXT: vmov.u16 r0, q3[3]			; CHECK-NEXT: vmov.u16 r0, q3[3]
	; CHECK-NEXT: vmov.u16 r2, q6[2]			; CHECK-NEXT: vmov.f32 s9, s1
	; CHECK-NEXT: vmov.16 q7[2], r2			; CHECK-NEXT: vmov.16 q1[1], r0
	; CHECK-NEXT: vmov.16 q7[3], r0			; CHECK-NEXT: vmov.u16 r0, q7[4]
	; CHECK-NEXT: vmov.u16 r0, q3[4]			; CHECK-NEXT: vmov.16 q1[6], r0
	; CHECK-NEXT: vmov.16 q7[4], r0			; CHECK-NEXT: vmov.u16 r0, q3[5]
	; CHECK-NEXT: vmov.u16 r0, q6[5]			; CHECK-NEXT: vmov.16 q1[7], r0
	; CHECK-NEXT: vmov.16 q7[5], r0			; CHECK-NEXT: vmov.f32 s10, s2
	; CHECK-NEXT: vldrw.u32 q6, [sp, #32] @ 16-byte Reload			; CHECK-NEXT: vmov.f32 s5, s29
	; CHECK-NEXT: vmov.f32 s13, s29
	; CHECK-NEXT: vmov.f32 s14, s30
	; CHECK-NEXT: vldrw.u32 q7, [sp, #48] @ 16-byte Reload			; CHECK-NEXT: vldrw.u32 q7, [sp, #48] @ 16-byte Reload
	; CHECK-NEXT: vmov.u16 r0, q6[2]			; CHECK-NEXT: vmov.f32 s6, s14
	; CHECK-NEXT: vstrw.32 q3, [r1, #64]			; CHECK-NEXT: vstrw.32 q2, [r1, #32]
				; CHECK-NEXT: vmov.u16 r2, q7[2]
				; CHECK-NEXT: vmov.u16 r0, q1[3]
				; CHECK-NEXT: vmov.16 q3[2], r2
				; CHECK-NEXT: vstrw.32 q6, [r1, #48]
				; CHECK-NEXT: vmov.16 q3[3], r0
				; CHECK-NEXT: vmov.u16 r0, q1[4]
				; CHECK-NEXT: vmov.16 q3[4], r0
				; CHECK-NEXT: vmov.u16 r0, q7[5]
				; CHECK-NEXT: vmov.16 q3[5], r0
				; CHECK-NEXT: vldrw.u32 q7, [sp, #96] @ 16-byte Reload
				; CHECK-NEXT: vmov.f32 s5, s13
				; CHECK-NEXT: vmov.f32 s6, s14
				; CHECK-NEXT: vldrw.u32 q3, [sp] @ 16-byte Reload
				; CHECK-NEXT: vstrw.32 q1, [r1, #64]
				; CHECK-NEXT: vmov.u16 r0, q3[2]
	; CHECK-NEXT: vmov.16 q0[0], r0			; CHECK-NEXT: vmov.16 q0[0], r0
	; CHECK-NEXT: vmov.u16 r0, q7[3]			; CHECK-NEXT: vmov.u16 r0, q7[3]
	; CHECK-NEXT: vmov.16 q0[1], r0			; CHECK-NEXT: vmov.16 q0[1], r0
	; CHECK-NEXT: vmov.u16 r0, q6[4]			; CHECK-NEXT: vmov.u16 r0, q3[4]
	; CHECK-NEXT: vmov.16 q0[6], r0			; CHECK-NEXT: vmov.16 q0[6], r0
	; CHECK-NEXT: vmov.u16 r0, q7[5]			; CHECK-NEXT: vmov.u16 r0, q7[5]
	; CHECK-NEXT: vmov.16 q0[7], r0			; CHECK-NEXT: vmov.16 q0[7], r0
	; CHECK-NEXT: vmov.f32 s1, s25			; CHECK-NEXT: vmov.f32 s1, s13
	; CHECK-NEXT: vldrw.u32 q6, [sp, #64] @ 16-byte Reload			; CHECK-NEXT: vldrw.u32 q3, [sp, #32] @ 16-byte Reload
	; CHECK-NEXT: vmov.f32 s2, s30			; CHECK-NEXT: vmov.f32 s2, s30
	; CHECK-NEXT: vrev32.16 q6, q6			; CHECK-NEXT: vrev32.16 q3, q3
	; CHECK-NEXT: vmov.u16 r0, q0[3]			; CHECK-NEXT: vmov.u16 r0, q0[3]
	; CHECK-NEXT: vmov.u16 r2, q6[2]			; CHECK-NEXT: vmov.u16 r2, q3[2]
	; CHECK-NEXT: vmov.16 q7[2], r2			; CHECK-NEXT: vmov.16 q7[2], r2
	; CHECK-NEXT: vmov.16 q7[3], r0			; CHECK-NEXT: vmov.16 q7[3], r0
	; CHECK-NEXT: vmov.u16 r0, q0[4]			; CHECK-NEXT: vmov.u16 r0, q0[4]
	; CHECK-NEXT: vmov.16 q7[4], r0			; CHECK-NEXT: vmov.16 q7[4], r0
	; CHECK-NEXT: vmov.u16 r0, q6[5]			; CHECK-NEXT: vmov.u16 r0, q3[5]
	; CHECK-NEXT: vmov.16 q7[5], r0			; CHECK-NEXT: vmov.16 q7[5], r0
	; CHECK-NEXT: vmov.f32 s1, s29			; CHECK-NEXT: vmov.f32 s1, s29
	; CHECK-NEXT: vmov.f32 s2, s30			; CHECK-NEXT: vmov.f32 s2, s30
	; CHECK-NEXT: vstrw.32 q0, [r1, #16]			; CHECK-NEXT: vstrw.32 q0, [r1, #16]
	; CHECK-NEXT: add sp, #80			; CHECK-NEXT: add sp, #112
	; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}			; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%s1 = getelementptr <16 x i16>, <16 x i16>* %src, i32 0			%s1 = getelementptr <16 x i16>, <16 x i16>* %src, i32 0
	%l1 = load <16 x i16>, <16 x i16>* %s1, align 4			%l1 = load <16 x i16>, <16 x i16>* %s1, align 4
	%s2 = getelementptr <16 x i16>, <16 x i16>* %src, i32 1			%s2 = getelementptr <16 x i16>, <16 x i16>* %src, i32 1
	%l2 = load <16 x i16>, <16 x i16>* %s2, align 4			%l2 = load <16 x i16>, <16 x i16>* %s2, align 4
	%s3 = getelementptr <16 x i16>, <16 x i16>* %src, i32 2			%s3 = getelementptr <16 x i16>, <16 x i16>* %src, i32 2
	▲ Show 20 Lines • Show All 114 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vpush {d8, d9, d10, d11}			; CHECK-NEXT: vpush {d8, d9, d10, d11}
	; CHECK-NEXT: vldrb.u16 q1, [r0, #8]			; CHECK-NEXT: vldrb.u16 q1, [r0, #8]
	; CHECK-NEXT: vldrb.u16 q2, [r0, #16]			; CHECK-NEXT: vldrb.u16 q2, [r0, #16]
	; CHECK-NEXT: vldrb.u16 q3, [r0]			; CHECK-NEXT: vldrb.u16 q3, [r0]
	; CHECK-NEXT: vmov.u16 r2, q1[5]			; CHECK-NEXT: vmov.u16 r2, q1[5]
	; CHECK-NEXT: vmov.16 q0[0], r2			; CHECK-NEXT: vmov.16 q0[0], r2
	; CHECK-NEXT: vmov.u16 r2, q2[5]			; CHECK-NEXT: vmov.u16 r2, q2[5]
	; CHECK-NEXT: vmov.16 q0[1], r2			; CHECK-NEXT: vmov.16 q0[1], r2
	; CHECK-NEXT: vmov.u16 r2, q1[6]
	; CHECK-NEXT: vmov.16 q0[3], r2
	; CHECK-NEXT: vmov.u16 r2, q1[7]			; CHECK-NEXT: vmov.u16 r2, q1[7]
				; CHECK-NEXT: vins.f16 s1, s7
	; CHECK-NEXT: vmov.f32 s17, s15			; CHECK-NEXT: vmov.f32 s17, s15
	; CHECK-NEXT: vmov.16 q0[6], r2			; CHECK-NEXT: vmov.16 q0[6], r2
	; CHECK-NEXT: vmov.u16 r2, q2[7]			; CHECK-NEXT: vmov.u16 r2, q2[7]
	; CHECK-NEXT: vmov.f32 s18, s15
	; CHECK-NEXT: vmov.16 q0[7], r2			; CHECK-NEXT: vmov.16 q0[7], r2
	; CHECK-NEXT: vmov.u16 r0, q4[2]			; CHECK-NEXT: vmov.f32 s18, s15
	; CHECK-NEXT: vmov.f32 s2, s11			; CHECK-NEXT: vmov.f32 s2, s11
				; CHECK-NEXT: vmov.u16 r0, q4[2]
	; CHECK-NEXT: vmov.16 q5[2], r0			; CHECK-NEXT: vmov.16 q5[2], r0
	; CHECK-NEXT: vmov.u16 r2, q0[3]			; CHECK-NEXT: vmov.u16 r2, q0[3]
	; CHECK-NEXT: vmov.u16 r0, q0[4]
	; CHECK-NEXT: vmov.16 q5[3], r2			; CHECK-NEXT: vmov.16 q5[3], r2
				; CHECK-NEXT: vmov.u16 r0, q0[4]
	; CHECK-NEXT: vmov.16 q5[4], r0			; CHECK-NEXT: vmov.16 q5[4], r0
	; CHECK-NEXT: vmov.u16 r0, q4[5]			; CHECK-NEXT: vmov.u16 r0, q4[5]
	; CHECK-NEXT: vmov.16 q5[5], r0			; CHECK-NEXT: vmov.16 q5[5], r0
	; CHECK-NEXT: vmov.u16 r0, q3[0]			; CHECK-NEXT: vmov.u16 r0, q3[0]
	; CHECK-NEXT: vmov.8 q4[0], r0			; CHECK-NEXT: vmov.8 q4[0], r0
	; CHECK-NEXT: vmov.u16 r0, q1[0]			; CHECK-NEXT: vmov.u16 r0, q1[0]
	; CHECK-NEXT: vmov.8 q4[1], r0			; CHECK-NEXT: vmov.8 q4[1], r0
	; CHECK-NEXT: vmov.u16 r0, q2[0]			; CHECK-NEXT: vmov.u16 r0, q2[0]
	▲ Show 20 Lines • Show All 1,059 Lines • Show Last 20 Lines