This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Target/ARM/
-
Target/
-
ARM/
3/5
ARMInstrMVE.td
-
test/CodeGen/Thumb2/
-
CodeGen/
-
Thumb2/
-
mve-shuffle.ll
-
mve-vld3.ll
-
mve-vst3.ll

Differential D95456

[ARM] i16 insert-of-extract to VINS pattern
ClosedPublic

Authored by dmgreen on Jan 26 2021, 9:56 AM.

Download Raw Diff

Details

Reviewers

SjoerdMeijer
NickGuy
efriedma
ostannard
simon_tatham

Commits

rG1b435eb8f3b7: [ARM] i16 insert-of-extract to VINS pattern

Summary

This adds another tablegen fold that converts an i16 odd-lane-insert of an even-lane-extract into a VINS. We extract the existing f32 value from the destination register and VINS the new value into it. The rest of the backend then is able to optimize the INSERT_SUBREG/COPY_TO_REGCLASS/EXTRACT_SUBREG.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

dmgreen created this revision.Jan 26 2021, 9:56 AM

Herald added subscribers: danielkiss, hiraditya, kristof.beyls. · View Herald TranscriptJan 26 2021, 9:56 AM

dmgreen requested review of this revision.Jan 26 2021, 9:56 AM

Herald added a project: Restricted Project. · View Herald TranscriptJan 26 2021, 9:56 AM

dmgreen added a parent revision: D95433: [ARM] Mark MVE_VMOV_to_lane_32 as isInsertSubregLike.Jan 26 2021, 9:57 AM

dmgreen added a child revision: D95471: [ARM] VINS f16 pattern.Jan 26 2021, 12:31 PM

ping

simon_tatham added inline comments.Feb 4 2021, 4:56 AM

llvm/lib/Target/ARM/ARMInstrMVE.td
1883	I don't understand this part – if $src1 is already an MQPR, why does it need a COPY_TO_REGCLASS?

dmgreen added inline comments.Feb 4 2021, 11:58 AM

llvm/lib/Target/ARM/ARMInstrMVE.td
1883	Hmm. I added it as a typecast, essentially. Otherwise the INSERT_SUBREG fails to make it through the tablegen type checks. Trying it as `(INSERT_SUBREG (v4f32 MQPR:$src1), ...` gives an error that looks like the insertsubreg has conflicting input types `(INSERT_SUBREG:{ :[v4f32] } MQPR:{ :[] }:$src1`

simon_tatham added inline comments.Feb 5 2021, 1:05 AM

llvm/lib/Target/ARM/ARMInstrMVE.td
1883	Ah, I see – it's not that you needed to convert from MQPR to MQPR, it's just that a side effect of that is that you also get to convert from v8i16 to v4f32, which was what you really needed. In that case, is that implicit conversion from v8i16 to v4f32 acting as a bitcast, or a VECTOR_REG_CAST? Does this pattern do the right thing when tested big-endian?

dmgreen added inline comments.Feb 5 2021, 7:52 AM

llvm/lib/Target/ARM/ARMInstrMVE.td
1883	The COPY machine instruction (which is what a COPY_TO_REGCLASS will eventually turn into) loses any type info so will always act as a VECTOR_REG_CAST. So should be fine in big and little endian - and seems to be OK in my testing.

simon_tatham accepted this revision.Feb 5 2021, 7:55 AM

simon_tatham added inline comments.

llvm/lib/Target/ARM/ARMInstrMVE.td
1883	Fair enough. Thanks for checking.

This revision is now accepted and ready to land.Feb 5 2021, 7:55 AM

Closed by commit rG1b435eb8f3b7: [ARM] i16 insert-of-extract to VINS pattern (authored by dmgreen). · Explain WhyFeb 8 2021, 12:42 AM

This revision was automatically updated to reflect the committed changes.

dmgreen added a commit: rG1b435eb8f3b7: [ARM] i16 insert-of-extract to VINS pattern.

Revision Contents

Path

Size

llvm/

lib/

Target/

ARM/

ARMInstrMVE.td

8 lines

test/

CodeGen/

Thumb2/

mve-shuffle.ll

51 lines

mve-vld3.ll

168 lines

mve-vst3.ll

296 lines

Diff 322042

llvm/lib/Target/ARM/ARMInstrMVE.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 1,872 Lines • ▼ Show 20 Lines	let Predicates = [HasMVEInt] in {
def : Pat<(ARMvgetlanes (v8f16 MQPR:$src), imm:$lane),		def : Pat<(ARMvgetlanes (v8f16 MQPR:$src), imm:$lane),
(MVE_VMOV_from_lane_s16 MQPR:$src, imm:$lane)>;		(MVE_VMOV_from_lane_s16 MQPR:$src, imm:$lane)>;
def : Pat<(ARMvgetlaneu (v16i8 MQPR:$src), imm:$lane),		def : Pat<(ARMvgetlaneu (v16i8 MQPR:$src), imm:$lane),
(MVE_VMOV_from_lane_u8 MQPR:$src, imm:$lane)>;		(MVE_VMOV_from_lane_u8 MQPR:$src, imm:$lane)>;
def : Pat<(ARMvgetlaneu (v8i16 MQPR:$src), imm:$lane),		def : Pat<(ARMvgetlaneu (v8i16 MQPR:$src), imm:$lane),
(MVE_VMOV_from_lane_u16 MQPR:$src, imm:$lane)>;		(MVE_VMOV_from_lane_u16 MQPR:$src, imm:$lane)>;
def : Pat<(ARMvgetlaneu (v8f16 MQPR:$src), imm:$lane),		def : Pat<(ARMvgetlaneu (v8f16 MQPR:$src), imm:$lane),
(MVE_VMOV_from_lane_u16 MQPR:$src, imm:$lane)>;		(MVE_VMOV_from_lane_u16 MQPR:$src, imm:$lane)>;
		// For i16's inserts being extracted from low lanes, then may use VINS.
		def : Pat<(ARMinsertelt (v8i16 MQPR:$src1),
		(ARMvgetlaneu (v8i16 MQPR:$src2), imm_even:$extlane),
		simon_tathamUnsubmitted Not Done Reply Inline Actions I don't understand this part – if $src1 is already an MQPR, why does it need a COPY_TO_REGCLASS? simon_tatham: I don't understand this part – if $src1 is already an MQPR, why does it need a COPY_TO_REGCLASS?
		dmgreenAuthorUnsubmitted Done Reply Inline Actions Hmm. I added it as a typecast, essentially. Otherwise the INSERT_SUBREG fails to make it through the tablegen type checks. Trying it as `(INSERT_SUBREG (v4f32 MQPR:$src1), ...` gives an error that looks like the insertsubreg has conflicting input types `(INSERT_SUBREG:{ :[v4f32] } MQPR:{ :[] }:$src1` dmgreen: Hmm. I added it as a typecast, essentially. Otherwise the INSERT_SUBREG fails to make it…
		simon_tathamUnsubmitted Not Done Reply Inline Actions Ah, I see – it's not that you needed to convert from MQPR to MQPR, it's just that a side effect of that is that you also get to convert from v8i16 to v4f32, which was what you really needed. In that case, is that implicit conversion from v8i16 to v4f32 acting as a bitcast, or a VECTOR_REG_CAST? Does this pattern do the right thing when tested big-endian? simon_tatham: Ah, I see – it's not that you needed to convert from MQPR to MQPR, it's just that a side effect…
		dmgreenAuthorUnsubmitted Done Reply Inline Actions The COPY machine instruction (which is what a COPY_TO_REGCLASS will eventually turn into) loses any type info so will always act as a VECTOR_REG_CAST. So should be fine in big and little endian - and seems to be OK in my testing. dmgreen: The COPY machine instruction (which is what a COPY_TO_REGCLASS will eventually turn into) loses…
		simon_tathamUnsubmitted Done Reply Inline Actions Fair enough. Thanks for checking. simon_tatham: Fair enough. Thanks for checking.
		imm_odd:$inslane),
		(COPY_TO_REGCLASS (INSERT_SUBREG (v4f32 (COPY_TO_REGCLASS MQPR:$src1, MQPR)),
		(VINSH (EXTRACT_SUBREG MQPR:$src1, (SSubReg_f16_reg imm_odd:$inslane)),
		(EXTRACT_SUBREG MQPR:$src2, (SSubReg_f16_reg imm_even:$extlane))),
		(SSubReg_f16_reg imm_odd:$inslane)), MQPR)>;

def : Pat<(v16i8 (scalar_to_vector GPR:$src)),		def : Pat<(v16i8 (scalar_to_vector GPR:$src)),
(MVE_VMOV_to_lane_8 (v16i8 (IMPLICIT_DEF)), rGPR:$src, (i32 0))>;		(MVE_VMOV_to_lane_8 (v16i8 (IMPLICIT_DEF)), rGPR:$src, (i32 0))>;
def : Pat<(v8i16 (scalar_to_vector GPR:$src)),		def : Pat<(v8i16 (scalar_to_vector GPR:$src)),
(MVE_VMOV_to_lane_16 (v8i16 (IMPLICIT_DEF)), rGPR:$src, (i32 0))>;		(MVE_VMOV_to_lane_16 (v8i16 (IMPLICIT_DEF)), rGPR:$src, (i32 0))>;
def : Pat<(v4i32 (scalar_to_vector GPR:$src)),		def : Pat<(v4i32 (scalar_to_vector GPR:$src)),
(MVE_VMOV_to_lane_32 (v4i32 (IMPLICIT_DEF)), rGPR:$src, (i32 0))>;		(MVE_VMOV_to_lane_32 (v4i32 (IMPLICIT_DEF)), rGPR:$src, (i32 0))>;

▲ Show 20 Lines • Show All 5,560 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-shuffle.ll

	Show First 20 Lines • Show All 370 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vmov.u16 r0, q1[4]			; CHECK-NEXT: vmov.u16 r0, q1[4]
	; CHECK-NEXT: vmov.16 q3[4], r0			; CHECK-NEXT: vmov.16 q3[4], r0
	; CHECK-NEXT: vmov.u16 r0, q2[2]			; CHECK-NEXT: vmov.u16 r0, q2[2]
	; CHECK-NEXT: vmov.16 q4[6], r0			; CHECK-NEXT: vmov.16 q4[6], r0
	; CHECK-NEXT: vmov.u16 r0, q2[5]			; CHECK-NEXT: vmov.u16 r0, q2[5]
	; CHECK-NEXT: vmov.16 q4[7], r0			; CHECK-NEXT: vmov.16 q4[7], r0
	; CHECK-NEXT: vmov.u16 r0, q1[7]			; CHECK-NEXT: vmov.u16 r0, q1[7]
	; CHECK-NEXT: vmov.16 q3[5], r0			; CHECK-NEXT: vmov.16 q3[5], r0
				; CHECK-NEXT: vmov.u16 r0, q2[4]
				; CHECK-NEXT: vmov.16 q5[6], r0
	; CHECK-NEXT: vmov.u16 r0, q0[2]			; CHECK-NEXT: vmov.u16 r0, q0[2]
	; CHECK-NEXT: vmov.f32 s15, s19			; CHECK-NEXT: vmov.16 q6[0], r0
	; CHECK-NEXT: vmov.16 q4[0], r0
	; CHECK-NEXT: vmov.u16 r0, q0[5]			; CHECK-NEXT: vmov.u16 r0, q0[5]
	; CHECK-NEXT: vmov.16 q4[1], r0			; CHECK-NEXT: vmov.16 q6[1], r0
	; CHECK-NEXT: vmov.u16 r0, q1[0]			; CHECK-NEXT: vmov.u16 r0, q1[0]
	; CHECK-NEXT: vmov.16 q4[2], r0			; CHECK-NEXT: vmov.16 q6[2], r0
	; CHECK-NEXT: vmov.u16 r0, q1[3]			; CHECK-NEXT: vmov.u16 r0, q1[3]
	; CHECK-NEXT: vmov.16 q4[3], r0			; CHECK-NEXT: vmov.16 q6[3], r0
	; CHECK-NEXT: vmov.u16 r0, q2[4]
	; CHECK-NEXT: vmov.16 q6[6], r0
	; CHECK-NEXT: vmov.u16 r0, q2[7]			; CHECK-NEXT: vmov.u16 r0, q2[7]
	; CHECK-NEXT: vmov.16 q6[7], r0			; CHECK-NEXT: vmov.16 q5[7], r0
	; CHECK-NEXT: vmov.f32 s18, s7			; CHECK-NEXT: vmov.f32 s26, s7
	; CHECK-NEXT: vmov.f32 s26, s8			; CHECK-NEXT: vmov.f32 s22, s8
	; CHECK-NEXT: vmov q5, q6			; CHECK-NEXT: vmov.f32 s15, s19
	; CHECK-NEXT: vmov r1, s16			; CHECK-NEXT: vmov q4, q5
	; CHECK-NEXT: vmovnb.i32 q5, q4			; CHECK-NEXT: vmovnb.i32 q4, q6
	; CHECK-NEXT: vmov r0, s22			; CHECK-NEXT: vmov r1, s24
	; CHECK-NEXT: vmov q5[2], q5[0], r1, r0			; CHECK-NEXT: vmov r0, s18
	; CHECK-NEXT: vmov r0, s27			; CHECK-NEXT: vmov q4[2], q4[0], r1, r0
	; CHECK-NEXT: vmov r1, s17			; CHECK-NEXT: vmov r0, s23
	; CHECK-NEXT: vmov q5[3], q5[1], r1, r0			; CHECK-NEXT: vins.f16 s22, s8
	; CHECK-NEXT: vmov.u16 r0, q2[0]			; CHECK-NEXT: vmov r1, s25
	; CHECK-NEXT: vmov.16 q4[5], r0			; CHECK-NEXT: vmovx.f16 s23, s9
	; CHECK-NEXT: vmov.u16 r0, q1[5]			; CHECK-NEXT: vmov q4[3], q4[1], r1, r0
	; CHECK-NEXT: vmovx.f16 s19, s9			; CHECK-NEXT: vins.f16 s23, s11
	; CHECK-NEXT: vins.f16 s19, s11
	; CHECK-NEXT: vmovx.f16 s8, s0			; CHECK-NEXT: vmovx.f16 s8, s0
	; CHECK-NEXT: vins.f16 s8, s2			; CHECK-NEXT: vins.f16 s8, s2
				; CHECK-NEXT: vmov.u16 r0, q1[5]
	; CHECK-NEXT: vmovx.f16 s9, s3			; CHECK-NEXT: vmovx.f16 s9, s3
	; CHECK-NEXT: vmov q0, q4			; CHECK-NEXT: vmov q0, q5
	; CHECK-NEXT: vins.f16 s9, s5			; CHECK-NEXT: vins.f16 s9, s5
	; CHECK-NEXT: vmov.16 q2[4], r0			; CHECK-NEXT: vmov.16 q2[4], r0
	; CHECK-NEXT: vmovnb.i32 q0, q2			; CHECK-NEXT: vmovnb.i32 q0, q2
	; CHECK-NEXT: vmov r1, s8			; CHECK-NEXT: vmov r1, s8
	; CHECK-NEXT: vmov r0, s2			; CHECK-NEXT: vmov r0, s2
	; CHECK-NEXT: vmov q0[2], q0[0], r1, r0			; CHECK-NEXT: vmov q0[2], q0[0], r1, r0
	; CHECK-NEXT: vmov r0, s19			; CHECK-NEXT: vmov r0, s23
	; CHECK-NEXT: vmov r1, s9			; CHECK-NEXT: vmov r1, s9
	; CHECK-NEXT: vmov q0[3], q0[1], r1, r0			; CHECK-NEXT: vmov q0[3], q0[1], r1, r0
	; CHECK-NEXT: vadd.i16 q0, q3, q0			; CHECK-NEXT: vadd.i16 q0, q3, q0
	; CHECK-NEXT: vadd.i16 q0, q0, q5			; CHECK-NEXT: vadd.i16 q0, q0, q4
	; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13}			; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13}
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%s1 = shufflevector <32 x i16> %src, <32 x i16> undef, <8 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21>			%s1 = shufflevector <32 x i16> %src, <32 x i16> undef, <8 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21>
	%s2 = shufflevector <32 x i16> %src, <32 x i16> undef, <8 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22>			%s2 = shufflevector <32 x i16> %src, <32 x i16> undef, <8 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22>
	%s3 = shufflevector <32 x i16> %src, <32 x i16> undef, <8 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23>			%s3 = shufflevector <32 x i16> %src, <32 x i16> undef, <8 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23>
	%a = add <8 x i16> %s1, %s2			%a = add <8 x i16> %s1, %s2
	%r = add <8 x i16> %a, %s3			%r = add <8 x i16> %a, %s3
	▲ Show 20 Lines • Show All 1,436 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vld3.ll

Show First 20 Lines • Show All 371 Lines • ▼ Show 20 Lines
; CHECK-NEXT: vmov.u16 r0, q1[7]		; CHECK-NEXT: vmov.u16 r0, q1[7]
; CHECK-NEXT: vmov.16 q4[5], r0		; CHECK-NEXT: vmov.16 q4[5], r0
; CHECK-NEXT: vmov.u16 r0, q1[5]		; CHECK-NEXT: vmov.u16 r0, q1[5]
; CHECK-NEXT: vmov.f32 s19, s23		; CHECK-NEXT: vmov.f32 s19, s23
; CHECK-NEXT: vmovx.f16 s20, s8		; CHECK-NEXT: vmovx.f16 s20, s8
; CHECK-NEXT: vins.f16 s20, s10		; CHECK-NEXT: vins.f16 s20, s10
; CHECK-NEXT: vmovx.f16 s21, s11		; CHECK-NEXT: vmovx.f16 s21, s11
; CHECK-NEXT: vins.f16 s21, s5		; CHECK-NEXT: vins.f16 s21, s5
; CHECK-NEXT: vmov.16 q5[4], r0		; CHECK-NEXT: vins.f16 s6, s0
; CHECK-NEXT: vmov.u16 r0, q0[0]
; CHECK-NEXT: vmov.16 q1[5], r0
; CHECK-NEXT: vmov r2, s20
; CHECK-NEXT: vmovx.f16 s7, s1		; CHECK-NEXT: vmovx.f16 s7, s1
		; CHECK-NEXT: vmov.16 q5[4], r0
; CHECK-NEXT: vins.f16 s7, s3		; CHECK-NEXT: vins.f16 s7, s3
		; CHECK-NEXT: vmov r2, s20
; CHECK-NEXT: vmov q0, q1		; CHECK-NEXT: vmov q0, q1
; CHECK-NEXT: vmovnb.i32 q0, q5		; CHECK-NEXT: vmovnb.i32 q0, q5
; CHECK-NEXT: vmov r0, s2		; CHECK-NEXT: vmov r0, s2
; CHECK-NEXT: vmov q0[2], q0[0], r2, r0		; CHECK-NEXT: vmov q0[2], q0[0], r2, r0
; CHECK-NEXT: vmov r0, s7		; CHECK-NEXT: vmov r0, s7
; CHECK-NEXT: vmov r2, s21		; CHECK-NEXT: vmov r2, s21
; CHECK-NEXT: vmov q0[3], q0[1], r2, r0		; CHECK-NEXT: vmov q0[3], q0[1], r2, r0
; CHECK-NEXT: vadd.i16 q0, q4, q0		; CHECK-NEXT: vadd.i16 q0, q4, q0
Show All 12 Lines	entry:
ret void		ret void
}		}

define void @vld3_v16i16(<48 x i16> %src, <16 x i16> %dst) {		define void @vld3_v16i16(<48 x i16> %src, <16 x i16> %dst) {
; CHECK-LABEL: vld3_v16i16:		; CHECK-LABEL: vld3_v16i16:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: vldrw.u32 q3, [r0, #48]		; CHECK-NEXT: vldrw.u32 q2, [r0, #48]
; CHECK-NEXT: vldrw.u32 q2, [r0, #64]		; CHECK-NEXT: vldrw.u32 q0, [r0, #64]
; CHECK-NEXT: vldrw.u32 q4, [r0, #80]		; CHECK-NEXT: vldrw.u32 q3, [r0, #80]
; CHECK-NEXT: vldrw.u32 q0, [r0, #16]		; CHECK-NEXT: vmov.u16 r2, q2[0]
; CHECK-NEXT: vmov.u16 r2, q3[0]
; CHECK-NEXT: vmov.16 q1[0], r2		; CHECK-NEXT: vmov.16 q1[0], r2
; CHECK-NEXT: vmov.u16 r2, q3[3]		; CHECK-NEXT: vmov.u16 r2, q2[3]
; CHECK-NEXT: vmov.16 q1[1], r2		; CHECK-NEXT: vmov.16 q1[1], r2
; CHECK-NEXT: vmov.u16 r2, q3[6]		; CHECK-NEXT: vmov.u16 r2, q2[6]
; CHECK-NEXT: vmov.16 q1[2], r2		; CHECK-NEXT: vmov.16 q1[2], r2
; CHECK-NEXT: vmov.u16 r2, q2[1]		; CHECK-NEXT: vmov.u16 r2, q0[1]
; CHECK-NEXT: vmov.16 q1[3], r2		; CHECK-NEXT: vmov.16 q1[3], r2
; CHECK-NEXT: vmov.u16 r2, q2[4]		; CHECK-NEXT: vmov.u16 r2, q0[4]
; CHECK-NEXT: vmov.16 q1[4], r2		; CHECK-NEXT: vmov.16 q1[4], r2
; CHECK-NEXT: vmov.u16 r2, q4[2]
; CHECK-NEXT: vmov.16 q5[6], r2
; CHECK-NEXT: vmov.u16 r2, q4[5]
; CHECK-NEXT: vmov.16 q5[7], r2
; CHECK-NEXT: vmov.u16 r2, q2[7]
; CHECK-NEXT: vmov.16 q1[5], r2
; CHECK-NEXT: vmov.u16 r2, q4[4]
; CHECK-NEXT: vmov.16 q6[6], r2
; CHECK-NEXT: vmov.u16 r2, q3[2]		; CHECK-NEXT: vmov.u16 r2, q3[2]
; CHECK-NEXT: vmov.f32 s7, s23		; CHECK-NEXT: vmov.16 q4[6], r2
; CHECK-NEXT: vmov.16 q5[0], r2
; CHECK-NEXT: vmov.u16 r2, q3[5]		; CHECK-NEXT: vmov.u16 r2, q3[5]
; CHECK-NEXT: vmov.16 q5[1], r2		; CHECK-NEXT: vmov.16 q4[7], r2
; CHECK-NEXT: vmov.u16 r2, q2[0]		; CHECK-NEXT: vmov.u16 r2, q0[7]
; CHECK-NEXT: vmov.16 q5[2], r2		; CHECK-NEXT: vmov.16 q1[5], r2
; CHECK-NEXT: vmov.u16 r2, q2[3]		; CHECK-NEXT: vmov.u16 r2, q3[4]
; CHECK-NEXT: vmov.16 q5[3], r2		; CHECK-NEXT: vmov.16 q5[6], r2
; CHECK-NEXT: vmov.u16 r2, q4[7]		; CHECK-NEXT: vmov.u16 r2, q2[2]
; CHECK-NEXT: vmov.16 q6[7], r2		; CHECK-NEXT: vmov.16 q6[0], r2
; CHECK-NEXT: vmov.f32 s22, s11
; CHECK-NEXT: vmov.f32 s26, s16
; CHECK-NEXT: vmov q7, q6
; CHECK-NEXT: vmov r3, s20
; CHECK-NEXT: vmovnb.i32 q7, q5
; CHECK-NEXT: vmov r12, s27
; CHECK-NEXT: vmov r2, s30
; CHECK-NEXT: vmov q6[2], q6[0], r3, r2
; CHECK-NEXT: vmov r2, s21
; CHECK-NEXT: vmov q6[3], q6[1], r2, r12
; CHECK-NEXT: vmov.u16 r2, q4[0]
; CHECK-NEXT: vmov.16 q5[5], r2
; CHECK-NEXT: vmov.u16 r2, q2[5]		; CHECK-NEXT: vmov.u16 r2, q2[5]
; CHECK-NEXT: vmovx.f16 s23, s17		; CHECK-NEXT: vmov.16 q6[1], r2
; CHECK-NEXT: vins.f16 s23, s19		; CHECK-NEXT: vmov.u16 r2, q0[0]
; CHECK-NEXT: vmovx.f16 s16, s12		; CHECK-NEXT: vmov.16 q6[2], r2
; CHECK-NEXT: vins.f16 s16, s14		; CHECK-NEXT: vmov.u16 r2, q0[3]
; CHECK-NEXT: vmovx.f16 s17, s15		; CHECK-NEXT: vmov.16 q6[3], r2
; CHECK-NEXT: vins.f16 s17, s9		; CHECK-NEXT: vmov.u16 r2, q3[7]
; CHECK-NEXT: vmov q2, q5		; CHECK-NEXT: vmov.16 q5[7], r2
; CHECK-NEXT: vmov.16 q4[4], r2		; CHECK-NEXT: vmov.f32 s26, s3
; CHECK-NEXT: vmovnb.i32 q2, q4		; CHECK-NEXT: vmov.f32 s22, s12
; CHECK-NEXT: vmov r3, s16		; CHECK-NEXT: vmov.f32 s7, s19
; CHECK-NEXT: vmov r2, s10		; CHECK-NEXT: vmov q4, q5
; CHECK-NEXT: vmov q2[2], q2[0], r3, r2		; CHECK-NEXT: vmovnb.i32 q4, q6
		; CHECK-NEXT: vmov r3, s24
		; CHECK-NEXT: vmov r2, s18
		; CHECK-NEXT: vmov q4[2], q4[0], r3, r2
; CHECK-NEXT: vmov r2, s23		; CHECK-NEXT: vmov r2, s23
; CHECK-NEXT: vmov r3, s17		; CHECK-NEXT: vins.f16 s22, s12
; CHECK-NEXT: vldrw.u32 q5, [r0, #32]		; CHECK-NEXT: vmov r3, s25
; CHECK-NEXT: vmov q2[3], q2[1], r3, r2		; CHECK-NEXT: vmovx.f16 s23, s13
; CHECK-NEXT: vadd.i16 q1, q1, q2		; CHECK-NEXT: vmov q4[3], q4[1], r3, r2
		; CHECK-NEXT: vins.f16 s23, s15
		; CHECK-NEXT: vmovx.f16 s12, s8
		; CHECK-NEXT: vins.f16 s12, s10
		; CHECK-NEXT: vmov.u16 r2, q0[5]
		; CHECK-NEXT: vmovx.f16 s13, s11
; CHECK-NEXT: vldrw.u32 q2, [r0]		; CHECK-NEXT: vldrw.u32 q2, [r0]
; CHECK-NEXT: vmov.u16 r0, q5[4]		; CHECK-NEXT: vins.f16 s13, s1
; CHECK-NEXT: vadd.i16 q1, q1, q6		; CHECK-NEXT: vmov q0, q5
		; CHECK-NEXT: vmov.16 q3[4], r2
		; CHECK-NEXT: vmovnb.i32 q0, q3
		; CHECK-NEXT: vmov r3, s12
		; CHECK-NEXT: vmov r2, s2
		; CHECK-NEXT: vmov q0[2], q0[0], r3, r2
		; CHECK-NEXT: vmov r2, s23
		; CHECK-NEXT: vmov r3, s13
		; CHECK-NEXT: vldrw.u32 q5, [r0, #32]
		; CHECK-NEXT: vmov q0[3], q0[1], r3, r2
; CHECK-NEXT: vmov.u16 r2, q2[2]		; CHECK-NEXT: vmov.u16 r2, q2[2]
; CHECK-NEXT: vmov.16 q6[6], r0		; CHECK-NEXT: vadd.i16 q0, q1, q0
		; CHECK-NEXT: vldrw.u32 q1, [r0, #16]
; CHECK-NEXT: vmov.16 q3[0], r2		; CHECK-NEXT: vmov.16 q3[0], r2
; CHECK-NEXT: vmov.u16 r2, q2[5]		; CHECK-NEXT: vmov.u16 r2, q2[5]
		; CHECK-NEXT: vmov.u16 r0, q5[4]
; CHECK-NEXT: vmov.16 q3[1], r2		; CHECK-NEXT: vmov.16 q3[1], r2
; CHECK-NEXT: vmov.u16 r2, q0[0]		; CHECK-NEXT: vmov.u16 r2, q1[0]
		; CHECK-NEXT: vmov.16 q6[6], r0
; CHECK-NEXT: vmov.u16 r0, q5[7]		; CHECK-NEXT: vmov.u16 r0, q5[7]
; CHECK-NEXT: vmov.16 q3[2], r2		; CHECK-NEXT: vmov.16 q3[2], r2
; CHECK-NEXT: vmov.16 q6[7], r0		; CHECK-NEXT: vmov.16 q6[7], r0
; CHECK-NEXT: vmov.u16 r2, q0[3]		; CHECK-NEXT: vmov.u16 r2, q1[3]
; CHECK-NEXT: vmov.16 q3[3], r2		; CHECK-NEXT: vmov.16 q3[3], r2
; CHECK-NEXT: vmov.f32 s26, s20		; CHECK-NEXT: vmov.f32 s26, s20
; CHECK-NEXT: vmov.f32 s14, s3		; CHECK-NEXT: vadd.i16 q0, q0, q4
		; CHECK-NEXT: vmov.f32 s14, s7
; CHECK-NEXT: vmov q4, q6		; CHECK-NEXT: vmov q4, q6
; CHECK-NEXT: vmovnb.i32 q4, q3
; CHECK-NEXT: vmov.u16 r2, q2[0]		; CHECK-NEXT: vmov.u16 r2, q2[0]
		; CHECK-NEXT: vmovnb.i32 q4, q3
		; CHECK-NEXT: vmov r3, s27
; CHECK-NEXT: vmov r0, s18		; CHECK-NEXT: vmov r0, s18
; CHECK-NEXT: vmov.16 q4[0], r2		; CHECK-NEXT: vmov.16 q4[0], r2
; CHECK-NEXT: vmov.u16 r2, q2[3]		; CHECK-NEXT: vmov.u16 r2, q2[3]
; CHECK-NEXT: vmov r3, s27		; CHECK-NEXT: vstrw.32 q0, [r1, #16]
; CHECK-NEXT: vmov.16 q4[1], r2		; CHECK-NEXT: vmov.16 q4[1], r2
; CHECK-NEXT: vmov.u16 r2, q2[6]		; CHECK-NEXT: vmov.u16 r2, q2[6]
; CHECK-NEXT: vmov.16 q4[2], r2		; CHECK-NEXT: vmov.16 q4[2], r2
; CHECK-NEXT: vmov.u16 r2, q0[1]		; CHECK-NEXT: vmov.u16 r2, q1[1]
; CHECK-NEXT: vmov.16 q4[3], r2		; CHECK-NEXT: vmov.16 q4[3], r2
; CHECK-NEXT: vmov.u16 r2, q0[4]		; CHECK-NEXT: vmov.u16 r2, q1[4]
; CHECK-NEXT: vmov.16 q4[4], r2		; CHECK-NEXT: vmov.16 q4[4], r2
; CHECK-NEXT: vmov.u16 r2, q5[2]		; CHECK-NEXT: vmov.u16 r2, q5[2]
; CHECK-NEXT: vmov.16 q7[6], r2		; CHECK-NEXT: vmov.16 q7[6], r2
; CHECK-NEXT: vmov.u16 r2, q5[5]		; CHECK-NEXT: vmov.u16 r2, q5[5]
; CHECK-NEXT: vmov.16 q7[7], r2		; CHECK-NEXT: vmov.16 q7[7], r2
; CHECK-NEXT: vmov.u16 r2, q0[7]		; CHECK-NEXT: vmov.u16 r2, q1[7]
; CHECK-NEXT: vmov.16 q4[5], r2		; CHECK-NEXT: vmov.16 q4[5], r2
; CHECK-NEXT: vmov r2, s12		; CHECK-NEXT: vmov r2, s12
; CHECK-NEXT: vmov q6[2], q6[0], r2, r0		; CHECK-NEXT: vmov q6[2], q6[0], r2, r0
; CHECK-NEXT: vmov r0, s13		; CHECK-NEXT: vmov r0, s13
		; CHECK-NEXT: vins.f16 s14, s20
; CHECK-NEXT: vmov q6[3], q6[1], r0, r3		; CHECK-NEXT: vmov q6[3], q6[1], r0, r3
; CHECK-NEXT: vmov.u16 r0, q5[0]
; CHECK-NEXT: vmov.16 q3[5], r0
; CHECK-NEXT: vmov.u16 r0, q0[5]
; CHECK-NEXT: vmovx.f16 s15, s21		; CHECK-NEXT: vmovx.f16 s15, s21
; CHECK-NEXT: vmov.f32 s19, s31		; CHECK-NEXT: vmov.u16 r0, q1[5]
; CHECK-NEXT: vins.f16 s15, s23		; CHECK-NEXT: vins.f16 s15, s23
; CHECK-NEXT: vmovx.f16 s20, s8		; CHECK-NEXT: vmovx.f16 s20, s8
; CHECK-NEXT: vins.f16 s20, s10		; CHECK-NEXT: vins.f16 s20, s10
; CHECK-NEXT: vstrw.32 q1, [r1, #16]		; CHECK-NEXT: vmov.f32 s19, s31
; CHECK-NEXT: vmovx.f16 s21, s11		; CHECK-NEXT: vmovx.f16 s21, s11
; CHECK-NEXT: vins.f16 s21, s1		; CHECK-NEXT: vins.f16 s21, s5
; CHECK-NEXT: vmov q0, q3		; CHECK-NEXT: vmov q1, q3
; CHECK-NEXT: vmov.16 q5[4], r0		; CHECK-NEXT: vmov.16 q5[4], r0
; CHECK-NEXT: vmovnb.i32 q0, q5		; CHECK-NEXT: vmovnb.i32 q1, q5
; CHECK-NEXT: vmov r2, s20		; CHECK-NEXT: vmov r2, s20
; CHECK-NEXT: vmov r0, s2		; CHECK-NEXT: vmov r0, s6
; CHECK-NEXT: vmov q0[2], q0[0], r2, r0		; CHECK-NEXT: vmov q1[2], q1[0], r2, r0
; CHECK-NEXT: vmov r0, s15		; CHECK-NEXT: vmov r0, s15
; CHECK-NEXT: vmov r2, s21		; CHECK-NEXT: vmov r2, s21
; CHECK-NEXT: vmov q0[3], q0[1], r2, r0		; CHECK-NEXT: vmov q1[3], q1[1], r2, r0
; CHECK-NEXT: vadd.i16 q0, q4, q0		; CHECK-NEXT: vadd.i16 q1, q4, q1
; CHECK-NEXT: vadd.i16 q0, q0, q6		; CHECK-NEXT: vadd.i16 q1, q1, q6
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q1, [r1]
; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%l1 = load <48 x i16>, <48 x i16>* %src, align 4		%l1 = load <48 x i16>, <48 x i16>* %src, align 4
%s1 = shufflevector <48 x i16> %l1, <48 x i16> undef, <16 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21, i32 24, i32 27, i32 30, i32 33, i32 36, i32 39, i32 42, i32 45>		%s1 = shufflevector <48 x i16> %l1, <48 x i16> undef, <16 x i32> <i32 0, i32 3, i32 6, i32 9, i32 12, i32 15, i32 18, i32 21, i32 24, i32 27, i32 30, i32 33, i32 36, i32 39, i32 42, i32 45>
%s2 = shufflevector <48 x i16> %l1, <48 x i16> undef, <16 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22, i32 25, i32 28, i32 31, i32 34, i32 37, i32 40, i32 43, i32 46>		%s2 = shufflevector <48 x i16> %l1, <48 x i16> undef, <16 x i32> <i32 1, i32 4, i32 7, i32 10, i32 13, i32 16, i32 19, i32 22, i32 25, i32 28, i32 31, i32 34, i32 37, i32 40, i32 43, i32 46>
%s3 = shufflevector <48 x i16> %l1, <48 x i16> undef, <16 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23, i32 26, i32 29, i32 32, i32 35, i32 38, i32 41, i32 44, i32 47>		%s3 = shufflevector <48 x i16> %l1, <48 x i16> undef, <16 x i32> <i32 2, i32 5, i32 8, i32 11, i32 14, i32 17, i32 20, i32 23, i32 26, i32 29, i32 32, i32 35, i32 38, i32 41, i32 44, i32 47>
%a1 = add <16 x i16> %s1, %s2		%a1 = add <16 x i16> %s1, %s2
▲ Show 20 Lines • Show All 94 Lines • ▼ Show 20 Lines
; CHECK-NEXT: vmov.u8 r0, q1[4]		; CHECK-NEXT: vmov.u8 r0, q1[4]
; CHECK-NEXT: vmov.16 q2[1], r0		; CHECK-NEXT: vmov.16 q2[1], r0
; CHECK-NEXT: vmov.u8 r0, q1[7]		; CHECK-NEXT: vmov.u8 r0, q1[7]
; CHECK-NEXT: vmov.16 q2[2], r0		; CHECK-NEXT: vmov.16 q2[2], r0
; CHECK-NEXT: vmov.u8 r0, q1[10]		; CHECK-NEXT: vmov.u8 r0, q1[10]
; CHECK-NEXT: vmov.16 q2[3], r0		; CHECK-NEXT: vmov.16 q2[3], r0
; CHECK-NEXT: vmov.u8 r0, q1[13]		; CHECK-NEXT: vmov.u8 r0, q1[13]
; CHECK-NEXT: vmov.16 q2[4], r0		; CHECK-NEXT: vmov.16 q2[4], r0
; CHECK-NEXT: vmov.u16 r0, q0[0]
; CHECK-NEXT: vmov.16 q2[5], r0
; CHECK-NEXT: vmov.u8 r0, q1[0]		; CHECK-NEXT: vmov.u8 r0, q1[0]
; CHECK-NEXT: vmov.16 q3[0], r0		; CHECK-NEXT: vmov.16 q3[0], r0
; CHECK-NEXT: vmov.u8 r0, q1[3]		; CHECK-NEXT: vmov.u8 r0, q1[3]
; CHECK-NEXT: vmov.16 q3[1], r0		; CHECK-NEXT: vmov.16 q3[1], r0
; CHECK-NEXT: vmov.u8 r0, q1[6]		; CHECK-NEXT: vmov.u8 r0, q1[6]
; CHECK-NEXT: vmov.16 q3[2], r0		; CHECK-NEXT: vmov.16 q3[2], r0
; CHECK-NEXT: vmov.u8 r0, q1[9]		; CHECK-NEXT: vmov.u8 r0, q1[9]
; CHECK-NEXT: vmov.16 q3[3], r0		; CHECK-NEXT: vmov.16 q3[3], r0
; CHECK-NEXT: vmov.u8 r0, q1[12]		; CHECK-NEXT: vmov.u8 r0, q1[12]
; CHECK-NEXT: vmov.16 q3[4], r0		; CHECK-NEXT: vmov.16 q3[4], r0
; CHECK-NEXT: vmov.u8 r0, q1[15]		; CHECK-NEXT: vmov.u8 r0, q1[15]
		; CHECK-NEXT: vins.f16 s10, s0
; CHECK-NEXT: vmov.16 q3[5], r0		; CHECK-NEXT: vmov.16 q3[5], r0
; CHECK-NEXT: vmov.u16 r0, q0[2]		; CHECK-NEXT: vmov.u16 r0, q0[2]
; CHECK-NEXT: vmovx.f16 s11, s1		; CHECK-NEXT: vmovx.f16 s11, s1
; CHECK-NEXT: vmov.16 q3[6], r0		; CHECK-NEXT: vmov.16 q3[6], r0
; CHECK-NEXT: vmov.u16 r0, q0[5]		; CHECK-NEXT: vmov.u16 r0, q0[5]
; CHECK-NEXT: vins.f16 s11, s3
; CHECK-NEXT: vmov.16 q3[7], r0		; CHECK-NEXT: vmov.16 q3[7], r0
		; CHECK-NEXT: vins.f16 s11, s3
; CHECK-NEXT: vmov.u8 r0, q1[2]		; CHECK-NEXT: vmov.u8 r0, q1[2]
; CHECK-NEXT: vadd.i16 q2, q3, q2		; CHECK-NEXT: vadd.i16 q2, q3, q2
; CHECK-NEXT: vmov.16 q3[0], r0		; CHECK-NEXT: vmov.16 q3[0], r0
; CHECK-NEXT: vmov.u8 r0, q1[5]		; CHECK-NEXT: vmov.u8 r0, q1[5]
; CHECK-NEXT: vmov.16 q3[1], r0		; CHECK-NEXT: vmov.16 q3[1], r0
; CHECK-NEXT: vmov.u8 r0, q1[8]		; CHECK-NEXT: vmov.u8 r0, q1[8]
; CHECK-NEXT: vmov.16 q3[2], r0		; CHECK-NEXT: vmov.16 q3[2], r0
; CHECK-NEXT: vmov.u8 r0, q1[11]		; CHECK-NEXT: vmov.u8 r0, q1[11]
▲ Show 20 Lines • Show All 851 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vst3.ll

	Show First 20 Lines • Show All 410 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vmov.u16 r0, q4[4]			; CHECK-NEXT: vmov.u16 r0, q4[4]
	; CHECK-NEXT: vmov.16 q6[4], r0			; CHECK-NEXT: vmov.16 q6[4], r0
	; CHECK-NEXT: vmov.u16 r0, q5[5]			; CHECK-NEXT: vmov.u16 r0, q5[5]
	; CHECK-NEXT: vmov.16 q6[5], r0			; CHECK-NEXT: vmov.16 q6[5], r0
	; CHECK-NEXT: vmov.u16 r0, q2[5]			; CHECK-NEXT: vmov.u16 r0, q2[5]
	; CHECK-NEXT: vmov.16 q5[0], r0			; CHECK-NEXT: vmov.16 q5[0], r0
	; CHECK-NEXT: vmov.u16 r0, q3[5]			; CHECK-NEXT: vmov.u16 r0, q3[5]
	; CHECK-NEXT: vmov.16 q5[1], r0			; CHECK-NEXT: vmov.16 q5[1], r0
	; CHECK-NEXT: vmov.u16 r0, q2[6]
	; CHECK-NEXT: vmov.16 q5[3], r0
	; CHECK-NEXT: vmov.u16 r0, q2[7]			; CHECK-NEXT: vmov.u16 r0, q2[7]
				; CHECK-NEXT: vins.f16 s21, s11
	; CHECK-NEXT: vmov.f32 s17, s25			; CHECK-NEXT: vmov.f32 s17, s25
	; CHECK-NEXT: vmov.16 q5[6], r0			; CHECK-NEXT: vmov.16 q5[6], r0
	; CHECK-NEXT: vmov.u16 r0, q3[7]			; CHECK-NEXT: vmov.u16 r0, q3[7]
	; CHECK-NEXT: vmov r2, s7			; CHECK-NEXT: vmov r2, s7
	; CHECK-NEXT: vmov.f32 s18, s26
	; CHECK-NEXT: vmov.16 q5[7], r0			; CHECK-NEXT: vmov.16 q5[7], r0
				; CHECK-NEXT: vmov.f32 s18, s26
	; CHECK-NEXT: vdup.32 q6, r2			; CHECK-NEXT: vdup.32 q6, r2
	; CHECK-NEXT: vmov.f32 s22, s15			; CHECK-NEXT: vmov.f32 s22, s15
	; CHECK-NEXT: vmov.u16 r2, q6[2]			; CHECK-NEXT: vmov.u16 r2, q6[2]
	; CHECK-NEXT: vmov.u16 r0, q5[3]			; CHECK-NEXT: vmov.u16 r0, q5[3]
	; CHECK-NEXT: vmov.16 q7[2], r2			; CHECK-NEXT: vmov.16 q7[2], r2
	; CHECK-NEXT: vmov.f32 s1, s13			; CHECK-NEXT: vmov.f32 s1, s13
	; CHECK-NEXT: vmov.16 q7[3], r0			; CHECK-NEXT: vmov.16 q7[3], r0
	; CHECK-NEXT: vmov.u16 r0, q5[4]			; CHECK-NEXT: vmov.u16 r0, q5[4]
	; CHECK-NEXT: vrev32.16 q2, q2			; CHECK-NEXT: vrev32.16 q2, q2
	; CHECK-NEXT: vmov.16 q7[4], r0			; CHECK-NEXT: vmov.16 q7[4], r0
	; CHECK-NEXT: vmov.u16 r0, q6[5]			; CHECK-NEXT: vmov.u16 r0, q6[5]
	; CHECK-NEXT: vmov.u16 r2, q2[2]			; CHECK-NEXT: vmov.u16 r2, q2[2]
	; CHECK-NEXT: vmov.f32 s2, s6			; CHECK-NEXT: vmov.f32 s2, s6
	; CHECK-NEXT: vmov.16 q7[5], r0			; CHECK-NEXT: vmov.16 q7[5], r0
	; CHECK-NEXT: vmov.u16 r0, q2[5]			; CHECK-NEXT: vmov.u16 r0, q2[5]
	; CHECK-NEXT: vmov.16 q2[2], r2			; CHECK-NEXT: vmov.16 q2[2], r2
	; CHECK-NEXT: vmov.u16 r2, q0[3]			; CHECK-NEXT: vmov.u16 r2, q0[3]
	; CHECK-NEXT: vmov.f32 s21, s29
	; CHECK-NEXT: vmov.16 q2[3], r2			; CHECK-NEXT: vmov.16 q2[3], r2
	; CHECK-NEXT: vmov.u16 r2, q0[4]			; CHECK-NEXT: vmov.u16 r2, q0[4]
	; CHECK-NEXT: vmov.16 q2[4], r2			; CHECK-NEXT: vmov.16 q2[4], r2
	; CHECK-NEXT: vmov.f32 s22, s30			; CHECK-NEXT: vmov.f32 s21, s29
	; CHECK-NEXT: vmov.16 q2[5], r0			; CHECK-NEXT: vmov.16 q2[5], r0
	; CHECK-NEXT: vstrw.32 q5, [r1, #32]			; CHECK-NEXT: vmov.f32 s22, s30
	; CHECK-NEXT: vmov.f32 s1, s9			; CHECK-NEXT: vmov.f32 s1, s9
	; CHECK-NEXT: vstrw.32 q4, [r1]			; CHECK-NEXT: vstrw.32 q5, [r1, #32]
	; CHECK-NEXT: vmov.f32 s2, s10			; CHECK-NEXT: vmov.f32 s2, s10
				; CHECK-NEXT: vstrw.32 q4, [r1]
	; CHECK-NEXT: vstrw.32 q0, [r1, #16]			; CHECK-NEXT: vstrw.32 q0, [r1, #16]
	; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}			; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%s1 = getelementptr <8 x i16>, <8 x i16>* %src, i32 0			%s1 = getelementptr <8 x i16>, <8 x i16>* %src, i32 0
	%l1 = load <8 x i16>, <8 x i16>* %s1, align 4			%l1 = load <8 x i16>, <8 x i16>* %s1, align 4
	%s2 = getelementptr <8 x i16>, <8 x i16>* %src, i32 1			%s2 = getelementptr <8 x i16>, <8 x i16>* %src, i32 1
	%l2 = load <8 x i16>, <8 x i16>* %s2, align 4			%l2 = load <8 x i16>, <8 x i16>* %s2, align 4
	%s3 = getelementptr <8 x i16>, <8 x i16>* %src, i32 2			%s3 = getelementptr <8 x i16>, <8 x i16>* %src, i32 2
	%l3 = load <8 x i16>, <8 x i16>* %s3, align 4			%l3 = load <8 x i16>, <8 x i16>* %s3, align 4
	%t1 = shufflevector <8 x i16> %l1, <8 x i16> %l2, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>			%t1 = shufflevector <8 x i16> %l1, <8 x i16> %l2, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
	%t2 = shufflevector <8 x i16> %l3, <8 x i16> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>			%t2 = shufflevector <8 x i16> %l3, <8 x i16> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef, i32 undef>
	%s = shufflevector <16 x i16> %t1, <16 x i16> %t2, <24 x i32> <i32 0, i32 8, i32 16, i32 1, i32 9, i32 17, i32 2, i32 10, i32 18, i32 3, i32 11, i32 19, i32 4, i32 12, i32 20, i32 5, i32 13, i32 21, i32 6, i32 14, i32 22, i32 7, i32 15, i32 23>			%s = shufflevector <16 x i16> %t1, <16 x i16> %t2, <24 x i32> <i32 0, i32 8, i32 16, i32 1, i32 9, i32 17, i32 2, i32 10, i32 18, i32 3, i32 11, i32 19, i32 4, i32 12, i32 20, i32 5, i32 13, i32 21, i32 6, i32 14, i32 22, i32 7, i32 15, i32 23>
	store <24 x i16> %s, <24 x i16> *%dst			store <24 x i16> %s, <24 x i16> *%dst
	ret void			ret void
	}			}

	define void @vst3_v16i16(<16 x i16> %src, <48 x i16> %dst) {			define void @vst3_v16i16(<16 x i16> %src, <48 x i16> %dst) {
	; CHECK-LABEL: vst3_v16i16:			; CHECK-LABEL: vst3_v16i16:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}			; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}
	; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}			; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}
	; CHECK-NEXT: .pad #160			; CHECK-NEXT: .pad #160
	; CHECK-NEXT: sub sp, #160			; CHECK-NEXT: sub sp, #160
	; CHECK-NEXT: vldrw.u32 q0, [r0, #16]			; CHECK-NEXT: vldrw.u32 q1, [r0, #16]
	; CHECK-NEXT: vldrw.u32 q7, [r0, #48]			; CHECK-NEXT: vldrw.u32 q0, [r0, #48]
	; CHECK-NEXT: vldrw.u32 q1, [r0, #32]			; CHECK-NEXT: vmov.f64 d4, d2
	; CHECK-NEXT: vmov.f64 d4, d0			; CHECK-NEXT: vmov.u16 r2, q0[1]
	; CHECK-NEXT: vmov.u16 r2, q7[1]			; CHECK-NEXT: vmov q6, q0
	; CHECK-NEXT: vstrw.32 q0, [sp, #128] @ 16-byte Spill			; CHECK-NEXT: vstrw.32 q1, [sp, #128] @ 16-byte Spill
	; CHECK-NEXT: vstrw.32 q1, [sp, #16] @ 16-byte Spill			; CHECK-NEXT: vstrw.32 q6, [sp, #32] @ 16-byte Spill
	; CHECK-NEXT: vins.f16 s8, s28			; CHECK-NEXT: vins.f16 s8, s0
	; CHECK-NEXT: vmov.16 q2[4], r2			; CHECK-NEXT: vmov.16 q2[4], r2
	; CHECK-NEXT: vmov.f32 s11, s1			; CHECK-NEXT: vmov.f32 s11, s5
	; CHECK-NEXT: vins.f16 s11, s29			; CHECK-NEXT: vins.f16 s11, s1
	; CHECK-NEXT: vmov q4, q2
	; CHECK-NEXT: vmov.f32 s17, s0
	; CHECK-NEXT: vldrw.u32 q0, [r0, #80]			; CHECK-NEXT: vldrw.u32 q0, [r0, #80]
	; CHECK-NEXT: vmov.u16 r2, q4[3]			; CHECK-NEXT: vmov.f32 s9, s4
	; CHECK-NEXT: vstrw.32 q4, [sp, #80] @ 16-byte Spill
	; CHECK-NEXT: vmov r3, s0			; CHECK-NEXT: vmov r3, s0
	; CHECK-NEXT: vmov q2, q0			; CHECK-NEXT: vmov q1, q0
	; CHECK-NEXT: vdup.32 q0, r3			; CHECK-NEXT: vdup.32 q0, r3
				; CHECK-NEXT: vmov.u16 r2, q2[3]
	; CHECK-NEXT: vmov.u16 r3, q0[2]			; CHECK-NEXT: vmov.u16 r3, q0[2]
	; CHECK-NEXT: vmov.16 q3[2], r3			; CHECK-NEXT: vmov q3, q2
	; CHECK-NEXT: vmov.16 q3[3], r2			; CHECK-NEXT: vstrw.32 q2, [sp, #96] @ 16-byte Spill
	; CHECK-NEXT: vmov.u16 r2, q4[4]			; CHECK-NEXT: vmov.16 q2[2], r3
	; CHECK-NEXT: vmov.16 q3[4], r2			; CHECK-NEXT: vmov.16 q2[3], r2
				; CHECK-NEXT: vmov.u16 r2, q3[4]
				; CHECK-NEXT: vldrw.u32 q3, [r0, #32]
				; CHECK-NEXT: vmov.16 q2[4], r2
	; CHECK-NEXT: vmov.u16 r2, q0[5]			; CHECK-NEXT: vmov.u16 r2, q0[5]
	; CHECK-NEXT: vldrw.u32 q0, [r0]
	; CHECK-NEXT: vmov.16 q3[5], r2
	; CHECK-NEXT: vmov.u16 r2, q1[1]
	; CHECK-NEXT: vstrw.32 q3, [sp, #96] @ 16-byte Spill
	; CHECK-NEXT: vmov.f64 d12, d0
	; CHECK-NEXT: vstrw.32 q0, [sp, #144] @ 16-byte Spill
	; CHECK-NEXT: vins.f16 s24, s4
	; CHECK-NEXT: vmov.16 q6[4], r2
	; CHECK-NEXT: vmov.f32 s27, s1
	; CHECK-NEXT: vins.f16 s27, s5
	; CHECK-NEXT: vmov.f32 s25, s0
	; CHECK-NEXT: vldrw.u32 q0, [r0, #64]			; CHECK-NEXT: vldrw.u32 q0, [r0, #64]
	; CHECK-NEXT: vmov.u16 r2, q6[3]			; CHECK-NEXT: vmov.16 q2[5], r2
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov.u16 r2, q3[5]
	; CHECK-NEXT: vmov q5, q0			; CHECK-NEXT: vmov.16 q5[0], r2
				; CHECK-NEXT: vmov.u16 r2, q0[5]
				; CHECK-NEXT: vmov.16 q5[1], r2
				; CHECK-NEXT: vstrw.32 q2, [sp, #112] @ 16-byte Spill
				; CHECK-NEXT: vldrw.u32 q2, [r0]
				; CHECK-NEXT: vins.f16 s21, s15
				; CHECK-NEXT: vmov.u16 r2, q3[7]
				; CHECK-NEXT: vstrw.32 q0, [sp, #144] @ 16-byte Spill
				; CHECK-NEXT: vmov.16 q5[6], r2
				; CHECK-NEXT: vmov.u16 r2, q0[7]
				; CHECK-NEXT: vmov.16 q5[7], r2
				; CHECK-NEXT: vmov r0, s11
				; CHECK-NEXT: vmov.f32 s22, s3
	; CHECK-NEXT: vdup.32 q0, r0			; CHECK-NEXT: vdup.32 q0, r0
	; CHECK-NEXT: vstrw.32 q5, [sp, #112] @ 16-byte Spill
	; CHECK-NEXT: vmov.u16 r0, q0[2]			; CHECK-NEXT: vmov.u16 r0, q0[2]
	; CHECK-NEXT: vmov.16 q3[2], r0			; CHECK-NEXT: vmov.u16 r2, q5[3]
	; CHECK-NEXT: vmov.u16 r0, q6[4]			; CHECK-NEXT: vmov.16 q4[2], r0
	; CHECK-NEXT: vmov.16 q3[3], r2			; CHECK-NEXT: vmov.u16 r0, q5[4]
	; CHECK-NEXT: vmov.16 q3[4], r0			; CHECK-NEXT: vmov.16 q4[3], r2
				; CHECK-NEXT: vstrw.32 q2, [sp, #48] @ 16-byte Spill
				; CHECK-NEXT: vmov.16 q4[4], r0
	; CHECK-NEXT: vmov.u16 r0, q0[5]			; CHECK-NEXT: vmov.u16 r0, q0[5]
	; CHECK-NEXT: vmov.16 q3[5], r0			; CHECK-NEXT: vmov q0, q2
	; CHECK-NEXT: vmov.u16 r0, q1[5]			; CHECK-NEXT: vmov.16 q4[5], r0
	; CHECK-NEXT: vmov.16 q4[0], r0			; CHECK-NEXT: vmov.f64 d14, d0
	; CHECK-NEXT: vmov.u16 r0, q5[5]			; CHECK-NEXT: vmov.u16 r0, q3[1]
				; CHECK-NEXT: vstrw.32 q4, [sp, #80] @ 16-byte Spill
				; CHECK-NEXT: vmov q4, q1
				; CHECK-NEXT: vstrw.32 q4, [sp, #16] @ 16-byte Spill
				; CHECK-NEXT: vins.f16 s28, s12
				; CHECK-NEXT: vmov.16 q7[4], r0
				; CHECK-NEXT: vmov.f32 s31, s1
				; CHECK-NEXT: vins.f16 s31, s13
				; CHECK-NEXT: vrev32.16 q3, q3
				; CHECK-NEXT: vmov.f32 s29, s0
	; CHECK-NEXT: vldrw.u32 q0, [sp, #144] @ 16-byte Reload			; CHECK-NEXT: vldrw.u32 q0, [sp, #144] @ 16-byte Reload
	; CHECK-NEXT: vmov.16 q4[1], r0			; CHECK-NEXT: vmov.u16 r0, q7[3]
	; CHECK-NEXT: vmov.u16 r0, q1[6]
	; CHECK-NEXT: vstrw.32 q3, [sp, #64] @ 16-byte Spill
	; CHECK-NEXT: vmov.16 q4[3], r0
	; CHECK-NEXT: vmov.u16 r0, q1[7]
	; CHECK-NEXT: vmov r2, s3
	; CHECK-NEXT: vmov.16 q4[6], r0
	; CHECK-NEXT: vmov.u16 r0, q5[7]
	; CHECK-NEXT: vdup.32 q0, r2
	; CHECK-NEXT: vmov.16 q4[7], r0
	; CHECK-NEXT: vmov.u16 r2, q0[2]
	; CHECK-NEXT: vmov.f32 s18, s23
	; CHECK-NEXT: vmov.16 q1[2], r2
	; CHECK-NEXT: vmov.u16 r0, q4[3]
	; CHECK-NEXT: vmov q3, q2
	; CHECK-NEXT: vmov.16 q1[3], r0
	; CHECK-NEXT: vmov.u16 r0, q4[4]
	; CHECK-NEXT: vmov.16 q1[4], r0
	; CHECK-NEXT: vmov.u16 r0, q0[5]
	; CHECK-NEXT: vmov.16 q1[5], r0
	; CHECK-NEXT: vmov.u16 r0, q7[5]
	; CHECK-NEXT: vstrw.32 q1, [sp, #48] @ 16-byte Spill
	; CHECK-NEXT: vmov.16 q1[0], r0
	; CHECK-NEXT: vmov.u16 r0, q2[5]
	; CHECK-NEXT: vstrw.32 q3, [sp] @ 16-byte Spill			; CHECK-NEXT: vstrw.32 q3, [sp] @ 16-byte Spill
	; CHECK-NEXT: vmov.16 q1[1], r0			; CHECK-NEXT: vmov r2, s0
	; CHECK-NEXT: vmov.u16 r0, q7[6]
	; CHECK-NEXT: vmov.16 q1[3], r0
	; CHECK-NEXT: vmov.u16 r0, q7[7]
	; CHECK-NEXT: vmov.16 q1[6], r0
	; CHECK-NEXT: vmov.u16 r0, q2[7]
	; CHECK-NEXT: vldrw.u32 q2, [sp, #128] @ 16-byte Reload
	; CHECK-NEXT: vmov.16 q1[7], r0
	; CHECK-NEXT: vmov.f32 s6, s15
	; CHECK-NEXT: vmov r2, s11
	; CHECK-NEXT: vmov.u16 r0, q1[3]
	; CHECK-NEXT: vdup.32 q0, r2			; CHECK-NEXT: vdup.32 q0, r2
	; CHECK-NEXT: vmov.u16 r2, q0[2]			; CHECK-NEXT: vmov.u16 r2, q0[2]
	; CHECK-NEXT: vmov.16 q5[2], r2			; CHECK-NEXT: vmov.16 q2[2], r2
	; CHECK-NEXT: vmov.16 q5[3], r0			; CHECK-NEXT: vmov.16 q2[3], r0
	; CHECK-NEXT: vmov.u16 r0, q1[4]			; CHECK-NEXT: vmov.u16 r0, q7[4]
	; CHECK-NEXT: vmov.16 q5[4], r0			; CHECK-NEXT: vmov.16 q2[4], r0
	; CHECK-NEXT: vmov.u16 r0, q0[5]			; CHECK-NEXT: vmov.u16 r0, q0[5]
	; CHECK-NEXT: vmov.16 q5[5], r0			; CHECK-NEXT: vmov.16 q2[5], r0
	; CHECK-NEXT: vmov.u16 r0, q3[2]			; CHECK-NEXT: vmov.u16 r0, q6[5]
	; CHECK-NEXT: vrev32.16 q0, q7
	; CHECK-NEXT: vmov.16 q7[0], r0
	; CHECK-NEXT: vmov.u16 r0, q2[3]
	; CHECK-NEXT: vstrw.32 q0, [sp, #32] @ 16-byte Spill
	; CHECK-NEXT: vmov.16 q7[1], r0
	; CHECK-NEXT: vmov.u16 r0, q3[4]
	; CHECK-NEXT: vldrw.u32 q0, [sp, #16] @ 16-byte Reload
	; CHECK-NEXT: vmov.16 q7[6], r0
	; CHECK-NEXT: vmov.u16 r0, q2[5]
	; CHECK-NEXT: vldrw.u32 q2, [sp, #112] @ 16-byte Reload
	; CHECK-NEXT: vldrw.u32 q3, [sp, #144] @ 16-byte Reload
	; CHECK-NEXT: vrev32.16 q0, q0
	; CHECK-NEXT: vmov.16 q7[7], r0
	; CHECK-NEXT: vmov.u16 r0, q2[2]
	; CHECK-NEXT: vstrw.32 q0, [sp, #16] @ 16-byte Spill
	; CHECK-NEXT: vmov.16 q0[0], r0			; CHECK-NEXT: vmov.16 q0[0], r0
	; CHECK-NEXT: vmov.u16 r0, q3[3]			; CHECK-NEXT: vmov.u16 r0, q1[5]
	; CHECK-NEXT: vmov.f32 s5, s21
	; CHECK-NEXT: vmov.16 q0[1], r0			; CHECK-NEXT: vmov.16 q0[1], r0
	; CHECK-NEXT: vmov.u16 r0, q2[4]			; CHECK-NEXT: vmov.u16 r0, q6[7]
	; CHECK-NEXT: vldrw.u32 q2, [sp, #64] @ 16-byte Reload			; CHECK-NEXT: vins.f16 s1, s27
				; CHECK-NEXT: vstrw.32 q2, [sp, #64] @ 16-byte Spill
	; CHECK-NEXT: vmov.16 q0[6], r0			; CHECK-NEXT: vmov.16 q0[6], r0
	; CHECK-NEXT: vmov.u16 r0, q3[5]			; CHECK-NEXT: vmov.u16 r0, q1[7]
	; CHECK-NEXT: vldrw.u32 q3, [sp, #80] @ 16-byte Reload			; CHECK-NEXT: vldrw.u32 q1, [sp, #128] @ 16-byte Reload
	; CHECK-NEXT: vmov.f32 s25, s9
	; CHECK-NEXT: vmov.16 q0[7], r0			; CHECK-NEXT: vmov.16 q0[7], r0
	; CHECK-NEXT: vmov.f32 s26, s10			; CHECK-NEXT: vmov.f32 s2, s19
	; CHECK-NEXT: vldrw.u32 q2, [sp, #96] @ 16-byte Reload			; CHECK-NEXT: vmov r2, s7
	; CHECK-NEXT: vmov.f32 s6, s22			; CHECK-NEXT: vmov.u16 r0, q0[3]
	; CHECK-NEXT: vstrw.32 q6, [r1]			; CHECK-NEXT: vdup.32 q6, r2
	; CHECK-NEXT: vmov.f32 s13, s9			; CHECK-NEXT: vmov.u16 r2, q6[2]
	; CHECK-NEXT: vstrw.32 q1, [r1, #80]			; CHECK-NEXT: vmov.16 q2[2], r2
	; CHECK-NEXT: vmov.f32 s14, s10			; CHECK-NEXT: vmov.16 q2[3], r0
	; CHECK-NEXT: vldrw.u32 q2, [sp, #48] @ 16-byte Reload			; CHECK-NEXT: vmov.u16 r0, q0[4]
	; CHECK-NEXT: vldrw.u32 q1, [sp, #16] @ 16-byte Reload			; CHECK-NEXT: vmov.16 q2[4], r0
	; CHECK-NEXT: vstrw.32 q3, [r1, #48]			; CHECK-NEXT: vmov.u16 r0, q6[5]
	; CHECK-NEXT: vmov.f32 s17, s9			; CHECK-NEXT: vmov.16 q2[5], r0
	; CHECK-NEXT: vmov.f32 s18, s10			; CHECK-NEXT: vmov.u16 r0, q4[2]
	; CHECK-NEXT: vldrw.u32 q2, [sp, #112] @ 16-byte Reload			; CHECK-NEXT: vmov.16 q3[0], r0
	; CHECK-NEXT: vmov.u16 r2, q1[2]			; CHECK-NEXT: vmov.u16 r0, q1[3]
				; CHECK-NEXT: vmov.16 q3[1], r0
				; CHECK-NEXT: vmov.u16 r0, q4[4]
				; CHECK-NEXT: vldrw.u32 q6, [sp, #32] @ 16-byte Reload
				; CHECK-NEXT: vmov.16 q3[6], r0
	; CHECK-NEXT: vmov.u16 r0, q1[5]			; CHECK-NEXT: vmov.u16 r0, q1[5]
				; CHECK-NEXT: vldrw.u32 q1, [sp, #144] @ 16-byte Reload
				; CHECK-NEXT: vldrw.u32 q4, [sp, #48] @ 16-byte Reload
				; CHECK-NEXT: vrev32.16 q6, q6
				; CHECK-NEXT: vmov.16 q3[7], r0
				; CHECK-NEXT: vmov.u16 r0, q1[2]
				; CHECK-NEXT: vstrw.32 q6, [sp, #32] @ 16-byte Spill
				; CHECK-NEXT: vmov.16 q6[0], r0
				; CHECK-NEXT: vmov.u16 r0, q4[3]
	; CHECK-NEXT: vmov.f32 s1, s9			; CHECK-NEXT: vmov.f32 s1, s9
	; CHECK-NEXT: vldrw.u32 q2, [sp, #144] @ 16-byte Reload			; CHECK-NEXT: vmov.16 q6[1], r0
	; CHECK-NEXT: vmov.16 q1[2], r2			; CHECK-NEXT: vmov.u16 r0, q1[4]
	; CHECK-NEXT: vstrw.32 q4, [r1, #32]			; CHECK-NEXT: vldrw.u32 q1, [sp, #64] @ 16-byte Reload
	; CHECK-NEXT: vmov.f32 s2, s10			; CHECK-NEXT: vmov.f32 s2, s10
	; CHECK-NEXT: vmov.u16 r2, q0[3]			; CHECK-NEXT: vldrw.u32 q2, [sp, #96] @ 16-byte Reload
	; CHECK-NEXT: vmov.16 q1[3], r2			; CHECK-NEXT: vmov.16 q6[6], r0
	; CHECK-NEXT: vmov.u16 r2, q0[4]
	; CHECK-NEXT: vmov.16 q1[4], r2
	; CHECK-NEXT: vmov.16 q1[5], r0
	; CHECK-NEXT: vmov.f32 s1, s5
	; CHECK-NEXT: vmov.f32 s2, s6
	; CHECK-NEXT: vldrw.u32 q1, [sp] @ 16-byte Reload
	; CHECK-NEXT: vstrw.32 q0, [r1, #16]
	; CHECK-NEXT: vldrw.u32 q0, [sp, #32] @ 16-byte Reload
	; CHECK-NEXT: vmov.f32 s29, s5			; CHECK-NEXT: vmov.f32 s29, s5
				; CHECK-NEXT: vmov.u16 r0, q4[5]
				; CHECK-NEXT: vmov.f32 s30, s6
				; CHECK-NEXT: vldrw.u32 q1, [sp, #80] @ 16-byte Reload
				; CHECK-NEXT: vstrw.32 q0, [r1, #80]
				; CHECK-NEXT: vldrw.u32 q0, [sp] @ 16-byte Reload
				; CHECK-NEXT: vmov.f32 s21, s5
				; CHECK-NEXT: vmov.16 q6[7], r0
				; CHECK-NEXT: vmov.f32 s22, s6
				; CHECK-NEXT: vldrw.u32 q1, [sp, #112] @ 16-byte Reload
				; CHECK-NEXT: vmov.u16 r2, q0[2]
				; CHECK-NEXT: vmov.u16 r0, q0[5]
				; CHECK-NEXT: vmov.f32 s9, s5
				; CHECK-NEXT: vmov.16 q0[2], r2
				; CHECK-NEXT: vmov.f32 s10, s6
				; CHECK-NEXT: vldrw.u32 q1, [sp, #144] @ 16-byte Reload
				; CHECK-NEXT: vstrw.32 q5, [r1, #32]
				; CHECK-NEXT: vstrw.32 q2, [r1, #48]
				; CHECK-NEXT: vmov.f32 s25, s5
				; CHECK-NEXT: vldrw.u32 q1, [sp, #16] @ 16-byte Reload
				; CHECK-NEXT: vmov.f32 s26, s18
				; CHECK-NEXT: vstrw.32 q7, [r1]
				; CHECK-NEXT: vmov.u16 r2, q6[3]
				; CHECK-NEXT: vmov.f32 s13, s5
				; CHECK-NEXT: vmov.16 q0[3], r2
				; CHECK-NEXT: vmov.u16 r2, q6[4]
				; CHECK-NEXT: vmov.16 q0[4], r2
	; CHECK-NEXT: vldrw.u32 q1, [sp, #128] @ 16-byte Reload			; CHECK-NEXT: vldrw.u32 q1, [sp, #128] @ 16-byte Reload
				; CHECK-NEXT: vmov.16 q0[5], r0
				; CHECK-NEXT: vmov.f32 s25, s1
				; CHECK-NEXT: vmov.f32 s26, s2
				; CHECK-NEXT: vldrw.u32 q0, [sp, #32] @ 16-byte Reload
				; CHECK-NEXT: vmov.f32 s14, s6
				; CHECK-NEXT: vstrw.32 q6, [r1, #16]
	; CHECK-NEXT: vmov.u16 r2, q0[2]			; CHECK-NEXT: vmov.u16 r2, q0[2]
	; CHECK-NEXT: vmov.u16 r0, q0[5]			; CHECK-NEXT: vmov.u16 r0, q0[5]
	; CHECK-NEXT: vmov.f32 s30, s6
	; CHECK-NEXT: vmov.16 q0[2], r2			; CHECK-NEXT: vmov.16 q0[2], r2
	; CHECK-NEXT: vmov.u16 r2, q7[3]			; CHECK-NEXT: vmov.u16 r2, q3[3]
	; CHECK-NEXT: vmov.16 q0[3], r2			; CHECK-NEXT: vmov.16 q0[3], r2
	; CHECK-NEXT: vmov.u16 r2, q7[4]			; CHECK-NEXT: vmov.u16 r2, q3[4]
	; CHECK-NEXT: vmov.16 q0[4], r2			; CHECK-NEXT: vmov.16 q0[4], r2
	; CHECK-NEXT: vmov.16 q0[5], r0			; CHECK-NEXT: vmov.16 q0[5], r0
	; CHECK-NEXT: vmov.f32 s29, s1			; CHECK-NEXT: vmov.f32 s13, s1
	; CHECK-NEXT: vmov.f32 s30, s2			; CHECK-NEXT: vmov.f32 s14, s2
	; CHECK-NEXT: vstrw.32 q7, [r1, #64]			; CHECK-NEXT: vstrw.32 q3, [r1, #64]
	; CHECK-NEXT: add sp, #160			; CHECK-NEXT: add sp, #160
	; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}			; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%s1 = getelementptr <16 x i16>, <16 x i16>* %src, i32 0			%s1 = getelementptr <16 x i16>, <16 x i16>* %src, i32 0
	%l1 = load <16 x i16>, <16 x i16>* %s1, align 4			%l1 = load <16 x i16>, <16 x i16>* %s1, align 4
	%s2 = getelementptr <16 x i16>, <16 x i16>* %src, i32 1			%s2 = getelementptr <16 x i16>, <16 x i16>* %src, i32 1
	%l2 = load <16 x i16>, <16 x i16>* %s2, align 4			%l2 = load <16 x i16>, <16 x i16>* %s2, align 4
	▲ Show 20 Lines • Show All 115 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vpush {d8, d9, d10, d11}			; CHECK-NEXT: vpush {d8, d9, d10, d11}
	; CHECK-NEXT: vldrb.u16 q1, [r0, #8]			; CHECK-NEXT: vldrb.u16 q1, [r0, #8]
	; CHECK-NEXT: vldrb.u16 q2, [r0, #16]			; CHECK-NEXT: vldrb.u16 q2, [r0, #16]
	; CHECK-NEXT: vldrb.u16 q3, [r0]			; CHECK-NEXT: vldrb.u16 q3, [r0]
	; CHECK-NEXT: vmov.u16 r2, q1[5]			; CHECK-NEXT: vmov.u16 r2, q1[5]
	; CHECK-NEXT: vmov.16 q0[0], r2			; CHECK-NEXT: vmov.16 q0[0], r2
	; CHECK-NEXT: vmov.u16 r2, q2[5]			; CHECK-NEXT: vmov.u16 r2, q2[5]
	; CHECK-NEXT: vmov.16 q0[1], r2			; CHECK-NEXT: vmov.16 q0[1], r2
	; CHECK-NEXT: vmov.u16 r2, q1[6]
	; CHECK-NEXT: vmov.16 q0[3], r2
	; CHECK-NEXT: vmov.u16 r2, q1[7]			; CHECK-NEXT: vmov.u16 r2, q1[7]
				; CHECK-NEXT: vins.f16 s1, s7
				; CHECK-NEXT: vmov r0, s15
	; CHECK-NEXT: vmov.16 q0[6], r2			; CHECK-NEXT: vmov.16 q0[6], r2
	; CHECK-NEXT: vmov.u16 r2, q2[7]			; CHECK-NEXT: vmov.u16 r2, q2[7]
	; CHECK-NEXT: vmov r0, s15
	; CHECK-NEXT: vmov.16 q0[7], r2			; CHECK-NEXT: vmov.16 q0[7], r2
	; CHECK-NEXT: vdup.32 q4, r0			; CHECK-NEXT: vdup.32 q4, r0
	; CHECK-NEXT: vmov.f32 s2, s11			; CHECK-NEXT: vmov.f32 s2, s11
	; CHECK-NEXT: vmov.u16 r0, q4[2]			; CHECK-NEXT: vmov.u16 r0, q4[2]
	; CHECK-NEXT: vmov.u16 r2, q0[3]
	; CHECK-NEXT: vmov.16 q5[2], r0			; CHECK-NEXT: vmov.16 q5[2], r0
	; CHECK-NEXT: vmov.u16 r0, q0[4]			; CHECK-NEXT: vmov.u16 r2, q0[3]
	; CHECK-NEXT: vmov.16 q5[3], r2			; CHECK-NEXT: vmov.16 q5[3], r2
				; CHECK-NEXT: vmov.u16 r0, q0[4]
	; CHECK-NEXT: vmov.16 q5[4], r0			; CHECK-NEXT: vmov.16 q5[4], r0
	; CHECK-NEXT: vmov.u16 r0, q4[5]			; CHECK-NEXT: vmov.u16 r0, q4[5]
	; CHECK-NEXT: vmov.16 q5[5], r0			; CHECK-NEXT: vmov.16 q5[5], r0
	; CHECK-NEXT: vmov.u16 r0, q3[0]			; CHECK-NEXT: vmov.u16 r0, q3[0]
	; CHECK-NEXT: vmov.8 q4[0], r0			; CHECK-NEXT: vmov.8 q4[0], r0
	; CHECK-NEXT: vmov.u16 r0, q1[0]			; CHECK-NEXT: vmov.u16 r0, q1[0]
	; CHECK-NEXT: vmov.8 q4[1], r0			; CHECK-NEXT: vmov.8 q4[1], r0
	; CHECK-NEXT: vmov.u16 r0, q2[0]			; CHECK-NEXT: vmov.u16 r0, q2[0]
	▲ Show 20 Lines • Show All 996 Lines • Show Last 20 Lines