This is an archive of the discontinued LLVM Phabricator instance.

[AArc64] Add support for insert/extract for nxv1i1 types.
ClosedPublic

Authored by sdesmalen on Jul 1 2022, 2:37 AM.

Download Raw Diff

Details

Reviewers

david-arm
kmclaughlin

Commits

rG5785717e18d5: [AArch64] Add support for insert/extract for nxv1i1 types.

Summary

This patch adds patterns and tests for subvector insert/extract
intrinsics to/from all legal predicate types.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

sdesmalen created this revision.Jul 1 2022, 2:37 AM

Herald added a project: Restricted Project. · View Herald TranscriptJul 1 2022, 2:37 AM

Herald added a subscriber: hiraditya. · View Herald Transcript

sdesmalen requested review of this revision.Jul 1 2022, 2:37 AM

Herald added a project: Restricted Project. · View Herald TranscriptJul 1 2022, 2:37 AM

Herald added a subscriber: llvm-commits. · View Herald Transcript

Harbormaster completed remote builds in B173206: Diff 441648.Jul 1 2022, 2:38 AM

david-arm added inline comments.Jul 4 2022, 7:11 AM

llvm/lib/Target/AArch64/AArch64SVEInstrInfo.td
1542	nit: whitespace change
llvm/test/CodeGen/AArch64/sve-insert-vector.ll
711	Is there value in adding a simple test that inserts <vscale x 1 x i1> into a <vscale x 1 x i1> vector? I assume that standard DAG combines will treat this as a simple copy?
992	I don't think this is a problem with your patch, but the spill and fill in this output looks unnecessary. We have enough registers to support this without spilling I think? Also, something weird seems to be happening with the offset for the spill/fill, i.e. "#7, mul vl". I assume that translates to offset = 7 x vscale x 2? It seems to fit into the stack space we've allocated, but I wonder if this is just pure luck?

david-arm added inline comments.Jul 4 2022, 7:13 AM

llvm/test/CodeGen/AArch64/sve-insert-vector.ll
992	Ah, perhaps we're actually just storing it into the top of the temporary stack space we've allocated, i.e. the top part of a "vscale x 16" byte object.

sdesmalen marked 3 inline comments as done.Jul 4 2022, 7:39 AM

sdesmalen added inline comments.

llvm/test/CodeGen/AArch64/sve-insert-vector.ll
711	I think there's little value in that because it becomes a copy straight away when building the DAG.
992	This happens because p4-p15 are callee-saved, and it needs p4 as a scratch register in this function. Ah, perhaps we're actually just storing it into the top of the temporary stack space we've allocated, i.e. the top part of a "vscale x 16" byte object. Correct. The space it allocates is aligned to <vscale x 16 x i8>, so that's the smallest space that gets allocated, but then it only stores a <vscale x 16 x i1>.

sdesmalen marked 2 inline comments as done.Jul 4 2022, 8:21 AM

sdesmalen added inline comments.

llvm/lib/Target/AArch64/AArch64SVEInstrInfo.td
1542	That was actually intentional, to cluster all the two-stage unpacks together.

LGTM!

This revision is now accepted and ready to land.Jul 4 2022, 8:31 AM

kmclaughlin accepted this revision.Jul 4 2022, 8:48 AM

This revision was landed with ongoing or failed builds.Jul 4 2022, 8:55 AM

Closed by commit rG5785717e18d5: [AArch64] Add support for insert/extract for nxv1i1 types. (authored by sdesmalen). · Explain Why

This revision was automatically updated to reflect the committed changes.

sdesmalen marked an inline comment as done.

sdesmalen added a commit: rG5785717e18d5: [AArch64] Add support for insert/extract for nxv1i1 types..

Revision Contents

Path

Size

llvm/

lib/

Target/

AArch64/

AArch64SVEInstrInfo.td

59 lines

test/

CodeGen/

AArch64/

sve-extract-scalable-vector.ll

336 lines

sve-insert-vector.ll

668 lines

Diff 442111

llvm/lib/Target/AArch64/AArch64SVEInstrInfo.td

Show First 20 Lines • Show All 1,525 Lines • ▼ Show 20 Lines	def : Pat<(nxv4i1 (extract_subvector (nxv8i1 PPR:$Ps), (i64 0))),
(PUNPKLO_PP PPR:$Ps)>;		(PUNPKLO_PP PPR:$Ps)>;
def : Pat<(nxv4i1 (extract_subvector (nxv8i1 PPR:$Ps), (i64 4))),		def : Pat<(nxv4i1 (extract_subvector (nxv8i1 PPR:$Ps), (i64 4))),
(PUNPKHI_PP PPR:$Ps)>;		(PUNPKHI_PP PPR:$Ps)>;
def : Pat<(nxv8i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 0))),		def : Pat<(nxv8i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 0))),
(PUNPKLO_PP PPR:$Ps)>;		(PUNPKLO_PP PPR:$Ps)>;
def : Pat<(nxv8i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 8))),		def : Pat<(nxv8i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 8))),
(PUNPKHI_PP PPR:$Ps)>;		(PUNPKHI_PP PPR:$Ps)>;

		def : Pat<(nxv1i1 (extract_subvector (nxv4i1 PPR:$Ps), (i64 0))),
		(PUNPKLO_PP (PUNPKLO_PP PPR:$Ps))>;
		def : Pat<(nxv1i1 (extract_subvector (nxv4i1 PPR:$Ps), (i64 1))),
		(PUNPKHI_PP (PUNPKLO_PP PPR:$Ps))>;
		def : Pat<(nxv1i1 (extract_subvector (nxv4i1 PPR:$Ps), (i64 2))),
		(PUNPKLO_PP (PUNPKHI_PP PPR:$Ps))>;
		def : Pat<(nxv1i1 (extract_subvector (nxv4i1 PPR:$Ps), (i64 3))),
		(PUNPKHI_PP (PUNPKHI_PP PPR:$Ps))>;
def : Pat<(nxv2i1 (extract_subvector (nxv8i1 PPR:$Ps), (i64 0))),		def : Pat<(nxv2i1 (extract_subvector (nxv8i1 PPR:$Ps), (i64 0))),
(PUNPKLO_PP (PUNPKLO_PP PPR:$Ps))>;		(PUNPKLO_PP (PUNPKLO_PP PPR:$Ps))>;
def : Pat<(nxv2i1 (extract_subvector (nxv8i1 PPR:$Ps), (i64 2))),		def : Pat<(nxv2i1 (extract_subvector (nxv8i1 PPR:$Ps), (i64 2))),
(PUNPKHI_PP (PUNPKLO_PP PPR:$Ps))>;		(PUNPKHI_PP (PUNPKLO_PP PPR:$Ps))>;
def : Pat<(nxv2i1 (extract_subvector (nxv8i1 PPR:$Ps), (i64 4))),		def : Pat<(nxv2i1 (extract_subvector (nxv8i1 PPR:$Ps), (i64 4))),
(PUNPKLO_PP (PUNPKHI_PP PPR:$Ps))>;		(PUNPKLO_PP (PUNPKHI_PP PPR:$Ps))>;
def : Pat<(nxv2i1 (extract_subvector (nxv8i1 PPR:$Ps), (i64 6))),		def : Pat<(nxv2i1 (extract_subvector (nxv8i1 PPR:$Ps), (i64 6))),
(PUNPKHI_PP (PUNPKHI_PP PPR:$Ps))>;		(PUNPKHI_PP (PUNPKHI_PP PPR:$Ps))>;

david-armUnsubmitted Done Reply Inline Actions nit: whitespace change david-arm: nit: whitespace change
sdesmalenAuthorUnsubmitted Done Reply Inline Actions That was actually intentional, to cluster all the two-stage unpacks together. sdesmalen: That was actually intentional, to cluster all the two-stage unpacks together.
def : Pat<(nxv4i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 0))),		def : Pat<(nxv4i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 0))),
(PUNPKLO_PP (PUNPKLO_PP PPR:$Ps))>;		(PUNPKLO_PP (PUNPKLO_PP PPR:$Ps))>;
def : Pat<(nxv4i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 4))),		def : Pat<(nxv4i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 4))),
(PUNPKHI_PP (PUNPKLO_PP PPR:$Ps))>;		(PUNPKHI_PP (PUNPKLO_PP PPR:$Ps))>;
def : Pat<(nxv4i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 8))),		def : Pat<(nxv4i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 8))),
(PUNPKLO_PP (PUNPKHI_PP PPR:$Ps))>;		(PUNPKLO_PP (PUNPKHI_PP PPR:$Ps))>;
def : Pat<(nxv4i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 12))),		def : Pat<(nxv4i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 12))),
(PUNPKHI_PP (PUNPKHI_PP PPR:$Ps))>;		(PUNPKHI_PP (PUNPKHI_PP PPR:$Ps))>;


		def : Pat<(nxv1i1 (extract_subvector (nxv8i1 PPR:$Ps), (i64 0))),
		(PUNPKLO_PP (PUNPKLO_PP (PUNPKLO_PP PPR:$Ps)))>;
		def : Pat<(nxv1i1 (extract_subvector (nxv8i1 PPR:$Ps), (i64 1))),
		(PUNPKHI_PP (PUNPKLO_PP (PUNPKLO_PP PPR:$Ps)))>;
		def : Pat<(nxv1i1 (extract_subvector (nxv8i1 PPR:$Ps), (i64 2))),
		(PUNPKLO_PP (PUNPKHI_PP (PUNPKLO_PP PPR:$Ps)))>;
		def : Pat<(nxv1i1 (extract_subvector (nxv8i1 PPR:$Ps), (i64 3))),
		(PUNPKHI_PP (PUNPKHI_PP (PUNPKLO_PP PPR:$Ps)))>;
		def : Pat<(nxv1i1 (extract_subvector (nxv8i1 PPR:$Ps), (i64 4))),
		(PUNPKLO_PP (PUNPKLO_PP (PUNPKHI_PP PPR:$Ps)))>;
		def : Pat<(nxv1i1 (extract_subvector (nxv8i1 PPR:$Ps), (i64 5))),
		(PUNPKHI_PP (PUNPKLO_PP (PUNPKHI_PP PPR:$Ps)))>;
		def : Pat<(nxv1i1 (extract_subvector (nxv8i1 PPR:$Ps), (i64 6))),
		(PUNPKLO_PP (PUNPKHI_PP (PUNPKHI_PP PPR:$Ps)))>;
		def : Pat<(nxv1i1 (extract_subvector (nxv8i1 PPR:$Ps), (i64 7))),
		(PUNPKHI_PP (PUNPKHI_PP (PUNPKHI_PP PPR:$Ps)))>;
def : Pat<(nxv2i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 0))),		def : Pat<(nxv2i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 0))),
(PUNPKLO_PP (PUNPKLO_PP (PUNPKLO_PP PPR:$Ps)))>;		(PUNPKLO_PP (PUNPKLO_PP (PUNPKLO_PP PPR:$Ps)))>;
def : Pat<(nxv2i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 2))),		def : Pat<(nxv2i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 2))),
(PUNPKHI_PP (PUNPKLO_PP (PUNPKLO_PP PPR:$Ps)))>;		(PUNPKHI_PP (PUNPKLO_PP (PUNPKLO_PP PPR:$Ps)))>;
def : Pat<(nxv2i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 4))),		def : Pat<(nxv2i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 4))),
(PUNPKLO_PP (PUNPKHI_PP (PUNPKLO_PP PPR:$Ps)))>;		(PUNPKLO_PP (PUNPKHI_PP (PUNPKLO_PP PPR:$Ps)))>;
def : Pat<(nxv2i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 6))),		def : Pat<(nxv2i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 6))),
(PUNPKHI_PP (PUNPKHI_PP (PUNPKLO_PP PPR:$Ps)))>;		(PUNPKHI_PP (PUNPKHI_PP (PUNPKLO_PP PPR:$Ps)))>;
def : Pat<(nxv2i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 8))),		def : Pat<(nxv2i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 8))),
(PUNPKLO_PP (PUNPKLO_PP (PUNPKHI_PP PPR:$Ps)))>;		(PUNPKLO_PP (PUNPKLO_PP (PUNPKHI_PP PPR:$Ps)))>;
def : Pat<(nxv2i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 10))),		def : Pat<(nxv2i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 10))),
(PUNPKHI_PP (PUNPKLO_PP (PUNPKHI_PP PPR:$Ps)))>;		(PUNPKHI_PP (PUNPKLO_PP (PUNPKHI_PP PPR:$Ps)))>;
def : Pat<(nxv2i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 12))),		def : Pat<(nxv2i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 12))),
(PUNPKLO_PP (PUNPKHI_PP (PUNPKHI_PP PPR:$Ps)))>;		(PUNPKLO_PP (PUNPKHI_PP (PUNPKHI_PP PPR:$Ps)))>;
def : Pat<(nxv2i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 14))),		def : Pat<(nxv2i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 14))),
(PUNPKHI_PP (PUNPKHI_PP (PUNPKHI_PP PPR:$Ps)))>;		(PUNPKHI_PP (PUNPKHI_PP (PUNPKHI_PP PPR:$Ps)))>;

		def : Pat<(nxv1i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 0))),
		(PUNPKLO_PP (PUNPKLO_PP (PUNPKLO_PP (PUNPKLO_PP PPR:$Ps))))>;
		def : Pat<(nxv1i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 1))),
		(PUNPKHI_PP (PUNPKLO_PP (PUNPKLO_PP (PUNPKLO_PP PPR:$Ps))))>;
		def : Pat<(nxv1i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 2))),
		(PUNPKLO_PP (PUNPKHI_PP (PUNPKLO_PP (PUNPKLO_PP PPR:$Ps))))>;
		def : Pat<(nxv1i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 3))),
		(PUNPKHI_PP (PUNPKHI_PP (PUNPKLO_PP (PUNPKLO_PP PPR:$Ps))))>;
		def : Pat<(nxv1i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 4))),
		(PUNPKLO_PP (PUNPKLO_PP (PUNPKHI_PP (PUNPKLO_PP PPR:$Ps))))>;
		def : Pat<(nxv1i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 5))),
		(PUNPKHI_PP (PUNPKLO_PP (PUNPKHI_PP (PUNPKLO_PP PPR:$Ps))))>;
		def : Pat<(nxv1i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 6))),
		(PUNPKLO_PP (PUNPKHI_PP (PUNPKHI_PP (PUNPKLO_PP PPR:$Ps))))>;
		def : Pat<(nxv1i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 7))),
		(PUNPKHI_PP (PUNPKHI_PP (PUNPKHI_PP (PUNPKLO_PP PPR:$Ps))))>;
		def : Pat<(nxv1i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 8))),
		(PUNPKLO_PP (PUNPKLO_PP (PUNPKLO_PP (PUNPKHI_PP PPR:$Ps))))>;
		def : Pat<(nxv1i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 9))),
		(PUNPKHI_PP (PUNPKLO_PP (PUNPKLO_PP (PUNPKHI_PP PPR:$Ps))))>;
		def : Pat<(nxv1i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 10))),
		(PUNPKLO_PP (PUNPKHI_PP (PUNPKLO_PP (PUNPKHI_PP PPR:$Ps))))>;
		def : Pat<(nxv1i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 11))),
		(PUNPKHI_PP (PUNPKHI_PP (PUNPKLO_PP (PUNPKHI_PP PPR:$Ps))))>;
		def : Pat<(nxv1i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 12))),
		(PUNPKLO_PP (PUNPKLO_PP (PUNPKHI_PP (PUNPKHI_PP PPR:$Ps))))>;
		def : Pat<(nxv1i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 13))),
		(PUNPKHI_PP (PUNPKLO_PP (PUNPKHI_PP (PUNPKHI_PP PPR:$Ps))))>;
		def : Pat<(nxv1i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 14))),
		(PUNPKLO_PP (PUNPKHI_PP (PUNPKHI_PP (PUNPKHI_PP PPR:$Ps))))>;
		def : Pat<(nxv1i1 (extract_subvector (nxv16i1 PPR:$Ps), (i64 15))),
		(PUNPKHI_PP (PUNPKHI_PP (PUNPKHI_PP (PUNPKHI_PP PPR:$Ps))))>;

// Extract subvectors from FP SVE vectors		// Extract subvectors from FP SVE vectors
def : Pat<(nxv2f16 (extract_subvector (nxv4f16 ZPR:$Zs), (i64 0))),		def : Pat<(nxv2f16 (extract_subvector (nxv4f16 ZPR:$Zs), (i64 0))),
(UUNPKLO_ZZ_D ZPR:$Zs)>;		(UUNPKLO_ZZ_D ZPR:$Zs)>;
def : Pat<(nxv2f16 (extract_subvector (nxv4f16 ZPR:$Zs), (i64 2))),		def : Pat<(nxv2f16 (extract_subvector (nxv4f16 ZPR:$Zs), (i64 2))),
(UUNPKHI_ZZ_D ZPR:$Zs)>;		(UUNPKHI_ZZ_D ZPR:$Zs)>;
def : Pat<(nxv4f16 (extract_subvector (nxv8f16 ZPR:$Zs), (i64 0))),		def : Pat<(nxv4f16 (extract_subvector (nxv8f16 ZPR:$Zs), (i64 0))),
(UUNPKLO_ZZ_S ZPR:$Zs)>;		(UUNPKLO_ZZ_S ZPR:$Zs)>;
def : Pat<(nxv4f16 (extract_subvector (nxv8f16 ZPR:$Zs), (i64 4))),		def : Pat<(nxv4f16 (extract_subvector (nxv8f16 ZPR:$Zs), (i64 4))),
▲ Show 20 Lines • Show All 1,837 Lines • Show Last 20 Lines

llvm/test/CodeGen/AArch64/sve-extract-scalable-vector.ll

	Show First 20 Lines • Show All 1,095 Lines • ▼ Show 20 Lines
	; CHECK-LABEL: extract_nxv1i1_nxv2i1_1:			; CHECK-LABEL: extract_nxv1i1_nxv2i1_1:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: punpkhi p0.h, p0.b			; CHECK-NEXT: punpkhi p0.h, p0.b
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%res = call <vscale x 1 x i1> @llvm.vector.extract.nxv1i1.nxv2i1(<vscale x 2 x i1> %in, i64 1)			%res = call <vscale x 1 x i1> @llvm.vector.extract.nxv1i1.nxv2i1(<vscale x 2 x i1> %in, i64 1)
	ret <vscale x 1 x i1> %res			ret <vscale x 1 x i1> %res
	}			}

				;
				; Extract nxv1i1 type from: nxv4i1
				;

				define <vscale x 1 x i1> @extract_nxv1i1_nxv4i1_0(<vscale x 4 x i1> %in) {
				; CHECK-LABEL: extract_nxv1i1_nxv4i1_0:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: ret
				%res = call <vscale x 1 x i1> @llvm.vector.extract.nxv1i1.nxv4i1(<vscale x 4 x i1> %in, i64 0)
				ret <vscale x 1 x i1> %res
				}

				define <vscale x 1 x i1> @extract_nxv1i1_nxv4i1_1(<vscale x 4 x i1> %in) {
				; CHECK-LABEL: extract_nxv1i1_nxv4i1_1:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: ret
				%res = call <vscale x 1 x i1> @llvm.vector.extract.nxv1i1.nxv4i1(<vscale x 4 x i1> %in, i64 1)
				ret <vscale x 1 x i1> %res
				}

				define <vscale x 1 x i1> @extract_nxv1i1_nxv4i1_2(<vscale x 4 x i1> %in) {
				; CHECK-LABEL: extract_nxv1i1_nxv4i1_2:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: ret
				%res = call <vscale x 1 x i1> @llvm.vector.extract.nxv1i1.nxv4i1(<vscale x 4 x i1> %in, i64 2)
				ret <vscale x 1 x i1> %res
				}

				define <vscale x 1 x i1> @extract_nxv1i1_nxv4i1_3(<vscale x 4 x i1> %in) {
				; CHECK-LABEL: extract_nxv1i1_nxv4i1_3:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: ret
				%res = call <vscale x 1 x i1> @llvm.vector.extract.nxv1i1.nxv4i1(<vscale x 4 x i1> %in, i64 3)
				ret <vscale x 1 x i1> %res
				}

				;
				; Extract nxv1i1 type from: nxv8i1
				;

				define <vscale x 1 x i1> @extract_nxv1i1_nxv8i1_0(<vscale x 8 x i1> %in) {
				; CHECK-LABEL: extract_nxv1i1_nxv8i1_0:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: ret
				%res = call <vscale x 1 x i1> @llvm.vector.extract.nxv1i1.nxv8i1(<vscale x 8 x i1> %in, i64 0)
				ret <vscale x 1 x i1> %res
				}

				define <vscale x 1 x i1> @extract_nxv1i1_nxv8i1_1(<vscale x 8 x i1> %in) {
				; CHECK-LABEL: extract_nxv1i1_nxv8i1_1:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: ret
				%res = call <vscale x 1 x i1> @llvm.vector.extract.nxv1i1.nxv8i1(<vscale x 8 x i1> %in, i64 1)
				ret <vscale x 1 x i1> %res
				}

				define <vscale x 1 x i1> @extract_nxv1i1_nxv8i1_2(<vscale x 8 x i1> %in) {
				; CHECK-LABEL: extract_nxv1i1_nxv8i1_2:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: ret
				%res = call <vscale x 1 x i1> @llvm.vector.extract.nxv1i1.nxv8i1(<vscale x 8 x i1> %in, i64 2)
				ret <vscale x 1 x i1> %res
				}

				define <vscale x 1 x i1> @extract_nxv1i1_nxv8i1_3(<vscale x 8 x i1> %in) {
				; CHECK-LABEL: extract_nxv1i1_nxv8i1_3:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: ret
				%res = call <vscale x 1 x i1> @llvm.vector.extract.nxv1i1.nxv8i1(<vscale x 8 x i1> %in, i64 3)
				ret <vscale x 1 x i1> %res
				}

				define <vscale x 1 x i1> @extract_nxv1i1_nxv8i1_4(<vscale x 8 x i1> %in) {
				; CHECK-LABEL: extract_nxv1i1_nxv8i1_4:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: ret
				%res = call <vscale x 1 x i1> @llvm.vector.extract.nxv1i1.nxv8i1(<vscale x 8 x i1> %in, i64 4)
				ret <vscale x 1 x i1> %res
				}

				define <vscale x 1 x i1> @extract_nxv1i1_nxv8i1_5(<vscale x 8 x i1> %in) {
				; CHECK-LABEL: extract_nxv1i1_nxv8i1_5:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: ret
				%res = call <vscale x 1 x i1> @llvm.vector.extract.nxv1i1.nxv8i1(<vscale x 8 x i1> %in, i64 5)
				ret <vscale x 1 x i1> %res
				}

				define <vscale x 1 x i1> @extract_nxv1i1_nxv8i1_6(<vscale x 8 x i1> %in) {
				; CHECK-LABEL: extract_nxv1i1_nxv8i1_6:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: ret
				%res = call <vscale x 1 x i1> @llvm.vector.extract.nxv1i1.nxv8i1(<vscale x 8 x i1> %in, i64 6)
				ret <vscale x 1 x i1> %res
				}

				define <vscale x 1 x i1> @extract_nxv1i1_nxv8i1_7(<vscale x 8 x i1> %in) {
				; CHECK-LABEL: extract_nxv1i1_nxv8i1_7:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: ret
				%res = call <vscale x 1 x i1> @llvm.vector.extract.nxv1i1.nxv8i1(<vscale x 8 x i1> %in, i64 7)
				ret <vscale x 1 x i1> %res
				}


				;
				; Extract nxv1i1 type from: nxv16i1
				;

				define <vscale x 1 x i1> @extract_nxv1i1_nxv16i1_0(<vscale x 16 x i1> %in) {
				; CHECK-LABEL: extract_nxv1i1_nxv16i1_0:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: ret
				%res = call <vscale x 1 x i1> @llvm.vector.extract.nxv1i1.nxv16i1(<vscale x 16 x i1> %in, i64 0)
				ret <vscale x 1 x i1> %res
				}

				define <vscale x 1 x i1> @extract_nxv1i1_nxv16i1_1(<vscale x 16 x i1> %in) {
				; CHECK-LABEL: extract_nxv1i1_nxv16i1_1:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: ret
				%res = call <vscale x 1 x i1> @llvm.vector.extract.nxv1i1.nxv16i1(<vscale x 16 x i1> %in, i64 1)
				ret <vscale x 1 x i1> %res
				}

				define <vscale x 1 x i1> @extract_nxv1i1_nxv16i1_2(<vscale x 16 x i1> %in) {
				; CHECK-LABEL: extract_nxv1i1_nxv16i1_2:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: ret
				%res = call <vscale x 1 x i1> @llvm.vector.extract.nxv1i1.nxv16i1(<vscale x 16 x i1> %in, i64 2)
				ret <vscale x 1 x i1> %res
				}

				define <vscale x 1 x i1> @extract_nxv1i1_nxv16i1_3(<vscale x 16 x i1> %in) {
				; CHECK-LABEL: extract_nxv1i1_nxv16i1_3:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: ret
				%res = call <vscale x 1 x i1> @llvm.vector.extract.nxv1i1.nxv16i1(<vscale x 16 x i1> %in, i64 3)
				ret <vscale x 1 x i1> %res
				}

				define <vscale x 1 x i1> @extract_nxv1i1_nxv16i1_4(<vscale x 16 x i1> %in) {
				; CHECK-LABEL: extract_nxv1i1_nxv16i1_4:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: ret
				%res = call <vscale x 1 x i1> @llvm.vector.extract.nxv1i1.nxv16i1(<vscale x 16 x i1> %in, i64 4)
				ret <vscale x 1 x i1> %res
				}

				define <vscale x 1 x i1> @extract_nxv1i1_nxv16i1_5(<vscale x 16 x i1> %in) {
				; CHECK-LABEL: extract_nxv1i1_nxv16i1_5:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: ret
				%res = call <vscale x 1 x i1> @llvm.vector.extract.nxv1i1.nxv16i1(<vscale x 16 x i1> %in, i64 5)
				ret <vscale x 1 x i1> %res
				}

				define <vscale x 1 x i1> @extract_nxv1i1_nxv16i1_6(<vscale x 16 x i1> %in) {
				; CHECK-LABEL: extract_nxv1i1_nxv16i1_6:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: ret
				%res = call <vscale x 1 x i1> @llvm.vector.extract.nxv1i1.nxv16i1(<vscale x 16 x i1> %in, i64 6)
				ret <vscale x 1 x i1> %res
				}

				define <vscale x 1 x i1> @extract_nxv1i1_nxv16i1_7(<vscale x 16 x i1> %in) {
				; CHECK-LABEL: extract_nxv1i1_nxv16i1_7:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: ret
				%res = call <vscale x 1 x i1> @llvm.vector.extract.nxv1i1.nxv16i1(<vscale x 16 x i1> %in, i64 7)
				ret <vscale x 1 x i1> %res
				}

				define <vscale x 1 x i1> @extract_nxv1i1_nxv16i1_8(<vscale x 16 x i1> %in) {
				; CHECK-LABEL: extract_nxv1i1_nxv16i1_8:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: ret
				%res = call <vscale x 1 x i1> @llvm.vector.extract.nxv1i1.nxv16i1(<vscale x 16 x i1> %in, i64 8)
				ret <vscale x 1 x i1> %res
				}

				define <vscale x 1 x i1> @extract_nxv1i1_nxv16i1_9(<vscale x 16 x i1> %in) {
				; CHECK-LABEL: extract_nxv1i1_nxv16i1_9:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: ret
				%res = call <vscale x 1 x i1> @llvm.vector.extract.nxv1i1.nxv16i1(<vscale x 16 x i1> %in, i64 9)
				ret <vscale x 1 x i1> %res
				}

				define <vscale x 1 x i1> @extract_nxv1i1_nxv16i1_10(<vscale x 16 x i1> %in) {
				; CHECK-LABEL: extract_nxv1i1_nxv16i1_10:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: ret
				%res = call <vscale x 1 x i1> @llvm.vector.extract.nxv1i1.nxv16i1(<vscale x 16 x i1> %in, i64 10)
				ret <vscale x 1 x i1> %res
				}

				define <vscale x 1 x i1> @extract_nxv1i1_nxv16i1_11(<vscale x 16 x i1> %in) {
				; CHECK-LABEL: extract_nxv1i1_nxv16i1_11:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: ret
				%res = call <vscale x 1 x i1> @llvm.vector.extract.nxv1i1.nxv16i1(<vscale x 16 x i1> %in, i64 11)
				ret <vscale x 1 x i1> %res
				}

				define <vscale x 1 x i1> @extract_nxv1i1_nxv16i1_12(<vscale x 16 x i1> %in) {
				; CHECK-LABEL: extract_nxv1i1_nxv16i1_12:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: ret
				%res = call <vscale x 1 x i1> @llvm.vector.extract.nxv1i1.nxv16i1(<vscale x 16 x i1> %in, i64 12)
				ret <vscale x 1 x i1> %res
				}

				define <vscale x 1 x i1> @extract_nxv1i1_nxv16i1_13(<vscale x 16 x i1> %in) {
				; CHECK-LABEL: extract_nxv1i1_nxv16i1_13:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: ret
				%res = call <vscale x 1 x i1> @llvm.vector.extract.nxv1i1.nxv16i1(<vscale x 16 x i1> %in, i64 13)
				ret <vscale x 1 x i1> %res
				}

				define <vscale x 1 x i1> @extract_nxv1i1_nxv16i1_14(<vscale x 16 x i1> %in) {
				; CHECK-LABEL: extract_nxv1i1_nxv16i1_14:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: ret
				%res = call <vscale x 1 x i1> @llvm.vector.extract.nxv1i1.nxv16i1(<vscale x 16 x i1> %in, i64 14)
				ret <vscale x 1 x i1> %res
				}

				define <vscale x 1 x i1> @extract_nxv1i1_nxv16i1_15(<vscale x 16 x i1> %in) {
				; CHECK-LABEL: extract_nxv1i1_nxv16i1_15:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: ret
				%res = call <vscale x 1 x i1> @llvm.vector.extract.nxv1i1.nxv16i1(<vscale x 16 x i1> %in, i64 15)
				ret <vscale x 1 x i1> %res
				}

	declare <vscale x 1 x i1> @llvm.vector.extract.nxv1i1.nxv2i1(<vscale x 2 x i1>, i64)			declare <vscale x 1 x i1> @llvm.vector.extract.nxv1i1.nxv2i1(<vscale x 2 x i1>, i64)
				declare <vscale x 1 x i1> @llvm.vector.extract.nxv1i1.nxv4i1(<vscale x 4 x i1>, i64)
				declare <vscale x 1 x i1> @llvm.vector.extract.nxv1i1.nxv8i1(<vscale x 8 x i1>, i64)
				declare <vscale x 1 x i1> @llvm.vector.extract.nxv1i1.nxv16i1(<vscale x 16 x i1>, i64)

llvm/test/CodeGen/AArch64/sve-insert-vector.ll

	Show First 20 Lines • Show All 702 Lines • ▼ Show 20 Lines
	; CHECK-LABEL: insert_nxv16i1_v64i1_const_true_into_undef:			; CHECK-LABEL: insert_nxv16i1_v64i1_const_true_into_undef:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: ptrue p0.b			; CHECK-NEXT: ptrue p0.b
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%v0 = call <vscale x 16 x i1> @llvm.vector.insert.nxv16i1.v64i1 (<vscale x 16 x i1> undef, <64 x i1> <i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1>, i64 0)			%v0 = call <vscale x 16 x i1> @llvm.vector.insert.nxv16i1.v64i1 (<vscale x 16 x i1> undef, <64 x i1> <i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1>, i64 0)
	ret <vscale x 16 x i1> %v0			ret <vscale x 16 x i1> %v0
	}			}

				;
				david-armUnsubmitted Done Reply Inline Actions Is there value in adding a simple test that inserts <vscale x 1 x i1> into a <vscale x 1 x i1> vector? I assume that standard DAG combines will treat this as a simple copy? david-arm: Is there value in adding a simple test that inserts <vscale x 1 x i1> into a <vscale x 1 x i1>…
				sdesmalenAuthorUnsubmitted Done Reply Inline Actions I think there's little value in that because it becomes a copy straight away when building the DAG. sdesmalen: I think there's little value in that because it becomes a copy straight away when building the…
				; Insert nxv1i1 type into: nxv2i1
				;

				define <vscale x 2 x i1> @insert_nxv1i1_nxv2i1_0(<vscale x 2 x i1> %vec, <vscale x 1 x i1> %sv) {
				; CHECK-LABEL: insert_nxv1i1_nxv2i1_0:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: uzp1 p0.d, p1.d, p0.d
				; CHECK-NEXT: ret
				%res = call <vscale x 2 x i1> @llvm.vector.insert.nxv2i1.nxv1i1(<vscale x 2 x i1> %vec, <vscale x 1 x i1> %sv, i64 0)
				ret <vscale x 2 x i1> %res
				}

				define <vscale x 2 x i1> @insert_nxv1i1_nxv2i1_1(<vscale x 2 x i1> %vec, <vscale x 1 x i1> %sv) {
				; CHECK-LABEL: insert_nxv1i1_nxv2i1_1:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: uzp1 p0.d, p0.d, p1.d
				; CHECK-NEXT: ret
				%res = call <vscale x 2 x i1> @llvm.vector.insert.nxv2i1.nxv1i1(<vscale x 2 x i1> %vec, <vscale x 1 x i1> %sv, i64 1)
				ret <vscale x 2 x i1> %res
				}

				;
				; Insert nxv1i1 type into: nxv4i1
				;

				define <vscale x 4 x i1> @insert_nxv1i1_nxv4i1_0(<vscale x 4 x i1> %vec, <vscale x 1 x i1> %sv) {
				; CHECK-LABEL: insert_nxv1i1_nxv4i1_0:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpklo p2.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpkhi p2.h, p2.b
				; CHECK-NEXT: uzp1 p1.d, p1.d, p2.d
				; CHECK-NEXT: uzp1 p0.s, p1.s, p0.s
				; CHECK-NEXT: ret
				%res = call <vscale x 4 x i1> @llvm.vector.insert.nxv4i1.nxv1i1(<vscale x 4 x i1> %vec, <vscale x 1 x i1> %sv, i64 0)
				ret <vscale x 4 x i1> %res
				}

				define <vscale x 4 x i1> @insert_nxv1i1_nxv4i1_1(<vscale x 4 x i1> %vec, <vscale x 1 x i1> %sv) {
				; CHECK-LABEL: insert_nxv1i1_nxv4i1_1:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpklo p2.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpklo p2.h, p2.b
				; CHECK-NEXT: uzp1 p1.d, p2.d, p1.d
				; CHECK-NEXT: uzp1 p0.s, p1.s, p0.s
				; CHECK-NEXT: ret
				%res = call <vscale x 4 x i1> @llvm.vector.insert.nxv4i1.nxv1i1(<vscale x 4 x i1> %vec, <vscale x 1 x i1> %sv, i64 1)
				ret <vscale x 4 x i1> %res
				}

				define <vscale x 4 x i1> @insert_nxv1i1_nxv4i1_2(<vscale x 4 x i1> %vec, <vscale x 1 x i1> %sv) {
				; CHECK-LABEL: insert_nxv1i1_nxv4i1_2:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpkhi p2.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpkhi p2.h, p2.b
				; CHECK-NEXT: uzp1 p1.d, p1.d, p2.d
				; CHECK-NEXT: uzp1 p0.s, p0.s, p1.s
				; CHECK-NEXT: ret
				%res = call <vscale x 4 x i1> @llvm.vector.insert.nxv4i1.nxv1i1(<vscale x 4 x i1> %vec, <vscale x 1 x i1> %sv, i64 2)
				ret <vscale x 4 x i1> %res
				}

				define <vscale x 4 x i1> @insert_nxv1i1_nxv4i1_3(<vscale x 4 x i1> %vec, <vscale x 1 x i1> %sv) {
				; CHECK-LABEL: insert_nxv1i1_nxv4i1_3:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpkhi p2.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpklo p2.h, p2.b
				; CHECK-NEXT: uzp1 p1.d, p2.d, p1.d
				; CHECK-NEXT: uzp1 p0.s, p0.s, p1.s
				; CHECK-NEXT: ret
				%res = call <vscale x 4 x i1> @llvm.vector.insert.nxv4i1.nxv1i1(<vscale x 4 x i1> %vec, <vscale x 1 x i1> %sv, i64 3)
				ret <vscale x 4 x i1> %res
				}

				;
				; Insert nxv1i1 type into: nxv8i1
				;

				define <vscale x 8 x i1> @insert_nxv1i1_nxv8i1_0(<vscale x 8 x i1> %vec, <vscale x 1 x i1> %sv) {
				; CHECK-LABEL: insert_nxv1i1_nxv8i1_0:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpklo p2.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpklo p3.h, p2.b
				; CHECK-NEXT: punpkhi p2.h, p2.b
				; CHECK-NEXT: punpkhi p3.h, p3.b
				; CHECK-NEXT: uzp1 p1.d, p1.d, p3.d
				; CHECK-NEXT: uzp1 p1.s, p1.s, p2.s
				; CHECK-NEXT: uzp1 p0.h, p1.h, p0.h
				; CHECK-NEXT: ret
				%res = call <vscale x 8 x i1> @llvm.vector.insert.nxv8i1.nxv1i1(<vscale x 8 x i1> %vec, <vscale x 1 x i1> %sv, i64 0)
				ret <vscale x 8 x i1> %res
				}

				define <vscale x 8 x i1> @insert_nxv1i1_nxv8i1_1(<vscale x 8 x i1> %vec, <vscale x 1 x i1> %sv) {
				; CHECK-LABEL: insert_nxv1i1_nxv8i1_1:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpklo p2.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpklo p3.h, p2.b
				; CHECK-NEXT: punpkhi p2.h, p2.b
				; CHECK-NEXT: punpklo p3.h, p3.b
				; CHECK-NEXT: uzp1 p1.d, p3.d, p1.d
				; CHECK-NEXT: uzp1 p1.s, p1.s, p2.s
				; CHECK-NEXT: uzp1 p0.h, p1.h, p0.h
				; CHECK-NEXT: ret
				%res = call <vscale x 8 x i1> @llvm.vector.insert.nxv8i1.nxv1i1(<vscale x 8 x i1> %vec, <vscale x 1 x i1> %sv, i64 1)
				ret <vscale x 8 x i1> %res
				}

				define <vscale x 8 x i1> @insert_nxv1i1_nxv8i1_2(<vscale x 8 x i1> %vec, <vscale x 1 x i1> %sv) {
				; CHECK-LABEL: insert_nxv1i1_nxv8i1_2:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpklo p2.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpkhi p3.h, p2.b
				; CHECK-NEXT: punpklo p2.h, p2.b
				; CHECK-NEXT: punpkhi p3.h, p3.b
				; CHECK-NEXT: uzp1 p1.d, p1.d, p3.d
				; CHECK-NEXT: uzp1 p1.s, p2.s, p1.s
				; CHECK-NEXT: uzp1 p0.h, p1.h, p0.h
				; CHECK-NEXT: ret
				%res = call <vscale x 8 x i1> @llvm.vector.insert.nxv8i1.nxv1i1(<vscale x 8 x i1> %vec, <vscale x 1 x i1> %sv, i64 2)
				ret <vscale x 8 x i1> %res
				}

				define <vscale x 8 x i1> @insert_nxv1i1_nxv8i1_3(<vscale x 8 x i1> %vec, <vscale x 1 x i1> %sv) {
				; CHECK-LABEL: insert_nxv1i1_nxv8i1_3:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpklo p2.h, p0.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: punpkhi p3.h, p2.b
				; CHECK-NEXT: punpklo p2.h, p2.b
				; CHECK-NEXT: punpklo p3.h, p3.b
				; CHECK-NEXT: uzp1 p1.d, p3.d, p1.d
				; CHECK-NEXT: uzp1 p1.s, p2.s, p1.s
				; CHECK-NEXT: uzp1 p0.h, p1.h, p0.h
				; CHECK-NEXT: ret
				%res = call <vscale x 8 x i1> @llvm.vector.insert.nxv8i1.nxv1i1(<vscale x 8 x i1> %vec, <vscale x 1 x i1> %sv, i64 3)
				ret <vscale x 8 x i1> %res
				}

				define <vscale x 8 x i1> @insert_nxv1i1_nxv8i1_4(<vscale x 8 x i1> %vec, <vscale x 1 x i1> %sv) {
				; CHECK-LABEL: insert_nxv1i1_nxv8i1_4:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpkhi p2.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpklo p3.h, p2.b
				; CHECK-NEXT: punpkhi p2.h, p2.b
				; CHECK-NEXT: punpkhi p3.h, p3.b
				; CHECK-NEXT: uzp1 p1.d, p1.d, p3.d
				; CHECK-NEXT: uzp1 p1.s, p1.s, p2.s
				; CHECK-NEXT: uzp1 p0.h, p0.h, p1.h
				; CHECK-NEXT: ret
				%res = call <vscale x 8 x i1> @llvm.vector.insert.nxv8i1.nxv1i1(<vscale x 8 x i1> %vec, <vscale x 1 x i1> %sv, i64 4)
				ret <vscale x 8 x i1> %res
				}

				define <vscale x 8 x i1> @insert_nxv1i1_nxv8i1_5(<vscale x 8 x i1> %vec, <vscale x 1 x i1> %sv) {
				; CHECK-LABEL: insert_nxv1i1_nxv8i1_5:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpkhi p2.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpklo p3.h, p2.b
				; CHECK-NEXT: punpkhi p2.h, p2.b
				; CHECK-NEXT: punpklo p3.h, p3.b
				; CHECK-NEXT: uzp1 p1.d, p3.d, p1.d
				; CHECK-NEXT: uzp1 p1.s, p1.s, p2.s
				; CHECK-NEXT: uzp1 p0.h, p0.h, p1.h
				; CHECK-NEXT: ret
				%res = call <vscale x 8 x i1> @llvm.vector.insert.nxv8i1.nxv1i1(<vscale x 8 x i1> %vec, <vscale x 1 x i1> %sv, i64 5)
				ret <vscale x 8 x i1> %res
				}

				define <vscale x 8 x i1> @insert_nxv1i1_nxv8i1_6(<vscale x 8 x i1> %vec, <vscale x 1 x i1> %sv) {
				; CHECK-LABEL: insert_nxv1i1_nxv8i1_6:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpkhi p2.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpkhi p3.h, p2.b
				; CHECK-NEXT: punpklo p2.h, p2.b
				; CHECK-NEXT: punpkhi p3.h, p3.b
				; CHECK-NEXT: uzp1 p1.d, p1.d, p3.d
				; CHECK-NEXT: uzp1 p1.s, p2.s, p1.s
				; CHECK-NEXT: uzp1 p0.h, p0.h, p1.h
				; CHECK-NEXT: ret
				%res = call <vscale x 8 x i1> @llvm.vector.insert.nxv8i1.nxv1i1(<vscale x 8 x i1> %vec, <vscale x 1 x i1> %sv, i64 6)
				ret <vscale x 8 x i1> %res
				}

				define <vscale x 8 x i1> @insert_nxv1i1_nxv8i1_7(<vscale x 8 x i1> %vec, <vscale x 1 x i1> %sv) {
				; CHECK-LABEL: insert_nxv1i1_nxv8i1_7:
				; CHECK: // %bb.0:
				; CHECK-NEXT: punpkhi p2.h, p0.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: punpkhi p3.h, p2.b
				; CHECK-NEXT: punpklo p2.h, p2.b
				; CHECK-NEXT: punpklo p3.h, p3.b
				; CHECK-NEXT: uzp1 p1.d, p3.d, p1.d
				; CHECK-NEXT: uzp1 p1.s, p2.s, p1.s
				; CHECK-NEXT: uzp1 p0.h, p0.h, p1.h
				; CHECK-NEXT: ret
				%res = call <vscale x 8 x i1> @llvm.vector.insert.nxv8i1.nxv1i1(<vscale x 8 x i1> %vec, <vscale x 1 x i1> %sv, i64 7)
				ret <vscale x 8 x i1> %res
				}

				;
				; Insert nxv1i1 type into: nxv16i1
				;

				define <vscale x 16 x i1> @insert_nxv1i1_nxv16i1_0(<vscale x 16 x i1> %vec, <vscale x 1 x i1> %sv) {
				; CHECK-LABEL: insert_nxv1i1_nxv16i1_0:
				; CHECK: // %bb.0:
				; CHECK-NEXT: str x29, [sp, #-16]! // 8-byte Folded Spill
				; CHECK-NEXT: .cfi_def_cfa_offset 16
				; CHECK-NEXT: .cfi_offset w29, -16
				; CHECK-NEXT: addvl sp, sp, #-1
				; CHECK-NEXT: .cfi_escape 0x0f, 0x0c, 0x8f, 0x00, 0x11, 0x10, 0x22, 0x11, 0x08, 0x92, 0x2e, 0x00, 0x1e, 0x22 // sp + 16 + 8 * VG
				; CHECK-NEXT: punpklo p2.h, p0.b
				; CHECK-NEXT: str p4, [sp, #7, mul vl] // 2-byte Folded Spill
				; CHECK-NEXT: punpklo p3.h, p2.b
				; CHECK-NEXT: punpkhi p2.h, p2.b
				; CHECK-NEXT: punpklo p4.h, p3.b
				; CHECK-NEXT: punpkhi p3.h, p3.b
				; CHECK-NEXT: punpkhi p4.h, p4.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: uzp1 p1.d, p1.d, p4.d
				; CHECK-NEXT: ldr p4, [sp, #7, mul vl] // 2-byte Folded Reload
				; CHECK-NEXT: uzp1 p1.s, p1.s, p3.s
				; CHECK-NEXT: uzp1 p1.h, p1.h, p2.h
				; CHECK-NEXT: uzp1 p0.b, p1.b, p0.b
				; CHECK-NEXT: addvl sp, sp, #1
				; CHECK-NEXT: ldr x29, [sp], #16 // 8-byte Folded Reload
				; CHECK-NEXT: ret
				%res = call <vscale x 16 x i1> @llvm.vector.insert.nxv16i1.nxv1i1(<vscale x 16 x i1> %vec, <vscale x 1 x i1> %sv, i64 0)
				ret <vscale x 16 x i1> %res
				}

				define <vscale x 16 x i1> @insert_nxv1i1_nxv16i1_1(<vscale x 16 x i1> %vec, <vscale x 1 x i1> %sv) {
				; CHECK-LABEL: insert_nxv1i1_nxv16i1_1:
				; CHECK: // %bb.0:
				; CHECK-NEXT: str x29, [sp, #-16]! // 8-byte Folded Spill
				; CHECK-NEXT: .cfi_def_cfa_offset 16
				; CHECK-NEXT: .cfi_offset w29, -16
				; CHECK-NEXT: addvl sp, sp, #-1
				; CHECK-NEXT: .cfi_escape 0x0f, 0x0c, 0x8f, 0x00, 0x11, 0x10, 0x22, 0x11, 0x08, 0x92, 0x2e, 0x00, 0x1e, 0x22 // sp + 16 + 8 * VG
				; CHECK-NEXT: punpklo p2.h, p0.b
				; CHECK-NEXT: str p4, [sp, #7, mul vl] // 2-byte Folded Spill
				; CHECK-NEXT: punpklo p3.h, p2.b
				; CHECK-NEXT: punpkhi p2.h, p2.b
				; CHECK-NEXT: punpklo p4.h, p3.b
				; CHECK-NEXT: punpkhi p3.h, p3.b
				; CHECK-NEXT: punpklo p4.h, p4.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: uzp1 p1.d, p4.d, p1.d
				; CHECK-NEXT: ldr p4, [sp, #7, mul vl] // 2-byte Folded Reload
				; CHECK-NEXT: uzp1 p1.s, p1.s, p3.s
				; CHECK-NEXT: uzp1 p1.h, p1.h, p2.h
				; CHECK-NEXT: uzp1 p0.b, p1.b, p0.b
				; CHECK-NEXT: addvl sp, sp, #1
				; CHECK-NEXT: ldr x29, [sp], #16 // 8-byte Folded Reload
				; CHECK-NEXT: ret
				%res = call <vscale x 16 x i1> @llvm.vector.insert.nxv16i1.nxv1i1(<vscale x 16 x i1> %vec, <vscale x 1 x i1> %sv, i64 1)
				ret <vscale x 16 x i1> %res
				}

				define <vscale x 16 x i1> @insert_nxv1i1_nxv16i1_2(<vscale x 16 x i1> %vec, <vscale x 1 x i1> %sv) {
				; CHECK-LABEL: insert_nxv1i1_nxv16i1_2:
				; CHECK: // %bb.0:
				; CHECK-NEXT: str x29, [sp, #-16]! // 8-byte Folded Spill
				; CHECK-NEXT: .cfi_def_cfa_offset 16
				; CHECK-NEXT: .cfi_offset w29, -16
				; CHECK-NEXT: addvl sp, sp, #-1
				; CHECK-NEXT: .cfi_escape 0x0f, 0x0c, 0x8f, 0x00, 0x11, 0x10, 0x22, 0x11, 0x08, 0x92, 0x2e, 0x00, 0x1e, 0x22 // sp + 16 + 8 * VG
				; CHECK-NEXT: punpklo p2.h, p0.b
				; CHECK-NEXT: str p4, [sp, #7, mul vl] // 2-byte Folded Spill
				david-armUnsubmitted Done Reply Inline Actions I don't think this is a problem with your patch, but the spill and fill in this output looks unnecessary. We have enough registers to support this without spilling I think? Also, something weird seems to be happening with the offset for the spill/fill, i.e. "#7, mul vl". I assume that translates to offset = 7 x vscale x 2? It seems to fit into the stack space we've allocated, but I wonder if this is just pure luck? david-arm: I don't think this is a problem with your patch, but the spill and fill in this output looks…
				david-armUnsubmitted Done Reply Inline Actions Ah, perhaps we're actually just storing it into the top of the temporary stack space we've allocated, i.e. the top part of a "vscale x 16" byte object. david-arm: Ah, perhaps we're actually just storing it into the top of the temporary stack space we've…
				sdesmalenAuthorUnsubmitted Done Reply Inline Actions This happens because p4-p15 are callee-saved, and it needs p4 as a scratch register in this function. Ah, perhaps we're actually just storing it into the top of the temporary stack space we've allocated, i.e. the top part of a "vscale x 16" byte object. Correct. The space it allocates is aligned to <vscale x 16 x i8>, so that's the smallest space that gets allocated, but then it only stores a <vscale x 16 x i1>. sdesmalen: This happens because p4-p15 are callee-saved, and it needs p4 as a scratch register in this…
				; CHECK-NEXT: punpklo p3.h, p2.b
				; CHECK-NEXT: punpkhi p2.h, p2.b
				; CHECK-NEXT: punpkhi p4.h, p3.b
				; CHECK-NEXT: punpklo p3.h, p3.b
				; CHECK-NEXT: punpkhi p4.h, p4.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: uzp1 p1.d, p1.d, p4.d
				; CHECK-NEXT: ldr p4, [sp, #7, mul vl] // 2-byte Folded Reload
				; CHECK-NEXT: uzp1 p1.s, p3.s, p1.s
				; CHECK-NEXT: uzp1 p1.h, p1.h, p2.h
				; CHECK-NEXT: uzp1 p0.b, p1.b, p0.b
				; CHECK-NEXT: addvl sp, sp, #1
				; CHECK-NEXT: ldr x29, [sp], #16 // 8-byte Folded Reload
				; CHECK-NEXT: ret
				%res = call <vscale x 16 x i1> @llvm.vector.insert.nxv16i1.nxv1i1(<vscale x 16 x i1> %vec, <vscale x 1 x i1> %sv, i64 2)
				ret <vscale x 16 x i1> %res
				}

				define <vscale x 16 x i1> @insert_nxv1i1_nxv16i1_3(<vscale x 16 x i1> %vec, <vscale x 1 x i1> %sv) {
				; CHECK-LABEL: insert_nxv1i1_nxv16i1_3:
				; CHECK: // %bb.0:
				; CHECK-NEXT: str x29, [sp, #-16]! // 8-byte Folded Spill
				; CHECK-NEXT: .cfi_def_cfa_offset 16
				; CHECK-NEXT: .cfi_offset w29, -16
				; CHECK-NEXT: addvl sp, sp, #-1
				; CHECK-NEXT: .cfi_escape 0x0f, 0x0c, 0x8f, 0x00, 0x11, 0x10, 0x22, 0x11, 0x08, 0x92, 0x2e, 0x00, 0x1e, 0x22 // sp + 16 + 8 * VG
				; CHECK-NEXT: punpklo p2.h, p0.b
				; CHECK-NEXT: str p4, [sp, #7, mul vl] // 2-byte Folded Spill
				; CHECK-NEXT: punpklo p3.h, p2.b
				; CHECK-NEXT: punpkhi p2.h, p2.b
				; CHECK-NEXT: punpkhi p4.h, p3.b
				; CHECK-NEXT: punpklo p3.h, p3.b
				; CHECK-NEXT: punpklo p4.h, p4.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: uzp1 p1.d, p4.d, p1.d
				; CHECK-NEXT: ldr p4, [sp, #7, mul vl] // 2-byte Folded Reload
				; CHECK-NEXT: uzp1 p1.s, p3.s, p1.s
				; CHECK-NEXT: uzp1 p1.h, p1.h, p2.h
				; CHECK-NEXT: uzp1 p0.b, p1.b, p0.b
				; CHECK-NEXT: addvl sp, sp, #1
				; CHECK-NEXT: ldr x29, [sp], #16 // 8-byte Folded Reload
				; CHECK-NEXT: ret
				%res = call <vscale x 16 x i1> @llvm.vector.insert.nxv16i1.nxv1i1(<vscale x 16 x i1> %vec, <vscale x 1 x i1> %sv, i64 3)
				ret <vscale x 16 x i1> %res
				}

				define <vscale x 16 x i1> @insert_nxv1i1_nxv16i1_4(<vscale x 16 x i1> %vec, <vscale x 1 x i1> %sv) {
				; CHECK-LABEL: insert_nxv1i1_nxv16i1_4:
				; CHECK: // %bb.0:
				; CHECK-NEXT: str x29, [sp, #-16]! // 8-byte Folded Spill
				; CHECK-NEXT: .cfi_def_cfa_offset 16
				; CHECK-NEXT: .cfi_offset w29, -16
				; CHECK-NEXT: addvl sp, sp, #-1
				; CHECK-NEXT: .cfi_escape 0x0f, 0x0c, 0x8f, 0x00, 0x11, 0x10, 0x22, 0x11, 0x08, 0x92, 0x2e, 0x00, 0x1e, 0x22 // sp + 16 + 8 * VG
				; CHECK-NEXT: punpklo p2.h, p0.b
				; CHECK-NEXT: str p4, [sp, #7, mul vl] // 2-byte Folded Spill
				; CHECK-NEXT: punpkhi p3.h, p2.b
				; CHECK-NEXT: punpklo p2.h, p2.b
				; CHECK-NEXT: punpklo p4.h, p3.b
				; CHECK-NEXT: punpkhi p3.h, p3.b
				; CHECK-NEXT: punpkhi p4.h, p4.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: uzp1 p1.d, p1.d, p4.d
				; CHECK-NEXT: ldr p4, [sp, #7, mul vl] // 2-byte Folded Reload
				; CHECK-NEXT: uzp1 p1.s, p1.s, p3.s
				; CHECK-NEXT: uzp1 p1.h, p2.h, p1.h
				; CHECK-NEXT: uzp1 p0.b, p1.b, p0.b
				; CHECK-NEXT: addvl sp, sp, #1
				; CHECK-NEXT: ldr x29, [sp], #16 // 8-byte Folded Reload
				; CHECK-NEXT: ret
				%res = call <vscale x 16 x i1> @llvm.vector.insert.nxv16i1.nxv1i1(<vscale x 16 x i1> %vec, <vscale x 1 x i1> %sv, i64 4)
				ret <vscale x 16 x i1> %res
				}

				define <vscale x 16 x i1> @insert_nxv1i1_nxv16i1_5(<vscale x 16 x i1> %vec, <vscale x 1 x i1> %sv) {
				; CHECK-LABEL: insert_nxv1i1_nxv16i1_5:
				; CHECK: // %bb.0:
				; CHECK-NEXT: str x29, [sp, #-16]! // 8-byte Folded Spill
				; CHECK-NEXT: .cfi_def_cfa_offset 16
				; CHECK-NEXT: .cfi_offset w29, -16
				; CHECK-NEXT: addvl sp, sp, #-1
				; CHECK-NEXT: .cfi_escape 0x0f, 0x0c, 0x8f, 0x00, 0x11, 0x10, 0x22, 0x11, 0x08, 0x92, 0x2e, 0x00, 0x1e, 0x22 // sp + 16 + 8 * VG
				; CHECK-NEXT: punpklo p2.h, p0.b
				; CHECK-NEXT: str p4, [sp, #7, mul vl] // 2-byte Folded Spill
				; CHECK-NEXT: punpkhi p3.h, p2.b
				; CHECK-NEXT: punpklo p2.h, p2.b
				; CHECK-NEXT: punpklo p4.h, p3.b
				; CHECK-NEXT: punpkhi p3.h, p3.b
				; CHECK-NEXT: punpklo p4.h, p4.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: uzp1 p1.d, p4.d, p1.d
				; CHECK-NEXT: ldr p4, [sp, #7, mul vl] // 2-byte Folded Reload
				; CHECK-NEXT: uzp1 p1.s, p1.s, p3.s
				; CHECK-NEXT: uzp1 p1.h, p2.h, p1.h
				; CHECK-NEXT: uzp1 p0.b, p1.b, p0.b
				; CHECK-NEXT: addvl sp, sp, #1
				; CHECK-NEXT: ldr x29, [sp], #16 // 8-byte Folded Reload
				; CHECK-NEXT: ret
				%res = call <vscale x 16 x i1> @llvm.vector.insert.nxv16i1.nxv1i1(<vscale x 16 x i1> %vec, <vscale x 1 x i1> %sv, i64 5)
				ret <vscale x 16 x i1> %res
				}

				define <vscale x 16 x i1> @insert_nxv1i1_nxv16i1_6(<vscale x 16 x i1> %vec, <vscale x 1 x i1> %sv) {
				; CHECK-LABEL: insert_nxv1i1_nxv16i1_6:
				; CHECK: // %bb.0:
				; CHECK-NEXT: str x29, [sp, #-16]! // 8-byte Folded Spill
				; CHECK-NEXT: .cfi_def_cfa_offset 16
				; CHECK-NEXT: .cfi_offset w29, -16
				; CHECK-NEXT: addvl sp, sp, #-1
				; CHECK-NEXT: .cfi_escape 0x0f, 0x0c, 0x8f, 0x00, 0x11, 0x10, 0x22, 0x11, 0x08, 0x92, 0x2e, 0x00, 0x1e, 0x22 // sp + 16 + 8 * VG
				; CHECK-NEXT: punpklo p2.h, p0.b
				; CHECK-NEXT: str p4, [sp, #7, mul vl] // 2-byte Folded Spill
				; CHECK-NEXT: punpkhi p3.h, p2.b
				; CHECK-NEXT: punpklo p2.h, p2.b
				; CHECK-NEXT: punpkhi p4.h, p3.b
				; CHECK-NEXT: punpklo p3.h, p3.b
				; CHECK-NEXT: punpkhi p4.h, p4.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: uzp1 p1.d, p1.d, p4.d
				; CHECK-NEXT: ldr p4, [sp, #7, mul vl] // 2-byte Folded Reload
				; CHECK-NEXT: uzp1 p1.s, p3.s, p1.s
				; CHECK-NEXT: uzp1 p1.h, p2.h, p1.h
				; CHECK-NEXT: uzp1 p0.b, p1.b, p0.b
				; CHECK-NEXT: addvl sp, sp, #1
				; CHECK-NEXT: ldr x29, [sp], #16 // 8-byte Folded Reload
				; CHECK-NEXT: ret
				%res = call <vscale x 16 x i1> @llvm.vector.insert.nxv16i1.nxv1i1(<vscale x 16 x i1> %vec, <vscale x 1 x i1> %sv, i64 6)
				ret <vscale x 16 x i1> %res
				}

				define <vscale x 16 x i1> @insert_nxv1i1_nxv16i1_7(<vscale x 16 x i1> %vec, <vscale x 1 x i1> %sv) {
				; CHECK-LABEL: insert_nxv1i1_nxv16i1_7:
				; CHECK: // %bb.0:
				; CHECK-NEXT: str x29, [sp, #-16]! // 8-byte Folded Spill
				; CHECK-NEXT: .cfi_def_cfa_offset 16
				; CHECK-NEXT: .cfi_offset w29, -16
				; CHECK-NEXT: addvl sp, sp, #-1
				; CHECK-NEXT: .cfi_escape 0x0f, 0x0c, 0x8f, 0x00, 0x11, 0x10, 0x22, 0x11, 0x08, 0x92, 0x2e, 0x00, 0x1e, 0x22 // sp + 16 + 8 * VG
				; CHECK-NEXT: punpklo p2.h, p0.b
				; CHECK-NEXT: str p4, [sp, #7, mul vl] // 2-byte Folded Spill
				; CHECK-NEXT: punpkhi p3.h, p2.b
				; CHECK-NEXT: punpklo p2.h, p2.b
				; CHECK-NEXT: punpkhi p4.h, p3.b
				; CHECK-NEXT: punpklo p3.h, p3.b
				; CHECK-NEXT: punpklo p4.h, p4.b
				; CHECK-NEXT: punpkhi p0.h, p0.b
				; CHECK-NEXT: uzp1 p1.d, p4.d, p1.d
				; CHECK-NEXT: ldr p4, [sp, #7, mul vl] // 2-byte Folded Reload
				; CHECK-NEXT: uzp1 p1.s, p3.s, p1.s
				; CHECK-NEXT: uzp1 p1.h, p2.h, p1.h
				; CHECK-NEXT: uzp1 p0.b, p1.b, p0.b
				; CHECK-NEXT: addvl sp, sp, #1
				; CHECK-NEXT: ldr x29, [sp], #16 // 8-byte Folded Reload
				; CHECK-NEXT: ret
				%res = call <vscale x 16 x i1> @llvm.vector.insert.nxv16i1.nxv1i1(<vscale x 16 x i1> %vec, <vscale x 1 x i1> %sv, i64 7)
				ret <vscale x 16 x i1> %res
				}

				define <vscale x 16 x i1> @insert_nxv1i1_nxv16i1_8(<vscale x 16 x i1> %vec, <vscale x 1 x i1> %sv) {
				; CHECK-LABEL: insert_nxv1i1_nxv16i1_8:
				; CHECK: // %bb.0:
				; CHECK-NEXT: str x29, [sp, #-16]! // 8-byte Folded Spill
				; CHECK-NEXT: .cfi_def_cfa_offset 16
				; CHECK-NEXT: .cfi_offset w29, -16
				; CHECK-NEXT: addvl sp, sp, #-1
				; CHECK-NEXT: .cfi_escape 0x0f, 0x0c, 0x8f, 0x00, 0x11, 0x10, 0x22, 0x11, 0x08, 0x92, 0x2e, 0x00, 0x1e, 0x22 // sp + 16 + 8 * VG
				; CHECK-NEXT: punpkhi p2.h, p0.b
				; CHECK-NEXT: str p4, [sp, #7, mul vl] // 2-byte Folded Spill
				; CHECK-NEXT: punpklo p3.h, p2.b
				; CHECK-NEXT: punpkhi p2.h, p2.b
				; CHECK-NEXT: punpklo p4.h, p3.b
				; CHECK-NEXT: punpkhi p3.h, p3.b
				; CHECK-NEXT: punpkhi p4.h, p4.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: uzp1 p1.d, p1.d, p4.d
				; CHECK-NEXT: ldr p4, [sp, #7, mul vl] // 2-byte Folded Reload
				; CHECK-NEXT: uzp1 p1.s, p1.s, p3.s
				; CHECK-NEXT: uzp1 p1.h, p1.h, p2.h
				; CHECK-NEXT: uzp1 p0.b, p0.b, p1.b
				; CHECK-NEXT: addvl sp, sp, #1
				; CHECK-NEXT: ldr x29, [sp], #16 // 8-byte Folded Reload
				; CHECK-NEXT: ret
				%res = call <vscale x 16 x i1> @llvm.vector.insert.nxv16i1.nxv1i1(<vscale x 16 x i1> %vec, <vscale x 1 x i1> %sv, i64 8)
				ret <vscale x 16 x i1> %res
				}

				define <vscale x 16 x i1> @insert_nxv1i1_nxv16i1_9(<vscale x 16 x i1> %vec, <vscale x 1 x i1> %sv) {
				; CHECK-LABEL: insert_nxv1i1_nxv16i1_9:
				; CHECK: // %bb.0:
				; CHECK-NEXT: str x29, [sp, #-16]! // 8-byte Folded Spill
				; CHECK-NEXT: .cfi_def_cfa_offset 16
				; CHECK-NEXT: .cfi_offset w29, -16
				; CHECK-NEXT: addvl sp, sp, #-1
				; CHECK-NEXT: .cfi_escape 0x0f, 0x0c, 0x8f, 0x00, 0x11, 0x10, 0x22, 0x11, 0x08, 0x92, 0x2e, 0x00, 0x1e, 0x22 // sp + 16 + 8 * VG
				; CHECK-NEXT: punpkhi p2.h, p0.b
				; CHECK-NEXT: str p4, [sp, #7, mul vl] // 2-byte Folded Spill
				; CHECK-NEXT: punpklo p3.h, p2.b
				; CHECK-NEXT: punpkhi p2.h, p2.b
				; CHECK-NEXT: punpklo p4.h, p3.b
				; CHECK-NEXT: punpkhi p3.h, p3.b
				; CHECK-NEXT: punpklo p4.h, p4.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: uzp1 p1.d, p4.d, p1.d
				; CHECK-NEXT: ldr p4, [sp, #7, mul vl] // 2-byte Folded Reload
				; CHECK-NEXT: uzp1 p1.s, p1.s, p3.s
				; CHECK-NEXT: uzp1 p1.h, p1.h, p2.h
				; CHECK-NEXT: uzp1 p0.b, p0.b, p1.b
				; CHECK-NEXT: addvl sp, sp, #1
				; CHECK-NEXT: ldr x29, [sp], #16 // 8-byte Folded Reload
				; CHECK-NEXT: ret
				%res = call <vscale x 16 x i1> @llvm.vector.insert.nxv16i1.nxv1i1(<vscale x 16 x i1> %vec, <vscale x 1 x i1> %sv, i64 9)
				ret <vscale x 16 x i1> %res
				}

				define <vscale x 16 x i1> @insert_nxv1i1_nxv16i1_10(<vscale x 16 x i1> %vec, <vscale x 1 x i1> %sv) {
				; CHECK-LABEL: insert_nxv1i1_nxv16i1_10:
				; CHECK: // %bb.0:
				; CHECK-NEXT: str x29, [sp, #-16]! // 8-byte Folded Spill
				; CHECK-NEXT: .cfi_def_cfa_offset 16
				; CHECK-NEXT: .cfi_offset w29, -16
				; CHECK-NEXT: addvl sp, sp, #-1
				; CHECK-NEXT: .cfi_escape 0x0f, 0x0c, 0x8f, 0x00, 0x11, 0x10, 0x22, 0x11, 0x08, 0x92, 0x2e, 0x00, 0x1e, 0x22 // sp + 16 + 8 * VG
				; CHECK-NEXT: punpkhi p2.h, p0.b
				; CHECK-NEXT: str p4, [sp, #7, mul vl] // 2-byte Folded Spill
				; CHECK-NEXT: punpklo p3.h, p2.b
				; CHECK-NEXT: punpkhi p2.h, p2.b
				; CHECK-NEXT: punpkhi p4.h, p3.b
				; CHECK-NEXT: punpklo p3.h, p3.b
				; CHECK-NEXT: punpkhi p4.h, p4.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: uzp1 p1.d, p1.d, p4.d
				; CHECK-NEXT: ldr p4, [sp, #7, mul vl] // 2-byte Folded Reload
				; CHECK-NEXT: uzp1 p1.s, p3.s, p1.s
				; CHECK-NEXT: uzp1 p1.h, p1.h, p2.h
				; CHECK-NEXT: uzp1 p0.b, p0.b, p1.b
				; CHECK-NEXT: addvl sp, sp, #1
				; CHECK-NEXT: ldr x29, [sp], #16 // 8-byte Folded Reload
				; CHECK-NEXT: ret
				%res = call <vscale x 16 x i1> @llvm.vector.insert.nxv16i1.nxv1i1(<vscale x 16 x i1> %vec, <vscale x 1 x i1> %sv, i64 10)
				ret <vscale x 16 x i1> %res
				}

				define <vscale x 16 x i1> @insert_nxv1i1_nxv16i1_11(<vscale x 16 x i1> %vec, <vscale x 1 x i1> %sv) {
				; CHECK-LABEL: insert_nxv1i1_nxv16i1_11:
				; CHECK: // %bb.0:
				; CHECK-NEXT: str x29, [sp, #-16]! // 8-byte Folded Spill
				; CHECK-NEXT: .cfi_def_cfa_offset 16
				; CHECK-NEXT: .cfi_offset w29, -16
				; CHECK-NEXT: addvl sp, sp, #-1
				; CHECK-NEXT: .cfi_escape 0x0f, 0x0c, 0x8f, 0x00, 0x11, 0x10, 0x22, 0x11, 0x08, 0x92, 0x2e, 0x00, 0x1e, 0x22 // sp + 16 + 8 * VG
				; CHECK-NEXT: punpkhi p2.h, p0.b
				; CHECK-NEXT: str p4, [sp, #7, mul vl] // 2-byte Folded Spill
				; CHECK-NEXT: punpklo p3.h, p2.b
				; CHECK-NEXT: punpkhi p2.h, p2.b
				; CHECK-NEXT: punpkhi p4.h, p3.b
				; CHECK-NEXT: punpklo p3.h, p3.b
				; CHECK-NEXT: punpklo p4.h, p4.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: uzp1 p1.d, p4.d, p1.d
				; CHECK-NEXT: ldr p4, [sp, #7, mul vl] // 2-byte Folded Reload
				; CHECK-NEXT: uzp1 p1.s, p3.s, p1.s
				; CHECK-NEXT: uzp1 p1.h, p1.h, p2.h
				; CHECK-NEXT: uzp1 p0.b, p0.b, p1.b
				; CHECK-NEXT: addvl sp, sp, #1
				; CHECK-NEXT: ldr x29, [sp], #16 // 8-byte Folded Reload
				; CHECK-NEXT: ret
				%res = call <vscale x 16 x i1> @llvm.vector.insert.nxv16i1.nxv1i1(<vscale x 16 x i1> %vec, <vscale x 1 x i1> %sv, i64 11)
				ret <vscale x 16 x i1> %res
				}

				define <vscale x 16 x i1> @insert_nxv1i1_nxv16i1_12(<vscale x 16 x i1> %vec, <vscale x 1 x i1> %sv) {
				; CHECK-LABEL: insert_nxv1i1_nxv16i1_12:
				; CHECK: // %bb.0:
				; CHECK-NEXT: str x29, [sp, #-16]! // 8-byte Folded Spill
				; CHECK-NEXT: .cfi_def_cfa_offset 16
				; CHECK-NEXT: .cfi_offset w29, -16
				; CHECK-NEXT: addvl sp, sp, #-1
				; CHECK-NEXT: .cfi_escape 0x0f, 0x0c, 0x8f, 0x00, 0x11, 0x10, 0x22, 0x11, 0x08, 0x92, 0x2e, 0x00, 0x1e, 0x22 // sp + 16 + 8 * VG
				; CHECK-NEXT: punpkhi p2.h, p0.b
				; CHECK-NEXT: str p4, [sp, #7, mul vl] // 2-byte Folded Spill
				; CHECK-NEXT: punpkhi p3.h, p2.b
				; CHECK-NEXT: punpklo p2.h, p2.b
				; CHECK-NEXT: punpklo p4.h, p3.b
				; CHECK-NEXT: punpkhi p3.h, p3.b
				; CHECK-NEXT: punpkhi p4.h, p4.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: uzp1 p1.d, p1.d, p4.d
				; CHECK-NEXT: ldr p4, [sp, #7, mul vl] // 2-byte Folded Reload
				; CHECK-NEXT: uzp1 p1.s, p1.s, p3.s
				; CHECK-NEXT: uzp1 p1.h, p2.h, p1.h
				; CHECK-NEXT: uzp1 p0.b, p0.b, p1.b
				; CHECK-NEXT: addvl sp, sp, #1
				; CHECK-NEXT: ldr x29, [sp], #16 // 8-byte Folded Reload
				; CHECK-NEXT: ret
				%res = call <vscale x 16 x i1> @llvm.vector.insert.nxv16i1.nxv1i1(<vscale x 16 x i1> %vec, <vscale x 1 x i1> %sv, i64 12)
				ret <vscale x 16 x i1> %res
				}

				define <vscale x 16 x i1> @insert_nxv1i1_nxv16i1_13(<vscale x 16 x i1> %vec, <vscale x 1 x i1> %sv) {
				; CHECK-LABEL: insert_nxv1i1_nxv16i1_13:
				; CHECK: // %bb.0:
				; CHECK-NEXT: str x29, [sp, #-16]! // 8-byte Folded Spill
				; CHECK-NEXT: .cfi_def_cfa_offset 16
				; CHECK-NEXT: .cfi_offset w29, -16
				; CHECK-NEXT: addvl sp, sp, #-1
				; CHECK-NEXT: .cfi_escape 0x0f, 0x0c, 0x8f, 0x00, 0x11, 0x10, 0x22, 0x11, 0x08, 0x92, 0x2e, 0x00, 0x1e, 0x22 // sp + 16 + 8 * VG
				; CHECK-NEXT: punpkhi p2.h, p0.b
				; CHECK-NEXT: str p4, [sp, #7, mul vl] // 2-byte Folded Spill
				; CHECK-NEXT: punpkhi p3.h, p2.b
				; CHECK-NEXT: punpklo p2.h, p2.b
				; CHECK-NEXT: punpklo p4.h, p3.b
				; CHECK-NEXT: punpkhi p3.h, p3.b
				; CHECK-NEXT: punpklo p4.h, p4.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: uzp1 p1.d, p4.d, p1.d
				; CHECK-NEXT: ldr p4, [sp, #7, mul vl] // 2-byte Folded Reload
				; CHECK-NEXT: uzp1 p1.s, p1.s, p3.s
				; CHECK-NEXT: uzp1 p1.h, p2.h, p1.h
				; CHECK-NEXT: uzp1 p0.b, p0.b, p1.b
				; CHECK-NEXT: addvl sp, sp, #1
				; CHECK-NEXT: ldr x29, [sp], #16 // 8-byte Folded Reload
				; CHECK-NEXT: ret
				%res = call <vscale x 16 x i1> @llvm.vector.insert.nxv16i1.nxv1i1(<vscale x 16 x i1> %vec, <vscale x 1 x i1> %sv, i64 13)
				ret <vscale x 16 x i1> %res
				}

				define <vscale x 16 x i1> @insert_nxv1i1_nxv16i1_14(<vscale x 16 x i1> %vec, <vscale x 1 x i1> %sv) {
				; CHECK-LABEL: insert_nxv1i1_nxv16i1_14:
				; CHECK: // %bb.0:
				; CHECK-NEXT: str x29, [sp, #-16]! // 8-byte Folded Spill
				; CHECK-NEXT: .cfi_def_cfa_offset 16
				; CHECK-NEXT: .cfi_offset w29, -16
				; CHECK-NEXT: addvl sp, sp, #-1
				; CHECK-NEXT: .cfi_escape 0x0f, 0x0c, 0x8f, 0x00, 0x11, 0x10, 0x22, 0x11, 0x08, 0x92, 0x2e, 0x00, 0x1e, 0x22 // sp + 16 + 8 * VG
				; CHECK-NEXT: punpkhi p2.h, p0.b
				; CHECK-NEXT: str p4, [sp, #7, mul vl] // 2-byte Folded Spill
				; CHECK-NEXT: punpkhi p3.h, p2.b
				; CHECK-NEXT: punpklo p2.h, p2.b
				; CHECK-NEXT: punpkhi p4.h, p3.b
				; CHECK-NEXT: punpklo p3.h, p3.b
				; CHECK-NEXT: punpkhi p4.h, p4.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: uzp1 p1.d, p1.d, p4.d
				; CHECK-NEXT: ldr p4, [sp, #7, mul vl] // 2-byte Folded Reload
				; CHECK-NEXT: uzp1 p1.s, p3.s, p1.s
				; CHECK-NEXT: uzp1 p1.h, p2.h, p1.h
				; CHECK-NEXT: uzp1 p0.b, p0.b, p1.b
				; CHECK-NEXT: addvl sp, sp, #1
				; CHECK-NEXT: ldr x29, [sp], #16 // 8-byte Folded Reload
				; CHECK-NEXT: ret
				%res = call <vscale x 16 x i1> @llvm.vector.insert.nxv16i1.nxv1i1(<vscale x 16 x i1> %vec, <vscale x 1 x i1> %sv, i64 14)
				ret <vscale x 16 x i1> %res
				}

				define <vscale x 16 x i1> @insert_nxv1i1_nxv16i1_15(<vscale x 16 x i1> %vec, <vscale x 1 x i1> %sv) {
				; CHECK-LABEL: insert_nxv1i1_nxv16i1_15:
				; CHECK: // %bb.0:
				; CHECK-NEXT: str x29, [sp, #-16]! // 8-byte Folded Spill
				; CHECK-NEXT: .cfi_def_cfa_offset 16
				; CHECK-NEXT: .cfi_offset w29, -16
				; CHECK-NEXT: addvl sp, sp, #-1
				; CHECK-NEXT: .cfi_escape 0x0f, 0x0c, 0x8f, 0x00, 0x11, 0x10, 0x22, 0x11, 0x08, 0x92, 0x2e, 0x00, 0x1e, 0x22 // sp + 16 + 8 * VG
				; CHECK-NEXT: punpkhi p2.h, p0.b
				; CHECK-NEXT: str p4, [sp, #7, mul vl] // 2-byte Folded Spill
				; CHECK-NEXT: punpkhi p3.h, p2.b
				; CHECK-NEXT: punpklo p2.h, p2.b
				; CHECK-NEXT: punpkhi p4.h, p3.b
				; CHECK-NEXT: punpklo p3.h, p3.b
				; CHECK-NEXT: punpklo p4.h, p4.b
				; CHECK-NEXT: punpklo p0.h, p0.b
				; CHECK-NEXT: uzp1 p1.d, p4.d, p1.d
				; CHECK-NEXT: ldr p4, [sp, #7, mul vl] // 2-byte Folded Reload
				; CHECK-NEXT: uzp1 p1.s, p3.s, p1.s
				; CHECK-NEXT: uzp1 p1.h, p2.h, p1.h
				; CHECK-NEXT: uzp1 p0.b, p0.b, p1.b
				; CHECK-NEXT: addvl sp, sp, #1
				; CHECK-NEXT: ldr x29, [sp], #16 // 8-byte Folded Reload
				; CHECK-NEXT: ret
				%res = call <vscale x 16 x i1> @llvm.vector.insert.nxv16i1.nxv1i1(<vscale x 16 x i1> %vec, <vscale x 1 x i1> %sv, i64 15)
				ret <vscale x 16 x i1> %res
				}

	attributes #0 = { vscale_range(2,2) }			attributes #0 = { vscale_range(2,2) }

	declare <vscale x 16 x i8> @llvm.vector.insert.nxv16i8.v16i8(<vscale x 16 x i8>, <16 x i8>, i64)			declare <vscale x 16 x i8> @llvm.vector.insert.nxv16i8.v16i8(<vscale x 16 x i8>, <16 x i8>, i64)

	declare <vscale x 6 x i16> @llvm.vector.insert.nxv6i16.nxv1i16(<vscale x 6 x i16>, <vscale x 1 x i16>, i64)			declare <vscale x 6 x i16> @llvm.vector.insert.nxv6i16.nxv1i16(<vscale x 6 x i16>, <vscale x 1 x i16>, i64)
	declare <vscale x 8 x i16> @llvm.vector.insert.nxv8i16.nxv2i16(<vscale x 8 x i16>, <vscale x 2 x i16>, i64)			declare <vscale x 8 x i16> @llvm.vector.insert.nxv8i16.nxv2i16(<vscale x 8 x i16>, <vscale x 2 x i16>, i64)
	declare <vscale x 8 x i16> @llvm.vector.insert.nxv8i16.v8i16(<vscale x 8 x i16>, <8 x i16>, i64)			declare <vscale x 8 x i16> @llvm.vector.insert.nxv8i16.v8i16(<vscale x 8 x i16>, <8 x i16>, i64)

	Show All 23 Lines

	declare <vscale x 3 x float> @llvm.vector.insert.nxv3f32.nxv2f32(<vscale x 3 x float>, <vscale x 2 x float>, i64)			declare <vscale x 3 x float> @llvm.vector.insert.nxv3f32.nxv2f32(<vscale x 3 x float>, <vscale x 2 x float>, i64)
	declare <vscale x 4 x float> @llvm.vector.insert.nxv4f32.nxv1f32(<vscale x 4 x float>, <vscale x 1 x float>, i64)			declare <vscale x 4 x float> @llvm.vector.insert.nxv4f32.nxv1f32(<vscale x 4 x float>, <vscale x 1 x float>, i64)
	declare <vscale x 4 x float> @llvm.vector.insert.nxv4f32.nxv2f32(<vscale x 4 x float>, <vscale x 2 x float>, i64)			declare <vscale x 4 x float> @llvm.vector.insert.nxv4f32.nxv2f32(<vscale x 4 x float>, <vscale x 2 x float>, i64)

	declare <vscale x 2 x i1> @llvm.vector.insert.nxv2i1.v8i1(<vscale x 2 x i1>, <8 x i1>, i64)			declare <vscale x 2 x i1> @llvm.vector.insert.nxv2i1.v8i1(<vscale x 2 x i1>, <8 x i1>, i64)
	declare <vscale x 4 x i1> @llvm.vector.insert.nxv4i1.v16i1(<vscale x 4 x i1>, <16 x i1>, i64)			declare <vscale x 4 x i1> @llvm.vector.insert.nxv4i1.v16i1(<vscale x 4 x i1>, <16 x i1>, i64)
	declare <vscale x 8 x i1> @llvm.vector.insert.nxv8i1.v32i1(<vscale x 8 x i1>, <32 x i1>, i64)			declare <vscale x 8 x i1> @llvm.vector.insert.nxv8i1.v32i1(<vscale x 8 x i1>, <32 x i1>, i64)
				declare <vscale x 16 x i1> @llvm.vector.insert.nxv16i1.nxv1i1(<vscale x 16 x i1>, <vscale x 1 x i1>, i64)
				declare <vscale x 8 x i1> @llvm.vector.insert.nxv8i1.nxv1i1(<vscale x 8 x i1>, <vscale x 1 x i1>, i64)
				declare <vscale x 4 x i1> @llvm.vector.insert.nxv4i1.nxv1i1(<vscale x 4 x i1>, <vscale x 1 x i1>, i64)
				declare <vscale x 2 x i1> @llvm.vector.insert.nxv2i1.nxv1i1(<vscale x 2 x i1>, <vscale x 1 x i1>, i64)
	declare <vscale x 16 x i1> @llvm.vector.insert.nx16i1.nxv4i1(<vscale x 16 x i1>, <vscale x 4 x i1>, i64)			declare <vscale x 16 x i1> @llvm.vector.insert.nx16i1.nxv4i1(<vscale x 16 x i1>, <vscale x 4 x i1>, i64)
	declare <vscale x 16 x i1> @llvm.vector.insert.nx16i1.nxv8i1(<vscale x 16 x i1>, <vscale x 8 x i1>, i64)			declare <vscale x 16 x i1> @llvm.vector.insert.nx16i1.nxv8i1(<vscale x 16 x i1>, <vscale x 8 x i1>, i64)
	declare <vscale x 16 x i1> @llvm.vector.insert.nxv16i1.v64i1(<vscale x 16 x i1>, <64 x i1>, i64)			declare <vscale x 16 x i1> @llvm.vector.insert.nxv16i1.v64i1(<vscale x 16 x i1>, <64 x i1>, i64)