Diff 492050

llvm/include/llvm/IR/IntrinsicsAArch64.td

Show First 20 Lines • Show All 2,814 Lines • ▼ Show 20 Lines	: DefaultAttrsIntrinsic<[llvm_anyvector_ty, LLVMMatchType<0>, LLVMMatchType<0>, LLVMMatchType<0>],
[IntrNoMem]>;		[IntrNoMem]>;

class SME2_CVT_ItoF_VG4_Intrinsic		class SME2_CVT_ItoF_VG4_Intrinsic
: DefaultAttrsIntrinsic<[LLVMVectorOfBitcastsToInt<0>, LLVMVectorOfBitcastsToInt<0>,		: DefaultAttrsIntrinsic<[LLVMVectorOfBitcastsToInt<0>, LLVMVectorOfBitcastsToInt<0>,
LLVMVectorOfBitcastsToInt<0>, LLVMVectorOfBitcastsToInt<0>],		LLVMVectorOfBitcastsToInt<0>, LLVMVectorOfBitcastsToInt<0>],
[llvm_anyvector_ty, LLVMMatchType<0>, LLVMMatchType<0>, LLVMMatchType<0>],		[llvm_anyvector_ty, LLVMMatchType<0>, LLVMMatchType<0>, LLVMMatchType<0>],
[IntrNoMem]>;		[IntrNoMem]>;

		class SME2_ZA_ArrayVector_Read_VG2_Intrinsic
		: DefaultAttrsIntrinsic<[llvm_anyvector_ty, LLVMMatchType<0>],
		[llvm_i32_ty],
		[]>;

		class SME2_ZA_ArrayVector_Read_VG4_Intrinsic
		: DefaultAttrsIntrinsic<[llvm_anyvector_ty, LLVMMatchType<0>,
		LLVMMatchType<0>, LLVMMatchType<0>],
		[llvm_i32_ty],
		[]>;

		class SME2_Matrix_TileVector_Read_VG2_Intrinsic
		: DefaultAttrsIntrinsic<[llvm_anyvector_ty, LLVMMatchType<0>],
		[llvm_i32_ty, llvm_i32_ty],
		[]>;

		class SME2_Matrix_TileVector_Read_VG4_Intrinsic
		: DefaultAttrsIntrinsic<[llvm_anyvector_ty, LLVMMatchType<0>,
		LLVMMatchType<0>, LLVMMatchType<0>],
		[llvm_i32_ty, llvm_i32_ty],
		[]>;

		class SME2_ZA_ArrayVector_Write_VG2_Intrinsic
		: DefaultAttrsIntrinsic<[],
		[llvm_i32_ty,
		llvm_anyvector_ty, LLVMMatchType<0>],
		[]>;

		class SME2_ZA_ArrayVector_Write_VG4_Intrinsic
		: DefaultAttrsIntrinsic<[],
		[llvm_i32_ty,
		llvm_anyvector_ty, LLVMMatchType<0>,
		LLVMMatchType<0>, LLVMMatchType<0>],
		[]>;

		class SME2_Matrix_TileVector_Write_VG2_Intrinsic
		: DefaultAttrsIntrinsic<[],
		[llvm_i32_ty, llvm_i32_ty,
		llvm_anyvector_ty, LLVMMatchType<0>],
		[ImmArg<ArgIndex<0>>]>;

		class SME2_Matrix_TileVector_Write_VG4_Intrinsic
		: DefaultAttrsIntrinsic<[],
		[llvm_i32_ty, llvm_i32_ty,
		llvm_anyvector_ty, LLVMMatchType<0>,
		LLVMMatchType<0>, LLVMMatchType<0>],
		[ImmArg<ArgIndex<0>>]>;

class SME2_VG2_Multi_Single_Single_Intrinsic		class SME2_VG2_Multi_Single_Single_Intrinsic
: DefaultAttrsIntrinsic<[llvm_anyvector_ty, LLVMMatchType<0>],		: DefaultAttrsIntrinsic<[llvm_anyvector_ty, LLVMMatchType<0>],
[LLVMMatchType<0>, LLVMMatchType<0>,		[LLVMMatchType<0>, LLVMMatchType<0>,
LLVMMatchType<0>, LLVMMatchType<0>],		LLVMMatchType<0>, LLVMMatchType<0>],
[IntrNoMem]>;		[IntrNoMem]>;

class SME2_VG4_Multi_Single_Single_Intrinsic		class SME2_VG4_Multi_Single_Single_Intrinsic
: DefaultAttrsIntrinsic<[llvm_anyvector_ty, LLVMMatchType<0>,		: DefaultAttrsIntrinsic<[llvm_anyvector_ty, LLVMMatchType<0>,
▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines	foreach instr = ["mlal", "mlsl"] in {
def int_aarch64_sme_ # ty # instr # _lane_vg2x4 : SME2_Matrix_ArrayVector_VG4_Multi_Index_Intrinsic;		def int_aarch64_sme_ # ty # instr # _lane_vg2x4 : SME2_Matrix_ArrayVector_VG4_Multi_Index_Intrinsic;
}		}
}		}

//		//
// Multi-vector vertical dot-products		// Multi-vector vertical dot-products
//		//

def int_aarch64_sme_fvdot_lane_za32_vg1x2 : SME2_Matrix_ArrayVector_VG2_Multi_Index_Intrinsic;		def int_aarch64_sme_fvdot_lane_za32_vg1x2 : SME2_Matrix_ArrayVector_VG2_Multi_Index_Intrinsic;
		david-armUnsubmitted Done Reply Inline Actions I wonder - given these are moving from a tile to a vector is it perhaps better named as something like SME2_Matrix_TileVector_Read_VG2_Intrinsic SME2_Matrix_TileVector_Read_VG4_Intrinsic SME2_Matrix_TileVector_Write_VG2_Intrinsic SME2_Matrix_TileVector_Write_VG4_Intrinsic and the others are actually reading from the array so perhaps these can be SME2_ZA_ArrayVector_Read_VG2_Intrinsic SME2_ZA_ArrayVector_Read_VG4_Intrinsic SME2_ZA_ArrayVector_Write_VG2_Intrinsic SME2_ZA_ArrayVector_Write_VG4_Intrinsic what do you think? david-arm: I wonder - given these are moving from a tile to a vector is it perhaps better named as…
		kmclaughlinAuthorUnsubmitted Done Reply Inline Actions I've changed these classes to use the names suggested above as I think they are more accurate. kmclaughlin: I've changed these classes to use the names suggested above as I think they are more accurate.

foreach ty = ["s", "u"] in {		foreach ty = ["s", "u"] in {
def int_aarch64_sme_ #ty # vdot_lane_za32_vg1x2 : SME2_Matrix_ArrayVector_VG2_Multi_Index_Intrinsic;		def int_aarch64_sme_ #ty # vdot_lane_za32_vg1x2 : SME2_Matrix_ArrayVector_VG2_Multi_Index_Intrinsic;
def int_aarch64_sme_ #ty # vdot_lane_za32_vg1x4 : SME2_Matrix_ArrayVector_VG4_Multi_Index_Intrinsic;		def int_aarch64_sme_ #ty # vdot_lane_za32_vg1x4 : SME2_Matrix_ArrayVector_VG4_Multi_Index_Intrinsic;
def int_aarch64_sme_ #ty # vdot_lane_za64_vg1x4 : SME2_Matrix_ArrayVector_VG4_Multi_Index_Intrinsic;		def int_aarch64_sme_ #ty # vdot_lane_za64_vg1x4 : SME2_Matrix_ArrayVector_VG4_Multi_Index_Intrinsic;
}		}

def int_aarch64_sme_suvdot_lane_za32_vg1x4 : SME2_Matrix_ArrayVector_VG4_Multi_Index_Intrinsic;		def int_aarch64_sme_suvdot_lane_za32_vg1x4 : SME2_Matrix_ArrayVector_VG4_Multi_Index_Intrinsic;
▲ Show 20 Lines • Show All 68 Lines • ▼ Show 20 Lines	let TargetPrefix = "aarch64" in {
// Multi-vector add/sub and accumulate into ZA		// Multi-vector add/sub and accumulate into ZA
//		//
foreach intr = ["add", "sub"] in {		foreach intr = ["add", "sub"] in {
foreach za = ["za32", "za64"] in {		foreach za = ["za32", "za64"] in {
def int_aarch64_sme_ # intr # _ # za # _vg1x2 : SME2_ZA_Write_VG2_Intrinsic;		def int_aarch64_sme_ # intr # _ # za # _vg1x2 : SME2_ZA_Write_VG2_Intrinsic;
def int_aarch64_sme_ # intr # _ # za # _vg1x4 : SME2_ZA_Write_VG4_Intrinsic;		def int_aarch64_sme_ # intr # _ # za # _vg1x4 : SME2_ZA_Write_VG4_Intrinsic;
}		}
}		}

		//
		// Move multi-vectors to/from ZA
		//

		def int_aarch64_sme_read_hor_vg2 : SME2_Matrix_TileVector_Read_VG2_Intrinsic;
		def int_aarch64_sme_read_hor_vg4 : SME2_Matrix_TileVector_Read_VG4_Intrinsic;

		def int_aarch64_sme_read_ver_vg2 : SME2_Matrix_TileVector_Read_VG2_Intrinsic;
		def int_aarch64_sme_read_ver_vg4 : SME2_Matrix_TileVector_Read_VG4_Intrinsic;

		def int_aarch64_sme_read_vg1x2 : SME2_ZA_ArrayVector_Read_VG2_Intrinsic;
		def int_aarch64_sme_read_vg1x4 : SME2_ZA_ArrayVector_Read_VG4_Intrinsic;

		def int_aarch64_sme_write_hor_vg2 : SME2_Matrix_TileVector_Write_VG2_Intrinsic;
		def int_aarch64_sme_write_hor_vg4 : SME2_Matrix_TileVector_Write_VG4_Intrinsic;

		def int_aarch64_sme_write_ver_vg2 : SME2_Matrix_TileVector_Write_VG2_Intrinsic;
		def int_aarch64_sme_write_ver_vg4 : SME2_Matrix_TileVector_Write_VG4_Intrinsic;

		def int_aarch64_sme_write_vg1x2 : SME2_ZA_ArrayVector_Write_VG2_Intrinsic;
		def int_aarch64_sme_write_vg1x4 : SME2_ZA_ArrayVector_Write_VG4_Intrinsic;
}		}

llvm/lib/Target/AArch64/AArch64ISelDAGToDAG.cpp

Show First 20 Lines • Show All 358 Lines • ▼ Show 20 Lines	public:
void SelectPostLoadLane(SDNode *N, unsigned NumVecs, unsigned Opc);		void SelectPostLoadLane(SDNode *N, unsigned NumVecs, unsigned Opc);
void SelectPredicatedLoad(SDNode *N, unsigned NumVecs, unsigned Scale,		void SelectPredicatedLoad(SDNode *N, unsigned NumVecs, unsigned Scale,
unsigned Opc_rr, unsigned Opc_ri,		unsigned Opc_rr, unsigned Opc_ri,
bool IsIntr = false);		bool IsIntr = false);
void SelectWhilePair(SDNode *N, unsigned Opc);		void SelectWhilePair(SDNode *N, unsigned Opc);
void SelectCVTIntrinsic(SDNode *N, unsigned NumVecs, unsigned Opcode);		void SelectCVTIntrinsic(SDNode *N, unsigned NumVecs, unsigned Opcode);
void SelectClamp(SDNode *N, unsigned NumVecs, unsigned Opcode);		void SelectClamp(SDNode *N, unsigned NumVecs, unsigned Opcode);

		template <unsigned MaxIdx, unsigned Scale>
		void SelectMultiVectorMove(SDNode *N, unsigned NumVecs, unsigned BaseReg,
		unsigned Op);

bool SelectAddrModeFrameIndexSVE(SDValue N, SDValue &Base, SDValue &OffImm);		bool SelectAddrModeFrameIndexSVE(SDValue N, SDValue &Base, SDValue &OffImm);
/// SVE Reg+Imm addressing mode.		/// SVE Reg+Imm addressing mode.
template <int64_t Min, int64_t Max>		template <int64_t Min, int64_t Max>
bool SelectAddrModeIndexedSVE(SDNode *Root, SDValue N, SDValue &Base,		bool SelectAddrModeIndexedSVE(SDNode *Root, SDValue N, SDValue &Base,
SDValue &OffImm);		SDValue &OffImm);
/// SVE Reg+Reg address mode.		/// SVE Reg+Reg address mode.
template <unsigned Scale>		template <unsigned Scale>
bool SelectSVERegRegAddrMode(SDValue N, SDValue &Base, SDValue &Offset) {		bool SelectSVERegRegAddrMode(SDValue N, SDValue &Base, SDValue &Offset) {
▲ Show 20 Lines • Show All 1,451 Lines • ▼ Show 20 Lines
}		}

void AArch64DAGToDAGISel::SelectClamp(SDNode *N, unsigned NumVecs,		void AArch64DAGToDAGISel::SelectClamp(SDNode *N, unsigned NumVecs,
unsigned Op) {		unsigned Op) {
SDLoc DL(N);		SDLoc DL(N);
EVT VT = N->getValueType(0);		EVT VT = N->getValueType(0);

SmallVector<SDValue, 4> Regs(N->op_begin() + 1, N->op_begin() + 1 + NumVecs);		SmallVector<SDValue, 4> Regs(N->op_begin() + 1, N->op_begin() + 1 + NumVecs);
SDValue Zd = createZMulTuple(Regs);		SDValue Zd = createZMulTuple(Regs);
		david-armUnsubmitted Done Reply Inline Actions I think this should probably be case AArch64::ZAB0: if (TileNum == 0) break; return false; case ... david-arm: I think this should probably be case AArch64::ZAB0: if (TileNum == 0) break…
SDValue Zn = N->getOperand(1 + NumVecs);		SDValue Zn = N->getOperand(1 + NumVecs);
SDValue Zm = N->getOperand(2 + NumVecs);		SDValue Zm = N->getOperand(2 + NumVecs);

		david-armUnsubmitted Done Reply Inline Actions This indenting here doesn't look right I think? david-arm: This indenting here doesn't look right I think?
SDValue Ops[] = {Zd, Zn, Zm};		SDValue Ops[] = {Zd, Zn, Zm};

SDNode *Intrinsic = CurDAG->getMachineNode(Op, DL, MVT::Untyped, Ops);		SDNode *Intrinsic = CurDAG->getMachineNode(Op, DL, MVT::Untyped, Ops);
SDValue SuperReg = SDValue(Intrinsic, 0);		SDValue SuperReg = SDValue(Intrinsic, 0);
for (unsigned i = 0; i < NumVecs; ++i)		for (unsigned i = 0; i < NumVecs; ++i)
ReplaceUses(SDValue(N, i), CurDAG->getTargetExtractSubreg(		ReplaceUses(SDValue(N, i), CurDAG->getTargetExtractSubreg(
AArch64::zsub0 + i, DL, VT, SuperReg));		AArch64::zsub0 + i, DL, VT, SuperReg));

CurDAG->RemoveDeadNode(N);		CurDAG->RemoveDeadNode(N);
return;		return;
}		}

		bool SelectSMETile(unsigned &BaseReg, unsigned TileNum) {
		switch (BaseReg) {
		default:
		return false;
		case AArch64::ZA:
		case AArch64::ZAB0:
		if (TileNum == 0)
		break;
		return false;
		case AArch64::ZAH0:
		if (TileNum <= 1)
		david-armUnsubmitted Done Reply Inline Actions Maybe it's worth moving this code below the call to `SelectSMETile`, so it's close to where it's used? david-arm: Maybe it's worth moving this code below the call to `SelectSMETile`, so it's close to where…
		break;
		return false;
		case AArch64::ZAS0:
		if (TileNum <= 3)
		break;
		return false;
		case AArch64::ZAD0:
		if (TileNum <= 7)
		break;
		return false;
		}
		david-armUnsubmitted Done Reply Inline Actions I wonder if it's better to simply return here and let it crash with a selection error? The problem with `llvm_unreachable` I think is that for a release build it will be a nop and will silently do the wrong thing. david-arm: I wonder if it's better to simply return here and let it crash with a selection error? The…

		BaseReg += TileNum;
		return true;
		}

		template <unsigned MaxIdx, unsigned Scale>
		void AArch64DAGToDAGISel::SelectMultiVectorMove(SDNode *N, unsigned NumVecs,
		unsigned BaseReg, unsigned Op) {
		unsigned TileNum = 0;
		if (BaseReg != AArch64::ZA)
		TileNum = cast<ConstantSDNode>(N->getOperand(2))->getZExtValue();

		if (!SelectSMETile(BaseReg, TileNum))
		return;

		SDValue SliceBase, Base, Offset;
		if (BaseReg == AArch64::ZA)
		SliceBase = N->getOperand(2);
		else
		SliceBase = N->getOperand(3);

		if (!SelectSMETileSlice(SliceBase, MaxIdx, Base, Offset, Scale))
		return;

		SDLoc DL(N);
		SDValue SubReg = CurDAG->getRegister(BaseReg, MVT::Other);
		SDValue Ops[] = {SubReg, Base, Offset, /Chain/ N->getOperand(0)};
		SDNode *Mov = CurDAG->getMachineNode(Op, DL, {MVT::Untyped, MVT::Other}, Ops);

		EVT VT = N->getValueType(0);
		for (unsigned I = 0; I < NumVecs; ++I)
		ReplaceUses(SDValue(N, I),
		CurDAG->getTargetExtractSubreg(AArch64::zsub0 + I, DL, VT,
		SDValue(Mov, 0)));
		// Copy chain
		unsigned ChainIdx = NumVecs;
		ReplaceUses(SDValue(N, ChainIdx), SDValue(Mov, 1));
		CurDAG->RemoveDeadNode(N);
		}

void AArch64DAGToDAGISel::SelectStore(SDNode *N, unsigned NumVecs,		void AArch64DAGToDAGISel::SelectStore(SDNode *N, unsigned NumVecs,
unsigned Opc) {		unsigned Opc) {
SDLoc dl(N);		SDLoc dl(N);
EVT VT = N->getOperand(2)->getValueType(0);		EVT VT = N->getOperand(2)->getValueType(0);

// Form a REG_SEQUENCE to force register allocation.		// Form a REG_SEQUENCE to force register allocation.
bool Is128Bit = VT.getSizeInBits() == 128;		bool Is128Bit = VT.getSizeInBits() == 128;
SmallVector<SDValue, 4> Regs(N->op_begin() + 2, N->op_begin() + 2 + NumVecs);		SmallVector<SDValue, 4> Regs(N->op_begin() + 2, N->op_begin() + 2 + NumVecs);
▲ Show 20 Lines • Show All 2,817 Lines • ▼ Show 20 Lines	case Intrinsic::aarch64_sve_ld4_sret: {
return;		return;
} else if (VT == MVT::nxv2i64 \|\| VT == MVT::nxv2f64) {		} else if (VT == MVT::nxv2i64 \|\| VT == MVT::nxv2f64) {
SelectPredicatedLoad(Node, 4, 3, AArch64::LD4D_IMM, AArch64::LD4D,		SelectPredicatedLoad(Node, 4, 3, AArch64::LD4D_IMM, AArch64::LD4D,
true);		true);
return;		return;
}		}
break;		break;
}		}
		case Intrinsic::aarch64_sme_read_hor_vg2: {
		if (VT == MVT::nxv16i8) {
		david-armUnsubmitted Done Reply Inline Actions This is just a thought so feel free to ignore it if you think it makes things worse! But I wondered if you could avoiding passing the `TileNum` here, since you're already passing in the Node anyway. That way in `SelectMultiVectorMove` you could do: unsigned TileNum = 0; if (BaseReg != AArch64::ZA) TileNum = cast<ConstantSDNode>(Node->getOperand(2))->getZExtValue(); david-arm: This is just a thought so feel free to ignore it if you think it makes things worse! But I…
		SelectMultiVectorMove<14, 2>(Node, 2, AArch64::ZAB0,
		AArch64::MOVA_2ZMXI_H_B);
		return;
		} else if (VT == MVT::nxv8i16 \|\| VT == MVT::nxv8f16 \|\|
		VT == MVT::nxv8bf16) {
		SelectMultiVectorMove<6, 2>(Node, 2, AArch64::ZAH0,
		AArch64::MOVA_2ZMXI_H_H);
		return;
		} else if (VT == MVT::nxv4i32 \|\| VT == MVT::nxv4f32) {
		SelectMultiVectorMove<2, 2>(Node, 2, AArch64::ZAS0,
		AArch64::MOVA_2ZMXI_H_S);
		return;
		} else if (VT == MVT::nxv2i64 \|\| VT == MVT::nxv2f64) {
		SelectMultiVectorMove<0, 2>(Node, 2, AArch64::ZAD0,
		AArch64::MOVA_2ZMXI_H_D);
		return;
		}
		break;
		}
		case Intrinsic::aarch64_sme_read_ver_vg2: {
		if (VT == MVT::nxv16i8) {
		SelectMultiVectorMove<14, 2>(Node, 2, AArch64::ZAB0,
		AArch64::MOVA_2ZMXI_V_B);
		return;
		} else if (VT == MVT::nxv8i16 \|\| VT == MVT::nxv8f16 \|\|
		VT == MVT::nxv8bf16) {
		SelectMultiVectorMove<6, 2>(Node, 2, AArch64::ZAH0,
		AArch64::MOVA_2ZMXI_V_H);
		return;
		} else if (VT == MVT::nxv4i32 \|\| VT == MVT::nxv4f32) {
		SelectMultiVectorMove<2, 2>(Node, 2, AArch64::ZAS0,
		AArch64::MOVA_2ZMXI_V_S);
		return;
		} else if (VT == MVT::nxv2i64 \|\| VT == MVT::nxv2f64) {
		SelectMultiVectorMove<0, 2>(Node, 2, AArch64::ZAD0,
		AArch64::MOVA_2ZMXI_V_D);
		return;
		}
		break;
		}
		case Intrinsic::aarch64_sme_read_hor_vg4: {
		if (VT == MVT::nxv16i8) {
		SelectMultiVectorMove<12, 4>(Node, 4, AArch64::ZAB0,
		AArch64::MOVA_4ZMXI_H_B);
		return;
		} else if (VT == MVT::nxv8i16 \|\| VT == MVT::nxv8f16 \|\|
		VT == MVT::nxv8bf16) {
		SelectMultiVectorMove<4, 4>(Node, 4, AArch64::ZAH0,
		AArch64::MOVA_4ZMXI_H_H);
		return;
		} else if (VT == MVT::nxv4i32 \|\| VT == MVT::nxv4f32) {
		SelectMultiVectorMove<0, 2>(Node, 4, AArch64::ZAS0,
		AArch64::MOVA_4ZMXI_H_S);
		return;
		} else if (VT == MVT::nxv2i64 \|\| VT == MVT::nxv2f64) {
		SelectMultiVectorMove<0, 2>(Node, 4, AArch64::ZAD0,
		AArch64::MOVA_4ZMXI_H_D);
		return;
		}
		break;
		}
		case Intrinsic::aarch64_sme_read_ver_vg4: {
		if (VT == MVT::nxv16i8) {
		SelectMultiVectorMove<12, 4>(Node, 4, AArch64::ZAB0,
		AArch64::MOVA_4ZMXI_V_B);
		return;
		} else if (VT == MVT::nxv8i16 \|\| VT == MVT::nxv8f16 \|\|
		VT == MVT::nxv8bf16) {
		SelectMultiVectorMove<4, 4>(Node, 4, AArch64::ZAH0,
		AArch64::MOVA_4ZMXI_V_H);
		return;
		} else if (VT == MVT::nxv4i32 \|\| VT == MVT::nxv4f32) {
		SelectMultiVectorMove<0, 4>(Node, 4, AArch64::ZAS0,
		AArch64::MOVA_4ZMXI_V_S);
		return;
		} else if (VT == MVT::nxv2i64 \|\| VT == MVT::nxv2f64) {
		SelectMultiVectorMove<0, 4>(Node, 4, AArch64::ZAD0,
		AArch64::MOVA_4ZMXI_V_D);
		return;
		}
		break;
		}
		case Intrinsic::aarch64_sme_read_vg1x2: {
		SelectMultiVectorMove<7, 1>(Node, 2, AArch64::ZA,
		AArch64::MOVA_VG2_2ZMXI);
		return;
		}
		case Intrinsic::aarch64_sme_read_vg1x4: {
		SelectMultiVectorMove<7, 1>(Node, 4, AArch64::ZA,
		AArch64::MOVA_VG4_4ZMXI);
		return;
		}
case Intrinsic::swift_async_context_addr: {		case Intrinsic::swift_async_context_addr: {
SDLoc DL(Node);		SDLoc DL(Node);
SDValue Chain = Node->getOperand(0);		SDValue Chain = Node->getOperand(0);
SDValue CopyFP = CurDAG->getCopyFromReg(Chain, DL, AArch64::FP, MVT::i64);		SDValue CopyFP = CurDAG->getCopyFromReg(Chain, DL, AArch64::FP, MVT::i64);
SDValue Res = SDValue(		SDValue Res = SDValue(
CurDAG->getMachineNode(AArch64::SUBXri, DL, MVT::i64, CopyFP,		CurDAG->getMachineNode(AArch64::SUBXri, DL, MVT::i64, CopyFP,
CurDAG->getTargetConstant(8, DL, MVT::i32),		CurDAG->getTargetConstant(8, DL, MVT::i32),
CurDAG->getTargetConstant(0, DL, MVT::i32)),		CurDAG->getTargetConstant(0, DL, MVT::i32)),
▲ Show 20 Lines • Show All 1,360 Lines • Show Last 20 Lines

llvm/lib/Target/AArch64/AArch64SMEInstrInfo.td

	Show First 20 Lines • Show All 603 Lines • ▼ Show 20 Lines
	defm FRINTA_4Z4Z: sme2_frint_vector_vg4_multi<"frinta", 0b1100000>;			defm FRINTA_4Z4Z: sme2_frint_vector_vg4_multi<"frinta", 0b1100000>;
	defm FRINTM_2Z2Z: sme2_frint_vector_vg2_multi<"frintm", 0b10100>;			defm FRINTM_2Z2Z: sme2_frint_vector_vg2_multi<"frintm", 0b10100>;
	defm FRINTM_4Z4Z: sme2_frint_vector_vg4_multi<"frintm", 0b1010000>;			defm FRINTM_4Z4Z: sme2_frint_vector_vg4_multi<"frintm", 0b1010000>;
	defm FRINTN_2Z2Z: sme2_frint_vector_vg2_multi<"frintn", 0b10000>;			defm FRINTN_2Z2Z: sme2_frint_vector_vg2_multi<"frintn", 0b10000>;
	defm FRINTN_4Z4Z: sme2_frint_vector_vg4_multi<"frintn", 0b1000000>;			defm FRINTN_4Z4Z: sme2_frint_vector_vg4_multi<"frintn", 0b1000000>;
	defm FRINTP_2Z2Z: sme2_frint_vector_vg2_multi<"frintp", 0b10010>;			defm FRINTP_2Z2Z: sme2_frint_vector_vg2_multi<"frintp", 0b10010>;
	defm FRINTP_4Z4Z: sme2_frint_vector_vg4_multi<"frintp", 0b1001000>;			defm FRINTP_4Z4Z: sme2_frint_vector_vg4_multi<"frintp", 0b1001000>;

	defm MOVA_MXI2Z : sme2_mova_vec_to_tile_vg2_multi<"mova">;			defm MOVA_MXI2Z : sme2_mova_vec_to_tile_vg2_multi<"mova", int_aarch64_sme_write_hor_vg2, int_aarch64_sme_write_ver_vg2>;
	defm MOVA_MXI4Z : sme2_mova_vec_to_tile_vg4_multi<"mova">;			defm MOVA_MXI4Z : sme2_mova_vec_to_tile_vg4_multi<"mova", int_aarch64_sme_write_hor_vg4, int_aarch64_sme_write_ver_vg4>;
	defm MOVA_2ZMXI : sme2_mova_tile_to_vec_vg2_multi<"mova">;			defm MOVA_2ZMXI : sme2_mova_tile_to_vec_vg2_multi<"mova">;
	defm MOVA_4ZMXI : sme2_mova_tile_to_vec_vg4_multi<"mova">;			defm MOVA_4ZMXI : sme2_mova_tile_to_vec_vg4_multi<"mova">;

	defm MOVA_VG2_MXI2Z : sme2_mova_vec_to_array_vg2_multi<"mova">;			defm MOVA_VG2_MXI2Z : sme2_mova_vec_to_array_vg2_multi<"mova", int_aarch64_sme_write_vg1x2>;
	defm MOVA_VG4_MXI4Z : sme2_mova_vec_to_array_vg4_multi<"mova">;			defm MOVA_VG4_MXI4Z : sme2_mova_vec_to_array_vg4_multi<"mova", int_aarch64_sme_write_vg1x4>;
	defm MOVA_VG2_2ZMXI : sme2_mova_array_to_vec_vg2_multi<0b000, "mova">;			defm MOVA_VG2_2ZMXI : sme2_mova_array_to_vec_vg2_multi<0b000, "mova">;
	defm MOVA_VG4_4ZMXI : sme2_mova_array_to_vec_vg4_multi<0b1000, "mova">;			defm MOVA_VG4_4ZMXI : sme2_mova_array_to_vec_vg4_multi<0b1000, "mova">;

	defm SQRSHR_VG2_Z2ZI : sme2_sat_shift_vector_vg2<"sqrshr", 0b0, 0b0>;			defm SQRSHR_VG2_Z2ZI : sme2_sat_shift_vector_vg2<"sqrshr", 0b0, 0b0>;
	defm SQRSHR_VG4_Z4ZI : sme2_sat_shift_vector_vg4<"sqrshr", 0b000>;			defm SQRSHR_VG4_Z4ZI : sme2_sat_shift_vector_vg4<"sqrshr", 0b000>;

	defm UQRSHR_VG2_Z2ZI : sme2_sat_shift_vector_vg2<"uqrshr", 0b0, 0b1>;			defm UQRSHR_VG2_Z2ZI : sme2_sat_shift_vector_vg2<"uqrshr", 0b0, 0b1>;
	defm UQRSHR_VG4_Z4ZI : sme2_sat_shift_vector_vg4<"uqrshr", 0b001>;			defm UQRSHR_VG4_Z4ZI : sme2_sat_shift_vector_vg4<"uqrshr", 0b001>;
	▲ Show 20 Lines • Show All 264 Lines • Show Last 20 Lines

llvm/lib/Target/AArch64/SMEInstrFormats.td

Show All 18 Lines
def tileslice8 : ComplexPattern<i32 , 2, "SelectSMETileSlice<15, 1>", []>;		def tileslice8 : ComplexPattern<i32 , 2, "SelectSMETileSlice<15, 1>", []>;
def tileslice16 : ComplexPattern<i32 , 2, "SelectSMETileSlice<7, 1>", []>;		def tileslice16 : ComplexPattern<i32 , 2, "SelectSMETileSlice<7, 1>", []>;
def tileslice32 : ComplexPattern<i32 , 2, "SelectSMETileSlice<3, 1>", []>;		def tileslice32 : ComplexPattern<i32 , 2, "SelectSMETileSlice<3, 1>", []>;
def tileslice64 : ComplexPattern<i32 , 2, "SelectSMETileSlice<1, 1>", []>;		def tileslice64 : ComplexPattern<i32 , 2, "SelectSMETileSlice<1, 1>", []>;
def tileslice128 : ComplexPattern<i32 , 2, "SelectSMETileSlice<0, 1>", []>; // nop		def tileslice128 : ComplexPattern<i32 , 2, "SelectSMETileSlice<0, 1>", []>; // nop

def tileslicerange3s2 : ComplexPattern<i32, 2, "SelectSMETileSlice<14, 2>", []>;		def tileslicerange3s2 : ComplexPattern<i32, 2, "SelectSMETileSlice<14, 2>", []>;
def tileslicerange2s2 : ComplexPattern<i32, 2, "SelectSMETileSlice<6, 2>", []>;		def tileslicerange2s2 : ComplexPattern<i32, 2, "SelectSMETileSlice<6, 2>", []>;
		def tileslicerange1s2 : ComplexPattern<i32, 2, "SelectSMETileSlice<2, 2>", []>;
		def tileslicerange0s2 : ComplexPattern<i32, 2, "SelectSMETileSlice<0, 2>", []>;

		def tileslicerange2s4 : ComplexPattern<i32, 2, "SelectSMETileSlice<12, 4>", []>;
		def tileslicerange1s4 : ComplexPattern<i32, 2, "SelectSMETileSlice<4, 4>", []>;
		def tileslicerange0s4 : ComplexPattern<i32, 2, "SelectSMETileSlice<0, 4>", []>;

def am_sme_indexed_b4 :ComplexPattern<iPTR, 2, "SelectAddrModeIndexedSVE<0,15>", [], [SDNPWantRoot]>;		def am_sme_indexed_b4 :ComplexPattern<iPTR, 2, "SelectAddrModeIndexedSVE<0,15>", [], [SDNPWantRoot]>;

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// SME Pseudo Classes		// SME Pseudo Classes
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

def getSMEPseudoMap : InstrMapping {		def getSMEPseudoMap : InstrMapping {
▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines

class sme2_move_to_za_pseudo<string name, Operand imm_ty, RegisterOperand multi_vector_ty, SMEMatrixTypeEnum za_flag>		class sme2_move_to_za_pseudo<string name, Operand imm_ty, RegisterOperand multi_vector_ty, SMEMatrixTypeEnum za_flag>
: SMEPseudo2Instr<name, 0>,		: SMEPseudo2Instr<name, 0>,
Pseudo<(outs), (ins MatrixIndexGPR32Op8_11:$Rs, imm_ty:$imm, multi_vector_ty:$Zn), []> {		Pseudo<(outs), (ins MatrixIndexGPR32Op8_11:$Rs, imm_ty:$imm, multi_vector_ty:$Zn), []> {
let SMEMatrixType = za_flag;		let SMEMatrixType = za_flag;
let usesCustomInserter = 1;		let usesCustomInserter = 1;
}		}

		class sme2_move_to_tile_pseudo<string name, Operand tile_imm, Operand imm_ty, RegisterOperand multi_vector_ty, SMEMatrixTypeEnum za_flag>
		: SMEPseudo2Instr<name, 0>,
		Pseudo<(outs), (ins tile_imm:$tile, MatrixIndexGPR32Op12_15:$Rs, imm_ty:$imm, multi_vector_ty:$Zn), []> {
		let SMEMatrixType = za_flag;
		let usesCustomInserter = 1;
		}

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// SME pattern match helpers.		// SME pattern match helpers.
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

class SME2_ZA_TwoOp_Multi_Single_Pat<string name, SDPatternOperator intrinsic, Operand index_ty, ZPRRegOp zpr_ty,		class SME2_ZA_TwoOp_Multi_Single_Pat<string name, SDPatternOperator intrinsic, Operand index_ty, ZPRRegOp zpr_ty,
ValueType vt, ComplexPattern tileslice>		ValueType vt, ComplexPattern tileslice>
: Pat<(intrinsic (i32 (tileslice MatrixIndexGPR32Op8_11:$base, index_ty:$offset)), vt:$Zn, vt:$Zm),		: Pat<(intrinsic (i32 (tileslice MatrixIndexGPR32Op8_11:$base, index_ty:$offset)), vt:$Zn, vt:$Zm),
(!cast<Instruction>(name # _PSEUDO) $base, $offset, vt:$Zn, zpr_ty:$Zm)>;		(!cast<Instruction>(name # _PSEUDO) $base, $offset, vt:$Zn, zpr_ty:$Zm)>;
▲ Show 20 Lines • Show All 52 Lines • ▼ Show 20 Lines
class SME2_ZA_VG1x2_Multi_Pat<string name, SDPatternOperator intrinsic, ValueType vt, Operand index_ty, ComplexPattern tileslice>		class SME2_ZA_VG1x2_Multi_Pat<string name, SDPatternOperator intrinsic, ValueType vt, Operand index_ty, ComplexPattern tileslice>
: Pat<(intrinsic (i32 (tileslice MatrixIndexGPR32Op8_11:$base, index_ty:$offset)), vt:$Zn1, vt:$Zn2),		: Pat<(intrinsic (i32 (tileslice MatrixIndexGPR32Op8_11:$base, index_ty:$offset)), vt:$Zn1, vt:$Zn2),
(!cast<Instruction>(name # _PSEUDO) $base, $offset, (REG_SEQUENCE ZPR2Mul2, vt:$Zn1, zsub0, vt:$Zn2, zsub1))>;		(!cast<Instruction>(name # _PSEUDO) $base, $offset, (REG_SEQUENCE ZPR2Mul2, vt:$Zn1, zsub0, vt:$Zn2, zsub1))>;

class SME2_ZA_VG1x4_Multi_Pat<string name, SDPatternOperator intrinsic, ValueType vt, Operand index_ty, ComplexPattern tileslice>		class SME2_ZA_VG1x4_Multi_Pat<string name, SDPatternOperator intrinsic, ValueType vt, Operand index_ty, ComplexPattern tileslice>
: Pat<(intrinsic (i32 (tileslice MatrixIndexGPR32Op8_11:$base, index_ty:$offset)), vt:$Zn1, vt:$Zn2, vt:$Zn3, vt:$Zn4),		: Pat<(intrinsic (i32 (tileslice MatrixIndexGPR32Op8_11:$base, index_ty:$offset)), vt:$Zn1, vt:$Zn2, vt:$Zn3, vt:$Zn4),
(!cast<Instruction>(name # _PSEUDO) $base, $offset, (REG_SEQUENCE ZPR4Mul4, vt:$Zn1, zsub0, vt:$Zn2, zsub1, vt:$Zn3, zsub2, vt:$Zn4, zsub3))>;		(!cast<Instruction>(name # _PSEUDO) $base, $offset, (REG_SEQUENCE ZPR4Mul4, vt:$Zn1, zsub0, vt:$Zn2, zsub1, vt:$Zn3, zsub2, vt:$Zn4, zsub3))>;

		class SME2_Tile_VG2_Multi_Pat<string name, SDPatternOperator intrinsic, Operand tile_imm, ValueType vt, Operand index_ty, ComplexPattern tileslice>
		: Pat<(intrinsic tile_imm:$tile, (i32 (tileslice MatrixIndexGPR32Op12_15:$base, index_ty:$offset)), vt:$Zn1, vt:$Zn2),
		(!cast<Instruction>(name # _PSEUDO) $tile, $base, $offset, (REG_SEQUENCE ZPR2Mul2, vt:$Zn1, zsub0, vt:$Zn2, zsub1))>;

		class SME2_Tile_VG4_Multi_Pat<string name, SDPatternOperator intrinsic, Operand tile_imm, ValueType vt, Operand index_ty, ComplexPattern tileslice>
		: Pat<(intrinsic tile_imm:$tile, (i32 (tileslice MatrixIndexGPR32Op12_15:$base, index_ty:$offset)), vt:$Zn1, vt:$Zn2, vt:$Zn3, vt:$Zn4),
		(!cast<Instruction>(name # _PSEUDO) $tile, $base, $offset, (REG_SEQUENCE ZPR4Mul4, vt:$Zn1, zsub0, vt:$Zn2, zsub1, vt:$Zn3, zsub2, vt:$Zn4, zsub3))>;

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// SME Outer Products		// SME Outer Products
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

class sme_fp_outer_product_inst<bit S, bits<2> sz, bit op, MatrixTileOperand za_ty,		class sme_fp_outer_product_inst<bit S, bits<2> sz, bit op, MatrixTileOperand za_ty,
ZPRRegOp zpr_ty, string mnemonic>		ZPRRegOp zpr_ty, string mnemonic>
: I<(outs za_ty:$ZAda),		: I<(outs za_ty:$ZAda),
(ins za_ty:$_ZAda, PPR3bAny:$Pn, PPR3bAny:$Pm, zpr_ty:$Zn, zpr_ty:$Zm),		(ins za_ty:$_ZAda, PPR3bAny:$Pn, PPR3bAny:$Pm, zpr_ty:$Zn, zpr_ty:$Zm),
▲ Show 20 Lines • Show All 643 Lines • ▼ Show 20 Lines	def : InstAlias<"mov\t$ZAd[$Rv, $imm], $Pg/m, $Zn",
(inst tile_ty:$ZAd, MatrixIndexGPR32Op12_15:$Rv, imm_ty:$imm, PPR3bAny:$Pg, zpr_ty:$Zn), 1>;		(inst tile_ty:$ZAd, MatrixIndexGPR32Op12_15:$Rv, imm_ty:$imm, PPR3bAny:$Pg, zpr_ty:$Zn), 1>;
}		}

multiclass sme_vector_to_tile_patterns<Instruction inst, ValueType zpr_vt,		multiclass sme_vector_to_tile_patterns<Instruction inst, ValueType zpr_vt,
ValueType ppr_vt, Operand imm_ty,		ValueType ppr_vt, Operand imm_ty,
Operand offset_ty,		Operand offset_ty,
SDPatternOperator op,		SDPatternOperator op,
ComplexPattern tileslice> {		ComplexPattern tileslice> {
def : Pat<(op imm_ty:$tile, MatrixIndexGPR32Op12_15:$idx,
david-armUnsubmitted Not Done Reply Inline Actions This wasn't mentioned in the commit message, but it looks like you're simplifying the patterns here because you can always use tileslice to get you base + offset, even if offset = 0? It's a nice clean-up! david-arm: This wasn't mentioned in the commit message, but it looks like you're simplifying the patterns…
kmclaughlinAuthorUnsubmitted Done Reply Inline Actions Yes, this can be removed because offsets of 0 are handled by tileslice. I've added a note to the commit message about this change too :) kmclaughlin: Yes, this can be removed because offsets of 0 are handled by tileslice. I've added a note to…
(ppr_vt PPR3bAny:$pg), (zpr_vt ZPRAny:$zn)),
(inst imm_ty:$tile, $idx, 0, $pg, $zn)>;
let AddedComplexity = 1 in {
def : Pat<(op imm_ty:$tile, (i32 (tileslice MatrixIndexGPR32Op12_15:$idx,		def : Pat<(op imm_ty:$tile, (i32 (tileslice MatrixIndexGPR32Op12_15:$idx,
offset_ty:$imm)),		offset_ty:$imm)),
(ppr_vt PPR3bAny:$pg), (zpr_vt ZPRAny:$zn)),		(ppr_vt PPR3bAny:$pg), (zpr_vt ZPRAny:$zn)),
(inst imm_ty:$tile, $idx, $imm, $pg, $zn)>;		(inst imm_ty:$tile, $idx, $imm, $pg, $zn)>;
}		}
}

class sme_mova_insert_pseudo<SMEMatrixTypeEnum za_flag>		class sme_mova_insert_pseudo<SMEMatrixTypeEnum za_flag>
: Pseudo<(outs), (ins i32imm:$tile, MatrixIndexGPR32Op12_15:$idx,		: Pseudo<(outs), (ins i32imm:$tile, MatrixIndexGPR32Op12_15:$idx,
i32imm:$imm, PPR3bAny:$pg, ZPRAny:$zn), []>,		i32imm:$imm, PPR3bAny:$pg, ZPRAny:$zn), []>,
Sched<[]> {		Sched<[]> {
// Translated to the actual instructions in AArch64ISelLowering.cpp		// Translated to the actual instructions in AArch64ISelLowering.cpp
let SMEMatrixType = za_flag;		let SMEMatrixType = za_flag;
let usesCustomInserter = 1;		let usesCustomInserter = 1;
▲ Show 20 Lines • Show All 2,215 Lines • ▼ Show 20 Lines	multiclass sme2_mova_vec_to_tile_or_array_aliases<int prefer, Instruction inst,
string mnemonic,		string mnemonic,
string vg_acronym=""> {		string vg_acronym=""> {
def : InstAlias<mnemonic # "\t$ZAd[$Rs, $imm" # !if(!eq(vg_acronym, ""), "", ", " # vg_acronym) # "], $Zn",		def : InstAlias<mnemonic # "\t$ZAd[$Rs, $imm" # !if(!eq(vg_acronym, ""), "", ", " # vg_acronym) # "], $Zn",
(inst tile_or_array_ty:$ZAd, rv_ty:$Rs, index_ty:$imm, vector_ty:$Zn), prefer>;		(inst tile_or_array_ty:$ZAd, rv_ty:$Rs, index_ty:$imm, vector_ty:$Zn), prefer>;

}		}

// SME2 move vector to tile, two registers		// SME2 move vector to tile, two registers
multiclass sme2_mova_vec_to_tile_vg2_multi_base<bit v, string mnemonic> {		multiclass sme2_mova_vec_to_tile_vg2_multi_base<bit v, string mnemonic, SDPatternOperator intrinsic> {

def _B : sme2_mova_vec_to_tile_vg2_multi_base<0b00, v,		def _B : sme2_mova_vec_to_tile_vg2_multi_base<0b00, v,
!if(v, TileVectorOpV8,		!if(v, TileVectorOpV8,
TileVectorOpH8),		TileVectorOpH8),
uimm3s2range, ZZ_b_mul_r,		uimm3s2range, ZZ_b_mul_r,
mnemonic> {		mnemonic>, SMEPseudo2Instr<NAME # _B, 1> {
bits<3> imm;		bits<3> imm;
let Inst{2-0} = imm;		let Inst{2-0} = imm;
}		}

def _H : sme2_mova_vec_to_tile_vg2_multi_base<0b01, v,		def _H : sme2_mova_vec_to_tile_vg2_multi_base<0b01, v,
!if(v, TileVectorOpV16,		!if(v, TileVectorOpV16,
TileVectorOpH16),		TileVectorOpH16),
uimm2s2range, ZZ_h_mul_r,		uimm2s2range, ZZ_h_mul_r,
mnemonic> {		mnemonic>, SMEPseudo2Instr<NAME # _H, 1> {
bits<1> ZAd;		bits<1> ZAd;
bits<2> imm;		bits<2> imm;
let Inst{2} = ZAd;		let Inst{2} = ZAd;
let Inst{1-0} = imm;		let Inst{1-0} = imm;
}		}

def _S : sme2_mova_vec_to_tile_vg2_multi_base<0b10, v,		def _S : sme2_mova_vec_to_tile_vg2_multi_base<0b10, v,
!if(v, TileVectorOpV32,		!if(v, TileVectorOpV32,
TileVectorOpH32),		TileVectorOpH32),
uimm1s2range, ZZ_s_mul_r,		uimm1s2range, ZZ_s_mul_r,
mnemonic> {		mnemonic>, SMEPseudo2Instr<NAME # _S, 1> {
bits<2> ZAd;		bits<2> ZAd;
bits<1> imm;		bits<1> imm;
let Inst{2-1} = ZAd;		let Inst{2-1} = ZAd;
let Inst{0} = imm;		let Inst{0} = imm;
}		}

def _D : sme2_mova_vec_to_tile_vg2_multi_base<0b11, v,		def _D : sme2_mova_vec_to_tile_vg2_multi_base<0b11, v,
!if(v, TileVectorOpV64,		!if(v, TileVectorOpV64,
TileVectorOpH64),		TileVectorOpH64),
uimm0s2range, ZZ_d_mul_r,		uimm0s2range, ZZ_d_mul_r,
mnemonic> {		mnemonic>, SMEPseudo2Instr<NAME # _D, 1> {
bits<3> ZAd;		bits<3> ZAd;
let Inst{2-0} = ZAd;		let Inst{2-0} = ZAd;
}		}

		def NAME # _B_PSEUDO : sme2_move_to_tile_pseudo<NAME # _B, sme_elm_idx0_0, uimm3s2range, ZZ_b_mul_r, SMEMatrixTileB>;
		def NAME # _H_PSEUDO : sme2_move_to_tile_pseudo<NAME # _H, sme_elm_idx0_1, uimm2s2range, ZZ_h_mul_r, SMEMatrixTileH>;
		def NAME # _S_PSEUDO : sme2_move_to_tile_pseudo<NAME # _S, sme_elm_idx0_3, uimm1s2range, ZZ_s_mul_r, SMEMatrixTileS>;
		def NAME # _D_PSEUDO : sme2_move_to_tile_pseudo<NAME # _D, sme_elm_idx0_7, uimm0s2range, ZZ_d_mul_r, SMEMatrixTileD>;

		def : SME2_Tile_VG2_Multi_Pat<NAME # _B, intrinsic, sme_elm_idx0_0, nxv16i8, uimm3s2range, tileslicerange3s2>;
		def : SME2_Tile_VG2_Multi_Pat<NAME # _H, intrinsic, sme_elm_idx0_1, nxv8i16, uimm2s2range, tileslicerange2s2>;
		def : SME2_Tile_VG2_Multi_Pat<NAME # _H, intrinsic, sme_elm_idx0_1, nxv8f16, uimm2s2range, tileslicerange2s2>;
		def : SME2_Tile_VG2_Multi_Pat<NAME # _H, intrinsic, sme_elm_idx0_1, nxv8bf16, uimm2s2range, tileslicerange2s2>;
		def : SME2_Tile_VG2_Multi_Pat<NAME # _S, intrinsic, sme_elm_idx0_3, nxv4i32, uimm1s2range, tileslicerange1s2>;
		def : SME2_Tile_VG2_Multi_Pat<NAME # _S, intrinsic, sme_elm_idx0_3, nxv4f32, uimm1s2range, tileslicerange1s2>;
		def : SME2_Tile_VG2_Multi_Pat<NAME # _D, intrinsic, sme_elm_idx0_7, nxv2i64, uimm0s2range, tileslicerange0s2>;
		def : SME2_Tile_VG2_Multi_Pat<NAME # _D, intrinsic, sme_elm_idx0_7, nxv2f64, uimm0s2range, tileslicerange0s2>;

defm : sme2_mova_vec_to_tile_or_array_aliases<1, !cast<Instruction>(NAME # _B),		defm : sme2_mova_vec_to_tile_or_array_aliases<1, !cast<Instruction>(NAME # _B),
!if(v, TileVectorOpV8,		!if(v, TileVectorOpV8,
TileVectorOpH8),		TileVectorOpH8),
MatrixIndexGPR32Op12_15,		MatrixIndexGPR32Op12_15,
uimm3s2range, ZZ_b_mul_r,		uimm3s2range, ZZ_b_mul_r,
"mov">;		"mov">;
defm : sme2_mova_vec_to_tile_or_array_aliases<1, !cast<Instruction>(NAME # _H),		defm : sme2_mova_vec_to_tile_or_array_aliases<1, !cast<Instruction>(NAME # _H),
!if(v, TileVectorOpV16,		!if(v, TileVectorOpV16,
▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines	multiclass sme2_mova_vec_to_tile_vg2_multi_base<bit v, string mnemonic, SDPatternOperator intrinsic> {
defm : sme2_mova_vec_to_tile_or_array_aliases<0, !cast<Instruction>(NAME # _D),		defm : sme2_mova_vec_to_tile_or_array_aliases<0, !cast<Instruction>(NAME # _D),
!if(v, TileVectorOpV64,		!if(v, TileVectorOpV64,
TileVectorOpH64),		TileVectorOpH64),
MatrixIndexGPR32Op12_15,		MatrixIndexGPR32Op12_15,
uimm0s2range, ZZ_d_mul_r,		uimm0s2range, ZZ_d_mul_r,
"mova">;		"mova">;
}		}

multiclass sme2_mova_vec_to_tile_vg2_multi<string mnemonic>{		multiclass sme2_mova_vec_to_tile_vg2_multi<string mnemonic,
defm _H : sme2_mova_vec_to_tile_vg2_multi_base<0b0, mnemonic>;		SDPatternOperator int_h, SDPatternOperator int_v>{
defm _V : sme2_mova_vec_to_tile_vg2_multi_base<0b1, mnemonic>;		defm _H : sme2_mova_vec_to_tile_vg2_multi_base<0b0, mnemonic, int_h>;
		defm _V : sme2_mova_vec_to_tile_vg2_multi_base<0b1, mnemonic, int_v>;
}		}

class sme2_mova_vec_to_tile_vg4_multi_base<bits<2> sz, bit v, bits<3> op,		class sme2_mova_vec_to_tile_vg4_multi_base<bits<2> sz, bit v, bits<3> op,
RegisterOperand tile_ty,		RegisterOperand tile_ty,
Operand index_ty,		Operand index_ty,
RegisterOperand vector_ty,		RegisterOperand vector_ty,
string mnemonic>		string mnemonic>
: I<(outs tile_ty:$ZAd),		: I<(outs tile_ty:$ZAd),
Show All 12 Lines	class sme2_mova_vec_to_tile_vg4_multi_base<bits<2> sz, bit v, bits<3> op,
let Inst{12-10} = 0b001;		let Inst{12-10} = 0b001;
let Inst{9-7} = Zn;		let Inst{9-7} = Zn;
let Inst{6-3} = 0b0000;		let Inst{6-3} = 0b0000;
let Inst{2-0} = op;		let Inst{2-0} = op;
let Constraints = "$ZAd = $_ZAd";		let Constraints = "$ZAd = $_ZAd";
}		}

// SME2 move vector to tile, four registers		// SME2 move vector to tile, four registers
multiclass sme2_mova_vec_to_tile_vg4_multi_base<bit v, string mnemonic> {		multiclass sme2_mova_vec_to_tile_vg4_multi_base<bit v, string mnemonic, SDPatternOperator intrinsic> {

def _B : sme2_mova_vec_to_tile_vg4_multi_base<0b00, v, {0,?,?},		def _B : sme2_mova_vec_to_tile_vg4_multi_base<0b00, v, {0,?,?},
!if(v, TileVectorOpV8,		!if(v, TileVectorOpV8,
TileVectorOpH8),		TileVectorOpH8),
uimm2s4range, ZZZZ_b_mul_r,		uimm2s4range, ZZZZ_b_mul_r,
mnemonic> {		mnemonic>, SMEPseudo2Instr<NAME # _B, 1> {
bits<2> imm;		bits<2> imm;
let Inst{1-0} = imm;		let Inst{1-0} = imm;
}		}

def _H : sme2_mova_vec_to_tile_vg4_multi_base<0b01, v, {0,?,?},		def _H : sme2_mova_vec_to_tile_vg4_multi_base<0b01, v, {0,?,?},
!if(v, TileVectorOpV16,		!if(v, TileVectorOpV16,
TileVectorOpH16),		TileVectorOpH16),
uimm1s4range, ZZZZ_h_mul_r,		uimm1s4range, ZZZZ_h_mul_r,
mnemonic> {		mnemonic>, SMEPseudo2Instr<NAME # _H, 1> {
bits<1> ZAd;		bits<1> ZAd;
bits<1> imm;		bits<1> imm;
let Inst{1} = ZAd;		let Inst{1} = ZAd;
let Inst{0} = imm;		let Inst{0} = imm;
}		}

def _S : sme2_mova_vec_to_tile_vg4_multi_base<0b10, v, {0,?,?},		def _S : sme2_mova_vec_to_tile_vg4_multi_base<0b10, v, {0,?,?},
!if(v, TileVectorOpV32,		!if(v, TileVectorOpV32,
TileVectorOpH32),		TileVectorOpH32),
uimm0s4range, ZZZZ_s_mul_r,		uimm0s4range, ZZZZ_s_mul_r,
mnemonic> {		mnemonic>, SMEPseudo2Instr<NAME # _S, 1> {
bits<2> ZAd;		bits<2> ZAd;
let Inst{1-0} = ZAd;		let Inst{1-0} = ZAd;
}		}

def _D : sme2_mova_vec_to_tile_vg4_multi_base<0b11, v, {?,?,?},		def _D : sme2_mova_vec_to_tile_vg4_multi_base<0b11, v, {?,?,?},
!if(v, TileVectorOpV64,		!if(v, TileVectorOpV64,
TileVectorOpH64),		TileVectorOpH64),
uimm0s4range, ZZZZ_d_mul_r,		uimm0s4range, ZZZZ_d_mul_r,
mnemonic> {		mnemonic>, SMEPseudo2Instr<NAME # _D, 1> {
bits<3> ZAd;		bits<3> ZAd;
let Inst{2-0} = ZAd;		let Inst{2-0} = ZAd;
}		}

		def NAME # _B_PSEUDO : sme2_move_to_tile_pseudo<NAME # _B, sme_elm_idx0_0, uimm2s4range, ZZZZ_b_mul_r, SMEMatrixTileB>;
		def NAME # _H_PSEUDO : sme2_move_to_tile_pseudo<NAME # _H, sme_elm_idx0_1, uimm1s4range, ZZZZ_h_mul_r, SMEMatrixTileH>;
		def NAME # _S_PSEUDO : sme2_move_to_tile_pseudo<NAME # _S, sme_elm_idx0_3, uimm0s4range, ZZZZ_s_mul_r, SMEMatrixTileS>;
		def NAME # _D_PSEUDO : sme2_move_to_tile_pseudo<NAME # _D, sme_elm_idx0_7, uimm0s4range, ZZZZ_d_mul_r, SMEMatrixTileD>;

		def : SME2_Tile_VG4_Multi_Pat<NAME # _B, intrinsic, sme_elm_idx0_0, nxv16i8, uimm2s4range, tileslicerange2s4>;
		def : SME2_Tile_VG4_Multi_Pat<NAME # _H, intrinsic, sme_elm_idx0_1, nxv8i16, uimm1s4range, tileslicerange1s4>;
		def : SME2_Tile_VG4_Multi_Pat<NAME # _H, intrinsic, sme_elm_idx0_1, nxv8f16, uimm1s4range, tileslicerange1s4>;
		def : SME2_Tile_VG4_Multi_Pat<NAME # _H, intrinsic, sme_elm_idx0_1, nxv8bf16, uimm1s4range, tileslicerange1s4>;
		def : SME2_Tile_VG4_Multi_Pat<NAME # _S, intrinsic, sme_elm_idx0_3, nxv4i32, uimm0s4range, tileslicerange0s4>;
		def : SME2_Tile_VG4_Multi_Pat<NAME # _S, intrinsic, sme_elm_idx0_3, nxv4f32, uimm0s4range, tileslicerange0s4>;
		def : SME2_Tile_VG4_Multi_Pat<NAME # _D, intrinsic, sme_elm_idx0_7, nxv2i64, uimm0s4range, tileslicerange0s4>;
		def : SME2_Tile_VG4_Multi_Pat<NAME # _D, intrinsic, sme_elm_idx0_7, nxv2f64, uimm0s4range, tileslicerange0s4>;

defm : sme2_mova_vec_to_tile_or_array_aliases<1, !cast<Instruction>(NAME # _B),		defm : sme2_mova_vec_to_tile_or_array_aliases<1, !cast<Instruction>(NAME # _B),
!if(v, TileVectorOpV8,		!if(v, TileVectorOpV8,
TileVectorOpH8),		TileVectorOpH8),
MatrixIndexGPR32Op12_15,		MatrixIndexGPR32Op12_15,
uimm2s4range, ZZZZ_b_mul_r,		uimm2s4range, ZZZZ_b_mul_r,
"mov">;		"mov">;
defm : sme2_mova_vec_to_tile_or_array_aliases<1, !cast<Instruction>(NAME # _H),		defm : sme2_mova_vec_to_tile_or_array_aliases<1, !cast<Instruction>(NAME # _H),
!if(v, TileVectorOpV16,		!if(v, TileVectorOpV16,
Show All 36 Lines	defm : sme2_mova_vec_to_tile_or_array_aliases<0, !cast<Instruction>(NAME # _D),
!if(v, TileVectorOpV64,		!if(v, TileVectorOpV64,
TileVectorOpH64),		TileVectorOpH64),
MatrixIndexGPR32Op12_15,		MatrixIndexGPR32Op12_15,
uimm0s4range, ZZZZ_d_mul_r,		uimm0s4range, ZZZZ_d_mul_r,
"mova">;		"mova">;

}		}

multiclass sme2_mova_vec_to_tile_vg4_multi<string mnemonic>{		multiclass sme2_mova_vec_to_tile_vg4_multi<string mnemonic,
defm _H : sme2_mova_vec_to_tile_vg4_multi_base<0b0, mnemonic>;		SDPatternOperator int_h, SDPatternOperator int_v>{
defm _V : sme2_mova_vec_to_tile_vg4_multi_base<0b1, mnemonic>;		defm _H : sme2_mova_vec_to_tile_vg4_multi_base<0b0, mnemonic, int_h>;
		defm _V : sme2_mova_vec_to_tile_vg4_multi_base<0b1, mnemonic, int_v>;
}		}

// SME Move into Array		// SME Move into Array
class sme2_mova_vec_to_array_vg24_multi< bits<5> op, RegisterOperand array_ty,		class sme2_mova_vec_to_array_vg24_multi< bits<5> op, RegisterOperand array_ty,
RegisterOperand vector_ty,		RegisterOperand vector_ty,
string mnemonic,		string mnemonic,
string vg_acronym="">		string vg_acronym="">
: I<(outs array_ty:$ZAd),		: I<(outs array_ty:$ZAd),
Show All 9 Lines	class sme2_mova_vec_to_array_vg24_multi< bits<5> op, RegisterOperand array_ty,
let Inst{10-6} = op;		let Inst{10-6} = op;
let Inst{5-3} = 0b000;		let Inst{5-3} = 0b000;
let Inst{2-0} = imm;		let Inst{2-0} = imm;

let Constraints = "$ZAd = $_ZAd";		let Constraints = "$ZAd = $_ZAd";
}		}

// MOVA (vector to array, two registers)		// MOVA (vector to array, two registers)
multiclass sme2_mova_vec_to_array_vg2_multi<string mnemonic> {		multiclass sme2_mova_vec_to_array_vg2_multi<string mnemonic, SDPatternOperator intrinsic> {
def NAME : sme2_mova_vec_to_array_vg24_multi<{0,?,?,?,?}, MatrixOp64,		def NAME : sme2_mova_vec_to_array_vg24_multi<{0,?,?,?,?}, MatrixOp64,
ZZ_d_mul_r, mnemonic, "vgx2">{		ZZ_d_mul_r, mnemonic, "vgx2">, SMEPseudo2Instr<NAME, 1> {
bits<4> Zn;		bits<4> Zn;
let Inst{9-6} = Zn;		let Inst{9-6} = Zn;
}		}

		def NAME # _PSEUDO : sme2_move_to_za_pseudo<NAME, sme_elm_idx0_7, ZZ_d_mul_r, SMEMatrixArray>;

		def : SME2_ZA_VG1x2_Multi_Pat<NAME, intrinsic, nxv2i64, sme_elm_idx0_7, tileslice16>;
		def : SME2_ZA_VG1x2_Multi_Pat<NAME, intrinsic, nxv2f64, sme_elm_idx0_7, tileslice16>;

defm : sme2_mova_vec_to_tile_or_array_aliases<0, !cast<Instruction>(NAME),		defm : sme2_mova_vec_to_tile_or_array_aliases<0, !cast<Instruction>(NAME),
MatrixOp8,		MatrixOp8,
MatrixIndexGPR32Op8_11,		MatrixIndexGPR32Op8_11,
sme_elm_idx0_7, ZZ_b_mul_r,		sme_elm_idx0_7, ZZ_b_mul_r,
"mova">;		"mova">;
defm : sme2_mova_vec_to_tile_or_array_aliases<0, !cast<Instruction>(NAME),		defm : sme2_mova_vec_to_tile_or_array_aliases<0, !cast<Instruction>(NAME),
MatrixOp16,		MatrixOp16,
MatrixIndexGPR32Op8_11,		MatrixIndexGPR32Op8_11,
▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines	multiclass sme2_mova_vec_to_array_vg2_multi<string mnemonic, SDPatternOperator intrinsic> {
defm : sme2_mova_vec_to_tile_or_array_aliases<1, !cast<Instruction>(NAME),		defm : sme2_mova_vec_to_tile_or_array_aliases<1, !cast<Instruction>(NAME),
MatrixOp64,		MatrixOp64,
MatrixIndexGPR32Op8_11,		MatrixIndexGPR32Op8_11,
sme_elm_idx0_7, ZZ_d_mul_r,		sme_elm_idx0_7, ZZ_d_mul_r,
"mov", "vgx2">;		"mov", "vgx2">;
}		}

// MOVA (vector to array, four registers)		// MOVA (vector to array, four registers)
multiclass sme2_mova_vec_to_array_vg4_multi<string mnemonic> {		multiclass sme2_mova_vec_to_array_vg4_multi<string mnemonic, SDPatternOperator intrinsic> {
def NAME : sme2_mova_vec_to_array_vg24_multi<{1,?,?,?,0}, MatrixOp64,		def NAME : sme2_mova_vec_to_array_vg24_multi<{1,?,?,?,0}, MatrixOp64,
ZZZZ_d_mul_r, mnemonic, "vgx4"> {		ZZZZ_d_mul_r, mnemonic, "vgx4">, SMEPseudo2Instr<NAME, 1> {
bits<3> Zn;		bits<3> Zn;
let Inst{9-7} = Zn;		let Inst{9-7} = Zn;
}		}

		def NAME # _PSEUDO : sme2_move_to_za_pseudo<NAME, sme_elm_idx0_7, ZZZZ_d_mul_r, SMEMatrixArray>;

		def : SME2_ZA_VG1x4_Multi_Pat<NAME, intrinsic, nxv2i64, sme_elm_idx0_7, tileslice16>;
		def : SME2_ZA_VG1x4_Multi_Pat<NAME, intrinsic, nxv2f64, sme_elm_idx0_7, tileslice16>;

defm : sme2_mova_vec_to_tile_or_array_aliases<0, !cast<Instruction>(NAME),		defm : sme2_mova_vec_to_tile_or_array_aliases<0, !cast<Instruction>(NAME),
MatrixOp8,		MatrixOp8,
MatrixIndexGPR32Op8_11,		MatrixIndexGPR32Op8_11,
sme_elm_idx0_7, ZZZZ_b_mul_r,		sme_elm_idx0_7, ZZZZ_b_mul_r,
"mova">;		"mova">;
defm : sme2_mova_vec_to_tile_or_array_aliases<0, !cast<Instruction>(NAME),		defm : sme2_mova_vec_to_tile_or_array_aliases<0, !cast<Instruction>(NAME),
MatrixOp16,		MatrixOp16,
MatrixIndexGPR32Op8_11,		MatrixIndexGPR32Op8_11,
▲ Show 20 Lines • Show All 1,066 Lines • Show Last 20 Lines

llvm/test/CodeGen/AArch64/sme2-intrinsics-extract-mova.ll

This file was added.

				; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
				; RUN: llc -mtriple=aarch64-linux-gnu -mattr=+sme2 -verify-machineinstrs < %s \| FileCheck %s

				;
				; Move Multi-Vector From Tile (Read) x2
				;

				; Horizontal

				define { <vscale x 16 x i8>, <vscale x 16 x i8> } @za_read_horiz_vg2_b(i32 %slice) {
				; CHECK-LABEL: za_read_horiz_vg2_b:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: mov { z0.b, z1.b }, za0h.b[w12, 0:1]
				; CHECK-NEXT: mov { z0.b, z1.b }, za0h.b[w12, 14:15]
				; CHECK-NEXT: ret
				%res = call { <vscale x 16 x i8>, <vscale x 16 x i8> } @llvm.aarch64.sme.read.hor.vg2.nxv16i8(i32 0, i32 %slice)
				%slice.14 = add i32 %slice, 14
				%res2 = call { <vscale x 16 x i8>, <vscale x 16 x i8> } @llvm.aarch64.sme.read.hor.vg2.nxv16i8(i32 0, i32 %slice.14)
				ret { <vscale x 16 x i8>, <vscale x 16 x i8> } %res2
				}

				define { <vscale x 8 x i16>, <vscale x 8 x i16> } @za_read_horiz_vg2_h(i32 %slice) {
				; CHECK-LABEL: za_read_horiz_vg2_h:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: mov { z0.h, z1.h }, za0h.h[w12, 0:1]
				; CHECK-NEXT: mov { z0.h, z1.h }, za1h.h[w12, 6:7]
				; CHECK-NEXT: ret
				%res = call { <vscale x 8 x i16>, <vscale x 8 x i16> } @llvm.aarch64.sme.read.hor.vg2.nxv8i16(i32 0, i32 %slice)
				%slice.6 = add i32 %slice, 6
				%res2 = call { <vscale x 8 x i16>, <vscale x 8 x i16> } @llvm.aarch64.sme.read.hor.vg2.nxv8i16(i32 1, i32 %slice.6)
				ret { <vscale x 8 x i16>, <vscale x 8 x i16> } %res2
				}

				define { <vscale x 8 x half>, <vscale x 8 x half> } @za_read_horiz_vg2_f16(i32 %slice) {
				; CHECK-LABEL: za_read_horiz_vg2_f16:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: mov { z0.h, z1.h }, za0h.h[w12, 0:1]
				; CHECK-NEXT: mov { z0.h, z1.h }, za1h.h[w12, 6:7]
				; CHECK-NEXT: ret
				%res = call { <vscale x 8 x half>, <vscale x 8 x half> } @llvm.aarch64.sme.read.hor.vg2.nxv8f16(i32 0, i32 %slice)
				%slice.6 = add i32 %slice, 6
				%res2 = call { <vscale x 8 x half>, <vscale x 8 x half> } @llvm.aarch64.sme.read.hor.vg2.nxv8f16(i32 1, i32 %slice.6)
				ret { <vscale x 8 x half>, <vscale x 8 x half> } %res2
				}

				define { <vscale x 8 x bfloat>, <vscale x 8 x bfloat> } @za_read_horiz_vg2_bf16(i32 %slice) {
				; CHECK-LABEL: za_read_horiz_vg2_bf16:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: mov { z0.h, z1.h }, za0h.h[w12, 0:1]
				; CHECK-NEXT: mov { z0.h, z1.h }, za1h.h[w12, 6:7]
				; CHECK-NEXT: ret
				%res = call { <vscale x 8 x bfloat>, <vscale x 8 x bfloat> } @llvm.aarch64.sme.read.hor.vg2.nxv8bf16(i32 0, i32 %slice)
				%slice.6 = add i32 %slice, 6
				%res2 = call { <vscale x 8 x bfloat>, <vscale x 8 x bfloat> } @llvm.aarch64.sme.read.hor.vg2.nxv8bf16(i32 1, i32 %slice.6)
				ret { <vscale x 8 x bfloat>, <vscale x 8 x bfloat> } %res2
				}

				define { <vscale x 4 x i32>, <vscale x 4 x i32> } @za_read_horiz_vg2_s(i32 %slice) {
				; CHECK-LABEL: za_read_horiz_vg2_s:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: mov { z0.s, z1.s }, za0h.s[w12, 0:1]
				; CHECK-NEXT: mov { z0.s, z1.s }, za3h.s[w12, 2:3]
				; CHECK-NEXT: ret
				%res = call { <vscale x 4 x i32>, <vscale x 4 x i32> } @llvm.aarch64.sme.read.hor.vg2.nxv4i32(i32 0, i32 %slice)
				%slice.2 = add i32 %slice, 2
				%res2 = call { <vscale x 4 x i32>, <vscale x 4 x i32> } @llvm.aarch64.sme.read.hor.vg2.nxv4i32(i32 3, i32 %slice.2)
				ret { <vscale x 4 x i32>, <vscale x 4 x i32> } %res2
				}

				define { <vscale x 4 x float>, <vscale x 4 x float> } @za_read_horiz_vg2_f32(i32 %slice) {
				; CHECK-LABEL: za_read_horiz_vg2_f32:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: mov { z0.s, z1.s }, za0h.s[w12, 0:1]
				; CHECK-NEXT: mov { z0.s, z1.s }, za3h.s[w12, 2:3]
				; CHECK-NEXT: ret
				%res = call { <vscale x 4 x float>, <vscale x 4 x float> } @llvm.aarch64.sme.read.hor.vg2.nxv4f32(i32 0, i32 %slice)
				%slice.2 = add i32 %slice, 2
				%res2 = call { <vscale x 4 x float>, <vscale x 4 x float> } @llvm.aarch64.sme.read.hor.vg2.nxv4f32(i32 3, i32 %slice.2)
				ret { <vscale x 4 x float>, <vscale x 4 x float> } %res2
				}

				define { <vscale x 2 x i64>, <vscale x 2 x i64> } @za_read_horiz_vg2_d(i32 %slice) {
				; CHECK-LABEL: za_read_horiz_vg2_d:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: mov { z0.d, z1.d }, za0h.d[w12, 0:1]
				; CHECK-NEXT: ret
				%res = call { <vscale x 2 x i64>, <vscale x 2 x i64> } @llvm.aarch64.sme.read.hor.vg2.nxv2i64(i32 0, i32 %slice)
				ret { <vscale x 2 x i64>, <vscale x 2 x i64> } %res
				}

				david-armUnsubmitted Done Reply Inline Actions This add doesn't seem to 'add' any value, if you excuse the pun. :) And the same thing for the other 64-bit variants. david-arm: This add doesn't seem to 'add' any value, if you excuse the pun. :) And the same thing for the…
				define { <vscale x 2 x double>, <vscale x 2 x double> } @za_read_horiz_vg2_f64(i32 %slice) {
				; CHECK-LABEL: za_read_horiz_vg2_f64:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: mov { z0.d, z1.d }, za0h.d[w12, 0:1]
				; CHECK-NEXT: ret
				%res = call { <vscale x 2 x double>, <vscale x 2 x double> } @llvm.aarch64.sme.read.hor.vg2.nxv2f64(i32 0, i32 %slice)
				ret { <vscale x 2 x double>, <vscale x 2 x double> } %res
				}

				; Vertical

				define { <vscale x 16 x i8>, <vscale x 16 x i8> } @za_read_vert_vg2_b(i32 %slice) {
				; CHECK-LABEL: za_read_vert_vg2_b:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: mov { z0.b, z1.b }, za0v.b[w12, 0:1]
				; CHECK-NEXT: mov { z0.b, z1.b }, za0v.b[w12, 14:15]
				; CHECK-NEXT: ret
				%res = call { <vscale x 16 x i8>, <vscale x 16 x i8> } @llvm.aarch64.sme.read.ver.vg2.nxv16i8(i32 0, i32 %slice)
				%slice.14 = add i32 %slice, 14
				%res2 = call { <vscale x 16 x i8>, <vscale x 16 x i8> } @llvm.aarch64.sme.read.ver.vg2.nxv16i8(i32 0, i32 %slice.14)
				ret { <vscale x 16 x i8>, <vscale x 16 x i8> } %res2
				}

				define { <vscale x 8 x i16>, <vscale x 8 x i16> } @za_read_vert_vg2_h(i32 %slice) {
				; CHECK-LABEL: za_read_vert_vg2_h:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: mov { z0.h, z1.h }, za0v.h[w12, 0:1]
				; CHECK-NEXT: mov { z0.h, z1.h }, za1v.h[w12, 6:7]
				; CHECK-NEXT: ret
				%res = call { <vscale x 8 x i16>, <vscale x 8 x i16> } @llvm.aarch64.sme.read.ver.vg2.nxv8i16(i32 0, i32 %slice)
				%slice.6 = add i32 %slice, 6
				%res2 = call { <vscale x 8 x i16>, <vscale x 8 x i16> } @llvm.aarch64.sme.read.ver.vg2.nxv8i16(i32 1, i32 %slice.6)
				ret { <vscale x 8 x i16>, <vscale x 8 x i16> } %res2
				}

				define { <vscale x 8 x half>, <vscale x 8 x half> } @za_read_vert_vg2_f16(i32 %slice) {
				; CHECK-LABEL: za_read_vert_vg2_f16:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: mov { z0.h, z1.h }, za0v.h[w12, 0:1]
				; CHECK-NEXT: mov { z0.h, z1.h }, za1v.h[w12, 6:7]
				; CHECK-NEXT: ret
				%res = call { <vscale x 8 x half>, <vscale x 8 x half> } @llvm.aarch64.sme.read.ver.vg2.nxv8f16(i32 0, i32 %slice)
				%slice.6 = add i32 %slice, 6
				%res2 = call { <vscale x 8 x half>, <vscale x 8 x half> } @llvm.aarch64.sme.read.ver.vg2.nxv8f16(i32 1, i32 %slice.6)
				ret { <vscale x 8 x half>, <vscale x 8 x half> } %res2
				}

				define { <vscale x 8 x bfloat>, <vscale x 8 x bfloat> } @za_read_vert_vg2_bf16(i32 %slice) {
				; CHECK-LABEL: za_read_vert_vg2_bf16:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: mov { z0.h, z1.h }, za0v.h[w12, 0:1]
				; CHECK-NEXT: mov { z0.h, z1.h }, za1v.h[w12, 6:7]
				; CHECK-NEXT: ret
				%res = call { <vscale x 8 x bfloat>, <vscale x 8 x bfloat> } @llvm.aarch64.sme.read.ver.vg2.nxv8bf16(i32 0, i32 %slice)
				%slice.6 = add i32 %slice, 6
				%res2 = call { <vscale x 8 x bfloat>, <vscale x 8 x bfloat> } @llvm.aarch64.sme.read.ver.vg2.nxv8bf16(i32 1, i32 %slice.6)
				ret { <vscale x 8 x bfloat>, <vscale x 8 x bfloat> } %res2
				}

				define { <vscale x 4 x i32>, <vscale x 4 x i32> } @za_read_vert_vg2_s(i32 %slice) {
				; CHECK-LABEL: za_read_vert_vg2_s:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: mov { z0.s, z1.s }, za0v.s[w12, 0:1]
				; CHECK-NEXT: mov { z0.s, z1.s }, za3v.s[w12, 2:3]
				; CHECK-NEXT: ret
				%res = call { <vscale x 4 x i32>, <vscale x 4 x i32> } @llvm.aarch64.sme.read.ver.vg2.nxv4i32(i32 0, i32 %slice)
				%slice.2 = add i32 %slice, 2
				%res2 = call { <vscale x 4 x i32>, <vscale x 4 x i32> } @llvm.aarch64.sme.read.ver.vg2.nxv4i32(i32 3, i32 %slice.2)
				ret { <vscale x 4 x i32>, <vscale x 4 x i32> } %res2
				}

				define { <vscale x 4 x float>, <vscale x 4 x float> } @za_read_vert_vg2_f32(i32 %slice) {
				; CHECK-LABEL: za_read_vert_vg2_f32:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: mov { z0.s, z1.s }, za0v.s[w12, 0:1]
				; CHECK-NEXT: mov { z0.s, z1.s }, za3v.s[w12, 2:3]
				; CHECK-NEXT: ret
				%res = call { <vscale x 4 x float>, <vscale x 4 x float> } @llvm.aarch64.sme.read.ver.vg2.nxv4f32(i32 0, i32 %slice)
				%slice.2 = add i32 %slice, 2
				%res2 = call { <vscale x 4 x float>, <vscale x 4 x float> } @llvm.aarch64.sme.read.ver.vg2.nxv4f32(i32 3, i32 %slice.2)
				ret { <vscale x 4 x float>, <vscale x 4 x float> } %res2
				}

				define { <vscale x 2 x i64>, <vscale x 2 x i64> } @za_read_vert_vg2_d(i32 %slice) {
				; CHECK-LABEL: za_read_vert_vg2_d:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: mov { z0.d, z1.d }, za0v.d[w12, 0:1]
				; CHECK-NEXT: ret
				%res = call { <vscale x 2 x i64>, <vscale x 2 x i64> } @llvm.aarch64.sme.read.ver.vg2.nxv2i64(i32 0, i32 %slice)
				ret { <vscale x 2 x i64>, <vscale x 2 x i64> } %res
				}

				define { <vscale x 2 x double>, <vscale x 2 x double> } @za_read_vert_vg2_f64(i32 %slice) {
				; CHECK-LABEL: za_read_vert_vg2_f64:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: mov { z0.d, z1.d }, za0v.d[w12, 0:1]
				; CHECK-NEXT: ret
				%res = call { <vscale x 2 x double>, <vscale x 2 x double> } @llvm.aarch64.sme.read.ver.vg2.nxv2f64(i32 0, i32 %slice)
				ret { <vscale x 2 x double>, <vscale x 2 x double> } %res
				}

				;
				; Move Multi-Vector From Tile (Read) x4
				;

				; Horizontal

				define { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } @za_read_horiz_vg4_b(i32 %slice) {
				; CHECK-LABEL: za_read_horiz_vg4_b:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: mov { z0.b - z3.b }, za0h.b[w12, 0:3]
				; CHECK-NEXT: mov { z0.b - z3.b }, za0h.b[w12, 12:15]
				; CHECK-NEXT: ret
				%res = call { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } @llvm.aarch64.sme.read.hor.vg4.nxv16i8(i32 0, i32 %slice)
				%slice.12 = add i32 %slice, 12
				%res2 = call { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } @llvm.aarch64.sme.read.hor.vg4.nxv16i8(i32 0, i32 %slice.12)
				ret { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %res2
				}

				define { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } @za_read_horiz_vg4_h(i32 %slice) {
				; CHECK-LABEL: za_read_horiz_vg4_h:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: mov { z0.h - z3.h }, za0h.h[w12, 0:3]
				; CHECK-NEXT: mov { z0.h - z3.h }, za1h.h[w12, 4:7]
				; CHECK-NEXT: ret
				%res = call { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } @llvm.aarch64.sme.read.hor.vg4.nxv8i16(i32 0, i32 %slice)
				%slice.4 = add i32 %slice, 4
				%res2 = call { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } @llvm.aarch64.sme.read.hor.vg4.nxv8i16(i32 1, i32 %slice.4)
				ret { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } %res2
				}

				define { <vscale x 8 x half>, <vscale x 8 x half>, <vscale x 8 x half>, <vscale x 8 x half> } @za_read_horiz_vg4_f16(i32 %slice) {
				; CHECK-LABEL: za_read_horiz_vg4_f16:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: mov { z0.h - z3.h }, za0h.h[w12, 0:3]
				; CHECK-NEXT: mov { z0.h - z3.h }, za1h.h[w12, 4:7]
				; CHECK-NEXT: ret
				%res = call { <vscale x 8 x half>, <vscale x 8 x half>, <vscale x 8 x half>, <vscale x 8 x half> } @llvm.aarch64.sme.read.hor.vg4.nxv8f16(i32 0, i32 %slice)
				%slice.4 = add i32 %slice, 4
				%res2 = call { <vscale x 8 x half>, <vscale x 8 x half>, <vscale x 8 x half>, <vscale x 8 x half> } @llvm.aarch64.sme.read.hor.vg4.nxv8f16(i32 1, i32 %slice.4)
				ret { <vscale x 8 x half>, <vscale x 8 x half>, <vscale x 8 x half>, <vscale x 8 x half> } %res2
				}

				define { <vscale x 8 x bfloat>, <vscale x 8 x bfloat>, <vscale x 8 x bfloat>, <vscale x 8 x bfloat> } @za_read_horiz_vg4_bf16(i32 %slice) {
				; CHECK-LABEL: za_read_horiz_vg4_bf16:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: mov { z0.h - z3.h }, za0h.h[w12, 0:3]
				; CHECK-NEXT: mov { z0.h - z3.h }, za1h.h[w12, 4:7]
				; CHECK-NEXT: ret
				%res = call { <vscale x 8 x bfloat>, <vscale x 8 x bfloat>, <vscale x 8 x bfloat>, <vscale x 8 x bfloat> } @llvm.aarch64.sme.read.hor.vg4.nxv8bf16(i32 0, i32 %slice)
				%slice.4 = add i32 %slice, 4
				%res2 = call { <vscale x 8 x bfloat>, <vscale x 8 x bfloat>, <vscale x 8 x bfloat>, <vscale x 8 x bfloat> } @llvm.aarch64.sme.read.hor.vg4.nxv8bf16(i32 1, i32 %slice.4)
				ret { <vscale x 8 x bfloat>, <vscale x 8 x bfloat>, <vscale x 8 x bfloat>, <vscale x 8 x bfloat> } %res2
				}

				define { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } @za_read_horiz_vg4_s(i32 %slice) {
				; CHECK-LABEL: za_read_horiz_vg4_s:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: mov { z0.s - z3.s }, za0h.s[w12, 0:3]
				; CHECK-NEXT: ret
				%res = call { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } @llvm.aarch64.sme.read.hor.vg4.nxv4i32(i32 0, i32 %slice)
				ret { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } %res
				}

				define { <vscale x 4 x float>, <vscale x 4 x float>, <vscale x 4 x float>, <vscale x 4 x float> } @za_read_horiz_vg4_f32(i32 %slice) {
				; CHECK-LABEL: za_read_horiz_vg4_f32:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: mov { z0.s - z3.s }, za0h.s[w12, 0:3]
				; CHECK-NEXT: ret
				%res = call { <vscale x 4 x float>, <vscale x 4 x float>, <vscale x 4 x float>, <vscale x 4 x float> } @llvm.aarch64.sme.read.hor.vg4.nxv4f32(i32 0, i32 %slice)
				ret { <vscale x 4 x float>, <vscale x 4 x float>, <vscale x 4 x float>, <vscale x 4 x float> } %res
				}

				define { <vscale x 2 x i64>, <vscale x 2 x i64>, <vscale x 2 x i64>, <vscale x 2 x i64> } @za_read_horiz_vg4_d(i32 %slice) {
				; CHECK-LABEL: za_read_horiz_vg4_d:
				david-armUnsubmitted Done Reply Inline Actions Again, more adds of 0 here. david-arm: Again, more adds of 0 here.
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: mov { z0.d - z3.d }, za0h.d[w12, 0:3]
				; CHECK-NEXT: ret
				%res = call { <vscale x 2 x i64>, <vscale x 2 x i64>, <vscale x 2 x i64>, <vscale x 2 x i64> } @llvm.aarch64.sme.read.hor.vg4.nxv2i64(i32 0, i32 %slice)
				ret { <vscale x 2 x i64>, <vscale x 2 x i64>, <vscale x 2 x i64>, <vscale x 2 x i64> } %res
				}

				define { <vscale x 2 x double>, <vscale x 2 x double>, <vscale x 2 x double>, <vscale x 2 x double> } @za_read_horiz_vg4_f64(i32 %slice) {
				; CHECK-LABEL: za_read_horiz_vg4_f64:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: mov { z0.d - z3.d }, za0h.d[w12, 0:3]
				; CHECK-NEXT: ret
				%res = call { <vscale x 2 x double>, <vscale x 2 x double>, <vscale x 2 x double>, <vscale x 2 x double> } @llvm.aarch64.sme.read.hor.vg4.nxv2f64(i32 0, i32 %slice)
				ret { <vscale x 2 x double>, <vscale x 2 x double>, <vscale x 2 x double>, <vscale x 2 x double> } %res
				}

				; Vertical

				define { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } @za_read_vert_vg4_b(i32 %slice) {
				; CHECK-LABEL: za_read_vert_vg4_b:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: mov { z0.b - z3.b }, za0v.b[w12, 0:3]
				; CHECK-NEXT: mov { z0.b - z3.b }, za0v.b[w12, 12:15]
				; CHECK-NEXT: ret
				%res = call { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } @llvm.aarch64.sme.read.ver.vg4.nxv16i8(i32 0, i32 %slice)
				%slice.12 = add i32 %slice, 12
				%res2 = call { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } @llvm.aarch64.sme.read.ver.vg4.nxv16i8(i32 0, i32 %slice.12)
				ret { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } %res2
				}

				define { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } @za_read_vert_vg4_h(i32 %slice) {
				; CHECK-LABEL: za_read_vert_vg4_h:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: mov { z0.h - z3.h }, za0v.h[w12, 0:3]
				; CHECK-NEXT: mov { z0.h - z3.h }, za1v.h[w12, 4:7]
				; CHECK-NEXT: ret
				%res = call { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } @llvm.aarch64.sme.read.ver.vg4.nxv8i16(i32 0, i32 %slice)
				%slice.4 = add i32 %slice, 4
				%res2 = call { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } @llvm.aarch64.sme.read.ver.vg4.nxv8i16(i32 1, i32 %slice.4)
				ret { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } %res2
				}

				define { <vscale x 8 x half>, <vscale x 8 x half>, <vscale x 8 x half>, <vscale x 8 x half> } @za_read_vert_vg4_f16(i32 %slice) {
				; CHECK-LABEL: za_read_vert_vg4_f16:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: mov { z0.h - z3.h }, za0v.h[w12, 0:3]
				; CHECK-NEXT: mov { z0.h - z3.h }, za1v.h[w12, 4:7]
				; CHECK-NEXT: ret
				%res = call { <vscale x 8 x half>, <vscale x 8 x half>, <vscale x 8 x half>, <vscale x 8 x half> } @llvm.aarch64.sme.read.ver.vg4.nxv8f16(i32 0, i32 %slice)
				%slice.4 = add i32 %slice, 4
				%res2 = call { <vscale x 8 x half>, <vscale x 8 x half>, <vscale x 8 x half>, <vscale x 8 x half> } @llvm.aarch64.sme.read.ver.vg4.nxv8f16(i32 1, i32 %slice.4)
				ret { <vscale x 8 x half>, <vscale x 8 x half>, <vscale x 8 x half>, <vscale x 8 x half> } %res2
				}

				define { <vscale x 8 x bfloat>, <vscale x 8 x bfloat>, <vscale x 8 x bfloat>, <vscale x 8 x bfloat> } @za_read_vert_vg4_bf16(i32 %slice) {
				; CHECK-LABEL: za_read_vert_vg4_bf16:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: mov { z0.h - z3.h }, za0v.h[w12, 0:3]
				; CHECK-NEXT: mov { z0.h - z3.h }, za1v.h[w12, 4:7]
				; CHECK-NEXT: ret
				%res = call { <vscale x 8 x bfloat>, <vscale x 8 x bfloat>, <vscale x 8 x bfloat>, <vscale x 8 x bfloat> } @llvm.aarch64.sme.read.ver.vg4.nxv8bf16(i32 0, i32 %slice)
				%slice.4 = add i32 %slice, 4
				%res2 = call { <vscale x 8 x bfloat>, <vscale x 8 x bfloat>, <vscale x 8 x bfloat>, <vscale x 8 x bfloat> } @llvm.aarch64.sme.read.ver.vg4.nxv8bf16(i32 1, i32 %slice.4)
				ret { <vscale x 8 x bfloat>, <vscale x 8 x bfloat>, <vscale x 8 x bfloat>, <vscale x 8 x bfloat> } %res2
				}

				define { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } @za_read_vert_vg4_s(i32 %slice) {
				; CHECK-LABEL: za_read_vert_vg4_s:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: mov { z0.s - z3.s }, za0v.s[w12, 0:3]
				; CHECK-NEXT: ret
				%res = call { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } @llvm.aarch64.sme.read.ver.vg4.nxv4i32(i32 0, i32 %slice)
				ret { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } %res
				}

				define { <vscale x 4 x float>, <vscale x 4 x float>, <vscale x 4 x float>, <vscale x 4 x float> } @za_read_vert_vg4_f32(i32 %slice) {
				; CHECK-LABEL: za_read_vert_vg4_f32:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: mov { z0.s - z3.s }, za0v.s[w12, 0:3]
				; CHECK-NEXT: ret
				%res = call { <vscale x 4 x float>, <vscale x 4 x float>, <vscale x 4 x float>, <vscale x 4 x float> } @llvm.aarch64.sme.read.ver.vg4.nxv4f32(i32 0, i32 %slice)
				ret { <vscale x 4 x float>, <vscale x 4 x float>, <vscale x 4 x float>, <vscale x 4 x float> } %res
				}

				define { <vscale x 2 x i64>, <vscale x 2 x i64>, <vscale x 2 x i64>, <vscale x 2 x i64> } @za_read_vert_vg4_d(i32 %slice) {
				; CHECK-LABEL: za_read_vert_vg4_d:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: mov { z0.d - z3.d }, za0v.d[w12, 0:3]
				; CHECK-NEXT: ret
				%res = call { <vscale x 2 x i64>, <vscale x 2 x i64>, <vscale x 2 x i64>, <vscale x 2 x i64> } @llvm.aarch64.sme.read.ver.vg4.nxv2i64(i32 0, i32 %slice)
				ret { <vscale x 2 x i64>, <vscale x 2 x i64>, <vscale x 2 x i64>, <vscale x 2 x i64> } %res
				}

				define { <vscale x 2 x double>, <vscale x 2 x double>, <vscale x 2 x double>, <vscale x 2 x double> } @za_read_vert_vg4_f64(i32 %slice) {
				; CHECK-LABEL: za_read_vert_vg4_f64:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: mov { z0.d - z3.d }, za0v.d[w12, 0:3]
				; CHECK-NEXT: ret
				%res = call { <vscale x 2 x double>, <vscale x 2 x double>, <vscale x 2 x double>, <vscale x 2 x double> } @llvm.aarch64.sme.read.ver.vg4.nxv2f64(i32 0, i32 %slice)
				ret { <vscale x 2 x double>, <vscale x 2 x double>, <vscale x 2 x double>, <vscale x 2 x double> } %res
				}

				; Move Multi-Vector From ZA (Read) x2

				define { <vscale x 2 x i64>, <vscale x 2 x i64> } @za_read_vg1x2_d(i32 %slice) {
				; CHECK-LABEL: za_read_vg1x2_d:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w8, w0
				; CHECK-NEXT: mov { z0.d, z1.d }, za.d[w8, 0, vgx2]
				; CHECK-NEXT: mov { z0.d, z1.d }, za.d[w8, 7, vgx2]
				; CHECK-NEXT: ret
				%res = call { <vscale x 2 x i64>, <vscale x 2 x i64> } @llvm.aarch64.sme.read.vg1x2.nxv2i64(i32 %slice)
				%slice.7 = add i32 %slice, 7
				%res2 = call { <vscale x 2 x i64>, <vscale x 2 x i64> } @llvm.aarch64.sme.read.vg1x2.nxv2i64(i32 %slice.7)
				ret { <vscale x 2 x i64>, <vscale x 2 x i64> } %res2
				}

				define { <vscale x 2 x double>, <vscale x 2 x double> } @za_read_vg1x2_f64(i32 %slice) {
				; CHECK-LABEL: za_read_vg1x2_f64:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w8, w0
				; CHECK-NEXT: mov { z0.d, z1.d }, za.d[w8, 0, vgx2]
				; CHECK-NEXT: mov { z0.d, z1.d }, za.d[w8, 7, vgx2]
				; CHECK-NEXT: ret
				%res = call { <vscale x 2 x double>, <vscale x 2 x double> } @llvm.aarch64.sme.read.vg1x2.nxv2f64(i32 %slice)
				%slice.7 = add i32 %slice, 7
				%res2 = call { <vscale x 2 x double>, <vscale x 2 x double> } @llvm.aarch64.sme.read.vg1x2.nxv2f64(i32 %slice.7)
				ret { <vscale x 2 x double>, <vscale x 2 x double> } %res2
				}

				; Move Multi-Vector From ZA (Read) x4

				define { <vscale x 2 x i64>, <vscale x 2 x i64>, <vscale x 2 x i64>, <vscale x 2 x i64> } @za_read_vg1x4_d(i32 %slice) {
				; CHECK-LABEL: za_read_vg1x4_d:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w8, w0
				; CHECK-NEXT: mov { z0.d - z3.d }, za.d[w8, 0, vgx4]
				; CHECK-NEXT: mov { z0.d - z3.d }, za.d[w8, 7, vgx4]
				; CHECK-NEXT: ret
				%res = call { <vscale x 2 x i64>, <vscale x 2 x i64>, <vscale x 2 x i64>, <vscale x 2 x i64> } @llvm.aarch64.sme.read.vg1x4.nxv2i64(i32 %slice)
				%slice.7 = add i32 %slice, 7
				%res2 = call { <vscale x 2 x i64>, <vscale x 2 x i64>, <vscale x 2 x i64>, <vscale x 2 x i64> } @llvm.aarch64.sme.read.vg1x4.nxv2i64(i32 %slice.7)
				ret { <vscale x 2 x i64>, <vscale x 2 x i64>, <vscale x 2 x i64>, <vscale x 2 x i64> } %res2
				}

				define { <vscale x 2 x double>, <vscale x 2 x double>, <vscale x 2 x double>, <vscale x 2 x double> } @za_read_vg1x4_f64(i32 %slice) {
				; CHECK-LABEL: za_read_vg1x4_f64:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w8, w0
				; CHECK-NEXT: mov { z0.d - z3.d }, za.d[w8, 0, vgx4]
				; CHECK-NEXT: mov { z0.d - z3.d }, za.d[w8, 7, vgx4]
				; CHECK-NEXT: ret
				%res = call { <vscale x 2 x double>, <vscale x 2 x double>, <vscale x 2 x double>, <vscale x 2 x double> } @llvm.aarch64.sme.read.vg1x4.nxv2f64(i32 %slice)
				%slice.7 = add i32 %slice, 7
				%res2 = call { <vscale x 2 x double>, <vscale x 2 x double>, <vscale x 2 x double>, <vscale x 2 x double> } @llvm.aarch64.sme.read.vg1x4.nxv2f64(i32 %slice.7)
				ret { <vscale x 2 x double>, <vscale x 2 x double>, <vscale x 2 x double>, <vscale x 2 x double> } %res2
				}

				declare { <vscale x 16 x i8>, <vscale x 16 x i8> } @llvm.aarch64.sme.read.hor.vg2.nxv16i8(i32, i32)
				declare { <vscale x 8 x i16>, <vscale x 8 x i16> } @llvm.aarch64.sme.read.hor.vg2.nxv8i16(i32, i32)
				declare { <vscale x 8 x half>, <vscale x 8 x half> } @llvm.aarch64.sme.read.hor.vg2.nxv8f16(i32, i32)
				declare { <vscale x 8 x bfloat>, <vscale x 8 x bfloat> } @llvm.aarch64.sme.read.hor.vg2.nxv8bf16(i32, i32)
				declare { <vscale x 4 x i32>, <vscale x 4 x i32> } @llvm.aarch64.sme.read.hor.vg2.nxv4i32(i32, i32)
				declare { <vscale x 4 x float>, <vscale x 4 x float> } @llvm.aarch64.sme.read.hor.vg2.nxv4f32(i32, i32)
				declare { <vscale x 2 x i64>, <vscale x 2 x i64> } @llvm.aarch64.sme.read.hor.vg2.nxv2i64(i32, i32)
				declare { <vscale x 2 x double>, <vscale x 2 x double> } @llvm.aarch64.sme.read.hor.vg2.nxv2f64(i32, i32)

				declare { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } @llvm.aarch64.sme.read.hor.vg4.nxv16i8(i32, i32)
				declare { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } @llvm.aarch64.sme.read.hor.vg4.nxv8i16(i32, i32)
				declare { <vscale x 8 x half>, <vscale x 8 x half>, <vscale x 8 x half>, <vscale x 8 x half> } @llvm.aarch64.sme.read.hor.vg4.nxv8f16(i32, i32)
				declare { <vscale x 8 x bfloat>, <vscale x 8 x bfloat>, <vscale x 8 x bfloat>, <vscale x 8 x bfloat> } @llvm.aarch64.sme.read.hor.vg4.nxv8bf16(i32, i32)
				declare { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } @llvm.aarch64.sme.read.hor.vg4.nxv4i32(i32, i32)
				declare { <vscale x 4 x float>, <vscale x 4 x float>, <vscale x 4 x float>, <vscale x 4 x float> } @llvm.aarch64.sme.read.hor.vg4.nxv4f32(i32, i32)
				declare { <vscale x 2 x i64>, <vscale x 2 x i64>, <vscale x 2 x i64>, <vscale x 2 x i64> } @llvm.aarch64.sme.read.hor.vg4.nxv2i64(i32, i32)
				declare { <vscale x 2 x double>, <vscale x 2 x double>, <vscale x 2 x double>, <vscale x 2 x double> } @llvm.aarch64.sme.read.hor.vg4.nxv2f64(i32, i32)

				declare { <vscale x 16 x i8>, <vscale x 16 x i8> } @llvm.aarch64.sme.read.ver.vg2.nxv16i8(i32, i32)
				declare { <vscale x 8 x i16>, <vscale x 8 x i16> } @llvm.aarch64.sme.read.ver.vg2.nxv8i16(i32, i32)
				declare { <vscale x 8 x half>, <vscale x 8 x half> } @llvm.aarch64.sme.read.ver.vg2.nxv8f16(i32, i32)
				declare { <vscale x 8 x bfloat>, <vscale x 8 x bfloat> } @llvm.aarch64.sme.read.ver.vg2.nxv8bf16(i32, i32)
				declare { <vscale x 4 x i32>, <vscale x 4 x i32> } @llvm.aarch64.sme.read.ver.vg2.nxv4i32(i32, i32)
				declare { <vscale x 4 x float>, <vscale x 4 x float> } @llvm.aarch64.sme.read.ver.vg2.nxv4f32(i32, i32)
				declare { <vscale x 2 x i64>, <vscale x 2 x i64> } @llvm.aarch64.sme.read.ver.vg2.nxv2i64(i32, i32)
				declare { <vscale x 2 x double>, <vscale x 2 x double> } @llvm.aarch64.sme.read.ver.vg2.nxv2f64(i32, i32)

				declare { <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8> } @llvm.aarch64.sme.read.ver.vg4.nxv16i8(i32, i32)
				declare { <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16> } @llvm.aarch64.sme.read.ver.vg4.nxv8i16(i32, i32)
				declare { <vscale x 8 x half>, <vscale x 8 x half>, <vscale x 8 x half>, <vscale x 8 x half> } @llvm.aarch64.sme.read.ver.vg4.nxv8f16(i32, i32)
				declare { <vscale x 8 x bfloat>, <vscale x 8 x bfloat>, <vscale x 8 x bfloat>, <vscale x 8 x bfloat> } @llvm.aarch64.sme.read.ver.vg4.nxv8bf16(i32, i32)
				declare { <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32> } @llvm.aarch64.sme.read.ver.vg4.nxv4i32(i32, i32)
				declare { <vscale x 4 x float>, <vscale x 4 x float>, <vscale x 4 x float>, <vscale x 4 x float> } @llvm.aarch64.sme.read.ver.vg4.nxv4f32(i32, i32)
				declare { <vscale x 2 x i64>, <vscale x 2 x i64>, <vscale x 2 x i64>, <vscale x 2 x i64> } @llvm.aarch64.sme.read.ver.vg4.nxv2i64(i32, i32)
				declare { <vscale x 2 x double>, <vscale x 2 x double>, <vscale x 2 x double>, <vscale x 2 x double> } @llvm.aarch64.sme.read.ver.vg4.nxv2f64(i32, i32)

				declare { <vscale x 2 x i64>, <vscale x 2 x i64> } @llvm.aarch64.sme.read.vg1x2.nxv2i64(i32)
				declare { <vscale x 2 x double>, <vscale x 2 x double> } @llvm.aarch64.sme.read.vg1x2.nxv2f64(i32)

				declare { <vscale x 2 x i64>, <vscale x 2 x i64>, <vscale x 2 x i64>, <vscale x 2 x i64> } @llvm.aarch64.sme.read.vg1x4.nxv2i64(i32)
				declare { <vscale x 2 x double>, <vscale x 2 x double>, <vscale x 2 x double>, <vscale x 2 x double> } @llvm.aarch64.sme.read.vg1x4.nxv2f64(i32)

llvm/test/CodeGen/AArch64/sme2-intrinsics-insert-mova.ll

This file was added.

				; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
				; RUN: llc -mtriple=aarch64-linux-gnu -mattr=+sme2 -verify-machineinstrs < %s \| FileCheck %s

				;
				; Move Multi-Vector To Tile (Write) x 2
				;

				; Horizontal

				define void @za_write_vg2_horiz_b(i32 %slice, <vscale x 16 x i8> %zn1, <vscale x 16 x i8> %zn2) {
				; CHECK-LABEL: za_write_vg2_horiz_b:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: // kill: def $z1 killed $z1 killed $z0_z1 def $z0_z1
				; CHECK-NEXT: // kill: def $z0 killed $z0 killed $z0_z1 def $z0_z1
				; CHECK-NEXT: mov za0h.b[w12, 0:1], { z0.b, z1.b }
				; CHECK-NEXT: mov za0h.b[w12, 14:15], { z0.b, z1.b }
				; CHECK-NEXT: ret
				call void @llvm.aarch64.sme.write.hor.vg2.nxv16i8(i32 0, i32 %slice, <vscale x 16 x i8> %zn1, <vscale x 16 x i8> %zn2)
				%slice.14 = add i32 %slice, 14
				call void @llvm.aarch64.sme.write.hor.vg2.nxv16i8(i32 0, i32 %slice.14, <vscale x 16 x i8> %zn1, <vscale x 16 x i8> %zn2)
				ret void
				}

				define void @za_write_vg2_horiz_h(i32 %slice, <vscale x 8 x i16> %zn1, <vscale x 8 x i16> %zn2) {
				; CHECK-LABEL: za_write_vg2_horiz_h:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: // kill: def $z1 killed $z1 killed $z0_z1 def $z0_z1
				; CHECK-NEXT: // kill: def $z0 killed $z0 killed $z0_z1 def $z0_z1
				; CHECK-NEXT: mov za0h.h[w12, 0:1], { z0.h, z1.h }
				; CHECK-NEXT: mov za1h.h[w12, 6:7], { z0.h, z1.h }
				; CHECK-NEXT: ret
				call void @llvm.aarch64.sme.write.hor.vg2.nxv8i16(i32 0, i32 %slice, <vscale x 8 x i16> %zn1, <vscale x 8 x i16> %zn2)
				%slice.6 = add i32 %slice, 6
				call void @llvm.aarch64.sme.write.hor.vg2.nxv8i16(i32 1, i32 %slice.6, <vscale x 8 x i16> %zn1, <vscale x 8 x i16> %zn2)
				ret void
				}

				define void @za_write_vg2_horiz_f16(i32 %slice, <vscale x 8 x half> %zn1, <vscale x 8 x half> %zn2) {
				; CHECK-LABEL: za_write_vg2_horiz_f16:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: // kill: def $z1 killed $z1 killed $z0_z1 def $z0_z1
				; CHECK-NEXT: // kill: def $z0 killed $z0 killed $z0_z1 def $z0_z1
				; CHECK-NEXT: mov za0h.h[w12, 0:1], { z0.h, z1.h }
				; CHECK-NEXT: mov za1h.h[w12, 6:7], { z0.h, z1.h }
				; CHECK-NEXT: ret
				call void @llvm.aarch64.sme.write.hor.vg2.nxv8f16(i32 0, i32 %slice, <vscale x 8 x half> %zn1, <vscale x 8 x half> %zn2)
				%slice.6 = add i32 %slice, 6
				call void @llvm.aarch64.sme.write.hor.vg2.nxv8f16(i32 1, i32 %slice.6, <vscale x 8 x half> %zn1, <vscale x 8 x half> %zn2)
				ret void
				}

				define void @za_write_vg2_horiz_bf16(i32 %slice, <vscale x 8 x bfloat> %zn1, <vscale x 8 x bfloat> %zn2) {
				; CHECK-LABEL: za_write_vg2_horiz_bf16:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: // kill: def $z1 killed $z1 killed $z0_z1 def $z0_z1
				; CHECK-NEXT: // kill: def $z0 killed $z0 killed $z0_z1 def $z0_z1
				; CHECK-NEXT: mov za0h.h[w12, 0:1], { z0.h, z1.h }
				; CHECK-NEXT: mov za1h.h[w12, 6:7], { z0.h, z1.h }
				; CHECK-NEXT: ret
				call void @llvm.aarch64.sme.write.hor.vg2.nxv8bf16(i32 0, i32 %slice, <vscale x 8 x bfloat> %zn1, <vscale x 8 x bfloat> %zn2)
				%slice.6 = add i32 %slice, 6
				call void @llvm.aarch64.sme.write.hor.vg2.nxv8bf16(i32 1, i32 %slice.6, <vscale x 8 x bfloat> %zn1, <vscale x 8 x bfloat> %zn2)
				ret void
				}

				define void @za_write_vg2_horiz_s(i32 %slice, <vscale x 4 x i32> %zn1, <vscale x 4 x i32> %zn2) {
				; CHECK-LABEL: za_write_vg2_horiz_s:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: // kill: def $z1 killed $z1 killed $z0_z1 def $z0_z1
				; CHECK-NEXT: // kill: def $z0 killed $z0 killed $z0_z1 def $z0_z1
				; CHECK-NEXT: mov za0h.s[w12, 0:1], { z0.s, z1.s }
				; CHECK-NEXT: mov za3h.s[w12, 2:3], { z0.s, z1.s }
				; CHECK-NEXT: ret
				call void @llvm.aarch64.sme.write.hor.vg2.nxv4i32(i32 0, i32 %slice, <vscale x 4 x i32> %zn1, <vscale x 4 x i32> %zn2)
				%slice.2 = add i32 %slice, 2
				call void @llvm.aarch64.sme.write.hor.vg2.nxv4i32(i32 3, i32 %slice.2, <vscale x 4 x i32> %zn1, <vscale x 4 x i32> %zn2)
				ret void
				}

				define void @za_write_vg2_horiz_f32(i32 %slice, <vscale x 4 x float> %zn1, <vscale x 4 x float> %zn2) {
				; CHECK-LABEL: za_write_vg2_horiz_f32:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: // kill: def $z1 killed $z1 killed $z0_z1 def $z0_z1
				; CHECK-NEXT: // kill: def $z0 killed $z0 killed $z0_z1 def $z0_z1
				; CHECK-NEXT: mov za0h.s[w12, 0:1], { z0.s, z1.s }
				; CHECK-NEXT: mov za3h.s[w12, 2:3], { z0.s, z1.s }
				; CHECK-NEXT: ret
				call void @llvm.aarch64.sme.write.hor.vg2.nxv4f32(i32 0, i32 %slice, <vscale x 4 x float> %zn1, <vscale x 4 x float> %zn2)
				%slice.2 = add i32 %slice, 2
				call void @llvm.aarch64.sme.write.hor.vg2.nxv4f32(i32 3, i32 %slice.2, <vscale x 4 x float> %zn1, <vscale x 4 x float> %zn2)
				ret void
				}

				define void @za_write_vg2_horiz_d(i32 %slice, <vscale x 2 x i64> %zn1, <vscale x 2 x i64> %zn2) {
				; CHECK-LABEL: za_write_vg2_horiz_d:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: // kill: def $z1 killed $z1 killed $z0_z1 def $z0_z1
				; CHECK-NEXT: // kill: def $z0 killed $z0 killed $z0_z1 def $z0_z1
				; CHECK-NEXT: mov za0h.d[w12, 0:1], { z0.d, z1.d }
				; CHECK-NEXT: ret
				call void @llvm.aarch64.sme.write.hor.vg2.nxv2i64(i32 0, i32 %slice, <vscale x 2 x i64> %zn1, <vscale x 2 x i64> %zn2)
				ret void
				}

				david-armUnsubmitted Done Reply Inline Actions Again, could you remove the adds of 0 from this test file too? david-arm: Again, could you remove the adds of 0 from this test file too?
				define void @za_write_vg2_horiz_f64(i32 %slice, <vscale x 2 x double> %zn1, <vscale x 2 x double> %zn2) {
				; CHECK-LABEL: za_write_vg2_horiz_f64:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: // kill: def $z1 killed $z1 killed $z0_z1 def $z0_z1
				; CHECK-NEXT: // kill: def $z0 killed $z0 killed $z0_z1 def $z0_z1
				; CHECK-NEXT: mov za0h.d[w12, 0:1], { z0.d, z1.d }
				; CHECK-NEXT: ret
				call void @llvm.aarch64.sme.write.hor.vg2.nxv2f64(i32 0, i32 %slice, <vscale x 2 x double> %zn1, <vscale x 2 x double> %zn2)
				ret void
				}

				; Vertical

				define void @za_write_vg2_vert_b(i32 %slice, <vscale x 16 x i8> %zn1, <vscale x 16 x i8> %zn2) {
				; CHECK-LABEL: za_write_vg2_vert_b:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: // kill: def $z1 killed $z1 killed $z0_z1 def $z0_z1
				; CHECK-NEXT: // kill: def $z0 killed $z0 killed $z0_z1 def $z0_z1
				; CHECK-NEXT: mov za0v.b[w12, 0:1], { z0.b, z1.b }
				; CHECK-NEXT: mov za0v.b[w12, 14:15], { z0.b, z1.b }
				; CHECK-NEXT: ret
				call void @llvm.aarch64.sme.write.ver.vg2.nxv16i8(i32 0, i32 %slice, <vscale x 16 x i8> %zn1, <vscale x 16 x i8> %zn2)
				%slice.14 = add i32 %slice, 14
				call void @llvm.aarch64.sme.write.ver.vg2.nxv16i8(i32 0, i32 %slice.14, <vscale x 16 x i8> %zn1, <vscale x 16 x i8> %zn2)
				ret void
				}

				define void @za_write_vg2_vert_h(i32 %slice, <vscale x 8 x i16> %zn1, <vscale x 8 x i16> %zn2) {
				; CHECK-LABEL: za_write_vg2_vert_h:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: // kill: def $z1 killed $z1 killed $z0_z1 def $z0_z1
				; CHECK-NEXT: // kill: def $z0 killed $z0 killed $z0_z1 def $z0_z1
				; CHECK-NEXT: mov za0v.h[w12, 0:1], { z0.h, z1.h }
				; CHECK-NEXT: mov za1v.h[w12, 6:7], { z0.h, z1.h }
				; CHECK-NEXT: ret
				call void @llvm.aarch64.sme.write.ver.vg2.nxv8i16(i32 0, i32 %slice, <vscale x 8 x i16> %zn1, <vscale x 8 x i16> %zn2)
				%slice.6 = add i32 %slice, 6
				call void @llvm.aarch64.sme.write.ver.vg2.nxv8i16(i32 1, i32 %slice.6, <vscale x 8 x i16> %zn1, <vscale x 8 x i16> %zn2)
				ret void
				}

				define void @za_write_vg2_vert_f16(i32 %slice, <vscale x 8 x half> %zn1, <vscale x 8 x half> %zn2) {
				; CHECK-LABEL: za_write_vg2_vert_f16:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: // kill: def $z1 killed $z1 killed $z0_z1 def $z0_z1
				; CHECK-NEXT: // kill: def $z0 killed $z0 killed $z0_z1 def $z0_z1
				; CHECK-NEXT: mov za0v.h[w12, 0:1], { z0.h, z1.h }
				; CHECK-NEXT: mov za1v.h[w12, 6:7], { z0.h, z1.h }
				; CHECK-NEXT: ret
				call void @llvm.aarch64.sme.write.ver.vg2.nxv8f16(i32 0, i32 %slice, <vscale x 8 x half> %zn1, <vscale x 8 x half> %zn2)
				%slice.6 = add i32 %slice, 6
				call void @llvm.aarch64.sme.write.ver.vg2.nxv8f16(i32 1, i32 %slice.6, <vscale x 8 x half> %zn1, <vscale x 8 x half> %zn2)
				ret void
				}

				define void @za_write_vg2_vert_bf16(i32 %slice, <vscale x 8 x bfloat> %zn1, <vscale x 8 x bfloat> %zn2) {
				; CHECK-LABEL: za_write_vg2_vert_bf16:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: // kill: def $z1 killed $z1 killed $z0_z1 def $z0_z1
				; CHECK-NEXT: // kill: def $z0 killed $z0 killed $z0_z1 def $z0_z1
				; CHECK-NEXT: mov za0v.h[w12, 0:1], { z0.h, z1.h }
				; CHECK-NEXT: mov za1v.h[w12, 6:7], { z0.h, z1.h }
				; CHECK-NEXT: ret
				call void @llvm.aarch64.sme.write.ver.vg2.nxv8bf16(i32 0, i32 %slice, <vscale x 8 x bfloat> %zn1, <vscale x 8 x bfloat> %zn2)
				%slice.6 = add i32 %slice, 6
				call void @llvm.aarch64.sme.write.ver.vg2.nxv8bf16(i32 1, i32 %slice.6, <vscale x 8 x bfloat> %zn1, <vscale x 8 x bfloat> %zn2)
				ret void
				}

				define void @za_write_vg2_vert_s(i32 %slice, <vscale x 4 x i32> %zn1, <vscale x 4 x i32> %zn2) {
				; CHECK-LABEL: za_write_vg2_vert_s:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: // kill: def $z1 killed $z1 killed $z0_z1 def $z0_z1
				; CHECK-NEXT: // kill: def $z0 killed $z0 killed $z0_z1 def $z0_z1
				; CHECK-NEXT: mov za0v.s[w12, 0:1], { z0.s, z1.s }
				; CHECK-NEXT: mov za3v.s[w12, 2:3], { z0.s, z1.s }
				; CHECK-NEXT: ret
				call void @llvm.aarch64.sme.write.ver.vg2.nxv4i32(i32 0, i32 %slice, <vscale x 4 x i32> %zn1, <vscale x 4 x i32> %zn2)
				%slice.2 = add i32 %slice, 2
				call void @llvm.aarch64.sme.write.ver.vg2.nxv4i32(i32 3, i32 %slice.2, <vscale x 4 x i32> %zn1, <vscale x 4 x i32> %zn2)
				ret void
				}

				define void @za_write_vg2_vert_f32(i32 %slice, <vscale x 4 x float> %zn1, <vscale x 4 x float> %zn2) {
				; CHECK-LABEL: za_write_vg2_vert_f32:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: // kill: def $z1 killed $z1 killed $z0_z1 def $z0_z1
				; CHECK-NEXT: // kill: def $z0 killed $z0 killed $z0_z1 def $z0_z1
				; CHECK-NEXT: mov za0v.s[w12, 0:1], { z0.s, z1.s }
				; CHECK-NEXT: mov za3v.s[w12, 2:3], { z0.s, z1.s }
				; CHECK-NEXT: ret
				call void @llvm.aarch64.sme.write.ver.vg2.nxv4f32(i32 0, i32 %slice, <vscale x 4 x float> %zn1, <vscale x 4 x float> %zn2)
				%slice.2 = add i32 %slice, 2
				call void @llvm.aarch64.sme.write.ver.vg2.nxv4f32(i32 3, i32 %slice.2, <vscale x 4 x float> %zn1, <vscale x 4 x float> %zn2)
				ret void
				}

				define void @za_write_vg2_vert_d(i32 %slice, <vscale x 2 x i64> %zn1, <vscale x 2 x i64> %zn2) {
				; CHECK-LABEL: za_write_vg2_vert_d:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: // kill: def $z1 killed $z1 killed $z0_z1 def $z0_z1
				; CHECK-NEXT: // kill: def $z0 killed $z0 killed $z0_z1 def $z0_z1
				; CHECK-NEXT: mov za0v.d[w12, 0:1], { z0.d, z1.d }
				; CHECK-NEXT: ret
				call void @llvm.aarch64.sme.write.ver.vg2.nxv2i64(i32 0, i32 %slice, <vscale x 2 x i64> %zn1, <vscale x 2 x i64> %zn2)
				ret void
				}

				define void @za_write_vg2_vert_f64(i32 %slice, <vscale x 2 x double> %zn1, <vscale x 2 x double> %zn2) {
				; CHECK-LABEL: za_write_vg2_vert_f64:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: // kill: def $z1 killed $z1 killed $z0_z1 def $z0_z1
				; CHECK-NEXT: // kill: def $z0 killed $z0 killed $z0_z1 def $z0_z1
				; CHECK-NEXT: mov za0v.d[w12, 0:1], { z0.d, z1.d }
				; CHECK-NEXT: ret
				call void @llvm.aarch64.sme.write.ver.vg2.nxv2f64(i32 0, i32 %slice, <vscale x 2 x double> %zn1, <vscale x 2 x double> %zn2)
				ret void
				}

				;
				; Move Multi-Vector To Tile (Write) x 4
				;

				; Horizontal

				define void @za_write_vg4_horiz_b(i32 %slice, <vscale x 16 x i8> %zn1, <vscale x 16 x i8> %zn2, <vscale x 16 x i8> %zn3, <vscale x 16 x i8> %zn4) {
				; CHECK-LABEL: za_write_vg4_horiz_b:
				; CHECK: // %bb.0:
				; CHECK-NEXT: // kill: def $z3 killed $z3 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: // kill: def $z2 killed $z2 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: // kill: def $z1 killed $z1 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: // kill: def $z0 killed $z0 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: mov za0h.b[w12, 0:3], { z0.b - z3.b }
				; CHECK-NEXT: mov za0h.b[w12, 12:15], { z0.b - z3.b }
				; CHECK-NEXT: ret
				call void @llvm.aarch64.sme.write.hor.vg4.nxv16i8(i32 0, i32 %slice, <vscale x 16 x i8> %zn1, <vscale x 16 x i8> %zn2, <vscale x 16 x i8> %zn3, <vscale x 16 x i8> %zn4)
				%slice.12 = add i32 %slice, 12
				call void @llvm.aarch64.sme.write.hor.vg4.nxv16i8(i32 0, i32 %slice.12, <vscale x 16 x i8> %zn1, <vscale x 16 x i8> %zn2, <vscale x 16 x i8> %zn3, <vscale x 16 x i8> %zn4)
				ret void
				}

				define void @za_write_vg4_horiz_h(i32 %slice, <vscale x 8 x i16> %zn1, <vscale x 8 x i16> %zn2, <vscale x 8 x i16> %zn3, <vscale x 8 x i16> %zn4) {
				; CHECK-LABEL: za_write_vg4_horiz_h:
				; CHECK: // %bb.0:
				; CHECK-NEXT: // kill: def $z3 killed $z3 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: // kill: def $z2 killed $z2 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: // kill: def $z1 killed $z1 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: // kill: def $z0 killed $z0 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: mov za0h.h[w12, 0:3], { z0.h - z3.h }
				; CHECK-NEXT: mov za1h.h[w12, 4:7], { z0.h - z3.h }
				; CHECK-NEXT: ret
				call void @llvm.aarch64.sme.write.hor.vg4.nxv8i16(i32 0, i32 %slice, <vscale x 8 x i16> %zn1, <vscale x 8 x i16> %zn2, <vscale x 8 x i16> %zn3, <vscale x 8 x i16> %zn4)
				%slice.4 = add i32 %slice, 4
				call void @llvm.aarch64.sme.write.hor.vg4.nxv8i16(i32 1, i32 %slice.4, <vscale x 8 x i16> %zn1, <vscale x 8 x i16> %zn2, <vscale x 8 x i16> %zn3, <vscale x 8 x i16> %zn4)
				ret void
				}

				define void @za_write_vg4_horiz_f16(i32 %slice, <vscale x 8 x half> %zn1, <vscale x 8 x half> %zn2, <vscale x 8 x half> %zn3, <vscale x 8 x half> %zn4) {
				; CHECK-LABEL: za_write_vg4_horiz_f16:
				; CHECK: // %bb.0:
				; CHECK-NEXT: // kill: def $z3 killed $z3 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: // kill: def $z2 killed $z2 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: // kill: def $z1 killed $z1 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: // kill: def $z0 killed $z0 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: mov za0h.h[w12, 0:3], { z0.h - z3.h }
				; CHECK-NEXT: mov za1h.h[w12, 4:7], { z0.h - z3.h }
				; CHECK-NEXT: ret
				call void @llvm.aarch64.sme.write.hor.vg4.nxv8f16(i32 0, i32 %slice, <vscale x 8 x half> %zn1, <vscale x 8 x half> %zn2, <vscale x 8 x half> %zn3, <vscale x 8 x half> %zn4)
				%slice.4 = add i32 %slice, 4
				call void @llvm.aarch64.sme.write.hor.vg4.nxv8f16(i32 1, i32 %slice.4, <vscale x 8 x half> %zn1, <vscale x 8 x half> %zn2, <vscale x 8 x half> %zn3, <vscale x 8 x half> %zn4)
				ret void
				}

				define void @za_write_vg4_horiz_bf16(i32 %slice, <vscale x 8 x bfloat> %zn1, <vscale x 8 x bfloat> %zn2, <vscale x 8 x bfloat> %zn3, <vscale x 8 x bfloat> %zn4) {
				; CHECK-LABEL: za_write_vg4_horiz_bf16:
				; CHECK: // %bb.0:
				; CHECK-NEXT: // kill: def $z3 killed $z3 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: // kill: def $z2 killed $z2 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: // kill: def $z1 killed $z1 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: // kill: def $z0 killed $z0 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: mov za0h.h[w12, 0:3], { z0.h - z3.h }
				; CHECK-NEXT: mov za1h.h[w12, 4:7], { z0.h - z3.h }
				; CHECK-NEXT: ret
				call void @llvm.aarch64.sme.write.hor.vg4.nxv8bf16(i32 0, i32 %slice, <vscale x 8 x bfloat> %zn1, <vscale x 8 x bfloat> %zn2, <vscale x 8 x bfloat> %zn3, <vscale x 8 x bfloat> %zn4)
				%slice.4 = add i32 %slice, 4
				call void @llvm.aarch64.sme.write.hor.vg4.nxv8bf16(i32 1, i32 %slice.4, <vscale x 8 x bfloat> %zn1, <vscale x 8 x bfloat> %zn2, <vscale x 8 x bfloat> %zn3, <vscale x 8 x bfloat> %zn4)
				ret void
				}

				define void @za_write_vg4_horiz_s(i32 %slice, <vscale x 4 x i32> %zn1, <vscale x 4 x i32> %zn2, <vscale x 4 x i32> %zn3, <vscale x 4 x i32> %zn4) {
				; CHECK-LABEL: za_write_vg4_horiz_s:
				; CHECK: // %bb.0:
				; CHECK-NEXT: // kill: def $z3 killed $z3 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: // kill: def $z2 killed $z2 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: // kill: def $z1 killed $z1 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: // kill: def $z0 killed $z0 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: mov za0h.s[w12, 0:3], { z0.s - z3.s }
				; CHECK-NEXT: ret
				call void @llvm.aarch64.sme.write.hor.vg4.nxv4i32(i32 0, i32 %slice, <vscale x 4 x i32> %zn1, <vscale x 4 x i32> %zn2, <vscale x 4 x i32> %zn3, <vscale x 4 x i32> %zn4)
				ret void
				}

				define void @za_write_vg4_horiz_f32(i32 %slice, <vscale x 4 x float> %zn1, <vscale x 4 x float> %zn2, <vscale x 4 x float> %zn3, <vscale x 4 x float> %zn4) {
				; CHECK-LABEL: za_write_vg4_horiz_f32:
				; CHECK: // %bb.0:
				; CHECK-NEXT: // kill: def $z3 killed $z3 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: // kill: def $z2 killed $z2 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: // kill: def $z1 killed $z1 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: // kill: def $z0 killed $z0 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: mov za0h.s[w12, 0:3], { z0.s - z3.s }
				; CHECK-NEXT: ret
				call void @llvm.aarch64.sme.write.hor.vg4.nxv4f32(i32 0, i32 %slice, <vscale x 4 x float> %zn1, <vscale x 4 x float> %zn2, <vscale x 4 x float> %zn3, <vscale x 4 x float> %zn4)
				ret void
				}

				define void @za_write_vg4_horiz_d(i32 %slice, <vscale x 2 x i64> %zn1, <vscale x 2 x i64> %zn2, <vscale x 2 x i64> %zn3, <vscale x 2 x i64> %zn4) {
				; CHECK-LABEL: za_write_vg4_horiz_d:
				; CHECK: // %bb.0:
				; CHECK-NEXT: // kill: def $z3 killed $z3 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: // kill: def $z2 killed $z2 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: // kill: def $z1 killed $z1 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: // kill: def $z0 killed $z0 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: mov za0h.d[w12, 0:3], { z0.d - z3.d }
				; CHECK-NEXT: ret
				call void @llvm.aarch64.sme.write.hor.vg4.nxv2i64(i32 0, i32 %slice, <vscale x 2 x i64> %zn1, <vscale x 2 x i64> %zn2, <vscale x 2 x i64> %zn3, <vscale x 2 x i64> %zn4)
				ret void
				}

				define void @za_write_vg4_horiz_f64(i32 %slice, <vscale x 2 x double> %zn1, <vscale x 2 x double> %zn2, <vscale x 2 x double> %zn3, <vscale x 2 x double> %zn4) {
				; CHECK-LABEL: za_write_vg4_horiz_f64:
				; CHECK: // %bb.0:
				; CHECK-NEXT: // kill: def $z3 killed $z3 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: // kill: def $z2 killed $z2 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: // kill: def $z1 killed $z1 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: // kill: def $z0 killed $z0 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: mov za0h.d[w12, 0:3], { z0.d - z3.d }
				; CHECK-NEXT: ret
				call void @llvm.aarch64.sme.write.hor.vg4.nxv2f64(i32 0, i32 %slice, <vscale x 2 x double> %zn1, <vscale x 2 x double> %zn2, <vscale x 2 x double> %zn3, <vscale x 2 x double> %zn4)
				ret void
				}

				; Vertical

				define void @za_write_vg4_vert_b(i32 %slice, <vscale x 16 x i8> %zn1, <vscale x 16 x i8> %zn2, <vscale x 16 x i8> %zn3, <vscale x 16 x i8> %zn4) {
				; CHECK-LABEL: za_write_vg4_vert_b:
				; CHECK: // %bb.0:
				; CHECK-NEXT: // kill: def $z3 killed $z3 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: // kill: def $z2 killed $z2 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: // kill: def $z1 killed $z1 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: // kill: def $z0 killed $z0 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: mov za0v.b[w12, 0:3], { z0.b - z3.b }
				; CHECK-NEXT: mov za0v.b[w12, 12:15], { z0.b - z3.b }
				; CHECK-NEXT: ret
				call void @llvm.aarch64.sme.write.ver.vg4.nxv16i8(i32 0, i32 %slice, <vscale x 16 x i8> %zn1, <vscale x 16 x i8> %zn2, <vscale x 16 x i8> %zn3, <vscale x 16 x i8> %zn4)
				%slice.12 = add i32 %slice, 12
				call void @llvm.aarch64.sme.write.ver.vg4.nxv16i8(i32 0, i32 %slice.12, <vscale x 16 x i8> %zn1, <vscale x 16 x i8> %zn2, <vscale x 16 x i8> %zn3, <vscale x 16 x i8> %zn4)
				ret void
				}

				define void @za_write_vg4_vert_h(i32 %slice, <vscale x 8 x i16> %zn1, <vscale x 8 x i16> %zn2, <vscale x 8 x i16> %zn3, <vscale x 8 x i16> %zn4) {
				; CHECK-LABEL: za_write_vg4_vert_h:
				; CHECK: // %bb.0:
				; CHECK-NEXT: // kill: def $z3 killed $z3 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: // kill: def $z2 killed $z2 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: // kill: def $z1 killed $z1 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: // kill: def $z0 killed $z0 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: mov za0v.h[w12, 0:3], { z0.h - z3.h }
				; CHECK-NEXT: mov za1v.h[w12, 4:7], { z0.h - z3.h }
				; CHECK-NEXT: ret
				call void @llvm.aarch64.sme.write.ver.vg4.nxv8i16(i32 0, i32 %slice, <vscale x 8 x i16> %zn1, <vscale x 8 x i16> %zn2, <vscale x 8 x i16> %zn3, <vscale x 8 x i16> %zn4)
				%slice.4 = add i32 %slice, 4
				call void @llvm.aarch64.sme.write.ver.vg4.nxv8i16(i32 1, i32 %slice.4, <vscale x 8 x i16> %zn1, <vscale x 8 x i16> %zn2, <vscale x 8 x i16> %zn3, <vscale x 8 x i16> %zn4)
				ret void
				}

				define void @za_write_vg4_vert_f16(i32 %slice, <vscale x 8 x half> %zn1, <vscale x 8 x half> %zn2, <vscale x 8 x half> %zn3, <vscale x 8 x half> %zn4) {
				; CHECK-LABEL: za_write_vg4_vert_f16:
				; CHECK: // %bb.0:
				; CHECK-NEXT: // kill: def $z3 killed $z3 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: // kill: def $z2 killed $z2 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: // kill: def $z1 killed $z1 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: // kill: def $z0 killed $z0 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: mov za0v.h[w12, 0:3], { z0.h - z3.h }
				; CHECK-NEXT: mov za1v.h[w12, 4:7], { z0.h - z3.h }
				; CHECK-NEXT: ret
				call void @llvm.aarch64.sme.write.ver.vg4.nxv8f16(i32 0, i32 %slice, <vscale x 8 x half> %zn1, <vscale x 8 x half> %zn2, <vscale x 8 x half> %zn3, <vscale x 8 x half> %zn4)
				%slice.4 = add i32 %slice, 4
				call void @llvm.aarch64.sme.write.ver.vg4.nxv8f16(i32 1, i32 %slice.4, <vscale x 8 x half> %zn1, <vscale x 8 x half> %zn2, <vscale x 8 x half> %zn3, <vscale x 8 x half> %zn4)
				ret void
				}

				define void @za_write_vg4_vert_bf16(i32 %slice, <vscale x 8 x bfloat> %zn1, <vscale x 8 x bfloat> %zn2, <vscale x 8 x bfloat> %zn3, <vscale x 8 x bfloat> %zn4) {
				; CHECK-LABEL: za_write_vg4_vert_bf16:
				; CHECK: // %bb.0:
				; CHECK-NEXT: // kill: def $z3 killed $z3 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: // kill: def $z2 killed $z2 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: // kill: def $z1 killed $z1 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: // kill: def $z0 killed $z0 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: mov za0v.h[w12, 0:3], { z0.h - z3.h }
				; CHECK-NEXT: mov za1v.h[w12, 4:7], { z0.h - z3.h }
				; CHECK-NEXT: ret
				call void @llvm.aarch64.sme.write.ver.vg4.nxv8bf16(i32 0, i32 %slice, <vscale x 8 x bfloat> %zn1, <vscale x 8 x bfloat> %zn2, <vscale x 8 x bfloat> %zn3, <vscale x 8 x bfloat> %zn4)
				%slice.4 = add i32 %slice, 4
				call void @llvm.aarch64.sme.write.ver.vg4.nxv8bf16(i32 1, i32 %slice.4, <vscale x 8 x bfloat> %zn1, <vscale x 8 x bfloat> %zn2, <vscale x 8 x bfloat> %zn3, <vscale x 8 x bfloat> %zn4)
				ret void
				}

				define void @za_write_vg4_vert_s(i32 %slice, <vscale x 4 x i32> %zn1, <vscale x 4 x i32> %zn2, <vscale x 4 x i32> %zn3, <vscale x 4 x i32> %zn4) {
				; CHECK-LABEL: za_write_vg4_vert_s:
				; CHECK: // %bb.0:
				; CHECK-NEXT: // kill: def $z3 killed $z3 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: // kill: def $z2 killed $z2 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: // kill: def $z1 killed $z1 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: // kill: def $z0 killed $z0 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: mov za0v.s[w12, 0:3], { z0.s - z3.s }
				; CHECK-NEXT: ret
				call void @llvm.aarch64.sme.write.ver.vg4.nxv4i32(i32 0, i32 %slice, <vscale x 4 x i32> %zn1, <vscale x 4 x i32> %zn2, <vscale x 4 x i32> %zn3, <vscale x 4 x i32> %zn4)
				ret void
				}

				define void @za_write_vg4_vert_f32(i32 %slice, <vscale x 4 x float> %zn1, <vscale x 4 x float> %zn2, <vscale x 4 x float> %zn3, <vscale x 4 x float> %zn4) {
				; CHECK-LABEL: za_write_vg4_vert_f32:
				; CHECK: // %bb.0:
				; CHECK-NEXT: // kill: def $z3 killed $z3 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: // kill: def $z2 killed $z2 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: // kill: def $z1 killed $z1 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: // kill: def $z0 killed $z0 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: mov za0v.s[w12, 0:3], { z0.s - z3.s }
				; CHECK-NEXT: ret
				call void @llvm.aarch64.sme.write.ver.vg4.nxv4f32(i32 0, i32 %slice, <vscale x 4 x float> %zn1, <vscale x 4 x float> %zn2, <vscale x 4 x float> %zn3, <vscale x 4 x float> %zn4)
				ret void
				}

				define void @za_write_vg4_vert_d(i32 %slice, <vscale x 2 x i64> %zn1, <vscale x 2 x i64> %zn2, <vscale x 2 x i64> %zn3, <vscale x 2 x i64> %zn4) {
				; CHECK-LABEL: za_write_vg4_vert_d:
				; CHECK: // %bb.0:
				; CHECK-NEXT: // kill: def $z3 killed $z3 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: // kill: def $z2 killed $z2 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: // kill: def $z1 killed $z1 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: // kill: def $z0 killed $z0 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: mov za0v.d[w12, 0:3], { z0.d - z3.d }
				; CHECK-NEXT: ret
				call void @llvm.aarch64.sme.write.ver.vg4.nxv2i64(i32 0, i32 %slice, <vscale x 2 x i64> %zn1, <vscale x 2 x i64> %zn2, <vscale x 2 x i64> %zn3, <vscale x 2 x i64> %zn4)
				ret void
				}

				define void @za_write_vg4_vert_f64(i32 %slice, <vscale x 2 x double> %zn1, <vscale x 2 x double> %zn2, <vscale x 2 x double> %zn3, <vscale x 2 x double> %zn4) {
				; CHECK-LABEL: za_write_vg4_vert_f64:
				; CHECK: // %bb.0:
				; CHECK-NEXT: // kill: def $z3 killed $z3 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: mov w12, w0
				; CHECK-NEXT: // kill: def $z2 killed $z2 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: // kill: def $z1 killed $z1 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: // kill: def $z0 killed $z0 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: mov za0v.d[w12, 0:3], { z0.d - z3.d }
				; CHECK-NEXT: ret
				call void @llvm.aarch64.sme.write.ver.vg4.nxv2f64(i32 0, i32 %slice, <vscale x 2 x double> %zn1, <vscale x 2 x double> %zn2, <vscale x 2 x double> %zn3, <vscale x 2 x double> %zn4)
				ret void
				}

				;
				; Move Multi-Vector To ZA (Write) x2
				;

				define void @za_write_vg1x2_d(i32 %slice, <vscale x 2 x i64> %za1, <vscale x 2 x i64> %za2) {
				; CHECK-LABEL: za_write_vg1x2_d:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w8, w0
				; CHECK-NEXT: // kill: def $z1 killed $z1 killed $z0_z1 def $z0_z1
				; CHECK-NEXT: // kill: def $z0 killed $z0 killed $z0_z1 def $z0_z1
				; CHECK-NEXT: mov za.d[w8, 0, vgx2], { z0.d, z1.d }
				; CHECK-NEXT: mov za.d[w8, 7, vgx2], { z0.d, z1.d }
				; CHECK-NEXT: ret
				call void @llvm.aarch64.sme.write.vg1x2.nxv2i64(i32 %slice, <vscale x 2 x i64> %za1, <vscale x 2 x i64> %za2)
				%slice.7 = add i32 %slice, 7
				call void @llvm.aarch64.sme.write.vg1x2.nxv2i64(i32 %slice.7, <vscale x 2 x i64> %za1, <vscale x 2 x i64> %za2)
				ret void
				}

				define void @za_write_vg1x2_f64(i32 %slice, <vscale x 2 x double> %za1, <vscale x 2 x double> %za2) {
				; CHECK-LABEL: za_write_vg1x2_f64:
				; CHECK: // %bb.0:
				; CHECK-NEXT: mov w8, w0
				; CHECK-NEXT: // kill: def $z1 killed $z1 killed $z0_z1 def $z0_z1
				; CHECK-NEXT: // kill: def $z0 killed $z0 killed $z0_z1 def $z0_z1
				; CHECK-NEXT: mov za.d[w8, 0, vgx2], { z0.d, z1.d }
				; CHECK-NEXT: mov za.d[w8, 7, vgx2], { z0.d, z1.d }
				; CHECK-NEXT: ret
				call void @llvm.aarch64.sme.write.vg1x2.nxv2f64(i32 %slice, <vscale x 2 x double> %za1, <vscale x 2 x double> %za2)
				%slice.7 = add i32 %slice, 7
				call void @llvm.aarch64.sme.write.vg1x2.nxv2f64(i32 %slice.7, <vscale x 2 x double> %za1, <vscale x 2 x double> %za2)
				ret void
				}

				;
				; Move Multi-Vector To ZA (Write) x4
				;

				define void @za_write_vg1x4_d(i32 %slice, <vscale x 2 x i64> %za1, <vscale x 2 x i64> %za2, <vscale x 2 x i64> %za3, <vscale x 2 x i64> %za4) {
				; CHECK-LABEL: za_write_vg1x4_d:
				; CHECK: // %bb.0:
				; CHECK-NEXT: // kill: def $z3 killed $z3 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				david-armUnsubmitted Done Reply Inline Actions For the vector to array writes I think we can test non-zero slices here too similar to `@za_read_vg1x4_f64`? i.e. %slice.7 = add i32 %slice, 7 call void @llvm.aarch64.sme.write.vg1x4.nxv2i64(i32 %slice.7, <vscale x 2 x i64> %za1, <vscale x 2 x i64> %za2, <vscale x 2 x i64> %za3, <vscale x 2 x i64> %za4) david-arm: For the vector to array writes I think we can test non-zero slices here too similar to…
				; CHECK-NEXT: mov w8, w0
				; CHECK-NEXT: // kill: def $z2 killed $z2 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: // kill: def $z1 killed $z1 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: // kill: def $z0 killed $z0 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: mov za.d[w8, 0, vgx4], { z0.d - z3.d }
				; CHECK-NEXT: mov za.d[w8, 7, vgx4], { z0.d - z3.d }
				; CHECK-NEXT: ret
				call void @llvm.aarch64.sme.write.vg1x4.nxv2i64(i32 %slice, <vscale x 2 x i64> %za1, <vscale x 2 x i64> %za2, <vscale x 2 x i64> %za3, <vscale x 2 x i64> %za4)
				%slice.7 = add i32 %slice, 7
				call void @llvm.aarch64.sme.write.vg1x4.nxv2i64(i32 %slice.7, <vscale x 2 x i64> %za1, <vscale x 2 x i64> %za2, <vscale x 2 x i64> %za3, <vscale x 2 x i64> %za4)
				ret void
				}

				define void @za_write_vg1x4_f64(i32 %slice, <vscale x 2 x double> %za1, <vscale x 2 x double> %za2, <vscale x 2 x double> %za3, <vscale x 2 x double> %za4) {
				; CHECK-LABEL: za_write_vg1x4_f64:
				; CHECK: // %bb.0:
				; CHECK-NEXT: // kill: def $z3 killed $z3 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: mov w8, w0
				; CHECK-NEXT: // kill: def $z2 killed $z2 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: // kill: def $z1 killed $z1 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: // kill: def $z0 killed $z0 killed $z0_z1_z2_z3 def $z0_z1_z2_z3
				; CHECK-NEXT: mov za.d[w8, 0, vgx4], { z0.d - z3.d }
				; CHECK-NEXT: mov za.d[w8, 7, vgx4], { z0.d - z3.d }
				; CHECK-NEXT: ret
				call void @llvm.aarch64.sme.write.vg1x4.nxv2f64(i32 %slice, <vscale x 2 x double> %za1, <vscale x 2 x double> %za2, <vscale x 2 x double> %za3, <vscale x 2 x double> %za4)
				%slice.7 = add i32 %slice, 7
				call void @llvm.aarch64.sme.write.vg1x4.nxv2f64(i32 %slice.7, <vscale x 2 x double> %za1, <vscale x 2 x double> %za2, <vscale x 2 x double> %za3, <vscale x 2 x double> %za4)
				ret void
				}

				declare void @llvm.aarch64.sme.write.hor.vg2.nxv16i8(i32, i32, <vscale x 16 x i8>, <vscale x 16 x i8>)
				declare void @llvm.aarch64.sme.write.hor.vg2.nxv8i16(i32, i32, <vscale x 8 x i16>, <vscale x 8 x i16>)
				declare void @llvm.aarch64.sme.write.hor.vg2.nxv8f16(i32, i32, <vscale x 8 x half>, <vscale x 8 x half>)
				declare void @llvm.aarch64.sme.write.hor.vg2.nxv8bf16(i32, i32, <vscale x 8 x bfloat>, <vscale x 8 x bfloat>)
				declare void @llvm.aarch64.sme.write.hor.vg2.nxv4i32(i32, i32, <vscale x 4 x i32>, <vscale x 4 x i32>)
				declare void @llvm.aarch64.sme.write.hor.vg2.nxv4f32(i32, i32, <vscale x 4 x float>, <vscale x 4 x float>)
				declare void @llvm.aarch64.sme.write.hor.vg2.nxv2i64(i32, i32, <vscale x 2 x i64>, <vscale x 2 x i64>)
				declare void @llvm.aarch64.sme.write.hor.vg2.nxv2f64(i32, i32, <vscale x 2 x double>, <vscale x 2 x double>)

				declare void @llvm.aarch64.sme.write.ver.vg2.nxv16i8(i32, i32, <vscale x 16 x i8>, <vscale x 16 x i8>)
				declare void @llvm.aarch64.sme.write.ver.vg2.nxv8i16(i32, i32, <vscale x 8 x i16>, <vscale x 8 x i16>)
				declare void @llvm.aarch64.sme.write.ver.vg2.nxv8f16(i32, i32, <vscale x 8 x half>, <vscale x 8 x half>)
				declare void @llvm.aarch64.sme.write.ver.vg2.nxv8bf16(i32, i32, <vscale x 8 x bfloat>, <vscale x 8 x bfloat>)
				declare void @llvm.aarch64.sme.write.ver.vg2.nxv4i32(i32, i32, <vscale x 4 x i32>, <vscale x 4 x i32>)
				declare void @llvm.aarch64.sme.write.ver.vg2.nxv4f32(i32, i32, <vscale x 4 x float>, <vscale x 4 x float>)
				declare void @llvm.aarch64.sme.write.ver.vg2.nxv2i64(i32, i32, <vscale x 2 x i64>, <vscale x 2 x i64>)
				declare void @llvm.aarch64.sme.write.ver.vg2.nxv2f64(i32, i32, <vscale x 2 x double>, <vscale x 2 x double>)

				declare void @llvm.aarch64.sme.write.hor.vg4.nxv16i8(i32, i32, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>)
				declare void @llvm.aarch64.sme.write.hor.vg4.nxv8i16(i32, i32, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>)
				declare void @llvm.aarch64.sme.write.hor.vg4.nxv8f16(i32, i32, <vscale x 8 x half>, <vscale x 8 x half>, <vscale x 8 x half>, <vscale x 8 x half>)
				declare void @llvm.aarch64.sme.write.hor.vg4.nxv8bf16(i32, i32, <vscale x 8 x bfloat>, <vscale x 8 x bfloat>, <vscale x 8 x bfloat>, <vscale x 8 x bfloat>)
				declare void @llvm.aarch64.sme.write.hor.vg4.nxv4i32(i32, i32, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>)
				declare void @llvm.aarch64.sme.write.hor.vg4.nxv4f32(i32, i32, <vscale x 4 x float>, <vscale x 4 x float>, <vscale x 4 x float>, <vscale x 4 x float>)
				declare void @llvm.aarch64.sme.write.hor.vg4.nxv2i64(i32, i32, <vscale x 2 x i64>, <vscale x 2 x i64>, <vscale x 2 x i64>, <vscale x 2 x i64>)
				declare void @llvm.aarch64.sme.write.hor.vg4.nxv2f64(i32, i32, <vscale x 2 x double>, <vscale x 2 x double>, <vscale x 2 x double>, <vscale x 2 x double>)

				declare void @llvm.aarch64.sme.write.ver.vg4.nxv16i8(i32, i32, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>, <vscale x 16 x i8>)
				declare void @llvm.aarch64.sme.write.ver.vg4.nxv8i16(i32, i32, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>, <vscale x 8 x i16>)
				declare void @llvm.aarch64.sme.write.ver.vg4.nxv8f16(i32, i32, <vscale x 8 x half>, <vscale x 8 x half>, <vscale x 8 x half>, <vscale x 8 x half>)
				declare void @llvm.aarch64.sme.write.ver.vg4.nxv8bf16(i32, i32, <vscale x 8 x bfloat>, <vscale x 8 x bfloat>, <vscale x 8 x bfloat>, <vscale x 8 x bfloat>)
				declare void @llvm.aarch64.sme.write.ver.vg4.nxv4i32(i32, i32, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>, <vscale x 4 x i32>)
				declare void @llvm.aarch64.sme.write.ver.vg4.nxv4f32(i32, i32, <vscale x 4 x float>, <vscale x 4 x float>, <vscale x 4 x float>, <vscale x 4 x float>)
				declare void @llvm.aarch64.sme.write.ver.vg4.nxv2i64(i32, i32, <vscale x 2 x i64>, <vscale x 2 x i64>, <vscale x 2 x i64>, <vscale x 2 x i64>)
				declare void @llvm.aarch64.sme.write.ver.vg4.nxv2f64(i32, i32, <vscale x 2 x double>, <vscale x 2 x double>, <vscale x 2 x double>, <vscale x 2 x double>)

				declare void @llvm.aarch64.sme.write.vg1x2.nxv2i64(i32, <vscale x 2 x i64>, <vscale x 2 x i64>)
				declare void @llvm.aarch64.sme.write.vg1x2.nxv2f64(i32, <vscale x 2 x double>, <vscale x 2 x double>)

				declare void @llvm.aarch64.sme.write.vg1x4.nxv2i64(i32, <vscale x 2 x i64>, <vscale x 2 x i64>, <vscale x 2 x i64>, <vscale x 2 x i64>)
				declare void @llvm.aarch64.sme.write.vg1x4.nxv2f64(i32, <vscale x 2 x double>, <vscale x 2 x double>, <vscale x 2 x double>, <vscale x 2 x double>)

This is an archive of the discontinued LLVM Phabricator instance.

[AArch64][SME2] Add intrinsics to move multi-vectors to/from ZA.
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 492050

llvm/include/llvm/IR/IntrinsicsAArch64.td

llvm/lib/Target/AArch64/AArch64ISelDAGToDAG.cpp

llvm/lib/Target/AArch64/AArch64SMEInstrInfo.td

llvm/lib/Target/AArch64/SMEInstrFormats.td

llvm/test/CodeGen/AArch64/sme2-intrinsics-extract-mova.ll

llvm/test/CodeGen/AArch64/sme2-intrinsics-insert-mova.ll

This is an archive of the discontinued LLVM Phabricator instance.

[AArch64][SME2] Add intrinsics to move multi-vectors to/from ZA.ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 492050

llvm/include/llvm/IR/IntrinsicsAArch64.td

llvm/lib/Target/AArch64/AArch64ISelDAGToDAG.cpp

llvm/lib/Target/AArch64/AArch64SMEInstrInfo.td

llvm/lib/Target/AArch64/SMEInstrFormats.td

llvm/test/CodeGen/AArch64/sme2-intrinsics-extract-mova.ll

llvm/test/CodeGen/AArch64/sme2-intrinsics-insert-mova.ll

[AArch64][SME2] Add intrinsics to move multi-vectors to/from ZA.
ClosedPublic