This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Target/ARM/
-
Target/
-
ARM/
2
ARMISelLowering.cpp
-
ARMInstrInfo.td
-
ARMInstrMVE.td
-
ARMInstrNEON.td
-
test/CodeGen/Thumb2/
-
CodeGen/
-
Thumb2/
2
mve-shuffle.ll
-
mve-vdup.ll

Differential D63567

[ARM] Mve vector shuffles
ClosedPublic

Authored by dmgreen on Jun 19 2019, 12:11 PM.

Download Raw Diff

Details

Reviewers

t.p.northover
samparker
SjoerdMeijer
simon_tatham
olista01

Commits

rG8be372b19015: [ARM] MVE vector shuffles
rL364626: [ARM] MVE vector shuffles

Summary

This patch tries to add the necessary shuffle vector and buildvector support for ARM MVE. It essentially adds support for VDUP, VREVs and some VMOVs, which are often required by other code (like the upcoming DIV patch).

This mostly uses the same code as for Neon that already generated NEONvdup/NEONvduplane/NEONvrev's. These have been renamed to ARMvdup/etc and moved to ARMInstrInfo as they are common to both architectures. Most of the selection code seems to be applicable to both, but NEON does have some more instructions making some parts specific.

Most code originally by David Sherwood. I've put the patterns near the instructions they effect, but not in them.

Diff Detail

Event Timeline

dmgreen created this revision.Jun 19 2019, 12:11 PM

Herald added a project: Restricted Project. · View Herald TranscriptJun 19 2019, 12:11 PM

Herald added subscribers: hiraditya, kristof.beyls, javed.absar. · View Herald Transcript

dmgreen added a parent revision: D63255: [ARM] Select MVE add and sub.Jun 24 2019, 1:22 AM

dmgreen added a child revision: D63595: [ARM] Mark div and rem as expand for MVE.Jun 24 2019, 1:24 AM

SjoerdMeijer added inline comments.Jun 24 2019, 2:05 AM

llvm/lib/Target/ARM/ARMISelLowering.cpp
6888	a proper nit: perhaps Mve -> MVE for consistency
7191	There's a lot of prior art here of magic constants and shifts etc., but this doesn't mean much to me. It probably makes sense when you're familiar with querying the shuffle table. Not sure if it is worth a comment, but from a quick look at code here, that might not be even necessary.
llvm/test/CodeGen/Thumb2/mve-shuffle.ll
3	Do we need tests when we don't have HasMVEInt? Or is that not really useful (or done elsewhere already)?

dmgreen added inline comments.Jun 24 2019, 4:34 AM

llvm/test/CodeGen/Thumb2/mve-shuffle.ll
3	Yeah, This certainly sounds like something that should work. We may need to make some adjustments first to the calling convention and what is a legal type.

Rebase and change capitalisation. I have not yet added the +mve run line.

We may need to make some adjustments first to the calling convention and what is a legal type.

Okay, if that turns out to be the case, I guess that's probably best addressed in a separate patch.

I hope that all the stuff related to passing/returning vectors is okay.
The only place I might expect some subtleties is here:

@vdup_f16(half* %src1, half* %src2)

which just passes a half, because I think so far we expect the IR to be prepared slightly differently (for inspiration, see e.g. test/CodeGen/ARM/fp16-instructions.ll, although I expect it will mostly work).

OK. Now that D60708 is in this is a rebase on what that became. Some of this patch has changed a little as a result and in getting +mve to work. It appears that +mve without a fp is currently broken, as it is add registers without making the operations illegal.

The changes to addMVEVectorTypes have also been moved here, because of how much they have changed. I also needed to fix an fp16 bug in one of the buildvector routines and added a couple of extra patterns.

The tests now test +mve,+fullfp16 and +mve.fp, but not yet +mve which can be added later once that works sensibly.

Ok, sounds reasonable, one step at a time.

This revision is now accepted and ready to land.Jun 26 2019, 7:49 AM

Oh, and the patterns have been moved to use HasMVEInt, even if they are float operations, as we still have the instructions required for them.

dmgreen removed a parent revision: D63255: [ARM] Select MVE add and sub.Jun 26 2019, 7:51 AM

dmgreen mentioned this in D63255: [ARM] Select MVE add and sub.

dmgreen added a child revision: D63255: [ARM] Select MVE add and sub.

dmgreen removed a child revision: D63595: [ARM] Mark div and rem as expand for MVE.Jun 26 2019, 8:00 AM

dmgreen added a child revision: D63838: [ARM] MVE loads and stores.Jun 26 2019, 1:38 PM

miyuki added a subscriber: miyuki.Jun 27 2019, 5:15 AM

Closed by commit rL364626: [ARM] MVE vector shuffles (authored by dmgreen). · Explain WhyJun 28 2019, 12:10 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

lib/

Target/

ARM/

142 lines

20 lines

107 lines

224 lines

test/

CodeGen/

Thumb2/

mve-shuffle.ll

569 lines

mve-vdup.ll

137 lines

Diff 206189

llvm/lib/Target/ARM/ARMISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 220 Lines • ▼ Show 20 Lines	void ARMTargetLowering::addQRTypeForNEON(MVT VT) {
addTypeForNEON(VT, MVT::v2f64, MVT::v4i32);		addTypeForNEON(VT, MVT::v2f64, MVT::v4i32);
}		}

void ARMTargetLowering::addMVEITypes() {		void ARMTargetLowering::addMVEITypes() {
const MVT iTypes[] = { MVT::v16i8, MVT::v8i16, MVT::v4i32 };		const MVT iTypes[] = { MVT::v16i8, MVT::v8i16, MVT::v4i32 };

for (auto VT : iTypes) {		for (auto VT : iTypes) {
addRegisterClass(VT, &ARM::QPRRegClass);		addRegisterClass(VT, &ARM::QPRRegClass);
		setOperationAction(ISD::VECTOR_SHUFFLE, VT, Custom);
		setOperationAction(ISD::INSERT_VECTOR_ELT, VT, Custom);
		setOperationAction(ISD::EXTRACT_VECTOR_ELT, VT, Custom);
		setOperationAction(ISD::BUILD_VECTOR, VT, Custom);
}		}

addRegisterClass(MVT::v2i64, &ARM::QPRRegClass);		addRegisterClass(MVT::v2i64, &ARM::QPRRegClass);
for (unsigned Opc = 0; Opc < ISD::BUILTIN_OP_END; ++Opc)		for (unsigned Opc = 0; Opc < ISD::BUILTIN_OP_END; ++Opc)
setOperationAction(Opc, MVT::v2i64, Expand);		setOperationAction(Opc, MVT::v2i64, Expand);
setOperationAction(ISD::BITCAST, MVT::v2i64, Legal);		setOperationAction(ISD::BITCAST, MVT::v2i64, Legal);
setOperationAction(ISD::LOAD, MVT::v2i64, Legal);		setOperationAction(ISD::LOAD, MVT::v2i64, Legal);
setOperationAction(ISD::STORE, MVT::v2i64, Legal);		setOperationAction(ISD::STORE, MVT::v2i64, Legal);
}		}

void ARMTargetLowering::addMVEFPTypes() {		void ARMTargetLowering::addMVEFPTypes() {
const MVT fTypes[] = { MVT::v4f32, MVT::v8f16 };		const MVT fTypes[] = { MVT::v4f32, MVT::v8f16 };

for (MVT VT : fTypes) {		for (MVT VT : fTypes) {
addRegisterClass(VT, &ARM::QPRRegClass);		addRegisterClass(VT, &ARM::QPRRegClass);
		setOperationAction(ISD::VECTOR_SHUFFLE, VT, Custom);
		setOperationAction(ISD::INSERT_VECTOR_ELT, VT, Custom);
		setOperationAction(ISD::EXTRACT_VECTOR_ELT, VT, Custom);
		setOperationAction(ISD::BUILD_VECTOR, VT, Custom);

setOperationAction(ISD::FMINNUM, VT, Legal);		setOperationAction(ISD::FMINNUM, VT, Legal);
setOperationAction(ISD::FMAXNUM, VT, Legal);		setOperationAction(ISD::FMAXNUM, VT, Legal);
}		}

addRegisterClass(MVT::v2f64, &ARM::QPRRegClass);		addRegisterClass(MVT::v2f64, &ARM::QPRRegClass);
for (unsigned Opc = 0; Opc < ISD::BUILTIN_OP_END; ++Opc)		for (unsigned Opc = 0; Opc < ISD::BUILTIN_OP_END; ++Opc)
setOperationAction(Opc, MVT::v2f64, Expand);		setOperationAction(Opc, MVT::v2f64, Expand);
▲ Show 20 Lines • Show All 6,186 Lines • ▼ Show 20 Lines	SDValue ARMTargetLowering::LowerBUILD_VECTOR(SDValue Op, SelectionDAG &DAG,

APInt SplatBits, SplatUndef;		APInt SplatBits, SplatUndef;
unsigned SplatBitSize;		unsigned SplatBitSize;
bool HasAnyUndefs;		bool HasAnyUndefs;
if (BVN->isConstantSplat(SplatBits, SplatUndef, SplatBitSize, HasAnyUndefs)) {		if (BVN->isConstantSplat(SplatBits, SplatUndef, SplatBitSize, HasAnyUndefs)) {
if (SplatUndef.isAllOnesValue())		if (SplatUndef.isAllOnesValue())
return DAG.getUNDEF(VT);		return DAG.getUNDEF(VT);

if (SplatBitSize <= 64) {		if (ST->hasNEON() && SplatBitSize <= 64) {
// Check if an immediate VMOV works.		// Check if an immediate VMOV works.
EVT VmovVT;		EVT VmovVT;
SDValue Val = isNEONModifiedImm(SplatBits.getZExtValue(),		SDValue Val = isNEONModifiedImm(SplatBits.getZExtValue(),
SplatUndef.getZExtValue(), SplatBitSize,		SplatUndef.getZExtValue(), SplatBitSize,
DAG, dl, VmovVT, VT.is128BitVector(),		DAG, dl, VmovVT, VT.is128BitVector(),
VMOVModImm);		VMOVModImm);
if (Val.getNode()) {		if (Val.getNode()) {
SDValue Vmov = DAG.getNode(ARMISD::VMOVIMM, dl, VmovVT, Val);		SDValue Vmov = DAG.getNode(ARMISD::VMOVIMM, dl, VmovVT, Val);
▲ Show 20 Lines • Show All 144 Lines • ▼ Show 20 Lines	SDValue ARMTargetLowering::LowerBUILD_VECTOR(SDValue Op, SelectionDAG &DAG,

// Empirical tests suggest this is rarely worth it for vectors of length <= 2.		// Empirical tests suggest this is rarely worth it for vectors of length <= 2.
if (NumElts >= 4) {		if (NumElts >= 4) {
SDValue shuffle = ReconstructShuffle(Op, DAG);		SDValue shuffle = ReconstructShuffle(Op, DAG);
if (shuffle != SDValue())		if (shuffle != SDValue())
return shuffle;		return shuffle;
}		}

if (VT.is128BitVector() && VT != MVT::v2f64 && VT != MVT::v4f32) {		if (ST->hasNEON() && VT.is128BitVector() && VT != MVT::v2f64 && VT != MVT::v4f32) {
// If we haven't found an efficient lowering, try splitting a 128-bit vector		// If we haven't found an efficient lowering, try splitting a 128-bit vector
// into two 64-bit vectors; we might discover a better way to lower it.		// into two 64-bit vectors; we might discover a better way to lower it.
SmallVector<SDValue, 64> Ops(Op->op_begin(), Op->op_begin() + NumElts);		SmallVector<SDValue, 64> Ops(Op->op_begin(), Op->op_begin() + NumElts);
EVT ExtVT = VT.getVectorElementType();		EVT ExtVT = VT.getVectorElementType();
EVT HVT = EVT::getVectorVT(*DAG.getContext(), ExtVT, NumElts / 2);		EVT HVT = EVT::getVectorVT(*DAG.getContext(), ExtVT, NumElts / 2);
SDValue Lower =		SDValue Lower =
DAG.getBuildVector(HVT, dl, makeArrayRef(&Ops[0], NumElts / 2));		DAG.getBuildVector(HVT, dl, makeArrayRef(&Ops[0], NumElts / 2));
if (Lower.getOpcode() == ISD::BUILD_VECTOR)		if (Lower.getOpcode() == ISD::BUILD_VECTOR)
Lower = LowerBUILD_VECTOR(Lower, DAG, ST);		Lower = LowerBUILD_VECTOR(Lower, DAG, ST);
SDValue Upper = DAG.getBuildVector(		SDValue Upper = DAG.getBuildVector(
HVT, dl, makeArrayRef(&Ops[NumElts / 2], NumElts / 2));		HVT, dl, makeArrayRef(&Ops[NumElts / 2], NumElts / 2));
if (Upper.getOpcode() == ISD::BUILD_VECTOR)		if (Upper.getOpcode() == ISD::BUILD_VECTOR)
Upper = LowerBUILD_VECTOR(Upper, DAG, ST);		Upper = LowerBUILD_VECTOR(Upper, DAG, ST);
if (Lower && Upper)		if (Lower && Upper)
return DAG.getNode(ISD::CONCAT_VECTORS, dl, VT, Lower, Upper);		return DAG.getNode(ISD::CONCAT_VECTORS, dl, VT, Lower, Upper);
}		}

// Vectors with 32- or 64-bit elements can be built by directly assigning		// Vectors with 32- or 64-bit elements can be built by directly assigning
// the subregisters. Lower it to an ARMISD::BUILD_VECTOR so the operands		// the subregisters. Lower it to an ARMISD::BUILD_VECTOR so the operands
// will be legalized.		// will be legalized.
if (EltSize >= 32) {		if (ST->hasNEON() && EltSize >= 32) {
// Do the expansion with floating-point types, since that is what the VFP		// Do the expansion with floating-point types, since that is what the VFP
// registers are defined to use, and since i64 is not legal.		// registers are defined to use, and since i64 is not legal.
EVT EltVT = EVT::getFloatingPointVT(EltSize);		EVT EltVT = EVT::getFloatingPointVT(EltSize);
EVT VecVT = EVT::getVectorVT(*DAG.getContext(), EltVT, NumElts);		EVT VecVT = EVT::getVectorVT(*DAG.getContext(), EltVT, NumElts);
SmallVector<SDValue, 8> Ops;		SmallVector<SDValue, 8> Ops;
for (unsigned i = 0; i < NumElts; ++i)		for (unsigned i = 0; i < NumElts; ++i)
Ops.push_back(DAG.getNode(ISD::BITCAST, dl, EltVT, Op.getOperand(i)));		Ops.push_back(DAG.getNode(ISD::BITCAST, dl, EltVT, Op.getOperand(i)));
SDValue Val = DAG.getNode(ARMISD::BUILD_VECTOR, dl, VecVT, Ops);		SDValue Val = DAG.getNode(ARMISD::BUILD_VECTOR, dl, VecVT, Ops);
▲ Show 20 Lines • Show All 217 Lines • ▼ Show 20 Lines	SDValue ARMTargetLowering::ReconstructShuffle(SDValue Op,
for (unsigned i = 0; i < Sources.size(); ++i)		for (unsigned i = 0; i < Sources.size(); ++i)
ShuffleOps[i] = Sources[i].ShuffleVec;		ShuffleOps[i] = Sources[i].ShuffleVec;

SDValue Shuffle = DAG.getVectorShuffle(ShuffleVT, dl, ShuffleOps[0],		SDValue Shuffle = DAG.getVectorShuffle(ShuffleVT, dl, ShuffleOps[0],
ShuffleOps[1], Mask);		ShuffleOps[1], Mask);
return DAG.getNode(ISD::BITCAST, dl, VT, Shuffle);		return DAG.getNode(ISD::BITCAST, dl, VT, Shuffle);
}		}

		enum ShuffleOpCodes {
		OP_COPY = 0, // Copy, used for things like <u,u,u,3> to say it is <0,1,2,3>
		OP_VREV,
		OP_VDUP0,
		OP_VDUP1,
		OP_VDUP2,
		OP_VDUP3,
		OP_VEXT1,
		OP_VEXT2,
		OP_VEXT3,
		OP_VUZPL, // VUZP, left result
		OP_VUZPR, // VUZP, right result
		OP_VZIPL, // VZIP, left result
		OP_VZIPR, // VZIP, right result
		OP_VTRNL, // VTRN, left result
		OP_VTRNR // VTRN, right result
		};

		static bool isLegalMVEShuffleOp(unsigned PFEntry) {
		SjoerdMeijerUnsubmitted Not Done Reply Inline Actions a proper nit: perhaps Mve -> MVE for consistency SjoerdMeijer: a proper nit: perhaps Mve -> MVE for consistency
		unsigned OpNum = (PFEntry >> 26) & 0x0F;
		switch (OpNum) {
		case OP_COPY:
		case OP_VREV:
		case OP_VDUP0:
		case OP_VDUP1:
		case OP_VDUP2:
		case OP_VDUP3:
		return true;
		}
		return false;
		}

/// isShuffleMaskLegal - Targets can use this to indicate that they only		/// isShuffleMaskLegal - Targets can use this to indicate that they only
/// support some VECTOR_SHUFFLE operations, those with specific masks.		/// support some VECTOR_SHUFFLE operations, those with specific masks.
/// By default, if a target supports the VECTOR_SHUFFLE node, all mask values		/// By default, if a target supports the VECTOR_SHUFFLE node, all mask values
/// are assumed to be legal.		/// are assumed to be legal.
bool ARMTargetLowering::isShuffleMaskLegal(ArrayRef<int> M, EVT VT) const {		bool ARMTargetLowering::isShuffleMaskLegal(ArrayRef<int> M, EVT VT) const {
if (VT.getVectorNumElements() == 4 &&		if (VT.getVectorNumElements() == 4 &&
(VT.is128BitVector() \|\| VT.is64BitVector())) {		(VT.is128BitVector() \|\| VT.is64BitVector())) {
unsigned PFIndexes[4];		unsigned PFIndexes[4];
for (unsigned i = 0; i != 4; ++i) {		for (unsigned i = 0; i != 4; ++i) {
if (M[i] < 0)		if (M[i] < 0)
PFIndexes[i] = 8;		PFIndexes[i] = 8;
else		else
PFIndexes[i] = M[i];		PFIndexes[i] = M[i];
}		}

// Compute the index in the perfect shuffle table.		// Compute the index in the perfect shuffle table.
unsigned PFTableIndex =		unsigned PFTableIndex =
PFIndexes[0]999+PFIndexes[1]99+PFIndexes[2]9+PFIndexes[3];		PFIndexes[0]999+PFIndexes[1]99+PFIndexes[2]9+PFIndexes[3];
unsigned PFEntry = PerfectShuffleTable[PFTableIndex];		unsigned PFEntry = PerfectShuffleTable[PFTableIndex];
unsigned Cost = (PFEntry >> 30);		unsigned Cost = (PFEntry >> 30);

if (Cost <= 4)		if (Cost <= 4 && (Subtarget->hasNEON() \|\| isLegalMVEShuffleOp(PFEntry)))
return true;		return true;
}		}

bool ReverseVEXT, isV_UNDEF;		bool ReverseVEXT, isV_UNDEF;
unsigned Imm, WhichResult;		unsigned Imm, WhichResult;

unsigned EltSize = VT.getScalarSizeInBits();		unsigned EltSize = VT.getScalarSizeInBits();
return (EltSize >= 32 \|\|		if (EltSize >= 32 \|\|
ShuffleVectorSDNode::isSplatMask(&M[0], VT) \|\|		ShuffleVectorSDNode::isSplatMask(&M[0], VT) \|\|
isVREVMask(M, VT, 64) \|\|		isVREVMask(M, VT, 64) \|\|
isVREVMask(M, VT, 32) \|\|		isVREVMask(M, VT, 32) \|\|
isVREVMask(M, VT, 16) \|\|		isVREVMask(M, VT, 16))
isVEXTMask(M, VT, ReverseVEXT, Imm) \|\|		return true;
		else if (Subtarget->hasNEON() &&
		(isVEXTMask(M, VT, ReverseVEXT, Imm) \|\|
isVTBLMask(M, VT) \|\|		isVTBLMask(M, VT) \|\|
isNEONTwoResultShuffleMask(M, VT, WhichResult, isV_UNDEF) \|\|		isNEONTwoResultShuffleMask(M, VT, WhichResult, isV_UNDEF)))
((VT == MVT::v8i16 \|\| VT == MVT::v16i8) && isReverseMask(M, VT)));		return true;
		else if (Subtarget->hasNEON() && (VT == MVT::v8i16 \|\| VT == MVT::v16i8) &&
		isReverseMask(M, VT))
		return true;
		else
		return false;
}		}

/// GeneratePerfectShuffle - Given an entry in the perfect-shuffle table, emit		/// GeneratePerfectShuffle - Given an entry in the perfect-shuffle table, emit
/// the specified operations to build the shuffle.		/// the specified operations to build the shuffle.
static SDValue GeneratePerfectShuffle(unsigned PFEntry, SDValue LHS,		static SDValue GeneratePerfectShuffle(unsigned PFEntry, SDValue LHS,
SDValue RHS, SelectionDAG &DAG,		SDValue RHS, SelectionDAG &DAG,
const SDLoc &dl) {		const SDLoc &dl) {
unsigned OpNum = (PFEntry >> 26) & 0x0F;		unsigned OpNum = (PFEntry >> 26) & 0x0F;
unsigned LHSID = (PFEntry >> 13) & ((1 << 13)-1);		unsigned LHSID = (PFEntry >> 13) & ((1 << 13)-1);
unsigned RHSID = (PFEntry >> 0) & ((1 << 13)-1);		unsigned RHSID = (PFEntry >> 0) & ((1 << 13)-1);

enum {
OP_COPY = 0, // Copy, used for things like <u,u,u,3> to say it is <0,1,2,3>
OP_VREV,
OP_VDUP0,
OP_VDUP1,
OP_VDUP2,
OP_VDUP3,
OP_VEXT1,
OP_VEXT2,
OP_VEXT3,
OP_VUZPL, // VUZP, left result
OP_VUZPR, // VUZP, right result
OP_VZIPL, // VZIP, left result
OP_VZIPR, // VZIP, right result
OP_VTRNL, // VTRN, left result
OP_VTRNR // VTRN, right result
};

if (OpNum == OP_COPY) {		if (OpNum == OP_COPY) {
if (LHSID == (19+2)9+3) return LHS;		if (LHSID == (19+2)9+3) return LHS;
assert(LHSID == ((49+5)9+6)*9+7 && "Illegal OP_COPY!");		assert(LHSID == ((49+5)9+6)*9+7 && "Illegal OP_COPY!");
return RHS;		return RHS;
}		}

SDValue OpLHS, OpRHS;		SDValue OpLHS, OpRHS;
OpLHS = GeneratePerfectShuffle(PerfectShuffleTable[LHSID], LHS, RHS, DAG, dl);		OpLHS = GeneratePerfectShuffle(PerfectShuffleTable[LHSID], LHS, RHS, DAG, dl);
▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines	static SDValue LowerReverse_VECTOR_SHUFFLEv16i8_v8i16(SDValue Op,
// For a v16i8 type: After the VREV, we have got <8, ...15, 8, ..., 0>. Now,		// For a v16i8 type: After the VREV, we have got <8, ...15, 8, ..., 0>. Now,
// extract the first 8 bytes into the top double word and the last 8 bytes		// extract the first 8 bytes into the top double word and the last 8 bytes
// into the bottom double word. The v8i16 case is similar.		// into the bottom double word. The v8i16 case is similar.
unsigned ExtractNum = (VT == MVT::v16i8) ? 8 : 4;		unsigned ExtractNum = (VT == MVT::v16i8) ? 8 : 4;
return DAG.getNode(ARMISD::VEXT, DL, VT, OpLHS, OpLHS,		return DAG.getNode(ARMISD::VEXT, DL, VT, OpLHS, OpLHS,
DAG.getConstant(ExtractNum, DL, MVT::i32));		DAG.getConstant(ExtractNum, DL, MVT::i32));
}		}

static SDValue LowerVECTOR_SHUFFLE(SDValue Op, SelectionDAG &DAG) {		static SDValue LowerVECTOR_SHUFFLE(SDValue Op, SelectionDAG &DAG,
		const ARMSubtarget *ST) {
SDValue V1 = Op.getOperand(0);		SDValue V1 = Op.getOperand(0);
SDValue V2 = Op.getOperand(1);		SDValue V2 = Op.getOperand(1);
SDLoc dl(Op);		SDLoc dl(Op);
EVT VT = Op.getValueType();		EVT VT = Op.getValueType();
ShuffleVectorSDNode *SVN = cast<ShuffleVectorSDNode>(Op.getNode());		ShuffleVectorSDNode *SVN = cast<ShuffleVectorSDNode>(Op.getNode());

// Convert shuffles that are directly supported on NEON to target-specific		// Convert shuffles that are directly supported on NEON to target-specific
// DAG nodes, instead of keeping them as shuffles and matching them again		// DAG nodes, instead of keeping them as shuffles and matching them again
Show All 29 Lines	if (SVN->isSplat()) {
return DAG.getNode(ARMISD::VDUP, dl, VT, V1.getOperand(0));		return DAG.getNode(ARMISD::VDUP, dl, VT, V1.getOperand(0));
}		}
return DAG.getNode(ARMISD::VDUPLANE, dl, VT, V1,		return DAG.getNode(ARMISD::VDUPLANE, dl, VT, V1,
DAG.getConstant(Lane, dl, MVT::i32));		DAG.getConstant(Lane, dl, MVT::i32));
}		}

bool ReverseVEXT = false;		bool ReverseVEXT = false;
unsigned Imm = 0;		unsigned Imm = 0;
if (isVEXTMask(ShuffleMask, VT, ReverseVEXT, Imm)) {		if (ST->hasNEON() && isVEXTMask(ShuffleMask, VT, ReverseVEXT, Imm)) {
if (ReverseVEXT)		if (ReverseVEXT)
std::swap(V1, V2);		std::swap(V1, V2);
return DAG.getNode(ARMISD::VEXT, dl, VT, V1, V2,		return DAG.getNode(ARMISD::VEXT, dl, VT, V1, V2,
DAG.getConstant(Imm, dl, MVT::i32));		DAG.getConstant(Imm, dl, MVT::i32));
}		}

if (isVREVMask(ShuffleMask, VT, 64))		if (isVREVMask(ShuffleMask, VT, 64))
return DAG.getNode(ARMISD::VREV64, dl, VT, V1);		return DAG.getNode(ARMISD::VREV64, dl, VT, V1);
if (isVREVMask(ShuffleMask, VT, 32))		if (isVREVMask(ShuffleMask, VT, 32))
return DAG.getNode(ARMISD::VREV32, dl, VT, V1);		return DAG.getNode(ARMISD::VREV32, dl, VT, V1);
if (isVREVMask(ShuffleMask, VT, 16))		if (isVREVMask(ShuffleMask, VT, 16))
return DAG.getNode(ARMISD::VREV16, dl, VT, V1);		return DAG.getNode(ARMISD::VREV16, dl, VT, V1);

if (V2->isUndef() && isSingletonVEXTMask(ShuffleMask, VT, Imm)) {		if (ST->hasNEON() && V2->isUndef() && isSingletonVEXTMask(ShuffleMask, VT, Imm)) {
return DAG.getNode(ARMISD::VEXT, dl, VT, V1, V1,		return DAG.getNode(ARMISD::VEXT, dl, VT, V1, V1,
DAG.getConstant(Imm, dl, MVT::i32));		DAG.getConstant(Imm, dl, MVT::i32));
}		}

// Check for Neon shuffles that modify both input vectors in place.		// Check for Neon shuffles that modify both input vectors in place.
// If both results are used, i.e., if there are two shuffles with the same		// If both results are used, i.e., if there are two shuffles with the same
// source operands and with masks corresponding to both results of one of		// source operands and with masks corresponding to both results of one of
// these operations, DAG memoization will ensure that a single node is		// these operations, DAG memoization will ensure that a single node is
// used for both shuffles.		// used for both shuffles.
unsigned WhichResult = 0;		unsigned WhichResult = 0;
bool isV_UNDEF = false;		bool isV_UNDEF = false;
		if (ST->hasNEON()) {
if (unsigned ShuffleOpc = isNEONTwoResultShuffleMask(		if (unsigned ShuffleOpc = isNEONTwoResultShuffleMask(
ShuffleMask, VT, WhichResult, isV_UNDEF)) {		ShuffleMask, VT, WhichResult, isV_UNDEF)) {
if (isV_UNDEF)		if (isV_UNDEF)
V2 = V1;		V2 = V1;
return DAG.getNode(ShuffleOpc, dl, DAG.getVTList(VT, VT), V1, V2)		return DAG.getNode(ShuffleOpc, dl, DAG.getVTList(VT, VT), V1, V2)
.getValue(WhichResult);		.getValue(WhichResult);
}		}
		}

// Also check for these shuffles through CONCAT_VECTORS: we canonicalize		// Also check for these shuffles through CONCAT_VECTORS: we canonicalize
// shuffles that produce a result larger than their operands with:		// shuffles that produce a result larger than their operands with:
// shuffle(concat(v1, undef), concat(v2, undef))		// shuffle(concat(v1, undef), concat(v2, undef))
// ->		// ->
// shuffle(concat(v1, v2), undef)		// shuffle(concat(v1, v2), undef)
// because we can access quad vectors (see PerformVECTOR_SHUFFLECombine).		// because we can access quad vectors (see PerformVECTOR_SHUFFLECombine).
//		//
// This is useful in the general case, but there are special cases where		// This is useful in the general case, but there are special cases where
// native shuffles produce larger results: the two-result ops.		// native shuffles produce larger results: the two-result ops.
//		//
// Look through the concat when lowering them:		// Look through the concat when lowering them:
// shuffle(concat(v1, v2), undef)		// shuffle(concat(v1, v2), undef)
// ->		// ->
// concat(VZIP(v1, v2):0, :1)		// concat(VZIP(v1, v2):0, :1)
//		//
if (V1->getOpcode() == ISD::CONCAT_VECTORS && V2->isUndef()) {		if (ST->hasNEON() && V1->getOpcode() == ISD::CONCAT_VECTORS && V2->isUndef()) {
SDValue SubV1 = V1->getOperand(0);		SDValue SubV1 = V1->getOperand(0);
SDValue SubV2 = V1->getOperand(1);		SDValue SubV2 = V1->getOperand(1);
EVT SubVT = SubV1.getValueType();		EVT SubVT = SubV1.getValueType();

// We expect these to have been canonicalized to -1.		// We expect these to have been canonicalized to -1.
assert(llvm::all_of(ShuffleMask, [&](int i) {		assert(llvm::all_of(ShuffleMask, [&](int i) {
return i < (int)VT.getVectorNumElements();		return i < (int)VT.getVectorNumElements();
}) && "Unexpected shuffle index into UNDEF operand!");		}) && "Unexpected shuffle index into UNDEF operand!");
Show All 25 Lines	if (NumElts == 4) {
}		}

// Compute the index in the perfect shuffle table.		// Compute the index in the perfect shuffle table.
unsigned PFTableIndex =		unsigned PFTableIndex =
PFIndexes[0]999+PFIndexes[1]99+PFIndexes[2]9+PFIndexes[3];		PFIndexes[0]999+PFIndexes[1]99+PFIndexes[2]9+PFIndexes[3];
unsigned PFEntry = PerfectShuffleTable[PFTableIndex];		unsigned PFEntry = PerfectShuffleTable[PFTableIndex];
unsigned Cost = (PFEntry >> 30);		unsigned Cost = (PFEntry >> 30);

if (Cost <= 4)		if (Cost <= 4) {
		if (ST->hasNEON())
		return GeneratePerfectShuffle(PFEntry, V1, V2, DAG, dl);
		else if (isLegalMVEShuffleOp(PFEntry)) {
		unsigned LHSID = (PFEntry >> 13) & ((1 << 13)-1);
		SjoerdMeijerUnsubmitted Not Done Reply Inline Actions There's a lot of prior art here of magic constants and shifts etc., but this doesn't mean much to me. It probably makes sense when you're familiar with querying the shuffle table. Not sure if it is worth a comment, but from a quick look at code here, that might not be even necessary. SjoerdMeijer: There's a lot of prior art here of magic constants and shifts etc., but this doesn't mean much…
		unsigned RHSID = (PFEntry >> 0) & ((1 << 13)-1);
		unsigned PFEntryLHS = PerfectShuffleTable[LHSID];
		unsigned PFEntryRHS = PerfectShuffleTable[RHSID];
		if (isLegalMVEShuffleOp(PFEntryLHS) && isLegalMVEShuffleOp(PFEntryRHS))
return GeneratePerfectShuffle(PFEntry, V1, V2, DAG, dl);		return GeneratePerfectShuffle(PFEntry, V1, V2, DAG, dl);
}		}
		}
		}

// Implement shuffles with 32- or 64-bit elements as ARMISD::BUILD_VECTORs.		// Implement shuffles with 32- or 64-bit elements as ARMISD::BUILD_VECTORs.
if (EltSize >= 32) {		if (EltSize >= 32) {
// Do the expansion with floating-point types, since that is what the VFP		// Do the expansion with floating-point types, since that is what the VFP
// registers are defined to use, and since i64 is not legal.		// registers are defined to use, and since i64 is not legal.
EVT EltVT = EVT::getFloatingPointVT(EltSize);		EVT EltVT = EVT::getFloatingPointVT(EltSize);
EVT VecVT = EVT::getVectorVT(*DAG.getContext(), EltVT, NumElts);		EVT VecVT = EVT::getVectorVT(*DAG.getContext(), EltVT, NumElts);
V1 = DAG.getNode(ISD::BITCAST, dl, VecVT, V1);		V1 = DAG.getNode(ISD::BITCAST, dl, VecVT, V1);
V2 = DAG.getNode(ISD::BITCAST, dl, VecVT, V2);		V2 = DAG.getNode(ISD::BITCAST, dl, VecVT, V2);
SmallVector<SDValue, 8> Ops;		SmallVector<SDValue, 8> Ops;
for (unsigned i = 0; i < NumElts; ++i) {		for (unsigned i = 0; i < NumElts; ++i) {
if (ShuffleMask[i] < 0)		if (ShuffleMask[i] < 0)
Ops.push_back(DAG.getUNDEF(EltVT));		Ops.push_back(DAG.getUNDEF(EltVT));
else		else
Ops.push_back(DAG.getNode(ISD::EXTRACT_VECTOR_ELT, dl, EltVT,		Ops.push_back(DAG.getNode(ISD::EXTRACT_VECTOR_ELT, dl, EltVT,
ShuffleMask[i] < (int)NumElts ? V1 : V2,		ShuffleMask[i] < (int)NumElts ? V1 : V2,
DAG.getConstant(ShuffleMask[i] & (NumElts-1),		DAG.getConstant(ShuffleMask[i] & (NumElts-1),
dl, MVT::i32)));		dl, MVT::i32)));
}		}
SDValue Val = DAG.getNode(ARMISD::BUILD_VECTOR, dl, VecVT, Ops);		SDValue Val = DAG.getNode(ARMISD::BUILD_VECTOR, dl, VecVT, Ops);
return DAG.getNode(ISD::BITCAST, dl, VT, Val);		return DAG.getNode(ISD::BITCAST, dl, VT, Val);
}		}

if ((VT == MVT::v8i16 \|\| VT == MVT::v16i8) && isReverseMask(ShuffleMask, VT))		if (ST->hasNEON() && (VT == MVT::v8i16 \|\| VT == MVT::v16i8) && isReverseMask(ShuffleMask, VT))
return LowerReverse_VECTOR_SHUFFLEv16i8_v8i16(Op, DAG);		return LowerReverse_VECTOR_SHUFFLEv16i8_v8i16(Op, DAG);

if (VT == MVT::v8i8)		if (ST->hasNEON() && VT == MVT::v8i8)
if (SDValue NewOp = LowerVECTOR_SHUFFLEv8i8(Op, ShuffleMask, DAG))		if (SDValue NewOp = LowerVECTOR_SHUFFLEv8i8(Op, ShuffleMask, DAG))
return NewOp;		return NewOp;

return SDValue();		return SDValue();
}		}

static SDValue LowerINSERT_VECTOR_ELT(SDValue Op, SelectionDAG &DAG) {		static SDValue LowerINSERT_VECTOR_ELT(SDValue Op, SelectionDAG &DAG) {
// INSERT_VECTOR_ELT is legal only for immediate indexes.		// INSERT_VECTOR_ELT is legal only for immediate indexes.
▲ Show 20 Lines • Show All 924 Lines • ▼ Show 20 Lines	SDValue ARMTargetLowering::LowerOperation(SDValue Op, SelectionDAG &DAG) const {
case ISD::SRA_PARTS: return LowerShiftRightParts(Op, DAG);		case ISD::SRA_PARTS: return LowerShiftRightParts(Op, DAG);
case ISD::CTTZ:		case ISD::CTTZ:
case ISD::CTTZ_ZERO_UNDEF: return LowerCTTZ(Op.getNode(), DAG, Subtarget);		case ISD::CTTZ_ZERO_UNDEF: return LowerCTTZ(Op.getNode(), DAG, Subtarget);
case ISD::CTPOP: return LowerCTPOP(Op.getNode(), DAG, Subtarget);		case ISD::CTPOP: return LowerCTPOP(Op.getNode(), DAG, Subtarget);
case ISD::SETCC: return LowerVSETCC(Op, DAG);		case ISD::SETCC: return LowerVSETCC(Op, DAG);
case ISD::SETCCCARRY: return LowerSETCCCARRY(Op, DAG);		case ISD::SETCCCARRY: return LowerSETCCCARRY(Op, DAG);
case ISD::ConstantFP: return LowerConstantFP(Op, DAG, Subtarget);		case ISD::ConstantFP: return LowerConstantFP(Op, DAG, Subtarget);
case ISD::BUILD_VECTOR: return LowerBUILD_VECTOR(Op, DAG, Subtarget);		case ISD::BUILD_VECTOR: return LowerBUILD_VECTOR(Op, DAG, Subtarget);
case ISD::VECTOR_SHUFFLE: return LowerVECTOR_SHUFFLE(Op, DAG);		case ISD::VECTOR_SHUFFLE: return LowerVECTOR_SHUFFLE(Op, DAG, Subtarget);
case ISD::INSERT_VECTOR_ELT: return LowerINSERT_VECTOR_ELT(Op, DAG);		case ISD::INSERT_VECTOR_ELT: return LowerINSERT_VECTOR_ELT(Op, DAG);
case ISD::EXTRACT_VECTOR_ELT: return LowerEXTRACT_VECTOR_ELT(Op, DAG);		case ISD::EXTRACT_VECTOR_ELT: return LowerEXTRACT_VECTOR_ELT(Op, DAG);
case ISD::CONCAT_VECTORS: return LowerCONCAT_VECTORS(Op, DAG);		case ISD::CONCAT_VECTORS: return LowerCONCAT_VECTORS(Op, DAG);
case ISD::FLT_ROUNDS_: return LowerFLT_ROUNDS_(Op, DAG);		case ISD::FLT_ROUNDS_: return LowerFLT_ROUNDS_(Op, DAG);
case ISD::MUL: return LowerMUL(Op, DAG);		case ISD::MUL: return LowerMUL(Op, DAG);
case ISD::SDIV:		case ISD::SDIV:
if (Subtarget->isTargetWindows() && !Op.getValueType().isVector())		if (Subtarget->isTargetWindows() && !Op.getValueType().isVector())
return LowerDIV_Windows(Op, DAG, /* Signed */ true);		return LowerDIV_Windows(Op, DAG, /* Signed */ true);
▲ Show 20 Lines • Show All 3,884 Lines • ▼ Show 20 Lines	static SDValue PerformVDUPLANECombine(SDNode *N,
if (EltSize > VT.getScalarSizeInBits())		if (EltSize > VT.getScalarSizeInBits())
return SDValue();		return SDValue();

return DCI.DAG.getNode(ISD::BITCAST, SDLoc(N), VT, Op);		return DCI.DAG.getNode(ISD::BITCAST, SDLoc(N), VT, Op);
}		}

/// PerformVDUPCombine - Target-specific dag combine xforms for ARMISD::VDUP.		/// PerformVDUPCombine - Target-specific dag combine xforms for ARMISD::VDUP.
static SDValue PerformVDUPCombine(SDNode *N,		static SDValue PerformVDUPCombine(SDNode *N,
TargetLowering::DAGCombinerInfo &DCI) {		TargetLowering::DAGCombinerInfo &DCI,
		const ARMSubtarget *Subtarget) {
SelectionDAG &DAG = DCI.DAG;		SelectionDAG &DAG = DCI.DAG;
SDValue Op = N->getOperand(0);		SDValue Op = N->getOperand(0);

		if (!Subtarget->hasNEON())
		return SDValue();

// Match VDUP(LOAD) -> VLD1DUP.		// Match VDUP(LOAD) -> VLD1DUP.
// We match this pattern here rather than waiting for isel because the		// We match this pattern here rather than waiting for isel because the
// transform is only legal for unindexed loads.		// transform is only legal for unindexed loads.
LoadSDNode *LD = dyn_cast<LoadSDNode>(Op.getNode());		LoadSDNode *LD = dyn_cast<LoadSDNode>(Op.getNode());
if (LD && Op.hasOneUse() && LD->isUnindexed() &&		if (LD && Op.hasOneUse() && LD->isUnindexed() &&
LD->getMemoryVT() == N->getValueType(0).getVectorElementType()) {		LD->getMemoryVT() == N->getValueType(0).getVectorElementType()) {
SDValue Ops[] = { LD->getOperand(0), LD->getOperand(1),		SDValue Ops[] = { LD->getOperand(0), LD->getOperand(1),
DAG.getConstant(LD->getAlignment(), SDLoc(N), MVT::i32) };		DAG.getConstant(LD->getAlignment(), SDLoc(N), MVT::i32) };
▲ Show 20 Lines • Show All 942 Lines • ▼ Show 20 Lines	SDValue ARMTargetLowering::PerformDAGCombine(SDNode *N,
case ARMISD::BFI: return PerformBFICombine(N, DCI);		case ARMISD::BFI: return PerformBFICombine(N, DCI);
case ARMISD::VMOVRRD: return PerformVMOVRRDCombine(N, DCI, Subtarget);		case ARMISD::VMOVRRD: return PerformVMOVRRDCombine(N, DCI, Subtarget);
case ARMISD::VMOVDRR: return PerformVMOVDRRCombine(N, DCI.DAG);		case ARMISD::VMOVDRR: return PerformVMOVDRRCombine(N, DCI.DAG);
case ISD::STORE: return PerformSTORECombine(N, DCI);		case ISD::STORE: return PerformSTORECombine(N, DCI);
case ISD::BUILD_VECTOR: return PerformBUILD_VECTORCombine(N, DCI, Subtarget);		case ISD::BUILD_VECTOR: return PerformBUILD_VECTORCombine(N, DCI, Subtarget);
case ISD::INSERT_VECTOR_ELT: return PerformInsertEltCombine(N, DCI);		case ISD::INSERT_VECTOR_ELT: return PerformInsertEltCombine(N, DCI);
case ISD::VECTOR_SHUFFLE: return PerformVECTOR_SHUFFLECombine(N, DCI.DAG);		case ISD::VECTOR_SHUFFLE: return PerformVECTOR_SHUFFLECombine(N, DCI.DAG);
case ARMISD::VDUPLANE: return PerformVDUPLANECombine(N, DCI);		case ARMISD::VDUPLANE: return PerformVDUPLANECombine(N, DCI);
case ARMISD::VDUP: return PerformVDUPCombine(N, DCI);		case ARMISD::VDUP: return PerformVDUPCombine(N, DCI, Subtarget);
case ISD::FP_TO_SINT:		case ISD::FP_TO_SINT:
case ISD::FP_TO_UINT:		case ISD::FP_TO_UINT:
return PerformVCVTCombine(N, DCI.DAG, Subtarget);		return PerformVCVTCombine(N, DCI.DAG, Subtarget);
case ISD::FDIV:		case ISD::FDIV:
return PerformVDIVCombine(N, DCI.DAG, Subtarget);		return PerformVDIVCombine(N, DCI.DAG, Subtarget);
case ISD::INTRINSIC_WO_CHAIN: return PerformIntrinsicCombine(N, DCI.DAG);		case ISD::INTRINSIC_WO_CHAIN: return PerformIntrinsicCombine(N, DCI.DAG);
case ISD::SHL:		case ISD::SHL:
case ISD::SRA:		case ISD::SRA:
▲ Show 20 Lines • Show All 2,497 Lines • Show Last 20 Lines

llvm/lib/Target/ARM/ARMInstrInfo.td

	Show First 20 Lines • Show All 207 Lines • ▼ Show 20 Lines

	def ARMsmulwb : SDNode<"ARMISD::SMULWB", SDTIntBinOp, []>;			def ARMsmulwb : SDNode<"ARMISD::SMULWB", SDTIntBinOp, []>;
	def ARMsmulwt : SDNode<"ARMISD::SMULWT", SDTIntBinOp, []>;			def ARMsmulwt : SDNode<"ARMISD::SMULWT", SDTIntBinOp, []>;
	def ARMsmlalbb : SDNode<"ARMISD::SMLALBB", SDT_LongMac, []>;			def ARMsmlalbb : SDNode<"ARMISD::SMLALBB", SDT_LongMac, []>;
	def ARMsmlalbt : SDNode<"ARMISD::SMLALBT", SDT_LongMac, []>;			def ARMsmlalbt : SDNode<"ARMISD::SMLALBT", SDT_LongMac, []>;
	def ARMsmlaltb : SDNode<"ARMISD::SMLALTB", SDT_LongMac, []>;			def ARMsmlaltb : SDNode<"ARMISD::SMLALTB", SDT_LongMac, []>;
	def ARMsmlaltt : SDNode<"ARMISD::SMLALTT", SDT_LongMac, []>;			def ARMsmlaltt : SDNode<"ARMISD::SMLALTT", SDT_LongMac, []>;

				// Vector operations shared between NEON and MVE

				def ARMvdup : SDNode<"ARMISD::VDUP", SDTypeProfile<1, 1, [SDTCisVec<0>]>>;

				// VDUPLANE can produce a quad-register result from a double-register source,
				// so the result is not constrained to match the source.
				def ARMvduplane : SDNode<"ARMISD::VDUPLANE",
				SDTypeProfile<1, 2, [SDTCisVec<0>, SDTCisVec<1>,
				SDTCisVT<2, i32>]>>;

				def SDTARMVSHUF : SDTypeProfile<1, 1, [SDTCisVec<0>, SDTCisSameAs<0, 1>]>;
				def ARMvrev64 : SDNode<"ARMISD::VREV64", SDTARMVSHUF>;
				def ARMvrev32 : SDNode<"ARMISD::VREV32", SDTARMVSHUF>;
				def ARMvrev16 : SDNode<"ARMISD::VREV16", SDTARMVSHUF>;

				def SDTARMVGETLN : SDTypeProfile<1, 2, [SDTCisVT<0, i32>, SDTCisInt<1>,
				SDTCisVT<2, i32>]>;
				def ARMvgetlaneu : SDNode<"ARMISD::VGETLANEu", SDTARMVGETLN>;
				def ARMvgetlanes : SDNode<"ARMISD::VGETLANEs", SDTARMVGETLN>;

	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//
	// ARM Flag Definitions.			// ARM Flag Definitions.

	class RegConstraint<string C> {			class RegConstraint<string C> {
	string Constraints = C;			string Constraints = C;
	}			}

	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//
	▲ Show 20 Lines • Show All 5,899 Lines • Show Last 20 Lines

llvm/lib/Target/ARM/ARMInstrMVE.td

Show First 20 Lines • Show All 1,348 Lines • ▼ Show 20 Lines
def MVE_VREV64_16 : MVE_VREV<"vrev64", "16", 0b01, 0b00>;		def MVE_VREV64_16 : MVE_VREV<"vrev64", "16", 0b01, 0b00>;
def MVE_VREV64_32 : MVE_VREV<"vrev64", "32", 0b10, 0b00>;		def MVE_VREV64_32 : MVE_VREV<"vrev64", "32", 0b10, 0b00>;

def MVE_VREV32_8 : MVE_VREV<"vrev32", "8", 0b00, 0b01>;		def MVE_VREV32_8 : MVE_VREV<"vrev32", "8", 0b00, 0b01>;
def MVE_VREV32_16 : MVE_VREV<"vrev32", "16", 0b01, 0b01>;		def MVE_VREV32_16 : MVE_VREV<"vrev32", "16", 0b01, 0b01>;

def MVE_VREV16_8 : MVE_VREV<"vrev16", "8", 0b00, 0b10>;		def MVE_VREV16_8 : MVE_VREV<"vrev16", "8", 0b00, 0b10>;

		let Predicates = [HasMVEInt] in {
		def : Pat<(v4i32 (ARMvrev64 (v4i32 MQPR:$src))),
		(v4i32 (MVE_VREV64_32 (v4i32 MQPR:$src)))>;
		def : Pat<(v8i16 (ARMvrev64 (v8i16 MQPR:$src))),
		(v8i16 (MVE_VREV64_16 (v8i16 MQPR:$src)))>;
		def : Pat<(v16i8 (ARMvrev64 (v16i8 MQPR:$src))),
		(v16i8 (MVE_VREV64_8 (v16i8 MQPR:$src)))>;

		def : Pat<(v8i16 (ARMvrev32 (v8i16 MQPR:$src))),
		(v8i16 (MVE_VREV32_16 (v8i16 MQPR:$src)))>;
		def : Pat<(v16i8 (ARMvrev32 (v16i8 MQPR:$src))),
		(v16i8 (MVE_VREV32_8 (v16i8 MQPR:$src)))>;

		def : Pat<(v16i8 (ARMvrev16 (v16i8 MQPR:$src))),
		(v16i8 (MVE_VREV16_8 (v16i8 MQPR:$src)))>;
		}

		let Predicates = [HasMVEFloat] in {
		def : Pat<(v4f32 (ARMvrev64 (v4f32 MQPR:$src))),
		(v4f32 (MVE_VREV64_32 (v4f32 MQPR:$src)))>;
		def : Pat<(v8f16 (ARMvrev64 (v8f16 MQPR:$src))),
		(v8f16 (MVE_VREV64_16 (v8f16 MQPR:$src)))>;
		def : Pat<(v8f16 (ARMvrev32 (v8f16 MQPR:$src))),
		(v8f16 (MVE_VREV32_16 (v8f16 MQPR:$src)))>;
		}

def MVE_VMVN : MVE_bit_arith<(outs MQPR:$Qd), (ins MQPR:$Qm),		def MVE_VMVN : MVE_bit_arith<(outs MQPR:$Qd), (ins MQPR:$Qm),
"vmvn", "", "$Qd, $Qm", ""> {		"vmvn", "", "$Qd, $Qm", ""> {
let Inst{28} = 0b1;		let Inst{28} = 0b1;
let Inst{25-23} = 0b111;		let Inst{25-23} = 0b111;
let Inst{21-16} = 0b110000;		let Inst{21-16} = 0b110000;
let Inst{12-6} = 0b0010111;		let Inst{12-6} = 0b0010111;
let Inst{4} = 0b0;		let Inst{4} = 0b0;
let Inst{0} = 0b0;		let Inst{0} = 0b0;
▲ Show 20 Lines • Show All 205 Lines • ▼ Show 20 Lines
def MVE_VMOV_to_lane_32 : MVE_VMOV_lane_32< MVE_VMOV_to_lane>;		def MVE_VMOV_to_lane_32 : MVE_VMOV_lane_32< MVE_VMOV_to_lane>;
def MVE_VMOV_from_lane_s16 : MVE_VMOV_lane_16<"s16", 0b0, MVE_VMOV_from_lane>;		def MVE_VMOV_from_lane_s16 : MVE_VMOV_lane_16<"s16", 0b0, MVE_VMOV_from_lane>;
def MVE_VMOV_from_lane_u16 : MVE_VMOV_lane_16<"u16", 0b1, MVE_VMOV_from_lane>;		def MVE_VMOV_from_lane_u16 : MVE_VMOV_lane_16<"u16", 0b1, MVE_VMOV_from_lane>;
def MVE_VMOV_to_lane_16 : MVE_VMOV_lane_16< "16", 0b0, MVE_VMOV_to_lane>;		def MVE_VMOV_to_lane_16 : MVE_VMOV_lane_16< "16", 0b0, MVE_VMOV_to_lane>;
def MVE_VMOV_from_lane_s8 : MVE_VMOV_lane_8 < "s8", 0b0, MVE_VMOV_from_lane>;		def MVE_VMOV_from_lane_s8 : MVE_VMOV_lane_8 < "s8", 0b0, MVE_VMOV_from_lane>;
def MVE_VMOV_from_lane_u8 : MVE_VMOV_lane_8 < "u8", 0b1, MVE_VMOV_from_lane>;		def MVE_VMOV_from_lane_u8 : MVE_VMOV_lane_8 < "u8", 0b1, MVE_VMOV_from_lane>;
def MVE_VMOV_to_lane_8 : MVE_VMOV_lane_8 < "8", 0b0, MVE_VMOV_to_lane>;		def MVE_VMOV_to_lane_8 : MVE_VMOV_lane_8 < "8", 0b0, MVE_VMOV_to_lane>;

		let Predicates = [HasMVEInt] in {
		def : Pat<(extractelt (v4i32 MQPR:$src), imm:$lane),
		(COPY_TO_REGCLASS
		(i32 (EXTRACT_SUBREG MQPR:$src, (SSubReg_f32_reg imm:$lane))), rGPR)>;
		def : Pat<(insertelt (v4i32 MQPR:$src1), rGPR:$src2, imm:$lane),
		(MVE_VMOV_to_lane_32 MQPR:$src1, rGPR:$src2, imm:$lane)>;

		def : Pat<(vector_insert (v16i8 MQPR:$src1), rGPR:$src2, imm:$lane),
		(MVE_VMOV_to_lane_8 MQPR:$src1, rGPR:$src2, imm:$lane)>;
		def : Pat<(vector_insert (v8i16 MQPR:$src1), rGPR:$src2, imm:$lane),
		(MVE_VMOV_to_lane_16 MQPR:$src1, rGPR:$src2, imm:$lane)>;

		def : Pat<(ARMvgetlanes (v16i8 MQPR:$src), imm:$lane),
		(MVE_VMOV_from_lane_s8 MQPR:$src, imm:$lane)>;
		def : Pat<(ARMvgetlanes (v8i16 MQPR:$src), imm:$lane),
		(MVE_VMOV_from_lane_s16 MQPR:$src, imm:$lane)>;
		def : Pat<(ARMvgetlaneu (v16i8 MQPR:$src), imm:$lane),
		(MVE_VMOV_from_lane_u8 MQPR:$src, imm:$lane)>;
		def : Pat<(ARMvgetlaneu (v8i16 MQPR:$src), imm:$lane),
		(MVE_VMOV_from_lane_u16 MQPR:$src, imm:$lane)>;

		def : Pat<(v16i8 (scalar_to_vector GPR:$src)),
		(MVE_VMOV_to_lane_8 (v16i8 (IMPLICIT_DEF)), rGPR:$src, (i32 0))>;
		def : Pat<(v8i16 (scalar_to_vector GPR:$src)),
		(MVE_VMOV_to_lane_16 (v8i16 (IMPLICIT_DEF)), rGPR:$src, (i32 0))>;
		def : Pat<(v4i32 (scalar_to_vector GPR:$src)),
		(MVE_VMOV_to_lane_32 (v4i32 (IMPLICIT_DEF)), rGPR:$src, (i32 0))>;
		}

		let Predicates = [HasMVEFloat] in {
		def : Pat<(extractelt (v4f32 MQPR:$src), imm:$lane),
		(COPY_TO_REGCLASS
		(f32 (EXTRACT_SUBREG MQPR:$src, (SSubReg_f32_reg imm:$lane))), SPR)>;
		def : Pat<(v4f32 (insertelt (v4f32 MQPR:$src1), (f32 SPR:$src2), imm:$lane)),
		(INSERT_SUBREG (v4f32 (COPY_TO_REGCLASS MQPR:$src1, MQPR)), SPR:$src2,
		(SSubReg_f32_reg imm:$lane))>;

		def : Pat<(insertelt (v8f16 MQPR:$src1), HPR:$src2, imm:$lane),
		(MVE_VMOV_to_lane_16 MQPR:$src1, (COPY_TO_REGCLASS HPR:$src2, rGPR), imm:$lane)>;
		def : Pat<(extractelt (v8f16 MQPR:$src), imm:$lane),
		(COPY_TO_REGCLASS (MVE_VMOV_from_lane_u16 MQPR:$src, imm:$lane), HPR)>;

		def : Pat<(v4f32 (scalar_to_vector SPR:$src)),
		(INSERT_SUBREG (v4f32 (IMPLICIT_DEF)), SPR:$src, ssub_0)>;
		def : Pat<(v8f16 (scalar_to_vector HPR:$src)),
		(INSERT_SUBREG (v8f16 (IMPLICIT_DEF)), HPR:$src, ssub_0)>;
		}

// end of mve_bit instructions		// end of mve_bit instructions

// start of MVE Integer instructions		// start of MVE Integer instructions

class MVE_int<string iname, string suffix, bits<2> size, list<dag> pattern=[]>		class MVE_int<string iname, string suffix, bits<2> size, list<dag> pattern=[]>
: MVE_p<(outs MQPR:$Qd), (ins MQPR:$Qn, MQPR:$Qm), NoItinerary,		: MVE_p<(outs MQPR:$Qd), (ins MQPR:$Qn, MQPR:$Qm), NoItinerary,
iname, suffix, "$Qd, $Qn, $Qm", vpred_r, "", pattern> {		iname, suffix, "$Qd, $Qn, $Qm", vpred_r, "", pattern> {
bits<4> Qd;		bits<4> Qd;
▲ Show 20 Lines • Show All 225 Lines • ▼ Show 20 Lines	class MVE_VDUP<string suffix, bit B, bit E, list<dag> pattern=[]>
let Inst{5} = E;		let Inst{5} = E;
let Inst{4-0} = 0b10000;		let Inst{4-0} = 0b10000;
}		}

def MVE_VDUP32 : MVE_VDUP<"32", 0b0, 0b0>;		def MVE_VDUP32 : MVE_VDUP<"32", 0b0, 0b0>;
def MVE_VDUP16 : MVE_VDUP<"16", 0b0, 0b1>;		def MVE_VDUP16 : MVE_VDUP<"16", 0b0, 0b1>;
def MVE_VDUP8 : MVE_VDUP<"8", 0b1, 0b0>;		def MVE_VDUP8 : MVE_VDUP<"8", 0b1, 0b0>;

		let Predicates = [HasMVEInt] in {
		def : Pat<(v16i8 (ARMvdup (i32 rGPR:$elem))),
		(MVE_VDUP8 rGPR:$elem)>;
		def : Pat<(v8i16 (ARMvdup (i32 rGPR:$elem))),
		(MVE_VDUP16 rGPR:$elem)>;
		def : Pat<(v4i32 (ARMvdup (i32 rGPR:$elem))),
		(MVE_VDUP32 rGPR:$elem)>;

		def : Pat<(v4i32 (ARMvduplane (v4i32 MQPR:$src), imm:$lane)),
		(MVE_VDUP32 (MVE_VMOV_from_lane_32 MQPR:$src, imm:$lane))>;
		// For the 16-bit and 8-bit vduplanes we don't care about the signedness
		// of the lane move operation as we only want the lowest 8/16 bits anyway.
		def : Pat<(v8i16 (ARMvduplane (v8i16 MQPR:$src), imm:$lane)),
		(MVE_VDUP16 (MVE_VMOV_from_lane_u16 MQPR:$src, imm:$lane))>;
		def : Pat<(v16i8 (ARMvduplane (v16i8 MQPR:$src), imm:$lane)),
		(MVE_VDUP8 (MVE_VMOV_from_lane_u8 MQPR:$src, imm:$lane))>;
		}

		let Predicates = [HasMVEFloat] in {
		def : Pat<(v4f32 (ARMvdup (f32 SPR:$elem))),
		(v4f32 (MVE_VDUP32 (i32 (COPY_TO_REGCLASS (f32 SPR:$elem),
		rGPR))))>;
		def : Pat<(v8f16 (ARMvdup (f16 HPR:$elem))),
		(v8f16 (MVE_VDUP16 (i32 (COPY_TO_REGCLASS (f16 HPR:$elem),
		rGPR))))>;

		def : Pat<(v4f32 (ARMvduplane (v4f32 MQPR:$src), imm:$lane)),
		(MVE_VDUP32 (MVE_VMOV_from_lane_32 MQPR:$src, imm:$lane))>;
		def : Pat<(v8f16 (ARMvduplane (v8f16 MQPR:$src), imm:$lane)),
		(MVE_VDUP16 (MVE_VMOV_from_lane_u16 MQPR:$src, imm:$lane))>;
		}


class MVEIntSingleSrc<string iname, string suffix, bits<2> size,		class MVEIntSingleSrc<string iname, string suffix, bits<2> size,
list<dag> pattern=[]>		list<dag> pattern=[]>
: MVE_p<(outs MQPR:$Qd), (ins MQPR:$Qm), NoItinerary,		: MVE_p<(outs MQPR:$Qd), (ins MQPR:$Qm), NoItinerary,
iname, suffix, "$Qd, $Qm", vpred_r, "", pattern> {		iname, suffix, "$Qd, $Qm", vpred_r, "", pattern> {
bits<4> Qd;		bits<4> Qd;
bits<4> Qm;		bits<4> Qm;

let Inst{22} = Qd{3};		let Inst{22} = Qd{3};
▲ Show 20 Lines • Show All 2,293 Lines • Show Last 20 Lines

llvm/lib/Target/ARM/ARMInstrNEON.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 520 Lines • ▼ Show 20 Lines

def NEONvqrshrns : SDNode<"ARMISD::VQRSHRNs", SDTARMVSHX>;		def NEONvqrshrns : SDNode<"ARMISD::VQRSHRNs", SDTARMVSHX>;
def NEONvqrshrnu : SDNode<"ARMISD::VQRSHRNu", SDTARMVSHX>;		def NEONvqrshrnu : SDNode<"ARMISD::VQRSHRNu", SDTARMVSHX>;
def NEONvqrshrnsu : SDNode<"ARMISD::VQRSHRNsu", SDTARMVSHX>;		def NEONvqrshrnsu : SDNode<"ARMISD::VQRSHRNsu", SDTARMVSHX>;

def NEONvsli : SDNode<"ARMISD::VSLI", SDTARMVSHINS>;		def NEONvsli : SDNode<"ARMISD::VSLI", SDTARMVSHINS>;
def NEONvsri : SDNode<"ARMISD::VSRI", SDTARMVSHINS>;		def NEONvsri : SDNode<"ARMISD::VSRI", SDTARMVSHINS>;

def SDTARMVGETLN : SDTypeProfile<1, 2, [SDTCisVT<0, i32>, SDTCisInt<1>,
SDTCisVT<2, i32>]>;
def NEONvgetlaneu : SDNode<"ARMISD::VGETLANEu", SDTARMVGETLN>;
def NEONvgetlanes : SDNode<"ARMISD::VGETLANEs", SDTARMVGETLN>;

def SDTARMVMOVIMM : SDTypeProfile<1, 1, [SDTCisVec<0>, SDTCisVT<1, i32>]>;		def SDTARMVMOVIMM : SDTypeProfile<1, 1, [SDTCisVec<0>, SDTCisVT<1, i32>]>;
def NEONvmovImm : SDNode<"ARMISD::VMOVIMM", SDTARMVMOVIMM>;		def NEONvmovImm : SDNode<"ARMISD::VMOVIMM", SDTARMVMOVIMM>;
def NEONvmvnImm : SDNode<"ARMISD::VMVNIMM", SDTARMVMOVIMM>;		def NEONvmvnImm : SDNode<"ARMISD::VMVNIMM", SDTARMVMOVIMM>;
def NEONvmovFPImm : SDNode<"ARMISD::VMOVFPIMM", SDTARMVMOVIMM>;		def NEONvmovFPImm : SDNode<"ARMISD::VMOVFPIMM", SDTARMVMOVIMM>;

def SDTARMVORRIMM : SDTypeProfile<1, 2, [SDTCisVec<0>, SDTCisSameAs<0, 1>,		def SDTARMVORRIMM : SDTypeProfile<1, 2, [SDTCisVec<0>, SDTCisSameAs<0, 1>,
SDTCisVT<2, i32>]>;		SDTCisVT<2, i32>]>;
def NEONvorrImm : SDNode<"ARMISD::VORRIMM", SDTARMVORRIMM>;		def NEONvorrImm : SDNode<"ARMISD::VORRIMM", SDTARMVORRIMM>;
def NEONvbicImm : SDNode<"ARMISD::VBICIMM", SDTARMVORRIMM>;		def NEONvbicImm : SDNode<"ARMISD::VBICIMM", SDTARMVORRIMM>;

def NEONvbsl : SDNode<"ARMISD::VBSL",		def NEONvbsl : SDNode<"ARMISD::VBSL",
SDTypeProfile<1, 3, [SDTCisVec<0>,		SDTypeProfile<1, 3, [SDTCisVec<0>,
SDTCisSameAs<0, 1>,		SDTCisSameAs<0, 1>,
SDTCisSameAs<0, 2>,		SDTCisSameAs<0, 2>,
SDTCisSameAs<0, 3>]>>;		SDTCisSameAs<0, 3>]>>;

def NEONvdup : SDNode<"ARMISD::VDUP", SDTypeProfile<1, 1, [SDTCisVec<0>]>>;

// VDUPLANE can produce a quad-register result from a double-register source,
// so the result is not constrained to match the source.
def NEONvduplane : SDNode<"ARMISD::VDUPLANE",
SDTypeProfile<1, 2, [SDTCisVec<0>, SDTCisVec<1>,
SDTCisVT<2, i32>]>>;

def SDTARMVEXT : SDTypeProfile<1, 3, [SDTCisVec<0>, SDTCisSameAs<0, 1>,		def SDTARMVEXT : SDTypeProfile<1, 3, [SDTCisVec<0>, SDTCisSameAs<0, 1>,
SDTCisSameAs<0, 2>, SDTCisVT<3, i32>]>;		SDTCisSameAs<0, 2>, SDTCisVT<3, i32>]>;
def NEONvext : SDNode<"ARMISD::VEXT", SDTARMVEXT>;		def NEONvext : SDNode<"ARMISD::VEXT", SDTARMVEXT>;

def SDTARMVSHUF : SDTypeProfile<1, 1, [SDTCisVec<0>, SDTCisSameAs<0, 1>]>;
def NEONvrev64 : SDNode<"ARMISD::VREV64", SDTARMVSHUF>;
def NEONvrev32 : SDNode<"ARMISD::VREV32", SDTARMVSHUF>;
def NEONvrev16 : SDNode<"ARMISD::VREV16", SDTARMVSHUF>;

def SDTARMVSHUF2 : SDTypeProfile<2, 2, [SDTCisVec<0>, SDTCisSameAs<0, 1>,		def SDTARMVSHUF2 : SDTypeProfile<2, 2, [SDTCisVec<0>, SDTCisSameAs<0, 1>,
SDTCisSameAs<0, 2>,		SDTCisSameAs<0, 2>,
SDTCisSameAs<0, 3>]>;		SDTCisSameAs<0, 3>]>;
def NEONzip : SDNode<"ARMISD::VZIP", SDTARMVSHUF2>;		def NEONzip : SDNode<"ARMISD::VZIP", SDTARMVSHUF2>;
def NEONuzp : SDNode<"ARMISD::VUZP", SDTARMVSHUF2>;		def NEONuzp : SDNode<"ARMISD::VUZP", SDTARMVSHUF2>;
def NEONtrn : SDNode<"ARMISD::VTRN", SDTARMVSHUF2>;		def NEONtrn : SDNode<"ARMISD::VTRN", SDTARMVSHUF2>;

def SDTARMVMULL : SDTypeProfile<1, 2, [SDTCisInt<0>, SDTCisInt<1>,		def SDTARMVMULL : SDTypeProfile<1, 2, [SDTCisInt<0>, SDTCisInt<1>,
▲ Show 20 Lines • Show All 831 Lines • ▼ Show 20 Lines

// VLD1DUP : Vector Load (single element to all lanes)		// VLD1DUP : Vector Load (single element to all lanes)
class VLD1DUP<bits<4> op7_4, string Dt, ValueType Ty, PatFrag LoadOp,		class VLD1DUP<bits<4> op7_4, string Dt, ValueType Ty, PatFrag LoadOp,
Operand AddrMode>		Operand AddrMode>
: NLdSt<1, 0b10, 0b1100, op7_4, (outs VecListOneDAllLanes:$Vd),		: NLdSt<1, 0b10, 0b1100, op7_4, (outs VecListOneDAllLanes:$Vd),
(ins AddrMode:$Rn),		(ins AddrMode:$Rn),
IIC_VLD1dup, "vld1", Dt, "$Vd, $Rn", "",		IIC_VLD1dup, "vld1", Dt, "$Vd, $Rn", "",
[(set VecListOneDAllLanes:$Vd,		[(set VecListOneDAllLanes:$Vd,
(Ty (NEONvdup (i32 (LoadOp AddrMode:$Rn)))))]>,		(Ty (ARMvdup (i32 (LoadOp AddrMode:$Rn)))))]>,
Sched<[WriteVLD2]> {		Sched<[WriteVLD2]> {
let Rm = 0b1111;		let Rm = 0b1111;
let Inst{4} = Rn{4};		let Inst{4} = Rn{4};
let DecoderMethod = "DecodeVLD1DupInstruction";		let DecoderMethod = "DecodeVLD1DupInstruction";
}		}
def VLD1DUPd8 : VLD1DUP<{0,0,0,?}, "8", v8i8, extloadi8,		def VLD1DUPd8 : VLD1DUP<{0,0,0,?}, "8", v8i8, extloadi8,
addrmode6dupalignNone>;		addrmode6dupalignNone>;
def VLD1DUPd16 : VLD1DUP<{0,1,0,?}, "16", v4i16, extloadi16,		def VLD1DUPd16 : VLD1DUP<{0,1,0,?}, "16", v4i16, extloadi16,
addrmode6dupalign16>;		addrmode6dupalign16>;
def VLD1DUPd32 : VLD1DUP<{1,0,0,?}, "32", v2i32, load,		def VLD1DUPd32 : VLD1DUP<{1,0,0,?}, "32", v2i32, load,
addrmode6dupalign32>;		addrmode6dupalign32>;

let Predicates = [HasNEON] in {		let Predicates = [HasNEON] in {
def : Pat<(v2f32 (NEONvdup (f32 (load addrmode6dup:$addr)))),		def : Pat<(v2f32 (ARMvdup (f32 (load addrmode6dup:$addr)))),
(VLD1DUPd32 addrmode6:$addr)>;		(VLD1DUPd32 addrmode6:$addr)>;
}		}

class VLD1QDUP<bits<4> op7_4, string Dt, ValueType Ty, PatFrag LoadOp,		class VLD1QDUP<bits<4> op7_4, string Dt, ValueType Ty, PatFrag LoadOp,
Operand AddrMode>		Operand AddrMode>
: NLdSt<1, 0b10, 0b1100, op7_4, (outs VecListDPairAllLanes:$Vd),		: NLdSt<1, 0b10, 0b1100, op7_4, (outs VecListDPairAllLanes:$Vd),
(ins AddrMode:$Rn), IIC_VLD1dup,		(ins AddrMode:$Rn), IIC_VLD1dup,
"vld1", Dt, "$Vd, $Rn", "",		"vld1", Dt, "$Vd, $Rn", "",
[(set VecListDPairAllLanes:$Vd,		[(set VecListDPairAllLanes:$Vd,
(Ty (NEONvdup (i32 (LoadOp AddrMode:$Rn)))))]> {		(Ty (ARMvdup (i32 (LoadOp AddrMode:$Rn)))))]> {
let Rm = 0b1111;		let Rm = 0b1111;
let Inst{4} = Rn{4};		let Inst{4} = Rn{4};
let DecoderMethod = "DecodeVLD1DupInstruction";		let DecoderMethod = "DecodeVLD1DupInstruction";
}		}

def VLD1DUPq8 : VLD1QDUP<{0,0,1,0}, "8", v16i8, extloadi8,		def VLD1DUPq8 : VLD1QDUP<{0,0,1,0}, "8", v16i8, extloadi8,
addrmode6dupalignNone>;		addrmode6dupalignNone>;
def VLD1DUPq16 : VLD1QDUP<{0,1,1,?}, "16", v8i16, extloadi16,		def VLD1DUPq16 : VLD1QDUP<{0,1,1,?}, "16", v8i16, extloadi16,
addrmode6dupalign16>;		addrmode6dupalign16>;
def VLD1DUPq32 : VLD1QDUP<{1,0,1,?}, "32", v4i32, load,		def VLD1DUPq32 : VLD1QDUP<{1,0,1,?}, "32", v4i32, load,
addrmode6dupalign32>;		addrmode6dupalign32>;

let Predicates = [HasNEON] in {		let Predicates = [HasNEON] in {
def : Pat<(v4f32 (NEONvdup (f32 (load addrmode6dup:$addr)))),		def : Pat<(v4f32 (ARMvdup (f32 (load addrmode6dup:$addr)))),
(VLD1DUPq32 addrmode6:$addr)>;		(VLD1DUPq32 addrmode6:$addr)>;
}		}

let mayLoad = 1, hasSideEffects = 0, hasExtraDefRegAllocReq = 1 in {		let mayLoad = 1, hasSideEffects = 0, hasExtraDefRegAllocReq = 1 in {
// ...with address register writeback:		// ...with address register writeback:
multiclass VLD1DUPWB<bits<4> op7_4, string Dt, Operand AddrMode> {		multiclass VLD1DUPWB<bits<4> op7_4, string Dt, Operand AddrMode> {
def _fixed : NLdSt<1, 0b10, 0b1100, op7_4,		def _fixed : NLdSt<1, 0b10, 0b1100, op7_4,
(outs VecListOneDAllLanes:$Vd, GPR:$wb),		(outs VecListOneDAllLanes:$Vd, GPR:$wb),
▲ Show 20 Lines • Show All 697 Lines • ▼ Show 20 Lines
}		}
class VST1QLNPseudo<ValueType Ty, PatFrag StoreOp, SDNode ExtractOp>		class VST1QLNPseudo<ValueType Ty, PatFrag StoreOp, SDNode ExtractOp>
: VSTQLNPseudo<IIC_VST1ln>, Sched<[WriteVST1]> {		: VSTQLNPseudo<IIC_VST1ln>, Sched<[WriteVST1]> {
let Pattern = [(StoreOp (ExtractOp (Ty QPR:$src), imm:$lane),		let Pattern = [(StoreOp (ExtractOp (Ty QPR:$src), imm:$lane),
addrmode6:$addr)];		addrmode6:$addr)];
}		}

def VST1LNd8 : VST1LN<0b0000, {?,?,?,0}, "8", v8i8, truncstorei8,		def VST1LNd8 : VST1LN<0b0000, {?,?,?,0}, "8", v8i8, truncstorei8,
NEONvgetlaneu, addrmode6> {		ARMvgetlaneu, addrmode6> {
let Inst{7-5} = lane{2-0};		let Inst{7-5} = lane{2-0};
}		}
def VST1LNd16 : VST1LN<0b0100, {?,?,0,?}, "16", v4i16, truncstorei16,		def VST1LNd16 : VST1LN<0b0100, {?,?,0,?}, "16", v4i16, truncstorei16,
NEONvgetlaneu, addrmode6> {		ARMvgetlaneu, addrmode6> {
let Inst{7-6} = lane{1-0};		let Inst{7-6} = lane{1-0};
let Inst{4} = Rn{4};		let Inst{4} = Rn{4};
}		}

def VST1LNd32 : VST1LN<0b1000, {?,0,?,?}, "32", v2i32, store, extractelt,		def VST1LNd32 : VST1LN<0b1000, {?,0,?,?}, "32", v2i32, store, extractelt,
addrmode6oneL32> {		addrmode6oneL32> {
let Inst{7} = lane{0};		let Inst{7} = lane{0};
let Inst{5-4} = Rn{5-4};		let Inst{5-4} = Rn{5-4};
}		}

def VST1LNq8Pseudo : VST1QLNPseudo<v16i8, truncstorei8, NEONvgetlaneu>;		def VST1LNq8Pseudo : VST1QLNPseudo<v16i8, truncstorei8, ARMvgetlaneu>;
def VST1LNq16Pseudo : VST1QLNPseudo<v8i16, truncstorei16, NEONvgetlaneu>;		def VST1LNq16Pseudo : VST1QLNPseudo<v8i16, truncstorei16, ARMvgetlaneu>;
def VST1LNq32Pseudo : VST1QLNPseudo<v4i32, store, extractelt>;		def VST1LNq32Pseudo : VST1QLNPseudo<v4i32, store, extractelt>;

let Predicates = [HasNEON] in {		let Predicates = [HasNEON] in {
def : Pat<(store (extractelt (v2f32 DPR:$src), imm:$lane), addrmode6:$addr),		def : Pat<(store (extractelt (v2f32 DPR:$src), imm:$lane), addrmode6:$addr),
(VST1LNd32 addrmode6:$addr, DPR:$src, imm:$lane)>;		(VST1LNd32 addrmode6:$addr, DPR:$src, imm:$lane)>;
def : Pat<(store (extractelt (v4f32 QPR:$src), imm:$lane), addrmode6:$addr),		def : Pat<(store (extractelt (v4f32 QPR:$src), imm:$lane), addrmode6:$addr),
(VST1LNq32Pseudo addrmode6:$addr, QPR:$src, imm:$lane)>;		(VST1LNq32Pseudo addrmode6:$addr, QPR:$src, imm:$lane)>;

Show All 18 Lines
}		}
class VST1QLNWBPseudo<ValueType Ty, PatFrag StoreOp, SDNode ExtractOp>		class VST1QLNWBPseudo<ValueType Ty, PatFrag StoreOp, SDNode ExtractOp>
: VSTQLNWBPseudo<IIC_VST1lnu>, Sched<[WriteVST1]> {		: VSTQLNWBPseudo<IIC_VST1lnu>, Sched<[WriteVST1]> {
let Pattern = [(set GPR:$wb, (StoreOp (ExtractOp (Ty QPR:$src), imm:$lane),		let Pattern = [(set GPR:$wb, (StoreOp (ExtractOp (Ty QPR:$src), imm:$lane),
addrmode6:$addr, am6offset:$offset))];		addrmode6:$addr, am6offset:$offset))];
}		}

def VST1LNd8_UPD : VST1LNWB<0b0000, {?,?,?,0}, "8", v8i8, post_truncsti8,		def VST1LNd8_UPD : VST1LNWB<0b0000, {?,?,?,0}, "8", v8i8, post_truncsti8,
NEONvgetlaneu, addrmode6> {		ARMvgetlaneu, addrmode6> {
let Inst{7-5} = lane{2-0};		let Inst{7-5} = lane{2-0};
}		}
def VST1LNd16_UPD : VST1LNWB<0b0100, {?,?,0,?}, "16", v4i16, post_truncsti16,		def VST1LNd16_UPD : VST1LNWB<0b0100, {?,?,0,?}, "16", v4i16, post_truncsti16,
NEONvgetlaneu, addrmode6> {		ARMvgetlaneu, addrmode6> {
let Inst{7-6} = lane{1-0};		let Inst{7-6} = lane{1-0};
let Inst{4} = Rn{4};		let Inst{4} = Rn{4};
}		}
def VST1LNd32_UPD : VST1LNWB<0b1000, {?,0,?,?}, "32", v2i32, post_store,		def VST1LNd32_UPD : VST1LNWB<0b1000, {?,0,?,?}, "32", v2i32, post_store,
extractelt, addrmode6oneL32> {		extractelt, addrmode6oneL32> {
let Inst{7} = lane{0};		let Inst{7} = lane{0};
let Inst{5-4} = Rn{5-4};		let Inst{5-4} = Rn{5-4};
}		}

def VST1LNq8Pseudo_UPD : VST1QLNWBPseudo<v16i8, post_truncsti8, NEONvgetlaneu>;		def VST1LNq8Pseudo_UPD : VST1QLNWBPseudo<v16i8, post_truncsti8, ARMvgetlaneu>;
def VST1LNq16Pseudo_UPD : VST1QLNWBPseudo<v8i16, post_truncsti16,NEONvgetlaneu>;		def VST1LNq16Pseudo_UPD : VST1QLNWBPseudo<v8i16, post_truncsti16,ARMvgetlaneu>;
def VST1LNq32Pseudo_UPD : VST1QLNWBPseudo<v4i32, post_store, extractelt>;		def VST1LNq32Pseudo_UPD : VST1QLNWBPseudo<v4i32, post_store, extractelt>;

let mayStore = 1, hasSideEffects = 0, hasExtraSrcRegAllocReq = 1 in {		let mayStore = 1, hasSideEffects = 0, hasExtraSrcRegAllocReq = 1 in {

// VST2LN : Vector Store (single 2-element structure from one lane)		// VST2LN : Vector Store (single 2-element structure from one lane)
class VST2LN<bits<4> op11_8, bits<4> op7_4, string Dt>		class VST2LN<bits<4> op11_8, bits<4> op7_4, string Dt>
: NLdStLn<1, 0b00, op11_8, op7_4, (outs),		: NLdStLn<1, 0b00, op11_8, op7_4, (outs),
(ins addrmode6:$Rn, DPR:$Vd, DPR:$src2, nohash_imm:$lane),		(ins addrmode6:$Rn, DPR:$Vd, DPR:$src2, nohash_imm:$lane),
▲ Show 20 Lines • Show All 453 Lines • ▼ Show 20 Lines
class N3VDSL<bits<2> op21_20, bits<4> op11_8,		class N3VDSL<bits<2> op21_20, bits<4> op11_8,
InstrItinClass itin, string OpcodeStr, string Dt,		InstrItinClass itin, string OpcodeStr, string Dt,
ValueType Ty, SDNode ShOp>		ValueType Ty, SDNode ShOp>
: N3VLane32<0, 1, op21_20, op11_8, 1, 0,		: N3VLane32<0, 1, op21_20, op11_8, 1, 0,
(outs DPR:$Vd), (ins DPR:$Vn, DPR_VFP2:$Vm, VectorIndex32:$lane),		(outs DPR:$Vd), (ins DPR:$Vn, DPR_VFP2:$Vm, VectorIndex32:$lane),
NVMulSLFrm, itin, OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "",		NVMulSLFrm, itin, OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "",
[(set (Ty DPR:$Vd),		[(set (Ty DPR:$Vd),
(Ty (ShOp (Ty DPR:$Vn),		(Ty (ShOp (Ty DPR:$Vn),
(Ty (NEONvduplane (Ty DPR_VFP2:$Vm),imm:$lane)))))]> {		(Ty (ARMvduplane (Ty DPR_VFP2:$Vm),imm:$lane)))))]> {
// All of these have a two-operand InstAlias.		// All of these have a two-operand InstAlias.
let TwoOperandAliasConstraint = "$Vn = $Vd";		let TwoOperandAliasConstraint = "$Vn = $Vd";
let isCommutable = 0;		let isCommutable = 0;
}		}
class N3VDSL16<bits<2> op21_20, bits<4> op11_8,		class N3VDSL16<bits<2> op21_20, bits<4> op11_8,
string OpcodeStr, string Dt, ValueType Ty, SDNode ShOp>		string OpcodeStr, string Dt, ValueType Ty, SDNode ShOp>
: N3VLane16<0, 1, op21_20, op11_8, 1, 0,		: N3VLane16<0, 1, op21_20, op11_8, 1, 0,
(outs DPR:$Vd), (ins DPR:$Vn, DPR_8:$Vm, VectorIndex16:$lane),		(outs DPR:$Vd), (ins DPR:$Vn, DPR_8:$Vm, VectorIndex16:$lane),
NVMulSLFrm, IIC_VMULi16D, OpcodeStr, Dt,"$Vd, $Vn, $Vm$lane","",		NVMulSLFrm, IIC_VMULi16D, OpcodeStr, Dt,"$Vd, $Vn, $Vm$lane","",
[(set (Ty DPR:$Vd),		[(set (Ty DPR:$Vd),
(Ty (ShOp (Ty DPR:$Vn),		(Ty (ShOp (Ty DPR:$Vn),
(Ty (NEONvduplane (Ty DPR_8:$Vm), imm:$lane)))))]> {		(Ty (ARMvduplane (Ty DPR_8:$Vm), imm:$lane)))))]> {
// All of these have a two-operand InstAlias.		// All of these have a two-operand InstAlias.
let TwoOperandAliasConstraint = "$Vn = $Vd";		let TwoOperandAliasConstraint = "$Vn = $Vd";
let isCommutable = 0;		let isCommutable = 0;
}		}

class N3VQ<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,		class N3VQ<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
InstrItinClass itin, string OpcodeStr, string Dt,		InstrItinClass itin, string OpcodeStr, string Dt,
ValueType ResTy, ValueType OpTy, SDNode OpNode, bit Commutable>		ValueType ResTy, ValueType OpTy, SDNode OpNode, bit Commutable>
Show All 19 Lines
class N3VQSL<bits<2> op21_20, bits<4> op11_8,		class N3VQSL<bits<2> op21_20, bits<4> op11_8,
InstrItinClass itin, string OpcodeStr, string Dt,		InstrItinClass itin, string OpcodeStr, string Dt,
ValueType ResTy, ValueType OpTy, SDNode ShOp>		ValueType ResTy, ValueType OpTy, SDNode ShOp>
: N3VLane32<1, 1, op21_20, op11_8, 1, 0,		: N3VLane32<1, 1, op21_20, op11_8, 1, 0,
(outs QPR:$Vd), (ins QPR:$Vn, DPR_VFP2:$Vm, VectorIndex32:$lane),		(outs QPR:$Vd), (ins QPR:$Vn, DPR_VFP2:$Vm, VectorIndex32:$lane),
NVMulSLFrm, itin, OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "",		NVMulSLFrm, itin, OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "",
[(set (ResTy QPR:$Vd),		[(set (ResTy QPR:$Vd),
(ResTy (ShOp (ResTy QPR:$Vn),		(ResTy (ShOp (ResTy QPR:$Vn),
(ResTy (NEONvduplane (OpTy DPR_VFP2:$Vm),		(ResTy (ARMvduplane (OpTy DPR_VFP2:$Vm),
imm:$lane)))))]> {		imm:$lane)))))]> {
// All of these have a two-operand InstAlias.		// All of these have a two-operand InstAlias.
let TwoOperandAliasConstraint = "$Vn = $Vd";		let TwoOperandAliasConstraint = "$Vn = $Vd";
let isCommutable = 0;		let isCommutable = 0;
}		}
class N3VQSL16<bits<2> op21_20, bits<4> op11_8, string OpcodeStr, string Dt,		class N3VQSL16<bits<2> op21_20, bits<4> op11_8, string OpcodeStr, string Dt,
ValueType ResTy, ValueType OpTy, SDNode ShOp>		ValueType ResTy, ValueType OpTy, SDNode ShOp>
: N3VLane16<1, 1, op21_20, op11_8, 1, 0,		: N3VLane16<1, 1, op21_20, op11_8, 1, 0,
(outs QPR:$Vd), (ins QPR:$Vn, DPR_8:$Vm, VectorIndex16:$lane),		(outs QPR:$Vd), (ins QPR:$Vn, DPR_8:$Vm, VectorIndex16:$lane),
NVMulSLFrm, IIC_VMULi16Q, OpcodeStr, Dt,"$Vd, $Vn, $Vm$lane", "",		NVMulSLFrm, IIC_VMULi16Q, OpcodeStr, Dt,"$Vd, $Vn, $Vm$lane", "",
[(set (ResTy QPR:$Vd),		[(set (ResTy QPR:$Vd),
(ResTy (ShOp (ResTy QPR:$Vn),		(ResTy (ShOp (ResTy QPR:$Vn),
(ResTy (NEONvduplane (OpTy DPR_8:$Vm),		(ResTy (ARMvduplane (OpTy DPR_8:$Vm),
imm:$lane)))))]> {		imm:$lane)))))]> {
// All of these have a two-operand InstAlias.		// All of these have a two-operand InstAlias.
let TwoOperandAliasConstraint = "$Vn = $Vd";		let TwoOperandAliasConstraint = "$Vn = $Vd";
let isCommutable = 0;		let isCommutable = 0;
}		}

// Basic 3-register intrinsics, both double- and quad-register.		// Basic 3-register intrinsics, both double- and quad-register.
class N3VDInt<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,		class N3VDInt<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
Show All 18 Lines

class N3VDIntSL<bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,		class N3VDIntSL<bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,
string OpcodeStr, string Dt, ValueType Ty, SDPatternOperator IntOp>		string OpcodeStr, string Dt, ValueType Ty, SDPatternOperator IntOp>
: N3VLane32<0, 1, op21_20, op11_8, 1, 0,		: N3VLane32<0, 1, op21_20, op11_8, 1, 0,
(outs DPR:$Vd), (ins DPR:$Vn, DPR_VFP2:$Vm, VectorIndex32:$lane),		(outs DPR:$Vd), (ins DPR:$Vn, DPR_VFP2:$Vm, VectorIndex32:$lane),
NVMulSLFrm, itin, OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "",		NVMulSLFrm, itin, OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "",
[(set (Ty DPR:$Vd),		[(set (Ty DPR:$Vd),
(Ty (IntOp (Ty DPR:$Vn),		(Ty (IntOp (Ty DPR:$Vn),
(Ty (NEONvduplane (Ty DPR_VFP2:$Vm),		(Ty (ARMvduplane (Ty DPR_VFP2:$Vm),
imm:$lane)))))]> {		imm:$lane)))))]> {
let isCommutable = 0;		let isCommutable = 0;
}		}

class N3VDIntSL16<bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,		class N3VDIntSL16<bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,
string OpcodeStr, string Dt, ValueType Ty, SDPatternOperator IntOp>		string OpcodeStr, string Dt, ValueType Ty, SDPatternOperator IntOp>
: N3VLane16<0, 1, op21_20, op11_8, 1, 0,		: N3VLane16<0, 1, op21_20, op11_8, 1, 0,
(outs DPR:$Vd), (ins DPR:$Vn, DPR_8:$Vm, VectorIndex16:$lane),		(outs DPR:$Vd), (ins DPR:$Vn, DPR_8:$Vm, VectorIndex16:$lane),
NVMulSLFrm, itin, OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "",		NVMulSLFrm, itin, OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "",
[(set (Ty DPR:$Vd),		[(set (Ty DPR:$Vd),
(Ty (IntOp (Ty DPR:$Vn),		(Ty (IntOp (Ty DPR:$Vn),
(Ty (NEONvduplane (Ty DPR_8:$Vm), imm:$lane)))))]> {		(Ty (ARMvduplane (Ty DPR_8:$Vm), imm:$lane)))))]> {
let isCommutable = 0;		let isCommutable = 0;
}		}
class N3VDIntSh<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,		class N3VDIntSh<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
Format f, InstrItinClass itin, string OpcodeStr, string Dt,		Format f, InstrItinClass itin, string OpcodeStr, string Dt,
ValueType ResTy, ValueType OpTy, SDPatternOperator IntOp>		ValueType ResTy, ValueType OpTy, SDPatternOperator IntOp>
: N3V<op24, op23, op21_20, op11_8, 0, op4,		: N3V<op24, op23, op21_20, op11_8, 0, op4,
(outs DPR:$Vd), (ins DPR:$Vm, DPR:$Vn), f, itin,		(outs DPR:$Vd), (ins DPR:$Vm, DPR:$Vn), f, itin,
OpcodeStr, Dt, "$Vd, $Vm, $Vn", "",		OpcodeStr, Dt, "$Vd, $Vm, $Vn", "",
Show All 38 Lines
class N3VQIntSL<bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,		class N3VQIntSL<bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,
string OpcodeStr, string Dt,		string OpcodeStr, string Dt,
ValueType ResTy, ValueType OpTy, SDPatternOperator IntOp>		ValueType ResTy, ValueType OpTy, SDPatternOperator IntOp>
: N3VLane32<1, 1, op21_20, op11_8, 1, 0,		: N3VLane32<1, 1, op21_20, op11_8, 1, 0,
(outs QPR:$Vd), (ins QPR:$Vn, DPR_VFP2:$Vm, VectorIndex32:$lane),		(outs QPR:$Vd), (ins QPR:$Vn, DPR_VFP2:$Vm, VectorIndex32:$lane),
NVMulSLFrm, itin, OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "",		NVMulSLFrm, itin, OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "",
[(set (ResTy QPR:$Vd),		[(set (ResTy QPR:$Vd),
(ResTy (IntOp (ResTy QPR:$Vn),		(ResTy (IntOp (ResTy QPR:$Vn),
(ResTy (NEONvduplane (OpTy DPR_VFP2:$Vm),		(ResTy (ARMvduplane (OpTy DPR_VFP2:$Vm),
imm:$lane)))))]> {		imm:$lane)))))]> {
let isCommutable = 0;		let isCommutable = 0;
}		}
class N3VQIntSL16<bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,		class N3VQIntSL16<bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,
string OpcodeStr, string Dt,		string OpcodeStr, string Dt,
ValueType ResTy, ValueType OpTy, SDPatternOperator IntOp>		ValueType ResTy, ValueType OpTy, SDPatternOperator IntOp>
: N3VLane16<1, 1, op21_20, op11_8, 1, 0,		: N3VLane16<1, 1, op21_20, op11_8, 1, 0,
(outs QPR:$Vd), (ins QPR:$Vn, DPR_8:$Vm, VectorIndex16:$lane),		(outs QPR:$Vd), (ins QPR:$Vn, DPR_8:$Vm, VectorIndex16:$lane),
NVMulSLFrm, itin, OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "",		NVMulSLFrm, itin, OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "",
[(set (ResTy QPR:$Vd),		[(set (ResTy QPR:$Vd),
(ResTy (IntOp (ResTy QPR:$Vn),		(ResTy (IntOp (ResTy QPR:$Vn),
(ResTy (NEONvduplane (OpTy DPR_8:$Vm),		(ResTy (ARMvduplane (OpTy DPR_8:$Vm),
imm:$lane)))))]> {		imm:$lane)))))]> {
let isCommutable = 0;		let isCommutable = 0;
}		}
class N3VQIntSh<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,		class N3VQIntSh<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
Format f, InstrItinClass itin, string OpcodeStr, string Dt,		Format f, InstrItinClass itin, string OpcodeStr, string Dt,
ValueType ResTy, ValueType OpTy, SDPatternOperator IntOp>		ValueType ResTy, ValueType OpTy, SDPatternOperator IntOp>
: N3V<op24, op23, op21_20, op11_8, 1, op4,		: N3V<op24, op23, op21_20, op11_8, 1, op4,
(outs QPR:$Vd), (ins QPR:$Vm, QPR:$Vn), f, itin,		(outs QPR:$Vd), (ins QPR:$Vm, QPR:$Vn), f, itin,
Show All 19 Lines	class N3VDMulOpSL<bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,
: N3VLane32<0, 1, op21_20, op11_8, 1, 0,		: N3VLane32<0, 1, op21_20, op11_8, 1, 0,
(outs DPR:$Vd),		(outs DPR:$Vd),
(ins DPR:$src1, DPR:$Vn, DPR_VFP2:$Vm, VectorIndex32:$lane),		(ins DPR:$src1, DPR:$Vn, DPR_VFP2:$Vm, VectorIndex32:$lane),
NVMulSLFrm, itin,		NVMulSLFrm, itin,
OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "$src1 = $Vd",		OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "$src1 = $Vd",
[(set (Ty DPR:$Vd),		[(set (Ty DPR:$Vd),
(Ty (ShOp (Ty DPR:$src1),		(Ty (ShOp (Ty DPR:$src1),
(Ty (MulOp DPR:$Vn,		(Ty (MulOp DPR:$Vn,
(Ty (NEONvduplane (Ty DPR_VFP2:$Vm),		(Ty (ARMvduplane (Ty DPR_VFP2:$Vm),
imm:$lane)))))))]>;		imm:$lane)))))))]>;
class N3VDMulOpSL16<bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,		class N3VDMulOpSL16<bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,
string OpcodeStr, string Dt,		string OpcodeStr, string Dt,
ValueType Ty, SDPatternOperator MulOp, SDPatternOperator ShOp>		ValueType Ty, SDPatternOperator MulOp, SDPatternOperator ShOp>
: N3VLane16<0, 1, op21_20, op11_8, 1, 0,		: N3VLane16<0, 1, op21_20, op11_8, 1, 0,
(outs DPR:$Vd),		(outs DPR:$Vd),
(ins DPR:$src1, DPR:$Vn, DPR_8:$Vm, VectorIndex16:$lane),		(ins DPR:$src1, DPR:$Vn, DPR_8:$Vm, VectorIndex16:$lane),
NVMulSLFrm, itin,		NVMulSLFrm, itin,
OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "$src1 = $Vd",		OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "$src1 = $Vd",
[(set (Ty DPR:$Vd),		[(set (Ty DPR:$Vd),
(Ty (ShOp (Ty DPR:$src1),		(Ty (ShOp (Ty DPR:$src1),
(Ty (MulOp DPR:$Vn,		(Ty (MulOp DPR:$Vn,
(Ty (NEONvduplane (Ty DPR_8:$Vm),		(Ty (ARMvduplane (Ty DPR_8:$Vm),
imm:$lane)))))))]>;		imm:$lane)))))))]>;

class N3VQMulOp<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,		class N3VQMulOp<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
InstrItinClass itin, string OpcodeStr, string Dt, ValueType Ty,		InstrItinClass itin, string OpcodeStr, string Dt, ValueType Ty,
SDPatternOperator MulOp, SDPatternOperator OpNode>		SDPatternOperator MulOp, SDPatternOperator OpNode>
: N3V<op24, op23, op21_20, op11_8, 1, op4,		: N3V<op24, op23, op21_20, op11_8, 1, op4,
(outs QPR:$Vd), (ins QPR:$src1, QPR:$Vn, QPR:$Vm), N3RegFrm, itin,		(outs QPR:$Vd), (ins QPR:$src1, QPR:$Vn, QPR:$Vm), N3RegFrm, itin,
OpcodeStr, Dt, "$Vd, $Vn, $Vm", "$src1 = $Vd",		OpcodeStr, Dt, "$Vd, $Vn, $Vm", "$src1 = $Vd",
[(set QPR:$Vd, (Ty (OpNode QPR:$src1,		[(set QPR:$Vd, (Ty (OpNode QPR:$src1,
(Ty (MulOp QPR:$Vn, QPR:$Vm)))))]>;		(Ty (MulOp QPR:$Vn, QPR:$Vm)))))]>;
class N3VQMulOpSL<bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,		class N3VQMulOpSL<bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,
string OpcodeStr, string Dt, ValueType ResTy, ValueType OpTy,		string OpcodeStr, string Dt, ValueType ResTy, ValueType OpTy,
SDPatternOperator MulOp, SDPatternOperator ShOp>		SDPatternOperator MulOp, SDPatternOperator ShOp>
: N3VLane32<1, 1, op21_20, op11_8, 1, 0,		: N3VLane32<1, 1, op21_20, op11_8, 1, 0,
(outs QPR:$Vd),		(outs QPR:$Vd),
(ins QPR:$src1, QPR:$Vn, DPR_VFP2:$Vm, VectorIndex32:$lane),		(ins QPR:$src1, QPR:$Vn, DPR_VFP2:$Vm, VectorIndex32:$lane),
NVMulSLFrm, itin,		NVMulSLFrm, itin,
OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "$src1 = $Vd",		OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "$src1 = $Vd",
[(set (ResTy QPR:$Vd),		[(set (ResTy QPR:$Vd),
(ResTy (ShOp (ResTy QPR:$src1),		(ResTy (ShOp (ResTy QPR:$src1),
(ResTy (MulOp QPR:$Vn,		(ResTy (MulOp QPR:$Vn,
(ResTy (NEONvduplane (OpTy DPR_VFP2:$Vm),		(ResTy (ARMvduplane (OpTy DPR_VFP2:$Vm),
imm:$lane)))))))]>;		imm:$lane)))))))]>;
class N3VQMulOpSL16<bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,		class N3VQMulOpSL16<bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,
string OpcodeStr, string Dt,		string OpcodeStr, string Dt,
ValueType ResTy, ValueType OpTy,		ValueType ResTy, ValueType OpTy,
SDPatternOperator MulOp, SDPatternOperator ShOp>		SDPatternOperator MulOp, SDPatternOperator ShOp>
: N3VLane16<1, 1, op21_20, op11_8, 1, 0,		: N3VLane16<1, 1, op21_20, op11_8, 1, 0,
(outs QPR:$Vd),		(outs QPR:$Vd),
(ins QPR:$src1, QPR:$Vn, DPR_8:$Vm, VectorIndex16:$lane),		(ins QPR:$src1, QPR:$Vn, DPR_8:$Vm, VectorIndex16:$lane),
NVMulSLFrm, itin,		NVMulSLFrm, itin,
OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "$src1 = $Vd",		OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "$src1 = $Vd",
[(set (ResTy QPR:$Vd),		[(set (ResTy QPR:$Vd),
(ResTy (ShOp (ResTy QPR:$src1),		(ResTy (ShOp (ResTy QPR:$src1),
(ResTy (MulOp QPR:$Vn,		(ResTy (MulOp QPR:$Vn,
(ResTy (NEONvduplane (OpTy DPR_8:$Vm),		(ResTy (ARMvduplane (OpTy DPR_8:$Vm),
imm:$lane)))))))]>;		imm:$lane)))))))]>;

// Neon Intrinsic-Op instructions (VABA): double- and quad-register.		// Neon Intrinsic-Op instructions (VABA): double- and quad-register.
class N3VDIntOp<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,		class N3VDIntOp<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
InstrItinClass itin, string OpcodeStr, string Dt,		InstrItinClass itin, string OpcodeStr, string Dt,
ValueType Ty, SDPatternOperator IntOp, SDNode OpNode>		ValueType Ty, SDPatternOperator IntOp, SDNode OpNode>
: N3V<op24, op23, op21_20, op11_8, 0, op4,		: N3V<op24, op23, op21_20, op11_8, 0, op4,
(outs DPR:$Vd), (ins DPR:$src1, DPR:$Vn, DPR:$Vm), N3RegFrm, itin,		(outs DPR:$Vd), (ins DPR:$src1, DPR:$Vn, DPR:$Vm), N3RegFrm, itin,
▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines	class N3VLMulOpSL<bit op24, bits<2> op21_20, bits<4> op11_8,
ValueType TyQ, ValueType TyD, SDNode MulOp, SDNode OpNode>		ValueType TyQ, ValueType TyD, SDNode MulOp, SDNode OpNode>
: N3VLane32<op24, 1, op21_20, op11_8, 1, 0, (outs QPR:$Vd),		: N3VLane32<op24, 1, op21_20, op11_8, 1, 0, (outs QPR:$Vd),
(ins QPR:$src1, DPR:$Vn, DPR_VFP2:$Vm, VectorIndex32:$lane),		(ins QPR:$src1, DPR:$Vn, DPR_VFP2:$Vm, VectorIndex32:$lane),
NVMulSLFrm, itin,		NVMulSLFrm, itin,
OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "$src1 = $Vd",		OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "$src1 = $Vd",
[(set QPR:$Vd,		[(set QPR:$Vd,
(OpNode (TyQ QPR:$src1),		(OpNode (TyQ QPR:$src1),
(TyQ (MulOp (TyD DPR:$Vn),		(TyQ (MulOp (TyD DPR:$Vn),
(TyD (NEONvduplane (TyD DPR_VFP2:$Vm),		(TyD (ARMvduplane (TyD DPR_VFP2:$Vm),
imm:$lane))))))]>;		imm:$lane))))))]>;
class N3VLMulOpSL16<bit op24, bits<2> op21_20, bits<4> op11_8,		class N3VLMulOpSL16<bit op24, bits<2> op21_20, bits<4> op11_8,
InstrItinClass itin, string OpcodeStr, string Dt,		InstrItinClass itin, string OpcodeStr, string Dt,
ValueType TyQ, ValueType TyD, SDNode MulOp, SDNode OpNode>		ValueType TyQ, ValueType TyD, SDNode MulOp, SDNode OpNode>
: N3VLane16<op24, 1, op21_20, op11_8, 1, 0, (outs QPR:$Vd),		: N3VLane16<op24, 1, op21_20, op11_8, 1, 0, (outs QPR:$Vd),
(ins QPR:$src1, DPR:$Vn, DPR_8:$Vm, VectorIndex16:$lane),		(ins QPR:$src1, DPR:$Vn, DPR_8:$Vm, VectorIndex16:$lane),
NVMulSLFrm, itin,		NVMulSLFrm, itin,
OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "$src1 = $Vd",		OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "$src1 = $Vd",
[(set QPR:$Vd,		[(set QPR:$Vd,
(OpNode (TyQ QPR:$src1),		(OpNode (TyQ QPR:$src1),
(TyQ (MulOp (TyD DPR:$Vn),		(TyQ (MulOp (TyD DPR:$Vn),
(TyD (NEONvduplane (TyD DPR_8:$Vm),		(TyD (ARMvduplane (TyD DPR_8:$Vm),
imm:$lane))))))]>;		imm:$lane))))))]>;

// Long Intrinsic-Op vector operations with explicit extend (VABAL).		// Long Intrinsic-Op vector operations with explicit extend (VABAL).
class N3VLIntExtOp<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,		class N3VLIntExtOp<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
InstrItinClass itin, string OpcodeStr, string Dt,		InstrItinClass itin, string OpcodeStr, string Dt,
ValueType TyQ, ValueType TyD, SDPatternOperator IntOp, SDNode ExtOp,		ValueType TyQ, ValueType TyD, SDPatternOperator IntOp, SDNode ExtOp,
SDNode OpNode>		SDNode OpNode>
: N3V<op24, op23, op21_20, op11_8, 0, op4,		: N3V<op24, op23, op21_20, op11_8, 0, op4,
Show All 19 Lines	class N3VLInt3SL<bit op24, bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,
: N3VLane32<op24, 1, op21_20, op11_8, 1, 0,		: N3VLane32<op24, 1, op21_20, op11_8, 1, 0,
(outs QPR:$Vd),		(outs QPR:$Vd),
(ins QPR:$src1, DPR:$Vn, DPR_VFP2:$Vm, VectorIndex32:$lane),		(ins QPR:$src1, DPR:$Vn, DPR_VFP2:$Vm, VectorIndex32:$lane),
NVMulSLFrm, itin,		NVMulSLFrm, itin,
OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "$src1 = $Vd",		OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "$src1 = $Vd",
[(set (ResTy QPR:$Vd),		[(set (ResTy QPR:$Vd),
(ResTy (IntOp (ResTy QPR:$src1),		(ResTy (IntOp (ResTy QPR:$src1),
(OpTy DPR:$Vn),		(OpTy DPR:$Vn),
(OpTy (NEONvduplane (OpTy DPR_VFP2:$Vm),		(OpTy (ARMvduplane (OpTy DPR_VFP2:$Vm),
imm:$lane)))))]>;		imm:$lane)))))]>;
class N3VLInt3SL16<bit op24, bits<2> op21_20, bits<4> op11_8,		class N3VLInt3SL16<bit op24, bits<2> op21_20, bits<4> op11_8,
InstrItinClass itin, string OpcodeStr, string Dt,		InstrItinClass itin, string OpcodeStr, string Dt,
ValueType ResTy, ValueType OpTy, SDPatternOperator IntOp>		ValueType ResTy, ValueType OpTy, SDPatternOperator IntOp>
: N3VLane16<op24, 1, op21_20, op11_8, 1, 0,		: N3VLane16<op24, 1, op21_20, op11_8, 1, 0,
(outs QPR:$Vd),		(outs QPR:$Vd),
(ins QPR:$src1, DPR:$Vn, DPR_8:$Vm, VectorIndex16:$lane),		(ins QPR:$src1, DPR:$Vn, DPR_8:$Vm, VectorIndex16:$lane),
NVMulSLFrm, itin,		NVMulSLFrm, itin,
OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "$src1 = $Vd",		OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "$src1 = $Vd",
[(set (ResTy QPR:$Vd),		[(set (ResTy QPR:$Vd),
(ResTy (IntOp (ResTy QPR:$src1),		(ResTy (IntOp (ResTy QPR:$src1),
(OpTy DPR:$Vn),		(OpTy DPR:$Vn),
(OpTy (NEONvduplane (OpTy DPR_8:$Vm),		(OpTy (ARMvduplane (OpTy DPR_8:$Vm),
imm:$lane)))))]>;		imm:$lane)))))]>;

// Narrowing 3-register intrinsics.		// Narrowing 3-register intrinsics.
class N3VNInt<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,		class N3VNInt<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
string OpcodeStr, string Dt, ValueType TyD, ValueType TyQ,		string OpcodeStr, string Dt, ValueType TyD, ValueType TyQ,
SDPatternOperator IntOp, bit Commutable>		SDPatternOperator IntOp, bit Commutable>
: N3V<op24, op23, op21_20, op11_8, 0, op4,		: N3V<op24, op23, op21_20, op11_8, 0, op4,
(outs DPR:$Vd), (ins QPR:$Vn, QPR:$Vm), N3RegFrm, IIC_VBINi4D,		(outs DPR:$Vd), (ins QPR:$Vn, QPR:$Vm), N3RegFrm, IIC_VBINi4D,
Show All 16 Lines
class N3VLSL<bit op24, bits<2> op21_20, bits<4> op11_8,		class N3VLSL<bit op24, bits<2> op21_20, bits<4> op11_8,
InstrItinClass itin, string OpcodeStr, string Dt,		InstrItinClass itin, string OpcodeStr, string Dt,
ValueType TyQ, ValueType TyD, SDNode OpNode>		ValueType TyQ, ValueType TyD, SDNode OpNode>
: N3VLane32<op24, 1, op21_20, op11_8, 1, 0,		: N3VLane32<op24, 1, op21_20, op11_8, 1, 0,
(outs QPR:$Vd), (ins DPR:$Vn, DPR_VFP2:$Vm, VectorIndex32:$lane),		(outs QPR:$Vd), (ins DPR:$Vn, DPR_VFP2:$Vm, VectorIndex32:$lane),
NVMulSLFrm, itin, OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "",		NVMulSLFrm, itin, OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "",
[(set QPR:$Vd,		[(set QPR:$Vd,
(TyQ (OpNode (TyD DPR:$Vn),		(TyQ (OpNode (TyD DPR:$Vn),
(TyD (NEONvduplane (TyD DPR_VFP2:$Vm),imm:$lane)))))]>;		(TyD (ARMvduplane (TyD DPR_VFP2:$Vm),imm:$lane)))))]>;
class N3VLSL16<bit op24, bits<2> op21_20, bits<4> op11_8,		class N3VLSL16<bit op24, bits<2> op21_20, bits<4> op11_8,
InstrItinClass itin, string OpcodeStr, string Dt,		InstrItinClass itin, string OpcodeStr, string Dt,
ValueType TyQ, ValueType TyD, SDNode OpNode>		ValueType TyQ, ValueType TyD, SDNode OpNode>
: N3VLane16<op24, 1, op21_20, op11_8, 1, 0,		: N3VLane16<op24, 1, op21_20, op11_8, 1, 0,
(outs QPR:$Vd), (ins DPR:$Vn, DPR_8:$Vm, VectorIndex16:$lane),		(outs QPR:$Vd), (ins DPR:$Vn, DPR_8:$Vm, VectorIndex16:$lane),
NVMulSLFrm, itin, OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "",		NVMulSLFrm, itin, OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "",
[(set QPR:$Vd,		[(set QPR:$Vd,
(TyQ (OpNode (TyD DPR:$Vn),		(TyQ (OpNode (TyD DPR:$Vn),
(TyD (NEONvduplane (TyD DPR_8:$Vm), imm:$lane)))))]>;		(TyD (ARMvduplane (TyD DPR_8:$Vm), imm:$lane)))))]>;

// Long 3-register operations with explicitly extended operands.		// Long 3-register operations with explicitly extended operands.
class N3VLExt<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,		class N3VLExt<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
InstrItinClass itin, string OpcodeStr, string Dt,		InstrItinClass itin, string OpcodeStr, string Dt,
ValueType TyQ, ValueType TyD, SDNode OpNode, SDNode ExtOp,		ValueType TyQ, ValueType TyD, SDNode OpNode, SDNode ExtOp,
bit Commutable>		bit Commutable>
: N3V<op24, op23, op21_20, op11_8, 0, op4,		: N3V<op24, op23, op21_20, op11_8, 0, op4,
(outs QPR:$Vd), (ins DPR:$Vn, DPR:$Vm), N3RegFrm, itin,		(outs QPR:$Vd), (ins DPR:$Vn, DPR:$Vm), N3RegFrm, itin,
Show All 39 Lines
class N3VLIntSL<bit op24, bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,		class N3VLIntSL<bit op24, bits<2> op21_20, bits<4> op11_8, InstrItinClass itin,
string OpcodeStr, string Dt,		string OpcodeStr, string Dt,
ValueType ResTy, ValueType OpTy, SDPatternOperator IntOp>		ValueType ResTy, ValueType OpTy, SDPatternOperator IntOp>
: N3VLane32<op24, 1, op21_20, op11_8, 1, 0,		: N3VLane32<op24, 1, op21_20, op11_8, 1, 0,
(outs QPR:$Vd), (ins DPR:$Vn, DPR_VFP2:$Vm, VectorIndex32:$lane),		(outs QPR:$Vd), (ins DPR:$Vn, DPR_VFP2:$Vm, VectorIndex32:$lane),
NVMulSLFrm, itin, OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "",		NVMulSLFrm, itin, OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "",
[(set (ResTy QPR:$Vd),		[(set (ResTy QPR:$Vd),
(ResTy (IntOp (OpTy DPR:$Vn),		(ResTy (IntOp (OpTy DPR:$Vn),
(OpTy (NEONvduplane (OpTy DPR_VFP2:$Vm),		(OpTy (ARMvduplane (OpTy DPR_VFP2:$Vm),
imm:$lane)))))]>;		imm:$lane)))))]>;
class N3VLIntSL16<bit op24, bits<2> op21_20, bits<4> op11_8,		class N3VLIntSL16<bit op24, bits<2> op21_20, bits<4> op11_8,
InstrItinClass itin, string OpcodeStr, string Dt,		InstrItinClass itin, string OpcodeStr, string Dt,
ValueType ResTy, ValueType OpTy, SDPatternOperator IntOp>		ValueType ResTy, ValueType OpTy, SDPatternOperator IntOp>
: N3VLane16<op24, 1, op21_20, op11_8, 1, 0,		: N3VLane16<op24, 1, op21_20, op11_8, 1, 0,
(outs QPR:$Vd), (ins DPR:$Vn, DPR_8:$Vm, VectorIndex16:$lane),		(outs QPR:$Vd), (ins DPR:$Vn, DPR_8:$Vm, VectorIndex16:$lane),
NVMulSLFrm, itin, OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "",		NVMulSLFrm, itin, OpcodeStr, Dt, "$Vd, $Vn, $Vm$lane", "",
[(set (ResTy QPR:$Vd),		[(set (ResTy QPR:$Vd),
(ResTy (IntOp (OpTy DPR:$Vn),		(ResTy (IntOp (OpTy DPR:$Vn),
(OpTy (NEONvduplane (OpTy DPR_8:$Vm),		(OpTy (ARMvduplane (OpTy DPR_8:$Vm),
imm:$lane)))))]>;		imm:$lane)))))]>;

// Wide 3-register operations.		// Wide 3-register operations.
class N3VW<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,		class N3VW<bit op24, bit op23, bits<2> op21_20, bits<4> op11_8, bit op4,
string OpcodeStr, string Dt, ValueType TyQ, ValueType TyD,		string OpcodeStr, string Dt, ValueType TyQ, ValueType TyD,
SDNode OpNode, SDNode ExtOp, bit Commutable>		SDNode OpNode, SDNode ExtOp, bit Commutable>
: N3V<op24, op23, op21_20, op11_8, 0, op4,		: N3V<op24, op23, op21_20, op11_8, 0, op4,
(outs QPR:$Vd), (ins QPR:$Vn, DPR:$Vm), N3RegFrm, IIC_VSUBiD,		(outs QPR:$Vd), (ins QPR:$Vn, DPR:$Vm), N3RegFrm, IIC_VSUBiD,
▲ Show 20 Lines • Show All 1,119 Lines • ▼ Show 20 Lines
def VMULslhd : N3VDSL16<0b01, 0b1001, "vmul", "f16", v4f16, fmul>,		def VMULslhd : N3VDSL16<0b01, 0b1001, "vmul", "f16", v4f16, fmul>,
Requires<[HasNEON,HasFullFP16]>;		Requires<[HasNEON,HasFullFP16]>;
def VMULslhq : N3VQSL16<0b01, 0b1001, "vmul", "f16", v8f16,		def VMULslhq : N3VQSL16<0b01, 0b1001, "vmul", "f16", v8f16,
v4f16, fmul>,		v4f16, fmul>,
Requires<[HasNEON,HasFullFP16]>;		Requires<[HasNEON,HasFullFP16]>;

let Predicates = [HasNEON] in {		let Predicates = [HasNEON] in {
def : Pat<(v8i16 (mul (v8i16 QPR:$src1),		def : Pat<(v8i16 (mul (v8i16 QPR:$src1),
(v8i16 (NEONvduplane (v8i16 QPR:$src2), imm:$lane)))),		(v8i16 (ARMvduplane (v8i16 QPR:$src2), imm:$lane)))),
(v8i16 (VMULslv8i16 (v8i16 QPR:$src1),		(v8i16 (VMULslv8i16 (v8i16 QPR:$src1),
(v4i16 (EXTRACT_SUBREG QPR:$src2,		(v4i16 (EXTRACT_SUBREG QPR:$src2,
(DSubReg_i16_reg imm:$lane))),		(DSubReg_i16_reg imm:$lane))),
(SubReg_i16_lane imm:$lane)))>;		(SubReg_i16_lane imm:$lane)))>;
def : Pat<(v4i32 (mul (v4i32 QPR:$src1),		def : Pat<(v4i32 (mul (v4i32 QPR:$src1),
(v4i32 (NEONvduplane (v4i32 QPR:$src2), imm:$lane)))),		(v4i32 (ARMvduplane (v4i32 QPR:$src2), imm:$lane)))),
(v4i32 (VMULslv4i32 (v4i32 QPR:$src1),		(v4i32 (VMULslv4i32 (v4i32 QPR:$src1),
(v2i32 (EXTRACT_SUBREG QPR:$src2,		(v2i32 (EXTRACT_SUBREG QPR:$src2,
(DSubReg_i32_reg imm:$lane))),		(DSubReg_i32_reg imm:$lane))),
(SubReg_i32_lane imm:$lane)))>;		(SubReg_i32_lane imm:$lane)))>;
def : Pat<(v4f32 (fmul (v4f32 QPR:$src1),		def : Pat<(v4f32 (fmul (v4f32 QPR:$src1),
(v4f32 (NEONvduplane (v4f32 QPR:$src2), imm:$lane)))),		(v4f32 (ARMvduplane (v4f32 QPR:$src2), imm:$lane)))),
(v4f32 (VMULslfq (v4f32 QPR:$src1),		(v4f32 (VMULslfq (v4f32 QPR:$src1),
(v2f32 (EXTRACT_SUBREG QPR:$src2,		(v2f32 (EXTRACT_SUBREG QPR:$src2,
(DSubReg_i32_reg imm:$lane))),		(DSubReg_i32_reg imm:$lane))),
(SubReg_i32_lane imm:$lane)))>;		(SubReg_i32_lane imm:$lane)))>;
def : Pat<(v8f16 (fmul (v8f16 QPR:$src1),		def : Pat<(v8f16 (fmul (v8f16 QPR:$src1),
(v8f16 (NEONvduplane (v8f16 QPR:$src2), imm:$lane)))),		(v8f16 (ARMvduplane (v8f16 QPR:$src2), imm:$lane)))),
(v8f16 (VMULslhq(v8f16 QPR:$src1),		(v8f16 (VMULslhq(v8f16 QPR:$src1),
(v4f16 (EXTRACT_SUBREG QPR:$src2,		(v4f16 (EXTRACT_SUBREG QPR:$src2,
(DSubReg_i16_reg imm:$lane))),		(DSubReg_i16_reg imm:$lane))),
(SubReg_i16_lane imm:$lane)))>;		(SubReg_i16_lane imm:$lane)))>;

def : Pat<(v2f32 (fmul DPR:$Rn, (NEONvdup (f32 SPR:$Rm)))),		def : Pat<(v2f32 (fmul DPR:$Rn, (ARMvdup (f32 SPR:$Rm)))),
(VMULslfd DPR:$Rn,		(VMULslfd DPR:$Rn,
(INSERT_SUBREG (v2f32 (IMPLICIT_DEF)), SPR:$Rm, ssub_0),		(INSERT_SUBREG (v2f32 (IMPLICIT_DEF)), SPR:$Rm, ssub_0),
(i32 0))>;		(i32 0))>;
def : Pat<(v4f16 (fmul DPR:$Rn, (NEONvdup (f16 HPR:$Rm)))),		def : Pat<(v4f16 (fmul DPR:$Rn, (ARMvdup (f16 HPR:$Rm)))),
(VMULslhd DPR:$Rn,		(VMULslhd DPR:$Rn,
(INSERT_SUBREG (v4f16 (IMPLICIT_DEF)), HPR:$Rm, ssub_0),		(INSERT_SUBREG (v4f16 (IMPLICIT_DEF)), HPR:$Rm, ssub_0),
(i32 0))>;		(i32 0))>;
def : Pat<(v4f32 (fmul QPR:$Rn, (NEONvdup (f32 SPR:$Rm)))),		def : Pat<(v4f32 (fmul QPR:$Rn, (ARMvdup (f32 SPR:$Rm)))),
(VMULslfq QPR:$Rn,		(VMULslfq QPR:$Rn,
(INSERT_SUBREG (v2f32 (IMPLICIT_DEF)), SPR:$Rm, ssub_0),		(INSERT_SUBREG (v2f32 (IMPLICIT_DEF)), SPR:$Rm, ssub_0),
(i32 0))>;		(i32 0))>;
def : Pat<(v8f16 (fmul QPR:$Rn, (NEONvdup (f16 HPR:$Rm)))),		def : Pat<(v8f16 (fmul QPR:$Rn, (ARMvdup (f16 HPR:$Rm)))),
(VMULslhq QPR:$Rn,		(VMULslhq QPR:$Rn,
(INSERT_SUBREG (v4f16 (IMPLICIT_DEF)), HPR:$Rm, ssub_0),		(INSERT_SUBREG (v4f16 (IMPLICIT_DEF)), HPR:$Rm, ssub_0),
(i32 0))>;		(i32 0))>;
}		}

// VQDMULH : Vector Saturating Doubling Multiply Returning High Half		// VQDMULH : Vector Saturating Doubling Multiply Returning High Half
defm VQDMULH : N3VInt_HS<0, 0, 0b1011, 0, N3RegFrm, IIC_VMULi16D, IIC_VMULi32D,		defm VQDMULH : N3VInt_HS<0, 0, 0b1011, 0, N3RegFrm, IIC_VMULi16D, IIC_VMULi32D,
IIC_VMULi16Q, IIC_VMULi32Q,		IIC_VMULi16Q, IIC_VMULi32Q,
"vqdmulh", "s", int_arm_neon_vqdmulh, 1>;		"vqdmulh", "s", int_arm_neon_vqdmulh, 1>;
defm VQDMULHsl: N3VIntSL_HS<0b1100, IIC_VMULi16D, IIC_VMULi32D,		defm VQDMULHsl: N3VIntSL_HS<0b1100, IIC_VMULi16D, IIC_VMULi32D,
IIC_VMULi16Q, IIC_VMULi32Q,		IIC_VMULi16Q, IIC_VMULi32Q,
"vqdmulh", "s", int_arm_neon_vqdmulh>;		"vqdmulh", "s", int_arm_neon_vqdmulh>;

let Predicates = [HasNEON] in {		let Predicates = [HasNEON] in {
def : Pat<(v8i16 (int_arm_neon_vqdmulh (v8i16 QPR:$src1),		def : Pat<(v8i16 (int_arm_neon_vqdmulh (v8i16 QPR:$src1),
(v8i16 (NEONvduplane (v8i16 QPR:$src2),		(v8i16 (ARMvduplane (v8i16 QPR:$src2),
imm:$lane)))),		imm:$lane)))),
(v8i16 (VQDMULHslv8i16 (v8i16 QPR:$src1),		(v8i16 (VQDMULHslv8i16 (v8i16 QPR:$src1),
(v4i16 (EXTRACT_SUBREG QPR:$src2,		(v4i16 (EXTRACT_SUBREG QPR:$src2,
(DSubReg_i16_reg imm:$lane))),		(DSubReg_i16_reg imm:$lane))),
(SubReg_i16_lane imm:$lane)))>;		(SubReg_i16_lane imm:$lane)))>;
def : Pat<(v4i32 (int_arm_neon_vqdmulh (v4i32 QPR:$src1),		def : Pat<(v4i32 (int_arm_neon_vqdmulh (v4i32 QPR:$src1),
(v4i32 (NEONvduplane (v4i32 QPR:$src2),		(v4i32 (ARMvduplane (v4i32 QPR:$src2),
imm:$lane)))),		imm:$lane)))),
(v4i32 (VQDMULHslv4i32 (v4i32 QPR:$src1),		(v4i32 (VQDMULHslv4i32 (v4i32 QPR:$src1),
(v2i32 (EXTRACT_SUBREG QPR:$src2,		(v2i32 (EXTRACT_SUBREG QPR:$src2,
(DSubReg_i32_reg imm:$lane))),		(DSubReg_i32_reg imm:$lane))),
(SubReg_i32_lane imm:$lane)))>;		(SubReg_i32_lane imm:$lane)))>;
}		}

// VQRDMULH : Vector Rounding Saturating Doubling Multiply Returning High Half		// VQRDMULH : Vector Rounding Saturating Doubling Multiply Returning High Half
defm VQRDMULH : N3VInt_HS<1, 0, 0b1011, 0, N3RegFrm,		defm VQRDMULH : N3VInt_HS<1, 0, 0b1011, 0, N3RegFrm,
IIC_VMULi16D,IIC_VMULi32D,IIC_VMULi16Q,IIC_VMULi32Q,		IIC_VMULi16D,IIC_VMULi32D,IIC_VMULi16Q,IIC_VMULi32Q,
"vqrdmulh", "s", int_arm_neon_vqrdmulh, 1>;		"vqrdmulh", "s", int_arm_neon_vqrdmulh, 1>;
defm VQRDMULHsl : N3VIntSL_HS<0b1101, IIC_VMULi16D, IIC_VMULi32D,		defm VQRDMULHsl : N3VIntSL_HS<0b1101, IIC_VMULi16D, IIC_VMULi32D,
IIC_VMULi16Q, IIC_VMULi32Q,		IIC_VMULi16Q, IIC_VMULi32Q,
"vqrdmulh", "s", int_arm_neon_vqrdmulh>;		"vqrdmulh", "s", int_arm_neon_vqrdmulh>;

let Predicates = [HasNEON] in {		let Predicates = [HasNEON] in {
def : Pat<(v8i16 (int_arm_neon_vqrdmulh (v8i16 QPR:$src1),		def : Pat<(v8i16 (int_arm_neon_vqrdmulh (v8i16 QPR:$src1),
(v8i16 (NEONvduplane (v8i16 QPR:$src2),		(v8i16 (ARMvduplane (v8i16 QPR:$src2),
imm:$lane)))),		imm:$lane)))),
(v8i16 (VQRDMULHslv8i16 (v8i16 QPR:$src1),		(v8i16 (VQRDMULHslv8i16 (v8i16 QPR:$src1),
(v4i16 (EXTRACT_SUBREG QPR:$src2,		(v4i16 (EXTRACT_SUBREG QPR:$src2,
(DSubReg_i16_reg imm:$lane))),		(DSubReg_i16_reg imm:$lane))),
(SubReg_i16_lane imm:$lane)))>;		(SubReg_i16_lane imm:$lane)))>;
def : Pat<(v4i32 (int_arm_neon_vqrdmulh (v4i32 QPR:$src1),		def : Pat<(v4i32 (int_arm_neon_vqrdmulh (v4i32 QPR:$src1),
(v4i32 (NEONvduplane (v4i32 QPR:$src2),		(v4i32 (ARMvduplane (v4i32 QPR:$src2),
imm:$lane)))),		imm:$lane)))),
(v4i32 (VQRDMULHslv4i32 (v4i32 QPR:$src1),		(v4i32 (VQRDMULHslv4i32 (v4i32 QPR:$src1),
(v2i32 (EXTRACT_SUBREG QPR:$src2,		(v2i32 (EXTRACT_SUBREG QPR:$src2,
(DSubReg_i32_reg imm:$lane))),		(DSubReg_i32_reg imm:$lane))),
(SubReg_i32_lane imm:$lane)))>;		(SubReg_i32_lane imm:$lane)))>;
}		}

// VMULL : Vector Multiply Long (integer and polynomial) (Q = D * D)		// VMULL : Vector Multiply Long (integer and polynomial) (Q = D * D)
▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines	def VMLAslhd : N3VDMulOpSL16<0b01, 0b0001, IIC_VMACD, "vmla", "f16",
Requires<[HasNEON, HasFullFP16, UseFPVMLx]>;		Requires<[HasNEON, HasFullFP16, UseFPVMLx]>;
def VMLAslhq : N3VQMulOpSL16<0b01, 0b0001, IIC_VMACQ, "vmla", "f16",		def VMLAslhq : N3VQMulOpSL16<0b01, 0b0001, IIC_VMACQ, "vmla", "f16",
v8f16, v4f16, fmul, fadd>,		v8f16, v4f16, fmul, fadd>,
Requires<[HasNEON, HasFullFP16, UseFPVMLx]>;		Requires<[HasNEON, HasFullFP16, UseFPVMLx]>;

let Predicates = [HasNEON] in {		let Predicates = [HasNEON] in {
def : Pat<(v8i16 (add (v8i16 QPR:$src1),		def : Pat<(v8i16 (add (v8i16 QPR:$src1),
(mul (v8i16 QPR:$src2),		(mul (v8i16 QPR:$src2),
(v8i16 (NEONvduplane (v8i16 QPR:$src3), imm:$lane))))),		(v8i16 (ARMvduplane (v8i16 QPR:$src3), imm:$lane))))),
(v8i16 (VMLAslv8i16 (v8i16 QPR:$src1), (v8i16 QPR:$src2),		(v8i16 (VMLAslv8i16 (v8i16 QPR:$src1), (v8i16 QPR:$src2),
(v4i16 (EXTRACT_SUBREG QPR:$src3,		(v4i16 (EXTRACT_SUBREG QPR:$src3,
(DSubReg_i16_reg imm:$lane))),		(DSubReg_i16_reg imm:$lane))),
(SubReg_i16_lane imm:$lane)))>;		(SubReg_i16_lane imm:$lane)))>;

def : Pat<(v4i32 (add (v4i32 QPR:$src1),		def : Pat<(v4i32 (add (v4i32 QPR:$src1),
(mul (v4i32 QPR:$src2),		(mul (v4i32 QPR:$src2),
(v4i32 (NEONvduplane (v4i32 QPR:$src3), imm:$lane))))),		(v4i32 (ARMvduplane (v4i32 QPR:$src3), imm:$lane))))),
(v4i32 (VMLAslv4i32 (v4i32 QPR:$src1), (v4i32 QPR:$src2),		(v4i32 (VMLAslv4i32 (v4i32 QPR:$src1), (v4i32 QPR:$src2),
(v2i32 (EXTRACT_SUBREG QPR:$src3,		(v2i32 (EXTRACT_SUBREG QPR:$src3,
(DSubReg_i32_reg imm:$lane))),		(DSubReg_i32_reg imm:$lane))),
(SubReg_i32_lane imm:$lane)))>;		(SubReg_i32_lane imm:$lane)))>;
}		}

def : Pat<(v4f32 (fadd_mlx (v4f32 QPR:$src1),		def : Pat<(v4f32 (fadd_mlx (v4f32 QPR:$src1),
(fmul_su (v4f32 QPR:$src2),		(fmul_su (v4f32 QPR:$src2),
(v4f32 (NEONvduplane (v4f32 QPR:$src3), imm:$lane))))),		(v4f32 (ARMvduplane (v4f32 QPR:$src3), imm:$lane))))),
(v4f32 (VMLAslfq (v4f32 QPR:$src1),		(v4f32 (VMLAslfq (v4f32 QPR:$src1),
(v4f32 QPR:$src2),		(v4f32 QPR:$src2),
(v2f32 (EXTRACT_SUBREG QPR:$src3,		(v2f32 (EXTRACT_SUBREG QPR:$src3,
(DSubReg_i32_reg imm:$lane))),		(DSubReg_i32_reg imm:$lane))),
(SubReg_i32_lane imm:$lane)))>,		(SubReg_i32_lane imm:$lane)))>,
Requires<[HasNEON, UseFPVMLx]>;		Requires<[HasNEON, UseFPVMLx]>;

// VMLAL : Vector Multiply Accumulate Long (Q += D * D)		// VMLAL : Vector Multiply Accumulate Long (Q += D * D)
Show All 35 Lines	let Predicates = [HasNEON, HasV8_1a] in {

defm VQRDMLAHsl : N3VMulOpSL_HS<0b1110, IIC_VMACi16D, IIC_VMACi32D,		defm VQRDMLAHsl : N3VMulOpSL_HS<0b1110, IIC_VMACi16D, IIC_VMACi32D,
IIC_VMACi16Q, IIC_VMACi32Q, "vqrdmlah", "s",		IIC_VMACi16Q, IIC_VMACi32Q, "vqrdmlah", "s",
null_frag>;		null_frag>;
def : Pat<(v4i16 (int_arm_neon_vqadds		def : Pat<(v4i16 (int_arm_neon_vqadds
(v4i16 DPR:$src1),		(v4i16 DPR:$src1),
(v4i16 (int_arm_neon_vqrdmulh		(v4i16 (int_arm_neon_vqrdmulh
(v4i16 DPR:$Vn),		(v4i16 DPR:$Vn),
(v4i16 (NEONvduplane (v4i16 DPR_8:$Vm),		(v4i16 (ARMvduplane (v4i16 DPR_8:$Vm),
imm:$lane)))))),		imm:$lane)))))),
(v4i16 (VQRDMLAHslv4i16 DPR:$src1, DPR:$Vn, DPR_8:$Vm,		(v4i16 (VQRDMLAHslv4i16 DPR:$src1, DPR:$Vn, DPR_8:$Vm,
imm:$lane))>;		imm:$lane))>;
def : Pat<(v2i32 (int_arm_neon_vqadds		def : Pat<(v2i32 (int_arm_neon_vqadds
(v2i32 DPR:$src1),		(v2i32 DPR:$src1),
(v2i32 (int_arm_neon_vqrdmulh		(v2i32 (int_arm_neon_vqrdmulh
(v2i32 DPR:$Vn),		(v2i32 DPR:$Vn),
(v2i32 (NEONvduplane (v2i32 DPR_VFP2:$Vm),		(v2i32 (ARMvduplane (v2i32 DPR_VFP2:$Vm),
imm:$lane)))))),		imm:$lane)))))),
(v2i32 (VQRDMLAHslv2i32 DPR:$src1, DPR:$Vn, DPR_VFP2:$Vm,		(v2i32 (VQRDMLAHslv2i32 DPR:$src1, DPR:$Vn, DPR_VFP2:$Vm,
imm:$lane))>;		imm:$lane))>;
def : Pat<(v8i16 (int_arm_neon_vqadds		def : Pat<(v8i16 (int_arm_neon_vqadds
(v8i16 QPR:$src1),		(v8i16 QPR:$src1),
(v8i16 (int_arm_neon_vqrdmulh		(v8i16 (int_arm_neon_vqrdmulh
(v8i16 QPR:$src2),		(v8i16 QPR:$src2),
(v8i16 (NEONvduplane (v8i16 QPR:$src3),		(v8i16 (ARMvduplane (v8i16 QPR:$src3),
imm:$lane)))))),		imm:$lane)))))),
(v8i16 (VQRDMLAHslv8i16 (v8i16 QPR:$src1),		(v8i16 (VQRDMLAHslv8i16 (v8i16 QPR:$src1),
(v8i16 QPR:$src2),		(v8i16 QPR:$src2),
(v4i16 (EXTRACT_SUBREG		(v4i16 (EXTRACT_SUBREG
QPR:$src3,		QPR:$src3,
(DSubReg_i16_reg imm:$lane))),		(DSubReg_i16_reg imm:$lane))),
(SubReg_i16_lane imm:$lane)))>;		(SubReg_i16_lane imm:$lane)))>;
def : Pat<(v4i32 (int_arm_neon_vqadds		def : Pat<(v4i32 (int_arm_neon_vqadds
(v4i32 QPR:$src1),		(v4i32 QPR:$src1),
(v4i32 (int_arm_neon_vqrdmulh		(v4i32 (int_arm_neon_vqrdmulh
(v4i32 QPR:$src2),		(v4i32 QPR:$src2),
(v4i32 (NEONvduplane (v4i32 QPR:$src3),		(v4i32 (ARMvduplane (v4i32 QPR:$src3),
imm:$lane)))))),		imm:$lane)))))),
(v4i32 (VQRDMLAHslv4i32 (v4i32 QPR:$src1),		(v4i32 (VQRDMLAHslv4i32 (v4i32 QPR:$src1),
(v4i32 QPR:$src2),		(v4i32 QPR:$src2),
(v2i32 (EXTRACT_SUBREG		(v2i32 (EXTRACT_SUBREG
QPR:$src3,		QPR:$src3,
(DSubReg_i32_reg imm:$lane))),		(DSubReg_i32_reg imm:$lane))),
(SubReg_i32_lane imm:$lane)))>;		(SubReg_i32_lane imm:$lane)))>;

Show All 25 Lines	let Predicates = [HasNEON, HasV8_1a] in {

defm VQRDMLSHsl : N3VMulOpSL_HS<0b1111, IIC_VMACi16D, IIC_VMACi32D,		defm VQRDMLSHsl : N3VMulOpSL_HS<0b1111, IIC_VMACi16D, IIC_VMACi32D,
IIC_VMACi16Q, IIC_VMACi32Q, "vqrdmlsh", "s",		IIC_VMACi16Q, IIC_VMACi32Q, "vqrdmlsh", "s",
null_frag>;		null_frag>;
def : Pat<(v4i16 (int_arm_neon_vqsubs		def : Pat<(v4i16 (int_arm_neon_vqsubs
(v4i16 DPR:$src1),		(v4i16 DPR:$src1),
(v4i16 (int_arm_neon_vqrdmulh		(v4i16 (int_arm_neon_vqrdmulh
(v4i16 DPR:$Vn),		(v4i16 DPR:$Vn),
(v4i16 (NEONvduplane (v4i16 DPR_8:$Vm),		(v4i16 (ARMvduplane (v4i16 DPR_8:$Vm),
imm:$lane)))))),		imm:$lane)))))),
(v4i16 (VQRDMLSHslv4i16 DPR:$src1, DPR:$Vn, DPR_8:$Vm, imm:$lane))>;		(v4i16 (VQRDMLSHslv4i16 DPR:$src1, DPR:$Vn, DPR_8:$Vm, imm:$lane))>;
def : Pat<(v2i32 (int_arm_neon_vqsubs		def : Pat<(v2i32 (int_arm_neon_vqsubs
(v2i32 DPR:$src1),		(v2i32 DPR:$src1),
(v2i32 (int_arm_neon_vqrdmulh		(v2i32 (int_arm_neon_vqrdmulh
(v2i32 DPR:$Vn),		(v2i32 DPR:$Vn),
(v2i32 (NEONvduplane (v2i32 DPR_VFP2:$Vm),		(v2i32 (ARMvduplane (v2i32 DPR_VFP2:$Vm),
imm:$lane)))))),		imm:$lane)))))),
(v2i32 (VQRDMLSHslv2i32 DPR:$src1, DPR:$Vn, DPR_VFP2:$Vm,		(v2i32 (VQRDMLSHslv2i32 DPR:$src1, DPR:$Vn, DPR_VFP2:$Vm,
imm:$lane))>;		imm:$lane))>;
def : Pat<(v8i16 (int_arm_neon_vqsubs		def : Pat<(v8i16 (int_arm_neon_vqsubs
(v8i16 QPR:$src1),		(v8i16 QPR:$src1),
(v8i16 (int_arm_neon_vqrdmulh		(v8i16 (int_arm_neon_vqrdmulh
(v8i16 QPR:$src2),		(v8i16 QPR:$src2),
(v8i16 (NEONvduplane (v8i16 QPR:$src3),		(v8i16 (ARMvduplane (v8i16 QPR:$src3),
imm:$lane)))))),		imm:$lane)))))),
(v8i16 (VQRDMLSHslv8i16 (v8i16 QPR:$src1),		(v8i16 (VQRDMLSHslv8i16 (v8i16 QPR:$src1),
(v8i16 QPR:$src2),		(v8i16 QPR:$src2),
(v4i16 (EXTRACT_SUBREG		(v4i16 (EXTRACT_SUBREG
QPR:$src3,		QPR:$src3,
(DSubReg_i16_reg imm:$lane))),		(DSubReg_i16_reg imm:$lane))),
(SubReg_i16_lane imm:$lane)))>;		(SubReg_i16_lane imm:$lane)))>;
def : Pat<(v4i32 (int_arm_neon_vqsubs		def : Pat<(v4i32 (int_arm_neon_vqsubs
(v4i32 QPR:$src1),		(v4i32 QPR:$src1),
(v4i32 (int_arm_neon_vqrdmulh		(v4i32 (int_arm_neon_vqrdmulh
(v4i32 QPR:$src2),		(v4i32 QPR:$src2),
(v4i32 (NEONvduplane (v4i32 QPR:$src3),		(v4i32 (ARMvduplane (v4i32 QPR:$src3),
imm:$lane)))))),		imm:$lane)))))),
(v4i32 (VQRDMLSHslv4i32 (v4i32 QPR:$src1),		(v4i32 (VQRDMLSHslv4i32 (v4i32 QPR:$src1),
(v4i32 QPR:$src2),		(v4i32 QPR:$src2),
(v2i32 (EXTRACT_SUBREG		(v2i32 (EXTRACT_SUBREG
QPR:$src3,		QPR:$src3,
(DSubReg_i32_reg imm:$lane))),		(DSubReg_i32_reg imm:$lane))),
(SubReg_i32_lane imm:$lane)))>;		(SubReg_i32_lane imm:$lane)))>;
}		}
// VQDMLAL : Vector Saturating Doubling Multiply Accumulate Long (Q += D * D)		// VQDMLAL : Vector Saturating Doubling Multiply Accumulate Long (Q += D * D)
defm VQDMLAL : N3VLInt3_HS<0, 1, 0b1001, 0, IIC_VMACi16D, IIC_VMACi32D,		defm VQDMLAL : N3VLInt3_HS<0, 1, 0b1001, 0, IIC_VMACi16D, IIC_VMACi32D,
"vqdmlal", "s", null_frag>;		"vqdmlal", "s", null_frag>;
defm VQDMLALsl: N3VLInt3SL_HS<0, 0b0011, "vqdmlal", "s", null_frag>;		defm VQDMLALsl: N3VLInt3SL_HS<0, 0b0011, "vqdmlal", "s", null_frag>;

let Predicates = [HasNEON] in {		let Predicates = [HasNEON] in {
def : Pat<(v4i32 (int_arm_neon_vqadds (v4i32 QPR:$src1),		def : Pat<(v4i32 (int_arm_neon_vqadds (v4i32 QPR:$src1),
(v4i32 (int_arm_neon_vqdmull (v4i16 DPR:$Vn),		(v4i32 (int_arm_neon_vqdmull (v4i16 DPR:$Vn),
(v4i16 DPR:$Vm))))),		(v4i16 DPR:$Vm))))),
(VQDMLALv4i32 QPR:$src1, DPR:$Vn, DPR:$Vm)>;		(VQDMLALv4i32 QPR:$src1, DPR:$Vn, DPR:$Vm)>;
def : Pat<(v2i64 (int_arm_neon_vqadds (v2i64 QPR:$src1),		def : Pat<(v2i64 (int_arm_neon_vqadds (v2i64 QPR:$src1),
(v2i64 (int_arm_neon_vqdmull (v2i32 DPR:$Vn),		(v2i64 (int_arm_neon_vqdmull (v2i32 DPR:$Vn),
(v2i32 DPR:$Vm))))),		(v2i32 DPR:$Vm))))),
(VQDMLALv2i64 QPR:$src1, DPR:$Vn, DPR:$Vm)>;		(VQDMLALv2i64 QPR:$src1, DPR:$Vn, DPR:$Vm)>;
def : Pat<(v4i32 (int_arm_neon_vqadds (v4i32 QPR:$src1),		def : Pat<(v4i32 (int_arm_neon_vqadds (v4i32 QPR:$src1),
(v4i32 (int_arm_neon_vqdmull (v4i16 DPR:$Vn),		(v4i32 (int_arm_neon_vqdmull (v4i16 DPR:$Vn),
(v4i16 (NEONvduplane (v4i16 DPR_8:$Vm),		(v4i16 (ARMvduplane (v4i16 DPR_8:$Vm),
imm:$lane)))))),		imm:$lane)))))),
(VQDMLALslv4i16 QPR:$src1, DPR:$Vn, DPR_8:$Vm, imm:$lane)>;		(VQDMLALslv4i16 QPR:$src1, DPR:$Vn, DPR_8:$Vm, imm:$lane)>;
def : Pat<(v2i64 (int_arm_neon_vqadds (v2i64 QPR:$src1),		def : Pat<(v2i64 (int_arm_neon_vqadds (v2i64 QPR:$src1),
(v2i64 (int_arm_neon_vqdmull (v2i32 DPR:$Vn),		(v2i64 (int_arm_neon_vqdmull (v2i32 DPR:$Vn),
(v2i32 (NEONvduplane (v2i32 DPR_VFP2:$Vm),		(v2i32 (ARMvduplane (v2i32 DPR_VFP2:$Vm),
imm:$lane)))))),		imm:$lane)))))),
(VQDMLALslv2i32 QPR:$src1, DPR:$Vn, DPR_VFP2:$Vm, imm:$lane)>;		(VQDMLALslv2i32 QPR:$src1, DPR:$Vn, DPR_VFP2:$Vm, imm:$lane)>;
}		}

// VMLS : Vector Multiply Subtract (integer and floating-point)		// VMLS : Vector Multiply Subtract (integer and floating-point)
defm VMLS : N3VMulOp_QHS<1, 0, 0b1001, 0, IIC_VMACi16D, IIC_VMACi32D,		defm VMLS : N3VMulOp_QHS<1, 0, 0b1001, 0, IIC_VMACi16D, IIC_VMACi32D,
IIC_VMACi16Q, IIC_VMACi32Q, "vmls", "i", sub>;		IIC_VMACi16Q, IIC_VMACi32Q, "vmls", "i", sub>;
def VMLSfd : N3VDMulOp<0, 0, 0b10, 0b1101, 1, IIC_VMACD, "vmls", "f32",		def VMLSfd : N3VDMulOp<0, 0, 0b10, 0b1101, 1, IIC_VMACD, "vmls", "f32",
Show All 21 Lines	def VMLSslhd : N3VDMulOpSL16<0b01, 0b0101, IIC_VMACD, "vmls", "f16",
Requires<[HasNEON, HasFullFP16, UseFPVMLx]>;		Requires<[HasNEON, HasFullFP16, UseFPVMLx]>;
def VMLSslhq : N3VQMulOpSL16<0b01, 0b0101, IIC_VMACQ, "vmls", "f16",		def VMLSslhq : N3VQMulOpSL16<0b01, 0b0101, IIC_VMACQ, "vmls", "f16",
v8f16, v4f16, fmul, fsub>,		v8f16, v4f16, fmul, fsub>,
Requires<[HasNEON, HasFullFP16, UseFPVMLx]>;		Requires<[HasNEON, HasFullFP16, UseFPVMLx]>;

let Predicates = [HasNEON] in {		let Predicates = [HasNEON] in {
def : Pat<(v8i16 (sub (v8i16 QPR:$src1),		def : Pat<(v8i16 (sub (v8i16 QPR:$src1),
(mul (v8i16 QPR:$src2),		(mul (v8i16 QPR:$src2),
(v8i16 (NEONvduplane (v8i16 QPR:$src3), imm:$lane))))),		(v8i16 (ARMvduplane (v8i16 QPR:$src3), imm:$lane))))),
(v8i16 (VMLSslv8i16 (v8i16 QPR:$src1), (v8i16 QPR:$src2),		(v8i16 (VMLSslv8i16 (v8i16 QPR:$src1), (v8i16 QPR:$src2),
(v4i16 (EXTRACT_SUBREG QPR:$src3,		(v4i16 (EXTRACT_SUBREG QPR:$src3,
(DSubReg_i16_reg imm:$lane))),		(DSubReg_i16_reg imm:$lane))),
(SubReg_i16_lane imm:$lane)))>;		(SubReg_i16_lane imm:$lane)))>;

def : Pat<(v4i32 (sub (v4i32 QPR:$src1),		def : Pat<(v4i32 (sub (v4i32 QPR:$src1),
(mul (v4i32 QPR:$src2),		(mul (v4i32 QPR:$src2),
(v4i32 (NEONvduplane (v4i32 QPR:$src3), imm:$lane))))),		(v4i32 (ARMvduplane (v4i32 QPR:$src3), imm:$lane))))),
(v4i32 (VMLSslv4i32 (v4i32 QPR:$src1), (v4i32 QPR:$src2),		(v4i32 (VMLSslv4i32 (v4i32 QPR:$src1), (v4i32 QPR:$src2),
(v2i32 (EXTRACT_SUBREG QPR:$src3,		(v2i32 (EXTRACT_SUBREG QPR:$src3,
(DSubReg_i32_reg imm:$lane))),		(DSubReg_i32_reg imm:$lane))),
(SubReg_i32_lane imm:$lane)))>;		(SubReg_i32_lane imm:$lane)))>;
}		}

def : Pat<(v4f32 (fsub_mlx (v4f32 QPR:$src1),		def : Pat<(v4f32 (fsub_mlx (v4f32 QPR:$src1),
(fmul_su (v4f32 QPR:$src2),		(fmul_su (v4f32 QPR:$src2),
(v4f32 (NEONvduplane (v4f32 QPR:$src3), imm:$lane))))),		(v4f32 (ARMvduplane (v4f32 QPR:$src3), imm:$lane))))),
(v4f32 (VMLSslfq (v4f32 QPR:$src1), (v4f32 QPR:$src2),		(v4f32 (VMLSslfq (v4f32 QPR:$src1), (v4f32 QPR:$src2),
(v2f32 (EXTRACT_SUBREG QPR:$src3,		(v2f32 (EXTRACT_SUBREG QPR:$src3,
(DSubReg_i32_reg imm:$lane))),		(DSubReg_i32_reg imm:$lane))),
(SubReg_i32_lane imm:$lane)))>,		(SubReg_i32_lane imm:$lane)))>,
Requires<[HasNEON, UseFPVMLx]>;		Requires<[HasNEON, UseFPVMLx]>;

// VMLSL : Vector Multiply Subtract Long (Q -= D * D)		// VMLSL : Vector Multiply Subtract Long (Q -= D * D)
defm VMLSLs : N3VLMulOp_QHS<0,1,0b1010,0, IIC_VMACi16D, IIC_VMACi32D,		defm VMLSLs : N3VLMulOp_QHS<0,1,0b1010,0, IIC_VMACi16D, IIC_VMACi32D,
Show All 15 Lines	def : Pat<(v4i32 (int_arm_neon_vqsubs (v4i32 QPR:$src1),
(v4i16 DPR:$Vm))))),		(v4i16 DPR:$Vm))))),
(VQDMLSLv4i32 QPR:$src1, DPR:$Vn, DPR:$Vm)>;		(VQDMLSLv4i32 QPR:$src1, DPR:$Vn, DPR:$Vm)>;
def : Pat<(v2i64 (int_arm_neon_vqsubs (v2i64 QPR:$src1),		def : Pat<(v2i64 (int_arm_neon_vqsubs (v2i64 QPR:$src1),
(v2i64 (int_arm_neon_vqdmull (v2i32 DPR:$Vn),		(v2i64 (int_arm_neon_vqdmull (v2i32 DPR:$Vn),
(v2i32 DPR:$Vm))))),		(v2i32 DPR:$Vm))))),
(VQDMLSLv2i64 QPR:$src1, DPR:$Vn, DPR:$Vm)>;		(VQDMLSLv2i64 QPR:$src1, DPR:$Vn, DPR:$Vm)>;
def : Pat<(v4i32 (int_arm_neon_vqsubs (v4i32 QPR:$src1),		def : Pat<(v4i32 (int_arm_neon_vqsubs (v4i32 QPR:$src1),
(v4i32 (int_arm_neon_vqdmull (v4i16 DPR:$Vn),		(v4i32 (int_arm_neon_vqdmull (v4i16 DPR:$Vn),
(v4i16 (NEONvduplane (v4i16 DPR_8:$Vm),		(v4i16 (ARMvduplane (v4i16 DPR_8:$Vm),
imm:$lane)))))),		imm:$lane)))))),
(VQDMLSLslv4i16 QPR:$src1, DPR:$Vn, DPR_8:$Vm, imm:$lane)>;		(VQDMLSLslv4i16 QPR:$src1, DPR:$Vn, DPR_8:$Vm, imm:$lane)>;
def : Pat<(v2i64 (int_arm_neon_vqsubs (v2i64 QPR:$src1),		def : Pat<(v2i64 (int_arm_neon_vqsubs (v2i64 QPR:$src1),
(v2i64 (int_arm_neon_vqdmull (v2i32 DPR:$Vn),		(v2i64 (int_arm_neon_vqdmull (v2i32 DPR:$Vn),
(v2i32 (NEONvduplane (v2i32 DPR_VFP2:$Vm),		(v2i32 (ARMvduplane (v2i32 DPR_VFP2:$Vm),
imm:$lane)))))),		imm:$lane)))))),
(VQDMLSLslv2i32 QPR:$src1, DPR:$Vn, DPR_VFP2:$Vm, imm:$lane)>;		(VQDMLSLslv2i32 QPR:$src1, DPR:$Vn, DPR_VFP2:$Vm, imm:$lane)>;
}		}

// Fused Vector Multiply-Accumulate and Fused Multiply-Subtract Operations.		// Fused Vector Multiply-Accumulate and Fused Multiply-Subtract Operations.
def VFMAfd : N3VDMulOp<0, 0, 0b00, 0b1100, 1, IIC_VFMACD, "vfma", "f32",		def VFMAfd : N3VDMulOp<0, 0, 0b00, 0b1100, 1, IIC_VFMACD, "vfma", "f32",
v2f32, fmul_su, fadd_mlx>,		v2f32, fmul_su, fadd_mlx>,
Requires<[HasNEON,HasVFP4,UseFusedMAC]>;		Requires<[HasNEON,HasVFP4,UseFusedMAC]>;
▲ Show 20 Lines • Show All 81 Lines • ▼ Show 20 Lines	def "" : N3Vnp<0b11100, 0b10, 0b1101, Q, U, (outs Ty:$dst),
let Predicates = [HasDotProd];		let Predicates = [HasDotProd];
let DecoderNamespace = "VFPV8";		let DecoderNamespace = "VFPV8";
}		}

def : Pat<		def : Pat<
(AccumType (OpNode (AccumType Ty:$Vd),		(AccumType (OpNode (AccumType Ty:$Vd),
(InputType Ty:$Vn),		(InputType Ty:$Vn),
(InputType (bitconvert (AccumType		(InputType (bitconvert (AccumType
(NEONvduplane (AccumType Ty:$Vm),		(ARMvduplane (AccumType Ty:$Vm),
VectorIndex32:$lane)))))),		VectorIndex32:$lane)))))),
(!cast<Instruction>(NAME) Ty:$Vd, Ty:$Vn, RHS, VectorIndex32:$lane)>;		(!cast<Instruction>(NAME) Ty:$Vd, Ty:$Vn, RHS, VectorIndex32:$lane)>;
}		}

defm VUDOTDI : DOTI<"vudot", "u8", 0b0, 0b1, DPR, v2i32, v8i8,		defm VUDOTDI : DOTI<"vudot", "u8", 0b0, 0b1, DPR, v2i32, v8i8,
int_arm_neon_udot, (v2i32 DPR_VFP2:$Vm)>;		int_arm_neon_udot, (v2i32 DPR_VFP2:$Vm)>;
defm VSDOTDI : DOTI<"vsdot", "s8", 0b0, 0b0, DPR, v2i32, v8i8,		defm VSDOTDI : DOTI<"vsdot", "s8", 0b0, 0b0, DPR, v2i32, v8i8,
int_arm_neon_sdot, (v2i32 DPR_VFP2:$Vm)>;		int_arm_neon_sdot, (v2i32 DPR_VFP2:$Vm)>;
▲ Show 20 Lines • Show All 1,325 Lines • ▼ Show 20 Lines	def VMOVQ0 : ARMPseudoExpand<(outs QPR:$Vd), (ins), 4, IIC_VMOVImm,
Requires<[HasZCZ]>;		Requires<[HasZCZ]>;
}		}

// VMOV : Vector Get Lane (move scalar to ARM core register)		// VMOV : Vector Get Lane (move scalar to ARM core register)

def VGETLNs8 : NVGetLane<{1,1,1,0,0,1,?,1}, 0b1011, {?,?},		def VGETLNs8 : NVGetLane<{1,1,1,0,0,1,?,1}, 0b1011, {?,?},
(outs GPR:$R), (ins DPR:$V, VectorIndex8:$lane),		(outs GPR:$R), (ins DPR:$V, VectorIndex8:$lane),
IIC_VMOVSI, "vmov", "s8", "$R, $V$lane",		IIC_VMOVSI, "vmov", "s8", "$R, $V$lane",
[(set GPR:$R, (NEONvgetlanes (v8i8 DPR:$V),		[(set GPR:$R, (ARMvgetlanes (v8i8 DPR:$V),
imm:$lane))]> {		imm:$lane))]> {
let Inst{21} = lane{2};		let Inst{21} = lane{2};
let Inst{6-5} = lane{1-0};		let Inst{6-5} = lane{1-0};
}		}
def VGETLNs16 : NVGetLane<{1,1,1,0,0,0,?,1}, 0b1011, {?,1},		def VGETLNs16 : NVGetLane<{1,1,1,0,0,0,?,1}, 0b1011, {?,1},
(outs GPR:$R), (ins DPR:$V, VectorIndex16:$lane),		(outs GPR:$R), (ins DPR:$V, VectorIndex16:$lane),
IIC_VMOVSI, "vmov", "s16", "$R, $V$lane",		IIC_VMOVSI, "vmov", "s16", "$R, $V$lane",
[(set GPR:$R, (NEONvgetlanes (v4i16 DPR:$V),		[(set GPR:$R, (ARMvgetlanes (v4i16 DPR:$V),
imm:$lane))]> {		imm:$lane))]> {
let Inst{21} = lane{1};		let Inst{21} = lane{1};
let Inst{6} = lane{0};		let Inst{6} = lane{0};
}		}
def VGETLNu8 : NVGetLane<{1,1,1,0,1,1,?,1}, 0b1011, {?,?},		def VGETLNu8 : NVGetLane<{1,1,1,0,1,1,?,1}, 0b1011, {?,?},
(outs GPR:$R), (ins DPR:$V, VectorIndex8:$lane),		(outs GPR:$R), (ins DPR:$V, VectorIndex8:$lane),
IIC_VMOVSI, "vmov", "u8", "$R, $V$lane",		IIC_VMOVSI, "vmov", "u8", "$R, $V$lane",
[(set GPR:$R, (NEONvgetlaneu (v8i8 DPR:$V),		[(set GPR:$R, (ARMvgetlaneu (v8i8 DPR:$V),
imm:$lane))]> {		imm:$lane))]> {
let Inst{21} = lane{2};		let Inst{21} = lane{2};
let Inst{6-5} = lane{1-0};		let Inst{6-5} = lane{1-0};
}		}
def VGETLNu16 : NVGetLane<{1,1,1,0,1,0,?,1}, 0b1011, {?,1},		def VGETLNu16 : NVGetLane<{1,1,1,0,1,0,?,1}, 0b1011, {?,1},
(outs GPR:$R), (ins DPR:$V, VectorIndex16:$lane),		(outs GPR:$R), (ins DPR:$V, VectorIndex16:$lane),
IIC_VMOVSI, "vmov", "u16", "$R, $V$lane",		IIC_VMOVSI, "vmov", "u16", "$R, $V$lane",
[(set GPR:$R, (NEONvgetlaneu (v4i16 DPR:$V),		[(set GPR:$R, (ARMvgetlaneu (v4i16 DPR:$V),
imm:$lane))]> {		imm:$lane))]> {
let Inst{21} = lane{1};		let Inst{21} = lane{1};
let Inst{6} = lane{0};		let Inst{6} = lane{0};
}		}
def VGETLNi32 : NVGetLane<{1,1,1,0,0,0,?,1}, 0b1011, 0b00,		def VGETLNi32 : NVGetLane<{1,1,1,0,0,0,?,1}, 0b1011, 0b00,
(outs GPR:$R), (ins DPR:$V, VectorIndex32:$lane),		(outs GPR:$R), (ins DPR:$V, VectorIndex32:$lane),
IIC_VMOVSI, "vmov", "32", "$R, $V$lane",		IIC_VMOVSI, "vmov", "32", "$R, $V$lane",
[(set GPR:$R, (extractelt (v2i32 DPR:$V),		[(set GPR:$R, (extractelt (v2i32 DPR:$V),
imm:$lane))]>,		imm:$lane))]>,
Requires<[HasFPRegs, HasFastVGETLNi32]> {		Requires<[HasFPRegs, HasFastVGETLNi32]> {
let Inst{21} = lane{0};		let Inst{21} = lane{0};
}		}
let Predicates = [HasNEON] in {		let Predicates = [HasNEON] in {
// def VGETLNf32: see FMRDH and FMRDL in ARMInstrVFP.td		// def VGETLNf32: see FMRDH and FMRDL in ARMInstrVFP.td
def : Pat<(NEONvgetlanes (v16i8 QPR:$src), imm:$lane),		def : Pat<(ARMvgetlanes (v16i8 QPR:$src), imm:$lane),
(VGETLNs8 (v8i8 (EXTRACT_SUBREG QPR:$src,		(VGETLNs8 (v8i8 (EXTRACT_SUBREG QPR:$src,
(DSubReg_i8_reg imm:$lane))),		(DSubReg_i8_reg imm:$lane))),
(SubReg_i8_lane imm:$lane))>;		(SubReg_i8_lane imm:$lane))>;
def : Pat<(NEONvgetlanes (v8i16 QPR:$src), imm:$lane),		def : Pat<(ARMvgetlanes (v8i16 QPR:$src), imm:$lane),
(VGETLNs16 (v4i16 (EXTRACT_SUBREG QPR:$src,		(VGETLNs16 (v4i16 (EXTRACT_SUBREG QPR:$src,
(DSubReg_i16_reg imm:$lane))),		(DSubReg_i16_reg imm:$lane))),
(SubReg_i16_lane imm:$lane))>;		(SubReg_i16_lane imm:$lane))>;
def : Pat<(NEONvgetlaneu (v16i8 QPR:$src), imm:$lane),		def : Pat<(ARMvgetlaneu (v16i8 QPR:$src), imm:$lane),
(VGETLNu8 (v8i8 (EXTRACT_SUBREG QPR:$src,		(VGETLNu8 (v8i8 (EXTRACT_SUBREG QPR:$src,
(DSubReg_i8_reg imm:$lane))),		(DSubReg_i8_reg imm:$lane))),
(SubReg_i8_lane imm:$lane))>;		(SubReg_i8_lane imm:$lane))>;
def : Pat<(NEONvgetlaneu (v8i16 QPR:$src), imm:$lane),		def : Pat<(ARMvgetlaneu (v8i16 QPR:$src), imm:$lane),
(VGETLNu16 (v4i16 (EXTRACT_SUBREG QPR:$src,		(VGETLNu16 (v4i16 (EXTRACT_SUBREG QPR:$src,
(DSubReg_i16_reg imm:$lane))),		(DSubReg_i16_reg imm:$lane))),
(SubReg_i16_lane imm:$lane))>;		(SubReg_i16_lane imm:$lane))>;
}		}
def : Pat<(extractelt (v4i32 QPR:$src), imm:$lane),		def : Pat<(extractelt (v4i32 QPR:$src), imm:$lane),
(VGETLNi32 (v2i32 (EXTRACT_SUBREG QPR:$src,		(VGETLNi32 (v2i32 (EXTRACT_SUBREG QPR:$src,
(DSubReg_i32_reg imm:$lane))),		(DSubReg_i32_reg imm:$lane))),
(SubReg_i32_lane imm:$lane))>,		(SubReg_i32_lane imm:$lane))>,
▲ Show 20 Lines • Show All 149 Lines • ▼ Show 20 Lines	def : Pat<(v4i32 (scalar_to_vector GPR:$src)),
dsub_0)>;		dsub_0)>;
}		}

// VDUP : Vector Duplicate (from ARM core register to all elements)		// VDUP : Vector Duplicate (from ARM core register to all elements)

class VDUPD<bits<8> opcod1, bits<2> opcod3, string Dt, ValueType Ty>		class VDUPD<bits<8> opcod1, bits<2> opcod3, string Dt, ValueType Ty>
: NVDup<opcod1, 0b1011, opcod3, (outs DPR:$V), (ins GPR:$R),		: NVDup<opcod1, 0b1011, opcod3, (outs DPR:$V), (ins GPR:$R),
IIC_VMOVIS, "vdup", Dt, "$V, $R",		IIC_VMOVIS, "vdup", Dt, "$V, $R",
[(set DPR:$V, (Ty (NEONvdup (i32 GPR:$R))))]>;		[(set DPR:$V, (Ty (ARMvdup (i32 GPR:$R))))]>;
class VDUPQ<bits<8> opcod1, bits<2> opcod3, string Dt, ValueType Ty>		class VDUPQ<bits<8> opcod1, bits<2> opcod3, string Dt, ValueType Ty>
: NVDup<opcod1, 0b1011, opcod3, (outs QPR:$V), (ins GPR:$R),		: NVDup<opcod1, 0b1011, opcod3, (outs QPR:$V), (ins GPR:$R),
IIC_VMOVIS, "vdup", Dt, "$V, $R",		IIC_VMOVIS, "vdup", Dt, "$V, $R",
[(set QPR:$V, (Ty (NEONvdup (i32 GPR:$R))))]>;		[(set QPR:$V, (Ty (ARMvdup (i32 GPR:$R))))]>;

def VDUP8d : VDUPD<0b11101100, 0b00, "8", v8i8>;		def VDUP8d : VDUPD<0b11101100, 0b00, "8", v8i8>;
def VDUP16d : VDUPD<0b11101000, 0b01, "16", v4i16>;		def VDUP16d : VDUPD<0b11101000, 0b01, "16", v4i16>;
def VDUP32d : VDUPD<0b11101000, 0b00, "32", v2i32>,		def VDUP32d : VDUPD<0b11101000, 0b00, "32", v2i32>,
Requires<[HasNEON, HasFastVDUP32]>;		Requires<[HasNEON, HasFastVDUP32]>;
def VDUP8q : VDUPQ<0b11101110, 0b00, "8", v16i8>;		def VDUP8q : VDUPQ<0b11101110, 0b00, "8", v16i8>;
def VDUP16q : VDUPQ<0b11101010, 0b01, "16", v8i16>;		def VDUP16q : VDUPQ<0b11101010, 0b01, "16", v8i16>;
def VDUP32q : VDUPQ<0b11101010, 0b00, "32", v4i32>;		def VDUP32q : VDUPQ<0b11101010, 0b00, "32", v4i32>;

// NEONvdup patterns for uarchs with fast VDUP.32.		// ARMvdup patterns for uarchs with fast VDUP.32.
def : Pat<(v2f32 (NEONvdup (f32 (bitconvert GPR:$R)))), (VDUP32d GPR:$R)>,		def : Pat<(v2f32 (ARMvdup (f32 (bitconvert GPR:$R)))), (VDUP32d GPR:$R)>,
Requires<[HasNEON,HasFastVDUP32]>;		Requires<[HasNEON,HasFastVDUP32]>;
def : Pat<(v4f32 (NEONvdup (f32 (bitconvert GPR:$R)))), (VDUP32q GPR:$R)>,		def : Pat<(v4f32 (ARMvdup (f32 (bitconvert GPR:$R)))), (VDUP32q GPR:$R)>,
Requires<[HasNEON]>;		Requires<[HasNEON]>;

// NEONvdup patterns for uarchs with slow VDUP.32 - use VMOVDRR instead.		// ARMvdup patterns for uarchs with slow VDUP.32 - use VMOVDRR instead.
def : Pat<(v2i32 (NEONvdup (i32 GPR:$R))), (VMOVDRR GPR:$R, GPR:$R)>,		def : Pat<(v2i32 (ARMvdup (i32 GPR:$R))), (VMOVDRR GPR:$R, GPR:$R)>,
Requires<[HasNEON,HasSlowVDUP32]>;		Requires<[HasNEON,HasSlowVDUP32]>;
def : Pat<(v2f32 (NEONvdup (f32 (bitconvert GPR:$R)))), (VMOVDRR GPR:$R, GPR:$R)>,		def : Pat<(v2f32 (ARMvdup (f32 (bitconvert GPR:$R)))), (VMOVDRR GPR:$R, GPR:$R)>,
Requires<[HasNEON,HasSlowVDUP32]>;		Requires<[HasNEON,HasSlowVDUP32]>;

// VDUP : Vector Duplicate Lane (from scalar to all elements)		// VDUP : Vector Duplicate Lane (from scalar to all elements)

class VDUPLND<bits<4> op19_16, string OpcodeStr, string Dt,		class VDUPLND<bits<4> op19_16, string OpcodeStr, string Dt,
ValueType Ty, Operand IdxTy>		ValueType Ty, Operand IdxTy>
: NVDupLane<op19_16, 0, (outs DPR:$Vd), (ins DPR:$Vm, IdxTy:$lane),		: NVDupLane<op19_16, 0, (outs DPR:$Vd), (ins DPR:$Vm, IdxTy:$lane),
IIC_VMOVD, OpcodeStr, Dt, "$Vd, $Vm$lane",		IIC_VMOVD, OpcodeStr, Dt, "$Vd, $Vm$lane",
[(set DPR:$Vd, (Ty (NEONvduplane (Ty DPR:$Vm), imm:$lane)))]>;		[(set DPR:$Vd, (Ty (ARMvduplane (Ty DPR:$Vm), imm:$lane)))]>;

class VDUPLNQ<bits<4> op19_16, string OpcodeStr, string Dt,		class VDUPLNQ<bits<4> op19_16, string OpcodeStr, string Dt,
ValueType ResTy, ValueType OpTy, Operand IdxTy>		ValueType ResTy, ValueType OpTy, Operand IdxTy>
: NVDupLane<op19_16, 1, (outs QPR:$Vd), (ins DPR:$Vm, IdxTy:$lane),		: NVDupLane<op19_16, 1, (outs QPR:$Vd), (ins DPR:$Vm, IdxTy:$lane),
IIC_VMOVQ, OpcodeStr, Dt, "$Vd, $Vm$lane",		IIC_VMOVQ, OpcodeStr, Dt, "$Vd, $Vm$lane",
[(set QPR:$Vd, (ResTy (NEONvduplane (OpTy DPR:$Vm),		[(set QPR:$Vd, (ResTy (ARMvduplane (OpTy DPR:$Vm),
VectorIndex32:$lane)))]>;		VectorIndex32:$lane)))]>;

// Inst{19-16} is partially specified depending on the element size.		// Inst{19-16} is partially specified depending on the element size.

def VDUPLN8d : VDUPLND<{?,?,?,1}, "vdup", "8", v8i8, VectorIndex8> {		def VDUPLN8d : VDUPLND<{?,?,?,1}, "vdup", "8", v8i8, VectorIndex8> {
bits<3> lane;		bits<3> lane;
let Inst{19-17} = lane{2-0};		let Inst{19-17} = lane{2-0};
}		}
Show All 14 Lines	def VDUPLN16q : VDUPLNQ<{?,?,1,0}, "vdup", "16", v8i16, v4i16, VectorIndex16> {
let Inst{19-18} = lane{1-0};		let Inst{19-18} = lane{1-0};
}		}
def VDUPLN32q : VDUPLNQ<{?,1,0,0}, "vdup", "32", v4i32, v2i32, VectorIndex32> {		def VDUPLN32q : VDUPLNQ<{?,1,0,0}, "vdup", "32", v4i32, v2i32, VectorIndex32> {
bits<1> lane;		bits<1> lane;
let Inst{19} = lane{0};		let Inst{19} = lane{0};
}		}

let Predicates = [HasNEON] in {		let Predicates = [HasNEON] in {
def : Pat<(v4f16 (NEONvduplane (v4f16 DPR:$Vm), imm:$lane)),		def : Pat<(v4f16 (ARMvduplane (v4f16 DPR:$Vm), imm:$lane)),
(VDUPLN32d DPR:$Vm, imm:$lane)>;		(VDUPLN32d DPR:$Vm, imm:$lane)>;

def : Pat<(v2f32 (NEONvduplane (v2f32 DPR:$Vm), imm:$lane)),		def : Pat<(v2f32 (ARMvduplane (v2f32 DPR:$Vm), imm:$lane)),
(VDUPLN32d DPR:$Vm, imm:$lane)>;		(VDUPLN32d DPR:$Vm, imm:$lane)>;

def : Pat<(v4f32 (NEONvduplane (v2f32 DPR:$Vm), imm:$lane)),		def : Pat<(v4f32 (ARMvduplane (v2f32 DPR:$Vm), imm:$lane)),
(VDUPLN32q DPR:$Vm, imm:$lane)>;		(VDUPLN32q DPR:$Vm, imm:$lane)>;

def : Pat<(v16i8 (NEONvduplane (v16i8 QPR:$src), imm:$lane)),		def : Pat<(v16i8 (ARMvduplane (v16i8 QPR:$src), imm:$lane)),
(v16i8 (VDUPLN8q (v8i8 (EXTRACT_SUBREG QPR:$src,		(v16i8 (VDUPLN8q (v8i8 (EXTRACT_SUBREG QPR:$src,
(DSubReg_i8_reg imm:$lane))),		(DSubReg_i8_reg imm:$lane))),
(SubReg_i8_lane imm:$lane)))>;		(SubReg_i8_lane imm:$lane)))>;
def : Pat<(v8i16 (NEONvduplane (v8i16 QPR:$src), imm:$lane)),		def : Pat<(v8i16 (ARMvduplane (v8i16 QPR:$src), imm:$lane)),
(v8i16 (VDUPLN16q (v4i16 (EXTRACT_SUBREG QPR:$src,		(v8i16 (VDUPLN16q (v4i16 (EXTRACT_SUBREG QPR:$src,
(DSubReg_i16_reg imm:$lane))),		(DSubReg_i16_reg imm:$lane))),
(SubReg_i16_lane imm:$lane)))>;		(SubReg_i16_lane imm:$lane)))>;
def : Pat<(v8f16 (NEONvduplane (v8f16 QPR:$src), imm:$lane)),		def : Pat<(v8f16 (ARMvduplane (v8f16 QPR:$src), imm:$lane)),
(v8f16 (VDUPLN16q (v4f16 (EXTRACT_SUBREG QPR:$src,		(v8f16 (VDUPLN16q (v4f16 (EXTRACT_SUBREG QPR:$src,
(DSubReg_i16_reg imm:$lane))),		(DSubReg_i16_reg imm:$lane))),
(SubReg_i16_lane imm:$lane)))>;		(SubReg_i16_lane imm:$lane)))>;
def : Pat<(v4i32 (NEONvduplane (v4i32 QPR:$src), imm:$lane)),		def : Pat<(v4i32 (ARMvduplane (v4i32 QPR:$src), imm:$lane)),
(v4i32 (VDUPLN32q (v2i32 (EXTRACT_SUBREG QPR:$src,		(v4i32 (VDUPLN32q (v2i32 (EXTRACT_SUBREG QPR:$src,
(DSubReg_i32_reg imm:$lane))),		(DSubReg_i32_reg imm:$lane))),
(SubReg_i32_lane imm:$lane)))>;		(SubReg_i32_lane imm:$lane)))>;
def : Pat<(v4f32 (NEONvduplane (v4f32 QPR:$src), imm:$lane)),		def : Pat<(v4f32 (ARMvduplane (v4f32 QPR:$src), imm:$lane)),
(v4f32 (VDUPLN32q (v2f32 (EXTRACT_SUBREG QPR:$src,		(v4f32 (VDUPLN32q (v2f32 (EXTRACT_SUBREG QPR:$src,
(DSubReg_i32_reg imm:$lane))),		(DSubReg_i32_reg imm:$lane))),
(SubReg_i32_lane imm:$lane)))>;		(SubReg_i32_lane imm:$lane)))>;

def : Pat<(v4f16 (NEONvdup HPR:$src)),		def : Pat<(v4f16 (ARMvdup HPR:$src)),
(v4f16 (VDUPLN16d (INSERT_SUBREG (v4f16 (IMPLICIT_DEF)),		(v4f16 (VDUPLN16d (INSERT_SUBREG (v4f16 (IMPLICIT_DEF)),
HPR:$src, ssub_0), (i32 0)))>;		HPR:$src, ssub_0), (i32 0)))>;
def : Pat<(v2f32 (NEONvdup (f32 SPR:$src))),		def : Pat<(v2f32 (ARMvdup (f32 SPR:$src))),
(v2f32 (VDUPLN32d (INSERT_SUBREG (v2f32 (IMPLICIT_DEF)),		(v2f32 (VDUPLN32d (INSERT_SUBREG (v2f32 (IMPLICIT_DEF)),
SPR:$src, ssub_0), (i32 0)))>;		SPR:$src, ssub_0), (i32 0)))>;
def : Pat<(v4f32 (NEONvdup (f32 SPR:$src))),		def : Pat<(v4f32 (ARMvdup (f32 SPR:$src))),
(v4f32 (VDUPLN32q (INSERT_SUBREG (v2f32 (IMPLICIT_DEF)),		(v4f32 (VDUPLN32q (INSERT_SUBREG (v2f32 (IMPLICIT_DEF)),
SPR:$src, ssub_0), (i32 0)))>;		SPR:$src, ssub_0), (i32 0)))>;
def : Pat<(v8f16 (NEONvdup HPR:$src)),		def : Pat<(v8f16 (ARMvdup HPR:$src)),
(v8f16 (VDUPLN16q (INSERT_SUBREG (v4f16 (IMPLICIT_DEF)),		(v8f16 (VDUPLN16q (INSERT_SUBREG (v4f16 (IMPLICIT_DEF)),
HPR:$src, ssub_0), (i32 0)))>;		HPR:$src, ssub_0), (i32 0)))>;
}		}

// VMOVN : Vector Narrowing Move		// VMOVN : Vector Narrowing Move
defm VMOVN : N2VN_HSD<0b11,0b11,0b10,0b00100,0,0, IIC_VMOVN,		defm VMOVN : N2VN_HSD<0b11,0b11,0b10,0b00100,0,0, IIC_VMOVN,
"vmovn", "i", trunc>;		"vmovn", "i", trunc>;
// VQMOVN : Vector Saturating Narrowing Move		// VQMOVN : Vector Saturating Narrowing Move
▲ Show 20 Lines • Show All 185 Lines • ▼ Show 20 Lines
// Vector Reverse.		// Vector Reverse.

// VREV64 : Vector Reverse elements within 64-bit doublewords		// VREV64 : Vector Reverse elements within 64-bit doublewords

class VREV64D<bits<2> op19_18, string OpcodeStr, string Dt, ValueType Ty>		class VREV64D<bits<2> op19_18, string OpcodeStr, string Dt, ValueType Ty>
: N2V<0b11, 0b11, op19_18, 0b00, 0b00000, 0, 0, (outs DPR:$Vd),		: N2V<0b11, 0b11, op19_18, 0b00, 0b00000, 0, 0, (outs DPR:$Vd),
(ins DPR:$Vm), IIC_VMOVD,		(ins DPR:$Vm), IIC_VMOVD,
OpcodeStr, Dt, "$Vd, $Vm", "",		OpcodeStr, Dt, "$Vd, $Vm", "",
[(set DPR:$Vd, (Ty (NEONvrev64 (Ty DPR:$Vm))))]>;		[(set DPR:$Vd, (Ty (ARMvrev64 (Ty DPR:$Vm))))]>;
class VREV64Q<bits<2> op19_18, string OpcodeStr, string Dt, ValueType Ty>		class VREV64Q<bits<2> op19_18, string OpcodeStr, string Dt, ValueType Ty>
: N2V<0b11, 0b11, op19_18, 0b00, 0b00000, 1, 0, (outs QPR:$Vd),		: N2V<0b11, 0b11, op19_18, 0b00, 0b00000, 1, 0, (outs QPR:$Vd),
(ins QPR:$Vm), IIC_VMOVQ,		(ins QPR:$Vm), IIC_VMOVQ,
OpcodeStr, Dt, "$Vd, $Vm", "",		OpcodeStr, Dt, "$Vd, $Vm", "",
[(set QPR:$Vd, (Ty (NEONvrev64 (Ty QPR:$Vm))))]>;		[(set QPR:$Vd, (Ty (ARMvrev64 (Ty QPR:$Vm))))]>;

def VREV64d8 : VREV64D<0b00, "vrev64", "8", v8i8>;		def VREV64d8 : VREV64D<0b00, "vrev64", "8", v8i8>;
def VREV64d16 : VREV64D<0b01, "vrev64", "16", v4i16>;		def VREV64d16 : VREV64D<0b01, "vrev64", "16", v4i16>;
def VREV64d32 : VREV64D<0b10, "vrev64", "32", v2i32>;		def VREV64d32 : VREV64D<0b10, "vrev64", "32", v2i32>;
let Predicates = [HasNEON] in {		let Predicates = [HasNEON] in {
def : Pat<(v2f32 (NEONvrev64 (v2f32 DPR:$Vm))), (VREV64d32 DPR:$Vm)>;		def : Pat<(v2f32 (ARMvrev64 (v2f32 DPR:$Vm))), (VREV64d32 DPR:$Vm)>;
}		}

def VREV64q8 : VREV64Q<0b00, "vrev64", "8", v16i8>;		def VREV64q8 : VREV64Q<0b00, "vrev64", "8", v16i8>;
def VREV64q16 : VREV64Q<0b01, "vrev64", "16", v8i16>;		def VREV64q16 : VREV64Q<0b01, "vrev64", "16", v8i16>;
def VREV64q32 : VREV64Q<0b10, "vrev64", "32", v4i32>;		def VREV64q32 : VREV64Q<0b10, "vrev64", "32", v4i32>;

let Predicates = [HasNEON] in {		let Predicates = [HasNEON] in {
def : Pat<(v4f32 (NEONvrev64 (v4f32 QPR:$Vm))), (VREV64q32 QPR:$Vm)>;		def : Pat<(v4f32 (ARMvrev64 (v4f32 QPR:$Vm))), (VREV64q32 QPR:$Vm)>;
def : Pat<(v8f16 (NEONvrev64 (v8f16 QPR:$Vm))), (VREV64q16 QPR:$Vm)>;		def : Pat<(v8f16 (ARMvrev64 (v8f16 QPR:$Vm))), (VREV64q16 QPR:$Vm)>;
def : Pat<(v4f16 (NEONvrev64 (v4f16 DPR:$Vm))), (VREV64d16 DPR:$Vm)>;		def : Pat<(v4f16 (ARMvrev64 (v4f16 DPR:$Vm))), (VREV64d16 DPR:$Vm)>;
}		}

// VREV32 : Vector Reverse elements within 32-bit words		// VREV32 : Vector Reverse elements within 32-bit words

class VREV32D<bits<2> op19_18, string OpcodeStr, string Dt, ValueType Ty>		class VREV32D<bits<2> op19_18, string OpcodeStr, string Dt, ValueType Ty>
: N2V<0b11, 0b11, op19_18, 0b00, 0b00001, 0, 0, (outs DPR:$Vd),		: N2V<0b11, 0b11, op19_18, 0b00, 0b00001, 0, 0, (outs DPR:$Vd),
(ins DPR:$Vm), IIC_VMOVD,		(ins DPR:$Vm), IIC_VMOVD,
OpcodeStr, Dt, "$Vd, $Vm", "",		OpcodeStr, Dt, "$Vd, $Vm", "",
[(set DPR:$Vd, (Ty (NEONvrev32 (Ty DPR:$Vm))))]>;		[(set DPR:$Vd, (Ty (ARMvrev32 (Ty DPR:$Vm))))]>;
class VREV32Q<bits<2> op19_18, string OpcodeStr, string Dt, ValueType Ty>		class VREV32Q<bits<2> op19_18, string OpcodeStr, string Dt, ValueType Ty>
: N2V<0b11, 0b11, op19_18, 0b00, 0b00001, 1, 0, (outs QPR:$Vd),		: N2V<0b11, 0b11, op19_18, 0b00, 0b00001, 1, 0, (outs QPR:$Vd),
(ins QPR:$Vm), IIC_VMOVQ,		(ins QPR:$Vm), IIC_VMOVQ,
OpcodeStr, Dt, "$Vd, $Vm", "",		OpcodeStr, Dt, "$Vd, $Vm", "",
[(set QPR:$Vd, (Ty (NEONvrev32 (Ty QPR:$Vm))))]>;		[(set QPR:$Vd, (Ty (ARMvrev32 (Ty QPR:$Vm))))]>;

def VREV32d8 : VREV32D<0b00, "vrev32", "8", v8i8>;		def VREV32d8 : VREV32D<0b00, "vrev32", "8", v8i8>;
def VREV32d16 : VREV32D<0b01, "vrev32", "16", v4i16>;		def VREV32d16 : VREV32D<0b01, "vrev32", "16", v4i16>;

def VREV32q8 : VREV32Q<0b00, "vrev32", "8", v16i8>;		def VREV32q8 : VREV32Q<0b00, "vrev32", "8", v16i8>;
def VREV32q16 : VREV32Q<0b01, "vrev32", "16", v8i16>;		def VREV32q16 : VREV32Q<0b01, "vrev32", "16", v8i16>;

// VREV16 : Vector Reverse elements within 16-bit halfwords		// VREV16 : Vector Reverse elements within 16-bit halfwords

class VREV16D<bits<2> op19_18, string OpcodeStr, string Dt, ValueType Ty>		class VREV16D<bits<2> op19_18, string OpcodeStr, string Dt, ValueType Ty>
: N2V<0b11, 0b11, op19_18, 0b00, 0b00010, 0, 0, (outs DPR:$Vd),		: N2V<0b11, 0b11, op19_18, 0b00, 0b00010, 0, 0, (outs DPR:$Vd),
(ins DPR:$Vm), IIC_VMOVD,		(ins DPR:$Vm), IIC_VMOVD,
OpcodeStr, Dt, "$Vd, $Vm", "",		OpcodeStr, Dt, "$Vd, $Vm", "",
[(set DPR:$Vd, (Ty (NEONvrev16 (Ty DPR:$Vm))))]>;		[(set DPR:$Vd, (Ty (ARMvrev16 (Ty DPR:$Vm))))]>;
class VREV16Q<bits<2> op19_18, string OpcodeStr, string Dt, ValueType Ty>		class VREV16Q<bits<2> op19_18, string OpcodeStr, string Dt, ValueType Ty>
: N2V<0b11, 0b11, op19_18, 0b00, 0b00010, 1, 0, (outs QPR:$Vd),		: N2V<0b11, 0b11, op19_18, 0b00, 0b00010, 1, 0, (outs QPR:$Vd),
(ins QPR:$Vm), IIC_VMOVQ,		(ins QPR:$Vm), IIC_VMOVQ,
OpcodeStr, Dt, "$Vd, $Vm", "",		OpcodeStr, Dt, "$Vd, $Vm", "",
[(set QPR:$Vd, (Ty (NEONvrev16 (Ty QPR:$Vm))))]>;		[(set QPR:$Vd, (Ty (ARMvrev16 (Ty QPR:$Vm))))]>;

def VREV16d8 : VREV16D<0b00, "vrev16", "8", v8i8>;		def VREV16d8 : VREV16D<0b00, "vrev16", "8", v8i8>;
def VREV16q8 : VREV16Q<0b00, "vrev16", "8", v16i8>;		def VREV16q8 : VREV16Q<0b00, "vrev16", "8", v16i8>;

// Other Vector Shuffles.		// Other Vector Shuffles.

// Aligned extractions: really just dropping registers		// Aligned extractions: really just dropping registers

▲ Show 20 Lines • Show All 2,043 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-shuffle.ll

This file was added.

				; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
				; RUN: llc -mtriple=thumbv8.1m.main-arm-none-eabi -mattr=+mve.fp -verify-machineinstrs %s -o - \| FileCheck %s

				SjoerdMeijerUnsubmitted Not Done Reply Inline Actions Do we need tests when we don't have HasMVEInt? Or is that not really useful (or done elsewhere already)? SjoerdMeijer: Do we need tests when we don't have HasMVEInt? Or is that not really useful (or done elsewhere…
				dmgreenAuthorUnsubmitted Not Done Reply Inline Actions Yeah, This certainly sounds like something that should work. We may need to make some adjustments first to the calling convention and what is a legal type. dmgreen: Yeah, This certainly sounds like something that should work. We may need to make some…
				define arm_aapcs_vfpcc <4 x i32> @shuffle1_i32(<4 x i32> %src) {
				; CHECK-LABEL: shuffle1_i32:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmov.f32 s4, s3
				; CHECK-NEXT: vmov.f32 s5, s2
				; CHECK-NEXT: vmov.f32 s6, s1
				; CHECK-NEXT: vmov.f32 s7, s0
				; CHECK-NEXT: vmov q0, q1
				; CHECK-NEXT: bx lr
				entry:
				%out = shufflevector <4 x i32> %src, <4 x i32> undef, <4 x i32> <i32 3, i32 2, i32 1, i32 0>
				ret <4 x i32> %out
				}

				define arm_aapcs_vfpcc <4 x i32> @shuffle2_i32(<4 x i32> %src) {
				; CHECK-LABEL: shuffle2_i32:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: bx lr
				entry:
				%out = shufflevector <4 x i32> %src, <4 x i32> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
				ret <4 x i32> %out
				}

				define arm_aapcs_vfpcc <4 x i32> @shuffle3_i32(<4 x i32> %src) {
				; CHECK-LABEL: shuffle3_i32:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmov.f32 s4, s3
				; CHECK-NEXT: vmov.f32 s5, s1
				; CHECK-NEXT: vmov.f32 s6, s2
				; CHECK-NEXT: vmov.f32 s7, s0
				; CHECK-NEXT: vmov q0, q1
				; CHECK-NEXT: bx lr
				entry:
				%out = shufflevector <4 x i32> %src, <4 x i32> undef, <4 x i32> <i32 3, i32 1, i32 2, i32 0>
				ret <4 x i32> %out
				}

				define arm_aapcs_vfpcc <4 x i32> @shuffle5_i32(<4 x i32> %src) {
				; CHECK-LABEL: shuffle5_i32:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vrev64.32 q0, q0
				; CHECK-NEXT: bx lr
				entry:
				%out = shufflevector <4 x i32> %src, <4 x i32> undef, <4 x i32> <i32 1, i32 0, i32 3, i32 2>
				ret <4 x i32> %out
				}

				define arm_aapcs_vfpcc <4 x i32> @shuffle6_i32(<4 x i32> %src) {
				; CHECK-LABEL: shuffle6_i32:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: bx lr
				entry:
				%out = shufflevector <4 x i32> %src, <4 x i32> undef, <4 x i32> <i32 undef, i32 undef, i32 undef, i32 3>
				ret <4 x i32> %out
				}

				define arm_aapcs_vfpcc <8 x i16> @shuffle1_i16(<8 x i16> %src) {
				; CHECK-LABEL: shuffle1_i16:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmov q1, q0
				; CHECK-NEXT: vmov.u16 r0, q0[7]
				; CHECK-NEXT: vmov.16 q0[0], r0
				; CHECK-NEXT: vmov.u16 r0, q1[6]
				; CHECK-NEXT: vmov.16 q0[1], r0
				; CHECK-NEXT: vmov.u16 r0, q1[5]
				; CHECK-NEXT: vmov.16 q0[2], r0
				; CHECK-NEXT: vmov.u16 r0, q1[4]
				; CHECK-NEXT: vmov.16 q0[3], r0
				; CHECK-NEXT: vmov.u16 r0, q1[3]
				; CHECK-NEXT: vmov.16 q0[4], r0
				; CHECK-NEXT: vmov.u16 r0, q1[2]
				; CHECK-NEXT: vmov.16 q0[5], r0
				; CHECK-NEXT: vmov.u16 r0, q1[1]
				; CHECK-NEXT: vmov.16 q0[6], r0
				; CHECK-NEXT: vmov.u16 r0, q1[0]
				; CHECK-NEXT: vmov.16 q0[7], r0
				; CHECK-NEXT: bx lr
				entry:
				%out = shufflevector <8 x i16> %src, <8 x i16> undef, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				ret <8 x i16> %out
				}

				define arm_aapcs_vfpcc <8 x i16> @shuffle2_i16(<8 x i16> %src) {
				; CHECK-LABEL: shuffle2_i16:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: bx lr
				entry:
				%out = shufflevector <8 x i16> %src, <8 x i16> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
				ret <8 x i16> %out
				}

				define arm_aapcs_vfpcc <8 x i16> @shuffle3_i16(<8 x i16> %src) {
				; CHECK-LABEL: shuffle3_i16:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmov q1, q0
				; CHECK-NEXT: vmov.u16 r0, q0[4]
				; CHECK-NEXT: vmov.16 q0[0], r0
				; CHECK-NEXT: vmov.u16 r0, q1[5]
				; CHECK-NEXT: vmov.16 q0[1], r0
				; CHECK-NEXT: vmov.u16 r0, q1[7]
				; CHECK-NEXT: vmov.16 q0[2], r0
				; CHECK-NEXT: vmov.u16 r0, q1[6]
				; CHECK-NEXT: vmov.16 q0[3], r0
				; CHECK-NEXT: vmov.u16 r0, q1[3]
				; CHECK-NEXT: vmov.16 q0[4], r0
				; CHECK-NEXT: vmov.u16 r0, q1[1]
				; CHECK-NEXT: vmov.16 q0[5], r0
				; CHECK-NEXT: vmov.u16 r0, q1[2]
				; CHECK-NEXT: vmov.16 q0[6], r0
				; CHECK-NEXT: vmov.u16 r0, q1[0]
				; CHECK-NEXT: vmov.16 q0[7], r0
				; CHECK-NEXT: bx lr
				entry:
				%out = shufflevector <8 x i16> %src, <8 x i16> undef, <8 x i32> <i32 4, i32 5, i32 7, i32 6, i32 3, i32 1, i32 2, i32 0>
				ret <8 x i16> %out
				}

				define arm_aapcs_vfpcc <8 x i16> @shuffle5_i16(<8 x i16> %src) {
				; CHECK-LABEL: shuffle5_i16:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vrev64.16 q0, q0
				; CHECK-NEXT: bx lr
				entry:
				%out = shufflevector <8 x i16> %src, <8 x i16> undef, <8 x i32> <i32 3, i32 2, i32 1, i32 0, i32 7, i32 6, i32 5, i32 4>
				ret <8 x i16> %out
				}

				define arm_aapcs_vfpcc <8 x i16> @shuffle6_i16(<8 x i16> %src) {
				; CHECK-LABEL: shuffle6_i16:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vrev32.16 q0, q0
				; CHECK-NEXT: bx lr
				entry:
				%out = shufflevector <8 x i16> %src, <8 x i16> undef, <8 x i32> <i32 1, i32 0, i32 3, i32 2, i32 5, i32 4, i32 7, i32 6>
				ret <8 x i16> %out
				}

				define arm_aapcs_vfpcc <16 x i8> @shuffle1_i8(<16 x i8> %src) {
				; CHECK-LABEL: shuffle1_i8:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmov q1, q0
				; CHECK-NEXT: vmov.u8 r0, q0[15]
				; CHECK-NEXT: vmov.8 q0[0], r0
				; CHECK-NEXT: vmov.u8 r0, q1[14]
				; CHECK-NEXT: vmov.8 q0[1], r0
				; CHECK-NEXT: vmov.u8 r0, q1[13]
				; CHECK-NEXT: vmov.8 q0[2], r0
				; CHECK-NEXT: vmov.u8 r0, q1[12]
				; CHECK-NEXT: vmov.8 q0[3], r0
				; CHECK-NEXT: vmov.u8 r0, q1[11]
				; CHECK-NEXT: vmov.8 q0[4], r0
				; CHECK-NEXT: vmov.u8 r0, q1[10]
				; CHECK-NEXT: vmov.8 q0[5], r0
				; CHECK-NEXT: vmov.u8 r0, q1[9]
				; CHECK-NEXT: vmov.8 q0[6], r0
				; CHECK-NEXT: vmov.u8 r0, q1[8]
				; CHECK-NEXT: vmov.8 q0[7], r0
				; CHECK-NEXT: vmov.u8 r0, q1[7]
				; CHECK-NEXT: vmov.8 q0[8], r0
				; CHECK-NEXT: vmov.u8 r0, q1[6]
				; CHECK-NEXT: vmov.8 q0[9], r0
				; CHECK-NEXT: vmov.u8 r0, q1[5]
				; CHECK-NEXT: vmov.8 q0[10], r0
				; CHECK-NEXT: vmov.u8 r0, q1[4]
				; CHECK-NEXT: vmov.8 q0[11], r0
				; CHECK-NEXT: vmov.u8 r0, q1[3]
				; CHECK-NEXT: vmov.8 q0[12], r0
				; CHECK-NEXT: vmov.u8 r0, q1[2]
				; CHECK-NEXT: vmov.8 q0[13], r0
				; CHECK-NEXT: vmov.u8 r0, q1[1]
				; CHECK-NEXT: vmov.8 q0[14], r0
				; CHECK-NEXT: vmov.u8 r0, q1[0]
				; CHECK-NEXT: vmov.8 q0[15], r0
				; CHECK-NEXT: bx lr
				entry:
				%out = shufflevector <16 x i8> %src, <16 x i8> undef, <16 x i32> <i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8, i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				ret <16 x i8> %out
				}

				define arm_aapcs_vfpcc <16 x i8> @shuffle2_i8(<16 x i8> %src) {
				; CHECK-LABEL: shuffle2_i8:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: bx lr
				entry:
				%out = shufflevector <16 x i8> %src, <16 x i8> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15>
				ret <16 x i8> %out
				}

				define arm_aapcs_vfpcc <16 x i8> @shuffle3_i8(<16 x i8> %src) {
				; CHECK-LABEL: shuffle3_i8:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmov q1, q0
				; CHECK-NEXT: vmov.u8 r0, q0[4]
				; CHECK-NEXT: vmov.8 q0[0], r0
				; CHECK-NEXT: vmov.u8 r0, q1[5]
				; CHECK-NEXT: vmov.8 q0[1], r0
				; CHECK-NEXT: vmov.u8 r0, q1[15]
				; CHECK-NEXT: vmov.8 q0[2], r0
				; CHECK-NEXT: vmov.u8 r0, q1[7]
				; CHECK-NEXT: vmov.8 q0[3], r0
				; CHECK-NEXT: vmov.u8 r0, q1[14]
				; CHECK-NEXT: vmov.8 q0[4], r0
				; CHECK-NEXT: vmov.u8 r0, q1[9]
				; CHECK-NEXT: vmov.8 q0[5], r0
				; CHECK-NEXT: vmov.u8 r0, q1[6]
				; CHECK-NEXT: vmov.8 q0[6], r0
				; CHECK-NEXT: vmov.u8 r0, q1[3]
				; CHECK-NEXT: vmov.8 q0[7], r0
				; CHECK-NEXT: vmov.u8 r0, q1[10]
				; CHECK-NEXT: vmov.8 q0[8], r0
				; CHECK-NEXT: vmov.u8 r0, q1[12]
				; CHECK-NEXT: vmov.8 q0[9], r0
				; CHECK-NEXT: vmov.u8 r0, q1[1]
				; CHECK-NEXT: vmov.8 q0[10], r0
				; CHECK-NEXT: vmov.u8 r0, q1[13]
				; CHECK-NEXT: vmov.8 q0[11], r0
				; CHECK-NEXT: vmov.u8 r0, q1[2]
				; CHECK-NEXT: vmov.8 q0[12], r0
				; CHECK-NEXT: vmov.u8 r0, q1[8]
				; CHECK-NEXT: vmov.8 q0[13], r0
				; CHECK-NEXT: vmov.u8 r0, q1[0]
				; CHECK-NEXT: vmov.8 q0[14], r0
				; CHECK-NEXT: vmov.u8 r0, q1[11]
				; CHECK-NEXT: vmov.8 q0[15], r0
				; CHECK-NEXT: bx lr
				entry:
				%out = shufflevector <16 x i8> %src, <16 x i8> undef, <16 x i32> <i32 4, i32 5, i32 15, i32 7, i32 14, i32 9, i32 6, i32 3, i32 10, i32 12, i32 1, i32 13, i32 2, i32 8, i32 0, i32 11>
				ret <16 x i8> %out
				}

				define arm_aapcs_vfpcc <16 x i8> @shuffle5_i8(<16 x i8> %src) {
				; CHECK-LABEL: shuffle5_i8:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vrev64.8 q0, q0
				; CHECK-NEXT: bx lr
				entry:
				%out = shufflevector <16 x i8> %src, <16 x i8> undef, <16 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0, i32 15, i32 14, i32 13, i32 12, i32 11, i32 10, i32 9, i32 8>
				ret <16 x i8> %out
				}

				define arm_aapcs_vfpcc <16 x i8> @shuffle6_i8(<16 x i8> %src) {
				; CHECK-LABEL: shuffle6_i8:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vrev32.8 q0, q0
				; CHECK-NEXT: bx lr
				entry:
				%out = shufflevector <16 x i8> %src, <16 x i8> undef, <16 x i32> <i32 3, i32 2, i32 1, i32 0, i32 7, i32 6, i32 5, i32 4, i32 11, i32 10, i32 9, i32 8, i32 15, i32 14, i32 13, i32 12>
				ret <16 x i8> %out
				}

				define arm_aapcs_vfpcc <16 x i8> @shuffle7_i8(<16 x i8> %src) {
				; CHECK-LABEL: shuffle7_i8:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vrev16.8 q0, q0
				; CHECK-NEXT: bx lr
				entry:
				%out = shufflevector <16 x i8> %src, <16 x i8> undef, <16 x i32> <i32 1, i32 0, i32 3, i32 2, i32 5, i32 4, i32 7, i32 6, i32 9, i32 8, i32 11, i32 10, i32 13, i32 12, i32 15, i32 14>
				ret <16 x i8> %out
				}

				define arm_aapcs_vfpcc <4 x float> @shuffle1_f32(<4 x float> %src) {
				; CHECK-LABEL: shuffle1_f32:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmov.f32 s4, s3
				; CHECK-NEXT: vmov.f32 s5, s2
				; CHECK-NEXT: vmov.f32 s6, s1
				; CHECK-NEXT: vmov.f32 s7, s0
				; CHECK-NEXT: vmov q0, q1
				; CHECK-NEXT: bx lr
				entry:
				%out = shufflevector <4 x float> %src, <4 x float> undef, <4 x i32> <i32 3, i32 2, i32 1, i32 0>
				ret <4 x float> %out
				}

				define arm_aapcs_vfpcc <4 x float> @shuffle2_f32(<4 x float> %src) {
				; CHECK-LABEL: shuffle2_f32:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: bx lr
				entry:
				%out = shufflevector <4 x float> %src, <4 x float> undef, <4 x i32> <i32 0, i32 1, i32 2, i32 3>
				ret <4 x float> %out
				}

				define arm_aapcs_vfpcc <4 x float> @shuffle3_f32(<4 x float> %src) {
				; CHECK-LABEL: shuffle3_f32:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmov.f32 s4, s3
				; CHECK-NEXT: vmov.f32 s5, s1
				; CHECK-NEXT: vmov.f32 s6, s2
				; CHECK-NEXT: vmov.f32 s7, s0
				; CHECK-NEXT: vmov q0, q1
				; CHECK-NEXT: bx lr
				entry:
				%out = shufflevector <4 x float> %src, <4 x float> undef, <4 x i32> <i32 3, i32 1, i32 2, i32 0>
				ret <4 x float> %out
				}

				define arm_aapcs_vfpcc <4 x float> @shuffle5_f32(<4 x float> %src) {
				; CHECK-LABEL: shuffle5_f32:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vrev64.32 q0, q0
				; CHECK-NEXT: bx lr
				entry:
				%out = shufflevector <4 x float> %src, <4 x float> undef, <4 x i32> <i32 1, i32 0, i32 3, i32 2>
				ret <4 x float> %out
				}

				define arm_aapcs_vfpcc <8 x half> @shuffle1_f16(<8 x half> %src) {
				; CHECK-LABEL: shuffle1_f16:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmov.u16 r0, q0[7]
				; CHECK-NEXT: vmov.u16 r1, q0[6]
				; CHECK-NEXT: vmov.16 q1[0], r0
				; CHECK-NEXT: vmov.u16 r0, q0[5]
				; CHECK-NEXT: vmov.16 q1[1], r1
				; CHECK-NEXT: vmov.16 q1[2], r0
				; CHECK-NEXT: vmov.u16 r0, q0[4]
				; CHECK-NEXT: vmov.16 q1[3], r0
				; CHECK-NEXT: vmov.u16 r0, q0[3]
				; CHECK-NEXT: vmov.16 q1[4], r0
				; CHECK-NEXT: vmov.u16 r0, q0[2]
				; CHECK-NEXT: vmov.16 q1[5], r0
				; CHECK-NEXT: vmov.u16 r0, q0[1]
				; CHECK-NEXT: vmov.16 q1[6], r0
				; CHECK-NEXT: vmov.u16 r0, q0[0]
				; CHECK-NEXT: vmov.16 q1[7], r0
				; CHECK-NEXT: vmov q0, q1
				; CHECK-NEXT: bx lr
				entry:
				%out = shufflevector <8 x half> %src, <8 x half> undef, <8 x i32> <i32 7, i32 6, i32 5, i32 4, i32 3, i32 2, i32 1, i32 0>
				ret <8 x half> %out
				}

				define arm_aapcs_vfpcc <8 x half> @shuffle2_f16(<8 x half> %src) {
				; CHECK-LABEL: shuffle2_f16:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: bx lr
				entry:
				%out = shufflevector <8 x half> %src, <8 x half> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
				ret <8 x half> %out
				}

				define arm_aapcs_vfpcc <8 x half> @shuffle3_f16(<8 x half> %src) {
				; CHECK-LABEL: shuffle3_f16:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmov.u16 r0, q0[4]
				; CHECK-NEXT: vmov.u16 r1, q0[5]
				; CHECK-NEXT: vmov.16 q1[0], r0
				; CHECK-NEXT: vmov.u16 r0, q0[7]
				; CHECK-NEXT: vmov.16 q1[1], r1
				; CHECK-NEXT: vmov.16 q1[2], r0
				; CHECK-NEXT: vmov.u16 r0, q0[6]
				; CHECK-NEXT: vmov.16 q1[3], r0
				; CHECK-NEXT: vmov.u16 r0, q0[3]
				; CHECK-NEXT: vmov.16 q1[4], r0
				; CHECK-NEXT: vmov.u16 r0, q0[1]
				; CHECK-NEXT: vmov.16 q1[5], r0
				; CHECK-NEXT: vmov.u16 r0, q0[2]
				; CHECK-NEXT: vmov.16 q1[6], r0
				; CHECK-NEXT: vmov.u16 r0, q0[0]
				; CHECK-NEXT: vmov.16 q1[7], r0
				; CHECK-NEXT: vmov q0, q1
				; CHECK-NEXT: bx lr
				entry:
				%out = shufflevector <8 x half> %src, <8 x half> undef, <8 x i32> <i32 4, i32 5, i32 7, i32 6, i32 3, i32 1, i32 2, i32 0>
				ret <8 x half> %out
				}

				define arm_aapcs_vfpcc <8 x half> @shuffle5_f16(<8 x half> %src) {
				; CHECK-LABEL: shuffle5_f16:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vrev64.16 q0, q0
				; CHECK-NEXT: bx lr
				entry:
				%out = shufflevector <8 x half> %src, <8 x half> undef, <8 x i32> <i32 3, i32 2, i32 1, i32 0, i32 7, i32 6, i32 5, i32 4>
				ret <8 x half> %out
				}

				define arm_aapcs_vfpcc <8 x half> @shuffle6_f16(<8 x half> %src) {
				; CHECK-LABEL: shuffle6_f16:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vrev32.16 q0, q0
				; CHECK-NEXT: bx lr
				entry:
				%out = shufflevector <8 x half> %src, <8 x half> undef, <8 x i32> <i32 1, i32 0, i32 3, i32 2, i32 5, i32 4, i32 7, i32 6>
				ret <8 x half> %out
				}


				define arm_aapcs_vfpcc <4 x i32> @insert_i32(i32 %a) {
				; CHECK-LABEL: insert_i32:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmov.32 q0[0], r0
				; CHECK-NEXT: bx lr
				entry:
				%res = insertelement <4 x i32> undef, i32 %a, i32 0
				ret <4 x i32> %res
				}

				define arm_aapcs_vfpcc <8 x i16> @insert_i16(i16 %a) {
				; CHECK-LABEL: insert_i16:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmov.16 q0[0], r0
				; CHECK-NEXT: bx lr
				entry:
				%res = insertelement <8 x i16> undef, i16 %a, i32 0
				ret <8 x i16> %res
				}

				define arm_aapcs_vfpcc <16 x i8> @insert_i8(i8 %a) {
				; CHECK-LABEL: insert_i8:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmov.8 q0[0], r0
				; CHECK-NEXT: bx lr
				entry:
				%res = insertelement <16 x i8> undef, i8 %a, i32 0
				ret <16 x i8> %res
				}

				define arm_aapcs_vfpcc <4 x float> @insert_f32(float %a) {
				; CHECK-LABEL: insert_f32:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: @ kill: def $s0 killed $s0 def $q0
				; CHECK-NEXT: bx lr
				entry:
				%res = insertelement <4 x float> undef, float %a, i32 0
				ret <4 x float> %res
				}

				; TODO: Calling convention needs fixing to pass half types directly to functions
				define arm_aapcs_vfpcc <8 x half> @insert_f16(half *%aa) {
				; CHECK-LABEL: insert_f16:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vldr.16 s0, [r0]
				; CHECK-NEXT: bx lr
				entry:
				%a = load half, half* %aa
				%res = insertelement <8 x half> undef, half %a, i32 0
				ret <8 x half> %res
				}

				define arm_aapcs_vfpcc i64 @scalar_to_vector_i32(<8 x i16> %v) {
				; CHECK-LABEL: scalar_to_vector_i32:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: .pad #8
				; CHECK-NEXT: sub sp, #8
				; CHECK-NEXT: movs r0, #7
				; CHECK-NEXT: movs r1, #1
				; CHECK-NEXT: strh.w r0, [sp, #2]
				; CHECK-NEXT: vmov.u16 r0, q0[0]
				; CHECK-NEXT: strh.w r0, [sp]
				; CHECK-NEXT: movt r1, #9
				; CHECK-NEXT: ldr r0, [sp]
				; CHECK-NEXT: add sp, #8
				; CHECK-NEXT: bx lr
				entry:
				%f = shufflevector <8 x i16> %v, <8 x i16> <i16 undef, i16 7, i16 1, i16 9, i16 undef, i16 undef, i16 undef, i16 undef>, <4 x i32> <i32 0, i32 9, i32 10, i32 11>
				%0 = bitcast <4 x i16> %f to i64
				ret i64 %0
				}


				define arm_aapcs_vfpcc i32 @extract_i32_0(<4 x i32> %a) {
				; CHECK-LABEL: extract_i32_0:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmov r0, s0
				; CHECK-NEXT: bx lr
				entry:
				%res = extractelement <4 x i32> %a, i32 0
				ret i32 %res
				}

				define arm_aapcs_vfpcc i32 @extract_i32_3(<4 x i32> %a) {
				; CHECK-LABEL: extract_i32_3:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmov r0, s3
				; CHECK-NEXT: bx lr
				entry:
				%res = extractelement <4 x i32> %a, i32 3
				ret i32 %res
				}

				define arm_aapcs_vfpcc i16 @extract_i16_0(<8 x i16> %a) {
				; CHECK-LABEL: extract_i16_0:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmov.u16 r0, q0[0]
				; CHECK-NEXT: bx lr
				entry:
				%res = extractelement <8 x i16> %a, i32 0
				ret i16 %res
				}

				define arm_aapcs_vfpcc i16 @extract_i16_3(<8 x i16> %a) {
				; CHECK-LABEL: extract_i16_3:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmov.u16 r0, q0[3]
				; CHECK-NEXT: bx lr
				entry:
				%res = extractelement <8 x i16> %a, i32 3
				ret i16 %res
				}

				define arm_aapcs_vfpcc i8 @extract_i8_0(<16 x i8> %a) {
				; CHECK-LABEL: extract_i8_0:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmov.u8 r0, q0[0]
				; CHECK-NEXT: bx lr
				entry:
				%res = extractelement <16 x i8> %a, i32 0
				ret i8 %res
				}

				define arm_aapcs_vfpcc i8 @extract_i8_3(<16 x i8> %a) {
				; CHECK-LABEL: extract_i8_3:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmov.u8 r0, q0[3]
				; CHECK-NEXT: bx lr
				entry:
				%res = extractelement <16 x i8> %a, i32 3
				ret i8 %res
				}

				define arm_aapcs_vfpcc float @extract_f32_0(<4 x float> %a) {
				; CHECK-LABEL: extract_f32_0:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: @ kill: def $s0 killed $s0 killed $q0
				; CHECK-NEXT: bx lr
				entry:
				%res = extractelement <4 x float> %a, i32 0
				ret float %res
				}

				define arm_aapcs_vfpcc float @extract_f32_3(<4 x float> %a) {
				; CHECK-LABEL: extract_f32_3:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmov.f32 s0, s3
				; CHECK-NEXT: bx lr
				entry:
				%res = extractelement <4 x float> %a, i32 3
				ret float %res
				}

				define arm_aapcs_vfpcc half @extract_f16_0(<8 x half> %a) {
				; CHECK-LABEL: extract_f16_0:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmov.u16 r1, q0[0]
				; CHECK-NEXT: vmov s0, r1
				; CHECK-NEXT: vstr.16 s0, [r0]
				; CHECK-NEXT: bx lr
				entry:
				%res = extractelement <8 x half> %a, i32 0
				ret half %res
				}

				; TODO: Calling convention needs fixing to pass half types correctly
				define arm_aapcs_vfpcc half @extract_f16_3(<8 x half> %a) {
				; CHECK-LABEL: extract_f16_3:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmov.u16 r1, q0[3]
				; CHECK-NEXT: vmov s0, r1
				; CHECK-NEXT: vstr.16 s0, [r0]
				; CHECK-NEXT: bx lr
				entry:
				%res = extractelement <8 x half> %a, i32 3
				ret half %res
				}

llvm/test/CodeGen/Thumb2/mve-vdup.ll

This file was added.

				; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
				; RUN: llc -mtriple=thumbv8.1m.main-arm-none-eabi -mattr=+mve.fp %s -o - \| FileCheck %s

				define arm_aapcs_vfpcc <4 x i32> @vdup_i32(i32 %src) {
				; CHECK-LABEL: vdup_i32:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vdup.32 q0, r0
				; CHECK-NEXT: bx lr
				entry:
				%0 = insertelement <4 x i32> undef, i32 %src, i32 0
				%out = shufflevector <4 x i32> %0, <4 x i32> undef, <4 x i32> zeroinitializer
				ret <4 x i32> %out
				}

				define arm_aapcs_vfpcc <8 x i16> @vdup_i16(i16 %src) {
				; CHECK-LABEL: vdup_i16:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vdup.16 q0, r0
				; CHECK-NEXT: bx lr
				entry:
				%0 = insertelement <8 x i16> undef, i16 %src, i32 0
				%out = shufflevector <8 x i16> %0, <8 x i16> undef, <8 x i32> zeroinitializer
				ret <8 x i16> %out
				}

				define arm_aapcs_vfpcc <16 x i8> @vdup_i8(i8 %src) {
				; CHECK-LABEL: vdup_i8:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vdup.8 q0, r0
				; CHECK-NEXT: bx lr
				entry:
				%0 = insertelement <16 x i8> undef, i8 %src, i32 0
				%out = shufflevector <16 x i8> %0, <16 x i8> undef, <16 x i32> zeroinitializer
				ret <16 x i8> %out
				}

				define arm_aapcs_vfpcc <4 x float> @vdup_f32_1(float %src) {
				; CHECK-LABEL: vdup_f32_1:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmov r0, s0
				; CHECK-NEXT: vdup.32 q0, r0
				; CHECK-NEXT: bx lr
				entry:
				%0 = insertelement <4 x float> undef, float %src, i32 0
				%out = shufflevector <4 x float> %0, <4 x float> undef, <4 x i32> zeroinitializer
				ret <4 x float> %out
				}

				define arm_aapcs_vfpcc <4 x float> @vdup_f32_2(float %src1, float %src2) {
				; CHECK-LABEL: vdup_f32_2:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vadd.f32 s0, s0, s1
				; CHECK-NEXT: vmov r0, s0
				; CHECK-NEXT: vdup.32 q0, r0
				; CHECK-NEXT: bx lr
				entry:
				%0 = fadd float %src1, %src2
				%1 = insertelement <4 x float> undef, float %0, i32 0
				%out = shufflevector <4 x float> %1, <4 x float> undef, <4 x i32> zeroinitializer
				ret <4 x float> %out
				}

				; TODO: Calling convention needs fixing to pass half types directly to functions
				define arm_aapcs_vfpcc <8 x half> @vdup_f16(half* %src1, half* %src2) {
				; CHECK-LABEL: vdup_f16:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vldr.16 s0, [r1]
				; CHECK-NEXT: vldr.16 s2, [r0]
				; CHECK-NEXT: vadd.f16 s0, s2, s0
				; CHECK-NEXT: vmov r0, s0
				; CHECK-NEXT: vdup.16 q0, r0
				; CHECK-NEXT: bx lr
				entry:
				%0 = load half, half *%src1, align 2
				%1 = load half, half *%src2, align 2
				%2 = fadd half %0, %1
				%3 = insertelement <8 x half> undef, half %2, i32 0
				%out = shufflevector <8 x half> %3, <8 x half> undef, <8 x i32> zeroinitializer
				ret <8 x half> %out
				}



				define arm_aapcs_vfpcc <4 x i32> @vduplane_i32(<4 x i32> %src) {
				; CHECK-LABEL: vduplane_i32:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmov.32 r0, q0[3]
				; CHECK-NEXT: vdup.32 q0, r0
				; CHECK-NEXT: bx lr
				entry:
				%out = shufflevector <4 x i32> %src, <4 x i32> undef, <4 x i32> <i32 3, i32 3, i32 3, i32 3>
				ret <4 x i32> %out
				}

				define arm_aapcs_vfpcc <8 x i16> @vduplane_i16(<8 x i16> %src) {
				; CHECK-LABEL: vduplane_i16:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmov.u16 r0, q0[3]
				; CHECK-NEXT: vdup.16 q0, r0
				; CHECK-NEXT: bx lr
				entry:
				%out = shufflevector <8 x i16> %src, <8 x i16> undef, <8 x i32> <i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3>
				ret <8 x i16> %out
				}

				define arm_aapcs_vfpcc <16 x i8> @vduplane_i8(<16 x i8> %src) {
				; CHECK-LABEL: vduplane_i8:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmov.u8 r0, q0[3]
				; CHECK-NEXT: vdup.8 q0, r0
				; CHECK-NEXT: bx lr
				entry:
				%out = shufflevector <16 x i8> %src, <16 x i8> undef, <16 x i32> <i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3>
				ret <16 x i8> %out
				}

				define arm_aapcs_vfpcc <4 x float> @vduplane_f32(<4 x float> %src) {
				; CHECK-LABEL: vduplane_f32:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmov.32 r0, q0[3]
				; CHECK-NEXT: vdup.32 q0, r0
				; CHECK-NEXT: bx lr
				entry:
				%out = shufflevector <4 x float> %src, <4 x float> undef, <4 x i32> <i32 3, i32 3, i32 3, i32 3>
				ret <4 x float> %out
				}

				define arm_aapcs_vfpcc <8 x half> @vduplane_f16(<8 x half> %src) {
				; CHECK-LABEL: vduplane_f16:
				; CHECK: @ %bb.0: @ %entry
				; CHECK-NEXT: vmov.u16 r0, q0[3]
				; CHECK-NEXT: vdup.16 q0, r0
				; CHECK-NEXT: bx lr
				entry:
				%out = shufflevector <8 x half> %src, <8 x half> undef, <8 x i32> <i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3, i32 3>
				ret <8 x half> %out
				}