This is an archive of the discontinued LLVM Phabricator instance.

[ARM] MVE VMULL patterns
ClosedPublic

Authored by dmgreen on Mar 24 2020, 4:32 PM.

Download Raw Diff

Details

Reviewers

samparker
SjoerdMeijer
simon_tatham
ostannard

Commits

rGfbd53ffc3ad9: [ARM] MVE VMULL patterns

Summary

This adds MVE vmull patterns, which are conceptually the same as mul(vmovl, vmovl), and so the tablegen patterns follow the same structure.

For i8 and i16 this is simple enough, but in the i32 version the multiply (in 64bits) is illegal, meaning we need to catch the pattern earlier in a dag fold. Because bitcasts are involved in the zext versions and the patterns are a little different in little and big endian. I have only added little endian support in this patch.

Diff Detail

Event Timeline

dmgreen created this revision.Mar 24 2020, 4:32 PM

Herald added subscribers: hiraditya, kristof.beyls. · View Herald TranscriptMar 24 2020, 4:32 PM

samparker added inline comments.Mar 25 2020, 5:28 AM

llvm/lib/Target/ARM/ARMISelLowering.cpp
12166	I'm a bit confused here... this looks like the AND mask is taking the 'top' parts of the elements, and if so, why don't we have to handle a 'bottom' element mask? Is this to do with the revs I see in the isel patterns?

Added some tests for both top and bottom vmull's

llvm/lib/Target/ARM/ARMISelLowering.cpp
12166	I think this is bottom half? The 0 element is bottom half of the i64, 1 element would be top half of it. And yes, the other pattern vmullt is the same pattern with some vrev's that we match in tablegen. You reminded me that I did want to add some tests for both top and bottom at the same time.

LGTM

llvm/lib/Target/ARM/ARMISelLowering.cpp
12166	Hmm, not sure how I misread that!
llvm/test/CodeGen/Thumb2/mve-vmull.ll
52–53	Do you know why we sometimes can't write to q0 too?

This revision is now accepted and ready to land.Mar 27 2020, 5:09 AM

Thanks.

llvm/test/CodeGen/Thumb2/mve-vmull.ll
52–53	The i32 version is earlyclobber because it needs to work cross-lane. I think it's UNPREDICTABLE if Qd == Qn or Qm

Closed by commit rGfbd53ffc3ad9: [ARM] MVE VMULL patterns (authored by dmgreen). · Explain WhyApr 2 2020, 3:14 AM

This revision was automatically updated to reflect the committed changes.

Herald added a project: Restricted Project. · View Herald TranscriptApr 2 2020, 3:14 AM

Revision Contents

Path

Size

llvm/

lib/

Target/

ARM/

70 lines

5 lines

69 lines

29 lines

test/

CodeGen/

Thumb2/

mve-vecreduce-mla.ll

168 lines

mve-vmull.ll

82 lines

Diff 252453

llvm/lib/Target/ARM/ARMISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 12,119 Lines • ▼ Show 20 Lines	static SDValue PerformVMULCombine(SDNode *N,
SDLoc DL(N);		SDLoc DL(N);
SDValue N00 = N0->getOperand(0);		SDValue N00 = N0->getOperand(0);
SDValue N01 = N0->getOperand(1);		SDValue N01 = N0->getOperand(1);
return DAG.getNode(Opcode, DL, VT,		return DAG.getNode(Opcode, DL, VT,
DAG.getNode(ISD::MUL, DL, VT, N00, N1),		DAG.getNode(ISD::MUL, DL, VT, N00, N1),
DAG.getNode(ISD::MUL, DL, VT, N01, N1));		DAG.getNode(ISD::MUL, DL, VT, N01, N1));
}		}

		static SDValue PerformMVEVMULLCombine(SDNode *N, SelectionDAG &DAG,
		const ARMSubtarget *Subtarget) {
		EVT VT = N->getValueType(0);
		if (VT != MVT::v2i64)
		return SDValue();

		SDValue N0 = N->getOperand(0);
		SDValue N1 = N->getOperand(1);

		auto IsSignExt = [&](SDValue Op) {
		if (Op->getOpcode() != ISD::SIGN_EXTEND_INREG)
		return SDValue();
		EVT VT = cast<VTSDNode>(Op->getOperand(1))->getVT();
		if (VT.getScalarSizeInBits() == 32)
		return Op->getOperand(0);
		return SDValue();
		};
		auto IsZeroExt = [&](SDValue Op) {
		// Zero extends are a little more awkward. At the point we are matching
		// this, we are looking for an AND with a (-1, 0, -1, 0) buildvector mask.
		// That might be before of after a bitcast depending on how the and is
		// placed. Because this has to look through bitcasts, it is currently only
		// supported on LE.
		if (!Subtarget->isLittle())
		return SDValue();

		SDValue And = Op;
		if (And->getOpcode() == ISD::BITCAST)
		And = And->getOperand(0);
		if (And->getOpcode() != ISD::AND)
		return SDValue();
		SDValue Mask = And->getOperand(1);
		if (Mask->getOpcode() == ISD::BITCAST)
		Mask = Mask->getOperand(0);

		if (Mask->getOpcode() != ISD::BUILD_VECTOR \|\|
		Mask.getValueType() != MVT::v4i32)
		return SDValue();
		if (isAllOnesConstant(Mask->getOperand(0)) &&
		samparkerUnsubmitted Not Done Reply Inline Actions I'm a bit confused here... this looks like the AND mask is taking the 'top' parts of the elements, and if so, why don't we have to handle a 'bottom' element mask? Is this to do with the revs I see in the isel patterns? samparker: I'm a bit confused here... this looks like the AND mask is taking the 'top' parts of the…
		dmgreenAuthorUnsubmitted Done Reply Inline Actions I think this is bottom half? The 0 element is bottom half of the i64, 1 element would be top half of it. And yes, the other pattern vmullt is the same pattern with some vrev's that we match in tablegen. You reminded me that I did want to add some tests for both top and bottom at the same time. dmgreen: I think this is bottom half? The 0 element is bottom half of the i64, 1 element would be top…
		samparkerUnsubmitted Not Done Reply Inline Actions Hmm, not sure how I misread that! samparker: Hmm, not sure how I misread that!
		isNullConstant(Mask->getOperand(1)) &&
		isAllOnesConstant(Mask->getOperand(2)) &&
		isNullConstant(Mask->getOperand(3)))
		return And->getOperand(0);
		return SDValue();
		};

		SDLoc dl(N);
		if (SDValue Op0 = IsSignExt(N0)) {
		if (SDValue Op1 = IsSignExt(N1)) {
		SDValue New0a = DAG.getNode(ARMISD::VECTOR_REG_CAST, dl, MVT::v4i32, Op0);
		SDValue New1a = DAG.getNode(ARMISD::VECTOR_REG_CAST, dl, MVT::v4i32, Op1);
		return DAG.getNode(ARMISD::VMULLs, dl, VT, New0a, New1a);
		}
		}
		if (SDValue Op0 = IsZeroExt(N0)) {
		if (SDValue Op1 = IsZeroExt(N1)) {
		SDValue New0a = DAG.getNode(ARMISD::VECTOR_REG_CAST, dl, MVT::v4i32, Op0);
		SDValue New1a = DAG.getNode(ARMISD::VECTOR_REG_CAST, dl, MVT::v4i32, Op1);
		return DAG.getNode(ARMISD::VMULLu, dl, VT, New0a, New1a);
		}
		}

		return SDValue();
		}

static SDValue PerformMULCombine(SDNode *N,		static SDValue PerformMULCombine(SDNode *N,
TargetLowering::DAGCombinerInfo &DCI,		TargetLowering::DAGCombinerInfo &DCI,
const ARMSubtarget *Subtarget) {		const ARMSubtarget *Subtarget) {
SelectionDAG &DAG = DCI.DAG;		SelectionDAG &DAG = DCI.DAG;

		EVT VT = N->getValueType(0);
		if (Subtarget->hasMVEIntegerOps() && VT == MVT::v2i64)
		return PerformMVEVMULLCombine(N, DAG, Subtarget);

if (Subtarget->isThumb1Only())		if (Subtarget->isThumb1Only())
return SDValue();		return SDValue();

if (DCI.isBeforeLegalize() \|\| DCI.isCalledByLegalizer())		if (DCI.isBeforeLegalize() \|\| DCI.isCalledByLegalizer())
return SDValue();		return SDValue();

EVT VT = N->getValueType(0);
if (VT.is64BitVector() \|\| VT.is128BitVector())		if (VT.is64BitVector() \|\| VT.is128BitVector())
return PerformVMULCombine(N, DCI, Subtarget);		return PerformVMULCombine(N, DCI, Subtarget);
if (VT != MVT::i32)		if (VT != MVT::i32)
return SDValue();		return SDValue();

ConstantSDNode *C = dyn_cast<ConstantSDNode>(N->getOperand(1));		ConstantSDNode *C = dyn_cast<ConstantSDNode>(N->getOperand(1));
if (!C)		if (!C)
return SDValue();		return SDValue();
▲ Show 20 Lines • Show All 5,893 Lines • Show Last 20 Lines

llvm/lib/Target/ARM/ARMInstrInfo.td

	Show First 20 Lines • Show All 283 Lines • ▼ Show 20 Lines
	def SDTARMVSH : SDTypeProfile<1, 2, [SDTCisInt<0>, SDTCisSameAs<0, 1>,			def SDTARMVSH : SDTypeProfile<1, 2, [SDTCisInt<0>, SDTCisSameAs<0, 1>,
	SDTCisSameAs<0, 2>,]>;			SDTCisSameAs<0, 2>,]>;
	def ARMvshlImm : SDNode<"ARMISD::VSHLIMM", SDTARMVSHIMM>;			def ARMvshlImm : SDNode<"ARMISD::VSHLIMM", SDTARMVSHIMM>;
	def ARMvshrsImm : SDNode<"ARMISD::VSHRsIMM", SDTARMVSHIMM>;			def ARMvshrsImm : SDNode<"ARMISD::VSHRsIMM", SDTARMVSHIMM>;
	def ARMvshruImm : SDNode<"ARMISD::VSHRuIMM", SDTARMVSHIMM>;			def ARMvshruImm : SDNode<"ARMISD::VSHRuIMM", SDTARMVSHIMM>;
	def ARMvshls : SDNode<"ARMISD::VSHLs", SDTARMVSH>;			def ARMvshls : SDNode<"ARMISD::VSHLs", SDTARMVSH>;
	def ARMvshlu : SDNode<"ARMISD::VSHLu", SDTARMVSH>;			def ARMvshlu : SDNode<"ARMISD::VSHLu", SDTARMVSH>;

				def SDTARMVMULL : SDTypeProfile<1, 2, [SDTCisInt<0>, SDTCisInt<1>,
				SDTCisSameAs<1, 2>]>;
				def ARMvmulls : SDNode<"ARMISD::VMULLs", SDTARMVMULL>;
				def ARMvmullu : SDNode<"ARMISD::VMULLu", SDTARMVMULL>;

	def SDTARMVCMP : SDTypeProfile<1, 3, [SDTCisInt<0>, SDTCisSameAs<1, 2>,			def SDTARMVCMP : SDTypeProfile<1, 3, [SDTCisInt<0>, SDTCisSameAs<1, 2>,
	SDTCisInt<3>]>;			SDTCisInt<3>]>;
	def SDTARMVCMPZ : SDTypeProfile<1, 2, [SDTCisInt<2>]>;			def SDTARMVCMPZ : SDTypeProfile<1, 2, [SDTCisInt<2>]>;

	def ARMvcmp : SDNode<"ARMISD::VCMP", SDTARMVCMP>;			def ARMvcmp : SDNode<"ARMISD::VCMP", SDTARMVCMP>;
	def ARMvcmpz : SDNode<"ARMISD::VCMPZ", SDTARMVCMPZ>;			def ARMvcmpz : SDNode<"ARMISD::VCMPZ", SDTARMVCMPZ>;

	def ARMWLS : SDNode<"ARMISD::WLS", SDT_ARMLoLoop, [SDNPHasChain]>;			def ARMWLS : SDNode<"ARMISD::WLS", SDT_ARMLoLoop, [SDNPHasChain]>;
	▲ Show 20 Lines • Show All 6,016 Lines • Show Last 20 Lines

llvm/lib/Target/ARM/ARMInstrMVE.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 2,534 Lines • ▼ Show 20 Lines
let Predicates = [HasMVEInt] in {		let Predicates = [HasMVEInt] in {
def : Pat<(sext_inreg (v4i32 MQPR:$src), v4i16),		def : Pat<(sext_inreg (v4i32 MQPR:$src), v4i16),
(MVE_VMOVLs16bh MQPR:$src)>;		(MVE_VMOVLs16bh MQPR:$src)>;
def : Pat<(sext_inreg (v8i16 MQPR:$src), v8i8),		def : Pat<(sext_inreg (v8i16 MQPR:$src), v8i8),
(MVE_VMOVLs8bh MQPR:$src)>;		(MVE_VMOVLs8bh MQPR:$src)>;
def : Pat<(sext_inreg (v4i32 MQPR:$src), v4i8),		def : Pat<(sext_inreg (v4i32 MQPR:$src), v4i8),
(MVE_VMOVLs16bh (MVE_VMOVLs8bh MQPR:$src))>;		(MVE_VMOVLs16bh (MVE_VMOVLs8bh MQPR:$src))>;

def : Pat<(sext_inreg (v8i16 (ARMVectorRegCast (ARMvrev16 (v16i8 MQPR:$src)))),		def : Pat<(sext_inreg (v8i16 (ARMVectorRegCast (ARMvrev16 (v16i8 MQPR:$src)))), v8i8),
v8i8), (MVE_VMOVLs8th MQPR:$src)>;		(MVE_VMOVLs8th MQPR:$src)>;
def : Pat<(sext_inreg (v4i32 (ARMVectorRegCast (ARMvrev32 (v8i16 MQPR:$src)))),		def : Pat<(sext_inreg (v4i32 (ARMVectorRegCast (ARMvrev32 (v8i16 MQPR:$src)))), v4i16),
v4i16), (MVE_VMOVLs16th MQPR:$src)>;		(MVE_VMOVLs16th MQPR:$src)>;
def : Pat<(ARMvbicImm (v8i16 (ARMVectorRegCast (ARMvrev16 (v16i8 MQPR:$src)))),
(i32 0xAFF)), (MVE_VMOVLu8th MQPR:$src)>;
def : Pat<(and (v4i32 (ARMVectorRegCast (ARMvrev32 (v8i16 MQPR:$src)))),
(v4i32 (ARMvmovImm (i32 0xCFF)))),
(MVE_VMOVLu16th MQPR:$src)>;

// zext_inreg 16 -> 32
def : Pat<(and (v4i32 MQPR:$src), (v4i32 (ARMvmovImm (i32 0xCFF)))),
(MVE_VMOVLu16bh MQPR:$src)>;
// zext_inreg 8 -> 16		// zext_inreg 8 -> 16
def : Pat<(ARMvbicImm (v8i16 MQPR:$src), (i32 0xAFF)),		def : Pat<(ARMvbicImm (v8i16 MQPR:$src), (i32 0xAFF)),
(MVE_VMOVLu8bh MQPR:$src)>;		(MVE_VMOVLu8bh MQPR:$src)>;
		// zext_inreg 16 -> 32
		def : Pat<(and (v4i32 MQPR:$src), (v4i32 (ARMvmovImm (i32 0xCFF)))),
		(MVE_VMOVLu16bh MQPR:$src)>;
		// Same zext_inreg with vrevs, picking the top half
		def : Pat<(ARMvbicImm (v8i16 (ARMVectorRegCast (ARMvrev16 (v16i8 MQPR:$src)))), (i32 0xAFF)),
		(MVE_VMOVLu8th MQPR:$src)>;
		def : Pat<(and (v4i32 (ARMVectorRegCast (ARMvrev32 (v8i16 MQPR:$src)))),
		(v4i32 (ARMvmovImm (i32 0xCFF)))),
		(MVE_VMOVLu16th MQPR:$src)>;
}		}


class MVE_VSHLL_imm<string iname, string suffix, bit U, bit th,		class MVE_VSHLL_imm<string iname, string suffix, bit U, bit th,
Operand immtype, list<dag> pattern=[]>		Operand immtype, list<dag> pattern=[]>
: MVE_shift_imm<(outs MQPR:$Qd), (ins MQPR:$Qm, immtype:$imm),		: MVE_shift_imm<(outs MQPR:$Qd), (ins MQPR:$Qm, immtype:$imm),
iname, suffix, "$Qd, $Qm, $imm", vpred_r, "", pattern> {		iname, suffix, "$Qd, $Qm, $imm", vpred_r, "", pattern> {
let Inst{28} = U;		let Inst{28} = U;
▲ Show 20 Lines • Show All 1,846 Lines • ▼ Show 20 Lines	defm MVE_VMULLBp8 : MVE_VMULL_m<MVE_v16p8, int_arm_mve_vmull_poly,
int_arm_mve_mull_poly_predicated, 0b0>;		int_arm_mve_mull_poly_predicated, 0b0>;
defm MVE_VMULLTp8 : MVE_VMULL_m<MVE_v16p8, int_arm_mve_vmull_poly,		defm MVE_VMULLTp8 : MVE_VMULL_m<MVE_v16p8, int_arm_mve_vmull_poly,
int_arm_mve_mull_poly_predicated, 0b1>;		int_arm_mve_mull_poly_predicated, 0b1>;
defm MVE_VMULLBp16 : MVE_VMULL_m<MVE_v8p16, int_arm_mve_vmull_poly,		defm MVE_VMULLBp16 : MVE_VMULL_m<MVE_v8p16, int_arm_mve_vmull_poly,
int_arm_mve_mull_poly_predicated, 0b0>;		int_arm_mve_mull_poly_predicated, 0b0>;
defm MVE_VMULLTp16 : MVE_VMULL_m<MVE_v8p16, int_arm_mve_vmull_poly,		defm MVE_VMULLTp16 : MVE_VMULL_m<MVE_v8p16, int_arm_mve_vmull_poly,
int_arm_mve_mull_poly_predicated, 0b1>;		int_arm_mve_mull_poly_predicated, 0b1>;

		let Predicates = [HasMVEInt] in {
		def : Pat<(v2i64 (ARMvmulls (v4i32 MQPR:$src1), (v4i32 MQPR:$src2))),
		(MVE_VMULLBs32 MQPR:$src1, MQPR:$src2)>;
		def : Pat<(v2i64 (ARMvmulls (v4i32 (ARMvrev64 (v4i32 MQPR:$src1))),
		(v4i32 (ARMvrev64 (v4i32 MQPR:$src2))))),
		(MVE_VMULLTs32 MQPR:$src1, MQPR:$src2)>;

		def : Pat<(mul (sext_inreg (v4i32 MQPR:$src1), v4i16),
		(sext_inreg (v4i32 MQPR:$src2), v4i16)),
		(MVE_VMULLBs16 MQPR:$src1, MQPR:$src2)>;
		def : Pat<(mul (sext_inreg (v4i32 (ARMVectorRegCast (ARMvrev32 (v8i16 MQPR:$src1)))), v4i16),
		(sext_inreg (v4i32 (ARMVectorRegCast (ARMvrev32 (v8i16 MQPR:$src2)))), v4i16)),
		(MVE_VMULLTs16 MQPR:$src1, MQPR:$src2)>;

		def : Pat<(mul (sext_inreg (v8i16 MQPR:$src1), v8i8),
		(sext_inreg (v8i16 MQPR:$src2), v8i8)),
		(MVE_VMULLBs8 MQPR:$src1, MQPR:$src2)>;
		def : Pat<(mul (sext_inreg (v8i16 (ARMVectorRegCast (ARMvrev16 (v16i8 MQPR:$src1)))), v8i8),
		(sext_inreg (v8i16 (ARMVectorRegCast (ARMvrev16 (v16i8 MQPR:$src2)))), v8i8)),
		(MVE_VMULLTs8 MQPR:$src1, MQPR:$src2)>;

		def : Pat<(v2i64 (ARMvmullu (v4i32 MQPR:$src1), (v4i32 MQPR:$src2))),
		(MVE_VMULLBu32 MQPR:$src1, MQPR:$src2)>;
		def : Pat<(v2i64 (ARMvmullu (v4i32 (ARMvrev64 (v4i32 MQPR:$src1))),
		(v4i32 (ARMvrev64 (v4i32 MQPR:$src2))))),
		(MVE_VMULLTu32 MQPR:$src1, MQPR:$src2)>;

		def : Pat<(mul (and (v4i32 MQPR:$src1), (v4i32 (ARMvmovImm (i32 0xCFF)))),
		(and (v4i32 MQPR:$src2), (v4i32 (ARMvmovImm (i32 0xCFF))))),
		(MVE_VMULLBu16 MQPR:$src1, MQPR:$src2)>;
		def : Pat<(mul (and (v4i32 (ARMVectorRegCast (ARMvrev32 (v8i16 MQPR:$src1)))),
		(v4i32 (ARMvmovImm (i32 0xCFF)))),
		(and (v4i32 (ARMVectorRegCast (ARMvrev32 (v8i16 MQPR:$src2)))),
		(v4i32 (ARMvmovImm (i32 0xCFF))))),
		(MVE_VMULLTu16 MQPR:$src1, MQPR:$src2)>;

		def : Pat<(mul (ARMvbicImm (v8i16 MQPR:$src1), (i32 0xAFF)),
		(ARMvbicImm (v8i16 MQPR:$src2), (i32 0xAFF))),
		(MVE_VMULLBu8 MQPR:$src1, MQPR:$src2)>;
		def : Pat<(mul (ARMvbicImm (v8i16 (ARMVectorRegCast (ARMvrev16 (v16i8 MQPR:$src1)))), (i32 0xAFF)),
		(ARMvbicImm (v8i16 (ARMVectorRegCast (ARMvrev16 (v16i8 MQPR:$src2)))), (i32 0xAFF))),
		(MVE_VMULLTu8 MQPR:$src1, MQPR:$src2)>;
		}

class MVE_VxMULH<string iname, string suffix, bit U, bits<2> size, bit round,		class MVE_VxMULH<string iname, string suffix, bit U, bits<2> size, bit round,
list<dag> pattern=[]>		list<dag> pattern=[]>
: MVE_qDest_qSrc<iname, suffix, (outs MQPR:$Qd),		: MVE_qDest_qSrc<iname, suffix, (outs MQPR:$Qd),
(ins MQPR:$Qn, MQPR:$Qm), "$Qd, $Qn, $Qm",		(ins MQPR:$Qn, MQPR:$Qm), "$Qd, $Qn, $Qm",
vpred_r, "", pattern> {		vpred_r, "", pattern> {
bits<4> Qn;		bits<4> Qn;

let Inst{28} = U;		let Inst{28} = U;
▲ Show 20 Lines • Show All 2,587 Lines • Show Last 20 Lines

llvm/lib/Target/ARM/ARMInstrNEON.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 520 Lines • ▼ Show 20 Lines

def SDTARMVSHUF2 : SDTypeProfile<2, 2, [SDTCisVec<0>, SDTCisSameAs<0, 1>,		def SDTARMVSHUF2 : SDTypeProfile<2, 2, [SDTCisVec<0>, SDTCisSameAs<0, 1>,
SDTCisSameAs<0, 2>,		SDTCisSameAs<0, 2>,
SDTCisSameAs<0, 3>]>;		SDTCisSameAs<0, 3>]>;
def NEONzip : SDNode<"ARMISD::VZIP", SDTARMVSHUF2>;		def NEONzip : SDNode<"ARMISD::VZIP", SDTARMVSHUF2>;
def NEONuzp : SDNode<"ARMISD::VUZP", SDTARMVSHUF2>;		def NEONuzp : SDNode<"ARMISD::VUZP", SDTARMVSHUF2>;
def NEONtrn : SDNode<"ARMISD::VTRN", SDTARMVSHUF2>;		def NEONtrn : SDNode<"ARMISD::VTRN", SDTARMVSHUF2>;

def SDTARMVMULL : SDTypeProfile<1, 2, [SDTCisInt<0>, SDTCisInt<1>,
SDTCisSameAs<1, 2>]>;
def NEONvmulls : SDNode<"ARMISD::VMULLs", SDTARMVMULL>;
def NEONvmullu : SDNode<"ARMISD::VMULLu", SDTARMVMULL>;

def SDTARMVTBL1 : SDTypeProfile<1, 2, [SDTCisVT<0, v8i8>, SDTCisVT<1, v8i8>,		def SDTARMVTBL1 : SDTypeProfile<1, 2, [SDTCisVT<0, v8i8>, SDTCisVT<1, v8i8>,
SDTCisVT<2, v8i8>]>;		SDTCisVT<2, v8i8>]>;
def SDTARMVTBL2 : SDTypeProfile<1, 3, [SDTCisVT<0, v8i8>, SDTCisVT<1, v8i8>,		def SDTARMVTBL2 : SDTypeProfile<1, 3, [SDTCisVT<0, v8i8>, SDTCisVT<1, v8i8>,
SDTCisVT<2, v8i8>, SDTCisVT<3, v8i8>]>;		SDTCisVT<2, v8i8>, SDTCisVT<3, v8i8>]>;
def NEONvtbl1 : SDNode<"ARMISD::VTBL1", SDTARMVTBL1>;		def NEONvtbl1 : SDNode<"ARMISD::VTBL1", SDTARMVTBL1>;
def NEONvtbl2 : SDNode<"ARMISD::VTBL2", SDTARMVTBL2>;		def NEONvtbl2 : SDNode<"ARMISD::VTBL2", SDTARMVTBL2>;


▲ Show 20 Lines • Show All 3,881 Lines • ▼ Show 20 Lines	def : Pat<(v4i32 (int_arm_neon_vqrdmulh (v4i32 QPR:$src1),
(DSubReg_i32_reg imm:$lane))),		(DSubReg_i32_reg imm:$lane))),
(SubReg_i32_lane imm:$lane)))>;		(SubReg_i32_lane imm:$lane)))>;
}		}

// VMULL : Vector Multiply Long (integer and polynomial) (Q = D * D)		// VMULL : Vector Multiply Long (integer and polynomial) (Q = D * D)
let PostEncoderMethod = "NEONThumb2DataIPostEncoder",		let PostEncoderMethod = "NEONThumb2DataIPostEncoder",
DecoderNamespace = "NEONData" in {		DecoderNamespace = "NEONData" in {
defm VMULLs : N3VL_QHS<0,1,0b1100,0, IIC_VMULi16D, IIC_VMULi32D,		defm VMULLs : N3VL_QHS<0,1,0b1100,0, IIC_VMULi16D, IIC_VMULi32D,
"vmull", "s", NEONvmulls, 1>;		"vmull", "s", ARMvmulls, 1>;
defm VMULLu : N3VL_QHS<1,1,0b1100,0, IIC_VMULi16D, IIC_VMULi32D,		defm VMULLu : N3VL_QHS<1,1,0b1100,0, IIC_VMULi16D, IIC_VMULi32D,
"vmull", "u", NEONvmullu, 1>;		"vmull", "u", ARMvmullu, 1>;
def VMULLp8 : N3VLInt<0, 1, 0b00, 0b1110, 0, IIC_VMULi16D, "vmull", "p8",		def VMULLp8 : N3VLInt<0, 1, 0b00, 0b1110, 0, IIC_VMULi16D, "vmull", "p8",
v8i16, v8i8, int_arm_neon_vmullp, 1>;		v8i16, v8i8, int_arm_neon_vmullp, 1>;
def VMULLp64 : N3VLIntnp<0b00101, 0b10, 0b1110, 0, 0, NoItinerary,		def VMULLp64 : N3VLIntnp<0b00101, 0b10, 0b1110, 0, 0, NoItinerary,
"vmull", "p64", v2i64, v1i64, int_arm_neon_vmullp, 1>,		"vmull", "p64", v2i64, v1i64, int_arm_neon_vmullp, 1>,
Requires<[HasV8, HasCrypto]>;		Requires<[HasV8, HasCrypto]>;
}		}
defm VMULLsls : N3VLSL_HS<0, 0b1010, IIC_VMULi16D, "vmull", "s", NEONvmulls>;		defm VMULLsls : N3VLSL_HS<0, 0b1010, IIC_VMULi16D, "vmull", "s", ARMvmulls>;
defm VMULLslu : N3VLSL_HS<1, 0b1010, IIC_VMULi16D, "vmull", "u", NEONvmullu>;		defm VMULLslu : N3VLSL_HS<1, 0b1010, IIC_VMULi16D, "vmull", "u", ARMvmullu>;

// VQDMULL : Vector Saturating Doubling Multiply Long (Q = D * D)		// VQDMULL : Vector Saturating Doubling Multiply Long (Q = D * D)
defm VQDMULL : N3VLInt_HS<0,1,0b1101,0, IIC_VMULi16D, IIC_VMULi32D,		defm VQDMULL : N3VLInt_HS<0,1,0b1101,0, IIC_VMULi16D, IIC_VMULi32D,
"vqdmull", "s", int_arm_neon_vqdmull, 1>;		"vqdmull", "s", int_arm_neon_vqdmull, 1>;
defm VQDMULLsl: N3VLIntSL_HS<0, 0b1011, IIC_VMULi16D,		defm VQDMULLsl: N3VLIntSL_HS<0, 0b1011, IIC_VMULi16D,
"vqdmull", "s", int_arm_neon_vqdmull>;		"vqdmull", "s", int_arm_neon_vqdmull>;

// Vector Multiply-Accumulate and Multiply-Subtract Operations.		// Vector Multiply-Accumulate and Multiply-Subtract Operations.
▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines	def : Pat<(v4f32 (fadd_mlx (v4f32 QPR:$src1),
(v4f32 QPR:$src2),		(v4f32 QPR:$src2),
(v2f32 (EXTRACT_SUBREG QPR:$src3,		(v2f32 (EXTRACT_SUBREG QPR:$src3,
(DSubReg_i32_reg imm:$lane))),		(DSubReg_i32_reg imm:$lane))),
(SubReg_i32_lane imm:$lane)))>,		(SubReg_i32_lane imm:$lane)))>,
Requires<[HasNEON, UseFPVMLx]>;		Requires<[HasNEON, UseFPVMLx]>;

// VMLAL : Vector Multiply Accumulate Long (Q += D * D)		// VMLAL : Vector Multiply Accumulate Long (Q += D * D)
defm VMLALs : N3VLMulOp_QHS<0,1,0b1000,0, IIC_VMACi16D, IIC_VMACi32D,		defm VMLALs : N3VLMulOp_QHS<0,1,0b1000,0, IIC_VMACi16D, IIC_VMACi32D,
"vmlal", "s", NEONvmulls, add>;		"vmlal", "s", ARMvmulls, add>;
defm VMLALu : N3VLMulOp_QHS<1,1,0b1000,0, IIC_VMACi16D, IIC_VMACi32D,		defm VMLALu : N3VLMulOp_QHS<1,1,0b1000,0, IIC_VMACi16D, IIC_VMACi32D,
"vmlal", "u", NEONvmullu, add>;		"vmlal", "u", ARMvmullu, add>;

defm VMLALsls : N3VLMulOpSL_HS<0, 0b0010, "vmlal", "s", NEONvmulls, add>;		defm VMLALsls : N3VLMulOpSL_HS<0, 0b0010, "vmlal", "s", ARMvmulls, add>;
defm VMLALslu : N3VLMulOpSL_HS<1, 0b0010, "vmlal", "u", NEONvmullu, add>;		defm VMLALslu : N3VLMulOpSL_HS<1, 0b0010, "vmlal", "u", ARMvmullu, add>;

let Predicates = [HasNEON, HasV8_1a] in {		let Predicates = [HasNEON, HasV8_1a] in {
// v8.1a Neon Rounding Double Multiply-Op vector operations,		// v8.1a Neon Rounding Double Multiply-Op vector operations,
// VQRDMLAH : Vector Saturating Rounding Doubling Multiply Accumulate Long		// VQRDMLAH : Vector Saturating Rounding Doubling Multiply Accumulate Long
// (Q += D * D)		// (Q += D * D)
defm VQRDMLAH : N3VInt3_HS<1, 0, 0b1011, 1, IIC_VMACi16D, IIC_VMACi32D,		defm VQRDMLAH : N3VInt3_HS<1, 0, 0b1011, 1, IIC_VMACi16D, IIC_VMACi32D,
IIC_VMACi16Q, IIC_VMACi32Q, "vqrdmlah", "s",		IIC_VMACi16Q, IIC_VMACi32Q, "vqrdmlah", "s",
null_frag>;		null_frag>;
▲ Show 20 Lines • Show All 211 Lines • ▼ Show 20 Lines	def : Pat<(v4f32 (fsub_mlx (v4f32 QPR:$src1),
(v4f32 (VMLSslfq (v4f32 QPR:$src1), (v4f32 QPR:$src2),		(v4f32 (VMLSslfq (v4f32 QPR:$src1), (v4f32 QPR:$src2),
(v2f32 (EXTRACT_SUBREG QPR:$src3,		(v2f32 (EXTRACT_SUBREG QPR:$src3,
(DSubReg_i32_reg imm:$lane))),		(DSubReg_i32_reg imm:$lane))),
(SubReg_i32_lane imm:$lane)))>,		(SubReg_i32_lane imm:$lane)))>,
Requires<[HasNEON, UseFPVMLx]>;		Requires<[HasNEON, UseFPVMLx]>;

// VMLSL : Vector Multiply Subtract Long (Q -= D * D)		// VMLSL : Vector Multiply Subtract Long (Q -= D * D)
defm VMLSLs : N3VLMulOp_QHS<0,1,0b1010,0, IIC_VMACi16D, IIC_VMACi32D,		defm VMLSLs : N3VLMulOp_QHS<0,1,0b1010,0, IIC_VMACi16D, IIC_VMACi32D,
"vmlsl", "s", NEONvmulls, sub>;		"vmlsl", "s", ARMvmulls, sub>;
defm VMLSLu : N3VLMulOp_QHS<1,1,0b1010,0, IIC_VMACi16D, IIC_VMACi32D,		defm VMLSLu : N3VLMulOp_QHS<1,1,0b1010,0, IIC_VMACi16D, IIC_VMACi32D,
"vmlsl", "u", NEONvmullu, sub>;		"vmlsl", "u", ARMvmullu, sub>;

defm VMLSLsls : N3VLMulOpSL_HS<0, 0b0110, "vmlsl", "s", NEONvmulls, sub>;		defm VMLSLsls : N3VLMulOpSL_HS<0, 0b0110, "vmlsl", "s", ARMvmulls, sub>;
defm VMLSLslu : N3VLMulOpSL_HS<1, 0b0110, "vmlsl", "u", NEONvmullu, sub>;		defm VMLSLslu : N3VLMulOpSL_HS<1, 0b0110, "vmlsl", "u", ARMvmullu, sub>;

// VQDMLSL : Vector Saturating Doubling Multiply Subtract Long (Q -= D * D)		// VQDMLSL : Vector Saturating Doubling Multiply Subtract Long (Q -= D * D)
defm VQDMLSL : N3VLInt3_HS<0, 1, 0b1011, 0, IIC_VMACi16D, IIC_VMACi32D,		defm VQDMLSL : N3VLInt3_HS<0, 1, 0b1011, 0, IIC_VMACi16D, IIC_VMACi32D,
"vqdmlsl", "s", null_frag>;		"vqdmlsl", "s", null_frag>;
defm VQDMLSLsl: N3VLInt3SL_HS<0, 0b0111, "vqdmlsl", "s", null_frag>;		defm VQDMLSLsl: N3VLInt3SL_HS<0, 0b0111, "vqdmlsl", "s", null_frag>;

let Predicates = [HasNEON] in {		let Predicates = [HasNEON] in {
def : Pat<(v4i32 (ssubsat (v4i32 QPR:$src1),		def : Pat<(v4i32 (ssubsat (v4i32 QPR:$src1),
▲ Show 20 Lines • Show All 4,171 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vecreduce-mla.ll

Show All 35 Lines	entry:
%m = mul <4 x i64> %xx, %yy		%m = mul <4 x i64> %xx, %yy
%z = call i64 @llvm.experimental.vector.reduce.add.v4i64(<4 x i64> %m)		%z = call i64 @llvm.experimental.vector.reduce.add.v4i64(<4 x i64> %m)
ret i64 %z		ret i64 %z
}		}

define arm_aapcs_vfpcc i64 @add_v2i32_v2i64_zext(<2 x i32> %x, <2 x i32> %y) {		define arm_aapcs_vfpcc i64 @add_v2i32_v2i64_zext(<2 x i32> %x, <2 x i32> %y) {
; CHECK-LABEL: add_v2i32_v2i64_zext:		; CHECK-LABEL: add_v2i32_v2i64_zext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmov r0, s4		; CHECK-NEXT: vmullb.u32 q2, q0, q1
; CHECK-NEXT: vmov r1, s0		; CHECK-NEXT: vmov r0, s10
; CHECK-NEXT: vmov r2, s6		; CHECK-NEXT: vmov r3, s8
; CHECK-NEXT: vmov r3, s2		; CHECK-NEXT: vmov r1, s11
; CHECK-NEXT: umull r0, r1, r1, r0		; CHECK-NEXT: vmov r2, s9
; CHECK-NEXT: umlal r0, r1, r3, r2		; CHECK-NEXT: adds r0, r0, r3
		; CHECK-NEXT: adcs r1, r2
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = zext <2 x i32> %x to <2 x i64>		%xx = zext <2 x i32> %x to <2 x i64>
%yy = zext <2 x i32> %y to <2 x i64>		%yy = zext <2 x i32> %y to <2 x i64>
%m = mul <2 x i64> %xx, %yy		%m = mul <2 x i64> %xx, %yy
%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %m)		%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %m)
ret i64 %z		ret i64 %z
}		}

define arm_aapcs_vfpcc i64 @add_v2i32_v2i64_sext(<2 x i32> %x, <2 x i32> %y) {		define arm_aapcs_vfpcc i64 @add_v2i32_v2i64_sext(<2 x i32> %x, <2 x i32> %y) {
; CHECK-LABEL: add_v2i32_v2i64_sext:		; CHECK-LABEL: add_v2i32_v2i64_sext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmov r0, s4		; CHECK-NEXT: vmullb.s32 q2, q0, q1
; CHECK-NEXT: vmov r1, s0		; CHECK-NEXT: vmov r0, s10
; CHECK-NEXT: vmov r2, s6		; CHECK-NEXT: vmov r3, s8
; CHECK-NEXT: vmov r3, s2		; CHECK-NEXT: vmov r1, s11
; CHECK-NEXT: smull r0, r1, r1, r0		; CHECK-NEXT: vmov r2, s9
; CHECK-NEXT: smlal r0, r1, r3, r2		; CHECK-NEXT: adds r0, r0, r3
		; CHECK-NEXT: adcs r1, r2
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = sext <2 x i32> %x to <2 x i64>		%xx = sext <2 x i32> %x to <2 x i64>
%yy = sext <2 x i32> %y to <2 x i64>		%yy = sext <2 x i32> %y to <2 x i64>
%m = mul <2 x i64> %xx, %yy		%m = mul <2 x i64> %xx, %yy
%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %m)		%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %m)
ret i64 %z		ret i64 %z
}		}
▲ Show 20 Lines • Show All 233 Lines • ▼ Show 20 Lines
; CHECK-NEXT: vmov.u8 r0, q0[12]		; CHECK-NEXT: vmov.u8 r0, q0[12]
; CHECK-NEXT: vmov.16 q3[4], r0		; CHECK-NEXT: vmov.16 q3[4], r0
; CHECK-NEXT: vmov.u8 r0, q0[13]		; CHECK-NEXT: vmov.u8 r0, q0[13]
; CHECK-NEXT: vmov.16 q3[5], r0		; CHECK-NEXT: vmov.16 q3[5], r0
; CHECK-NEXT: vmov.u8 r0, q0[14]		; CHECK-NEXT: vmov.u8 r0, q0[14]
; CHECK-NEXT: vmov.16 q3[6], r0		; CHECK-NEXT: vmov.16 q3[6], r0
; CHECK-NEXT: vmov.u8 r0, q0[15]		; CHECK-NEXT: vmov.u8 r0, q0[15]
; CHECK-NEXT: vmov.16 q3[7], r0		; CHECK-NEXT: vmov.16 q3[7], r0
; CHECK-NEXT: vmovlb.u8 q2, q2
; CHECK-NEXT: vmovlb.u8 q3, q3
; CHECK-NEXT: vmov.u8 r0, q1[0]		; CHECK-NEXT: vmov.u8 r0, q1[0]
; CHECK-NEXT: vmul.i16 q2, q3, q2		; CHECK-NEXT: vmullb.u8 q2, q3, q2
; CHECK-NEXT: vmov.16 q3[0], r0		; CHECK-NEXT: vmov.16 q3[0], r0
; CHECK-NEXT: vmov.u8 r0, q1[1]		; CHECK-NEXT: vmov.u8 r0, q1[1]
; CHECK-NEXT: vmov.16 q3[1], r0		; CHECK-NEXT: vmov.16 q3[1], r0
; CHECK-NEXT: vmov.u8 r0, q1[2]		; CHECK-NEXT: vmov.u8 r0, q1[2]
; CHECK-NEXT: vmov.16 q3[2], r0		; CHECK-NEXT: vmov.16 q3[2], r0
; CHECK-NEXT: vmov.u8 r0, q1[3]		; CHECK-NEXT: vmov.u8 r0, q1[3]
; CHECK-NEXT: vmov.16 q3[3], r0		; CHECK-NEXT: vmov.16 q3[3], r0
; CHECK-NEXT: vmov.u8 r0, q1[4]		; CHECK-NEXT: vmov.u8 r0, q1[4]
; CHECK-NEXT: vmov.16 q3[4], r0		; CHECK-NEXT: vmov.16 q3[4], r0
; CHECK-NEXT: vmov.u8 r0, q1[5]		; CHECK-NEXT: vmov.u8 r0, q1[5]
; CHECK-NEXT: vmov.16 q3[5], r0		; CHECK-NEXT: vmov.16 q3[5], r0
; CHECK-NEXT: vmov.u8 r0, q1[6]		; CHECK-NEXT: vmov.u8 r0, q1[6]
; CHECK-NEXT: vmov.16 q3[6], r0		; CHECK-NEXT: vmov.16 q3[6], r0
; CHECK-NEXT: vmov.u8 r0, q1[7]		; CHECK-NEXT: vmov.u8 r0, q1[7]
; CHECK-NEXT: vmov.16 q3[7], r0		; CHECK-NEXT: vmov.16 q3[7], r0
; CHECK-NEXT: vmov.u8 r0, q0[0]		; CHECK-NEXT: vmov.u8 r0, q0[0]
; CHECK-NEXT: vmovlb.u8 q1, q3		; CHECK-NEXT: vmov.16 q1[0], r0
; CHECK-NEXT: vmov.16 q3[0], r0
; CHECK-NEXT: vmov.u8 r0, q0[1]		; CHECK-NEXT: vmov.u8 r0, q0[1]
; CHECK-NEXT: vmov.16 q3[1], r0		; CHECK-NEXT: vmov.16 q1[1], r0
; CHECK-NEXT: vmov.u8 r0, q0[2]		; CHECK-NEXT: vmov.u8 r0, q0[2]
; CHECK-NEXT: vmov.16 q3[2], r0		; CHECK-NEXT: vmov.16 q1[2], r0
; CHECK-NEXT: vmov.u8 r0, q0[3]		; CHECK-NEXT: vmov.u8 r0, q0[3]
; CHECK-NEXT: vmov.16 q3[3], r0		; CHECK-NEXT: vmov.16 q1[3], r0
; CHECK-NEXT: vmov.u8 r0, q0[4]		; CHECK-NEXT: vmov.u8 r0, q0[4]
; CHECK-NEXT: vmov.16 q3[4], r0		; CHECK-NEXT: vmov.16 q1[4], r0
; CHECK-NEXT: vmov.u8 r0, q0[5]		; CHECK-NEXT: vmov.u8 r0, q0[5]
; CHECK-NEXT: vmov.16 q3[5], r0		; CHECK-NEXT: vmov.16 q1[5], r0
; CHECK-NEXT: vmov.u8 r0, q0[6]		; CHECK-NEXT: vmov.u8 r0, q0[6]
; CHECK-NEXT: vmov.16 q3[6], r0		; CHECK-NEXT: vmov.16 q1[6], r0
; CHECK-NEXT: vmov.u8 r0, q0[7]		; CHECK-NEXT: vmov.u8 r0, q0[7]
; CHECK-NEXT: vmov.16 q3[7], r0		; CHECK-NEXT: vmov.16 q1[7], r0
; CHECK-NEXT: vmovlb.u8 q0, q3		; CHECK-NEXT: vmullb.u8 q0, q1, q3
; CHECK-NEXT: vmul.i16 q0, q0, q1
; CHECK-NEXT: vadd.i16 q0, q0, q2		; CHECK-NEXT: vadd.i16 q0, q0, q2
; CHECK-NEXT: vaddv.u16 r0, q0		; CHECK-NEXT: vaddv.u16 r0, q0
; CHECK-NEXT: uxth r0, r0		; CHECK-NEXT: uxth r0, r0
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = zext <16 x i8> %x to <16 x i16>		%xx = zext <16 x i8> %x to <16 x i16>
%yy = zext <16 x i8> %y to <16 x i16>		%yy = zext <16 x i8> %y to <16 x i16>
%m = mul <16 x i16> %xx, %yy		%m = mul <16 x i16> %xx, %yy
Show All 31 Lines
; CHECK-NEXT: vmov.u8 r0, q0[12]		; CHECK-NEXT: vmov.u8 r0, q0[12]
; CHECK-NEXT: vmov.16 q3[4], r0		; CHECK-NEXT: vmov.16 q3[4], r0
; CHECK-NEXT: vmov.u8 r0, q0[13]		; CHECK-NEXT: vmov.u8 r0, q0[13]
; CHECK-NEXT: vmov.16 q3[5], r0		; CHECK-NEXT: vmov.16 q3[5], r0
; CHECK-NEXT: vmov.u8 r0, q0[14]		; CHECK-NEXT: vmov.u8 r0, q0[14]
; CHECK-NEXT: vmov.16 q3[6], r0		; CHECK-NEXT: vmov.16 q3[6], r0
; CHECK-NEXT: vmov.u8 r0, q0[15]		; CHECK-NEXT: vmov.u8 r0, q0[15]
; CHECK-NEXT: vmov.16 q3[7], r0		; CHECK-NEXT: vmov.16 q3[7], r0
; CHECK-NEXT: vmovlb.s8 q2, q2
; CHECK-NEXT: vmovlb.s8 q3, q3
; CHECK-NEXT: vmov.u8 r0, q1[0]		; CHECK-NEXT: vmov.u8 r0, q1[0]
; CHECK-NEXT: vmul.i16 q2, q3, q2		; CHECK-NEXT: vmullb.s8 q2, q3, q2
; CHECK-NEXT: vmov.16 q3[0], r0		; CHECK-NEXT: vmov.16 q3[0], r0
; CHECK-NEXT: vmov.u8 r0, q1[1]		; CHECK-NEXT: vmov.u8 r0, q1[1]
; CHECK-NEXT: vmov.16 q3[1], r0		; CHECK-NEXT: vmov.16 q3[1], r0
; CHECK-NEXT: vmov.u8 r0, q1[2]		; CHECK-NEXT: vmov.u8 r0, q1[2]
; CHECK-NEXT: vmov.16 q3[2], r0		; CHECK-NEXT: vmov.16 q3[2], r0
; CHECK-NEXT: vmov.u8 r0, q1[3]		; CHECK-NEXT: vmov.u8 r0, q1[3]
; CHECK-NEXT: vmov.16 q3[3], r0		; CHECK-NEXT: vmov.16 q3[3], r0
; CHECK-NEXT: vmov.u8 r0, q1[4]		; CHECK-NEXT: vmov.u8 r0, q1[4]
; CHECK-NEXT: vmov.16 q3[4], r0		; CHECK-NEXT: vmov.16 q3[4], r0
; CHECK-NEXT: vmov.u8 r0, q1[5]		; CHECK-NEXT: vmov.u8 r0, q1[5]
; CHECK-NEXT: vmov.16 q3[5], r0		; CHECK-NEXT: vmov.16 q3[5], r0
; CHECK-NEXT: vmov.u8 r0, q1[6]		; CHECK-NEXT: vmov.u8 r0, q1[6]
; CHECK-NEXT: vmov.16 q3[6], r0		; CHECK-NEXT: vmov.16 q3[6], r0
; CHECK-NEXT: vmov.u8 r0, q1[7]		; CHECK-NEXT: vmov.u8 r0, q1[7]
; CHECK-NEXT: vmov.16 q3[7], r0		; CHECK-NEXT: vmov.16 q3[7], r0
; CHECK-NEXT: vmov.u8 r0, q0[0]		; CHECK-NEXT: vmov.u8 r0, q0[0]
; CHECK-NEXT: vmovlb.s8 q1, q3		; CHECK-NEXT: vmov.16 q1[0], r0
; CHECK-NEXT: vmov.16 q3[0], r0
; CHECK-NEXT: vmov.u8 r0, q0[1]		; CHECK-NEXT: vmov.u8 r0, q0[1]
; CHECK-NEXT: vmov.16 q3[1], r0		; CHECK-NEXT: vmov.16 q1[1], r0
; CHECK-NEXT: vmov.u8 r0, q0[2]		; CHECK-NEXT: vmov.u8 r0, q0[2]
; CHECK-NEXT: vmov.16 q3[2], r0		; CHECK-NEXT: vmov.16 q1[2], r0
; CHECK-NEXT: vmov.u8 r0, q0[3]		; CHECK-NEXT: vmov.u8 r0, q0[3]
; CHECK-NEXT: vmov.16 q3[3], r0		; CHECK-NEXT: vmov.16 q1[3], r0
; CHECK-NEXT: vmov.u8 r0, q0[4]		; CHECK-NEXT: vmov.u8 r0, q0[4]
; CHECK-NEXT: vmov.16 q3[4], r0		; CHECK-NEXT: vmov.16 q1[4], r0
; CHECK-NEXT: vmov.u8 r0, q0[5]		; CHECK-NEXT: vmov.u8 r0, q0[5]
; CHECK-NEXT: vmov.16 q3[5], r0		; CHECK-NEXT: vmov.16 q1[5], r0
; CHECK-NEXT: vmov.u8 r0, q0[6]		; CHECK-NEXT: vmov.u8 r0, q0[6]
; CHECK-NEXT: vmov.16 q3[6], r0		; CHECK-NEXT: vmov.16 q1[6], r0
; CHECK-NEXT: vmov.u8 r0, q0[7]		; CHECK-NEXT: vmov.u8 r0, q0[7]
; CHECK-NEXT: vmov.16 q3[7], r0		; CHECK-NEXT: vmov.16 q1[7], r0
; CHECK-NEXT: vmovlb.s8 q0, q3		; CHECK-NEXT: vmullb.s8 q0, q1, q3
; CHECK-NEXT: vmul.i16 q0, q0, q1
; CHECK-NEXT: vadd.i16 q0, q0, q2		; CHECK-NEXT: vadd.i16 q0, q0, q2
; CHECK-NEXT: vaddv.u16 r0, q0		; CHECK-NEXT: vaddv.u16 r0, q0
; CHECK-NEXT: sxth r0, r0		; CHECK-NEXT: sxth r0, r0
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = sext <16 x i8> %x to <16 x i16>		%xx = sext <16 x i8> %x to <16 x i16>
%yy = sext <16 x i8> %y to <16 x i16>		%yy = sext <16 x i8> %y to <16 x i16>
%m = mul <16 x i16> %xx, %yy		%m = mul <16 x i16> %xx, %yy
%z = call i16 @llvm.experimental.vector.reduce.add.v16i16(<16 x i16> %m)		%z = call i16 @llvm.experimental.vector.reduce.add.v16i16(<16 x i16> %m)
ret i16 %z		ret i16 %z
}		}

define arm_aapcs_vfpcc zeroext i16 @add_v8i8_v8i16_zext(<8 x i8> %x, <8 x i8> %y) {		define arm_aapcs_vfpcc zeroext i16 @add_v8i8_v8i16_zext(<8 x i8> %x, <8 x i8> %y) {
; CHECK-LABEL: add_v8i8_v8i16_zext:		; CHECK-LABEL: add_v8i8_v8i16_zext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmovlb.u8 q1, q1		; CHECK-NEXT: vmullb.u8 q0, q0, q1
; CHECK-NEXT: vmovlb.u8 q0, q0
; CHECK-NEXT: vmul.i16 q0, q0, q1
; CHECK-NEXT: vaddv.u16 r0, q0		; CHECK-NEXT: vaddv.u16 r0, q0
; CHECK-NEXT: uxth r0, r0		; CHECK-NEXT: uxth r0, r0
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = zext <8 x i8> %x to <8 x i16>		%xx = zext <8 x i8> %x to <8 x i16>
%yy = zext <8 x i8> %y to <8 x i16>		%yy = zext <8 x i8> %y to <8 x i16>
%m = mul <8 x i16> %xx, %yy		%m = mul <8 x i16> %xx, %yy
%z = call i16 @llvm.experimental.vector.reduce.add.v8i16(<8 x i16> %m)		%z = call i16 @llvm.experimental.vector.reduce.add.v8i16(<8 x i16> %m)
ret i16 %z		ret i16 %z
}		}

define arm_aapcs_vfpcc signext i16 @add_v8i8_v8i16_sext(<8 x i8> %x, <8 x i8> %y) {		define arm_aapcs_vfpcc signext i16 @add_v8i8_v8i16_sext(<8 x i8> %x, <8 x i8> %y) {
; CHECK-LABEL: add_v8i8_v8i16_sext:		; CHECK-LABEL: add_v8i8_v8i16_sext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmovlb.s8 q1, q1		; CHECK-NEXT: vmullb.s8 q0, q0, q1
; CHECK-NEXT: vmovlb.s8 q0, q0
; CHECK-NEXT: vmul.i16 q0, q0, q1
; CHECK-NEXT: vaddv.u16 r0, q0		; CHECK-NEXT: vaddv.u16 r0, q0
; CHECK-NEXT: sxth r0, r0		; CHECK-NEXT: sxth r0, r0
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = sext <8 x i8> %x to <8 x i16>		%xx = sext <8 x i8> %x to <8 x i16>
%yy = sext <8 x i8> %y to <8 x i16>		%yy = sext <8 x i8> %y to <8 x i16>
%m = mul <8 x i16> %xx, %yy		%m = mul <8 x i16> %xx, %yy
%z = call i16 @llvm.experimental.vector.reduce.add.v8i16(<8 x i16> %m)		%z = call i16 @llvm.experimental.vector.reduce.add.v8i16(<8 x i16> %m)
▲ Show 20 Lines • Show All 526 Lines • ▼ Show 20 Lines	entry:
ret i64 %r		ret i64 %r
}		}

define arm_aapcs_vfpcc i64 @add_v2i32_v2i64_acc_zext(<2 x i32> %x, <2 x i32> %y, i64 %a) {		define arm_aapcs_vfpcc i64 @add_v2i32_v2i64_acc_zext(<2 x i32> %x, <2 x i32> %y, i64 %a) {
; CHECK-LABEL: add_v2i32_v2i64_acc_zext:		; CHECK-LABEL: add_v2i32_v2i64_acc_zext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r7, lr}		; CHECK-NEXT: .save {r7, lr}
; CHECK-NEXT: push {r7, lr}		; CHECK-NEXT: push {r7, lr}
; CHECK-NEXT: vmov r2, s4		; CHECK-NEXT: vmullb.u32 q2, q0, q1
; CHECK-NEXT: vmov r3, s0		; CHECK-NEXT: vmov r2, s10
; CHECK-NEXT: vmov r12, s6		; CHECK-NEXT: vmov r3, s8
; CHECK-NEXT: umull r2, lr, r3, r2		; CHECK-NEXT: vmov r12, s11
; CHECK-NEXT: vmov r3, s2		; CHECK-NEXT: vmov lr, s9
; CHECK-NEXT: umlal r2, lr, r3, r12		; CHECK-NEXT: adds r2, r2, r3
		; CHECK-NEXT: adc.w r3, lr, r12
; CHECK-NEXT: adds r0, r0, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adc.w r1, r1, lr		; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: pop {r7, pc}		; CHECK-NEXT: pop {r7, pc}
entry:		entry:
%xx = zext <2 x i32> %x to <2 x i64>		%xx = zext <2 x i32> %x to <2 x i64>
%yy = zext <2 x i32> %y to <2 x i64>		%yy = zext <2 x i32> %y to <2 x i64>
%m = mul <2 x i64> %xx, %yy		%m = mul <2 x i64> %xx, %yy
%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %m)		%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %m)
%r = add i64 %z, %a		%r = add i64 %z, %a
ret i64 %r		ret i64 %r
}		}

define arm_aapcs_vfpcc i64 @add_v2i32_v2i64_acc_sext(<2 x i32> %x, <2 x i32> %y, i64 %a) {		define arm_aapcs_vfpcc i64 @add_v2i32_v2i64_acc_sext(<2 x i32> %x, <2 x i32> %y, i64 %a) {
; CHECK-LABEL: add_v2i32_v2i64_acc_sext:		; CHECK-LABEL: add_v2i32_v2i64_acc_sext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r7, lr}		; CHECK-NEXT: .save {r7, lr}
; CHECK-NEXT: push {r7, lr}		; CHECK-NEXT: push {r7, lr}
; CHECK-NEXT: vmov r2, s4		; CHECK-NEXT: vmullb.s32 q2, q0, q1
; CHECK-NEXT: vmov r3, s0		; CHECK-NEXT: vmov r2, s10
; CHECK-NEXT: vmov r12, s6		; CHECK-NEXT: vmov r3, s8
; CHECK-NEXT: smull r2, lr, r3, r2		; CHECK-NEXT: vmov r12, s11
; CHECK-NEXT: vmov r3, s2		; CHECK-NEXT: vmov lr, s9
; CHECK-NEXT: smlal r2, lr, r3, r12		; CHECK-NEXT: adds r2, r2, r3
		; CHECK-NEXT: adc.w r3, lr, r12
; CHECK-NEXT: adds r0, r0, r2		; CHECK-NEXT: adds r0, r0, r2
; CHECK-NEXT: adc.w r1, r1, lr		; CHECK-NEXT: adcs r1, r3
; CHECK-NEXT: pop {r7, pc}		; CHECK-NEXT: pop {r7, pc}
entry:		entry:
%xx = sext <2 x i32> %x to <2 x i64>		%xx = sext <2 x i32> %x to <2 x i64>
%yy = sext <2 x i32> %y to <2 x i64>		%yy = sext <2 x i32> %y to <2 x i64>
%m = mul <2 x i64> %xx, %yy		%m = mul <2 x i64> %xx, %yy
%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %m)		%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %m)
%r = add i64 %z, %a		%r = add i64 %z, %a
ret i64 %r		ret i64 %r
▲ Show 20 Lines • Show All 255 Lines • ▼ Show 20 Lines
; CHECK-NEXT: vmov.u8 r1, q0[12]		; CHECK-NEXT: vmov.u8 r1, q0[12]
; CHECK-NEXT: vmov.16 q3[4], r1		; CHECK-NEXT: vmov.16 q3[4], r1
; CHECK-NEXT: vmov.u8 r1, q0[13]		; CHECK-NEXT: vmov.u8 r1, q0[13]
; CHECK-NEXT: vmov.16 q3[5], r1		; CHECK-NEXT: vmov.16 q3[5], r1
; CHECK-NEXT: vmov.u8 r1, q0[14]		; CHECK-NEXT: vmov.u8 r1, q0[14]
; CHECK-NEXT: vmov.16 q3[6], r1		; CHECK-NEXT: vmov.16 q3[6], r1
; CHECK-NEXT: vmov.u8 r1, q0[15]		; CHECK-NEXT: vmov.u8 r1, q0[15]
; CHECK-NEXT: vmov.16 q3[7], r1		; CHECK-NEXT: vmov.16 q3[7], r1
; CHECK-NEXT: vmovlb.u8 q2, q2
; CHECK-NEXT: vmovlb.u8 q3, q3
; CHECK-NEXT: vmov.u8 r1, q1[0]		; CHECK-NEXT: vmov.u8 r1, q1[0]
; CHECK-NEXT: vmul.i16 q2, q3, q2		; CHECK-NEXT: vmullb.u8 q2, q3, q2
; CHECK-NEXT: vmov.16 q3[0], r1		; CHECK-NEXT: vmov.16 q3[0], r1
; CHECK-NEXT: vmov.u8 r1, q1[1]		; CHECK-NEXT: vmov.u8 r1, q1[1]
; CHECK-NEXT: vmov.16 q3[1], r1		; CHECK-NEXT: vmov.16 q3[1], r1
; CHECK-NEXT: vmov.u8 r1, q1[2]		; CHECK-NEXT: vmov.u8 r1, q1[2]
; CHECK-NEXT: vmov.16 q3[2], r1		; CHECK-NEXT: vmov.16 q3[2], r1
; CHECK-NEXT: vmov.u8 r1, q1[3]		; CHECK-NEXT: vmov.u8 r1, q1[3]
; CHECK-NEXT: vmov.16 q3[3], r1		; CHECK-NEXT: vmov.16 q3[3], r1
; CHECK-NEXT: vmov.u8 r1, q1[4]		; CHECK-NEXT: vmov.u8 r1, q1[4]
; CHECK-NEXT: vmov.16 q3[4], r1		; CHECK-NEXT: vmov.16 q3[4], r1
; CHECK-NEXT: vmov.u8 r1, q1[5]		; CHECK-NEXT: vmov.u8 r1, q1[5]
; CHECK-NEXT: vmov.16 q3[5], r1		; CHECK-NEXT: vmov.16 q3[5], r1
; CHECK-NEXT: vmov.u8 r1, q1[6]		; CHECK-NEXT: vmov.u8 r1, q1[6]
; CHECK-NEXT: vmov.16 q3[6], r1		; CHECK-NEXT: vmov.16 q3[6], r1
; CHECK-NEXT: vmov.u8 r1, q1[7]		; CHECK-NEXT: vmov.u8 r1, q1[7]
; CHECK-NEXT: vmov.16 q3[7], r1		; CHECK-NEXT: vmov.16 q3[7], r1
; CHECK-NEXT: vmov.u8 r1, q0[0]		; CHECK-NEXT: vmov.u8 r1, q0[0]
; CHECK-NEXT: vmovlb.u8 q1, q3		; CHECK-NEXT: vmov.16 q1[0], r1
; CHECK-NEXT: vmov.16 q3[0], r1
; CHECK-NEXT: vmov.u8 r1, q0[1]		; CHECK-NEXT: vmov.u8 r1, q0[1]
; CHECK-NEXT: vmov.16 q3[1], r1		; CHECK-NEXT: vmov.16 q1[1], r1
; CHECK-NEXT: vmov.u8 r1, q0[2]		; CHECK-NEXT: vmov.u8 r1, q0[2]
; CHECK-NEXT: vmov.16 q3[2], r1		; CHECK-NEXT: vmov.16 q1[2], r1
; CHECK-NEXT: vmov.u8 r1, q0[3]		; CHECK-NEXT: vmov.u8 r1, q0[3]
; CHECK-NEXT: vmov.16 q3[3], r1		; CHECK-NEXT: vmov.16 q1[3], r1
; CHECK-NEXT: vmov.u8 r1, q0[4]		; CHECK-NEXT: vmov.u8 r1, q0[4]
; CHECK-NEXT: vmov.16 q3[4], r1		; CHECK-NEXT: vmov.16 q1[4], r1
; CHECK-NEXT: vmov.u8 r1, q0[5]		; CHECK-NEXT: vmov.u8 r1, q0[5]
; CHECK-NEXT: vmov.16 q3[5], r1		; CHECK-NEXT: vmov.16 q1[5], r1
; CHECK-NEXT: vmov.u8 r1, q0[6]		; CHECK-NEXT: vmov.u8 r1, q0[6]
; CHECK-NEXT: vmov.16 q3[6], r1		; CHECK-NEXT: vmov.16 q1[6], r1
; CHECK-NEXT: vmov.u8 r1, q0[7]		; CHECK-NEXT: vmov.u8 r1, q0[7]
; CHECK-NEXT: vmov.16 q3[7], r1		; CHECK-NEXT: vmov.16 q1[7], r1
; CHECK-NEXT: vmovlb.u8 q0, q3		; CHECK-NEXT: vmullb.u8 q0, q1, q3
; CHECK-NEXT: vmul.i16 q0, q0, q1
; CHECK-NEXT: vadd.i16 q0, q0, q2		; CHECK-NEXT: vadd.i16 q0, q0, q2
; CHECK-NEXT: vaddva.u16 r0, q0		; CHECK-NEXT: vaddva.u16 r0, q0
; CHECK-NEXT: uxth r0, r0		; CHECK-NEXT: uxth r0, r0
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = zext <16 x i8> %x to <16 x i16>		%xx = zext <16 x i8> %x to <16 x i16>
%yy = zext <16 x i8> %y to <16 x i16>		%yy = zext <16 x i8> %y to <16 x i16>
%m = mul <16 x i16> %xx, %yy		%m = mul <16 x i16> %xx, %yy
Show All 32 Lines
; CHECK-NEXT: vmov.u8 r1, q0[12]		; CHECK-NEXT: vmov.u8 r1, q0[12]
; CHECK-NEXT: vmov.16 q3[4], r1		; CHECK-NEXT: vmov.16 q3[4], r1
; CHECK-NEXT: vmov.u8 r1, q0[13]		; CHECK-NEXT: vmov.u8 r1, q0[13]
; CHECK-NEXT: vmov.16 q3[5], r1		; CHECK-NEXT: vmov.16 q3[5], r1
; CHECK-NEXT: vmov.u8 r1, q0[14]		; CHECK-NEXT: vmov.u8 r1, q0[14]
; CHECK-NEXT: vmov.16 q3[6], r1		; CHECK-NEXT: vmov.16 q3[6], r1
; CHECK-NEXT: vmov.u8 r1, q0[15]		; CHECK-NEXT: vmov.u8 r1, q0[15]
; CHECK-NEXT: vmov.16 q3[7], r1		; CHECK-NEXT: vmov.16 q3[7], r1
; CHECK-NEXT: vmovlb.s8 q2, q2
; CHECK-NEXT: vmovlb.s8 q3, q3
; CHECK-NEXT: vmov.u8 r1, q1[0]		; CHECK-NEXT: vmov.u8 r1, q1[0]
; CHECK-NEXT: vmul.i16 q2, q3, q2		; CHECK-NEXT: vmullb.s8 q2, q3, q2
; CHECK-NEXT: vmov.16 q3[0], r1		; CHECK-NEXT: vmov.16 q3[0], r1
; CHECK-NEXT: vmov.u8 r1, q1[1]		; CHECK-NEXT: vmov.u8 r1, q1[1]
; CHECK-NEXT: vmov.16 q3[1], r1		; CHECK-NEXT: vmov.16 q3[1], r1
; CHECK-NEXT: vmov.u8 r1, q1[2]		; CHECK-NEXT: vmov.u8 r1, q1[2]
; CHECK-NEXT: vmov.16 q3[2], r1		; CHECK-NEXT: vmov.16 q3[2], r1
; CHECK-NEXT: vmov.u8 r1, q1[3]		; CHECK-NEXT: vmov.u8 r1, q1[3]
; CHECK-NEXT: vmov.16 q3[3], r1		; CHECK-NEXT: vmov.16 q3[3], r1
; CHECK-NEXT: vmov.u8 r1, q1[4]		; CHECK-NEXT: vmov.u8 r1, q1[4]
; CHECK-NEXT: vmov.16 q3[4], r1		; CHECK-NEXT: vmov.16 q3[4], r1
; CHECK-NEXT: vmov.u8 r1, q1[5]		; CHECK-NEXT: vmov.u8 r1, q1[5]
; CHECK-NEXT: vmov.16 q3[5], r1		; CHECK-NEXT: vmov.16 q3[5], r1
; CHECK-NEXT: vmov.u8 r1, q1[6]		; CHECK-NEXT: vmov.u8 r1, q1[6]
; CHECK-NEXT: vmov.16 q3[6], r1		; CHECK-NEXT: vmov.16 q3[6], r1
; CHECK-NEXT: vmov.u8 r1, q1[7]		; CHECK-NEXT: vmov.u8 r1, q1[7]
; CHECK-NEXT: vmov.16 q3[7], r1		; CHECK-NEXT: vmov.16 q3[7], r1
; CHECK-NEXT: vmov.u8 r1, q0[0]		; CHECK-NEXT: vmov.u8 r1, q0[0]
; CHECK-NEXT: vmovlb.s8 q1, q3		; CHECK-NEXT: vmov.16 q1[0], r1
; CHECK-NEXT: vmov.16 q3[0], r1
; CHECK-NEXT: vmov.u8 r1, q0[1]		; CHECK-NEXT: vmov.u8 r1, q0[1]
; CHECK-NEXT: vmov.16 q3[1], r1		; CHECK-NEXT: vmov.16 q1[1], r1
; CHECK-NEXT: vmov.u8 r1, q0[2]		; CHECK-NEXT: vmov.u8 r1, q0[2]
; CHECK-NEXT: vmov.16 q3[2], r1		; CHECK-NEXT: vmov.16 q1[2], r1
; CHECK-NEXT: vmov.u8 r1, q0[3]		; CHECK-NEXT: vmov.u8 r1, q0[3]
; CHECK-NEXT: vmov.16 q3[3], r1		; CHECK-NEXT: vmov.16 q1[3], r1
; CHECK-NEXT: vmov.u8 r1, q0[4]		; CHECK-NEXT: vmov.u8 r1, q0[4]
; CHECK-NEXT: vmov.16 q3[4], r1		; CHECK-NEXT: vmov.16 q1[4], r1
; CHECK-NEXT: vmov.u8 r1, q0[5]		; CHECK-NEXT: vmov.u8 r1, q0[5]
; CHECK-NEXT: vmov.16 q3[5], r1		; CHECK-NEXT: vmov.16 q1[5], r1
; CHECK-NEXT: vmov.u8 r1, q0[6]		; CHECK-NEXT: vmov.u8 r1, q0[6]
; CHECK-NEXT: vmov.16 q3[6], r1		; CHECK-NEXT: vmov.16 q1[6], r1
; CHECK-NEXT: vmov.u8 r1, q0[7]		; CHECK-NEXT: vmov.u8 r1, q0[7]
; CHECK-NEXT: vmov.16 q3[7], r1		; CHECK-NEXT: vmov.16 q1[7], r1
; CHECK-NEXT: vmovlb.s8 q0, q3		; CHECK-NEXT: vmullb.s8 q0, q1, q3
; CHECK-NEXT: vmul.i16 q0, q0, q1
; CHECK-NEXT: vadd.i16 q0, q0, q2		; CHECK-NEXT: vadd.i16 q0, q0, q2
; CHECK-NEXT: vaddva.u16 r0, q0		; CHECK-NEXT: vaddva.u16 r0, q0
; CHECK-NEXT: sxth r0, r0		; CHECK-NEXT: sxth r0, r0
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = sext <16 x i8> %x to <16 x i16>		%xx = sext <16 x i8> %x to <16 x i16>
%yy = sext <16 x i8> %y to <16 x i16>		%yy = sext <16 x i8> %y to <16 x i16>
%m = mul <16 x i16> %xx, %yy		%m = mul <16 x i16> %xx, %yy
%z = call i16 @llvm.experimental.vector.reduce.add.v16i16(<16 x i16> %m)		%z = call i16 @llvm.experimental.vector.reduce.add.v16i16(<16 x i16> %m)
%r = add i16 %z, %a		%r = add i16 %z, %a
ret i16 %r		ret i16 %r
}		}

define arm_aapcs_vfpcc zeroext i16 @add_v8i8_v8i16_acc_zext(<8 x i8> %x, <8 x i8> %y, i16 %a) {		define arm_aapcs_vfpcc zeroext i16 @add_v8i8_v8i16_acc_zext(<8 x i8> %x, <8 x i8> %y, i16 %a) {
; CHECK-LABEL: add_v8i8_v8i16_acc_zext:		; CHECK-LABEL: add_v8i8_v8i16_acc_zext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmovlb.u8 q1, q1		; CHECK-NEXT: vmullb.u8 q0, q0, q1
; CHECK-NEXT: vmovlb.u8 q0, q0
; CHECK-NEXT: vmul.i16 q0, q0, q1
; CHECK-NEXT: vaddva.u16 r0, q0		; CHECK-NEXT: vaddva.u16 r0, q0
; CHECK-NEXT: uxth r0, r0		; CHECK-NEXT: uxth r0, r0
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = zext <8 x i8> %x to <8 x i16>		%xx = zext <8 x i8> %x to <8 x i16>
%yy = zext <8 x i8> %y to <8 x i16>		%yy = zext <8 x i8> %y to <8 x i16>
%m = mul <8 x i16> %xx, %yy		%m = mul <8 x i16> %xx, %yy
%z = call i16 @llvm.experimental.vector.reduce.add.v8i16(<8 x i16> %m)		%z = call i16 @llvm.experimental.vector.reduce.add.v8i16(<8 x i16> %m)
%r = add i16 %z, %a		%r = add i16 %z, %a
ret i16 %r		ret i16 %r
}		}

define arm_aapcs_vfpcc signext i16 @add_v8i8_v8i16_acc_sext(<8 x i8> %x, <8 x i8> %y, i16 %a) {		define arm_aapcs_vfpcc signext i16 @add_v8i8_v8i16_acc_sext(<8 x i8> %x, <8 x i8> %y, i16 %a) {
; CHECK-LABEL: add_v8i8_v8i16_acc_sext:		; CHECK-LABEL: add_v8i8_v8i16_acc_sext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmovlb.s8 q1, q1		; CHECK-NEXT: vmullb.s8 q0, q0, q1
; CHECK-NEXT: vmovlb.s8 q0, q0
; CHECK-NEXT: vmul.i16 q0, q0, q1
; CHECK-NEXT: vaddva.u16 r0, q0		; CHECK-NEXT: vaddva.u16 r0, q0
; CHECK-NEXT: sxth r0, r0		; CHECK-NEXT: sxth r0, r0
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = sext <8 x i8> %x to <8 x i16>		%xx = sext <8 x i8> %x to <8 x i16>
%yy = sext <8 x i8> %y to <8 x i16>		%yy = sext <8 x i8> %y to <8 x i16>
%m = mul <8 x i16> %xx, %yy		%m = mul <8 x i16> %xx, %yy
%z = call i16 @llvm.experimental.vector.reduce.add.v8i16(<8 x i16> %m)		%z = call i16 @llvm.experimental.vector.reduce.add.v8i16(<8 x i16> %m)
▲ Show 20 Lines • Show All 522 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vmull.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple=thumbv8.1m.main-arm-none-eabi -mattr=+mve -verify-machineinstrs %s -o - \| FileCheck %s --check-prefix=CHECK			; RUN: llc -mtriple=thumbv8.1m.main-arm-none-eabi -mattr=+mve -verify-machineinstrs %s -o - \| FileCheck %s --check-prefix=CHECK

	define arm_aapcs_vfpcc <2 x i64> @sext_02(<4 x i32> %src1, <4 x i32> %src2) {			define arm_aapcs_vfpcc <2 x i64> @sext_02(<4 x i32> %src1, <4 x i32> %src2) {
	; CHECK-LABEL: sext_02:			; CHECK-LABEL: sext_02:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: vmov r0, s4			; CHECK-NEXT: vmullb.s32 q2, q0, q1
	; CHECK-NEXT: vmov r1, s0
	; CHECK-NEXT: smull r0, r1, r1, r0
	; CHECK-NEXT: vmov.32 q2[0], r0
	; CHECK-NEXT: vmov r0, s6
	; CHECK-NEXT: vmov.32 q2[1], r1
	; CHECK-NEXT: vmov r1, s2
	; CHECK-NEXT: smull r0, r1, r1, r0
	; CHECK-NEXT: vmov.32 q2[2], r0
	; CHECK-NEXT: vmov.32 q2[3], r1
	; CHECK-NEXT: vmov q0, q2			; CHECK-NEXT: vmov q0, q2
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%shuf1 = shufflevector <4 x i32> %src1, <4 x i32> undef, <2 x i32> <i32 0, i32 2>			%shuf1 = shufflevector <4 x i32> %src1, <4 x i32> undef, <2 x i32> <i32 0, i32 2>
	%out1 = sext <2 x i32> %shuf1 to <2 x i64>			%out1 = sext <2 x i32> %shuf1 to <2 x i64>
	%shuf2 = shufflevector <4 x i32> %src2, <4 x i32> undef, <2 x i32> <i32 0, i32 2>			%shuf2 = shufflevector <4 x i32> %src2, <4 x i32> undef, <2 x i32> <i32 0, i32 2>
	%out2 = sext <2 x i32> %shuf2 to <2 x i64>			%out2 = sext <2 x i32> %shuf2 to <2 x i64>
	%out = mul <2 x i64> %out1, %out2			%out = mul <2 x i64> %out1, %out2
	ret <2 x i64> %out			ret <2 x i64> %out
	}			}

	define arm_aapcs_vfpcc <2 x i64> @sext_13(<4 x i32> %src1, <4 x i32> %src2) {			define arm_aapcs_vfpcc <2 x i64> @sext_13(<4 x i32> %src1, <4 x i32> %src2) {
	; CHECK-LABEL: sext_13:			; CHECK-LABEL: sext_13:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: vrev64.32 q2, q1			; CHECK-NEXT: vmullt.s32 q2, q0, q1
	; CHECK-NEXT: vrev64.32 q1, q0			; CHECK-NEXT: vmov q0, q2
	; CHECK-NEXT: vmov r0, s8
	; CHECK-NEXT: vmov r1, s4
	; CHECK-NEXT: smull r0, r1, r1, r0
	; CHECK-NEXT: vmov.32 q0[0], r0
	; CHECK-NEXT: vmov r0, s10
	; CHECK-NEXT: vmov.32 q0[1], r1
	; CHECK-NEXT: vmov r1, s6
	; CHECK-NEXT: smull r0, r1, r1, r0
	; CHECK-NEXT: vmov.32 q0[2], r0
	; CHECK-NEXT: vmov.32 q0[3], r1
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%shuf1 = shufflevector <4 x i32> %src1, <4 x i32> undef, <2 x i32> <i32 1, i32 3>			%shuf1 = shufflevector <4 x i32> %src1, <4 x i32> undef, <2 x i32> <i32 1, i32 3>
	%out1 = sext <2 x i32> %shuf1 to <2 x i64>			%out1 = sext <2 x i32> %shuf1 to <2 x i64>
	%shuf2 = shufflevector <4 x i32> %src2, <4 x i32> undef, <2 x i32> <i32 1, i32 3>			%shuf2 = shufflevector <4 x i32> %src2, <4 x i32> undef, <2 x i32> <i32 1, i32 3>
	%out2 = sext <2 x i32> %shuf2 to <2 x i64>			%out2 = sext <2 x i32> %shuf2 to <2 x i64>
	%out = mul <2 x i64> %out1, %out2			%out = mul <2 x i64> %out1, %out2
	ret <2 x i64> %out			ret <2 x i64> %out
	}			}

	define arm_aapcs_vfpcc <2 x i64> @zext_02(<4 x i32> %src1, <4 x i32> %src2) {			define arm_aapcs_vfpcc <2 x i64> @zext_02(<4 x i32> %src1, <4 x i32> %src2) {
	; CHECK-LABEL: zext_02:			; CHECK-LABEL: zext_02:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: vmov r0, s4			; CHECK-NEXT: vmullb.u32 q2, q0, q1
	; CHECK-NEXT: vmov r1, s0
	; CHECK-NEXT: umull r0, r1, r1, r0
	; CHECK-NEXT: vmov.32 q2[0], r0
	; CHECK-NEXT: vmov r0, s6
	; CHECK-NEXT: vmov.32 q2[1], r1
	; CHECK-NEXT: vmov r1, s2
	; CHECK-NEXT: umull r0, r1, r1, r0
	; CHECK-NEXT: vmov.32 q2[2], r0
	; CHECK-NEXT: vmov.32 q2[3], r1
	; CHECK-NEXT: vmov q0, q2			; CHECK-NEXT: vmov q0, q2
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%shuf1 = shufflevector <4 x i32> %src1, <4 x i32> undef, <2 x i32> <i32 0, i32 2>			%shuf1 = shufflevector <4 x i32> %src1, <4 x i32> undef, <2 x i32> <i32 0, i32 2>
	%out1 = zext <2 x i32> %shuf1 to <2 x i64>			%out1 = zext <2 x i32> %shuf1 to <2 x i64>
	%shuf2 = shufflevector <4 x i32> %src2, <4 x i32> undef, <2 x i32> <i32 0, i32 2>			%shuf2 = shufflevector <4 x i32> %src2, <4 x i32> undef, <2 x i32> <i32 0, i32 2>
	%out2 = zext <2 x i32> %shuf2 to <2 x i64>			%out2 = zext <2 x i32> %shuf2 to <2 x i64>
	%out = mul <2 x i64> %out1, %out2			%out = mul <2 x i64> %out1, %out2
	ret <2 x i64> %out			ret <2 x i64> %out
	}			}

	define arm_aapcs_vfpcc <2 x i64> @zext_13(<4 x i32> %src1, <4 x i32> %src2) {			define arm_aapcs_vfpcc <2 x i64> @zext_13(<4 x i32> %src1, <4 x i32> %src2) {
	; CHECK-LABEL: zext_13:			; CHECK-LABEL: zext_13:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: vrev64.32 q2, q1			; CHECK-NEXT: vmullt.u32 q2, q0, q1
	; CHECK-NEXT: vrev64.32 q1, q0			; CHECK-NEXT: vmov q0, q2
				samparkerUnsubmitted Not Done Reply Inline Actions Do you know why we sometimes can't write to q0 too? samparker: Do you know why we sometimes can't write to q0 too?
				dmgreenAuthorUnsubmitted Done Reply Inline Actions The i32 version is earlyclobber because it needs to work cross-lane. I think it's UNPREDICTABLE if Qd == Qn or Qm dmgreen: The i32 version is earlyclobber because it needs to work cross-lane. I think it's UNPREDICTABLE…
	; CHECK-NEXT: vmov r0, s8
	; CHECK-NEXT: vmov r1, s4
	; CHECK-NEXT: umull r0, r1, r1, r0
	; CHECK-NEXT: vmov.32 q0[0], r0
	; CHECK-NEXT: vmov r0, s10
	; CHECK-NEXT: vmov.32 q0[1], r1
	; CHECK-NEXT: vmov r1, s6
	; CHECK-NEXT: umull r0, r1, r1, r0
	; CHECK-NEXT: vmov.32 q0[2], r0
	; CHECK-NEXT: vmov.32 q0[3], r1
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%shuf1 = shufflevector <4 x i32> %src1, <4 x i32> undef, <2 x i32> <i32 1, i32 3>			%shuf1 = shufflevector <4 x i32> %src1, <4 x i32> undef, <2 x i32> <i32 1, i32 3>
	%out1 = zext <2 x i32> %shuf1 to <2 x i64>			%out1 = zext <2 x i32> %shuf1 to <2 x i64>
	%shuf2 = shufflevector <4 x i32> %src2, <4 x i32> undef, <2 x i32> <i32 1, i32 3>			%shuf2 = shufflevector <4 x i32> %src2, <4 x i32> undef, <2 x i32> <i32 1, i32 3>
	%out2 = zext <2 x i32> %shuf2 to <2 x i64>			%out2 = zext <2 x i32> %shuf2 to <2 x i64>
	%out = mul <2 x i64> %out1, %out2			%out = mul <2 x i64> %out1, %out2
	ret <2 x i64> %out			ret <2 x i64> %out
	}			}


	define arm_aapcs_vfpcc <4 x i32> @sext_0246(<8 x i16> %src1, <8 x i16> %src2) {			define arm_aapcs_vfpcc <4 x i32> @sext_0246(<8 x i16> %src1, <8 x i16> %src2) {
	; CHECK-LABEL: sext_0246:			; CHECK-LABEL: sext_0246:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: vmovlb.s16 q1, q1			; CHECK-NEXT: vmullb.s16 q0, q0, q1
	; CHECK-NEXT: vmovlb.s16 q0, q0
	; CHECK-NEXT: vmul.i32 q0, q0, q1
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%shuf1 = shufflevector <8 x i16> %src1, <8 x i16> undef, <4 x i32> <i32 0, i32 2, i32 4, i32 6>			%shuf1 = shufflevector <8 x i16> %src1, <8 x i16> undef, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
	%out1 = sext <4 x i16> %shuf1 to <4 x i32>			%out1 = sext <4 x i16> %shuf1 to <4 x i32>
	%shuf2 = shufflevector <8 x i16> %src2, <8 x i16> undef, <4 x i32> <i32 0, i32 2, i32 4, i32 6>			%shuf2 = shufflevector <8 x i16> %src2, <8 x i16> undef, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
	%out2 = sext <4 x i16> %shuf2 to <4 x i32>			%out2 = sext <4 x i16> %shuf2 to <4 x i32>
	%out = mul <4 x i32> %out1, %out2			%out = mul <4 x i32> %out1, %out2
	ret <4 x i32> %out			ret <4 x i32> %out
	}			}

	define arm_aapcs_vfpcc <4 x i32> @sext_1357(<8 x i16> %src1, <8 x i16> %src2) {			define arm_aapcs_vfpcc <4 x i32> @sext_1357(<8 x i16> %src1, <8 x i16> %src2) {
	; CHECK-LABEL: sext_1357:			; CHECK-LABEL: sext_1357:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: vmovlt.s16 q1, q1			; CHECK-NEXT: vmullt.s16 q0, q0, q1
	; CHECK-NEXT: vmovlt.s16 q0, q0
	; CHECK-NEXT: vmul.i32 q0, q0, q1
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%shuf1 = shufflevector <8 x i16> %src1, <8 x i16> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>			%shuf1 = shufflevector <8 x i16> %src1, <8 x i16> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
	%out1 = sext <4 x i16> %shuf1 to <4 x i32>			%out1 = sext <4 x i16> %shuf1 to <4 x i32>
	%shuf2 = shufflevector <8 x i16> %src2, <8 x i16> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>			%shuf2 = shufflevector <8 x i16> %src2, <8 x i16> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
	%out2 = sext <4 x i16> %shuf2 to <4 x i32>			%out2 = sext <4 x i16> %shuf2 to <4 x i32>
	%out = mul <4 x i32> %out1, %out2			%out = mul <4 x i32> %out1, %out2
	ret <4 x i32> %out			ret <4 x i32> %out
	}			}

	define arm_aapcs_vfpcc <4 x i32> @zext_0246(<8 x i16> %src1, <8 x i16> %src2) {			define arm_aapcs_vfpcc <4 x i32> @zext_0246(<8 x i16> %src1, <8 x i16> %src2) {
	; CHECK-LABEL: zext_0246:			; CHECK-LABEL: zext_0246:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: vmovlb.u16 q1, q1			; CHECK-NEXT: vmullb.u16 q0, q0, q1
	; CHECK-NEXT: vmovlb.u16 q0, q0
	; CHECK-NEXT: vmul.i32 q0, q0, q1
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%shuf1 = shufflevector <8 x i16> %src1, <8 x i16> undef, <4 x i32> <i32 0, i32 2, i32 4, i32 6>			%shuf1 = shufflevector <8 x i16> %src1, <8 x i16> undef, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
	%out1 = zext <4 x i16> %shuf1 to <4 x i32>			%out1 = zext <4 x i16> %shuf1 to <4 x i32>
	%shuf2 = shufflevector <8 x i16> %src2, <8 x i16> undef, <4 x i32> <i32 0, i32 2, i32 4, i32 6>			%shuf2 = shufflevector <8 x i16> %src2, <8 x i16> undef, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
	%out2 = zext <4 x i16> %shuf2 to <4 x i32>			%out2 = zext <4 x i16> %shuf2 to <4 x i32>
	%out = mul <4 x i32> %out1, %out2			%out = mul <4 x i32> %out1, %out2
	ret <4 x i32> %out			ret <4 x i32> %out
	}			}

	define arm_aapcs_vfpcc <4 x i32> @zext_1357(<8 x i16> %src1, <8 x i16> %src2) {			define arm_aapcs_vfpcc <4 x i32> @zext_1357(<8 x i16> %src1, <8 x i16> %src2) {
	; CHECK-LABEL: zext_1357:			; CHECK-LABEL: zext_1357:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: vmovlt.u16 q1, q1			; CHECK-NEXT: vmullt.u16 q0, q0, q1
	; CHECK-NEXT: vmovlt.u16 q0, q0
	; CHECK-NEXT: vmul.i32 q0, q0, q1
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%shuf1 = shufflevector <8 x i16> %src1, <8 x i16> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>			%shuf1 = shufflevector <8 x i16> %src1, <8 x i16> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
	%out1 = zext <4 x i16> %shuf1 to <4 x i32>			%out1 = zext <4 x i16> %shuf1 to <4 x i32>
	%shuf2 = shufflevector <8 x i16> %src2, <8 x i16> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>			%shuf2 = shufflevector <8 x i16> %src2, <8 x i16> undef, <4 x i32> <i32 1, i32 3, i32 5, i32 7>
	%out2 = zext <4 x i16> %shuf2 to <4 x i32>			%out2 = zext <4 x i16> %shuf2 to <4 x i32>
	%out = mul <4 x i32> %out1, %out2			%out = mul <4 x i32> %out1, %out2
	ret <4 x i32> %out			ret <4 x i32> %out
	}			}

	define arm_aapcs_vfpcc <8 x i16> @sext_02468101214(<16 x i8> %src1, <16 x i8> %src2) {			define arm_aapcs_vfpcc <8 x i16> @sext_02468101214(<16 x i8> %src1, <16 x i8> %src2) {
	; CHECK-LABEL: sext_02468101214:			; CHECK-LABEL: sext_02468101214:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: vmovlb.s8 q1, q1			; CHECK-NEXT: vmullb.s8 q0, q0, q1
	; CHECK-NEXT: vmovlb.s8 q0, q0
	; CHECK-NEXT: vmul.i16 q0, q0, q1
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%shuf1 = shufflevector <16 x i8> %src1, <16 x i8> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>			%shuf1 = shufflevector <16 x i8> %src1, <16 x i8> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>
	%out1 = sext <8 x i8> %shuf1 to <8 x i16>			%out1 = sext <8 x i8> %shuf1 to <8 x i16>
	%shuf2 = shufflevector <16 x i8> %src2, <16 x i8> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>			%shuf2 = shufflevector <16 x i8> %src2, <16 x i8> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>
	%out2 = sext <8 x i8> %shuf2 to <8 x i16>			%out2 = sext <8 x i8> %shuf2 to <8 x i16>
	%out = mul <8 x i16> %out1, %out2			%out = mul <8 x i16> %out1, %out2
	ret <8 x i16> %out			ret <8 x i16> %out
	}			}

	define arm_aapcs_vfpcc <8 x i16> @sext_13579111315(<16 x i8> %src1, <16 x i8> %src2) {			define arm_aapcs_vfpcc <8 x i16> @sext_13579111315(<16 x i8> %src1, <16 x i8> %src2) {
	; CHECK-LABEL: sext_13579111315:			; CHECK-LABEL: sext_13579111315:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: vmovlt.s8 q1, q1			; CHECK-NEXT: vmullt.s8 q0, q0, q1
	; CHECK-NEXT: vmovlt.s8 q0, q0
	; CHECK-NEXT: vmul.i16 q0, q0, q1
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%shuf1 = shufflevector <16 x i8> %src1, <16 x i8> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>			%shuf1 = shufflevector <16 x i8> %src1, <16 x i8> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>
	%out1 = sext <8 x i8> %shuf1 to <8 x i16>			%out1 = sext <8 x i8> %shuf1 to <8 x i16>
	%shuf2 = shufflevector <16 x i8> %src2, <16 x i8> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>			%shuf2 = shufflevector <16 x i8> %src2, <16 x i8> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>
	%out2 = sext <8 x i8> %shuf2 to <8 x i16>			%out2 = sext <8 x i8> %shuf2 to <8 x i16>
	%out = mul <8 x i16> %out1, %out2			%out = mul <8 x i16> %out1, %out2
	ret <8 x i16> %out			ret <8 x i16> %out
	}			}

	define arm_aapcs_vfpcc <8 x i16> @zext_02468101214(<16 x i8> %src1, <16 x i8> %src2) {			define arm_aapcs_vfpcc <8 x i16> @zext_02468101214(<16 x i8> %src1, <16 x i8> %src2) {
	; CHECK-LABEL: zext_02468101214:			; CHECK-LABEL: zext_02468101214:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: vmovlb.u8 q1, q1			; CHECK-NEXT: vmullb.u8 q0, q0, q1
	; CHECK-NEXT: vmovlb.u8 q0, q0
	; CHECK-NEXT: vmul.i16 q0, q0, q1
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%shuf1 = shufflevector <16 x i8> %src1, <16 x i8> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>			%shuf1 = shufflevector <16 x i8> %src1, <16 x i8> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>
	%out1 = zext <8 x i8> %shuf1 to <8 x i16>			%out1 = zext <8 x i8> %shuf1 to <8 x i16>
	%shuf2 = shufflevector <16 x i8> %src2, <16 x i8> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>			%shuf2 = shufflevector <16 x i8> %src2, <16 x i8> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>
	%out2 = zext <8 x i8> %shuf2 to <8 x i16>			%out2 = zext <8 x i8> %shuf2 to <8 x i16>
	%out = mul <8 x i16> %out1, %out2			%out = mul <8 x i16> %out1, %out2
	ret <8 x i16> %out			ret <8 x i16> %out
	}			}

	define arm_aapcs_vfpcc <8 x i16> @zext_13579111315(<16 x i8> %src1, <16 x i8> %src2) {			define arm_aapcs_vfpcc <8 x i16> @zext_13579111315(<16 x i8> %src1, <16 x i8> %src2) {
	; CHECK-LABEL: zext_13579111315:			; CHECK-LABEL: zext_13579111315:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: vmovlt.u8 q1, q1			; CHECK-NEXT: vmullt.u8 q0, q0, q1
	; CHECK-NEXT: vmovlt.u8 q0, q0
	; CHECK-NEXT: vmul.i16 q0, q0, q1
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%shuf1 = shufflevector <16 x i8> %src1, <16 x i8> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>			%shuf1 = shufflevector <16 x i8> %src1, <16 x i8> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>
	%out1 = zext <8 x i8> %shuf1 to <8 x i16>			%out1 = zext <8 x i8> %shuf1 to <8 x i16>
	%shuf2 = shufflevector <16 x i8> %src2, <16 x i8> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>			%shuf2 = shufflevector <16 x i8> %src2, <16 x i8> undef, <8 x i32> <i32 1, i32 3, i32 5, i32 7, i32 9, i32 11, i32 13, i32 15>
	%out2 = zext <8 x i8> %shuf2 to <8 x i16>			%out2 = zext <8 x i8> %shuf2 to <8 x i16>
	%out = mul <8 x i16> %out1, %out2			%out = mul <8 x i16> %out1, %out2
	ret <8 x i16> %out			ret <8 x i16> %out
	}			}