This is an archive of the discontinued LLVM Phabricator instance.

[ARM] Extra MVE VADDV reduction patterns
ClosedPublic

Authored by dmgreen on Feb 7 2020, 6:26 AM.

Download Raw Diff

Details

Reviewers

SjoerdMeijer
samparker
simon_tatham
ostannard

Commits

rG51c6e9445cd4: [ARM] Extra MVE VADDV reduction patterns

Summary

We already make use of the VADDV vector reduction instruction for cases where the input and the output start out at the same type. The MVE instruction however will sum into an i32, so if we are summing a v16i8 into an i32, we can still use the same instructions. In terms of IR, this looks like a sext of a legal type (v16i8) into a very illegal type (v16i32) and a vecreduce.add of that into the result. This means we have to catch the pattern early in a DAG combine, producing a target VADDVs/u node, where the signedness is now important.

This is the first part, handling VADDV and VADDVA. There are also VADDVL/VADDVLA instructions, which are interesting because they sum into a 64bit value. And VMLAV and VMLALV, which are interesting because they also do a multiply of two values. It may look a little odd in places as a result.

This is something that I've had sat around on my computer for a while. On it's own it will probably not do very much, as the vectorizer will not produce this IR. Improving that will be a more complicated job than just these patterns though.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

dmgreen created this revision.Feb 7 2020, 6:26 AM

Herald added a project: Restricted Project. · View Herald TranscriptFeb 7 2020, 6:26 AM

Herald added subscribers: hiraditya, kristof.beyls. · View Herald Transcript

LGTM. Even if it's never used by the vectorizer, this will surely be useful when we get to that part of the intrinsics API.

This revision is now accepted and ready to land.Feb 10 2020, 3:14 AM

Closed by commit rG51c6e9445cd4: [ARM] Extra MVE VADDV reduction patterns (authored by dmgreen). · Explain WhyFeb 19 2020, 1:46 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

lib/

Target/

ARM/

ARMISelLowering.h

4 lines

ARMISelLowering.cpp

39 lines

ARMInstrMVE.td

36 lines

test/

CodeGen/

Thumb2/

mve-vecreduce-add.ll

264 lines

Diff 245353

llvm/lib/Target/ARM/ARMISelLowering.h

Show First 20 Lines • Show All 200 Lines • ▼ Show 20 Lines	enum NodeType : unsigned {
VTBL1, // 1-register shuffle with mask		VTBL1, // 1-register shuffle with mask
VTBL2, // 2-register shuffle with mask		VTBL2, // 2-register shuffle with mask
VMOVN, // MVE vmovn		VMOVN, // MVE vmovn

// Vector multiply long:		// Vector multiply long:
VMULLs, // ...signed		VMULLs, // ...signed
VMULLu, // ...unsigned		VMULLu, // ...unsigned

		// MVE reductions
		VADDVs,
		VADDVu,

SMULWB, // Signed multiply word by half word, bottom		SMULWB, // Signed multiply word by half word, bottom
SMULWT, // Signed multiply word by half word, top		SMULWT, // Signed multiply word by half word, top
UMLAL, // 64bit Unsigned Accumulate Multiply		UMLAL, // 64bit Unsigned Accumulate Multiply
SMLAL, // 64bit Signed Accumulate Multiply		SMLAL, // 64bit Signed Accumulate Multiply
UMAAL, // 64-bit Unsigned Accumulate Accumulate Multiply		UMAAL, // 64-bit Unsigned Accumulate Accumulate Multiply
SMLALBB, // 64-bit signed accumulate multiply bottom, bottom 16		SMLALBB, // 64-bit signed accumulate multiply bottom, bottom 16
SMLALBT, // 64-bit signed accumulate multiply bottom, top 16		SMLALBT, // 64-bit signed accumulate multiply bottom, top 16
SMLALTB, // 64-bit signed accumulate multiply top, bottom 16		SMLALTB, // 64-bit signed accumulate multiply top, bottom 16
▲ Show 20 Lines • Show All 645 Lines • Show Last 20 Lines

llvm/lib/Target/ARM/ARMISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 936 Lines • ▼ Show 20 Lines	if (Subtarget->hasNEON() \|\| Subtarget->hasMVEIntegerOps()) {
setTargetDAGCombine(ISD::VECTOR_SHUFFLE);		setTargetDAGCombine(ISD::VECTOR_SHUFFLE);
setTargetDAGCombine(ISD::INSERT_VECTOR_ELT);		setTargetDAGCombine(ISD::INSERT_VECTOR_ELT);
setTargetDAGCombine(ISD::STORE);		setTargetDAGCombine(ISD::STORE);
setTargetDAGCombine(ISD::SIGN_EXTEND);		setTargetDAGCombine(ISD::SIGN_EXTEND);
setTargetDAGCombine(ISD::ZERO_EXTEND);		setTargetDAGCombine(ISD::ZERO_EXTEND);
setTargetDAGCombine(ISD::ANY_EXTEND);		setTargetDAGCombine(ISD::ANY_EXTEND);
setTargetDAGCombine(ISD::INTRINSIC_W_CHAIN);		setTargetDAGCombine(ISD::INTRINSIC_W_CHAIN);
setTargetDAGCombine(ISD::INTRINSIC_VOID);		setTargetDAGCombine(ISD::INTRINSIC_VOID);
		setTargetDAGCombine(ISD::VECREDUCE_ADD);
}		}

if (!Subtarget->hasFP64()) {		if (!Subtarget->hasFP64()) {
// When targeting a floating-point unit with only single-precision		// When targeting a floating-point unit with only single-precision
// operations, f64 is legal for the few double-precision instructions which		// operations, f64 is legal for the few double-precision instructions which
// are present However, no double-precision operations other than moves,		// are present However, no double-precision operations other than moves,
// loads and stores are provided by the hardware.		// loads and stores are provided by the hardware.
setOperationAction(ISD::FADD, MVT::f64, Expand);		setOperationAction(ISD::FADD, MVT::f64, Expand);
▲ Show 20 Lines • Show All 695 Lines • ▼ Show 20 Lines	const char *ARMTargetLowering::getTargetNodeName(unsigned Opcode) const {
case ARMISD::VZIP: return "ARMISD::VZIP";		case ARMISD::VZIP: return "ARMISD::VZIP";
case ARMISD::VUZP: return "ARMISD::VUZP";		case ARMISD::VUZP: return "ARMISD::VUZP";
case ARMISD::VTRN: return "ARMISD::VTRN";		case ARMISD::VTRN: return "ARMISD::VTRN";
case ARMISD::VTBL1: return "ARMISD::VTBL1";		case ARMISD::VTBL1: return "ARMISD::VTBL1";
case ARMISD::VTBL2: return "ARMISD::VTBL2";		case ARMISD::VTBL2: return "ARMISD::VTBL2";
case ARMISD::VMOVN: return "ARMISD::VMOVN";		case ARMISD::VMOVN: return "ARMISD::VMOVN";
case ARMISD::VMULLs: return "ARMISD::VMULLs";		case ARMISD::VMULLs: return "ARMISD::VMULLs";
case ARMISD::VMULLu: return "ARMISD::VMULLu";		case ARMISD::VMULLu: return "ARMISD::VMULLu";
		case ARMISD::VADDVs: return "ARMISD::VADDVs";
		case ARMISD::VADDVu: return "ARMISD::VADDVu";
case ARMISD::UMAAL: return "ARMISD::UMAAL";		case ARMISD::UMAAL: return "ARMISD::UMAAL";
case ARMISD::UMLAL: return "ARMISD::UMLAL";		case ARMISD::UMLAL: return "ARMISD::UMLAL";
case ARMISD::SMLAL: return "ARMISD::SMLAL";		case ARMISD::SMLAL: return "ARMISD::SMLAL";
case ARMISD::SMLALBB: return "ARMISD::SMLALBB";		case ARMISD::SMLALBB: return "ARMISD::SMLALBB";
case ARMISD::SMLALBT: return "ARMISD::SMLALBT";		case ARMISD::SMLALBT: return "ARMISD::SMLALBT";
case ARMISD::SMLALTB: return "ARMISD::SMLALTB";		case ARMISD::SMLALTB: return "ARMISD::SMLALTB";
case ARMISD::SMLALTT: return "ARMISD::SMLALTT";		case ARMISD::SMLALTT: return "ARMISD::SMLALTT";
case ARMISD::SMULWB: return "ARMISD::SMULWB";		case ARMISD::SMULWB: return "ARMISD::SMULWB";
▲ Show 20 Lines • Show All 12,257 Lines • ▼ Show 20 Lines	static SDValue PerformVDIVCombine(SDNode *N, SelectionDAG &DAG,
unsigned IntrinsicOpcode = isSigned ? Intrinsic::arm_neon_vcvtfxs2fp :		unsigned IntrinsicOpcode = isSigned ? Intrinsic::arm_neon_vcvtfxs2fp :
Intrinsic::arm_neon_vcvtfxu2fp;		Intrinsic::arm_neon_vcvtfxu2fp;
return DAG.getNode(ISD::INTRINSIC_WO_CHAIN, dl,		return DAG.getNode(ISD::INTRINSIC_WO_CHAIN, dl,
Op.getValueType(),		Op.getValueType(),
DAG.getConstant(IntrinsicOpcode, dl, MVT::i32),		DAG.getConstant(IntrinsicOpcode, dl, MVT::i32),
ConvInput, DAG.getConstant(C, dl, MVT::i32));		ConvInput, DAG.getConstant(C, dl, MVT::i32));
}		}

		static SDValue PerformVECREDUCE_ADDCombine(SDNode *N, SelectionDAG &DAG,
		const ARMSubtarget *ST) {
		if (!ST->hasMVEIntegerOps())
		return SDValue();

		assert(N->getOpcode() == ISD::VECREDUCE_ADD);
		EVT ResVT = N->getValueType(0);
		SDValue N0 = N->getOperand(0);
		SDLoc dl(N);

		// We are looking for something that will have illegal types if left alone,
		// but that we can convert to a single instruction undef MVE. For example
		// vecreduce_add(sext(A, v8i32)) => VADDV.s16 A

		// Cases:
		// VADDV u/s 8/16/32

		auto IsVADDV = [&](MVT RetTy, unsigned ExtendCode, ArrayRef<MVT> ExtTypes) {
		if (ResVT != RetTy \|\| N0->getOpcode() != ExtendCode)
		return SDValue();
		SDValue A = N0->getOperand(0);
		if (llvm::any_of(ExtTypes, [&A](MVT Ty) { return A.getValueType() == Ty; }))
		return A;
		return SDValue();
		};

		if (SDValue A = IsVADDV(MVT::i32, ISD::SIGN_EXTEND, {MVT::v8i16, MVT::v16i8}))
		return DAG.getNode(ARMISD::VADDVs, dl, ResVT, A);
		if (SDValue A = IsVADDV(MVT::i32, ISD::ZERO_EXTEND, {MVT::v8i16, MVT::v16i8}))
		return DAG.getNode(ARMISD::VADDVu, dl, ResVT, A);

		return SDValue();
		}

/// PerformIntrinsicCombine - ARM-specific DAG combining for intrinsics.		/// PerformIntrinsicCombine - ARM-specific DAG combining for intrinsics.
static SDValue PerformIntrinsicCombine(SDNode *N, SelectionDAG &DAG) {		static SDValue PerformIntrinsicCombine(SDNode *N, SelectionDAG &DAG) {
unsigned IntNo = cast<ConstantSDNode>(N->getOperand(0))->getZExtValue();		unsigned IntNo = cast<ConstantSDNode>(N->getOperand(0))->getZExtValue();
switch (IntNo) {		switch (IntNo) {
default:		default:
// Don't do anything for most intrinsics.		// Don't do anything for most intrinsics.
break;		break;

▲ Show 20 Lines • Show All 876 Lines • ▼ Show 20 Lines	SDValue ARMTargetLowering::PerformDAGCombine(SDNode *N,
case ARMISD::BUILD_VECTOR:		case ARMISD::BUILD_VECTOR:
return PerformARMBUILD_VECTORCombine(N, DCI);		return PerformARMBUILD_VECTORCombine(N, DCI);
case ARMISD::PREDICATE_CAST:		case ARMISD::PREDICATE_CAST:
return PerformPREDICATE_CASTCombine(N, DCI);		return PerformPREDICATE_CASTCombine(N, DCI);
case ARMISD::VECTOR_REG_CAST:		case ARMISD::VECTOR_REG_CAST:
return PerformVECTOR_REG_CASTCombine(N, DCI, Subtarget);		return PerformVECTOR_REG_CASTCombine(N, DCI, Subtarget);
case ARMISD::VCMP:		case ARMISD::VCMP:
return PerformVCMPCombine(N, DCI, Subtarget);		return PerformVCMPCombine(N, DCI, Subtarget);
		case ISD::VECREDUCE_ADD:
		return PerformVECREDUCE_ADDCombine(N, DCI.DAG, Subtarget);
case ARMISD::SMULWB: {		case ARMISD::SMULWB: {
unsigned BitWidth = N->getValueType(0).getSizeInBits();		unsigned BitWidth = N->getValueType(0).getSizeInBits();
APInt DemandedMask = APInt::getLowBitsSet(BitWidth, 16);		APInt DemandedMask = APInt::getLowBitsSet(BitWidth, 16);
if (SimplifyDemandedBits(N->getOperand(1), DemandedMask, DCI))		if (SimplifyDemandedBits(N->getOperand(1), DemandedMask, DCI))
return SDValue();		return SDValue();
break;		break;
}		}
case ARMISD::SMULWT: {		case ARMISD::SMULWT: {
▲ Show 20 Lines • Show All 2,838 Lines • Show Last 20 Lines

llvm/lib/Target/ARM/ARMInstrMVE.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 614 Lines • ▼ Show 20 Lines

	defm MVE_VADDVs8 : MVE_VADDV_A<"s8", 0b0, 0b00>;			defm MVE_VADDVs8 : MVE_VADDV_A<"s8", 0b0, 0b00>;
	defm MVE_VADDVs16 : MVE_VADDV_A<"s16", 0b0, 0b01>;			defm MVE_VADDVs16 : MVE_VADDV_A<"s16", 0b0, 0b01>;
	defm MVE_VADDVs32 : MVE_VADDV_A<"s32", 0b0, 0b10>;			defm MVE_VADDVs32 : MVE_VADDV_A<"s32", 0b0, 0b10>;
	defm MVE_VADDVu8 : MVE_VADDV_A<"u8", 0b1, 0b00>;			defm MVE_VADDVu8 : MVE_VADDV_A<"u8", 0b1, 0b00>;
	defm MVE_VADDVu16 : MVE_VADDV_A<"u16", 0b1, 0b01>;			defm MVE_VADDVu16 : MVE_VADDV_A<"u16", 0b1, 0b01>;
	defm MVE_VADDVu32 : MVE_VADDV_A<"u32", 0b1, 0b10>;			defm MVE_VADDVu32 : MVE_VADDV_A<"u32", 0b1, 0b10>;

				def ARMVADDVs : SDNode<"ARMISD::VADDVs", SDTVecReduce>;
				def ARMVADDVu : SDNode<"ARMISD::VADDVu", SDTVecReduce>;

	let Predicates = [HasMVEInt] in {			let Predicates = [HasMVEInt] in {
	def : Pat<(i32 (vecreduce_add (v4i32 MQPR:$src))), (i32 (MVE_VADDVu32no_acc $src))>;			def : Pat<(i32 (vecreduce_add (v4i32 MQPR:$src))),
	def : Pat<(i32 (vecreduce_add (v8i16 MQPR:$src))), (i32 (MVE_VADDVu16no_acc $src))>;			(i32 (MVE_VADDVu32no_acc $src))>;
	def : Pat<(i32 (vecreduce_add (v16i8 MQPR:$src))), (i32 (MVE_VADDVu8no_acc $src))>;			def : Pat<(i32 (vecreduce_add (v8i16 MQPR:$src))),
	def : Pat<(i32 (add (i32 (vecreduce_add (v4i32 MQPR:$src1))), (i32 tGPR:$src2))),			(i32 (MVE_VADDVu16no_acc $src))>;
				def : Pat<(i32 (vecreduce_add (v16i8 MQPR:$src))),
				(i32 (MVE_VADDVu8no_acc $src))>;

				def : Pat<(i32 (ARMVADDVs (v8i16 MQPR:$src))),
				(i32 (MVE_VADDVs16no_acc $src))>;
				def : Pat<(i32 (ARMVADDVu (v8i16 MQPR:$src))),
				(i32 (MVE_VADDVu16no_acc $src))>;
				def : Pat<(i32 (ARMVADDVs (v16i8 MQPR:$src))),
				(i32 (MVE_VADDVs8no_acc $src))>;
				def : Pat<(i32 (ARMVADDVu (v16i8 MQPR:$src))),
				(i32 (MVE_VADDVu8no_acc $src))>;

				def : Pat<(i32 (add (i32 (vecreduce_add (v4i32 MQPR:$src1))), (i32 tGPREven:$src2))),
	(i32 (MVE_VADDVu32acc $src2, $src1))>;			(i32 (MVE_VADDVu32acc $src2, $src1))>;
	def : Pat<(i32 (add (i32 (vecreduce_add (v8i16 MQPR:$src1))), (i32 tGPR:$src2))),			def : Pat<(i32 (add (i32 (vecreduce_add (v8i16 MQPR:$src1))), (i32 tGPREven:$src2))),
	(i32 (MVE_VADDVu16acc $src2, $src1))>;			(i32 (MVE_VADDVu16acc $src2, $src1))>;
	def : Pat<(i32 (add (i32 (vecreduce_add (v16i8 MQPR:$src1))), (i32 tGPR:$src2))),			def : Pat<(i32 (add (i32 (vecreduce_add (v16i8 MQPR:$src1))), (i32 tGPREven:$src2))),
	(i32 (MVE_VADDVu8acc $src2, $src1))>;			(i32 (MVE_VADDVu8acc $src2, $src1))>;

				def : Pat<(i32 (add (i32 (ARMVADDVs (v8i16 MQPR:$src1))), (i32 tGPREven:$src2))),
				(i32 (MVE_VADDVs16acc $src2, $src1))>;
				def : Pat<(i32 (add (i32 (ARMVADDVu (v8i16 MQPR:$src1))), (i32 tGPREven:$src2))),
				(i32 (MVE_VADDVu16acc $src2, $src1))>;
				def : Pat<(i32 (add (i32 (ARMVADDVs (v16i8 MQPR:$src1))), (i32 tGPREven:$src2))),
				(i32 (MVE_VADDVs8acc $src2, $src1))>;
				def : Pat<(i32 (add (i32 (ARMVADDVu (v16i8 MQPR:$src1))), (i32 tGPREven:$src2))),
				(i32 (MVE_VADDVu8acc $src2, $src1))>;
	}			}

	class MVE_VADDLV<string iname, string suffix, dag iops, string cstr,			class MVE_VADDLV<string iname, string suffix, dag iops, string cstr,
	bit A, bit U, list<dag> pattern=[]>			bit A, bit U, list<dag> pattern=[]>
	: MVE_rDest<(outs tGPREven:$RdaLo, tGPROdd:$RdaHi), iops, NoItinerary, iname,			: MVE_rDest<(outs tGPREven:$RdaLo, tGPROdd:$RdaHi), iops, NoItinerary, iname,
	suffix, "$RdaLo, $RdaHi, $Qm", cstr, pattern> {			suffix, "$RdaLo, $RdaHi, $Qm", cstr, pattern> {
	bits<3> Qm;			bits<3> Qm;
	bits<4> RdaLo;			bits<4> RdaLo;
	▲ Show 20 Lines • Show All 6,011 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vecreduce-add.ll

Show First 20 Lines • Show All 124 Lines • ▼ Show 20 Lines	entry:
%xx = sext <2 x i32> %x to <2 x i64>		%xx = sext <2 x i32> %x to <2 x i64>
%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %xx)		%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %xx)
ret i64 %z		ret i64 %z
}		}

define arm_aapcs_vfpcc i32 @add_v8i16_v8i32_zext(<8 x i16> %x) {		define arm_aapcs_vfpcc i32 @add_v8i16_v8i32_zext(<8 x i16> %x) {
; CHECK-LABEL: add_v8i16_v8i32_zext:		; CHECK-LABEL: add_v8i16_v8i32_zext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmov.u16 r0, q0[4]		; CHECK-NEXT: vaddv.u16 r0, q0
; CHECK-NEXT: vmov.32 q1[0], r0
; CHECK-NEXT: vmov.u16 r0, q0[5]
; CHECK-NEXT: vmov.32 q1[1], r0
; CHECK-NEXT: vmov.u16 r0, q0[6]
; CHECK-NEXT: vmov.32 q1[2], r0
; CHECK-NEXT: vmov.u16 r0, q0[7]
; CHECK-NEXT: vmov.32 q1[3], r0
; CHECK-NEXT: vmov.u16 r0, q0[0]
; CHECK-NEXT: vmov.32 q2[0], r0
; CHECK-NEXT: vmov.u16 r0, q0[1]
; CHECK-NEXT: vmov.32 q2[1], r0
; CHECK-NEXT: vmov.u16 r0, q0[2]
; CHECK-NEXT: vmov.32 q2[2], r0
; CHECK-NEXT: vmov.u16 r0, q0[3]
; CHECK-NEXT: vmov.32 q2[3], r0
; CHECK-NEXT: vmovlb.u16 q1, q1
; CHECK-NEXT: vmovlb.u16 q0, q2
; CHECK-NEXT: vadd.i32 q0, q0, q1
; CHECK-NEXT: vaddv.u32 r0, q0
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = zext <8 x i16> %x to <8 x i32>		%xx = zext <8 x i16> %x to <8 x i32>
%z = call i32 @llvm.experimental.vector.reduce.add.v8i32(<8 x i32> %xx)		%z = call i32 @llvm.experimental.vector.reduce.add.v8i32(<8 x i32> %xx)
ret i32 %z		ret i32 %z
}		}

define arm_aapcs_vfpcc i32 @add_v8i16_v8i32_sext(<8 x i16> %x) {		define arm_aapcs_vfpcc i32 @add_v8i16_v8i32_sext(<8 x i16> %x) {
; CHECK-LABEL: add_v8i16_v8i32_sext:		; CHECK-LABEL: add_v8i16_v8i32_sext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmov.u16 r0, q0[4]		; CHECK-NEXT: vaddv.s16 r0, q0
; CHECK-NEXT: vmov.32 q1[0], r0
; CHECK-NEXT: vmov.u16 r0, q0[5]
; CHECK-NEXT: vmov.32 q1[1], r0
; CHECK-NEXT: vmov.u16 r0, q0[6]
; CHECK-NEXT: vmov.32 q1[2], r0
; CHECK-NEXT: vmov.u16 r0, q0[7]
; CHECK-NEXT: vmov.32 q1[3], r0
; CHECK-NEXT: vmov.u16 r0, q0[0]
; CHECK-NEXT: vmov.32 q2[0], r0
; CHECK-NEXT: vmov.u16 r0, q0[1]
; CHECK-NEXT: vmov.32 q2[1], r0
; CHECK-NEXT: vmov.u16 r0, q0[2]
; CHECK-NEXT: vmov.32 q2[2], r0
; CHECK-NEXT: vmov.u16 r0, q0[3]
; CHECK-NEXT: vmov.32 q2[3], r0
; CHECK-NEXT: vmovlb.s16 q1, q1
; CHECK-NEXT: vmovlb.s16 q0, q2
; CHECK-NEXT: vadd.i32 q0, q0, q1
; CHECK-NEXT: vaddv.u32 r0, q0
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = sext <8 x i16> %x to <8 x i32>		%xx = sext <8 x i16> %x to <8 x i32>
%z = call i32 @llvm.experimental.vector.reduce.add.v8i32(<8 x i32> %xx)		%z = call i32 @llvm.experimental.vector.reduce.add.v8i32(<8 x i32> %xx)
ret i32 %z		ret i32 %z
}		}

define arm_aapcs_vfpcc i32 @add_v4i16_v4i32_zext(<4 x i16> %x) {		define arm_aapcs_vfpcc i32 @add_v4i16_v4i32_zext(<4 x i16> %x) {
▲ Show 20 Lines • Show All 201 Lines • ▼ Show 20 Lines	entry:
%xx = sext <2 x i16> %x to <2 x i64>		%xx = sext <2 x i16> %x to <2 x i64>
%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %xx)		%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %xx)
ret i64 %z		ret i64 %z
}		}

define arm_aapcs_vfpcc i32 @add_v16i8_v16i32_zext(<16 x i8> %x) {		define arm_aapcs_vfpcc i32 @add_v16i8_v16i32_zext(<16 x i8> %x) {
; CHECK-LABEL: add_v16i8_v16i32_zext:		; CHECK-LABEL: add_v16i8_v16i32_zext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9}		; CHECK-NEXT: vaddv.u8 r0, q0
; CHECK-NEXT: vpush {d8, d9}
; CHECK-NEXT: vmov.u8 r0, q0[12]
; CHECK-NEXT: vmov.i32 q1, #0xff
; CHECK-NEXT: vmov.32 q2[0], r0
; CHECK-NEXT: vmov.u8 r0, q0[13]
; CHECK-NEXT: vmov.32 q2[1], r0
; CHECK-NEXT: vmov.u8 r0, q0[14]
; CHECK-NEXT: vmov.32 q2[2], r0
; CHECK-NEXT: vmov.u8 r0, q0[15]
; CHECK-NEXT: vmov.32 q2[3], r0
; CHECK-NEXT: vmov.u8 r0, q0[4]
; CHECK-NEXT: vmov.32 q3[0], r0
; CHECK-NEXT: vmov.u8 r0, q0[5]
; CHECK-NEXT: vmov.32 q3[1], r0
; CHECK-NEXT: vmov.u8 r0, q0[6]
; CHECK-NEXT: vmov.32 q3[2], r0
; CHECK-NEXT: vmov.u8 r0, q0[7]
; CHECK-NEXT: vmov.32 q3[3], r0
; CHECK-NEXT: vand q2, q2, q1
; CHECK-NEXT: vand q3, q3, q1
; CHECK-NEXT: vmov.u8 r0, q0[8]
; CHECK-NEXT: vadd.i32 q2, q3, q2
; CHECK-NEXT: vmov.32 q3[0], r0
; CHECK-NEXT: vmov.u8 r0, q0[9]
; CHECK-NEXT: vmov.32 q3[1], r0
; CHECK-NEXT: vmov.u8 r0, q0[10]
; CHECK-NEXT: vmov.32 q3[2], r0
; CHECK-NEXT: vmov.u8 r0, q0[11]
; CHECK-NEXT: vmov.32 q3[3], r0
; CHECK-NEXT: vmov.u8 r0, q0[0]
; CHECK-NEXT: vmov.32 q4[0], r0
; CHECK-NEXT: vmov.u8 r0, q0[1]
; CHECK-NEXT: vmov.32 q4[1], r0
; CHECK-NEXT: vmov.u8 r0, q0[2]
; CHECK-NEXT: vmov.32 q4[2], r0
; CHECK-NEXT: vmov.u8 r0, q0[3]
; CHECK-NEXT: vmov.32 q4[3], r0
; CHECK-NEXT: vand q3, q3, q1
; CHECK-NEXT: vand q0, q4, q1
; CHECK-NEXT: vadd.i32 q0, q0, q3
; CHECK-NEXT: vadd.i32 q0, q0, q2
; CHECK-NEXT: vaddv.u32 r0, q0
; CHECK-NEXT: vpop {d8, d9}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = zext <16 x i8> %x to <16 x i32>		%xx = zext <16 x i8> %x to <16 x i32>
%z = call i32 @llvm.experimental.vector.reduce.add.v16i32(<16 x i32> %xx)		%z = call i32 @llvm.experimental.vector.reduce.add.v16i32(<16 x i32> %xx)
ret i32 %z		ret i32 %z
}		}

define arm_aapcs_vfpcc i32 @add_v16i8_v16i32_sext(<16 x i8> %x) {		define arm_aapcs_vfpcc i32 @add_v16i8_v16i32_sext(<16 x i8> %x) {
; CHECK-LABEL: add_v16i8_v16i32_sext:		; CHECK-LABEL: add_v16i8_v16i32_sext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmov.u8 r0, q0[12]		; CHECK-NEXT: vaddv.s8 r0, q0
; CHECK-NEXT: vmov.32 q1[0], r0
; CHECK-NEXT: vmov.u8 r0, q0[13]
; CHECK-NEXT: vmov.32 q1[1], r0
; CHECK-NEXT: vmov.u8 r0, q0[14]
; CHECK-NEXT: vmov.32 q1[2], r0
; CHECK-NEXT: vmov.u8 r0, q0[15]
; CHECK-NEXT: vmov.32 q1[3], r0
; CHECK-NEXT: vmov.u8 r0, q0[4]
; CHECK-NEXT: vmov.32 q2[0], r0
; CHECK-NEXT: vmov.u8 r0, q0[5]
; CHECK-NEXT: vmov.32 q2[1], r0
; CHECK-NEXT: vmov.u8 r0, q0[6]
; CHECK-NEXT: vmov.32 q2[2], r0
; CHECK-NEXT: vmov.u8 r0, q0[7]
; CHECK-NEXT: vmov.32 q2[3], r0
; CHECK-NEXT: vmovlb.s8 q1, q1
; CHECK-NEXT: vmovlb.s8 q2, q2
; CHECK-NEXT: vmovlb.s16 q1, q1
; CHECK-NEXT: vmovlb.s16 q2, q2
; CHECK-NEXT: vmov.u8 r0, q0[8]
; CHECK-NEXT: vadd.i32 q1, q2, q1
; CHECK-NEXT: vmov.32 q2[0], r0
; CHECK-NEXT: vmov.u8 r0, q0[9]
; CHECK-NEXT: vmov.32 q2[1], r0
; CHECK-NEXT: vmov.u8 r0, q0[10]
; CHECK-NEXT: vmov.32 q2[2], r0
; CHECK-NEXT: vmov.u8 r0, q0[11]
; CHECK-NEXT: vmov.32 q2[3], r0
; CHECK-NEXT: vmov.u8 r0, q0[0]
; CHECK-NEXT: vmov.32 q3[0], r0
; CHECK-NEXT: vmov.u8 r0, q0[1]
; CHECK-NEXT: vmov.32 q3[1], r0
; CHECK-NEXT: vmov.u8 r0, q0[2]
; CHECK-NEXT: vmov.32 q3[2], r0
; CHECK-NEXT: vmov.u8 r0, q0[3]
; CHECK-NEXT: vmov.32 q3[3], r0
; CHECK-NEXT: vmovlb.s8 q2, q2
; CHECK-NEXT: vmovlb.s8 q0, q3
; CHECK-NEXT: vmovlb.s16 q2, q2
; CHECK-NEXT: vmovlb.s16 q0, q0
; CHECK-NEXT: vadd.i32 q0, q0, q2
; CHECK-NEXT: vadd.i32 q0, q0, q1
; CHECK-NEXT: vaddv.u32 r0, q0
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = sext <16 x i8> %x to <16 x i32>		%xx = sext <16 x i8> %x to <16 x i32>
%z = call i32 @llvm.experimental.vector.reduce.add.v16i32(<16 x i32> %xx)		%z = call i32 @llvm.experimental.vector.reduce.add.v16i32(<16 x i32> %xx)
ret i32 %z		ret i32 %z
}		}

define arm_aapcs_vfpcc i32 @add_v4i8_v4i32_zext(<4 x i8> %x) {		define arm_aapcs_vfpcc i32 @add_v4i8_v4i32_zext(<4 x i8> %x) {
▲ Show 20 Lines • Show All 603 Lines • ▼ Show 20 Lines	entry:
%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %xx)		%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %xx)
%r = add i64 %z, %a		%r = add i64 %z, %a
ret i64 %r		ret i64 %r
}		}

define arm_aapcs_vfpcc i32 @add_v8i16_v8i32_acc_zext(<8 x i16> %x, i32 %a) {		define arm_aapcs_vfpcc i32 @add_v8i16_v8i32_acc_zext(<8 x i16> %x, i32 %a) {
; CHECK-LABEL: add_v8i16_v8i32_acc_zext:		; CHECK-LABEL: add_v8i16_v8i32_acc_zext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmov.u16 r1, q0[4]		; CHECK-NEXT: vaddva.u16 r0, q0
; CHECK-NEXT: vmov.32 q1[0], r1
; CHECK-NEXT: vmov.u16 r1, q0[5]
; CHECK-NEXT: vmov.32 q1[1], r1
; CHECK-NEXT: vmov.u16 r1, q0[6]
; CHECK-NEXT: vmov.32 q1[2], r1
; CHECK-NEXT: vmov.u16 r1, q0[7]
; CHECK-NEXT: vmov.32 q1[3], r1
; CHECK-NEXT: vmov.u16 r1, q0[0]
; CHECK-NEXT: vmov.32 q2[0], r1
; CHECK-NEXT: vmov.u16 r1, q0[1]
; CHECK-NEXT: vmov.32 q2[1], r1
; CHECK-NEXT: vmov.u16 r1, q0[2]
; CHECK-NEXT: vmov.32 q2[2], r1
; CHECK-NEXT: vmov.u16 r1, q0[3]
; CHECK-NEXT: vmov.32 q2[3], r1
; CHECK-NEXT: vmovlb.u16 q1, q1
; CHECK-NEXT: vmovlb.u16 q0, q2
; CHECK-NEXT: vadd.i32 q0, q0, q1
; CHECK-NEXT: vaddva.u32 r0, q0
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = zext <8 x i16> %x to <8 x i32>		%xx = zext <8 x i16> %x to <8 x i32>
%z = call i32 @llvm.experimental.vector.reduce.add.v8i32(<8 x i32> %xx)		%z = call i32 @llvm.experimental.vector.reduce.add.v8i32(<8 x i32> %xx)
%r = add i32 %z, %a		%r = add i32 %z, %a
ret i32 %r		ret i32 %r
}		}

define arm_aapcs_vfpcc i32 @add_v8i16_v8i32_acc_sext(<8 x i16> %x, i32 %a) {		define arm_aapcs_vfpcc i32 @add_v8i16_v8i32_acc_sext(<8 x i16> %x, i32 %a) {
; CHECK-LABEL: add_v8i16_v8i32_acc_sext:		; CHECK-LABEL: add_v8i16_v8i32_acc_sext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmov.u16 r1, q0[4]		; CHECK-NEXT: vaddva.s16 r0, q0
; CHECK-NEXT: vmov.32 q1[0], r1
; CHECK-NEXT: vmov.u16 r1, q0[5]
; CHECK-NEXT: vmov.32 q1[1], r1
; CHECK-NEXT: vmov.u16 r1, q0[6]
; CHECK-NEXT: vmov.32 q1[2], r1
; CHECK-NEXT: vmov.u16 r1, q0[7]
; CHECK-NEXT: vmov.32 q1[3], r1
; CHECK-NEXT: vmov.u16 r1, q0[0]
; CHECK-NEXT: vmov.32 q2[0], r1
; CHECK-NEXT: vmov.u16 r1, q0[1]
; CHECK-NEXT: vmov.32 q2[1], r1
; CHECK-NEXT: vmov.u16 r1, q0[2]
; CHECK-NEXT: vmov.32 q2[2], r1
; CHECK-NEXT: vmov.u16 r1, q0[3]
; CHECK-NEXT: vmov.32 q2[3], r1
; CHECK-NEXT: vmovlb.s16 q1, q1
; CHECK-NEXT: vmovlb.s16 q0, q2
; CHECK-NEXT: vadd.i32 q0, q0, q1
; CHECK-NEXT: vaddva.u32 r0, q0
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = sext <8 x i16> %x to <8 x i32>		%xx = sext <8 x i16> %x to <8 x i32>
%z = call i32 @llvm.experimental.vector.reduce.add.v8i32(<8 x i32> %xx)		%z = call i32 @llvm.experimental.vector.reduce.add.v8i32(<8 x i32> %xx)
%r = add i32 %z, %a		%r = add i32 %z, %a
ret i32 %r		ret i32 %r
}		}

▲ Show 20 Lines • Show All 221 Lines • ▼ Show 20 Lines	entry:
%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %xx)		%z = call i64 @llvm.experimental.vector.reduce.add.v2i64(<2 x i64> %xx)
%r = add i64 %z, %a		%r = add i64 %z, %a
ret i64 %r		ret i64 %r
}		}

define arm_aapcs_vfpcc i32 @add_v16i8_v16i32_acc_zext(<16 x i8> %x, i32 %a) {		define arm_aapcs_vfpcc i32 @add_v16i8_v16i32_acc_zext(<16 x i8> %x, i32 %a) {
; CHECK-LABEL: add_v16i8_v16i32_acc_zext:		; CHECK-LABEL: add_v16i8_v16i32_acc_zext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8, d9}		; CHECK-NEXT: vaddva.u8 r0, q0
; CHECK-NEXT: vpush {d8, d9}
; CHECK-NEXT: vmov.u8 r1, q0[12]
; CHECK-NEXT: vmov.i32 q1, #0xff
; CHECK-NEXT: vmov.32 q2[0], r1
; CHECK-NEXT: vmov.u8 r1, q0[13]
; CHECK-NEXT: vmov.32 q2[1], r1
; CHECK-NEXT: vmov.u8 r1, q0[14]
; CHECK-NEXT: vmov.32 q2[2], r1
; CHECK-NEXT: vmov.u8 r1, q0[15]
; CHECK-NEXT: vmov.32 q2[3], r1
; CHECK-NEXT: vmov.u8 r1, q0[4]
; CHECK-NEXT: vmov.32 q3[0], r1
; CHECK-NEXT: vmov.u8 r1, q0[5]
; CHECK-NEXT: vmov.32 q3[1], r1
; CHECK-NEXT: vmov.u8 r1, q0[6]
; CHECK-NEXT: vmov.32 q3[2], r1
; CHECK-NEXT: vmov.u8 r1, q0[7]
; CHECK-NEXT: vmov.32 q3[3], r1
; CHECK-NEXT: vand q2, q2, q1
; CHECK-NEXT: vand q3, q3, q1
; CHECK-NEXT: vmov.u8 r1, q0[8]
; CHECK-NEXT: vadd.i32 q2, q3, q2
; CHECK-NEXT: vmov.32 q3[0], r1
; CHECK-NEXT: vmov.u8 r1, q0[9]
; CHECK-NEXT: vmov.32 q3[1], r1
; CHECK-NEXT: vmov.u8 r1, q0[10]
; CHECK-NEXT: vmov.32 q3[2], r1
; CHECK-NEXT: vmov.u8 r1, q0[11]
; CHECK-NEXT: vmov.32 q3[3], r1
; CHECK-NEXT: vmov.u8 r1, q0[0]
; CHECK-NEXT: vmov.32 q4[0], r1
; CHECK-NEXT: vmov.u8 r1, q0[1]
; CHECK-NEXT: vmov.32 q4[1], r1
; CHECK-NEXT: vmov.u8 r1, q0[2]
; CHECK-NEXT: vmov.32 q4[2], r1
; CHECK-NEXT: vmov.u8 r1, q0[3]
; CHECK-NEXT: vmov.32 q4[3], r1
; CHECK-NEXT: vand q3, q3, q1
; CHECK-NEXT: vand q0, q4, q1
; CHECK-NEXT: vadd.i32 q0, q0, q3
; CHECK-NEXT: vadd.i32 q0, q0, q2
; CHECK-NEXT: vaddva.u32 r0, q0
; CHECK-NEXT: vpop {d8, d9}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = zext <16 x i8> %x to <16 x i32>		%xx = zext <16 x i8> %x to <16 x i32>
%z = call i32 @llvm.experimental.vector.reduce.add.v16i32(<16 x i32> %xx)		%z = call i32 @llvm.experimental.vector.reduce.add.v16i32(<16 x i32> %xx)
%r = add i32 %z, %a		%r = add i32 %z, %a
ret i32 %r		ret i32 %r
}		}

define arm_aapcs_vfpcc i32 @add_v16i8_v16i32_acc_sext(<16 x i8> %x, i32 %a) {		define arm_aapcs_vfpcc i32 @add_v16i8_v16i32_acc_sext(<16 x i8> %x, i32 %a) {
; CHECK-LABEL: add_v16i8_v16i32_acc_sext:		; CHECK-LABEL: add_v16i8_v16i32_acc_sext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmov.u8 r1, q0[12]		; CHECK-NEXT: vaddva.s8 r0, q0
; CHECK-NEXT: vmov.32 q1[0], r1
; CHECK-NEXT: vmov.u8 r1, q0[13]
; CHECK-NEXT: vmov.32 q1[1], r1
; CHECK-NEXT: vmov.u8 r1, q0[14]
; CHECK-NEXT: vmov.32 q1[2], r1
; CHECK-NEXT: vmov.u8 r1, q0[15]
; CHECK-NEXT: vmov.32 q1[3], r1
; CHECK-NEXT: vmov.u8 r1, q0[4]
; CHECK-NEXT: vmov.32 q2[0], r1
; CHECK-NEXT: vmov.u8 r1, q0[5]
; CHECK-NEXT: vmov.32 q2[1], r1
; CHECK-NEXT: vmov.u8 r1, q0[6]
; CHECK-NEXT: vmov.32 q2[2], r1
; CHECK-NEXT: vmov.u8 r1, q0[7]
; CHECK-NEXT: vmov.32 q2[3], r1
; CHECK-NEXT: vmovlb.s8 q1, q1
; CHECK-NEXT: vmovlb.s8 q2, q2
; CHECK-NEXT: vmovlb.s16 q1, q1
; CHECK-NEXT: vmovlb.s16 q2, q2
; CHECK-NEXT: vmov.u8 r1, q0[8]
; CHECK-NEXT: vadd.i32 q1, q2, q1
; CHECK-NEXT: vmov.32 q2[0], r1
; CHECK-NEXT: vmov.u8 r1, q0[9]
; CHECK-NEXT: vmov.32 q2[1], r1
; CHECK-NEXT: vmov.u8 r1, q0[10]
; CHECK-NEXT: vmov.32 q2[2], r1
; CHECK-NEXT: vmov.u8 r1, q0[11]
; CHECK-NEXT: vmov.32 q2[3], r1
; CHECK-NEXT: vmov.u8 r1, q0[0]
; CHECK-NEXT: vmov.32 q3[0], r1
; CHECK-NEXT: vmov.u8 r1, q0[1]
; CHECK-NEXT: vmov.32 q3[1], r1
; CHECK-NEXT: vmov.u8 r1, q0[2]
; CHECK-NEXT: vmov.32 q3[2], r1
; CHECK-NEXT: vmov.u8 r1, q0[3]
; CHECK-NEXT: vmov.32 q3[3], r1
; CHECK-NEXT: vmovlb.s8 q2, q2
; CHECK-NEXT: vmovlb.s8 q0, q3
; CHECK-NEXT: vmovlb.s16 q2, q2
; CHECK-NEXT: vmovlb.s16 q0, q0
; CHECK-NEXT: vadd.i32 q0, q0, q2
; CHECK-NEXT: vadd.i32 q0, q0, q1
; CHECK-NEXT: vaddva.u32 r0, q0
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = sext <16 x i8> %x to <16 x i32>		%xx = sext <16 x i8> %x to <16 x i32>
%z = call i32 @llvm.experimental.vector.reduce.add.v16i32(<16 x i32> %xx)		%z = call i32 @llvm.experimental.vector.reduce.add.v16i32(<16 x i32> %xx)
%r = add i32 %z, %a		%r = add i32 %z, %a
ret i32 %r		ret i32 %r
}		}

▲ Show 20 Lines • Show All 502 Lines • Show Last 20 Lines