Diff 369075

llvm/lib/Target/AArch64/AArch64ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 3,878 Lines • ▼ Show 20 Lines	return DAG.getNode(N0->getOpcode(), DL, VT,
DAG.getNode(NewOpc, DL, VT,		DAG.getNode(NewOpc, DL, VT,
DAG.getNode(ISD::BITCAST, DL, Op1VT, N00), Op1),		DAG.getNode(ISD::BITCAST, DL, Op1VT, N00), Op1),
DAG.getNode(NewOpc, DL, VT,		DAG.getNode(NewOpc, DL, VT,
DAG.getNode(ISD::BITCAST, DL, Op1VT, N01), Op1));		DAG.getNode(ISD::BITCAST, DL, Op1VT, N01), Op1));
}		}

static inline SDValue getPTrue(SelectionDAG &DAG, SDLoc DL, EVT VT,		static inline SDValue getPTrue(SelectionDAG &DAG, SDLoc DL, EVT VT,
int Pattern) {		int Pattern) {
return DAG.getNode(AArch64ISD::PTRUE, DL, VT,		return DAG.getNode(AArch64ISD::PTRUE, DL, VT,
DAG.getTargetConstant(Pattern, DL, MVT::i32));		DAG.getTargetConstant(Pattern, DL, MVT::i32));
}		}

		paulwalker-armUnsubmitted Not Done Reply Inline Actions There should already be placeholder for this logic. If you look at `getPredicateForFixedLengthVector` you'll see a TODO comment. paulwalker-arm: There should already be placeholder for this logic. If you look at…
		junparserAuthorUnsubmitted Done Reply Inline Actions I uniformly use getPTrue for all of the creation of ptrue in NFC patch, then we can even handle sve.ptrue intrinsic which we have seen in some cases. junparser: I uniformly use getPTrue for all of the creation of ptrue in NFC patch, then we can even handle…
		paulwalker-armUnsubmitted Not Done Reply Inline Actions This doesn't really change my mind. `getPTrue` exists as purely a convenience routine, which I think should always emit exactly what the caller asks for. The design for fixed length code generation already has a placeholder for this logic. Which just leaves the intrinsic case. This is best handled explicitly, either when lowering the intrinsic or perhaps even as an instcombine which can open up more optimisation opportunities. paulwalker-arm: This doesn't really change my mind. `getPTrue` exists as purely a convenience routine, which I…
		junparserAuthorUnsubmitted Done Reply Inline Actions make senseable to me， will update. junparser: make senseable to me， will update.
static SDValue lowerConvertToSVBool(SDValue Op, SelectionDAG &DAG) {		static SDValue lowerConvertToSVBool(SDValue Op, SelectionDAG &DAG) {
SDLoc DL(Op);		SDLoc DL(Op);
EVT OutVT = Op.getValueType();		EVT OutVT = Op.getValueType();
SDValue InOp = Op.getOperand(1);		SDValue InOp = Op.getOperand(1);
EVT InVT = InOp.getValueType();		EVT InVT = InOp.getValueType();

// Return the operand if the cast isn't changing type,		// Return the operand if the cast isn't changing type,
// i.e. <n x 16 x i1> -> <n x 16 x i1>		// i.e. <n x 16 x i1> -> <n x 16 x i1>
▲ Show 20 Lines • Show All 14,122 Lines • ▼ Show 20 Lines	static SDValue getPredicateForFixedLengthVector(SelectionDAG &DAG, SDLoc &DL,
assert(VT.isFixedLengthVector() &&		assert(VT.isFixedLengthVector() &&
DAG.getTargetLoweringInfo().isTypeLegal(VT) &&		DAG.getTargetLoweringInfo().isTypeLegal(VT) &&
"Expected legal fixed length vector!");		"Expected legal fixed length vector!");

unsigned PgPattern =		unsigned PgPattern =
getSVEPredPatternFromNumElements(VT.getVectorNumElements());		getSVEPredPatternFromNumElements(VT.getVectorNumElements());
assert(PgPattern && "Unexpected element count for SVE predicate");		assert(PgPattern && "Unexpected element count for SVE predicate");

// TODO: For vectors that are exactly getMaxSVEVectorSizeInBits big, we can		// For vectors that are exactly getMaxSVEVectorSizeInBits big, we can use
// use AArch64SVEPredPattern::all, which can enable the use of unpredicated		// AArch64SVEPredPattern::all, which can enable the use of unpredicated
// variants of instructions when available.		// variants of instructions when available.
		const auto &Subtarget =
		static_cast<const AArch64Subtarget &>(DAG.getSubtarget());
		unsigned MinSVESize = Subtarget.getMinSVEVectorSizeInBits();
		unsigned MaxSVESize = Subtarget.getMaxSVEVectorSizeInBits();
		if (MaxSVESize && MinSVESize == MaxSVESize &&
		MaxSVESize == VT.getSizeInBits())
		PgPattern = AArch64SVEPredPattern::all;

MVT MaskVT;		MVT MaskVT;
switch (VT.getVectorElementType().getSimpleVT().SimpleTy) {		switch (VT.getVectorElementType().getSimpleVT().SimpleTy) {
default:		default:
llvm_unreachable("unexpected element type for SVE predicate");		llvm_unreachable("unexpected element type for SVE predicate");
case MVT::i8:		case MVT::i8:
MaskVT = MVT::nxv16i1;		MaskVT = MVT::nxv16i1;
break;		break;
▲ Show 20 Lines • Show All 876 Lines • Show Last 20 Lines

llvm/test/CodeGen/AArch64/insert-subvector-res-legalization.ll

	Show First 20 Lines • Show All 220 Lines • ▼ Show 20 Lines
	define <vscale x 2 x i32> @vec_scalable_subvec_fixed_idx_nonzero_large_i32(<vscale x 2 x i32>* %a, <8 x i32>* %b) #1 {			define <vscale x 2 x i32> @vec_scalable_subvec_fixed_idx_nonzero_large_i32(<vscale x 2 x i32>* %a, <8 x i32>* %b) #1 {
	; CHECK-LABEL: vec_scalable_subvec_fixed_idx_nonzero_large_i32:			; CHECK-LABEL: vec_scalable_subvec_fixed_idx_nonzero_large_i32:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: str x29, [sp, #-16]! // 8-byte Folded Spill			; CHECK-NEXT: str x29, [sp, #-16]! // 8-byte Folded Spill
	; CHECK-NEXT: addvl sp, sp, #-1			; CHECK-NEXT: addvl sp, sp, #-1
	; CHECK-NEXT: ptrue p0.d			; CHECK-NEXT: ptrue p0.d
	; CHECK-NEXT: ptrue p1.s, vl8			; CHECK-NEXT: ptrue p1.s, vl8
	; CHECK-NEXT: ld1w { z0.d }, p0/z, [x0]			; CHECK-NEXT: ld1w { z0.d }, p0/z, [x0]
	; CHECK-NEXT: ld1w { z1.s }, p1/z, [x1]
	; CHECK-NEXT: cntd x8			; CHECK-NEXT: cntd x8
				; CHECK-NEXT: ld1w { z1.s }, p1/z, [x1]
	; CHECK-NEXT: subs x8, x8, #8			; CHECK-NEXT: subs x8, x8, #8
	; CHECK-NEXT: csel x8, xzr, x8, lo			; CHECK-NEXT: csel x8, xzr, x8, lo
	; CHECK-NEXT: mov w9, #8			; CHECK-NEXT: mov w9, #8
	; CHECK-NEXT: cmp x8, #8			; CHECK-NEXT: cmp x8, #8
	; CHECK-NEXT: ptrue p1.d, vl8
	; CHECK-NEXT: csel x8, x8, x9, lo			; CHECK-NEXT: csel x8, x8, x9, lo
	; CHECK-NEXT: st1d { z0.d }, p0, [sp]			; CHECK-NEXT: st1d { z0.d }, p0, [sp]
	; CHECK-NEXT: uunpklo z0.d, z1.s			; CHECK-NEXT: uunpklo z0.d, z1.s
	; CHECK-NEXT: mov x9, sp			; CHECK-NEXT: mov x9, sp
	; CHECK-NEXT: st1d { z0.d }, p1, [x9, x8, lsl #3]			; CHECK-NEXT: st1d { z0.d }, p0, [x9, x8, lsl #3]
	; CHECK-NEXT: ld1d { z0.d }, p0/z, [sp]			; CHECK-NEXT: ld1d { z0.d }, p0/z, [sp]
	; CHECK-NEXT: addvl sp, sp, #1			; CHECK-NEXT: addvl sp, sp, #1
	; CHECK-NEXT: ldr x29, [sp], #16 // 8-byte Folded Reload			; CHECK-NEXT: ldr x29, [sp], #16 // 8-byte Folded Reload
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%vec = load <vscale x 2 x i32>, <vscale x 2 x i32>* %a			%vec = load <vscale x 2 x i32>, <vscale x 2 x i32>* %a
	%subvec = load <8 x i32>, <8 x i32>* %b			%subvec = load <8 x i32>, <8 x i32>* %b
	%ins = call <vscale x 2 x i32> @llvm.experimental.vector.insert.nxv2i32.v8i32(<vscale x 2 x i32> %vec, <8 x i32> %subvec, i64 8)			%ins = call <vscale x 2 x i32> @llvm.experimental.vector.insert.nxv2i32.v8i32(<vscale x 2 x i32> %vec, <8 x i32> %subvec, i64 8)
	ret <vscale x 2 x i32> %ins			ret <vscale x 2 x i32> %ins
	Show All 13 Lines

llvm/test/CodeGen/AArch64/sve-extract-vector.ll

	Show First 20 Lines • Show All 180 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: str x29, [sp, #-16]! // 8-byte Folded Spill			; CHECK-NEXT: str x29, [sp, #-16]! // 8-byte Folded Spill
	; CHECK-NEXT: addvl sp, sp, #-1			; CHECK-NEXT: addvl sp, sp, #-1
	; CHECK-NEXT: cntd x9			; CHECK-NEXT: cntd x9
	; CHECK-NEXT: subs x9, x9, #4			; CHECK-NEXT: subs x9, x9, #4
	; CHECK-NEXT: csel x9, xzr, x9, lo			; CHECK-NEXT: csel x9, xzr, x9, lo
	; CHECK-NEXT: ptrue p0.d			; CHECK-NEXT: ptrue p0.d
	; CHECK-NEXT: mov w10, #4			; CHECK-NEXT: mov w10, #4
	; CHECK-NEXT: cmp x9, #4			; CHECK-NEXT: cmp x9, #4
	; CHECK-NEXT: ptrue p1.d, vl4
	; CHECK-NEXT: st1d { z0.d }, p0, [sp]			; CHECK-NEXT: st1d { z0.d }, p0, [sp]
	; CHECK-NEXT: csel x9, x9, x10, lo			; CHECK-NEXT: csel x9, x9, x10, lo
	; CHECK-NEXT: mov x10, sp			; CHECK-NEXT: mov x10, sp
	; CHECK-NEXT: ld1d { z0.d }, p1/z, [x10, x9, lsl #3]			; CHECK-NEXT: ld1d { z0.d }, p0/z, [x10, x9, lsl #3]
	; CHECK-NEXT: st1d { z0.d }, p1, [x8]			; CHECK-NEXT: st1d { z0.d }, p0, [x8]
	; CHECK-NEXT: addvl sp, sp, #1			; CHECK-NEXT: addvl sp, sp, #1
	; CHECK-NEXT: ldr x29, [sp], #16 // 8-byte Folded Reload			; CHECK-NEXT: ldr x29, [sp], #16 // 8-byte Folded Reload
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%retval = call <4 x i64> @llvm.experimental.vector.extract.v4i64.nxv2i64(<vscale x 2 x i64> %vec, i64 4)			%retval = call <4 x i64> @llvm.experimental.vector.extract.v4i64.nxv2i64(<vscale x 2 x i64> %vec, i64 4)
	ret <4 x i64> %retval			ret <4 x i64> %retval
	}			}

	attributes #0 = { vscale_range(2,2) }			attributes #0 = { vscale_range(2,2) }
	Show All 10 Lines

llvm/test/CodeGen/AArch64/sve-fixed-length-optimize-ptrue.ll

This file was added.

				; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
				; RUN: llc -aarch64-sve-vector-bits-min=512 -aarch64-sve-vector-bits-max=512 < %s \| FileCheck %s

				target triple = "aarch64-unknown-linux-gnu"

				define void @add_v64i8(<64 x i8>* %a, <64 x i8>* %b) #0 {
				; CHECK-LABEL: add_v64i8:
				; CHECK: // %bb.0:
				; CHECK-NEXT: ptrue p0.b
				; CHECK-NEXT: ld1b { z0.b }, p0/z, [x0]
				; CHECK-NEXT: ld1b { z1.b }, p0/z, [x1]
				; CHECK-NEXT: add z0.b, p0/m, z0.b, z1.b
				; CHECK-NEXT: st1b { z0.b }, p0, [x0]
				; CHECK-NEXT: ret
				%op1 = load <64 x i8>, <64 x i8>* %a
				%op2 = load <64 x i8>, <64 x i8>* %b
				%res = add <64 x i8> %op1, %op2
				store <64 x i8> %res, <64 x i8>* %a
				ret void
				}

				define void @add_v32i16(<32 x i16>* %a, <32 x i16>* %b, <32 x i16>* %c) #0 {
				; CHECK-LABEL: add_v32i16:
				; CHECK: // %bb.0:
				; CHECK-NEXT: ptrue p0.h
				; CHECK-NEXT: ld1h { z0.h }, p0/z, [x0]
				; CHECK-NEXT: ld1h { z1.h }, p0/z, [x1]
				; CHECK-NEXT: add z0.h, p0/m, z0.h, z1.h
				; CHECK-NEXT: st1h { z0.h }, p0, [x0]
				; CHECK-NEXT: ret
				%op1 = load <32 x i16>, <32 x i16>* %a
				%op2 = load <32 x i16>, <32 x i16>* %b
				%res = add <32 x i16> %op1, %op2
				store <32 x i16> %res, <32 x i16>* %a
				ret void
				}

				define void @abs_v16i32(<16 x i32>* %a) #0 {
				; CHECK-LABEL: abs_v16i32:
				; CHECK: // %bb.0:
				; CHECK-NEXT: ptrue p0.s
				; CHECK-NEXT: ld1w { z0.s }, p0/z, [x0]
				; CHECK-NEXT: abs z0.s, p0/m, z0.s
				; CHECK-NEXT: st1w { z0.s }, p0, [x0]
				; CHECK-NEXT: ret
				%op1 = load <16 x i32>, <16 x i32>* %a
				%res = call <16 x i32> @llvm.abs.v16i32(<16 x i32> %op1, i1 false)
				store <16 x i32> %res, <16 x i32>* %a
				ret void
				}

				define void @abs_v8i64(<8 x i64>* %a) #0 {
				; CHECK-LABEL: abs_v8i64:
				; CHECK: // %bb.0:
				; CHECK-NEXT: ptrue p0.d
				; CHECK-NEXT: ld1d { z0.d }, p0/z, [x0]
				; CHECK-NEXT: abs z0.d, p0/m, z0.d
				; CHECK-NEXT: st1d { z0.d }, p0, [x0]
				; CHECK-NEXT: ret
				%op1 = load <8 x i64>, <8 x i64>* %a
				%res = call <8 x i64> @llvm.abs.v8i64(<8 x i64> %op1, i1 false)
				store <8 x i64> %res, <8 x i64>* %a
				ret void
				}

				define void @fadd_v32f16(<32 x half>* %a, <32 x half>* %b) #0 {
				; CHECK-LABEL: fadd_v32f16:
				; CHECK: // %bb.0:
				; CHECK-NEXT: ptrue p0.h
				; CHECK-NEXT: ld1h { z0.h }, p0/z, [x0]
				; CHECK-NEXT: ld1h { z1.h }, p0/z, [x1]
				; CHECK-NEXT: fadd z0.h, z0.h, z1.h
				; CHECK-NEXT: st1h { z0.h }, p0, [x0]
				; CHECK-NEXT: ret
				%op1 = load <32 x half>, <32 x half>* %a
				%op2 = load <32 x half>, <32 x half>* %b
				%res = fadd <32 x half> %op1, %op2
				store <32 x half> %res, <32 x half>* %a
				ret void
				}

				define void @fadd_v16f32(<16 x float>* %a, <16 x float>* %b) #0 {
				; CHECK-LABEL: fadd_v16f32:
				; CHECK: // %bb.0:
				; CHECK-NEXT: ptrue p0.s
				; CHECK-NEXT: ld1w { z0.s }, p0/z, [x0]
				; CHECK-NEXT: ld1w { z1.s }, p0/z, [x1]
				; CHECK-NEXT: fadd z0.s, z0.s, z1.s
				; CHECK-NEXT: st1w { z0.s }, p0, [x0]
				; CHECK-NEXT: ret
				%op1 = load <16 x float>, <16 x float>* %a
				%op2 = load <16 x float>, <16 x float>* %b
				%res = fadd <16 x float> %op1, %op2
				store <16 x float> %res, <16 x float>* %a
				ret void
				}

				define void @fadd_v8f64(<8 x double>* %a, <8 x double>* %b) #0 {
				; CHECK-LABEL: fadd_v8f64:
				; CHECK: // %bb.0:
				; CHECK-NEXT: ptrue p0.d
				; CHECK-NEXT: ld1d { z0.d }, p0/z, [x0]
				; CHECK-NEXT: ld1d { z1.d }, p0/z, [x1]
				; CHECK-NEXT: fadd z0.d, z0.d, z1.d
				; CHECK-NEXT: st1d { z0.d }, p0, [x0]
				; CHECK-NEXT: ret
				%op1 = load <8 x double>, <8 x double>* %a
				%op2 = load <8 x double>, <8 x double>* %b
				%res = fadd <8 x double> %op1, %op2
				store <8 x double> %res, <8 x double>* %a
				ret void
				}

				declare <16 x i32> @llvm.abs.v16i32(<16 x i32>, i1)
				declare <8 x i64> @llvm.abs.v8i64(<8 x i64>, i1)

				attributes #0 = { "target-features"="+sve" }

llvm/test/CodeGen/AArch64/sve-insert-vector.ll

Show First 20 Lines • Show All 323 Lines • ▼ Show 20 Lines	; CHECK-NEXT: ret
ret <vscale x 2 x i64> %retval		ret <vscale x 2 x i64> %retval
}		}

define <vscale x 2 x i64> @insert_fixed_v4i64_nxv2i64(<vscale x 2 x i64> %vec, <4 x i64>* %ptr) nounwind #0 {		define <vscale x 2 x i64> @insert_fixed_v4i64_nxv2i64(<vscale x 2 x i64> %vec, <4 x i64>* %ptr) nounwind #0 {
; CHECK-LABEL: insert_fixed_v4i64_nxv2i64:		; CHECK-LABEL: insert_fixed_v4i64_nxv2i64:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: str x29, [sp, #-16]! // 8-byte Folded Spill		; CHECK-NEXT: str x29, [sp, #-16]! // 8-byte Folded Spill
; CHECK-NEXT: addvl sp, sp, #-1		; CHECK-NEXT: addvl sp, sp, #-1
; CHECK-NEXT: ptrue p0.d, vl4		; CHECK-NEXT: ptrue p0.d
; CHECK-NEXT: cntd x8		; CHECK-NEXT: cntd x8
; CHECK-NEXT: ld1d { z1.d }, p0/z, [x0]		; CHECK-NEXT: ld1d { z1.d }, p0/z, [x0]
; CHECK-NEXT: subs x8, x8, #4		; CHECK-NEXT: subs x8, x8, #4
; CHECK-NEXT: csel x8, xzr, x8, lo		; CHECK-NEXT: csel x8, xzr, x8, lo
; CHECK-NEXT: mov w9, #4		; CHECK-NEXT: mov w9, #4
; CHECK-NEXT: cmp x8, #4		; CHECK-NEXT: cmp x8, #4
; CHECK-NEXT: ptrue p1.d
; CHECK-NEXT: csel x8, x8, x9, lo		; CHECK-NEXT: csel x8, x8, x9, lo
; CHECK-NEXT: mov x9, sp		; CHECK-NEXT: mov x9, sp
; CHECK-NEXT: st1d { z0.d }, p1, [sp]		; CHECK-NEXT: st1d { z0.d }, p0, [sp]
; CHECK-NEXT: st1d { z1.d }, p0, [x9, x8, lsl #3]		; CHECK-NEXT: st1d { z1.d }, p0, [x9, x8, lsl #3]
; CHECK-NEXT: ld1d { z0.d }, p1/z, [sp]		; CHECK-NEXT: ld1d { z0.d }, p0/z, [sp]
; CHECK-NEXT: addvl sp, sp, #1		; CHECK-NEXT: addvl sp, sp, #1
; CHECK-NEXT: ldr x29, [sp], #16 // 8-byte Folded Reload		; CHECK-NEXT: ldr x29, [sp], #16 // 8-byte Folded Reload
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%subvec = load <4 x i64>, <4 x i64>* %ptr		%subvec = load <4 x i64>, <4 x i64>* %ptr
%retval = call <vscale x 2 x i64> @llvm.experimental.vector.insert.nxv2i64.v4i64(<vscale x 2 x i64> %vec, <4 x i64> %subvec, i64 4)		%retval = call <vscale x 2 x i64> @llvm.experimental.vector.insert.nxv2i64.v4i64(<vscale x 2 x i64> %vec, <4 x i64> %subvec, i64 4)
ret <vscale x 2 x i64> %retval		ret <vscale x 2 x i64> %retval
}		}

Show All 13 Lines

llvm/test/CodeGen/AArch64/sve-vscale-attr.ll

Show First 20 Lines • Show All 57 Lines • ▼ Show 20 Lines
}		}

attributes #1 = { "target-features"="+sve" vscale_range(1,1) }		attributes #1 = { "target-features"="+sve" vscale_range(1,1) }

define void @func_vscale2_2(<16 x i32>* %a, <16 x i32>* %b) #2 {		define void @func_vscale2_2(<16 x i32>* %a, <16 x i32>* %b) #2 {
; CHECK-LABEL: func_vscale2_2:		; CHECK-LABEL: func_vscale2_2:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: mov x8, #8		; CHECK-NEXT: mov x8, #8
; CHECK-NEXT: ptrue p0.s, vl8		; CHECK-NEXT: ptrue p0.s
; CHECK-NEXT: ld1w { z0.s }, p0/z, [x0, x8, lsl #2]		; CHECK-NEXT: ld1w { z0.s }, p0/z, [x0, x8, lsl #2]
; CHECK-NEXT: ld1w { z1.s }, p0/z, [x0]		; CHECK-NEXT: ld1w { z1.s }, p0/z, [x0]
; CHECK-NEXT: ld1w { z2.s }, p0/z, [x1, x8, lsl #2]		; CHECK-NEXT: ld1w { z2.s }, p0/z, [x1, x8, lsl #2]
; CHECK-NEXT: ld1w { z3.s }, p0/z, [x1]		; CHECK-NEXT: ld1w { z3.s }, p0/z, [x1]
; CHECK-NEXT: add z0.s, p0/m, z0.s, z2.s		; CHECK-NEXT: add z0.s, p0/m, z0.s, z2.s
; CHECK-NEXT: add z1.s, p0/m, z1.s, z3.s		; CHECK-NEXT: add z1.s, p0/m, z1.s, z3.s
; CHECK-NEXT: st1w { z0.s }, p0, [x0, x8, lsl #2]		; CHECK-NEXT: st1w { z0.s }, p0, [x0, x8, lsl #2]
; CHECK-NEXT: st1w { z1.s }, p0, [x0]		; CHECK-NEXT: st1w { z1.s }, p0, [x0]
Show All 28 Lines	; CHECK-NEXT: ret
ret void		ret void
}		}

attributes #3 = { "target-features"="+sve" vscale_range(2,4) }		attributes #3 = { "target-features"="+sve" vscale_range(2,4) }

define void @func_vscale4_4(<16 x i32>* %a, <16 x i32>* %b) #4 {		define void @func_vscale4_4(<16 x i32>* %a, <16 x i32>* %b) #4 {
; CHECK-LABEL: func_vscale4_4:		; CHECK-LABEL: func_vscale4_4:
; CHECK: // %bb.0:		; CHECK: // %bb.0:
; CHECK-NEXT: ptrue p0.s, vl16		; CHECK-NEXT: ptrue p0.s
; CHECK-NEXT: ld1w { z0.s }, p0/z, [x0]		; CHECK-NEXT: ld1w { z0.s }, p0/z, [x0]
; CHECK-NEXT: ld1w { z1.s }, p0/z, [x1]		; CHECK-NEXT: ld1w { z1.s }, p0/z, [x1]
; CHECK-NEXT: add z0.s, p0/m, z0.s, z1.s		; CHECK-NEXT: add z0.s, p0/m, z0.s, z1.s
; CHECK-NEXT: st1w { z0.s }, p0, [x0]		; CHECK-NEXT: st1w { z0.s }, p0, [x0]
; CHECK-NEXT: ret		; CHECK-NEXT: ret
%op1 = load <16 x i32>, <16 x i32>* %a		%op1 = load <16 x i32>, <16 x i32>* %a
%op2 = load <16 x i32>, <16 x i32>* %b		%op2 = load <16 x i32>, <16 x i32>* %b
%res = add <16 x i32> %op1, %op2		%res = add <16 x i32> %op1, %op2
Show All 23 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[AArch64][SVE] Optimize ptrue predicate pattern with known sve register width.
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 369075

llvm/lib/Target/AArch64/AArch64ISelLowering.cpp

llvm/test/CodeGen/AArch64/insert-subvector-res-legalization.ll

llvm/test/CodeGen/AArch64/sve-extract-vector.ll

llvm/test/CodeGen/AArch64/sve-fixed-length-optimize-ptrue.ll

llvm/test/CodeGen/AArch64/sve-insert-vector.ll

llvm/test/CodeGen/AArch64/sve-vscale-attr.ll

This is an archive of the discontinued LLVM Phabricator instance.

[AArch64][SVE] Optimize ptrue predicate pattern with known sve register width.ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 369075

llvm/lib/Target/AArch64/AArch64ISelLowering.cpp

llvm/test/CodeGen/AArch64/insert-subvector-res-legalization.ll

llvm/test/CodeGen/AArch64/sve-extract-vector.ll

llvm/test/CodeGen/AArch64/sve-fixed-length-optimize-ptrue.ll

llvm/test/CodeGen/AArch64/sve-insert-vector.ll

llvm/test/CodeGen/AArch64/sve-vscale-attr.ll

[AArch64][SVE] Optimize ptrue predicate pattern with known sve register width.
ClosedPublic