This is an archive of the discontinued LLVM Phabricator instance.

Add more efficient vector bitcast for v16i8 on AArch64.
ClosedPublic

Authored by lawben on Jul 28 2023, 7:45 AM.

Download Raw Diff

Details

Reviewers

dmgreen
efriedma

Commits

rGc7b537bf0923: [AArch64] Add more efficient vector bitcast for v16i8

Summary

We previously split the vector into two halves and performed two vector reduce operations followed by bit shifting and bitwise or. Now, we use NEON's zip1 to concatenate
the halves in a smart way and then perform only a single vector reduce. This boosts performance quite a bit for this small routine, as vector reduce is a rather expensive
intruction. Original discussion for this started in: https://reviews.llvm.org/D145301

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

lawben created this revision.Jul 28 2023, 7:45 AM

Herald added a project: Restricted Project. · View Herald TranscriptJul 28 2023, 7:45 AM

Herald added subscribers: hiraditya, kristof.beyls. · View Herald Transcript

lawben requested review of this revision.Jul 28 2023, 7:45 AM

Herald added a project: Restricted Project. · View Herald TranscriptJul 28 2023, 7:45 AM

Herald added a subscriber: llvm-commits. · View Herald Transcript

Harbormaster completed remote builds in B248853: Diff 545164.Jul 28 2023, 8:58 AM

Looks like a nice improvement. LGTM.

This revision is now accepted and ready to land.Aug 7 2023, 2:41 AM

Closed by commit rGc7b537bf0923: [AArch64] Add more efficient vector bitcast for v16i8 (authored by lawben). · Explain WhyAug 11 2023, 1:11 AM

This revision was automatically updated to reflect the committed changes.

lawben added a commit: rGc7b537bf0923: [AArch64] Add more efficient vector bitcast for v16i8.

Revision Contents

Path

Size

llvm/

lib/

Target/

AArch64/

AArch64ISelLowering.cpp

31 lines

test/

CodeGen/

AArch64/

vec-combine-compare-to-bitmask.ll

16 lines

vec-combine-compare-truncate-store.ll

9 lines

Diff 549281

llvm/lib/Target/AArch64/AArch64ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 20,694 Lines • ▼ Show 20 Lines	static SDValue vectorToScalarBitmask(SDNode *N, SelectionDAG &DAG) {
if (VecVT.getSizeInBits() > 128)		if (VecVT.getSizeInBits() > 128)
return SDValue();		return SDValue();

// Ensure that all elements' bits are either 0s or 1s.		// Ensure that all elements' bits are either 0s or 1s.
ComparisonResult = DAG.getSExtOrTrunc(ComparisonResult, DL, VecVT);		ComparisonResult = DAG.getSExtOrTrunc(ComparisonResult, DL, VecVT);

SmallVector<SDValue, 16> MaskConstants;		SmallVector<SDValue, 16> MaskConstants;
if (VecVT == MVT::v16i8) {		if (VecVT == MVT::v16i8) {
// v16i8 is a special case, as we need to split it into two halves and		// v16i8 is a special case, as we have 16 entries but only 8 positional bits
// combine, perform the mask+addition twice, and then combine them.		// per entry. We split it into two halves, apply the mask, zip the halves to
		// create 8x 16-bit values, and the perform the vector reduce.
for (unsigned Half = 0; Half < 2; ++Half) {		for (unsigned Half = 0; Half < 2; ++Half) {
for (unsigned MaskBit = 1; MaskBit <= 128; MaskBit *= 2) {		for (unsigned MaskBit = 1; MaskBit <= 128; MaskBit *= 2) {
MaskConstants.push_back(DAG.getConstant(MaskBit, DL, MVT::i32));		MaskConstants.push_back(DAG.getConstant(MaskBit, DL, MVT::i32));
}		}
}		}
SDValue Mask = DAG.getNode(ISD::BUILD_VECTOR, DL, VecVT, MaskConstants);		SDValue Mask = DAG.getNode(ISD::BUILD_VECTOR, DL, VecVT, MaskConstants);
SDValue RepresentativeBits =		SDValue RepresentativeBits =
DAG.getNode(ISD::AND, DL, VecVT, ComparisonResult, Mask);		DAG.getNode(ISD::AND, DL, VecVT, ComparisonResult, Mask);

EVT HalfVT = VecVT.getHalfNumVectorElementsVT(*DAG.getContext());		SDValue UpperRepresentativeBits =
unsigned NumElementsInHalf = HalfVT.getVectorNumElements();		DAG.getNode(AArch64ISD::EXT, DL, VecVT, RepresentativeBits,
		RepresentativeBits, DAG.getConstant(8, DL, MVT::i32));
SDValue LowHalf =		SDValue Zipped = DAG.getNode(AArch64ISD::ZIP1, DL, VecVT,
DAG.getNode(ISD::EXTRACT_SUBVECTOR, DL, HalfVT, RepresentativeBits,		RepresentativeBits, UpperRepresentativeBits);
DAG.getConstant(0, DL, MVT::i64));		Zipped = DAG.getNode(ISD::BITCAST, DL, MVT::v8i16, Zipped);
SDValue HighHalf =		return DAG.getNode(ISD::VECREDUCE_ADD, DL, MVT::i16, Zipped);
DAG.getNode(ISD::EXTRACT_SUBVECTOR, DL, HalfVT, RepresentativeBits,
DAG.getConstant(NumElementsInHalf, DL, MVT::i64));

SDValue ReducedLowBits =
DAG.getNode(ISD::VECREDUCE_ADD, DL, MVT::i16, LowHalf);
SDValue ReducedHighBits =
DAG.getNode(ISD::VECREDUCE_ADD, DL, MVT::i16, HighHalf);

SDValue ShiftedHighBits =
DAG.getNode(ISD::SHL, DL, MVT::i16, ReducedHighBits,
DAG.getConstant(NumElementsInHalf, DL, MVT::i32));
return DAG.getNode(ISD::OR, DL, MVT::i16, ShiftedHighBits, ReducedLowBits);
}		}

// All other vector sizes.		// All other vector sizes.
unsigned MaxBitMask = 1u << (VecVT.getVectorNumElements() - 1);		unsigned MaxBitMask = 1u << (VecVT.getVectorNumElements() - 1);
for (unsigned MaskBit = 1; MaskBit <= MaxBitMask; MaskBit *= 2) {		for (unsigned MaskBit = 1; MaskBit <= MaxBitMask; MaskBit *= 2) {
MaskConstants.push_back(DAG.getConstant(MaskBit, DL, MVT::i64));		MaskConstants.push_back(DAG.getConstant(MaskBit, DL, MVT::i64));
}		}

▲ Show 20 Lines • Show All 5,353 Lines • Show Last 20 Lines

llvm/test/CodeGen/AArch64/vec-combine-compare-to-bitmask.ll

	Show All 28 Lines
	; CHECK: ; %bb.0:			; CHECK: ; %bb.0:
	; CHECK-NEXT: Lloh0:			; CHECK-NEXT: Lloh0:
	; CHECK-NEXT: adrp x8, lCPI0_0@PAGE			; CHECK-NEXT: adrp x8, lCPI0_0@PAGE
	; CHECK-NEXT: cmeq.16b v0, v0, #0			; CHECK-NEXT: cmeq.16b v0, v0, #0
	; CHECK-NEXT: Lloh1:			; CHECK-NEXT: Lloh1:
	; CHECK-NEXT: ldr q1, [x8, lCPI0_0@PAGEOFF]			; CHECK-NEXT: ldr q1, [x8, lCPI0_0@PAGEOFF]
	; CHECK-NEXT: bic.16b v0, v1, v0			; CHECK-NEXT: bic.16b v0, v1, v0
	; CHECK-NEXT: ext.16b v1, v0, v0, #8			; CHECK-NEXT: ext.16b v1, v0, v0, #8
	; CHECK-NEXT: addv.8b b0, v0			; CHECK-NEXT: zip1.16b v0, v0, v1
	; CHECK-NEXT: addv.8b b1, v1			; CHECK-NEXT: addv.8h h0, v0
	; CHECK-NEXT: fmov w9, s0			; CHECK-NEXT: fmov w0, s0
	; CHECK-NEXT: fmov w8, s1
	; CHECK-NEXT: orr w0, w9, w8, lsl #8
	; CHECK-NEXT: ret			; CHECK-NEXT: ret

	%cmp_result = icmp ne <16 x i8> %vec, zeroinitializer			%cmp_result = icmp ne <16 x i8> %vec, zeroinitializer
	%bitmask = bitcast <16 x i1> %cmp_result to i16			%bitmask = bitcast <16 x i1> %cmp_result to i16
	ret i16 %bitmask			ret i16 %bitmask
	}			}

	define i16 @convert_to_bitmask8(<8 x i16> %vec) {			define i16 @convert_to_bitmask8(<8 x i16> %vec) {
	▲ Show 20 Lines • Show All 269 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: Lloh20:			; CHECK-NEXT: Lloh20:
	; CHECK-NEXT: adrp x8, lCPI10_0@PAGE			; CHECK-NEXT: adrp x8, lCPI10_0@PAGE
	; CHECK-NEXT: shl.16b v0, v0, #7			; CHECK-NEXT: shl.16b v0, v0, #7
	; CHECK-NEXT: cmlt.16b v0, v0, #0			; CHECK-NEXT: cmlt.16b v0, v0, #0
	; CHECK-NEXT: Lloh21:			; CHECK-NEXT: Lloh21:
	; CHECK-NEXT: ldr q1, [x8, lCPI10_0@PAGEOFF]			; CHECK-NEXT: ldr q1, [x8, lCPI10_0@PAGEOFF]
	; CHECK-NEXT: and.16b v0, v0, v1			; CHECK-NEXT: and.16b v0, v0, v1
	; CHECK-NEXT: ext.16b v1, v0, v0, #8			; CHECK-NEXT: ext.16b v1, v0, v0, #8
	; CHECK-NEXT: addv.8b b0, v0			; CHECK-NEXT: zip1.16b v0, v0, v1
	; CHECK-NEXT: addv.8b b1, v1			; CHECK-NEXT: addv.8h h0, v0
	; CHECK-NEXT: fmov w9, s0			; CHECK-NEXT: fmov w0, s0
	; CHECK-NEXT: fmov w8, s1
	; CHECK-NEXT: orr w0, w9, w8, lsl #8
	; CHECK-NEXT: ret			; CHECK-NEXT: ret

	%bitmask = bitcast <16 x i1> %vec to i16			%bitmask = bitcast <16 x i1> %vec to i16
	ret i16 %bitmask			ret i16 %bitmask
	}			}

	define i2 @convert_to_bitmask_2xi32(<2 x i32> %vec) {			define i2 @convert_to_bitmask_2xi32(<2 x i32> %vec) {
	; CHECK-LABEL: convert_to_bitmask_2xi32			; CHECK-LABEL: convert_to_bitmask_2xi32
	▲ Show 20 Lines • Show All 163 Lines • Show Last 20 Lines

llvm/test/CodeGen/AArch64/vec-combine-compare-truncate-store.ll

	Show All 24 Lines
	; CHECK: ; %bb.0:			; CHECK: ; %bb.0:
	; CHECK-NEXT: Lloh0:			; CHECK-NEXT: Lloh0:
	; CHECK-NEXT: adrp x8, lCPI0_0@PAGE			; CHECK-NEXT: adrp x8, lCPI0_0@PAGE
	; CHECK-NEXT: cmeq.16b v0, v0, #0			; CHECK-NEXT: cmeq.16b v0, v0, #0
	; CHECK-NEXT: Lloh1:			; CHECK-NEXT: Lloh1:
	; CHECK-NEXT: ldr q1, [x8, lCPI0_0@PAGEOFF]			; CHECK-NEXT: ldr q1, [x8, lCPI0_0@PAGEOFF]
	; CHECK-NEXT: bic.16b v0, v1, v0			; CHECK-NEXT: bic.16b v0, v1, v0
	; CHECK-NEXT: ext.16b v1, v0, v0, #8			; CHECK-NEXT: ext.16b v1, v0, v0, #8
	; CHECK-NEXT: addv.8b b0, v0			; CHECK-NEXT: zip1.16b v0, v0, v1
	; CHECK-NEXT: addv.8b b1, v1			; CHECK-NEXT: addv.8h h0, v0
	; CHECK-NEXT: fmov w9, s0			; CHECK-NEXT: str h0, [x0]
	; CHECK-NEXT: fmov w8, s1
	; CHECK-NEXT: orr w8, w9, w8, lsl #8
	; CHECK-NEXT: strh w8, [x0]
	; CHECK-NEXT: ret			; CHECK-NEXT: ret

	%cmp_result = icmp ne <16 x i8> %vec, zeroinitializer			%cmp_result = icmp ne <16 x i8> %vec, zeroinitializer
	store <16 x i1> %cmp_result, ptr %out			store <16 x i1> %cmp_result, ptr %out
	ret void			ret void
	}			}

	define void @store_8_elements(<8 x i16> %vec, ptr %out) {			define void @store_8_elements(<8 x i16> %vec, ptr %out) {
	▲ Show 20 Lines • Show All 235 Lines • Show Last 20 Lines