This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
include/llvm/IR/
-
llvm/
-
IR/
-
IntrinsicsAArch64.td
-
lib/Target/AArch64/
-
Target/
-
AArch64/
1
AArch64ISelLowering.cpp
-
AArch64InstrFormats.td
-
test/CodeGen/AArch64/
-
CodeGen/
-
AArch64/
-
arm64-arith-saturating.ll

Differential D134024

[AArch64] Lower scalar sqxtn intrinsics to use fp registers
ClosedPublic

Authored by dmgreen on Sep 16 2022, 1:17 AM.

Download Raw Diff

Details

Reviewers

samtebbs
labrinea
sdesmalen
stuij
jaykang10
mingmingl

Commits

rG4f78e022ee3d: [AArch64] Lower scalar sqxtn intrinsics to use fp registers

Summary

The llvm.aarch64.neon.scalar.sqxtn.i32.i64 intrinsics take and return integer types, but operate on fp registers. This can create some inefficiencies in their lowering, where the registers are converted to fp a little too late. This patch adds lowering for the intrinsics, creating bitcasts to/from fp types to allow nicer folding later when the instructions are selected, especially around insert/extracts.

Diff Detail

Unit TestsFailed

	Time	Test
	70 ms	x64 debian > LLVM.CodeGen/AArch64::arm64-arith-saturating.ll
	60,060 ms	x64 debian > libFuzzer.libFuzzer::fuzzer-leak.test
	60,030 ms	x64 debian > libFuzzer.libFuzzer::value-profile-load.test

Event Timeline

dmgreen created this revision.Sep 16 2022, 1:17 AM

Herald added a project: Restricted Project. · View Herald TranscriptSep 16 2022, 1:17 AM

Herald added subscribers: hiraditya, kristof.beyls. · View Herald Transcript

dmgreen requested review of this revision.Sep 16 2022, 1:17 AM

Herald added a project: Restricted Project. · View Herald TranscriptSep 16 2022, 1:17 AM

Harbormaster completed remote builds in B187084: Diff 460667.Sep 16 2022, 2:04 AM

Thanks! LGTM (with a minor comment).

llvm/lib/Target/AArch64/AArch64ISelLowering.cpp
4631	nit: Use `dl` (created at line 4538), same for the other two `SDLoc(Op)`.

This revision is now accepted and ready to land.Sep 16 2022, 9:25 AM

Cheers

This revision was landed with ongoing or failed builds.Sep 21 2022, 2:46 AM

Closed by commit rG4f78e022ee3d: [AArch64] Lower scalar sqxtn intrinsics to use fp registers (authored by dmgreen). · Explain Why

This revision was automatically updated to reflect the committed changes.

dmgreen added a commit: rG4f78e022ee3d: [AArch64] Lower scalar sqxtn intrinsics to use fp registers.

Revision Contents

Path

Size

llvm/

include/

llvm/

IR/

IntrinsicsAArch64.td

2 lines

lib/

Target/

AArch64/

AArch64ISelLowering.cpp

13 lines

AArch64InstrFormats.td

2 lines

test/

CodeGen/

AArch64/

arm64-arith-saturating.ll

15 lines

Diff 460667

llvm/include/llvm/IR/IntrinsicsAArch64.td

Show First 20 Lines • Show All 99 Lines • ▼ Show 20 Lines	class AdvSIMD_1FloatArg_Intrinsic
: DefaultAttrsIntrinsic<[llvm_anyfloat_ty], [LLVMMatchType<0>], [IntrNoMem]>;		: DefaultAttrsIntrinsic<[llvm_anyfloat_ty], [LLVMMatchType<0>], [IntrNoMem]>;
class AdvSIMD_1VectorArg_Intrinsic		class AdvSIMD_1VectorArg_Intrinsic
: DefaultAttrsIntrinsic<[llvm_anyvector_ty], [LLVMMatchType<0>], [IntrNoMem]>;		: DefaultAttrsIntrinsic<[llvm_anyvector_ty], [LLVMMatchType<0>], [IntrNoMem]>;
class AdvSIMD_1VectorArg_Expand_Intrinsic		class AdvSIMD_1VectorArg_Expand_Intrinsic
: DefaultAttrsIntrinsic<[llvm_anyvector_ty], [llvm_anyvector_ty], [IntrNoMem]>;		: DefaultAttrsIntrinsic<[llvm_anyvector_ty], [llvm_anyvector_ty], [IntrNoMem]>;
class AdvSIMD_1VectorArg_Long_Intrinsic		class AdvSIMD_1VectorArg_Long_Intrinsic
: DefaultAttrsIntrinsic<[llvm_anyvector_ty], [LLVMTruncatedType<0>], [IntrNoMem]>;		: DefaultAttrsIntrinsic<[llvm_anyvector_ty], [LLVMTruncatedType<0>], [IntrNoMem]>;
class AdvSIMD_1IntArg_Narrow_Intrinsic		class AdvSIMD_1IntArg_Narrow_Intrinsic
: DefaultAttrsIntrinsic<[llvm_anyint_ty], [llvm_anyint_ty], [IntrNoMem]>;		: DefaultAttrsIntrinsic<[llvm_any_ty], [llvm_any_ty], [IntrNoMem]>;
class AdvSIMD_1VectorArg_Narrow_Intrinsic		class AdvSIMD_1VectorArg_Narrow_Intrinsic
: DefaultAttrsIntrinsic<[llvm_anyint_ty], [LLVMExtendedType<0>], [IntrNoMem]>;		: DefaultAttrsIntrinsic<[llvm_anyint_ty], [LLVMExtendedType<0>], [IntrNoMem]>;
class AdvSIMD_1VectorArg_Int_Across_Intrinsic		class AdvSIMD_1VectorArg_Int_Across_Intrinsic
: DefaultAttrsIntrinsic<[llvm_anyint_ty], [llvm_anyvector_ty], [IntrNoMem]>;		: DefaultAttrsIntrinsic<[llvm_anyint_ty], [llvm_anyvector_ty], [IntrNoMem]>;
class AdvSIMD_1VectorArg_Float_Across_Intrinsic		class AdvSIMD_1VectorArg_Float_Across_Intrinsic
: DefaultAttrsIntrinsic<[llvm_anyfloat_ty], [llvm_anyvector_ty], [IntrNoMem]>;		: DefaultAttrsIntrinsic<[llvm_anyfloat_ty], [llvm_anyvector_ty], [IntrNoMem]>;

class AdvSIMD_2IntArg_Intrinsic		class AdvSIMD_2IntArg_Intrinsic
▲ Show 20 Lines • Show All 2,607 Lines • Show Last 20 Lines

llvm/lib/Target/AArch64/AArch64ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 4,616 Lines • ▼ Show 20 Lines	case Intrinsic::aarch64_neon_umax:
return DAG.getNode(ISD::UMAX, dl, Op.getValueType(),		return DAG.getNode(ISD::UMAX, dl, Op.getValueType(),
Op.getOperand(1), Op.getOperand(2));		Op.getOperand(1), Op.getOperand(2));
case Intrinsic::aarch64_neon_smin:		case Intrinsic::aarch64_neon_smin:
return DAG.getNode(ISD::SMIN, dl, Op.getValueType(),		return DAG.getNode(ISD::SMIN, dl, Op.getValueType(),
Op.getOperand(1), Op.getOperand(2));		Op.getOperand(1), Op.getOperand(2));
case Intrinsic::aarch64_neon_umin:		case Intrinsic::aarch64_neon_umin:
return DAG.getNode(ISD::UMIN, dl, Op.getValueType(),		return DAG.getNode(ISD::UMIN, dl, Op.getValueType(),
Op.getOperand(1), Op.getOperand(2));		Op.getOperand(1), Op.getOperand(2));
		case Intrinsic::aarch64_neon_scalar_sqxtn:
		case Intrinsic::aarch64_neon_scalar_sqxtun:
		case Intrinsic::aarch64_neon_scalar_uqxtn: {
		assert(Op.getValueType() == MVT::i32 \|\| Op.getValueType() == MVT::f32);
		if (Op.getValueType() == MVT::i32)
		return DAG.getNode(ISD::BITCAST, SDLoc(Op), MVT::i32,
		DAG.getNode(ISD::INTRINSIC_WO_CHAIN, SDLoc(Op),
		mingminglUnsubmitted Not Done Reply Inline Actions nit: Use `dl` (created at line 4538), same for the other two `SDLoc(Op)`. mingmingl: nit: Use `dl` (created at line 4538), same for the other two `SDLoc(Op)`.
		MVT::f32, Op.getOperand(0),
		DAG.getNode(ISD::BITCAST, SDLoc(Op),
		MVT::f64, Op.getOperand(1))));
		return SDValue();
		}
case Intrinsic::aarch64_sve_sunpkhi:		case Intrinsic::aarch64_sve_sunpkhi:
return DAG.getNode(AArch64ISD::SUNPKHI, dl, Op.getValueType(),		return DAG.getNode(AArch64ISD::SUNPKHI, dl, Op.getValueType(),
Op.getOperand(1));		Op.getOperand(1));
case Intrinsic::aarch64_sve_sunpklo:		case Intrinsic::aarch64_sve_sunpklo:
return DAG.getNode(AArch64ISD::SUNPKLO, dl, Op.getValueType(),		return DAG.getNode(AArch64ISD::SUNPKLO, dl, Op.getValueType(),
Op.getOperand(1));		Op.getOperand(1));
case Intrinsic::aarch64_sve_uunpkhi:		case Intrinsic::aarch64_sve_uunpkhi:
return DAG.getNode(AArch64ISD::UUNPKHI, dl, Op.getValueType(),		return DAG.getNode(AArch64ISD::UUNPKHI, dl, Op.getValueType(),
▲ Show 20 Lines • Show All 17,701 Lines • Show Last 20 Lines

llvm/lib/Target/AArch64/AArch64InstrFormats.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 7,201 Lines • ▼ Show 20 Lines
	}			}



	let mayLoad = 0, mayStore = 0, hasSideEffects = 0 in			let mayLoad = 0, mayStore = 0, hasSideEffects = 0 in
	multiclass SIMDTwoScalarMixedBHS<bit U, bits<5> opc, string asm,			multiclass SIMDTwoScalarMixedBHS<bit U, bits<5> opc, string asm,
	SDPatternOperator OpNode = null_frag> {			SDPatternOperator OpNode = null_frag> {
	def v1i32 : BaseSIMDTwoScalar<U, 0b10, 0b00, opc, FPR32, FPR64, asm,			def v1i32 : BaseSIMDTwoScalar<U, 0b10, 0b00, opc, FPR32, FPR64, asm,
	[(set (i32 FPR32:$Rd), (OpNode (i64 FPR64:$Rn)))]>;			[(set (f32 FPR32:$Rd), (OpNode (f64 FPR64:$Rn)))]>;
	def v1i16 : BaseSIMDTwoScalar<U, 0b01, 0b00, opc, FPR16, FPR32, asm, []>;			def v1i16 : BaseSIMDTwoScalar<U, 0b01, 0b00, opc, FPR16, FPR32, asm, []>;
	def v1i8 : BaseSIMDTwoScalar<U, 0b00, 0b00, opc, FPR8 , FPR16, asm, []>;			def v1i8 : BaseSIMDTwoScalar<U, 0b00, 0b00, opc, FPR8 , FPR16, asm, []>;
	}			}

	//----------------------------------------------------------------------------			//----------------------------------------------------------------------------
	// AdvSIMD scalar pairwise instructions			// AdvSIMD scalar pairwise instructions
	//----------------------------------------------------------------------------			//----------------------------------------------------------------------------

	▲ Show 20 Lines • Show All 4,369 Lines • Show Last 20 Lines

llvm/test/CodeGen/AArch64/arm64-arith-saturating.ll

Show First 20 Lines • Show All 187 Lines • ▼ Show 20 Lines	; CHECK-NEXT: ret
%vecext = extractelement <2 x i64> %b, i32 0		%vecext = extractelement <2 x i64> %b, i32 0
%vqmovn.i = tail call i32 @llvm.aarch64.neon.scalar.uqxtn.i32.i64(i64 %vecext) nounwind		%vqmovn.i = tail call i32 @llvm.aarch64.neon.scalar.uqxtn.i32.i64(i64 %vecext) nounwind
ret i32 %vqmovn.i		ret i32 %vqmovn.i
}		}

define i32 @uqxtn_ext(<4 x i32> noundef %a, <4 x i32> noundef %b, i32 %c, float %d, <2 x i64> %e) {		define i32 @uqxtn_ext(<4 x i32> noundef %a, <4 x i32> noundef %b, i32 %c, float %d, <2 x i64> %e) {
; CHECK-LABEL: uqxtn_ext:		; CHECK-LABEL: uqxtn_ext:
; CHECK: // %bb.0: // %entry		; CHECK: // %bb.0: // %entry
; CHECK-NEXT: mov x8, v3.d[1]		; CHECK-NEXT: mov v0.d[0], v3.d[1]
; CHECK-NEXT: fmov d0, x8
; CHECK-NEXT: uqxtn s0, d0		; CHECK-NEXT: uqxtn s0, d0
; CHECK-NEXT: fmov w0, s0		; CHECK-NEXT: fmov w0, s0
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%e1 = extractelement <2 x i64> %e, i64 1		%e1 = extractelement <2 x i64> %e, i64 1
%r = tail call i32 @llvm.aarch64.neon.scalar.uqxtn.i32.i64(i64 %e1)		%r = tail call i32 @llvm.aarch64.neon.scalar.uqxtn.i32.i64(i64 %e1)
ret i32 %r		ret i32 %r
}		}

define <4 x i32> @sqxtn_ins(<4 x i32> noundef %a, i64 %c) {		define <4 x i32> @sqxtn_ins(<4 x i32> noundef %a, i64 %c) {
; CHECK-LABEL: sqxtn_ins:		; CHECK-LABEL: sqxtn_ins:
; CHECK: // %bb.0: // %entry		; CHECK: // %bb.0: // %entry
; CHECK-NEXT: fmov d1, x0		; CHECK-NEXT: fmov d1, x0
; CHECK-NEXT: sqxtn s1, d1		; CHECK-NEXT: sqxtn s1, d1
; CHECK-NEXT: fmov w8, s1		; CHECK-NEXT: mov v0.s[3], v1.s[0]
; CHECK-NEXT: mov v0.s[3], w8
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%vqmovnd_s64.i = tail call i32 @llvm.aarch64.neon.scalar.sqxtn.i32.i64(i64 %c)		%vqmovnd_s64.i = tail call i32 @llvm.aarch64.neon.scalar.sqxtn.i32.i64(i64 %c)
%vecins = insertelement <4 x i32> %a, i32 %vqmovnd_s64.i, i64 3		%vecins = insertelement <4 x i32> %a, i32 %vqmovnd_s64.i, i64 3
ret <4 x i32> %vecins		ret <4 x i32> %vecins
}		}

define <4 x i32> @sqxtun_insext(<4 x i32> noundef %a, <2 x i64> %e) {		define <4 x i32> @sqxtun_insext(<4 x i32> noundef %a, <2 x i64> %e) {
; CHECK-LABEL: sqxtun_insext:		; CHECK-LABEL: sqxtun_insext:
; CHECK: // %bb.0: // %entry		; CHECK: // %bb.0: // %entry
; CHECK-NEXT: mov x8, v1.d[1]		; CHECK-NEXT: mov v1.d[0], v1.d[1]
; CHECK-NEXT: fmov d1, x8
; CHECK-NEXT: sqxtun s1, d1		; CHECK-NEXT: sqxtun s1, d1
; CHECK-NEXT: fmov w8, s1		; CHECK-NEXT: mov v0.s[3], v1.s[0]
; CHECK-NEXT: mov v0.s[3], w8
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%c = extractelement <2 x i64> %e, i64 1		%c = extractelement <2 x i64> %e, i64 1
%vqmovnd_s64.i = tail call i32 @llvm.aarch64.neon.scalar.sqxtun.i32.i64(i64 %c)		%vqmovnd_s64.i = tail call i32 @llvm.aarch64.neon.scalar.sqxtun.i32.i64(i64 %c)
%vecins = insertelement <4 x i32> %a, i32 %vqmovnd_s64.i, i64 3		%vecins = insertelement <4 x i32> %a, i32 %vqmovnd_s64.i, i64 3
ret <4 x i32> %vecins		ret <4 x i32> %vecins
}		}

define <4 x i32> @saddluse(<4 x i32> noundef %a, <4 x i32> noundef %b, i32 %c, float %d, <2 x i64> %e) {		define <4 x i32> @saddluse(<4 x i32> noundef %a, <4 x i32> noundef %b, i32 %c, float %d, <2 x i64> %e) {
; CHECK-LABEL: saddluse:		; CHECK-LABEL: saddluse:
; CHECK: // %bb.0: // %entry		; CHECK: // %bb.0: // %entry
; CHECK-NEXT: saddlv d1, v1.4s		; CHECK-NEXT: saddlv d1, v1.4s
; CHECK-NEXT: sqxtn s1, d1		; CHECK-NEXT: sqxtn s1, d1
; CHECK-NEXT: fmov w8, s1		; CHECK-NEXT: mov v0.s[1], v1.s[0]
; CHECK-NEXT: mov v0.s[1], w8
; CHECK-NEXT: ret		; CHECK-NEXT: ret
entry:		entry:
%vaddlvq_s32.i = tail call i64 @llvm.aarch64.neon.saddlv.i64.v4i32(<4 x i32> %b)		%vaddlvq_s32.i = tail call i64 @llvm.aarch64.neon.saddlv.i64.v4i32(<4 x i32> %b)
%vqmovnd_s64.i = tail call i32 @llvm.aarch64.neon.scalar.sqxtn.i32.i64(i64 %vaddlvq_s32.i)		%vqmovnd_s64.i = tail call i32 @llvm.aarch64.neon.scalar.sqxtn.i32.i64(i64 %vaddlvq_s32.i)
%vecins = insertelement <4 x i32> %a, i32 %vqmovnd_s64.i, i64 1		%vecins = insertelement <4 x i32> %a, i32 %vqmovnd_s64.i, i64 1
ret <4 x i32> %vecins		ret <4 x i32> %vecins
}		}

declare i32 @llvm.aarch64.neon.scalar.uqxtn.i32.i64(i64) nounwind readnone		declare i32 @llvm.aarch64.neon.scalar.uqxtn.i32.i64(i64) nounwind readnone
declare i32 @llvm.aarch64.neon.scalar.sqxtn.i32.i64(i64) nounwind readnone		declare i32 @llvm.aarch64.neon.scalar.sqxtn.i32.i64(i64) nounwind readnone
declare i32 @llvm.aarch64.neon.scalar.sqxtun.i32.i64(i64) nounwind readnone		declare i32 @llvm.aarch64.neon.scalar.sqxtun.i32.i64(i64) nounwind readnone
declare i64 @llvm.aarch64.neon.saddlv.i64.v4i32(<4 x i32>)		declare i64 @llvm.aarch64.neon.saddlv.i64.v4i32(<4 x i32>)