This is an archive of the discontinued LLVM Phabricator instance.

[ARM][BFloat] Implement bf16 get/set_lane without casts to i16 vectors
ClosedPublic

Authored by miyuki on Jun 19 2020, 10:05 AM.

Download Raw Diff

Details

Reviewers

stuij
labrinea
dmgreen
simon_tatham

Commits

rG3a4feb1d53df: [ARM][BFloat] Implement bf16 get/set_lane without casts to i16 vectors

Summary

Currently, in order to extract an element from a bf16 vector, we cast
the vector to an i16 vector, perform the extraction, and cast the result to
bfloat. This behavior was copied from the old fp16 implementation.

The goal of this patch is to achieve optimal code generation for lane
copying intrinsics in a subsequent patch (LLVM fails to fold certain
combinations of bitcast, insertelement, extractelement and
shufflevector instructions leading to the generation of suboptimal code).

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

miyuki created this revision.Jun 19 2020, 10:05 AM

Herald added a project: Restricted Project. · View Herald TranscriptJun 19 2020, 10:05 AM

Herald added subscribers: cfe-commits, danielkiss, kristof.beyls. · View Herald Transcript

miyuki added a child revision: D80928: [BFloat] Add convert/copy instrinsic support.Jun 19 2020, 10:06 AM

Harbormaster completed remote builds in B61056: Diff 272118.Jun 19 2020, 11:27 AM

miyuki added a child revision: D81740: [ARM] BFloat MatMul Intrinsics&CodeGen.Jun 22 2020, 9:17 AM

LGTM. Thanks!

This revision is now accepted and ready to land.Jun 22 2020, 9:44 AM

Closed by commit rG3a4feb1d53df: [ARM][BFloat] Implement bf16 get/set_lane without casts to i16 vectors (authored by miyuki). · Explain WhyJun 22 2020, 10:46 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

clang/

include/

clang/

Basic/

arm_neon.td

58 lines

lib/

CodeGen/

CGBuiltin.cpp

16 lines

test/

CodeGen/

arm-bf16-getset-intrinsics.c

22 lines

Diff 272497

clang/include/clang/Basic/arm_neon.td

Show First 20 Lines • Show All 184 Lines • ▼ Show 20 Lines
def OP_SCALAR_QDMULH_LN : ScalarMulOp<"vqdmulh">;		def OP_SCALAR_QDMULH_LN : ScalarMulOp<"vqdmulh">;
def OP_SCALAR_QRDMULH_LN : ScalarMulOp<"vqrdmulh">;		def OP_SCALAR_QRDMULH_LN : ScalarMulOp<"vqrdmulh">;

def OP_SCALAR_QRDMLAH_LN : Op<(call "vqadd", $p0, (call "vqrdmulh", $p1,		def OP_SCALAR_QRDMLAH_LN : Op<(call "vqadd", $p0, (call "vqrdmulh", $p1,
(call "vget_lane", $p2, $p3)))>;		(call "vget_lane", $p2, $p3)))>;
def OP_SCALAR_QRDMLSH_LN : Op<(call "vqsub", $p0, (call "vqrdmulh", $p1,		def OP_SCALAR_QRDMLSH_LN : Op<(call "vqsub", $p0, (call "vqrdmulh", $p1,
(call "vget_lane", $p2, $p3)))>;		(call "vget_lane", $p2, $p3)))>;

multiclass ScalarGetSetLaneOpsF16<string scalarTy,		def OP_SCALAR_HALF_GET_LN : Op<(bitcast "float16_t",
string vectorTy4, string vectorTy8> {
def _GET_LN : Op<(bitcast scalarTy,
(call "vget_lane",		(call "vget_lane",
(bitcast "int16x4_t", $p0), $p1))>;		(bitcast "int16x4_t", $p0), $p1))>;
def _GET_LNQ : Op<(bitcast scalarTy,		def OP_SCALAR_HALF_GET_LNQ : Op<(bitcast "float16_t",
(call "vget_lane",		(call "vget_lane",
(bitcast "int16x8_t", $p0), $p1))>;		(bitcast "int16x8_t", $p0), $p1))>;
def _SET_LN : Op<(bitcast vectorTy4,		def OP_SCALAR_HALF_SET_LN : Op<(bitcast "float16x4_t",
(call "vset_lane",		(call "vset_lane",
(bitcast "int16_t", $p0),		(bitcast "int16_t", $p0),
(bitcast "int16x4_t", $p1), $p2))>;		(bitcast "int16x4_t", $p1), $p2))>;
def _SET_LNQ : Op<(bitcast vectorTy8,		def OP_SCALAR_HALF_SET_LNQ : Op<(bitcast "float16x8_t",
(call "vset_lane",		(call "vset_lane",
(bitcast "int16_t", $p0),		(bitcast "int16_t", $p0),
(bitcast "int16x8_t", $p1), $p2))>;		(bitcast "int16x8_t", $p1), $p2))>;
}

defm OP_SCALAR_HALF: ScalarGetSetLaneOpsF16<"float16_t",
"float16x4_t", "float16x8_t">;
defm OP_SCALAR_BF16: ScalarGetSetLaneOpsF16<"bfloat16_t",
"bfloat16x4_t", "bfloat16x8_t">;

def OP_DOT_LN		def OP_DOT_LN
: Op<(call "vdot", $p0, $p1,		: Op<(call "vdot", $p0, $p1,
(bitcast $p1, (call_mangled "splat_lane", (bitcast "32", $p2), $p3)))>;		(bitcast $p1, (call_mangled "splat_lane", (bitcast "32", $p2), $p3)))>;
def OP_DOT_LNQ		def OP_DOT_LNQ
: Op<(call "vdot", $p0, $p1,		: Op<(call "vdot", $p0, $p1,
(bitcast $p1, (call_mangled "splat_lane", (bitcast "32", $p2), $p3)))>;		(bitcast $p1, (call_mangled "splat_lane", (bitcast "32", $p2), $p3)))>;

▲ Show 20 Lines • Show All 1,690 Lines • ▼ Show 20 Lines	def VDUP_LANEQ_BF: WOpInst<"vdup_laneq", ".QI", "bQb", OP_DUP_LN> {
let isLaneQ = 1;		let isLaneQ = 1;
}		}

def VCOMBINE_BF : NoTestOpInst<"vcombine", "Q..", "b", OP_CONC>;		def VCOMBINE_BF : NoTestOpInst<"vcombine", "Q..", "b", OP_CONC>;

def VGET_HIGH_BF : NoTestOpInst<"vget_high", ".Q", "b", OP_HI>;		def VGET_HIGH_BF : NoTestOpInst<"vget_high", ".Q", "b", OP_HI>;
def VGET_LOW_BF : NoTestOpInst<"vget_low", ".Q", "b", OP_LO>;		def VGET_LOW_BF : NoTestOpInst<"vget_low", ".Q", "b", OP_LO>;

def VGET_LANE_BF : IOpInst<"vget_lane", "1.I", "b", OP_SCALAR_BF16_GET_LN>;		def VGET_LANE_BF : IInst<"vget_lane", "1.I", "bQb">;
def VSET_LANE_BF : IOpInst<"vset_lane", ".1.I", "b", OP_SCALAR_BF16_SET_LN>;		def VSET_LANE_BF : IInst<"vset_lane", ".1.I", "bQb">;
def VGET_LANEQ_BF : IOpInst<"vget_lane", "1.I", "Qb", OP_SCALAR_BF16_GET_LNQ>;		def SCALAR_VDUP_LANE_BF : IInst<"vdup_lane", "1.I", "Sb">;
def VSET_LANEQ_BF : IOpInst<"vset_lane", ".1.I", "Qb", OP_SCALAR_BF16_SET_LNQ>;		def SCALAR_VDUP_LANEQ_BF : IInst<"vdup_laneq", "1QI", "Sb"> {
		let isLaneQ = 1;
		}

def VLD1_BF : WInst<"vld1", ".(c*!)", "bQb">;		def VLD1_BF : WInst<"vld1", ".(c*!)", "bQb">;
def VLD2_BF : WInst<"vld2", "2(c*!)", "bQb">;		def VLD2_BF : WInst<"vld2", "2(c*!)", "bQb">;
def VLD3_BF : WInst<"vld3", "3(c*!)", "bQb">;		def VLD3_BF : WInst<"vld3", "3(c*!)", "bQb">;
def VLD4_BF : WInst<"vld4", "4(c*!)", "bQb">;		def VLD4_BF : WInst<"vld4", "4(c*!)", "bQb">;

def VST1_BF : WInst<"vst1", "v*(.!)", "bQb">;		def VST1_BF : WInst<"vst1", "v*(.!)", "bQb">;
def VST2_BF : WInst<"vst2", "v*(2!)", "bQb">;		def VST2_BF : WInst<"vst2", "v*(2!)", "bQb">;
Show All 19 Lines	let ArchGuard = "defined(__ARM_FEATURE_BF16_VECTOR_ARITHMETIC)" in {

def VLD1_DUP_BF : WInst<"vld1_dup", ".(c*!)", "bQb">;		def VLD1_DUP_BF : WInst<"vld1_dup", ".(c*!)", "bQb">;
def VLD2_DUP_BF : WInst<"vld2_dup", "2(c*!)", "bQb">;		def VLD2_DUP_BF : WInst<"vld2_dup", "2(c*!)", "bQb">;
def VLD3_DUP_BF : WInst<"vld3_dup", "3(c*!)", "bQb">;		def VLD3_DUP_BF : WInst<"vld3_dup", "3(c*!)", "bQb">;
def VLD4_DUP_BF : WInst<"vld4_dup", "4(c*!)", "bQb">;		def VLD4_DUP_BF : WInst<"vld4_dup", "4(c*!)", "bQb">;

}		}

let ArchGuard = "defined(__ARM_FEATURE_BF16_VECTOR_ARITHMETIC) && !defined(__aarch64__)" in {
def SCALAR_VDUP_LANE_BF_A32 : IOpInst<"vduph_lane", "1.I", "b", OP_SCALAR_BF16_GET_LN>;
def SCALAR_VDUP_LANEQ_BF_A32 : IOpInst<"vduph_laneq", "1.I", "Hb", OP_SCALAR_BF16_GET_LNQ>;
}

let ArchGuard = "defined(__ARM_FEATURE_BF16_VECTOR_ARITHMETIC) && defined(__aarch64__)" in {
def SCALAR_VDUP_LANE_BF_A64 : IInst<"vdup_lane", "1.I", "Sb">;
def SCALAR_VDUP_LANEQ_BF_A64 : IInst<"vdup_laneq", "1QI", "Sb"> {
let isLaneQ = 1;
}
}

let ArchGuard = "defined(__ARM_FEATURE_BF16) && !defined(__aarch64__)" in {		let ArchGuard = "defined(__ARM_FEATURE_BF16) && !defined(__aarch64__)" in {
let BigEndianSafe = 1 in {		let BigEndianSafe = 1 in {
defm VREINTERPRET_BF : REINTERPRET_CROSS_TYPES<		defm VREINTERPRET_BF : REINTERPRET_CROSS_TYPES<
"csilUcUsUiUlhfPcPsPlQcQsQiQlQUcQUsQUiQUlQhQfQPcQPsQPl", "bQb">;		"csilUcUsUiUlhfPcPsPlQcQsQiQlQUcQUsQUiQUlQhQfQPcQPsQPl", "bQb">;
}		}
}		}

let ArchGuard = "defined(__ARM_FEATURE_BF16) && defined(__aarch64__)" in {		let ArchGuard = "defined(__ARM_FEATURE_BF16) && defined(__aarch64__)" in {
let BigEndianSafe = 1 in {		let BigEndianSafe = 1 in {
defm VVREINTERPRET_BF : REINTERPRET_CROSS_TYPES<		defm VVREINTERPRET_BF : REINTERPRET_CROSS_TYPES<
"csilUcUsUiUlhfdPcPsPlQcQsQiQlQUcQUsQUiQUlQhQfQdQPcQPsQPlQPk", "bQb">;		"csilUcUsUiUlhfdPcPsPlQcQsQiQlQUcQUsQUiQUlQhQfQdQPcQPsQPlQPk", "bQb">;
}		}
}		}

clang/lib/CodeGen/CGBuiltin.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 6,410 Lines • ▼ Show 20 Lines

/// Return true if BuiltinID is an overloaded Neon intrinsic with an extra		/// Return true if BuiltinID is an overloaded Neon intrinsic with an extra
/// argument that specifies the vector type.		/// argument that specifies the vector type.
static bool HasExtraNeonArgument(unsigned BuiltinID) {		static bool HasExtraNeonArgument(unsigned BuiltinID) {
switch (BuiltinID) {		switch (BuiltinID) {
default: break;		default: break;
case NEON::BI__builtin_neon_vget_lane_i8:		case NEON::BI__builtin_neon_vget_lane_i8:
case NEON::BI__builtin_neon_vget_lane_i16:		case NEON::BI__builtin_neon_vget_lane_i16:
		case NEON::BI__builtin_neon_vget_lane_bf16:
case NEON::BI__builtin_neon_vget_lane_i32:		case NEON::BI__builtin_neon_vget_lane_i32:
case NEON::BI__builtin_neon_vget_lane_i64:		case NEON::BI__builtin_neon_vget_lane_i64:
case NEON::BI__builtin_neon_vget_lane_f32:		case NEON::BI__builtin_neon_vget_lane_f32:
case NEON::BI__builtin_neon_vgetq_lane_i8:		case NEON::BI__builtin_neon_vgetq_lane_i8:
case NEON::BI__builtin_neon_vgetq_lane_i16:		case NEON::BI__builtin_neon_vgetq_lane_i16:
		case NEON::BI__builtin_neon_vgetq_lane_bf16:
case NEON::BI__builtin_neon_vgetq_lane_i32:		case NEON::BI__builtin_neon_vgetq_lane_i32:
case NEON::BI__builtin_neon_vgetq_lane_i64:		case NEON::BI__builtin_neon_vgetq_lane_i64:
case NEON::BI__builtin_neon_vgetq_lane_f32:		case NEON::BI__builtin_neon_vgetq_lane_f32:
		case NEON::BI__builtin_neon_vduph_lane_bf16:
		case NEON::BI__builtin_neon_vduph_laneq_bf16:
case NEON::BI__builtin_neon_vset_lane_i8:		case NEON::BI__builtin_neon_vset_lane_i8:
case NEON::BI__builtin_neon_vset_lane_i16:		case NEON::BI__builtin_neon_vset_lane_i16:
		case NEON::BI__builtin_neon_vset_lane_bf16:
case NEON::BI__builtin_neon_vset_lane_i32:		case NEON::BI__builtin_neon_vset_lane_i32:
case NEON::BI__builtin_neon_vset_lane_i64:		case NEON::BI__builtin_neon_vset_lane_i64:
case NEON::BI__builtin_neon_vset_lane_f32:		case NEON::BI__builtin_neon_vset_lane_f32:
case NEON::BI__builtin_neon_vsetq_lane_i8:		case NEON::BI__builtin_neon_vsetq_lane_i8:
case NEON::BI__builtin_neon_vsetq_lane_i16:		case NEON::BI__builtin_neon_vsetq_lane_i16:
		case NEON::BI__builtin_neon_vsetq_lane_bf16:
case NEON::BI__builtin_neon_vsetq_lane_i32:		case NEON::BI__builtin_neon_vsetq_lane_i32:
case NEON::BI__builtin_neon_vsetq_lane_i64:		case NEON::BI__builtin_neon_vsetq_lane_i64:
case NEON::BI__builtin_neon_vsetq_lane_f32:		case NEON::BI__builtin_neon_vsetq_lane_f32:
case NEON::BI__builtin_neon_vsha1h_u32:		case NEON::BI__builtin_neon_vsha1h_u32:
case NEON::BI__builtin_neon_vsha1cq_u32:		case NEON::BI__builtin_neon_vsha1cq_u32:
case NEON::BI__builtin_neon_vsha1pq_u32:		case NEON::BI__builtin_neon_vsha1pq_u32:
case NEON::BI__builtin_neon_vsha1mq_u32:		case NEON::BI__builtin_neon_vsha1mq_u32:
case clang::ARM::BI_MoveToCoprocessor:		case clang::ARM::BI_MoveToCoprocessor:
▲ Show 20 Lines • Show All 429 Lines • ▼ Show 20 Lines	Value *CodeGenFunction::EmitARMBuiltinExpr(unsigned BuiltinID,

switch (BuiltinID) {		switch (BuiltinID) {
default: break;		default: break;

case NEON::BI__builtin_neon_vget_lane_i8:		case NEON::BI__builtin_neon_vget_lane_i8:
case NEON::BI__builtin_neon_vget_lane_i16:		case NEON::BI__builtin_neon_vget_lane_i16:
case NEON::BI__builtin_neon_vget_lane_i32:		case NEON::BI__builtin_neon_vget_lane_i32:
case NEON::BI__builtin_neon_vget_lane_i64:		case NEON::BI__builtin_neon_vget_lane_i64:
		case NEON::BI__builtin_neon_vget_lane_bf16:
case NEON::BI__builtin_neon_vget_lane_f32:		case NEON::BI__builtin_neon_vget_lane_f32:
case NEON::BI__builtin_neon_vgetq_lane_i8:		case NEON::BI__builtin_neon_vgetq_lane_i8:
case NEON::BI__builtin_neon_vgetq_lane_i16:		case NEON::BI__builtin_neon_vgetq_lane_i16:
case NEON::BI__builtin_neon_vgetq_lane_i32:		case NEON::BI__builtin_neon_vgetq_lane_i32:
case NEON::BI__builtin_neon_vgetq_lane_i64:		case NEON::BI__builtin_neon_vgetq_lane_i64:
		case NEON::BI__builtin_neon_vgetq_lane_bf16:
case NEON::BI__builtin_neon_vgetq_lane_f32:		case NEON::BI__builtin_neon_vgetq_lane_f32:
		case NEON::BI__builtin_neon_vduph_lane_bf16:
		case NEON::BI__builtin_neon_vduph_laneq_bf16:
return Builder.CreateExtractElement(Ops[0], Ops[1], "vget_lane");		return Builder.CreateExtractElement(Ops[0], Ops[1], "vget_lane");

case NEON::BI__builtin_neon_vrndns_f32: {		case NEON::BI__builtin_neon_vrndns_f32: {
Value *Arg = EmitScalarExpr(E->getArg(0));		Value *Arg = EmitScalarExpr(E->getArg(0));
llvm::Type *Tys[] = {Arg->getType()};		llvm::Type *Tys[] = {Arg->getType()};
Function *F = CGM.getIntrinsic(Intrinsic::arm_neon_vrintn, Tys);		Function *F = CGM.getIntrinsic(Intrinsic::arm_neon_vrintn, Tys);
return Builder.CreateCall(F, {Arg}, "vrndn"); }		return Builder.CreateCall(F, {Arg}, "vrndn"); }

case NEON::BI__builtin_neon_vset_lane_i8:		case NEON::BI__builtin_neon_vset_lane_i8:
case NEON::BI__builtin_neon_vset_lane_i16:		case NEON::BI__builtin_neon_vset_lane_i16:
case NEON::BI__builtin_neon_vset_lane_i32:		case NEON::BI__builtin_neon_vset_lane_i32:
case NEON::BI__builtin_neon_vset_lane_i64:		case NEON::BI__builtin_neon_vset_lane_i64:
		case NEON::BI__builtin_neon_vset_lane_bf16:
case NEON::BI__builtin_neon_vset_lane_f32:		case NEON::BI__builtin_neon_vset_lane_f32:
case NEON::BI__builtin_neon_vsetq_lane_i8:		case NEON::BI__builtin_neon_vsetq_lane_i8:
case NEON::BI__builtin_neon_vsetq_lane_i16:		case NEON::BI__builtin_neon_vsetq_lane_i16:
case NEON::BI__builtin_neon_vsetq_lane_i32:		case NEON::BI__builtin_neon_vsetq_lane_i32:
case NEON::BI__builtin_neon_vsetq_lane_i64:		case NEON::BI__builtin_neon_vsetq_lane_i64:
		case NEON::BI__builtin_neon_vsetq_lane_bf16:
case NEON::BI__builtin_neon_vsetq_lane_f32:		case NEON::BI__builtin_neon_vsetq_lane_f32:
return Builder.CreateInsertElement(Ops[1], Ops[0], Ops[2], "vset_lane");		return Builder.CreateInsertElement(Ops[1], Ops[0], Ops[2], "vset_lane");

case NEON::BI__builtin_neon_vsha1h_u32:		case NEON::BI__builtin_neon_vsha1h_u32:
return EmitNeonCall(CGM.getIntrinsic(Intrinsic::arm_neon_sha1h), Ops,		return EmitNeonCall(CGM.getIntrinsic(Intrinsic::arm_neon_sha1h), Ops,
"vsha1h");		"vsha1h");
case NEON::BI__builtin_neon_vsha1cq_u32:		case NEON::BI__builtin_neon_vsha1cq_u32:
return EmitNeonCall(CGM.getIntrinsic(Intrinsic::arm_neon_sha1c), Ops,		return EmitNeonCall(CGM.getIntrinsic(Intrinsic::arm_neon_sha1c), Ops,
▲ Show 20 Lines • Show All 2,394 Lines • ▼ Show 20 Lines	case NEON::BI__builtin_neon_vtstd_u64: {
Ops[0] = Builder.CreateICmp(ICmpInst::ICMP_NE, Ops[0],		Ops[0] = Builder.CreateICmp(ICmpInst::ICMP_NE, Ops[0],
llvm::Constant::getNullValue(Int64Ty));		llvm::Constant::getNullValue(Int64Ty));
return Builder.CreateSExt(Ops[0], Int64Ty, "vtstd");		return Builder.CreateSExt(Ops[0], Int64Ty, "vtstd");
}		}
case NEON::BI__builtin_neon_vset_lane_i8:		case NEON::BI__builtin_neon_vset_lane_i8:
case NEON::BI__builtin_neon_vset_lane_i16:		case NEON::BI__builtin_neon_vset_lane_i16:
case NEON::BI__builtin_neon_vset_lane_i32:		case NEON::BI__builtin_neon_vset_lane_i32:
case NEON::BI__builtin_neon_vset_lane_i64:		case NEON::BI__builtin_neon_vset_lane_i64:
		case NEON::BI__builtin_neon_vset_lane_bf16:
case NEON::BI__builtin_neon_vset_lane_f32:		case NEON::BI__builtin_neon_vset_lane_f32:
case NEON::BI__builtin_neon_vsetq_lane_i8:		case NEON::BI__builtin_neon_vsetq_lane_i8:
case NEON::BI__builtin_neon_vsetq_lane_i16:		case NEON::BI__builtin_neon_vsetq_lane_i16:
case NEON::BI__builtin_neon_vsetq_lane_i32:		case NEON::BI__builtin_neon_vsetq_lane_i32:
case NEON::BI__builtin_neon_vsetq_lane_i64:		case NEON::BI__builtin_neon_vsetq_lane_i64:
		case NEON::BI__builtin_neon_vsetq_lane_bf16:
case NEON::BI__builtin_neon_vsetq_lane_f32:		case NEON::BI__builtin_neon_vsetq_lane_f32:
Ops.push_back(EmitScalarExpr(E->getArg(2)));		Ops.push_back(EmitScalarExpr(E->getArg(2)));
return Builder.CreateInsertElement(Ops[1], Ops[0], Ops[2], "vset_lane");		return Builder.CreateInsertElement(Ops[1], Ops[0], Ops[2], "vset_lane");
case NEON::BI__builtin_neon_vset_lane_f64:		case NEON::BI__builtin_neon_vset_lane_f64:
// The vector type needs a cast for the v1f64 variant.		// The vector type needs a cast for the v1f64 variant.
Ops[1] =		Ops[1] =
Builder.CreateBitCast(Ops[1], llvm::FixedVectorType::get(DoubleTy, 1));		Builder.CreateBitCast(Ops[1], llvm::FixedVectorType::get(DoubleTy, 1));
Ops.push_back(EmitScalarExpr(E->getArg(2)));		Ops.push_back(EmitScalarExpr(E->getArg(2)));
▲ Show 20 Lines • Show All 262 Lines • ▼ Show 20 Lines	case NEON::BI__builtin_neon_vqdmlsls_laneq_s32: {
Ops.pop_back();		Ops.pop_back();

unsigned AccInt = (BuiltinID == NEON::BI__builtin_neon_vqdmlals_lane_s32 \|\|		unsigned AccInt = (BuiltinID == NEON::BI__builtin_neon_vqdmlals_lane_s32 \|\|
BuiltinID == NEON::BI__builtin_neon_vqdmlals_laneq_s32)		BuiltinID == NEON::BI__builtin_neon_vqdmlals_laneq_s32)
? Intrinsic::aarch64_neon_sqadd		? Intrinsic::aarch64_neon_sqadd
: Intrinsic::aarch64_neon_sqsub;		: Intrinsic::aarch64_neon_sqsub;
return EmitNeonCall(CGM.getIntrinsic(AccInt, Int64Ty), Ops, "vqdmlXl");		return EmitNeonCall(CGM.getIntrinsic(AccInt, Int64Ty), Ops, "vqdmlXl");
}		}
		case NEON::BI__builtin_neon_vget_lane_bf16:
case NEON::BI__builtin_neon_vduph_lane_bf16:		case NEON::BI__builtin_neon_vduph_lane_bf16:
case NEON::BI__builtin_neon_vduph_lane_f16: {		case NEON::BI__builtin_neon_vduph_lane_f16: {
return Builder.CreateExtractElement(Ops[0], EmitScalarExpr(E->getArg(1)),		return Builder.CreateExtractElement(Ops[0], EmitScalarExpr(E->getArg(1)),
"vget_lane");		"vget_lane");
}		}
		case NEON::BI__builtin_neon_vgetq_lane_bf16:
case NEON::BI__builtin_neon_vduph_laneq_bf16:		case NEON::BI__builtin_neon_vduph_laneq_bf16:
case NEON::BI__builtin_neon_vduph_laneq_f16: {		case NEON::BI__builtin_neon_vduph_laneq_f16: {
return Builder.CreateExtractElement(Ops[0], EmitScalarExpr(E->getArg(1)),		return Builder.CreateExtractElement(Ops[0], EmitScalarExpr(E->getArg(1)),
"vgetq_lane");		"vgetq_lane");
}		}
case AArch64::BI_BitScanForward:		case AArch64::BI_BitScanForward:
case AArch64::BI_BitScanForward64:		case AArch64::BI_BitScanForward64:
return EmitMSVCBuiltinExpr(MSVCIntrin::_BitScanForward, E);		return EmitMSVCBuiltinExpr(MSVCIntrin::_BitScanForward, E);
▲ Show 20 Lines • Show All 7,153 Lines • Show Last 20 Lines

clang/test/CodeGen/arm-bf16-getset-intrinsics.c

	// NOTE: Assertions have been autogenerated by utils/update_cc_test_checks.py			// NOTE: Assertions have been autogenerated by utils/update_cc_test_checks.py
	// RUN: %clang_cc1 -triple armv8.6a-arm-none-eabi -target-feature +neon -target-feature +bf16 -mfloat-abi hard \			// RUN: %clang_cc1 -triple armv8.6a-arm-none-eabi -target-feature +neon -target-feature +bf16 -mfloat-abi hard \
	// RUN: -disable-O0-optnone -emit-llvm %s -o - \| opt -S -mem2reg -instcombine \| FileCheck %s			// RUN: -disable-O0-optnone -emit-llvm %s -o - \| opt -S -mem2reg -instcombine \| FileCheck %s
				// RUN: %clang_cc1 -triple armv8.6a-arm-none-eabi -target-feature +neon -target-feature +bf16 -mfloat-abi soft \
				// RUN: -disable-O0-optnone -emit-llvm %s -o - \| opt -S -mem2reg -instcombine \| FileCheck %s

	#include <arm_neon.h>			#include <arm_neon.h>

	// CHECK-LABEL: @test_vcreate_bf16(			// CHECK-LABEL: @test_vcreate_bf16(
	// CHECK-NEXT: entry:			// CHECK-NEXT: entry:
	// CHECK-NEXT: [[TMP0:%.]] = bitcast i64 [[A:%.]] to <4 x bfloat>			// CHECK-NEXT: [[TMP0:%.]] = bitcast i64 [[A:%.]] to <4 x bfloat>
	// CHECK-NEXT: ret <4 x bfloat> [[TMP0]]			// CHECK-NEXT: ret <4 x bfloat> [[TMP0]]
	//			//
	▲ Show 20 Lines • Show All 81 Lines • ▼ Show 20 Lines
	// CHECK-NEXT: ret <4 x bfloat> [[SHUFFLE_I]]			// CHECK-NEXT: ret <4 x bfloat> [[SHUFFLE_I]]
	//			//
	bfloat16x4_t test_vget_low_bf16(bfloat16x8_t a) {			bfloat16x4_t test_vget_low_bf16(bfloat16x8_t a) {
	return vget_low_bf16(a);			return vget_low_bf16(a);
	}			}

	// CHECK-LABEL: @test_vget_lane_bf16(			// CHECK-LABEL: @test_vget_lane_bf16(
	// CHECK-NEXT: entry:			// CHECK-NEXT: entry:
	// CHECK-NEXT: [[DOTCAST1:%.]] = extractelement <4 x bfloat> [[V:%.]], i32 1			// CHECK-NEXT: [[VGET_LANE:%.]] = extractelement <4 x bfloat> [[V:%.]], i32 1
	// CHECK-NEXT: ret bfloat [[DOTCAST1]]			// CHECK-NEXT: ret bfloat [[VGET_LANE]]
	//			//
	bfloat16_t test_vget_lane_bf16(bfloat16x4_t v) {			bfloat16_t test_vget_lane_bf16(bfloat16x4_t v) {
	return vget_lane_bf16(v, 1);			return vget_lane_bf16(v, 1);
	}			}

	// CHECK-LABEL: @test_vgetq_lane_bf16(			// CHECK-LABEL: @test_vgetq_lane_bf16(
	// CHECK-NEXT: entry:			// CHECK-NEXT: entry:
	// CHECK-NEXT: [[DOTCAST1:%.]] = extractelement <8 x bfloat> [[V:%.]], i32 7			// CHECK-NEXT: [[VGET_LANE:%.]] = extractelement <8 x bfloat> [[V:%.]], i32 7
	// CHECK-NEXT: ret bfloat [[DOTCAST1]]			// CHECK-NEXT: ret bfloat [[VGET_LANE]]
	//			//
	bfloat16_t test_vgetq_lane_bf16(bfloat16x8_t v) {			bfloat16_t test_vgetq_lane_bf16(bfloat16x8_t v) {
	return vgetq_lane_bf16(v, 7);			return vgetq_lane_bf16(v, 7);
	}			}

	// CHECK-LABEL: @test_vset_lane_bf16(			// CHECK-LABEL: @test_vset_lane_bf16(
	// CHECK-NEXT: entry:			// CHECK-NEXT: entry:
	// CHECK-NEXT: [[TMP0:%.]] = insertelement <4 x bfloat> [[V:%.]], bfloat [[A:%.*]], i32 1			// CHECK-NEXT: [[VSET_LANE:%.]] = insertelement <4 x bfloat> [[V:%.]], bfloat [[A:%.*]], i32 1
	// CHECK-NEXT: ret <4 x bfloat> [[TMP0]]			// CHECK-NEXT: ret <4 x bfloat> [[VSET_LANE]]
	//			//
	bfloat16x4_t test_vset_lane_bf16(bfloat16_t a, bfloat16x4_t v) {			bfloat16x4_t test_vset_lane_bf16(bfloat16_t a, bfloat16x4_t v) {
	return vset_lane_bf16(a, v, 1);			return vset_lane_bf16(a, v, 1);
	}			}

	// CHECK-LABEL: @test_vsetq_lane_bf16(			// CHECK-LABEL: @test_vsetq_lane_bf16(
	// CHECK-NEXT: entry:			// CHECK-NEXT: entry:
	// CHECK-NEXT: [[TMP0:%.]] = insertelement <8 x bfloat> [[V:%.]], bfloat [[A:%.*]], i32 7			// CHECK-NEXT: [[VSET_LANE:%.]] = insertelement <8 x bfloat> [[V:%.]], bfloat [[A:%.*]], i32 7
	// CHECK-NEXT: ret <8 x bfloat> [[TMP0]]			// CHECK-NEXT: ret <8 x bfloat> [[VSET_LANE]]
	//			//
	bfloat16x8_t test_vsetq_lane_bf16(bfloat16_t a, bfloat16x8_t v) {			bfloat16x8_t test_vsetq_lane_bf16(bfloat16_t a, bfloat16x8_t v) {
	return vsetq_lane_bf16(a, v, 7);			return vsetq_lane_bf16(a, v, 7);
	}			}

	// CHECK-LABEL: @test_vduph_lane_bf16(			// CHECK-LABEL: @test_vduph_lane_bf16(
	// CHECK-NEXT: entry:			// CHECK-NEXT: entry:
	// CHECK-NEXT: [[VGET_LANE:%.]] = extractelement <4 x bfloat> [[V:%.]], i32 1			// CHECK-NEXT: [[VGET_LANE:%.]] = extractelement <4 x bfloat> [[V:%.]], i32 1
	// CHECK-NEXT: ret bfloat [[VGET_LANE]]			// CHECK-NEXT: ret bfloat [[VGET_LANE]]
	//			//
	bfloat16_t test_vduph_lane_bf16(bfloat16x4_t v) {			bfloat16_t test_vduph_lane_bf16(bfloat16x4_t v) {
	return vduph_lane_bf16(v, 1);			return vduph_lane_bf16(v, 1);
	}			}

	// CHECK-LABEL: @test_vduph_laneq_bf16(			// CHECK-LABEL: @test_vduph_laneq_bf16(
	// CHECK-NEXT: entry:			// CHECK-NEXT: entry:
	// CHECK-NEXT: [[VGETQ_LANE:%.]] = extractelement <8 x bfloat> [[V:%.]], i32 7			// CHECK-NEXT: [[VGET_LANE:%.]] = extractelement <8 x bfloat> [[V:%.]], i32 7
	// CHECK-NEXT: ret bfloat [[VGETQ_LANE]]			// CHECK-NEXT: ret bfloat [[VGET_LANE]]
	//			//
	bfloat16_t test_vduph_laneq_bf16(bfloat16x8_t v) {			bfloat16_t test_vduph_laneq_bf16(bfloat16x8_t v) {
	return vduph_laneq_bf16(v, 7);			return vduph_laneq_bf16(v, 7);
	}			}