This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Target/ARM/
-
Target/
-
ARM/
-
ARMCallingConv.cpp
-
ARMCallingConv.td
3/12
ARMISelLowering.cpp
-
ARMInstrFormats.td
-
ARMInstrNEON.td
1/2
ARMInstrVFP.td
-
ARMRegisterInfo.td
-
ARMSubtarget.h
-
test/CodeGen/ARM/
-
CodeGen/
-
ARM/
1/2
bfloat.ll

Differential D81373

[ARM] Basic bfloat support
ClosedPublic

Authored by labrinea on Jun 8 2020, 4:12 AM.

Download Raw Diff

Details

Reviewers

SjoerdMeijer
dmgreen
dnsampaio
pratlucas
momchil.velikov

Commits

rGecdf48f15bd2: [ARM] Basic bfloat support

Summary

This patch is part of a series that adds support for the Bfloat16 extension of the Armv8.6-a architecture, as detailed here:
https://community.arm.com/developer/ip-products/processors/b/processors-ip-blog/posts/arm-architecture-developments-armv8-6-a
Specifically:

it adds the bfloat scalar and vector types in the necessary register classes,
it adjusts the calling convention to cope with bfloat argument passing and return,
it adds codegen patterns for moves, loads and stores relying on fullfp16.

It's tested mostly by the intrinsic patches that depend on it (load/store, convert/copy).

The bfloat type, and its properties are specified in the Arm Architecture Reference Manual:
https://community.arm.com/developer/ip-products/processors/b/processors-ip-blog/posts/arm-architecture-developments-armv8-6-a
The following people contributed to this patch:

Alexandros Lamprineas
Ties Stuij

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

labrinea created this revision.Jun 8 2020, 4:12 AM

Herald added a project: Restricted Project. · View Herald TranscriptJun 8 2020, 4:12 AM

Herald added subscribers: danielkiss, hiraditya, kristof.beyls. · View Herald Transcript

I believe the codegen patterns for vmov and load/store half are incorrect on the bf16 type. Can someone suggest what is the right approach?

labrinea added a child revision: D80928: [BFloat] Add convert/copy instrinsic support.Jun 8 2020, 4:19 AM

Since this patch adds loads, stores, moves and the calling convention, couldn't those be tested here, without waiting for intrinsics?

What do you think is wrong about those patterns? The VLDRH/VSTRH instructions load/store a 16-bit value between memory and floating-point registers, which should work regardless of the type of the value.

Harbormaster failed remote builds in B59454: Diff 269153!Jun 8 2020, 5:58 AM

Hey Oliver, thanks for looking at this.

Since this patch adds loads, stores, moves and the calling convention, couldn't those be tested here, without waiting for intrinsics?

Sure, I could add a couple of tests in this revision.

What do you think is wrong about those patterns? The VLDRH/VSTRH instructions load/store a 16-bit value between memory and floating-point registers, which should work regardless of the type of the value.

I had the impression that because of the different format between fp16 and bfloat, it would be wrong to use those instructions on bfloat. Maybe I misunderstood. By the way, the Architecture reference says that the instructions are undefined if the fp16 extension is not supported.

momchil.velikov resigned from this revision.Jun 8 2020, 7:15 AM

miyuki added a child revision: D81411: [ARM][BFloat] Lowering of create/get/set/dup intrinsics.Jun 8 2020, 10:08 AM

Hmm. That sounds like a pain.

Can you split out the (f16 HPR:$Sm) into a separate patch and commit the independantly? That would simplify this up quite a bit.

labrinea added a parent revision: D75169: [ARM] Supporting lowering of half-precision FP arguments and returns in AArch32's backend.Jun 9 2020, 6:11 AM

labrinea added a parent revision: D81505: [ARM][NFC] Explicitly specify the fp16 value type in codegen patterns..Jun 11 2020, 10:08 AM

Separated the fp16-specific codegen patterns in https://reviews.llvm.org/D81505.
Removed the bfloat type handling from isHomogeneousAggregate since it is not considered as one according to the AAPCS reference.
Rebased on top of https://reviews.llvm.org/D75169.
Added some very basic tests.

labrinea added inline comments.Jun 11 2020, 10:36 AM

llvm/lib/Target/ARM/ARMISelLowering.cpp
2093	Actually, these assertions can go wrong if you are lowering one of the two value types with both the Architecture extensions enabled.

Harbormaster failed remote builds in B60000: Diff 270178!Jun 11 2020, 11:33 AM

dmgreen added inline comments.Jun 12 2020, 11:15 AM

llvm/lib/Target/ARM/ARMISelLowering.cpp
5935	According to D81411, you can have bf16 without having fp16. And so you don't have any of the instructions like VMOV.f16 (which a VMOVrh will turn into). Same goes for the vldr.16 int he test below. Because +fp16 isn't specified, we might have to awkwardly use some other set of instructions. It will be more efficient to use vmov.16 and vldr.16 if they are available, but if they are not we might have to fall back to something else. Or we say that combination isn't supported, but it seems that fp16 is still optional and bf16 is mandatory in 8.6.

stuij added a parent revision: D81837: [ARM][bfloat] Removing lowering of bfloat arguments and returns from Clang's CodeGen.Jun 15 2020, 4:15 AM

labrinea marked an inline comment as done.Jun 17 2020, 10:35 AM

labrinea added inline comments.

llvm/lib/Target/ARM/ARMISelLowering.cpp
5935	Good point. I am going to alter these checks to only guard fullfp16 for now. As the title suggests this is basic support, so I think it's fair to only support the bf16+fullfp16 combination in this revision. I will make sure it is explicitly stated in the commit message.

Changes from last revision:

the code generation relies on fullfp16 being present,
the unit test also checks the codegen for soft float abi

dmgreen added inline comments.Jun 17 2020, 11:57 AM

llvm/lib/Target/ARM/ARMISelLowering.cpp
731	We only add the FP16 regclass if we have HasFullFP16. Not if we just have the vcvt instructions (HasFP16). I agree it is probably good to make bf16 a legal type if we can, but a lot of operations will not be supported. As far as I understand they are not expected to work, and there will be nothing that can promote them at the moment? I'm not sure how the AArch64 backend handled it, but do we need something like setAllExpand(..)? Honestly I would expect it to still break if you tried to add two bfloats in IR, but it might be more future-proof.
5115	This controls some things like setcc lowering. I wouldn't expect them to be relevant for bfloat if it is essentially just a storage type.
5935	Sounds fair. I would expect this to be the most common combination, so is good to tackle first.
llvm/lib/Target/ARM/ARMInstrVFP.td
166	I think these patterns should still have `let Predicates = [HasFPRegs16] in` around them, like we do for all the NEON or MVE patterns.
llvm/test/CodeGen/ARM/bfloat.ll
10	These CHECK lines are left over.

Harbormaster failed remote builds in B60667: Diff 271413!Jun 17 2020, 12:24 PM

labrinea marked 4 inline comments as done.Jun 18 2020, 1:43 AM

labrinea added inline comments.

llvm/lib/Target/ARM/ARMISelLowering.cpp
731	Maybe for now it'd be better to add the bfloat type if both fullfp16 and bf16 are present. Makes sense?
5115	fair enough, I'll remove it
llvm/lib/Target/ARM/ARMInstrVFP.td
166	I'll create a predicated pattern
llvm/test/CodeGen/ARM/bfloat.ll
10	Oops, didn't notice. I'll remove them.

dmgreen added inline comments.Jun 18 2020, 7:02 AM

llvm/lib/Target/ARM/ARMISelLowering.cpp
731	We will need to fix bfloat + nofullfp16 anyway, and so I'm not sure it will make a lot of difference in the short term to make this fullfp16. My point is that there will be a lot of operations - like adding two bfloats, or extracting from a bfloat vector or concating two bfloat vectors. In the long run we are going to make sure all those things work and don't crash during legalization. At the moment I expect a lot of them to break. For this patch it is probably OK to ignore that for the moment. But it should be something we look at eventually.

Addressed last round's review comments.

Harbormaster failed remote builds in B60826: Diff 271708!Jun 18 2020, 7:35 AM

Rebased

Thanks. LGTM. We need to follow up on getting this working without fullfp16, but I think it's good to get this combo going first.

This revision is now accepted and ready to land.Jun 18 2020, 7:45 AM

stuij added a subscriber: stuij.Jun 18 2020, 7:56 AM

stuij added inline comments.

llvm/lib/Target/ARM/ARMISelLowering.cpp
731	Yes, we are not supporting the full range yet, either on AArch32 or AArch64. Adding more support is a todo. We do have follow-up patches on phab that add support for extraction/insertion, concatenation, and a number of others. One nice thing is that since all the bfloat operations go through intrinsics (when using C/C++), the surface area of possible operations is greatly reduced and known. Currently on AArch64, the IR generated from those intrinsics is the input for testing the SelDag lowering (like we do for half as well).

Harbormaster failed remote builds in B60829: Diff 271717!Jun 18 2020, 8:08 AM

dmgreen added inline comments.Jun 18 2020, 8:16 AM

llvm/lib/Target/ARM/ARMISelLowering.cpp
731	Yeah OK. I would worry about the optimizer producing weird and wonderful variants on the input, so you may find a few more are needed. But hopefully most of that will be covered with what we have.

stuij added inline comments.Jun 18 2020, 8:43 AM

llvm/lib/Target/ARM/ARMISelLowering.cpp
731	Yea, I do worry too :)

Closed by commit rGecdf48f15bd2: [ARM] Basic bfloat support (authored by labrinea). · Explain WhyJun 18 2020, 9:46 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

lib/

Target/

ARM/

3 lines

46 lines

60 lines

3 lines

58 lines

23 lines

10 lines

1 line

test/

CodeGen/

ARM/

bfloat.ll

106 lines

Diff 271754

llvm/lib/Target/ARM/ARMCallingConv.cpp

Show First 20 Lines • Show All 203 Lines • ▼ Show 20 Lines	case MVT::i32: {
// we go on stack or in regs, no-one will be using them in future.		// we go on stack or in regs, no-one will be using them in future.
unsigned RegAlign = alignTo(Alignment.value(), 4) / 4;		unsigned RegAlign = alignTo(Alignment.value(), 4) / 4;
while (RegIdx % RegAlign != 0 && RegIdx < RegList.size())		while (RegIdx % RegAlign != 0 && RegIdx < RegList.size())
State.AllocateReg(RegList[RegIdx++]);		State.AllocateReg(RegList[RegIdx++]);

break;		break;
}		}
case MVT::f16:		case MVT::f16:
		case MVT::bf16:
case MVT::f32:		case MVT::f32:
RegList = SRegList;		RegList = SRegList;
break;		break;
case MVT::v4f16:		case MVT::v4f16:
		case MVT::v4bf16:
case MVT::f64:		case MVT::f64:
RegList = DRegList;		RegList = DRegList;
break;		break;
case MVT::v8f16:		case MVT::v8f16:
		case MVT::v8bf16:
case MVT::v2f64:		case MVT::v2f64:
RegList = QRegList;		RegList = QRegList;
break;		break;
default:		default:
llvm_unreachable("Unexpected member type for block aggregate");		llvm_unreachable("Unexpected member type for block aggregate");
break;		break;
}		}

▲ Show 20 Lines • Show All 83 Lines • Show Last 20 Lines

llvm/lib/Target/ARM/ARMCallingConv.td

Show All 24 Lines	def CC_ARM_APCS : CallingConv<[

// Pass SwiftSelf in a callee saved register.		// Pass SwiftSelf in a callee saved register.
CCIfSwiftSelf<CCIfType<[i32], CCAssignToReg<[R10]>>>,		CCIfSwiftSelf<CCIfType<[i32], CCAssignToReg<[R10]>>>,

// A SwiftError is passed in R8.		// A SwiftError is passed in R8.
CCIfSwiftError<CCIfType<[i32], CCAssignToReg<[R8]>>>,		CCIfSwiftError<CCIfType<[i32], CCAssignToReg<[R8]>>>,

// Handle all vector types as either f64 or v2f64.		// Handle all vector types as either f64 or v2f64.
CCIfType<[v1i64, v2i32, v4i16, v4f16, v8i8, v2f32], CCBitConvertToType<f64>>,		CCIfType<[v1i64, v2i32, v4i16, v4f16, v4bf16, v8i8, v2f32], CCBitConvertToType<f64>>,
CCIfType<[v2i64, v4i32, v8i16, v8f16, v16i8, v4f32], CCBitConvertToType<v2f64>>,		CCIfType<[v2i64, v4i32, v8i16, v8f16, v8bf16, v16i8, v4f32], CCBitConvertToType<v2f64>>,

// f64 and v2f64 are passed in adjacent GPRs, possibly split onto the stack		// f64 and v2f64 are passed in adjacent GPRs, possibly split onto the stack
CCIfType<[f64, v2f64], CCCustom<"CC_ARM_APCS_Custom_f64">>,		CCIfType<[f64, v2f64], CCCustom<"CC_ARM_APCS_Custom_f64">>,

CCIfType<[f32], CCBitConvertToType<i32>>,		CCIfType<[f32], CCBitConvertToType<i32>>,
CCIfType<[i32], CCAssignToReg<[R0, R1, R2, R3]>>,		CCIfType<[i32], CCAssignToReg<[R0, R1, R2, R3]>>,

CCIfType<[i32], CCAssignToStack<4, 4>>,		CCIfType<[i32], CCAssignToStack<4, 4>>,
CCIfType<[f64], CCAssignToStack<8, 4>>,		CCIfType<[f64], CCAssignToStack<8, 4>>,
CCIfType<[v2f64], CCAssignToStack<16, 4>>		CCIfType<[v2f64], CCAssignToStack<16, 4>>
]>;		]>;

let Entry = 1 in		let Entry = 1 in
def RetCC_ARM_APCS : CallingConv<[		def RetCC_ARM_APCS : CallingConv<[
CCIfType<[i1, i8, i16], CCPromoteToType<i32>>,		CCIfType<[i1, i8, i16], CCPromoteToType<i32>>,
CCIfType<[f32], CCBitConvertToType<i32>>,		CCIfType<[f32], CCBitConvertToType<i32>>,

// Pass SwiftSelf in a callee saved register.		// Pass SwiftSelf in a callee saved register.
CCIfSwiftSelf<CCIfType<[i32], CCAssignToReg<[R10]>>>,		CCIfSwiftSelf<CCIfType<[i32], CCAssignToReg<[R10]>>>,

// A SwiftError is returned in R8.		// A SwiftError is returned in R8.
CCIfSwiftError<CCIfType<[i32], CCAssignToReg<[R8]>>>,		CCIfSwiftError<CCIfType<[i32], CCAssignToReg<[R8]>>>,

// Handle all vector types as either f64 or v2f64.		// Handle all vector types as either f64 or v2f64.
CCIfType<[v1i64, v2i32, v4i16, v4f16, v8i8, v2f32], CCBitConvertToType<f64>>,		CCIfType<[v1i64, v2i32, v4i16, v4f16, v4bf16, v8i8, v2f32], CCBitConvertToType<f64>>,
CCIfType<[v2i64, v4i32, v8i16, v8f16, v16i8, v4f32], CCBitConvertToType<v2f64>>,		CCIfType<[v2i64, v4i32, v8i16, v8f16, v8bf16, v16i8, v4f32], CCBitConvertToType<v2f64>>,

CCIfType<[f64, v2f64], CCCustom<"RetCC_ARM_APCS_Custom_f64">>,		CCIfType<[f64, v2f64], CCCustom<"RetCC_ARM_APCS_Custom_f64">>,

CCIfType<[i32], CCAssignToReg<[R0, R1, R2, R3]>>,		CCIfType<[i32], CCAssignToReg<[R0, R1, R2, R3]>>,
CCIfType<[i64], CCAssignToRegWithShadow<[R0, R2], [R1, R3]>>		CCIfType<[i64], CCAssignToRegWithShadow<[R0, R2], [R1, R3]>>
]>;		]>;

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// ARM APCS Calling Convention for FastCC (when VFP2 or later is available)		// ARM APCS Calling Convention for FastCC (when VFP2 or later is available)
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
let Entry = 1 in		let Entry = 1 in
def FastCC_ARM_APCS : CallingConv<[		def FastCC_ARM_APCS : CallingConv<[
// Handle all vector types as either f64 or v2f64.		// Handle all vector types as either f64 or v2f64.
CCIfType<[v1i64, v2i32, v4i16, v4f16, v8i8, v2f32], CCBitConvertToType<f64>>,		CCIfType<[v1i64, v2i32, v4i16, v4f16, v4bf16, v8i8, v2f32], CCBitConvertToType<f64>>,
CCIfType<[v2i64, v4i32, v8i16, v8f16, v16i8, v4f32], CCBitConvertToType<v2f64>>,		CCIfType<[v2i64, v4i32, v8i16, v8f16, v8bf16, v16i8, v4f32], CCBitConvertToType<v2f64>>,

CCIfType<[v2f64], CCAssignToReg<[Q0, Q1, Q2, Q3]>>,		CCIfType<[v2f64], CCAssignToReg<[Q0, Q1, Q2, Q3]>>,
CCIfType<[f64], CCAssignToReg<[D0, D1, D2, D3, D4, D5, D6, D7]>>,		CCIfType<[f64], CCAssignToReg<[D0, D1, D2, D3, D4, D5, D6, D7]>>,
CCIfType<[f32], CCAssignToReg<[S0, S1, S2, S3, S4, S5, S6, S7, S8,		CCIfType<[f32], CCAssignToReg<[S0, S1, S2, S3, S4, S5, S6, S7, S8,
S9, S10, S11, S12, S13, S14, S15]>>,		S9, S10, S11, S12, S13, S14, S15]>>,

// CPRCs may be allocated to co-processor registers or the stack - they		// CPRCs may be allocated to co-processor registers or the stack - they
// may never be allocated to core registers.		// may never be allocated to core registers.
CCIfType<[f32], CCAssignToStackWithShadow<4, 4, [Q0, Q1, Q2, Q3]>>,		CCIfType<[f32], CCAssignToStackWithShadow<4, 4, [Q0, Q1, Q2, Q3]>>,
CCIfType<[f64], CCAssignToStackWithShadow<8, 4, [Q0, Q1, Q2, Q3]>>,		CCIfType<[f64], CCAssignToStackWithShadow<8, 4, [Q0, Q1, Q2, Q3]>>,
CCIfType<[v2f64], CCAssignToStackWithShadow<16, 4, [Q0, Q1, Q2, Q3]>>,		CCIfType<[v2f64], CCAssignToStackWithShadow<16, 4, [Q0, Q1, Q2, Q3]>>,

CCDelegateTo<CC_ARM_APCS>		CCDelegateTo<CC_ARM_APCS>
]>;		]>;

let Entry = 1 in		let Entry = 1 in
def RetFastCC_ARM_APCS : CallingConv<[		def RetFastCC_ARM_APCS : CallingConv<[
// Handle all vector types as either f64 or v2f64.		// Handle all vector types as either f64 or v2f64.
CCIfType<[v1i64, v2i32, v4i16, v4f16, v8i8, v2f32], CCBitConvertToType<f64>>,		CCIfType<[v1i64, v2i32, v4i16, v4f16, v4bf16, v8i8, v2f32], CCBitConvertToType<f64>>,
CCIfType<[v2i64, v4i32, v8i16, v8f16, v16i8, v4f32], CCBitConvertToType<v2f64>>,		CCIfType<[v2i64, v4i32, v8i16, v8f16, v8bf16, v16i8, v4f32], CCBitConvertToType<v2f64>>,

CCIfType<[v2f64], CCAssignToReg<[Q0, Q1, Q2, Q3]>>,		CCIfType<[v2f64], CCAssignToReg<[Q0, Q1, Q2, Q3]>>,
CCIfType<[f64], CCAssignToReg<[D0, D1, D2, D3, D4, D5, D6, D7]>>,		CCIfType<[f64], CCAssignToReg<[D0, D1, D2, D3, D4, D5, D6, D7]>>,
CCIfType<[f32], CCAssignToReg<[S0, S1, S2, S3, S4, S5, S6, S7, S8,		CCIfType<[f32], CCAssignToReg<[S0, S1, S2, S3, S4, S5, S6, S7, S8,
S9, S10, S11, S12, S13, S14, S15]>>,		S9, S10, S11, S12, S13, S14, S15]>>,
CCDelegateTo<RetCC_ARM_APCS>		CCDelegateTo<RetCC_ARM_APCS>
]>;		]>;

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// ARM APCS Calling Convention for GHC		// ARM APCS Calling Convention for GHC
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

let Entry = 1 in		let Entry = 1 in
def CC_ARM_APCS_GHC : CallingConv<[		def CC_ARM_APCS_GHC : CallingConv<[
// Handle all vector types as either f64 or v2f64.		// Handle all vector types as either f64 or v2f64.
CCIfType<[v1i64, v2i32, v4i16, v4f16, v8i8, v2f32], CCBitConvertToType<f64>>,		CCIfType<[v1i64, v2i32, v4i16, v4f16, v4bf16, v8i8, v2f32], CCBitConvertToType<f64>>,
CCIfType<[v2i64, v4i32, v8i16, v8f16, v16i8, v4f32], CCBitConvertToType<v2f64>>,		CCIfType<[v2i64, v4i32, v8i16, v8f16, v8bf16, v16i8, v4f32], CCBitConvertToType<v2f64>>,

CCIfType<[v2f64], CCAssignToReg<[Q4, Q5]>>,		CCIfType<[v2f64], CCAssignToReg<[Q4, Q5]>>,
CCIfType<[f64], CCAssignToReg<[D8, D9, D10, D11]>>,		CCIfType<[f64], CCAssignToReg<[D8, D9, D10, D11]>>,
CCIfType<[f32], CCAssignToReg<[S16, S17, S18, S19, S20, S21, S22, S23]>>,		CCIfType<[f32], CCAssignToReg<[S16, S17, S18, S19, S20, S21, S22, S23]>>,

// Promote i8/i16 arguments to i32.		// Promote i8/i16 arguments to i32.
CCIfType<[i8, i16], CCPromoteToType<i32>>,		CCIfType<[i8, i16], CCPromoteToType<i32>>,

Show All 13 Lines	def CC_ARM_AAPCS_Common : CallingConv<[
// i64 is 8-aligned i32 here, so we may need to eat R1 as a pad register		// i64 is 8-aligned i32 here, so we may need to eat R1 as a pad register
// (and the same is true for f64 if VFP is not enabled)		// (and the same is true for f64 if VFP is not enabled)
CCIfType<[i32], CCIfAlign<"8", CCAssignToRegWithShadow<[R0, R2], [R0, R1]>>>,		CCIfType<[i32], CCIfAlign<"8", CCAssignToRegWithShadow<[R0, R2], [R0, R1]>>>,
CCIfType<[i32], CCIf<"ArgFlags.getOrigAlign() != 8",		CCIfType<[i32], CCIf<"ArgFlags.getOrigAlign() != 8",
CCAssignToReg<[R0, R1, R2, R3]>>>,		CCAssignToReg<[R0, R1, R2, R3]>>>,

CCIfType<[i32], CCIfAlign<"8", CCAssignToStackWithShadow<4, 8, [R0, R1, R2, R3]>>>,		CCIfType<[i32], CCIfAlign<"8", CCAssignToStackWithShadow<4, 8, [R0, R1, R2, R3]>>>,
CCIfType<[i32], CCAssignToStackWithShadow<4, 4, [R0, R1, R2, R3]>>,		CCIfType<[i32], CCAssignToStackWithShadow<4, 4, [R0, R1, R2, R3]>>,
CCIfType<[f16, f32], CCAssignToStackWithShadow<4, 4, [Q0, Q1, Q2, Q3]>>,		CCIfType<[f16, bf16, f32], CCAssignToStackWithShadow<4, 4, [Q0, Q1, Q2, Q3]>>,
CCIfType<[f64], CCAssignToStackWithShadow<8, 8, [Q0, Q1, Q2, Q3]>>,		CCIfType<[f64], CCAssignToStackWithShadow<8, 8, [Q0, Q1, Q2, Q3]>>,
CCIfType<[v2f64], CCIfAlign<"16",		CCIfType<[v2f64], CCIfAlign<"16",
CCAssignToStackWithShadow<16, 16, [Q0, Q1, Q2, Q3]>>>,		CCAssignToStackWithShadow<16, 16, [Q0, Q1, Q2, Q3]>>>,
CCIfType<[v2f64], CCAssignToStackWithShadow<16, 8, [Q0, Q1, Q2, Q3]>>		CCIfType<[v2f64], CCAssignToStackWithShadow<16, 8, [Q0, Q1, Q2, Q3]>>
]>;		]>;

def RetCC_ARM_AAPCS_Common : CallingConv<[		def RetCC_ARM_AAPCS_Common : CallingConv<[
CCIfType<[i1, i8, i16], CCPromoteToType<i32>>,		CCIfType<[i1, i8, i16], CCPromoteToType<i32>>,
Show All 9 Lines
def CC_ARM_AAPCS : CallingConv<[		def CC_ARM_AAPCS : CallingConv<[
// Handles byval parameters.		// Handles byval parameters.
CCIfByVal<CCPassByVal<4, 4>>,		CCIfByVal<CCPassByVal<4, 4>>,

// The 'nest' parameter, if any, is passed in R12.		// The 'nest' parameter, if any, is passed in R12.
CCIfNest<CCAssignToReg<[R12]>>,		CCIfNest<CCAssignToReg<[R12]>>,

// Handle all vector types as either f64 or v2f64.		// Handle all vector types as either f64 or v2f64.
CCIfType<[v1i64, v2i32, v4i16, v4f16, v8i8, v2f32], CCBitConvertToType<f64>>,		CCIfType<[v1i64, v2i32, v4i16, v4f16, v4bf16, v8i8, v2f32], CCBitConvertToType<f64>>,
CCIfType<[v2i64, v4i32, v8i16, v8f16, v16i8, v4f32], CCBitConvertToType<v2f64>>,		CCIfType<[v2i64, v4i32, v8i16, v8f16, v8bf16, v16i8, v4f32], CCBitConvertToType<v2f64>>,

// Pass SwiftSelf in a callee saved register.		// Pass SwiftSelf in a callee saved register.
CCIfSwiftSelf<CCIfType<[i32], CCAssignToReg<[R10]>>>,		CCIfSwiftSelf<CCIfType<[i32], CCAssignToReg<[R10]>>>,

// A SwiftError is passed in R8.		// A SwiftError is passed in R8.
CCIfSwiftError<CCIfType<[i32], CCAssignToReg<[R8]>>>,		CCIfSwiftError<CCIfType<[i32], CCAssignToReg<[R8]>>>,

CCIfType<[f64, v2f64], CCCustom<"CC_ARM_AAPCS_Custom_f64">>,		CCIfType<[f64, v2f64], CCCustom<"CC_ARM_AAPCS_Custom_f64">>,
CCIfType<[f32], CCBitConvertToType<i32>>,		CCIfType<[f32], CCBitConvertToType<i32>>,
CCIfType<[f16], CCCustom<"CC_ARM_AAPCS_Custom_f16">>,		CCIfType<[f16, bf16], CCCustom<"CC_ARM_AAPCS_Custom_f16">>,
CCDelegateTo<CC_ARM_AAPCS_Common>		CCDelegateTo<CC_ARM_AAPCS_Common>
]>;		]>;

let Entry = 1 in		let Entry = 1 in
def RetCC_ARM_AAPCS : CallingConv<[		def RetCC_ARM_AAPCS : CallingConv<[
// Handle all vector types as either f64 or v2f64.		// Handle all vector types as either f64 or v2f64.
CCIfType<[v1i64, v2i32, v4i16, v4f16, v8i8, v2f32], CCBitConvertToType<f64>>,		CCIfType<[v1i64, v2i32, v4i16, v4f16, v4bf16, v8i8, v2f32], CCBitConvertToType<f64>>,
CCIfType<[v2i64, v4i32, v8i16, v8f16, v16i8, v4f32], CCBitConvertToType<v2f64>>,		CCIfType<[v2i64, v4i32, v8i16, v8f16, v8bf16, v16i8, v4f32], CCBitConvertToType<v2f64>>,

// Pass SwiftSelf in a callee saved register.		// Pass SwiftSelf in a callee saved register.
CCIfSwiftSelf<CCIfType<[i32], CCAssignToReg<[R10]>>>,		CCIfSwiftSelf<CCIfType<[i32], CCAssignToReg<[R10]>>>,

// A SwiftError is returned in R8.		// A SwiftError is returned in R8.
CCIfSwiftError<CCIfType<[i32], CCAssignToReg<[R8]>>>,		CCIfSwiftError<CCIfType<[i32], CCAssignToReg<[R8]>>>,

CCIfType<[f64, v2f64], CCCustom<"RetCC_ARM_AAPCS_Custom_f64">>,		CCIfType<[f64, v2f64], CCCustom<"RetCC_ARM_AAPCS_Custom_f64">>,
CCIfType<[f32], CCBitConvertToType<i32>>,		CCIfType<[f32], CCBitConvertToType<i32>>,
CCIfType<[f16], CCCustom<"CC_ARM_AAPCS_Custom_f16">>,		CCIfType<[f16, bf16], CCCustom<"CC_ARM_AAPCS_Custom_f16">>,

CCDelegateTo<RetCC_ARM_AAPCS_Common>		CCDelegateTo<RetCC_ARM_AAPCS_Common>
]>;		]>;

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// ARM AAPCS-VFP (EABI) Calling Convention		// ARM AAPCS-VFP (EABI) Calling Convention
// Also used for FastCC (when VFP2 or later is available)		// Also used for FastCC (when VFP2 or later is available)
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

let Entry = 1 in		let Entry = 1 in
def CC_ARM_AAPCS_VFP : CallingConv<[		def CC_ARM_AAPCS_VFP : CallingConv<[
// Handles byval parameters.		// Handles byval parameters.
CCIfByVal<CCPassByVal<4, 4>>,		CCIfByVal<CCPassByVal<4, 4>>,

// Handle all vector types as either f64 or v2f64.		// Handle all vector types as either f64 or v2f64.
CCIfType<[v1i64, v2i32, v4i16, v4f16, v8i8, v2f32], CCBitConvertToType<f64>>,		CCIfType<[v1i64, v2i32, v4i16, v4f16, v4bf16, v8i8, v2f32], CCBitConvertToType<f64>>,
CCIfType<[v2i64, v4i32, v8i16, v8f16, v16i8, v4f32], CCBitConvertToType<v2f64>>,		CCIfType<[v2i64, v4i32, v8i16, v8f16, v8bf16, v16i8, v4f32], CCBitConvertToType<v2f64>>,

// Pass SwiftSelf in a callee saved register.		// Pass SwiftSelf in a callee saved register.
CCIfSwiftSelf<CCIfType<[i32], CCAssignToReg<[R10]>>>,		CCIfSwiftSelf<CCIfType<[i32], CCAssignToReg<[R10]>>>,

// A SwiftError is passed in R8.		// A SwiftError is passed in R8.
CCIfSwiftError<CCIfType<[i32], CCAssignToReg<[R8]>>>,		CCIfSwiftError<CCIfType<[i32], CCAssignToReg<[R8]>>>,

// HFAs are passed in a contiguous block of registers, or on the stack		// HFAs are passed in a contiguous block of registers, or on the stack
CCIfConsecutiveRegs<CCCustom<"CC_ARM_AAPCS_Custom_Aggregate">>,		CCIfConsecutiveRegs<CCCustom<"CC_ARM_AAPCS_Custom_Aggregate">>,

CCIfType<[v2f64], CCAssignToReg<[Q0, Q1, Q2, Q3]>>,		CCIfType<[v2f64], CCAssignToReg<[Q0, Q1, Q2, Q3]>>,
CCIfType<[f64], CCAssignToReg<[D0, D1, D2, D3, D4, D5, D6, D7]>>,		CCIfType<[f64], CCAssignToReg<[D0, D1, D2, D3, D4, D5, D6, D7]>>,
CCIfType<[f32], CCAssignToReg<[S0, S1, S2, S3, S4, S5, S6, S7, S8,		CCIfType<[f32], CCAssignToReg<[S0, S1, S2, S3, S4, S5, S6, S7, S8,
S9, S10, S11, S12, S13, S14, S15]>>,		S9, S10, S11, S12, S13, S14, S15]>>,
CCIfType<[f16], CCCustom<"CC_ARM_AAPCS_VFP_Custom_f16">>,		CCIfType<[f16, bf16], CCCustom<"CC_ARM_AAPCS_VFP_Custom_f16">>,
CCDelegateTo<CC_ARM_AAPCS_Common>		CCDelegateTo<CC_ARM_AAPCS_Common>
]>;		]>;

let Entry = 1 in		let Entry = 1 in
def RetCC_ARM_AAPCS_VFP : CallingConv<[		def RetCC_ARM_AAPCS_VFP : CallingConv<[
// Handle all vector types as either f64 or v2f64.		// Handle all vector types as either f64 or v2f64.
CCIfType<[v1i64, v2i32, v4i16, v4f16, v8i8, v2f32], CCBitConvertToType<f64>>,		CCIfType<[v1i64, v2i32, v4i16, v4f16, v4bf16, v8i8, v2f32], CCBitConvertToType<f64>>,
CCIfType<[v2i64, v4i32, v8i16, v8f16, v16i8, v4f32], CCBitConvertToType<v2f64>>,		CCIfType<[v2i64, v4i32, v8i16, v8f16, v8bf16, v16i8, v4f32], CCBitConvertToType<v2f64>>,

// Pass SwiftSelf in a callee saved register.		// Pass SwiftSelf in a callee saved register.
CCIfSwiftSelf<CCIfType<[i32], CCAssignToReg<[R10]>>>,		CCIfSwiftSelf<CCIfType<[i32], CCAssignToReg<[R10]>>>,

// A SwiftError is returned in R8.		// A SwiftError is returned in R8.
CCIfSwiftError<CCIfType<[i32], CCAssignToReg<[R8]>>>,		CCIfSwiftError<CCIfType<[i32], CCAssignToReg<[R8]>>>,

CCIfType<[v2f64], CCAssignToReg<[Q0, Q1, Q2, Q3]>>,		CCIfType<[v2f64], CCAssignToReg<[Q0, Q1, Q2, Q3]>>,
CCIfType<[f64], CCAssignToReg<[D0, D1, D2, D3, D4, D5, D6, D7]>>,		CCIfType<[f64], CCAssignToReg<[D0, D1, D2, D3, D4, D5, D6, D7]>>,
CCIfType<[f32], CCAssignToReg<[S0, S1, S2, S3, S4, S5, S6, S7, S8,		CCIfType<[f32], CCAssignToReg<[S0, S1, S2, S3, S4, S5, S6, S7, S8,
S9, S10, S11, S12, S13, S14, S15]>>,		S9, S10, S11, S12, S13, S14, S15]>>,
CCIfType<[f16], CCCustom<"CC_ARM_AAPCS_VFP_Custom_f16">>,		CCIfType<[f16, bf16], CCCustom<"CC_ARM_AAPCS_VFP_Custom_f16">>,
CCDelegateTo<RetCC_ARM_AAPCS_Common>		CCDelegateTo<RetCC_ARM_AAPCS_Common>
]>;		]>;


// Windows Control Flow Guard checks take a single argument (the target function		// Windows Control Flow Guard checks take a single argument (the target function
// address) and have no return value.		// address) and have no return value.
let Entry = 1 in		let Entry = 1 in
def CC_ARM_Win32_CFGuard_Check : CallingConv<[		def CC_ARM_Win32_CFGuard_Check : CallingConv<[
▲ Show 20 Lines • Show All 88 Lines • Show Last 20 Lines

llvm/lib/Target/ARM/ARMISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 715 Lines • ▼ Show 20 Lines	ARMTargetLowering::ARMTargetLowering(const TargetMachine &TM,

if (Subtarget->hasFullFP16()) {		if (Subtarget->hasFullFP16()) {
addRegisterClass(MVT::f16, &ARM::HPRRegClass);		addRegisterClass(MVT::f16, &ARM::HPRRegClass);
setOperationAction(ISD::BITCAST, MVT::i16, Custom);		setOperationAction(ISD::BITCAST, MVT::i16, Custom);
setOperationAction(ISD::BITCAST, MVT::f16, Custom);		setOperationAction(ISD::BITCAST, MVT::f16, Custom);

setOperationAction(ISD::FMINNUM, MVT::f16, Legal);		setOperationAction(ISD::FMINNUM, MVT::f16, Legal);
setOperationAction(ISD::FMAXNUM, MVT::f16, Legal);		setOperationAction(ISD::FMAXNUM, MVT::f16, Legal);

		// For the time being bfloat is only supported when fullfp16 is present.
		if (Subtarget->hasBF16())
		addRegisterClass(MVT::bf16, &ARM::HPRRegClass);
}		}

for (MVT VT : MVT::fixedlen_vector_valuetypes()) {		for (MVT VT : MVT::fixedlen_vector_valuetypes()) {
for (MVT InnerVT : MVT::fixedlen_vector_valuetypes()) {		for (MVT InnerVT : MVT::fixedlen_vector_valuetypes()) {
		dmgreenUnsubmitted Not Done Reply Inline Actions We only add the FP16 regclass if we have HasFullFP16. Not if we just have the vcvt instructions (HasFP16). I agree it is probably good to make bf16 a legal type if we can, but a lot of operations will not be supported. As far as I understand they are not expected to work, and there will be nothing that can promote them at the moment? I'm not sure how the AArch64 backend handled it, but do we need something like setAllExpand(..)? Honestly I would expect it to still break if you tried to add two bfloats in IR, but it might be more future-proof. dmgreen: We only add the FP16 regclass if we have HasFullFP16. Not if we just have the vcvt instructions…
		labrineaAuthorUnsubmitted Done Reply Inline Actions Maybe for now it'd be better to add the bfloat type if both fullfp16 and bf16 are present. Makes sense? labrinea: Maybe for now it'd be better to add the bfloat type if both fullfp16 and bf16 are present.
		dmgreenUnsubmitted Not Done Reply Inline Actions We will need to fix bfloat + nofullfp16 anyway, and so I'm not sure it will make a lot of difference in the short term to make this fullfp16. My point is that there will be a lot of operations - like adding two bfloats, or extracting from a bfloat vector or concating two bfloat vectors. In the long run we are going to make sure all those things work and don't crash during legalization. At the moment I expect a lot of them to break. For this patch it is probably OK to ignore that for the moment. But it should be something we look at eventually. dmgreen: We will need to fix bfloat + nofullfp16 anyway, and so I'm not sure it will make a lot of…
		stuijUnsubmitted Not Done Reply Inline Actions Yes, we are not supporting the full range yet, either on AArch32 or AArch64. Adding more support is a todo. We do have follow-up patches on phab that add support for extraction/insertion, concatenation, and a number of others. One nice thing is that since all the bfloat operations go through intrinsics (when using C/C++), the surface area of possible operations is greatly reduced and known. Currently on AArch64, the IR generated from those intrinsics is the input for testing the SelDag lowering (like we do for half as well). stuij: Yes, we are not supporting the full range yet, either on AArch32 or AArch64. Adding more…
		dmgreenUnsubmitted Not Done Reply Inline Actions Yeah OK. I would worry about the optimizer producing weird and wonderful variants on the input, so you may find a few more are needed. But hopefully most of that will be covered with what we have. dmgreen: Yeah OK. I would worry about the optimizer producing weird and wonderful variants on the input…
		stuijUnsubmitted Not Done Reply Inline Actions Yea, I do worry too :) stuij: Yea, I do worry too :)
setTruncStoreAction(VT, InnerVT, Expand);		setTruncStoreAction(VT, InnerVT, Expand);
addAllExtLoads(VT, InnerVT, Expand);		addAllExtLoads(VT, InnerVT, Expand);
}		}

setOperationAction(ISD::MULHS, VT, Expand);		setOperationAction(ISD::MULHS, VT, Expand);
setOperationAction(ISD::SMUL_LOHI, VT, Expand);		setOperationAction(ISD::SMUL_LOHI, VT, Expand);
setOperationAction(ISD::MULHU, VT, Expand);		setOperationAction(ISD::MULHU, VT, Expand);
setOperationAction(ISD::UMUL_LOHI, VT, Expand);		setOperationAction(ISD::UMUL_LOHI, VT, Expand);
Show All 29 Lines	if (Subtarget->hasNEON()) {
addQRTypeForNEON(MVT::v8i16);		addQRTypeForNEON(MVT::v8i16);
addQRTypeForNEON(MVT::v4i32);		addQRTypeForNEON(MVT::v4i32);
addQRTypeForNEON(MVT::v2i64);		addQRTypeForNEON(MVT::v2i64);

if (Subtarget->hasFullFP16()) {		if (Subtarget->hasFullFP16()) {
addQRTypeForNEON(MVT::v8f16);		addQRTypeForNEON(MVT::v8f16);
addDRTypeForNEON(MVT::v4f16);		addDRTypeForNEON(MVT::v4f16);
}		}

		if (Subtarget->hasBF16()) {
		addQRTypeForNEON(MVT::v8bf16);
		addDRTypeForNEON(MVT::v4bf16);
		}
}		}

if (Subtarget->hasMVEIntegerOps() \|\| Subtarget->hasNEON()) {		if (Subtarget->hasMVEIntegerOps() \|\| Subtarget->hasNEON()) {
// v2f64 is legal so that QR subregs can be extracted as f64 elements, but		// v2f64 is legal so that QR subregs can be extracted as f64 elements, but
// none of Neon, MVE or VFP supports any arithmetic operations on it.		// none of Neon, MVE or VFP supports any arithmetic operations on it.
setOperationAction(ISD::FADD, MVT::v2f64, Expand);		setOperationAction(ISD::FADD, MVT::v2f64, Expand);
setOperationAction(ISD::FSUB, MVT::v2f64, Expand);		setOperationAction(ISD::FSUB, MVT::v2f64, Expand);
setOperationAction(ISD::FMUL, MVT::v2f64, Expand);		setOperationAction(ISD::FMUL, MVT::v2f64, Expand);
▲ Show 20 Lines • Show All 1,291 Lines • ▼ Show 20 Lines	for (unsigned i = 0; i != RVLocs.size(); ++i) {
case CCValAssign::BCvt:		case CCValAssign::BCvt:
Val = DAG.getNode(ISD::BITCAST, dl, VA.getValVT(), Val);		Val = DAG.getNode(ISD::BITCAST, dl, VA.getValVT(), Val);
break;		break;
}		}

// f16 arguments have their size extended to 4 bytes and passed as if they		// f16 arguments have their size extended to 4 bytes and passed as if they
// had been copied to the LSBs of a 32-bit register.		// had been copied to the LSBs of a 32-bit register.
// For that, it's passed extended to i32 (soft ABI) or to f32 (hard ABI)		// For that, it's passed extended to i32 (soft ABI) or to f32 (hard ABI)
if (VA.needsCustom() && VA.getValVT() == MVT::f16) {		if (VA.needsCustom() &&
		(VA.getValVT() == MVT::f16 \|\| VA.getValVT() == MVT::bf16)) {
assert(Subtarget->hasFullFP16() &&		assert(Subtarget->hasFullFP16() &&
"Lowering f16 type return without full fp16 support");		"Lowering half precision fp return without full fp16 support");
Val = DAG.getNode(ISD::BITCAST, dl,		Val = DAG.getNode(ISD::BITCAST, dl,
		labrineaAuthorUnsubmitted Not Done Reply Inline Actions Actually, these assertions can go wrong if you are lowering one of the two value types with both the Architecture extensions enabled. labrinea: Actually, these assertions can go wrong if you are lowering one of the two value types with…
MVT::getIntegerVT(VA.getLocVT().getSizeInBits()), Val);		MVT::getIntegerVT(VA.getLocVT().getSizeInBits()), Val);
Val = DAG.getNode(ARMISD::VMOVhr, dl, VA.getValVT(), Val);		Val = DAG.getNode(ARMISD::VMOVhr, dl, VA.getValVT(), Val);
}		}

InVals.push_back(Val);		InVals.push_back(Val);
}		}

return Chain;		return Chain;
▲ Show 20 Lines • Show All 159 Lines • ▼ Show 20 Lines	for (unsigned i = 0, realArgIdx = 0, e = ArgLocs.size();
case CCValAssign::BCvt:		case CCValAssign::BCvt:
Arg = DAG.getNode(ISD::BITCAST, dl, VA.getLocVT(), Arg);		Arg = DAG.getNode(ISD::BITCAST, dl, VA.getLocVT(), Arg);
break;		break;
}		}

// f16 arguments have their size extended to 4 bytes and passed as if they		// f16 arguments have their size extended to 4 bytes and passed as if they
// had been copied to the LSBs of a 32-bit register.		// had been copied to the LSBs of a 32-bit register.
// For that, it's passed extended to i32 (soft ABI) or to f32 (hard ABI)		// For that, it's passed extended to i32 (soft ABI) or to f32 (hard ABI)
if (VA.needsCustom() && VA.getValVT() == MVT::f16) {		if (VA.needsCustom() &&
		(VA.getValVT() == MVT::f16 \|\| VA.getValVT() == MVT::bf16)) {
assert(Subtarget->hasFullFP16() &&		assert(Subtarget->hasFullFP16() &&
"Lowering f16 type argument without full fp16 support");		"Lowering half precision fp argument without full fp16 support");
Arg = DAG.getNode(ARMISD::VMOVrh, dl,		Arg = DAG.getNode(ARMISD::VMOVrh, dl,
MVT::getIntegerVT(VA.getLocVT().getSizeInBits()), Arg);		MVT::getIntegerVT(VA.getLocVT().getSizeInBits()), Arg);
Arg = DAG.getNode(ISD::BITCAST, dl, VA.getLocVT(), Arg);		Arg = DAG.getNode(ISD::BITCAST, dl, VA.getLocVT(), Arg);
} else {		} else {
// f16 arguments could have been extended prior to argument lowering.		// f16 arguments could have been extended prior to argument lowering.
// Mask them arguments if this is a CMSE nonsecure call.		// Mask them arguments if this is a CMSE nonsecure call.
auto ArgVT = Outs[realArgIdx].ArgVT;		auto ArgVT = Outs[realArgIdx].ArgVT;
if (isCmseNSCall && (ArgVT == MVT::f16)) {		if (isCmseNSCall && (ArgVT == MVT::f16)) {
▲ Show 20 Lines • Show All 730 Lines • ▼ Show 20 Lines	if (VA.needsCustom() &&
Chain = DAG.getCopyToReg(Chain, dl, VA.getLocReg(),		Chain = DAG.getCopyToReg(Chain, dl, VA.getLocReg(),
fmrrd.getValue(isLittleEndian ? 1 : 0), Flag);		fmrrd.getValue(isLittleEndian ? 1 : 0), Flag);
} else		} else
Chain = DAG.getCopyToReg(Chain, dl, VA.getLocReg(), Arg, Flag);		Chain = DAG.getCopyToReg(Chain, dl, VA.getLocReg(), Arg, Flag);

// Guarantee that all emitted copies are		// Guarantee that all emitted copies are
// stuck together, avoiding something bad.		// stuck together, avoiding something bad.
Flag = Chain.getValue(1);		Flag = Chain.getValue(1);
RetOps.push_back(DAG.getRegister(VA.getLocReg(),		RetOps.push_back(DAG.getRegister(
ReturnF16 ? MVT::f16 : VA.getLocVT()));		VA.getLocReg(), ReturnF16 ? Arg.getValueType() : VA.getLocVT()));
}		}
const ARMBaseRegisterInfo *TRI = Subtarget->getRegisterInfo();		const ARMBaseRegisterInfo *TRI = Subtarget->getRegisterInfo();
const MCPhysReg *I =		const MCPhysReg *I =
TRI->getCalleeSavedRegsViaCopy(&DAG.getMachineFunction());		TRI->getCalleeSavedRegsViaCopy(&DAG.getMachineFunction());
if (I) {		if (I) {
for (; *I; ++I) {		for (; *I; ++I) {
if (ARM::GPRRegClass.contains(*I))		if (ARM::GPRRegClass.contains(*I))
RetOps.push_back(DAG.getRegister(*I, MVT::i32));		RetOps.push_back(DAG.getRegister(*I, MVT::i32));
▲ Show 20 Lines • Show All 1,116 Lines • ▼ Show 20 Lines	void ARMTargetLowering::VarArgStyleRegisters(CCState &CCInfo, SelectionDAG &DAG,
AFI->setVarArgsFrameIndex(FrameIndex);		AFI->setVarArgsFrameIndex(FrameIndex);
}		}

bool ARMTargetLowering::splitValueIntoRegisterParts(		bool ARMTargetLowering::splitValueIntoRegisterParts(
SelectionDAG &DAG, const SDLoc &DL, SDValue Val, SDValue *Parts,		SelectionDAG &DAG, const SDLoc &DL, SDValue Val, SDValue *Parts,
unsigned NumParts, MVT PartVT, Optional<CallingConv::ID> CC) const {		unsigned NumParts, MVT PartVT, Optional<CallingConv::ID> CC) const {
bool IsABIRegCopy = CC.hasValue();		bool IsABIRegCopy = CC.hasValue();
EVT ValueVT = Val.getValueType();		EVT ValueVT = Val.getValueType();
if (IsABIRegCopy && ValueVT == MVT::f16 && PartVT == MVT::f32) {		if (IsABIRegCopy && (ValueVT == MVT::f16 \|\| ValueVT == MVT::bf16) &&
		PartVT == MVT::f32) {
unsigned ValueBits = ValueVT.getSizeInBits();		unsigned ValueBits = ValueVT.getSizeInBits();
unsigned PartBits = PartVT.getSizeInBits();		unsigned PartBits = PartVT.getSizeInBits();
Val = DAG.getNode(ISD::BITCAST, DL, MVT::getIntegerVT(ValueBits), Val);		Val = DAG.getNode(ISD::BITCAST, DL, MVT::getIntegerVT(ValueBits), Val);
Val = DAG.getNode(ISD::ANY_EXTEND, DL, MVT::getIntegerVT(PartBits), Val);		Val = DAG.getNode(ISD::ANY_EXTEND, DL, MVT::getIntegerVT(PartBits), Val);
Val = DAG.getNode(ISD::BITCAST, DL, PartVT, Val);		Val = DAG.getNode(ISD::BITCAST, DL, PartVT, Val);
Parts[0] = Val;		Parts[0] = Val;
return true;		return true;
}		}
return false;		return false;
}		}

SDValue ARMTargetLowering::joinRegisterPartsIntoValue(		SDValue ARMTargetLowering::joinRegisterPartsIntoValue(
SelectionDAG &DAG, const SDLoc &DL, const SDValue *Parts, unsigned NumParts,		SelectionDAG &DAG, const SDLoc &DL, const SDValue *Parts, unsigned NumParts,
MVT PartVT, EVT ValueVT, Optional<CallingConv::ID> CC) const {		MVT PartVT, EVT ValueVT, Optional<CallingConv::ID> CC) const {
bool IsABIRegCopy = CC.hasValue();		bool IsABIRegCopy = CC.hasValue();
if (IsABIRegCopy && ValueVT == MVT::f16 && PartVT == MVT::f32) {		if (IsABIRegCopy && (ValueVT == MVT::f16 \|\| ValueVT == MVT::bf16) &&
		PartVT == MVT::f32) {
unsigned ValueBits = ValueVT.getSizeInBits();		unsigned ValueBits = ValueVT.getSizeInBits();
unsigned PartBits = PartVT.getSizeInBits();		unsigned PartBits = PartVT.getSizeInBits();
SDValue Val = Parts[0];		SDValue Val = Parts[0];

Val = DAG.getNode(ISD::BITCAST, DL, MVT::getIntegerVT(PartBits), Val);		Val = DAG.getNode(ISD::BITCAST, DL, MVT::getIntegerVT(PartBits), Val);
Val = DAG.getNode(ISD::TRUNCATE, DL, MVT::getIntegerVT(ValueBits), Val);		Val = DAG.getNode(ISD::TRUNCATE, DL, MVT::getIntegerVT(ValueBits), Val);
Val = DAG.getNode(ISD::BITCAST, DL, ValueVT, Val);		Val = DAG.getNode(ISD::BITCAST, DL, ValueVT, Val);
return Val;		return Val;
▲ Show 20 Lines • Show All 94 Lines • ▼ Show 20 Lines	if (VA.isRegLoc()) {
ArgValue1, DAG.getIntPtrConstant(0, dl));		ArgValue1, DAG.getIntPtrConstant(0, dl));
ArgValue = DAG.getNode(ISD::INSERT_VECTOR_ELT, dl, MVT::v2f64, ArgValue,		ArgValue = DAG.getNode(ISD::INSERT_VECTOR_ELT, dl, MVT::v2f64, ArgValue,
ArgValue2, DAG.getIntPtrConstant(1, dl));		ArgValue2, DAG.getIntPtrConstant(1, dl));
} else if (VA.needsCustom() && VA.getLocVT() == MVT::f64) {		} else if (VA.needsCustom() && VA.getLocVT() == MVT::f64) {
ArgValue = GetF64FormalArgument(VA, ArgLocs[++i], Chain, DAG, dl);		ArgValue = GetF64FormalArgument(VA, ArgLocs[++i], Chain, DAG, dl);
} else {		} else {
const TargetRegisterClass *RC;		const TargetRegisterClass *RC;

		if (RegVT == MVT::f16 \|\| RegVT == MVT::bf16)
if (RegVT == MVT::f16)
RC = &ARM::HPRRegClass;		RC = &ARM::HPRRegClass;
else if (RegVT == MVT::f32)		else if (RegVT == MVT::f32)
RC = &ARM::SPRRegClass;		RC = &ARM::SPRRegClass;
else if (RegVT == MVT::f64 \|\| RegVT == MVT::v4f16)		else if (RegVT == MVT::f64 \|\| RegVT == MVT::v4f16 \|\|
		RegVT == MVT::v4bf16)
RC = &ARM::DPRRegClass;		RC = &ARM::DPRRegClass;
else if (RegVT == MVT::v2f64 \|\| RegVT == MVT::v8f16)		else if (RegVT == MVT::v2f64 \|\| RegVT == MVT::v8f16 \|\|
		RegVT == MVT::v8bf16)
RC = &ARM::QPRRegClass;		RC = &ARM::QPRRegClass;
else if (RegVT == MVT::i32)		else if (RegVT == MVT::i32)
RC = AFI->isThumb1OnlyFunction() ? &ARM::tGPRRegClass		RC = AFI->isThumb1OnlyFunction() ? &ARM::tGPRRegClass
: &ARM::GPRRegClass;		: &ARM::GPRRegClass;
else		else
llvm_unreachable("RegVT not supported by FORMAL_ARGUMENTS Lowering");		llvm_unreachable("RegVT not supported by FORMAL_ARGUMENTS Lowering");

// Transform the arguments in physical registers into virtual ones.		// Transform the arguments in physical registers into virtual ones.
Show All 26 Lines	if (VA.isRegLoc()) {
DAG.getValueType(VA.getValVT()));		DAG.getValueType(VA.getValVT()));
ArgValue = DAG.getNode(ISD::TRUNCATE, dl, VA.getValVT(), ArgValue);		ArgValue = DAG.getNode(ISD::TRUNCATE, dl, VA.getValVT(), ArgValue);
break;		break;
}		}

// f16 arguments have their size extended to 4 bytes and passed as if they		// f16 arguments have their size extended to 4 bytes and passed as if they
// had been copied to the LSBs of a 32-bit register.		// had been copied to the LSBs of a 32-bit register.
// For that, it's passed extended to i32 (soft ABI) or to f32 (hard ABI)		// For that, it's passed extended to i32 (soft ABI) or to f32 (hard ABI)
if (VA.needsCustom() && VA.getValVT() == MVT::f16) {		if (VA.needsCustom() &&
		(VA.getValVT() == MVT::f16 \|\| VA.getValVT() == MVT::bf16)) {
assert(Subtarget->hasFullFP16() &&		assert(Subtarget->hasFullFP16() &&
"Lowering f16 type argument without full fp16 support");		"Lowering half precision fp argument without full fp16 support");
ArgValue = DAG.getNode(ISD::BITCAST, dl,		ArgValue = DAG.getNode(ISD::BITCAST, dl,
MVT::getIntegerVT(VA.getLocVT().getSizeInBits()),		MVT::getIntegerVT(VA.getLocVT().getSizeInBits()),
ArgValue);		ArgValue);
ArgValue = DAG.getNode(ARMISD::VMOVhr, dl, VA.getValVT(), ArgValue);		ArgValue = DAG.getNode(ARMISD::VMOVhr, dl, VA.getValVT(), ArgValue);
}		}

InVals.push_back(ArgValue);		InVals.push_back(ArgValue);
} else { // VA.isRegLoc()		} else { // VA.isRegLoc()
▲ Show 20 Lines • Show All 762 Lines • ▼ Show 20 Lines	static bool isLowerSaturatingConditional(const SDValue &Op, SDValue &V,
if (isLowerSaturate(LHS, RHS, TrueVal, FalseVal, CC, *K)) {		if (isLowerSaturate(LHS, RHS, TrueVal, FalseVal, CC, *K)) {
SatK = *K;		SatK = *K;
return true;		return true;
}		}

return false;		return false;
}		}

bool ARMTargetLowering::isUnsupportedFloatingType(EVT VT) const {		bool ARMTargetLowering::isUnsupportedFloatingType(EVT VT) const {
		dmgreenUnsubmitted Not Done Reply Inline Actions This controls some things like setcc lowering. I wouldn't expect them to be relevant for bfloat if it is essentially just a storage type. dmgreen: This controls some things like setcc lowering. I wouldn't expect them to be relevant for bfloat…
		labrineaAuthorUnsubmitted Done Reply Inline Actions fair enough, I'll remove it labrinea: fair enough, I'll remove it
if (VT == MVT::f32)		if (VT == MVT::f32)
return !Subtarget->hasVFP2Base();		return !Subtarget->hasVFP2Base();
if (VT == MVT::f64)		if (VT == MVT::f64)
return !Subtarget->hasFP64();		return !Subtarget->hasFP64();
if (VT == MVT::f16)		if (VT == MVT::f16)
return !Subtarget->hasFullFP16();		return !Subtarget->hasFullFP16();
return false;		return false;
}		}
▲ Show 20 Lines • Show All 800 Lines • ▼ Show 20 Lines	static SDValue ExpandBITCAST(SDNode *N, SelectionDAG &DAG,
SDLoc dl(N);		SDLoc dl(N);
SDValue Op = N->getOperand(0);		SDValue Op = N->getOperand(0);

// This function is only supposed to be called for i16 and i64 types, either		// This function is only supposed to be called for i16 and i64 types, either
// as the source or destination of the bit convert.		// as the source or destination of the bit convert.
EVT SrcVT = Op.getValueType();		EVT SrcVT = Op.getValueType();
EVT DstVT = N->getValueType(0);		EVT DstVT = N->getValueType(0);

if (SrcVT == MVT::i16 && DstVT == MVT::f16) {		if (SrcVT == MVT::i16 && (DstVT == MVT::f16 \|\| DstVT == MVT::bf16)) {
if (!Subtarget->hasFullFP16())		if (!Subtarget->hasFullFP16())
return SDValue();		return SDValue();
// f16 bitcast i16 -> VMOVhr		// (b)f16 bitcast i16 -> VMOVhr
		dmgreenUnsubmitted Not Done Reply Inline Actions According to D81411, you can have bf16 without having fp16. And so you don't have any of the instructions like VMOV.f16 (which a VMOVrh will turn into). Same goes for the vldr.16 int he test below. Because +fp16 isn't specified, we might have to awkwardly use some other set of instructions. It will be more efficient to use vmov.16 and vldr.16 if they are available, but if they are not we might have to fall back to something else. Or we say that combination isn't supported, but it seems that fp16 is still optional and bf16 is mandatory in 8.6. dmgreen: According to D81411, you can have bf16 without having fp16. And so you don't have any of the…
		labrineaAuthorUnsubmitted Done Reply Inline Actions Good point. I am going to alter these checks to only guard fullfp16 for now. As the title suggests this is basic support, so I think it's fair to only support the bf16+fullfp16 combination in this revision. I will make sure it is explicitly stated in the commit message. labrinea: Good point. I am going to alter these checks to only guard fullfp16 for now. As the title…
		dmgreenUnsubmitted Not Done Reply Inline Actions Sounds fair. I would expect this to be the most common combination, so is good to tackle first. dmgreen: Sounds fair. I would expect this to be the most common combination, so is good to tackle first.
return DAG.getNode(ARMISD::VMOVhr, SDLoc(N), MVT::f16,		return DAG.getNode(ARMISD::VMOVhr, SDLoc(N), DstVT,
DAG.getNode(ISD::ZERO_EXTEND, SDLoc(N), MVT::i32, Op));		DAG.getNode(ISD::ZERO_EXTEND, SDLoc(N), MVT::i32, Op));
}		}

if (SrcVT == MVT::f16 && DstVT == MVT::i16) {		if ((SrcVT == MVT::f16 \|\| SrcVT == MVT::bf16) && DstVT == MVT::i16) {
if (!Subtarget->hasFullFP16())		if (!Subtarget->hasFullFP16())
return SDValue();		return SDValue();
// i16 bitcast f16 -> VMOVrh		// i16 bitcast (b)f16 -> VMOVrh
return DAG.getNode(ISD::TRUNCATE, SDLoc(N), MVT::i16,		return DAG.getNode(ISD::TRUNCATE, SDLoc(N), MVT::i16,
DAG.getNode(ARMISD::VMOVrh, SDLoc(N), MVT::i32, Op));		DAG.getNode(ARMISD::VMOVrh, SDLoc(N), MVT::i32, Op));
}		}

if (!(SrcVT == MVT::i64 \|\| DstVT == MVT::i64))		if (!(SrcVT == MVT::i64 \|\| DstVT == MVT::i64))
return SDValue();		return SDValue();

// Turn i64->f64 into VMOVDRR.		// Turn i64->f64 into VMOVDRR.
▲ Show 20 Lines • Show All 7,254 Lines • ▼ Show 20 Lines	static SDValue PerformVMOVhrCombine(SDNode *N, TargetLowering::DAGCombinerInfo &DCI) {
// t5: i32 = bitcast t2		// t5: i32 = bitcast t2
// t18: f16 = ARMISD::VMOVhr t5		// t18: f16 = ARMISD::VMOVhr t5
if (Op0->getOpcode() == ISD::BITCAST) {		if (Op0->getOpcode() == ISD::BITCAST) {
SDValue Copy = Op0->getOperand(0);		SDValue Copy = Op0->getOperand(0);
if (Copy.getValueType() == MVT::f32 &&		if (Copy.getValueType() == MVT::f32 &&
Copy->getOpcode() == ISD::CopyFromReg) {		Copy->getOpcode() == ISD::CopyFromReg) {
SDValue Ops[] = {Copy->getOperand(0), Copy->getOperand(1)};		SDValue Ops[] = {Copy->getOperand(0), Copy->getOperand(1)};
SDValue NewCopy =		SDValue NewCopy =
DCI.DAG.getNode(ISD::CopyFromReg, SDLoc(N), MVT::f16, Ops);		DCI.DAG.getNode(ISD::CopyFromReg, SDLoc(N), N->getValueType(0), Ops);
return NewCopy;		return NewCopy;
}		}
}		}

// fold (VMOVhr (load x)) -> (load (f16*)x)		// fold (VMOVhr (load x)) -> (load (f16*)x)
if (LoadSDNode *LN0 = dyn_cast<LoadSDNode>(Op0)) {		if (LoadSDNode *LN0 = dyn_cast<LoadSDNode>(Op0)) {
if (LN0->hasOneUse() && LN0->isUnindexed() &&		if (LN0->hasOneUse() && LN0->isUnindexed() &&
LN0->getMemoryVT() == MVT::i16) {		LN0->getMemoryVT() == MVT::i16) {
SDValue Load = DCI.DAG.getLoad(MVT::f16, SDLoc(N), LN0->getChain(),		SDValue Load =
		DCI.DAG.getLoad(N->getValueType(0), SDLoc(N), LN0->getChain(),
LN0->getBasePtr(), LN0->getMemOperand());		LN0->getBasePtr(), LN0->getMemOperand());
DCI.DAG.ReplaceAllUsesOfValueWith(SDValue(N, 0), Load.getValue(0));		DCI.DAG.ReplaceAllUsesOfValueWith(SDValue(N, 0), Load.getValue(0));
DCI.DAG.ReplaceAllUsesOfValueWith(Op0.getValue(1), Load.getValue(1));		DCI.DAG.ReplaceAllUsesOfValueWith(Op0.getValue(1), Load.getValue(1));
return Load;		return Load;
}		}
}		}

// Only the bottom 16 bits of the source register are used.		// Only the bottom 16 bits of the source register are used.
APInt DemandedMask = APInt::getLowBitsSet(32, 16);		APInt DemandedMask = APInt::getLowBitsSet(32, 16);
▲ Show 20 Lines • Show All 5,433 Lines • Show Last 20 Lines

llvm/lib/Target/ARM/ARMInstrFormats.td

Show First 20 Lines • Show All 1,122 Lines • ▼ Show 20 Lines	class VFPNoNEONPat<dag pattern, dag result> : Pat<pattern, result> {
list<Predicate> Predicates = [HasVFP2, DontUseNEONForFP];		list<Predicate> Predicates = [HasVFP2, DontUseNEONForFP];
}		}
class Thumb2DSPPat<dag pattern, dag result> : Pat<pattern, result> {		class Thumb2DSPPat<dag pattern, dag result> : Pat<pattern, result> {
list<Predicate> Predicates = [IsThumb2, HasDSP];		list<Predicate> Predicates = [IsThumb2, HasDSP];
}		}
class Thumb2DSPMulPat<dag pattern, dag result> : Pat<pattern, result> {		class Thumb2DSPMulPat<dag pattern, dag result> : Pat<pattern, result> {
list<Predicate> Predicates = [IsThumb2, UseMulOps, HasDSP];		list<Predicate> Predicates = [IsThumb2, UseMulOps, HasDSP];
}		}
		class FPRegs16Pat<dag pattern, dag result> : Pat<pattern, result> {
		list<Predicate> Predicates = [HasFPRegs16];
		}
class FP16Pat<dag pattern, dag result> : Pat<pattern, result> {		class FP16Pat<dag pattern, dag result> : Pat<pattern, result> {
list<Predicate> Predicates = [HasFP16];		list<Predicate> Predicates = [HasFP16];
}		}
class FullFP16Pat<dag pattern, dag result> : Pat<pattern, result> {		class FullFP16Pat<dag pattern, dag result> : Pat<pattern, result> {
list<Predicate> Predicates = [HasFullFP16];		list<Predicate> Predicates = [HasFullFP16];
}		}
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// Thumb Instruction Format Definitions.		// Thumb Instruction Format Definitions.
▲ Show 20 Lines • Show All 1,636 Lines • Show Last 20 Lines

llvm/lib/Target/ARM/ARMInstrNEON.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 7,389 Lines • ▼ Show 20 Lines
	def : Pat<(v1i64 (bitconvert (f64 DPR:$src))), (v1i64 DPR:$src)>;			def : Pat<(v1i64 (bitconvert (f64 DPR:$src))), (v1i64 DPR:$src)>;

	def : Pat<(v2f32 (bitconvert (v2i32 DPR:$src))), (v2f32 DPR:$src)>;			def : Pat<(v2f32 (bitconvert (v2i32 DPR:$src))), (v2f32 DPR:$src)>;
	def : Pat<(v2i32 (bitconvert (v2f32 DPR:$src))), (v2i32 DPR:$src)>;			def : Pat<(v2i32 (bitconvert (v2f32 DPR:$src))), (v2i32 DPR:$src)>;

	def : Pat<(v4i16 (bitconvert (v4f16 DPR:$src))), (v4i16 DPR:$src)>;			def : Pat<(v4i16 (bitconvert (v4f16 DPR:$src))), (v4i16 DPR:$src)>;
	def : Pat<(v4f16 (bitconvert (v4i16 DPR:$src))), (v4f16 DPR:$src)>;			def : Pat<(v4f16 (bitconvert (v4i16 DPR:$src))), (v4f16 DPR:$src)>;

				def : Pat<(v4i16 (bitconvert (v4bf16 DPR:$src))), (v4i16 DPR:$src)>;
				def : Pat<(v4bf16 (bitconvert (v4i16 DPR:$src))), (v4bf16 DPR:$src)>;

	// 128 bit conversions			// 128 bit conversions
	def : Pat<(v2f64 (bitconvert (v2i64 QPR:$src))), (v2f64 QPR:$src)>;			def : Pat<(v2f64 (bitconvert (v2i64 QPR:$src))), (v2f64 QPR:$src)>;
	def : Pat<(v2i64 (bitconvert (v2f64 QPR:$src))), (v2i64 QPR:$src)>;			def : Pat<(v2i64 (bitconvert (v2f64 QPR:$src))), (v2i64 QPR:$src)>;

	def : Pat<(v4i32 (bitconvert (v4f32 QPR:$src))), (v4i32 QPR:$src)>;			def : Pat<(v4i32 (bitconvert (v4f32 QPR:$src))), (v4i32 QPR:$src)>;
	def : Pat<(v4f32 (bitconvert (v4i32 QPR:$src))), (v4f32 QPR:$src)>;			def : Pat<(v4f32 (bitconvert (v4i32 QPR:$src))), (v4f32 QPR:$src)>;

	def : Pat<(v8i16 (bitconvert (v8f16 QPR:$src))), (v8i16 QPR:$src)>;			def : Pat<(v8i16 (bitconvert (v8f16 QPR:$src))), (v8i16 QPR:$src)>;
	def : Pat<(v8f16 (bitconvert (v8i16 QPR:$src))), (v8f16 QPR:$src)>;			def : Pat<(v8f16 (bitconvert (v8i16 QPR:$src))), (v8f16 QPR:$src)>;

				def : Pat<(v8i16 (bitconvert (v8bf16 QPR:$src))), (v8i16 QPR:$src)>;
				def : Pat<(v8bf16 (bitconvert (v8i16 QPR:$src))), (v8bf16 QPR:$src)>;
	}			}

	let Predicates = [IsLE,HasNEON] in {			let Predicates = [IsLE,HasNEON] in {
	// 64 bit conversions			// 64 bit conversions
	def : Pat<(f64 (bitconvert (v2f32 DPR:$src))), (f64 DPR:$src)>;			def : Pat<(f64 (bitconvert (v2f32 DPR:$src))), (f64 DPR:$src)>;
	def : Pat<(f64 (bitconvert (v2i32 DPR:$src))), (f64 DPR:$src)>;			def : Pat<(f64 (bitconvert (v2i32 DPR:$src))), (f64 DPR:$src)>;
	def : Pat<(f64 (bitconvert (v4f16 DPR:$src))), (f64 DPR:$src)>;			def : Pat<(f64 (bitconvert (v4f16 DPR:$src))), (f64 DPR:$src)>;
				def : Pat<(f64 (bitconvert (v4bf16 DPR:$src))), (f64 DPR:$src)>;
	def : Pat<(f64 (bitconvert (v4i16 DPR:$src))), (f64 DPR:$src)>;			def : Pat<(f64 (bitconvert (v4i16 DPR:$src))), (f64 DPR:$src)>;
	def : Pat<(f64 (bitconvert (v8i8 DPR:$src))), (f64 DPR:$src)>;			def : Pat<(f64 (bitconvert (v8i8 DPR:$src))), (f64 DPR:$src)>;

	def : Pat<(v1i64 (bitconvert (v2f32 DPR:$src))), (v1i64 DPR:$src)>;			def : Pat<(v1i64 (bitconvert (v2f32 DPR:$src))), (v1i64 DPR:$src)>;
	def : Pat<(v1i64 (bitconvert (v2i32 DPR:$src))), (v1i64 DPR:$src)>;			def : Pat<(v1i64 (bitconvert (v2i32 DPR:$src))), (v1i64 DPR:$src)>;
	def : Pat<(v1i64 (bitconvert (v4f16 DPR:$src))), (v1i64 DPR:$src)>;			def : Pat<(v1i64 (bitconvert (v4f16 DPR:$src))), (v1i64 DPR:$src)>;
				def : Pat<(v1i64 (bitconvert (v4bf16 DPR:$src))), (v1i64 DPR:$src)>;
	def : Pat<(v1i64 (bitconvert (v4i16 DPR:$src))), (v1i64 DPR:$src)>;			def : Pat<(v1i64 (bitconvert (v4i16 DPR:$src))), (v1i64 DPR:$src)>;
	def : Pat<(v1i64 (bitconvert (v8i8 DPR:$src))), (v1i64 DPR:$src)>;			def : Pat<(v1i64 (bitconvert (v8i8 DPR:$src))), (v1i64 DPR:$src)>;

	def : Pat<(v2f32 (bitconvert (f64 DPR:$src))), (v2f32 DPR:$src)>;			def : Pat<(v2f32 (bitconvert (f64 DPR:$src))), (v2f32 DPR:$src)>;
	def : Pat<(v2f32 (bitconvert (v1i64 DPR:$src))), (v2f32 DPR:$src)>;			def : Pat<(v2f32 (bitconvert (v1i64 DPR:$src))), (v2f32 DPR:$src)>;
	def : Pat<(v2f32 (bitconvert (v4f16 DPR:$src))), (v2f32 DPR:$src)>;			def : Pat<(v2f32 (bitconvert (v4f16 DPR:$src))), (v2f32 DPR:$src)>;
				def : Pat<(v2f32 (bitconvert (v4bf16 DPR:$src))), (v2f32 DPR:$src)>;
	def : Pat<(v2f32 (bitconvert (v4i16 DPR:$src))), (v2f32 DPR:$src)>;			def : Pat<(v2f32 (bitconvert (v4i16 DPR:$src))), (v2f32 DPR:$src)>;
	def : Pat<(v2f32 (bitconvert (v8i8 DPR:$src))), (v2f32 DPR:$src)>;			def : Pat<(v2f32 (bitconvert (v8i8 DPR:$src))), (v2f32 DPR:$src)>;

	def : Pat<(v2i32 (bitconvert (f64 DPR:$src))), (v2i32 DPR:$src)>;			def : Pat<(v2i32 (bitconvert (f64 DPR:$src))), (v2i32 DPR:$src)>;
	def : Pat<(v2i32 (bitconvert (v1i64 DPR:$src))), (v2i32 DPR:$src)>;			def : Pat<(v2i32 (bitconvert (v1i64 DPR:$src))), (v2i32 DPR:$src)>;
	def : Pat<(v2i32 (bitconvert (v4f16 DPR:$src))), (v2i32 DPR:$src)>;			def : Pat<(v2i32 (bitconvert (v4f16 DPR:$src))), (v2i32 DPR:$src)>;
				def : Pat<(v2i32 (bitconvert (v4bf16 DPR:$src))), (v2i32 DPR:$src)>;
	def : Pat<(v2i32 (bitconvert (v4i16 DPR:$src))), (v2i32 DPR:$src)>;			def : Pat<(v2i32 (bitconvert (v4i16 DPR:$src))), (v2i32 DPR:$src)>;
	def : Pat<(v2i32 (bitconvert (v8i8 DPR:$src))), (v2i32 DPR:$src)>;			def : Pat<(v2i32 (bitconvert (v8i8 DPR:$src))), (v2i32 DPR:$src)>;

	def : Pat<(v4f16 (bitconvert (f64 DPR:$src))), (v4f16 DPR:$src)>;			def : Pat<(v4f16 (bitconvert (f64 DPR:$src))), (v4f16 DPR:$src)>;
	def : Pat<(v4f16 (bitconvert (v1i64 DPR:$src))), (v4f16 DPR:$src)>;			def : Pat<(v4f16 (bitconvert (v1i64 DPR:$src))), (v4f16 DPR:$src)>;
	def : Pat<(v4f16 (bitconvert (v2f32 DPR:$src))), (v4f16 DPR:$src)>;			def : Pat<(v4f16 (bitconvert (v2f32 DPR:$src))), (v4f16 DPR:$src)>;
	def : Pat<(v4f16 (bitconvert (v2i32 DPR:$src))), (v4f16 DPR:$src)>;			def : Pat<(v4f16 (bitconvert (v2i32 DPR:$src))), (v4f16 DPR:$src)>;
	def : Pat<(v4f16 (bitconvert (v8i8 DPR:$src))), (v4f16 DPR:$src)>;			def : Pat<(v4f16 (bitconvert (v8i8 DPR:$src))), (v4f16 DPR:$src)>;

				def : Pat<(v4bf16 (bitconvert (f64 DPR:$src))), (v4bf16 DPR:$src)>;
				def : Pat<(v4bf16 (bitconvert (v1i64 DPR:$src))), (v4bf16 DPR:$src)>;
				def : Pat<(v4bf16 (bitconvert (v2f32 DPR:$src))), (v4bf16 DPR:$src)>;
				def : Pat<(v4bf16 (bitconvert (v2i32 DPR:$src))), (v4bf16 DPR:$src)>;
				def : Pat<(v4bf16 (bitconvert (v8i8 DPR:$src))), (v4bf16 DPR:$src)>;

	def : Pat<(v4i16 (bitconvert (f64 DPR:$src))), (v4i16 DPR:$src)>;			def : Pat<(v4i16 (bitconvert (f64 DPR:$src))), (v4i16 DPR:$src)>;
	def : Pat<(v4i16 (bitconvert (v1i64 DPR:$src))), (v4i16 DPR:$src)>;			def : Pat<(v4i16 (bitconvert (v1i64 DPR:$src))), (v4i16 DPR:$src)>;
	def : Pat<(v4i16 (bitconvert (v2f32 DPR:$src))), (v4i16 DPR:$src)>;			def : Pat<(v4i16 (bitconvert (v2f32 DPR:$src))), (v4i16 DPR:$src)>;
	def : Pat<(v4i16 (bitconvert (v2i32 DPR:$src))), (v4i16 DPR:$src)>;			def : Pat<(v4i16 (bitconvert (v2i32 DPR:$src))), (v4i16 DPR:$src)>;
	def : Pat<(v4i16 (bitconvert (v8i8 DPR:$src))), (v4i16 DPR:$src)>;			def : Pat<(v4i16 (bitconvert (v8i8 DPR:$src))), (v4i16 DPR:$src)>;

	def : Pat<(v8i8 (bitconvert (f64 DPR:$src))), (v8i8 DPR:$src)>;			def : Pat<(v8i8 (bitconvert (f64 DPR:$src))), (v8i8 DPR:$src)>;
	def : Pat<(v8i8 (bitconvert (v1i64 DPR:$src))), (v8i8 DPR:$src)>;			def : Pat<(v8i8 (bitconvert (v1i64 DPR:$src))), (v8i8 DPR:$src)>;
	def : Pat<(v8i8 (bitconvert (v2f32 DPR:$src))), (v8i8 DPR:$src)>;			def : Pat<(v8i8 (bitconvert (v2f32 DPR:$src))), (v8i8 DPR:$src)>;
	def : Pat<(v8i8 (bitconvert (v2i32 DPR:$src))), (v8i8 DPR:$src)>;			def : Pat<(v8i8 (bitconvert (v2i32 DPR:$src))), (v8i8 DPR:$src)>;
	def : Pat<(v8i8 (bitconvert (v4f16 DPR:$src))), (v8i8 DPR:$src)>;			def : Pat<(v8i8 (bitconvert (v4f16 DPR:$src))), (v8i8 DPR:$src)>;
				def : Pat<(v8i8 (bitconvert (v4bf16 DPR:$src))), (v8i8 DPR:$src)>;
	def : Pat<(v8i8 (bitconvert (v4i16 DPR:$src))), (v8i8 DPR:$src)>;			def : Pat<(v8i8 (bitconvert (v4i16 DPR:$src))), (v8i8 DPR:$src)>;

	// 128 bit conversions			// 128 bit conversions
	def : Pat<(v2f64 (bitconvert (v4f32 QPR:$src))), (v2f64 QPR:$src)>;			def : Pat<(v2f64 (bitconvert (v4f32 QPR:$src))), (v2f64 QPR:$src)>;
	def : Pat<(v2f64 (bitconvert (v4i32 QPR:$src))), (v2f64 QPR:$src)>;			def : Pat<(v2f64 (bitconvert (v4i32 QPR:$src))), (v2f64 QPR:$src)>;
	def : Pat<(v2f64 (bitconvert (v8f16 QPR:$src))), (v2f64 QPR:$src)>;			def : Pat<(v2f64 (bitconvert (v8f16 QPR:$src))), (v2f64 QPR:$src)>;
				def : Pat<(v2f64 (bitconvert (v8bf16 QPR:$src))), (v2f64 QPR:$src)>;
	def : Pat<(v2f64 (bitconvert (v8i16 QPR:$src))), (v2f64 QPR:$src)>;			def : Pat<(v2f64 (bitconvert (v8i16 QPR:$src))), (v2f64 QPR:$src)>;
	def : Pat<(v2f64 (bitconvert (v16i8 QPR:$src))), (v2f64 QPR:$src)>;			def : Pat<(v2f64 (bitconvert (v16i8 QPR:$src))), (v2f64 QPR:$src)>;

	def : Pat<(v2i64 (bitconvert (v4f32 QPR:$src))), (v2i64 QPR:$src)>;			def : Pat<(v2i64 (bitconvert (v4f32 QPR:$src))), (v2i64 QPR:$src)>;
	def : Pat<(v2i64 (bitconvert (v4i32 QPR:$src))), (v2i64 QPR:$src)>;			def : Pat<(v2i64 (bitconvert (v4i32 QPR:$src))), (v2i64 QPR:$src)>;
	def : Pat<(v2i64 (bitconvert (v8f16 QPR:$src))), (v2i64 QPR:$src)>;			def : Pat<(v2i64 (bitconvert (v8f16 QPR:$src))), (v2i64 QPR:$src)>;
				def : Pat<(v2i64 (bitconvert (v8bf16 QPR:$src))), (v2i64 QPR:$src)>;
	def : Pat<(v2i64 (bitconvert (v8i16 QPR:$src))), (v2i64 QPR:$src)>;			def : Pat<(v2i64 (bitconvert (v8i16 QPR:$src))), (v2i64 QPR:$src)>;
	def : Pat<(v2i64 (bitconvert (v16i8 QPR:$src))), (v2i64 QPR:$src)>;			def : Pat<(v2i64 (bitconvert (v16i8 QPR:$src))), (v2i64 QPR:$src)>;

	def : Pat<(v4f32 (bitconvert (v2f64 QPR:$src))), (v4f32 QPR:$src)>;			def : Pat<(v4f32 (bitconvert (v2f64 QPR:$src))), (v4f32 QPR:$src)>;
	def : Pat<(v4f32 (bitconvert (v2i64 QPR:$src))), (v4f32 QPR:$src)>;			def : Pat<(v4f32 (bitconvert (v2i64 QPR:$src))), (v4f32 QPR:$src)>;
	def : Pat<(v4f32 (bitconvert (v8f16 QPR:$src))), (v4f32 QPR:$src)>;			def : Pat<(v4f32 (bitconvert (v8f16 QPR:$src))), (v4f32 QPR:$src)>;
				def : Pat<(v4f32 (bitconvert (v8bf16 QPR:$src))), (v4f32 QPR:$src)>;
	def : Pat<(v4f32 (bitconvert (v8i16 QPR:$src))), (v4f32 QPR:$src)>;			def : Pat<(v4f32 (bitconvert (v8i16 QPR:$src))), (v4f32 QPR:$src)>;
	def : Pat<(v4f32 (bitconvert (v16i8 QPR:$src))), (v4f32 QPR:$src)>;			def : Pat<(v4f32 (bitconvert (v16i8 QPR:$src))), (v4f32 QPR:$src)>;

	def : Pat<(v4i32 (bitconvert (v2f64 QPR:$src))), (v4i32 QPR:$src)>;			def : Pat<(v4i32 (bitconvert (v2f64 QPR:$src))), (v4i32 QPR:$src)>;
	def : Pat<(v4i32 (bitconvert (v2i64 QPR:$src))), (v4i32 QPR:$src)>;			def : Pat<(v4i32 (bitconvert (v2i64 QPR:$src))), (v4i32 QPR:$src)>;
	def : Pat<(v4i32 (bitconvert (v8f16 QPR:$src))), (v4i32 QPR:$src)>;			def : Pat<(v4i32 (bitconvert (v8f16 QPR:$src))), (v4i32 QPR:$src)>;
				def : Pat<(v4i32 (bitconvert (v8bf16 QPR:$src))), (v4i32 QPR:$src)>;
	def : Pat<(v4i32 (bitconvert (v8i16 QPR:$src))), (v4i32 QPR:$src)>;			def : Pat<(v4i32 (bitconvert (v8i16 QPR:$src))), (v4i32 QPR:$src)>;
	def : Pat<(v4i32 (bitconvert (v16i8 QPR:$src))), (v4i32 QPR:$src)>;			def : Pat<(v4i32 (bitconvert (v16i8 QPR:$src))), (v4i32 QPR:$src)>;

	def : Pat<(v8f16 (bitconvert (v2f64 QPR:$src))), (v8f16 QPR:$src)>;			def : Pat<(v8f16 (bitconvert (v2f64 QPR:$src))), (v8f16 QPR:$src)>;
	def : Pat<(v8f16 (bitconvert (v2i64 QPR:$src))), (v8f16 QPR:$src)>;			def : Pat<(v8f16 (bitconvert (v2i64 QPR:$src))), (v8f16 QPR:$src)>;
	def : Pat<(v8f16 (bitconvert (v4f32 QPR:$src))), (v8f16 QPR:$src)>;			def : Pat<(v8f16 (bitconvert (v4f32 QPR:$src))), (v8f16 QPR:$src)>;
	def : Pat<(v8f16 (bitconvert (v4i32 QPR:$src))), (v8f16 QPR:$src)>;			def : Pat<(v8f16 (bitconvert (v4i32 QPR:$src))), (v8f16 QPR:$src)>;
	def : Pat<(v8f16 (bitconvert (v16i8 QPR:$src))), (v8f16 QPR:$src)>;			def : Pat<(v8f16 (bitconvert (v16i8 QPR:$src))), (v8f16 QPR:$src)>;

				def : Pat<(v8bf16 (bitconvert (v2f64 QPR:$src))), (v8bf16 QPR:$src)>;
				def : Pat<(v8bf16 (bitconvert (v2i64 QPR:$src))), (v8bf16 QPR:$src)>;
				def : Pat<(v8bf16 (bitconvert (v4f32 QPR:$src))), (v8bf16 QPR:$src)>;
				def : Pat<(v8bf16 (bitconvert (v4i32 QPR:$src))), (v8bf16 QPR:$src)>;
				def : Pat<(v8bf16 (bitconvert (v16i8 QPR:$src))), (v8bf16 QPR:$src)>;

	def : Pat<(v8i16 (bitconvert (v2f64 QPR:$src))), (v8i16 QPR:$src)>;			def : Pat<(v8i16 (bitconvert (v2f64 QPR:$src))), (v8i16 QPR:$src)>;
	def : Pat<(v8i16 (bitconvert (v2i64 QPR:$src))), (v8i16 QPR:$src)>;			def : Pat<(v8i16 (bitconvert (v2i64 QPR:$src))), (v8i16 QPR:$src)>;
	def : Pat<(v8i16 (bitconvert (v4f32 QPR:$src))), (v8i16 QPR:$src)>;			def : Pat<(v8i16 (bitconvert (v4f32 QPR:$src))), (v8i16 QPR:$src)>;
	def : Pat<(v8i16 (bitconvert (v4i32 QPR:$src))), (v8i16 QPR:$src)>;			def : Pat<(v8i16 (bitconvert (v4i32 QPR:$src))), (v8i16 QPR:$src)>;
	def : Pat<(v8i16 (bitconvert (v16i8 QPR:$src))), (v8i16 QPR:$src)>;			def : Pat<(v8i16 (bitconvert (v16i8 QPR:$src))), (v8i16 QPR:$src)>;

	def : Pat<(v16i8 (bitconvert (v2f64 QPR:$src))), (v16i8 QPR:$src)>;			def : Pat<(v16i8 (bitconvert (v2f64 QPR:$src))), (v16i8 QPR:$src)>;
	def : Pat<(v16i8 (bitconvert (v2i64 QPR:$src))), (v16i8 QPR:$src)>;			def : Pat<(v16i8 (bitconvert (v2i64 QPR:$src))), (v16i8 QPR:$src)>;
	def : Pat<(v16i8 (bitconvert (v4f32 QPR:$src))), (v16i8 QPR:$src)>;			def : Pat<(v16i8 (bitconvert (v4f32 QPR:$src))), (v16i8 QPR:$src)>;
	def : Pat<(v16i8 (bitconvert (v4i32 QPR:$src))), (v16i8 QPR:$src)>;			def : Pat<(v16i8 (bitconvert (v4i32 QPR:$src))), (v16i8 QPR:$src)>;
	def : Pat<(v16i8 (bitconvert (v8f16 QPR:$src))), (v16i8 QPR:$src)>;			def : Pat<(v16i8 (bitconvert (v8f16 QPR:$src))), (v16i8 QPR:$src)>;
				def : Pat<(v16i8 (bitconvert (v8bf16 QPR:$src))), (v16i8 QPR:$src)>;
	def : Pat<(v16i8 (bitconvert (v8i16 QPR:$src))), (v16i8 QPR:$src)>;			def : Pat<(v16i8 (bitconvert (v8i16 QPR:$src))), (v16i8 QPR:$src)>;
	}			}

	let Predicates = [IsBE,HasNEON] in {			let Predicates = [IsBE,HasNEON] in {
	// 64 bit conversions			// 64 bit conversions
	def : Pat<(f64 (bitconvert (v2f32 DPR:$src))), (VREV64d32 DPR:$src)>;			def : Pat<(f64 (bitconvert (v2f32 DPR:$src))), (VREV64d32 DPR:$src)>;
	def : Pat<(f64 (bitconvert (v2i32 DPR:$src))), (VREV64d32 DPR:$src)>;			def : Pat<(f64 (bitconvert (v2i32 DPR:$src))), (VREV64d32 DPR:$src)>;
	def : Pat<(f64 (bitconvert (v4f16 DPR:$src))), (VREV64d16 DPR:$src)>;			def : Pat<(f64 (bitconvert (v4f16 DPR:$src))), (VREV64d16 DPR:$src)>;
				def : Pat<(f64 (bitconvert (v4bf16 DPR:$src))), (VREV64d16 DPR:$src)>;
	def : Pat<(f64 (bitconvert (v4i16 DPR:$src))), (VREV64d16 DPR:$src)>;			def : Pat<(f64 (bitconvert (v4i16 DPR:$src))), (VREV64d16 DPR:$src)>;
	def : Pat<(f64 (bitconvert (v8i8 DPR:$src))), (VREV64d8 DPR:$src)>;			def : Pat<(f64 (bitconvert (v8i8 DPR:$src))), (VREV64d8 DPR:$src)>;

	def : Pat<(v1i64 (bitconvert (v2f32 DPR:$src))), (VREV64d32 DPR:$src)>;			def : Pat<(v1i64 (bitconvert (v2f32 DPR:$src))), (VREV64d32 DPR:$src)>;
	def : Pat<(v1i64 (bitconvert (v2i32 DPR:$src))), (VREV64d32 DPR:$src)>;			def : Pat<(v1i64 (bitconvert (v2i32 DPR:$src))), (VREV64d32 DPR:$src)>;
	def : Pat<(v1i64 (bitconvert (v4f16 DPR:$src))), (VREV64d16 DPR:$src)>;			def : Pat<(v1i64 (bitconvert (v4f16 DPR:$src))), (VREV64d16 DPR:$src)>;
				def : Pat<(v1i64 (bitconvert (v4bf16 DPR:$src))), (VREV64d16 DPR:$src)>;
	def : Pat<(v1i64 (bitconvert (v4i16 DPR:$src))), (VREV64d16 DPR:$src)>;			def : Pat<(v1i64 (bitconvert (v4i16 DPR:$src))), (VREV64d16 DPR:$src)>;
	def : Pat<(v1i64 (bitconvert (v8i8 DPR:$src))), (VREV64d8 DPR:$src)>;			def : Pat<(v1i64 (bitconvert (v8i8 DPR:$src))), (VREV64d8 DPR:$src)>;

	def : Pat<(v2f32 (bitconvert (f64 DPR:$src))), (VREV64d32 DPR:$src)>;			def : Pat<(v2f32 (bitconvert (f64 DPR:$src))), (VREV64d32 DPR:$src)>;
	def : Pat<(v2f32 (bitconvert (v1i64 DPR:$src))), (VREV64d32 DPR:$src)>;			def : Pat<(v2f32 (bitconvert (v1i64 DPR:$src))), (VREV64d32 DPR:$src)>;
	def : Pat<(v2f32 (bitconvert (v4f16 DPR:$src))), (VREV32d16 DPR:$src)>;			def : Pat<(v2f32 (bitconvert (v4f16 DPR:$src))), (VREV32d16 DPR:$src)>;
				def : Pat<(v2f32 (bitconvert (v4bf16 DPR:$src))), (VREV32d16 DPR:$src)>;
	def : Pat<(v2f32 (bitconvert (v4i16 DPR:$src))), (VREV32d16 DPR:$src)>;			def : Pat<(v2f32 (bitconvert (v4i16 DPR:$src))), (VREV32d16 DPR:$src)>;
	def : Pat<(v2f32 (bitconvert (v8i8 DPR:$src))), (VREV32d8 DPR:$src)>;			def : Pat<(v2f32 (bitconvert (v8i8 DPR:$src))), (VREV32d8 DPR:$src)>;

	def : Pat<(v2i32 (bitconvert (f64 DPR:$src))), (VREV64d32 DPR:$src)>;			def : Pat<(v2i32 (bitconvert (f64 DPR:$src))), (VREV64d32 DPR:$src)>;
	def : Pat<(v2i32 (bitconvert (v1i64 DPR:$src))), (VREV64d32 DPR:$src)>;			def : Pat<(v2i32 (bitconvert (v1i64 DPR:$src))), (VREV64d32 DPR:$src)>;
	def : Pat<(v2i32 (bitconvert (v4f16 DPR:$src))), (VREV32d16 DPR:$src)>;			def : Pat<(v2i32 (bitconvert (v4f16 DPR:$src))), (VREV32d16 DPR:$src)>;
				def : Pat<(v2i32 (bitconvert (v4bf16 DPR:$src))), (VREV32d16 DPR:$src)>;
	def : Pat<(v2i32 (bitconvert (v4i16 DPR:$src))), (VREV32d16 DPR:$src)>;			def : Pat<(v2i32 (bitconvert (v4i16 DPR:$src))), (VREV32d16 DPR:$src)>;
	def : Pat<(v2i32 (bitconvert (v8i8 DPR:$src))), (VREV32d8 DPR:$src)>;			def : Pat<(v2i32 (bitconvert (v8i8 DPR:$src))), (VREV32d8 DPR:$src)>;

	def : Pat<(v4f16 (bitconvert (f64 DPR:$src))), (VREV64d16 DPR:$src)>;			def : Pat<(v4f16 (bitconvert (f64 DPR:$src))), (VREV64d16 DPR:$src)>;
	def : Pat<(v4f16 (bitconvert (v1i64 DPR:$src))), (VREV64d16 DPR:$src)>;			def : Pat<(v4f16 (bitconvert (v1i64 DPR:$src))), (VREV64d16 DPR:$src)>;
	def : Pat<(v4f16 (bitconvert (v2f32 DPR:$src))), (VREV32d16 DPR:$src)>;			def : Pat<(v4f16 (bitconvert (v2f32 DPR:$src))), (VREV32d16 DPR:$src)>;
	def : Pat<(v4f16 (bitconvert (v2i32 DPR:$src))), (VREV32d16 DPR:$src)>;			def : Pat<(v4f16 (bitconvert (v2i32 DPR:$src))), (VREV32d16 DPR:$src)>;
	def : Pat<(v4f16 (bitconvert (v8i8 DPR:$src))), (VREV16d8 DPR:$src)>;			def : Pat<(v4f16 (bitconvert (v8i8 DPR:$src))), (VREV16d8 DPR:$src)>;

				def : Pat<(v4bf16 (bitconvert (f64 DPR:$src))), (VREV64d16 DPR:$src)>;
				def : Pat<(v4bf16 (bitconvert (v1i64 DPR:$src))), (VREV64d16 DPR:$src)>;
				def : Pat<(v4bf16 (bitconvert (v2f32 DPR:$src))), (VREV32d16 DPR:$src)>;
				def : Pat<(v4bf16 (bitconvert (v2i32 DPR:$src))), (VREV32d16 DPR:$src)>;
				def : Pat<(v4bf16 (bitconvert (v8i8 DPR:$src))), (VREV16d8 DPR:$src)>;

	def : Pat<(v4i16 (bitconvert (f64 DPR:$src))), (VREV64d16 DPR:$src)>;			def : Pat<(v4i16 (bitconvert (f64 DPR:$src))), (VREV64d16 DPR:$src)>;
	def : Pat<(v4i16 (bitconvert (v1i64 DPR:$src))), (VREV64d16 DPR:$src)>;			def : Pat<(v4i16 (bitconvert (v1i64 DPR:$src))), (VREV64d16 DPR:$src)>;
	def : Pat<(v4i16 (bitconvert (v2f32 DPR:$src))), (VREV32d16 DPR:$src)>;			def : Pat<(v4i16 (bitconvert (v2f32 DPR:$src))), (VREV32d16 DPR:$src)>;
	def : Pat<(v4i16 (bitconvert (v2i32 DPR:$src))), (VREV32d16 DPR:$src)>;			def : Pat<(v4i16 (bitconvert (v2i32 DPR:$src))), (VREV32d16 DPR:$src)>;
	def : Pat<(v4i16 (bitconvert (v8i8 DPR:$src))), (VREV16d8 DPR:$src)>;			def : Pat<(v4i16 (bitconvert (v8i8 DPR:$src))), (VREV16d8 DPR:$src)>;

	def : Pat<(v8i8 (bitconvert (f64 DPR:$src))), (VREV64d8 DPR:$src)>;			def : Pat<(v8i8 (bitconvert (f64 DPR:$src))), (VREV64d8 DPR:$src)>;
	def : Pat<(v8i8 (bitconvert (v1i64 DPR:$src))), (VREV64d8 DPR:$src)>;			def : Pat<(v8i8 (bitconvert (v1i64 DPR:$src))), (VREV64d8 DPR:$src)>;
	def : Pat<(v8i8 (bitconvert (v2f32 DPR:$src))), (VREV32d8 DPR:$src)>;			def : Pat<(v8i8 (bitconvert (v2f32 DPR:$src))), (VREV32d8 DPR:$src)>;
	def : Pat<(v8i8 (bitconvert (v2i32 DPR:$src))), (VREV32d8 DPR:$src)>;			def : Pat<(v8i8 (bitconvert (v2i32 DPR:$src))), (VREV32d8 DPR:$src)>;
	def : Pat<(v8i8 (bitconvert (v4f16 DPR:$src))), (VREV16d8 DPR:$src)>;			def : Pat<(v8i8 (bitconvert (v4f16 DPR:$src))), (VREV16d8 DPR:$src)>;
				def : Pat<(v8i8 (bitconvert (v4bf16 DPR:$src))), (VREV16d8 DPR:$src)>;
	def : Pat<(v8i8 (bitconvert (v4i16 DPR:$src))), (VREV16d8 DPR:$src)>;			def : Pat<(v8i8 (bitconvert (v4i16 DPR:$src))), (VREV16d8 DPR:$src)>;

	// 128 bit conversions			// 128 bit conversions
	def : Pat<(v2f64 (bitconvert (v4f32 QPR:$src))), (VREV64q32 QPR:$src)>;			def : Pat<(v2f64 (bitconvert (v4f32 QPR:$src))), (VREV64q32 QPR:$src)>;
	def : Pat<(v2f64 (bitconvert (v4i32 QPR:$src))), (VREV64q32 QPR:$src)>;			def : Pat<(v2f64 (bitconvert (v4i32 QPR:$src))), (VREV64q32 QPR:$src)>;
	def : Pat<(v2f64 (bitconvert (v8f16 QPR:$src))), (VREV64q16 QPR:$src)>;			def : Pat<(v2f64 (bitconvert (v8f16 QPR:$src))), (VREV64q16 QPR:$src)>;
				def : Pat<(v2f64 (bitconvert (v8bf16 QPR:$src))), (VREV64q16 QPR:$src)>;
	def : Pat<(v2f64 (bitconvert (v8i16 QPR:$src))), (VREV64q16 QPR:$src)>;			def : Pat<(v2f64 (bitconvert (v8i16 QPR:$src))), (VREV64q16 QPR:$src)>;
	def : Pat<(v2f64 (bitconvert (v16i8 QPR:$src))), (VREV64q8 QPR:$src)>;			def : Pat<(v2f64 (bitconvert (v16i8 QPR:$src))), (VREV64q8 QPR:$src)>;

	def : Pat<(v2i64 (bitconvert (v4f32 QPR:$src))), (VREV64q32 QPR:$src)>;			def : Pat<(v2i64 (bitconvert (v4f32 QPR:$src))), (VREV64q32 QPR:$src)>;
	def : Pat<(v2i64 (bitconvert (v4i32 QPR:$src))), (VREV64q32 QPR:$src)>;			def : Pat<(v2i64 (bitconvert (v4i32 QPR:$src))), (VREV64q32 QPR:$src)>;
	def : Pat<(v2i64 (bitconvert (v8f16 QPR:$src))), (VREV64q16 QPR:$src)>;			def : Pat<(v2i64 (bitconvert (v8f16 QPR:$src))), (VREV64q16 QPR:$src)>;
				def : Pat<(v2i64 (bitconvert (v8bf16 QPR:$src))), (VREV64q16 QPR:$src)>;
	def : Pat<(v2i64 (bitconvert (v8i16 QPR:$src))), (VREV64q16 QPR:$src)>;			def : Pat<(v2i64 (bitconvert (v8i16 QPR:$src))), (VREV64q16 QPR:$src)>;
	def : Pat<(v2i64 (bitconvert (v16i8 QPR:$src))), (VREV64q8 QPR:$src)>;			def : Pat<(v2i64 (bitconvert (v16i8 QPR:$src))), (VREV64q8 QPR:$src)>;

	def : Pat<(v4f32 (bitconvert (v2f64 QPR:$src))), (VREV64q32 QPR:$src)>;			def : Pat<(v4f32 (bitconvert (v2f64 QPR:$src))), (VREV64q32 QPR:$src)>;
	def : Pat<(v4f32 (bitconvert (v2i64 QPR:$src))), (VREV64q32 QPR:$src)>;			def : Pat<(v4f32 (bitconvert (v2i64 QPR:$src))), (VREV64q32 QPR:$src)>;
	def : Pat<(v4f32 (bitconvert (v8f16 QPR:$src))), (VREV32q16 QPR:$src)>;			def : Pat<(v4f32 (bitconvert (v8f16 QPR:$src))), (VREV32q16 QPR:$src)>;
				def : Pat<(v4f32 (bitconvert (v8bf16 QPR:$src))), (VREV32q16 QPR:$src)>;
	def : Pat<(v4f32 (bitconvert (v8i16 QPR:$src))), (VREV32q16 QPR:$src)>;			def : Pat<(v4f32 (bitconvert (v8i16 QPR:$src))), (VREV32q16 QPR:$src)>;
	def : Pat<(v4f32 (bitconvert (v16i8 QPR:$src))), (VREV32q8 QPR:$src)>;			def : Pat<(v4f32 (bitconvert (v16i8 QPR:$src))), (VREV32q8 QPR:$src)>;

	def : Pat<(v4i32 (bitconvert (v2f64 QPR:$src))), (VREV64q32 QPR:$src)>;			def : Pat<(v4i32 (bitconvert (v2f64 QPR:$src))), (VREV64q32 QPR:$src)>;
	def : Pat<(v4i32 (bitconvert (v2i64 QPR:$src))), (VREV64q32 QPR:$src)>;			def : Pat<(v4i32 (bitconvert (v2i64 QPR:$src))), (VREV64q32 QPR:$src)>;
	def : Pat<(v4i32 (bitconvert (v8f16 QPR:$src))), (VREV32q16 QPR:$src)>;			def : Pat<(v4i32 (bitconvert (v8f16 QPR:$src))), (VREV32q16 QPR:$src)>;
				def : Pat<(v4i32 (bitconvert (v8bf16 QPR:$src))), (VREV32q16 QPR:$src)>;
	def : Pat<(v4i32 (bitconvert (v8i16 QPR:$src))), (VREV32q16 QPR:$src)>;			def : Pat<(v4i32 (bitconvert (v8i16 QPR:$src))), (VREV32q16 QPR:$src)>;
	def : Pat<(v4i32 (bitconvert (v16i8 QPR:$src))), (VREV32q8 QPR:$src)>;			def : Pat<(v4i32 (bitconvert (v16i8 QPR:$src))), (VREV32q8 QPR:$src)>;

	def : Pat<(v8f16 (bitconvert (v2f64 QPR:$src))), (VREV64q16 QPR:$src)>;			def : Pat<(v8f16 (bitconvert (v2f64 QPR:$src))), (VREV64q16 QPR:$src)>;
	def : Pat<(v8f16 (bitconvert (v2i64 QPR:$src))), (VREV64q16 QPR:$src)>;			def : Pat<(v8f16 (bitconvert (v2i64 QPR:$src))), (VREV64q16 QPR:$src)>;
	def : Pat<(v8f16 (bitconvert (v4f32 QPR:$src))), (VREV32q16 QPR:$src)>;			def : Pat<(v8f16 (bitconvert (v4f32 QPR:$src))), (VREV32q16 QPR:$src)>;
	def : Pat<(v8f16 (bitconvert (v4i32 QPR:$src))), (VREV32q16 QPR:$src)>;			def : Pat<(v8f16 (bitconvert (v4i32 QPR:$src))), (VREV32q16 QPR:$src)>;
	def : Pat<(v8f16 (bitconvert (v16i8 QPR:$src))), (VREV16q8 QPR:$src)>;			def : Pat<(v8f16 (bitconvert (v16i8 QPR:$src))), (VREV16q8 QPR:$src)>;

				def : Pat<(v8bf16 (bitconvert (v2f64 QPR:$src))), (VREV64q16 QPR:$src)>;
				def : Pat<(v8bf16 (bitconvert (v2i64 QPR:$src))), (VREV64q16 QPR:$src)>;
				def : Pat<(v8bf16 (bitconvert (v4f32 QPR:$src))), (VREV32q16 QPR:$src)>;
				def : Pat<(v8bf16 (bitconvert (v4i32 QPR:$src))), (VREV32q16 QPR:$src)>;
				def : Pat<(v8bf16 (bitconvert (v16i8 QPR:$src))), (VREV16q8 QPR:$src)>;

	def : Pat<(v8i16 (bitconvert (v2f64 QPR:$src))), (VREV64q16 QPR:$src)>;			def : Pat<(v8i16 (bitconvert (v2f64 QPR:$src))), (VREV64q16 QPR:$src)>;
	def : Pat<(v8i16 (bitconvert (v2i64 QPR:$src))), (VREV64q16 QPR:$src)>;			def : Pat<(v8i16 (bitconvert (v2i64 QPR:$src))), (VREV64q16 QPR:$src)>;
	def : Pat<(v8i16 (bitconvert (v4f32 QPR:$src))), (VREV32q16 QPR:$src)>;			def : Pat<(v8i16 (bitconvert (v4f32 QPR:$src))), (VREV32q16 QPR:$src)>;
	def : Pat<(v8i16 (bitconvert (v4i32 QPR:$src))), (VREV32q16 QPR:$src)>;			def : Pat<(v8i16 (bitconvert (v4i32 QPR:$src))), (VREV32q16 QPR:$src)>;
	def : Pat<(v8i16 (bitconvert (v16i8 QPR:$src))), (VREV16q8 QPR:$src)>;			def : Pat<(v8i16 (bitconvert (v16i8 QPR:$src))), (VREV16q8 QPR:$src)>;

	def : Pat<(v16i8 (bitconvert (v2f64 QPR:$src))), (VREV64q8 QPR:$src)>;			def : Pat<(v16i8 (bitconvert (v2f64 QPR:$src))), (VREV64q8 QPR:$src)>;
	def : Pat<(v16i8 (bitconvert (v2i64 QPR:$src))), (VREV64q8 QPR:$src)>;			def : Pat<(v16i8 (bitconvert (v2i64 QPR:$src))), (VREV64q8 QPR:$src)>;
	def : Pat<(v16i8 (bitconvert (v4f32 QPR:$src))), (VREV32q8 QPR:$src)>;			def : Pat<(v16i8 (bitconvert (v4f32 QPR:$src))), (VREV32q8 QPR:$src)>;
	def : Pat<(v16i8 (bitconvert (v4i32 QPR:$src))), (VREV32q8 QPR:$src)>;			def : Pat<(v16i8 (bitconvert (v4i32 QPR:$src))), (VREV32q8 QPR:$src)>;
	def : Pat<(v16i8 (bitconvert (v8f16 QPR:$src))), (VREV16q8 QPR:$src)>;			def : Pat<(v16i8 (bitconvert (v8f16 QPR:$src))), (VREV16q8 QPR:$src)>;
				def : Pat<(v16i8 (bitconvert (v8bf16 QPR:$src))), (VREV16q8 QPR:$src)>;
	def : Pat<(v16i8 (bitconvert (v8i16 QPR:$src))), (VREV16q8 QPR:$src)>;			def : Pat<(v16i8 (bitconvert (v8i16 QPR:$src))), (VREV16q8 QPR:$src)>;
	}			}

	let Predicates = [HasNEON] in {			let Predicates = [HasNEON] in {
	// Here we match the specific SDNode type 'ARMVectorRegCastImpl'			// Here we match the specific SDNode type 'ARMVectorRegCastImpl'
	// rather than the more general 'ARMVectorRegCast' which would also			// rather than the more general 'ARMVectorRegCast' which would also
	// match some bitconverts. If we use the latter in cases where the			// match some bitconverts. If we use the latter in cases where the
	// input and output types are the same, the bitconvert gets elided			// input and output types are the same, the bitconvert gets elided
	// and we end up generating a nonsense match of nothing.			// and we end up generating a nonsense match of nothing.

	foreach VT = [ v16i8, v8i16, v8f16, v4i32, v4f32, v2i64, v2f64 ] in			foreach VT = [ v16i8, v8i16, v8f16, v8bf16, v4i32, v4f32, v2i64, v2f64 ] in
	foreach VT2 = [ v16i8, v8i16, v8f16, v4i32, v4f32, v2i64, v2f64 ] in			foreach VT2 = [ v16i8, v8i16, v8f16, v8bf16, v4i32, v4f32, v2i64, v2f64 ] in
	def : Pat<(VT (ARMVectorRegCastImpl (VT2 QPR:$src))), (VT QPR:$src)>;			def : Pat<(VT (ARMVectorRegCastImpl (VT2 QPR:$src))), (VT QPR:$src)>;

	foreach VT = [ v8i8, v4i16, v4f16, v2i32, v2f32, v1i64, f64 ] in			foreach VT = [ v8i8, v4i16, v4f16, v4bf16, v2i32, v2f32, v1i64, f64 ] in
	foreach VT2 = [ v8i8, v4i16, v4f16, v2i32, v2f32, v1i64, f64 ] in			foreach VT2 = [ v8i8, v4i16, v4f16, v4bf16, v2i32, v2f32, v1i64, f64 ] in
	def : Pat<(VT (ARMVectorRegCastImpl (VT2 DPR:$src))), (VT DPR:$src)>;			def : Pat<(VT (ARMVectorRegCastImpl (VT2 DPR:$src))), (VT DPR:$src)>;
	}			}

	// Use VLD1/VST1 + VREV for non-word-aligned v2f64 load/store on Big Endian			// Use VLD1/VST1 + VREV for non-word-aligned v2f64 load/store on Big Endian
	let Predicates = [IsBE,HasNEON] in {			let Predicates = [IsBE,HasNEON] in {
	def : Pat<(v2f64 (byte_alignedload addrmode6:$addr)),			def : Pat<(v2f64 (byte_alignedload addrmode6:$addr)),
	(VREV64q8 (VLD1q8 addrmode6:$addr))>;			(VREV64q8 (VLD1q8 addrmode6:$addr))>;
	def : Pat<(byte_alignedstore (v2f64 QPR:$value), addrmode6:$addr),			def : Pat<(byte_alignedstore (v2f64 QPR:$value), addrmode6:$addr),
	▲ Show 20 Lines • Show All 1,458 Lines • Show Last 20 Lines

llvm/lib/Target/ARM/ARMInstrVFP.td

Show First 20 Lines • Show All 152 Lines • ▼ Show 20 Lines	def VLDRS : ASI5<0b1101, 0b01, (outs SPR:$Sd), (ins addrmode5:$addr),
// Some single precision VFP instructions may be executed on both NEON and VFP		// Some single precision VFP instructions may be executed on both NEON and VFP
// pipelines.		// pipelines.
let D = VFPNeonDomain;		let D = VFPNeonDomain;
}		}

let isUnpredicable = 1 in		let isUnpredicable = 1 in
def VLDRH : AHI5<0b1101, 0b01, (outs HPR:$Sd), (ins addrmode5fp16:$addr),		def VLDRH : AHI5<0b1101, 0b01, (outs HPR:$Sd), (ins addrmode5fp16:$addr),
IIC_fpLoad16, "vldr", ".16\t$Sd, $addr",		IIC_fpLoad16, "vldr", ".16\t$Sd, $addr",
[(set HPR:$Sd, (alignedload16 addrmode5fp16:$addr))]>,		[]>,
Requires<[HasFPRegs16]>;		Requires<[HasFPRegs16]>;

} // End of 'let canFoldAsLoad = 1, isReMaterializable = 1 in'		} // End of 'let canFoldAsLoad = 1, isReMaterializable = 1 in'

		def : FPRegs16Pat<(f16 (alignedload16 addrmode5fp16:$addr)),
		dmgreenUnsubmitted Not Done Reply Inline Actions I think these patterns should still have `let Predicates = [HasFPRegs16] in` around them, like we do for all the NEON or MVE patterns. dmgreen: I think these patterns should still have `let Predicates = [HasFPRegs16] in` around them, like…
		labrineaAuthorUnsubmitted Done Reply Inline Actions I'll create a predicated pattern labrinea: I'll create a predicated pattern
		(VLDRH addrmode5fp16:$addr)>;
		def : FPRegs16Pat<(bf16 (alignedload16 addrmode5fp16:$addr)),
		(VLDRH addrmode5fp16:$addr)>;

def VSTRD : ADI5<0b1101, 0b00, (outs), (ins DPR:$Dd, addrmode5:$addr),		def VSTRD : ADI5<0b1101, 0b00, (outs), (ins DPR:$Dd, addrmode5:$addr),
IIC_fpStore64, "vstr", "\t$Dd, $addr",		IIC_fpStore64, "vstr", "\t$Dd, $addr",
[(alignedstore32 (f64 DPR:$Dd), addrmode5:$addr)]>,		[(alignedstore32 (f64 DPR:$Dd), addrmode5:$addr)]>,
Requires<[HasFPRegs]>;		Requires<[HasFPRegs]>;

def VSTRS : ASI5<0b1101, 0b00, (outs), (ins SPR:$Sd, addrmode5:$addr),		def VSTRS : ASI5<0b1101, 0b00, (outs), (ins SPR:$Sd, addrmode5:$addr),
IIC_fpStore32, "vstr", "\t$Sd, $addr",		IIC_fpStore32, "vstr", "\t$Sd, $addr",
[(alignedstore32 SPR:$Sd, addrmode5:$addr)]>,		[(alignedstore32 SPR:$Sd, addrmode5:$addr)]>,
Requires<[HasFPRegs]> {		Requires<[HasFPRegs]> {
// Some single precision VFP instructions may be executed on both NEON and VFP		// Some single precision VFP instructions may be executed on both NEON and VFP
// pipelines.		// pipelines.
let D = VFPNeonDomain;		let D = VFPNeonDomain;
}		}

let isUnpredicable = 1 in		let isUnpredicable = 1 in
def VSTRH : AHI5<0b1101, 0b00, (outs), (ins HPR:$Sd, addrmode5fp16:$addr),		def VSTRH : AHI5<0b1101, 0b00, (outs), (ins HPR:$Sd, addrmode5fp16:$addr),
IIC_fpStore16, "vstr", ".16\t$Sd, $addr",		IIC_fpStore16, "vstr", ".16\t$Sd, $addr",
[(alignedstore16 HPR:$Sd, addrmode5fp16:$addr)]>,		[]>,
Requires<[HasFPRegs16]>;		Requires<[HasFPRegs16]>;

		def : FPRegs16Pat<(alignedstore16 (f16 HPR:$Sd), addrmode5fp16:$addr),
		(VSTRH (f16 HPR:$Sd), addrmode5fp16:$addr)>;
		def : FPRegs16Pat<(alignedstore16 (bf16 HPR:$Sd), addrmode5fp16:$addr),
		(VSTRH (bf16 HPR:$Sd), addrmode5fp16:$addr)>;

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// Load / store multiple Instructions.		// Load / store multiple Instructions.
//		//

multiclass vfp_ldst_mult<string asm, bit L_bit,		multiclass vfp_ldst_mult<string asm, bit L_bit,
InstrItinClass itin, InstrItinClass itin_upd> {		InstrItinClass itin, InstrItinClass itin_upd> {
let Predicates = [HasFPRegs] in {		let Predicates = [HasFPRegs] in {
// Double Precision		// Double Precision
▲ Show 20 Lines • Show All 1,051 Lines • ▼ Show 20 Lines	def VMOVSRR : AVConv5I<0b11000100, 0b1010,

let DecoderMethod = "DecodeVMOVSRR";		let DecoderMethod = "DecodeVMOVSRR";
}		}

// Move H->R, clearing top 16 bits		// Move H->R, clearing top 16 bits
def VMOVRH : AVConv2I<0b11100001, 0b1001,		def VMOVRH : AVConv2I<0b11100001, 0b1001,
(outs rGPR:$Rt), (ins HPR:$Sn),		(outs rGPR:$Rt), (ins HPR:$Sn),
IIC_fpMOVSI, "vmov", ".f16\t$Rt, $Sn",		IIC_fpMOVSI, "vmov", ".f16\t$Rt, $Sn",
[(set rGPR:$Rt, (arm_vmovrh HPR:$Sn))]>,		[]>,
Requires<[HasFPRegs16]>,		Requires<[HasFPRegs16]>,
Sched<[WriteFPMOV]> {		Sched<[WriteFPMOV]> {
// Instruction operands.		// Instruction operands.
bits<4> Rt;		bits<4> Rt;
bits<5> Sn;		bits<5> Sn;

// Encode instruction operands.		// Encode instruction operands.
let Inst{19-16} = Sn{4-1};		let Inst{19-16} = Sn{4-1};
let Inst{7} = Sn{0};		let Inst{7} = Sn{0};
let Inst{15-12} = Rt;		let Inst{15-12} = Rt;

let Inst{6-5} = 0b00;		let Inst{6-5} = 0b00;
let Inst{3-0} = 0b0000;		let Inst{3-0} = 0b0000;

let isUnpredicable = 1;		let isUnpredicable = 1;
}		}

// Move R->H, clearing top 16 bits		// Move R->H, clearing top 16 bits
def VMOVHR : AVConv4I<0b11100000, 0b1001,		def VMOVHR : AVConv4I<0b11100000, 0b1001,
(outs HPR:$Sn), (ins rGPR:$Rt),		(outs HPR:$Sn), (ins rGPR:$Rt),
IIC_fpMOVIS, "vmov", ".f16\t$Sn, $Rt",		IIC_fpMOVIS, "vmov", ".f16\t$Sn, $Rt",
[(set HPR:$Sn, (arm_vmovhr rGPR:$Rt))]>,		[]>,
Requires<[HasFPRegs16]>,		Requires<[HasFPRegs16]>,
Sched<[WriteFPMOV]> {		Sched<[WriteFPMOV]> {
// Instruction operands.		// Instruction operands.
bits<5> Sn;		bits<5> Sn;
bits<4> Rt;		bits<4> Rt;

// Encode instruction operands.		// Encode instruction operands.
let Inst{19-16} = Sn{4-1};		let Inst{19-16} = Sn{4-1};
let Inst{7} = Sn{0};		let Inst{7} = Sn{0};
let Inst{15-12} = Rt;		let Inst{15-12} = Rt;

let Inst{6-5} = 0b00;		let Inst{6-5} = 0b00;
let Inst{3-0} = 0b0000;		let Inst{3-0} = 0b0000;

let isUnpredicable = 1;		let isUnpredicable = 1;
}		}

		def : FPRegs16Pat<(arm_vmovrh (f16 HPR:$Sn)), (VMOVRH (f16 HPR:$Sn))>;
		def : FPRegs16Pat<(arm_vmovrh (bf16 HPR:$Sn)), (VMOVRH (bf16 HPR:$Sn))>;
		def : FPRegs16Pat<(f16 (arm_vmovhr rGPR:$Rt)), (VMOVHR rGPR:$Rt)>;
		def : FPRegs16Pat<(bf16 (arm_vmovhr rGPR:$Rt)), (VMOVHR rGPR:$Rt)>;

// FMRDH: SPR -> GPR		// FMRDH: SPR -> GPR
// FMRDL: SPR -> GPR		// FMRDL: SPR -> GPR
// FMRRS: SPR -> GPR		// FMRRS: SPR -> GPR
// FMRX: SPR system reg -> GPR		// FMRX: SPR system reg -> GPR
// FMSRR: GPR -> SPR		// FMSRR: GPR -> SPR
// FMXR: GPR -> VFP system reg		// FMXR: GPR -> VFP system reg


▲ Show 20 Lines • Show All 1,495 Lines • Show Last 20 Lines

llvm/lib/Target/ARM/ARMRegisterInfo.td

Show First 20 Lines • Show All 384 Lines • ▼ Show 20 Lines	let AltOrders = [(add (decimate SPR, 2), SPR),
(decimate (rotl SPR, 1), 4),		(decimate (rotl SPR, 1), 4),
(decimate (rotl SPR, 1), 2))];		(decimate (rotl SPR, 1), 2))];
let AltOrderSelect = [{		let AltOrderSelect = [{
return 1 + MF.getSubtarget<ARMSubtarget>().useStride4VFPs();		return 1 + MF.getSubtarget<ARMSubtarget>().useStride4VFPs();
}];		}];
let DiagnosticString = "operand must be a register in range [s0, s31]";		let DiagnosticString = "operand must be a register in range [s0, s31]";
}		}

def HPR : RegisterClass<"ARM", [f16], 32, (sequence "S%u", 0, 31)> {		def HPR : RegisterClass<"ARM", [f16, bf16], 32, (sequence "S%u", 0, 31)> {
let AltOrders = [(add (decimate HPR, 2), SPR),		let AltOrders = [(add (decimate HPR, 2), SPR),
(add (decimate HPR, 4),		(add (decimate HPR, 4),
(decimate HPR, 2),		(decimate HPR, 2),
(decimate (rotl HPR, 1), 4),		(decimate (rotl HPR, 1), 4),
(decimate (rotl HPR, 1), 2))];		(decimate (rotl HPR, 1), 2))];
let AltOrderSelect = [{		let AltOrderSelect = [{
return 1 + MF.getSubtarget<ARMSubtarget>().useStride4VFPs();		return 1 + MF.getSubtarget<ARMSubtarget>().useStride4VFPs();
}];		}];
let DiagnosticString = "operand must be a register in range [s0, s31]";		let DiagnosticString = "operand must be a register in range [s0, s31]";
}		}

// Subset of SPR which can be used as a source of NEON scalars for 16-bit		// Subset of SPR which can be used as a source of NEON scalars for 16-bit
// operations		// operations
def SPR_8 : RegisterClass<"ARM", [f32], 32, (sequence "S%u", 0, 15)> {		def SPR_8 : RegisterClass<"ARM", [f32], 32, (sequence "S%u", 0, 15)> {
let DiagnosticString = "operand must be a register in range [s0, s15]";		let DiagnosticString = "operand must be a register in range [s0, s15]";
}		}

// Scalar double precision floating point / generic 64-bit vector register		// Scalar double precision floating point / generic 64-bit vector register
// class.		// class.
// ARM requires only word alignment for double. It's more performant if it		// ARM requires only word alignment for double. It's more performant if it
// is double-word alignment though.		// is double-word alignment though.
def DPR : RegisterClass<"ARM", [f64, v8i8, v4i16, v2i32, v1i64, v2f32, v4f16], 64,		def DPR : RegisterClass<"ARM", [f64, v8i8, v4i16, v2i32, v1i64, v2f32, v4f16, v4bf16], 64,
(sequence "D%u", 0, 31)> {		(sequence "D%u", 0, 31)> {
// Allocate non-VFP2 registers D16-D31 first, and prefer even registers on		// Allocate non-VFP2 registers D16-D31 first, and prefer even registers on
// Darwin platforms.		// Darwin platforms.
let AltOrders = [(rotl DPR, 16),		let AltOrders = [(rotl DPR, 16),
(add (decimate (rotl DPR, 16), 2), (rotl DPR, 16))];		(add (decimate (rotl DPR, 16), 2), (rotl DPR, 16))];
let AltOrderSelect = [{		let AltOrderSelect = [{
return 1 + MF.getSubtarget<ARMSubtarget>().useStride4VFPs();		return 1 + MF.getSubtarget<ARMSubtarget>().useStride4VFPs();
}];		}];
let DiagnosticType = "DPR";		let DiagnosticType = "DPR";
}		}

// Scalar single and double precision floating point and VPR register class,		// Scalar single and double precision floating point and VPR register class,
// this is only used for parsing, don't use it anywhere else as the size and		// this is only used for parsing, don't use it anywhere else as the size and
// types don't match!		// types don't match!
def FPWithVPR : RegisterClass<"ARM", [f32], 32, (add SPR, DPR, VPR)> {		def FPWithVPR : RegisterClass<"ARM", [f32], 32, (add SPR, DPR, VPR)> {
let isAllocatable = 0;		let isAllocatable = 0;
}		}

// Subset of DPR that are accessible with VFP2 (and so that also have		// Subset of DPR that are accessible with VFP2 (and so that also have
// 32-bit SPR subregs).		// 32-bit SPR subregs).
def DPR_VFP2 : RegisterClass<"ARM", [f64, v8i8, v4i16, v2i32, v1i64, v2f32, v4f16], 64,		def DPR_VFP2 : RegisterClass<"ARM", [f64, v8i8, v4i16, v2i32, v1i64, v2f32, v4f16, v4bf16], 64,
(trunc DPR, 16)> {		(trunc DPR, 16)> {
let DiagnosticString = "operand must be a register in range [d0, d15]";		let DiagnosticString = "operand must be a register in range [d0, d15]";
}		}

// Subset of DPR which can be used as a source of NEON scalars for 16-bit		// Subset of DPR which can be used as a source of NEON scalars for 16-bit
// operations		// operations
def DPR_8 : RegisterClass<"ARM", [f64, v8i8, v4i16, v2i32, v1i64, v2f32, v4f16], 64,		def DPR_8 : RegisterClass<"ARM", [f64, v8i8, v4i16, v2i32, v1i64, v2f32, v4f16, v4bf16], 64,
(trunc DPR, 8)> {		(trunc DPR, 8)> {
let DiagnosticString = "operand must be a register in range [d0, d7]";		let DiagnosticString = "operand must be a register in range [d0, d7]";
}		}

// Generic 128-bit vector register class.		// Generic 128-bit vector register class.
def QPR : RegisterClass<"ARM", [v16i8, v8i16, v4i32, v2i64, v4f32, v2f64, v8f16], 128,		def QPR : RegisterClass<"ARM", [v16i8, v8i16, v4i32, v2i64, v4f32, v2f64, v8f16, v8bf16], 128,
(sequence "Q%u", 0, 15)> {		(sequence "Q%u", 0, 15)> {
// Allocate non-VFP2 aliases Q8-Q15 first.		// Allocate non-VFP2 aliases Q8-Q15 first.
let AltOrders = [(rotl QPR, 8), (trunc QPR, 8)];		let AltOrders = [(rotl QPR, 8), (trunc QPR, 8)];
let AltOrderSelect = [{		let AltOrderSelect = [{
return 1 + MF.getSubtarget<ARMSubtarget>().hasMVEIntegerOps();		return 1 + MF.getSubtarget<ARMSubtarget>().hasMVEIntegerOps();
}];		}];
let DiagnosticString = "operand must be a register in range [q0, q15]";		let DiagnosticString = "operand must be a register in range [q0, q15]";
}		}
▲ Show 20 Lines • Show All 136 Lines • Show Last 20 Lines

llvm/lib/Target/ARM/ARMSubtarget.h

Show First 20 Lines • Show All 696 Lines • ▼ Show 20 Lines	bool hasBaseDSP() const {
else		else
return hasV5TEOps();		return hasV5TEOps();
}		}

bool hasFP16() const { return HasFP16; }		bool hasFP16() const { return HasFP16; }
bool hasD32() const { return HasD32; }		bool hasD32() const { return HasD32; }
bool hasFullFP16() const { return HasFullFP16; }		bool hasFullFP16() const { return HasFullFP16; }
bool hasFP16FML() const { return HasFP16FML; }		bool hasFP16FML() const { return HasFP16FML; }
		bool hasBF16() const { return HasBF16; }

bool hasFuseAES() const { return HasFuseAES; }		bool hasFuseAES() const { return HasFuseAES; }
bool hasFuseLiterals() const { return HasFuseLiterals; }		bool hasFuseLiterals() const { return HasFuseLiterals; }
/// Return true if the CPU supports any kind of instruction fusion.		/// Return true if the CPU supports any kind of instruction fusion.
bool hasFusion() const { return hasFuseAES() \|\| hasFuseLiterals(); }		bool hasFusion() const { return hasFuseAES() \|\| hasFuseLiterals(); }

bool hasMatMulInt8() const { return HasMatMulInt8; }		bool hasMatMulInt8() const { return HasMatMulInt8; }

▲ Show 20 Lines • Show All 192 Lines • Show Last 20 Lines

llvm/test/CodeGen/ARM/bfloat.ll

This file was added.

				; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
				; RUN: llc -float-abi hard -mattr=+bf16,+fullfp16 < %s \| FileCheck %s --check-prefix=HARD
				; RUN: llc -float-abi soft -mattr=+bf16,+fullfp16 < %s \| FileCheck %s --check-prefix=SOFT

				target datalayout = "e-m:e-p:32:32-Fi8-i64:64-v128:64:128-a:0:32-n32-S64"
				target triple = "armv8.6a-arm-none-eabi"

				define bfloat @load_scalar_bf(bfloat* %addr) {
				; HARD-LABEL: load_scalar_bf:
				; HARD: @ %bb.0: @ %entry
				dmgreenUnsubmitted Not Done Reply Inline Actions These CHECK lines are left over. dmgreen: These CHECK lines are left over.
				labrineaAuthorUnsubmitted Done Reply Inline Actions Oops, didn't notice. I'll remove them. labrinea: Oops, didn't notice. I'll remove them.
				; HARD-NEXT: vldr.16 s0, [r0]
				; HARD-NEXT: bx lr
				;
				; SOFT-LABEL: load_scalar_bf:
				; SOFT: @ %bb.0: @ %entry
				; SOFT-NEXT: vldr.16 s0, [r0]
				; SOFT-NEXT: vmov r0, s0
				; SOFT-NEXT: bx lr
				entry:
				%0 = load bfloat, bfloat* %addr, align 2
				ret bfloat %0
				}

				define void @store_scalar_bf(bfloat %v, bfloat* %addr) {
				; HARD-LABEL: store_scalar_bf:
				; HARD: @ %bb.0: @ %entry
				; HARD-NEXT: vstr.16 s0, [r0]
				; HARD-NEXT: bx lr
				;
				; SOFT-LABEL: store_scalar_bf:
				; SOFT: @ %bb.0: @ %entry
				; SOFT-NEXT: vmov.f16 s0, r0
				; SOFT-NEXT: vstr.16 s0, [r1]
				; SOFT-NEXT: bx lr
				entry:
				store bfloat %v, bfloat* %addr, align 2
				ret void
				}

				define <4 x bfloat> @load_vector4_bf(<4 x bfloat>* %addr) {
				; HARD-LABEL: load_vector4_bf:
				; HARD: @ %bb.0: @ %entry
				; HARD-NEXT: vldr d0, [r0]
				; HARD-NEXT: bx lr
				;
				; SOFT-LABEL: load_vector4_bf:
				; SOFT: @ %bb.0: @ %entry
				; SOFT-NEXT: vldr d16, [r0]
				; SOFT-NEXT: vmov r0, r1, d16
				; SOFT-NEXT: bx lr
				entry:
				%0 = load <4 x bfloat>, <4 x bfloat>* %addr, align 8
				ret <4 x bfloat> %0
				}

				define void @store_vector4_bf(<4 x bfloat> %v, <4 x bfloat>* %addr) {
				; HARD-LABEL: store_vector4_bf:
				; HARD: @ %bb.0: @ %entry
				; HARD-NEXT: vstr d0, [r0]
				; HARD-NEXT: bx lr
				;
				; SOFT-LABEL: store_vector4_bf:
				; SOFT: @ %bb.0: @ %entry
				; SOFT-NEXT: strd r0, r1, [r2]
				; SOFT-NEXT: bx lr
				entry:
				store <4 x bfloat> %v, <4 x bfloat>* %addr, align 8
				ret void
				}

				define <8 x bfloat> @load_vector8_bf(<8 x bfloat>* %addr) {
				; HARD-LABEL: load_vector8_bf:
				; HARD: @ %bb.0: @ %entry
				; HARD-NEXT: vld1.64 {d0, d1}, [r0]
				; HARD-NEXT: bx lr
				;
				; SOFT-LABEL: load_vector8_bf:
				; SOFT: @ %bb.0: @ %entry
				; SOFT-NEXT: vld1.64 {d16, d17}, [r0]
				; SOFT-NEXT: vmov r0, r1, d16
				; SOFT-NEXT: vmov r2, r3, d17
				; SOFT-NEXT: bx lr
				entry:
				%0 = load <8 x bfloat>, <8 x bfloat>* %addr, align 8
				ret <8 x bfloat> %0
				}

				define void @store_vector8_bf(<8 x bfloat> %v, <8 x bfloat>* %addr) {
				; HARD-LABEL: store_vector8_bf:
				; HARD: @ %bb.0: @ %entry
				; HARD-NEXT: vst1.64 {d0, d1}, [r0]
				; HARD-NEXT: bx lr
				;
				; SOFT-LABEL: store_vector8_bf:
				; SOFT: @ %bb.0: @ %entry
				; SOFT-NEXT: vmov d17, r2, r3
				; SOFT-NEXT: ldr r12, [sp]
				; SOFT-NEXT: vmov d16, r0, r1
				; SOFT-NEXT: vst1.64 {d16, d17}, [r12]
				; SOFT-NEXT: bx lr
				entry:
				store <8 x bfloat> %v, <8 x bfloat>* %addr, align 8
				ret void
				}