This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/lib/Target/AArch64/
-
lib/
-
Target/
-
AArch64/
-
AArch64CallingConvention.td
1/2
AArch64ISelLowering.cpp
-
AArch64InstrFormats.td
-
AArch64InstrInfo.td
1
AArch64RegisterInfo.td

Differential D79709

[AArch64][BFloat] basic AArch64 bfloat support
ClosedPublic

Authored by stuij on May 11 2020, 4:32 AM.

Download Raw Diff

Details

Reviewers

t.p.northover
c-rhodes
fpetrogalli
sdesmalen
ostannard
LukeGeeson
ab

Commits

rG42eba9b40b25: [AArch64][BFloat] basic AArch64 bfloat support

Summary

This patch adds the bfloat type to the AArch64 backend:

adds it as part of the FPR16 register class
adds bfloat calling conventions
as f16 is now not the only FPR16 type anymore, we need to constrain a number of instruction patterns using FPR16Op to help out the TableGen type inferrer

This patch is part of a series implementing the Bfloat16 extension of the
Armv8.6-a architecture, as detailed here:

https://community.arm.com/developer/ip-products/processors/b/processors-ip-blog/posts/arm-architecture-developments-armv8-6-a

The bfloat type, and its properties are specified in the Arm Architecture
Reference Manual:

https://developer.arm.com/docs/ddi0487/latest/arm-architecture-reference-manual-armv8-for-armv8-a-architecture-profile

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

stuij created this revision.May 11 2020, 4:32 AM

Herald added a project: Restricted Project. · View Herald TranscriptMay 11 2020, 4:32 AM

Herald added subscribers: llvm-commits, danielkiss, hiraditya, kristof.beyls. · View Herald Transcript

stuij added a parent revision: D79706: [CodeGen][BFloat] Add bfloat MVT type.May 11 2020, 4:34 AM

stuij added a child revision: D79712: [AArch64][BFloat] add BFloat instruction support for AArch64.May 11 2020, 4:53 AM

Harbormaster failed remote builds in B56295: Diff 263145!May 11 2020, 5:52 AM

stuij added reviewers: t.p.northover, c-rhodes, fpetrogalli, sdesmalen, ostannard.May 11 2020, 5:55 AM

stuij added subscribers: LukeGeeson, pbarrio.

stuij added a reviewer: LukeGeeson.May 11 2020, 5:58 AM

stuij added a reviewer: ab.May 11 2020, 6:48 AM

Hi @stuij ,

thank you for working on this!

Is there a way we can test the calling convention with your changes? A test that shows that passing or returning bfloat (scalar or vector) via IR functions is mapping to the correct registers will be good to have.

Grazie,

Francesci

llvm/lib/Target/AArch64/AArch64RegisterInfo.td
428	nit: remove me

This revision now requires changes to proceed.May 15 2020, 9:18 AM

In D79709#2038845, @fpetrogalli wrote:

Hi @stuij ,

thank you for working on this!

Is there a way we can test the calling convention with your changes? A test that shows that passing or returning bfloat (scalar or vector) via IR functions is mapping to the correct registers will be good to have.

Grazie,

Francesci

Hi Francesci,
I implemented this in the C type patch, up to the Bfloat IR level only so far, this patch adds the AArch64 codegen for those things and it'd be worth having a backend patch too
https://reviews.llvm.org/D76077

specifically clang/test/CodeGen/arm-bf16-params-returns.c

@fpetrogalli: Yes, good point. It was on my todo. I had tested these changes with such a snippet, so there's no good reason I didn't add it in the first place.

Having a think, I think the calling convention test would be more meaningful if we have a bit more bfloat lowering support. Which we have in the bfloat lowering follow-up patch: https://reviews.llvm.org/D79712

As it is, for this patch we can test we pass a bfloat through the function, which gives us a ret, which I feel isn't too meaningful. But if we for example load it from a pointer, we can check that the arguments are put in the correct register.

Note that these argument passing tests discussed above aren't present in the follow-up patch at the moment. I'm currently implementing them.

In D79709#2046781, @stuij wrote:

Having a think, I think the calling convention test would be more meaningful if we have a bit more bfloat lowering support. Which we have in the bfloat lowering follow-up patch: https://reviews.llvm.org/D79712

Yep - I'd make sure that the codegen patch is in before testing the CC. In fact, for the codegen patch you mention, I don't think you need CC at all:

void test_ldst(bfloat * A, bfloat *B) {
%1 = load bfloat, bfloat* A
void store(bfloat %1, bfloat *b)
}

Then, when the codegen is available, you can test the calling convention.

As it is, for this patch we can test we pass a bfloat through the function, which gives us a ret, which I feel isn't too meaningful. But if we for example load it from a pointer, we can check that the arguments are put in the correct register.

I think that the tests for the calling convention should look something like the following:

bfloat callee() {
   // check that h7 is not preserved
   // check that h22 and h23 are preserved (didn't check the actual calling convention, just guessing here, to give an idea)

   //some assembly code that uses some of the registers that are not preserved across the call, and some that are call preserved
   // e.g. :
  call void asm sideeffect "nop", "~{h7},~{h22},~{h23}"() nounwind
}

bfloat caller (bfloat *%A) {
// check that the registers preserved across the call are preserved by the caller, by for example clobbering h0 between the load and the call, and making sure that the clobbered h0 is stored before being written with the value of A
    %0 = load bfloat from A
   %1 = call bfloat @callee(bfloat %A); 
  ret bfloat %1;
}

Hiya Francesco, thanks for the thorough comment :)

In D79709#2047996, @fpetrogalli wrote:

In D79709#2046781, @stuij wrote:

Having a think, I think the calling convention test would be more meaningful if we have a bit more bfloat lowering support. Which we have in the bfloat lowering follow-up patch: https://reviews.llvm.org/D79712

Yep - I'd make sure that the codegen patch is in before testing the CC. In fact, for the codegen patch you mention, I don't think you need CC at all:

I'm not talking about testing CC in general (tbh I'm not convinced we need extensive CC testing for every single type). I'm talking about servicing your request of a test for passing or returning bfloat:

Is there a way we can test the calling convention with your changes? A test that shows that passing or returning bfloat (scalar or vector) via IR functions is mapping to the correct registers will be good to have.

As you mention, a sensible test would show we're passing bfloat in a sensible register, but this patch doesn't supply support for lowering of for example load. The follow-up patch does support this. However this patch implements passing bfloat as an argument, so this patch needs to be applied before we can apply any other patches.

My suggestion is to commit this patch as-is, and put a meaningful argument-passing test (which I've already implemented) in the above mentioned follow-up patch.

Hi @stuij

approving this, thank you for the explanation on the way you want to do testing.

My preferred way would be to extract the ld/st from the code gen patch, do the calling convention patch and test it with the lds/st codegen, then add those codegen tests that will make use of the CC for things like passing argument to operations like add, sub and so on.

If you are confident that your code here is correct because of the codegen patch test, I am happy for you to submit it without tests, followed by the codegen tests. Please make sure that you submit a third patch that tests the calling conventions using inline asm that clobbers registers.

So, LGTM! :)

Francesco

This revision is now accepted and ready to land.May 21 2020, 8:58 AM

stuij edited the summary of this revision. (Show Details)May 22 2020, 3:12 AM

update commit text

Closed by commit rG42eba9b40b25: [AArch64][BFloat] basic AArch64 bfloat support (authored by stuij). · Explain WhyMay 27 2020, 7:33 AM

This revision was automatically updated to reflect the committed changes.

Harbormaster completed remote builds in B58049: Diff 266523.May 27 2020, 9:11 AM

c-rhodes added inline comments.Jun 26 2020, 6:17 AM

llvm/lib/Target/AArch64/AArch64ISelLowering.cpp
135	Shouldn't this and the types below be predicated on `Subtarget->hasBF16()`? We've been fixing up cases in SVE for bfloat intrinsics where we missed predicating intrinsics / patterns on `+bf16`. I fixed this for the sizeless bfloat types added here in D82494 and it revealed the places we'd forgot to add the guard.

stuij marked an inline comment as done.Jul 6 2020, 7:06 AM

stuij added inline comments.

llvm/lib/Target/AArch64/AArch64ISelLowering.cpp
135	Sorry, I missed this comment. Yes, you're right, we should clean this up.

Revision Contents

Path

Size

llvm/

lib/

Target/

AArch64/

AArch64CallingConvention.td

59 lines

AArch64ISelLowering.cpp

8 lines

AArch64InstrFormats.td

38 lines

AArch64InstrInfo.td

2 lines

AArch64RegisterInfo.td

16 lines

Diff 266537

llvm/lib/Target/AArch64/AArch64CallingConvention.td

Show All 27 Lines
let Entry = 1 in		let Entry = 1 in
def CC_AArch64_AAPCS : CallingConv<[		def CC_AArch64_AAPCS : CallingConv<[
CCIfType<[iPTR], CCBitConvertToType<i64>>,		CCIfType<[iPTR], CCBitConvertToType<i64>>,
CCIfType<[v2f32], CCBitConvertToType<v2i32>>,		CCIfType<[v2f32], CCBitConvertToType<v2i32>>,
CCIfType<[v2f64, v4f32], CCBitConvertToType<v2i64>>,		CCIfType<[v2f64, v4f32], CCBitConvertToType<v2i64>>,

// Big endian vectors must be passed as if they were 1-element vectors so that		// Big endian vectors must be passed as if they were 1-element vectors so that
// their lanes are in a consistent order.		// their lanes are in a consistent order.
CCIfBigEndian<CCIfType<[v2i32, v2f32, v4i16, v4f16, v8i8],		CCIfBigEndian<CCIfType<[v2i32, v2f32, v4i16, v4f16, v4bf16, v8i8],
CCBitConvertToType<f64>>>,		CCBitConvertToType<f64>>>,
CCIfBigEndian<CCIfType<[v2i64, v2f64, v4i32, v4f32, v8i16, v8f16, v16i8],		CCIfBigEndian<CCIfType<[v2i64, v2f64, v4i32, v4f32, v8i16, v8f16, v8bf16, v16i8],
CCBitConvertToType<f128>>>,		CCBitConvertToType<f128>>>,

// In AAPCS, an SRet is passed in X8, not X0 like a normal pointer parameter.		// In AAPCS, an SRet is passed in X8, not X0 like a normal pointer parameter.
// However, on windows, in some circumstances, the SRet is passed in X0 or X1		// However, on windows, in some circumstances, the SRet is passed in X0 or X1
// instead. The presence of the inreg attribute indicates that SRet is		// instead. The presence of the inreg attribute indicates that SRet is
// passed in the alternative register (X0 or X1), not X8:		// passed in the alternative register (X0 or X1), not X8:
// - X0 for non-instance methods.		// - X0 for non-instance methods.
// - X1 for instance methods.		// - X1 for instance methods.
Show All 23 Lines	def CC_AArch64_AAPCS : CallingConv<[
CCIfSwiftSelf<CCIfType<[i64], CCAssignToRegWithShadow<[X20], [W20]>>>,		CCIfSwiftSelf<CCIfType<[i64], CCAssignToRegWithShadow<[X20], [W20]>>>,

// A SwiftError is passed in X21.		// A SwiftError is passed in X21.
CCIfSwiftError<CCIfType<[i64], CCAssignToRegWithShadow<[X21], [W21]>>>,		CCIfSwiftError<CCIfType<[i64], CCAssignToRegWithShadow<[X21], [W21]>>>,

CCIfConsecutiveRegs<CCCustom<"CC_AArch64_Custom_Block">>,		CCIfConsecutiveRegs<CCCustom<"CC_AArch64_Custom_Block">>,

CCIfType<[nxv16i8, nxv8i16, nxv4i32, nxv2i64, nxv2f16, nxv4f16, nxv8f16,		CCIfType<[nxv16i8, nxv8i16, nxv4i32, nxv2i64, nxv2f16, nxv4f16, nxv8f16,
nxv2f32, nxv4f32, nxv2f64],		nxv2bf16, nxv4bf16, nxv8bf16, nxv2f32, nxv4f32, nxv2f64],
CCAssignToReg<[Z0, Z1, Z2, Z3, Z4, Z5, Z6, Z7]>>,		CCAssignToReg<[Z0, Z1, Z2, Z3, Z4, Z5, Z6, Z7]>>,
CCIfType<[nxv16i8, nxv8i16, nxv4i32, nxv2i64, nxv2f16, nxv4f16, nxv8f16,		CCIfType<[nxv16i8, nxv8i16, nxv4i32, nxv2i64, nxv2f16, nxv4f16, nxv8f16,
nxv2f32, nxv4f32, nxv2f64],		nxv2bf16, nxv4bf16, nxv8bf16, nxv2f32, nxv4f32, nxv2f64],
CCPassIndirect<i64>>,		CCPassIndirect<i64>>,

CCIfType<[nxv2i1, nxv4i1, nxv8i1, nxv16i1],		CCIfType<[nxv2i1, nxv4i1, nxv8i1, nxv16i1],
CCAssignToReg<[P0, P1, P2, P3]>>,		CCAssignToReg<[P0, P1, P2, P3]>>,
CCIfType<[nxv2i1, nxv4i1, nxv8i1, nxv16i1],		CCIfType<[nxv2i1, nxv4i1, nxv8i1, nxv16i1],
CCPassIndirect<i64>>,		CCPassIndirect<i64>>,

// Handle i1, i8, i16, i32, i64, f32, f64 and v2f64 by passing in registers,		// Handle i1, i8, i16, i32, i64, f32, f64 and v2f64 by passing in registers,
// up to eight each of GPR and FPR.		// up to eight each of GPR and FPR.
CCIfType<[i1, i8, i16], CCPromoteToType<i32>>,		CCIfType<[i1, i8, i16], CCPromoteToType<i32>>,
CCIfType<[i32], CCAssignToRegWithShadow<[W0, W1, W2, W3, W4, W5, W6, W7],		CCIfType<[i32], CCAssignToRegWithShadow<[W0, W1, W2, W3, W4, W5, W6, W7],
[X0, X1, X2, X3, X4, X5, X6, X7]>>,		[X0, X1, X2, X3, X4, X5, X6, X7]>>,
// i128 is split to two i64s, we can't fit half to register X7.		// i128 is split to two i64s, we can't fit half to register X7.
CCIfType<[i64], CCIfSplit<CCAssignToRegWithShadow<[X0, X2, X4, X6],		CCIfType<[i64], CCIfSplit<CCAssignToRegWithShadow<[X0, X2, X4, X6],
[X0, X1, X3, X5]>>>,		[X0, X1, X3, X5]>>>,

// i128 is split to two i64s, and its stack alignment is 16 bytes.		// i128 is split to two i64s, and its stack alignment is 16 bytes.
CCIfType<[i64], CCIfSplit<CCAssignToStackWithShadow<8, 16, [X7]>>>,		CCIfType<[i64], CCIfSplit<CCAssignToStackWithShadow<8, 16, [X7]>>>,

CCIfType<[i64], CCAssignToRegWithShadow<[X0, X1, X2, X3, X4, X5, X6, X7],		CCIfType<[i64], CCAssignToRegWithShadow<[X0, X1, X2, X3, X4, X5, X6, X7],
[W0, W1, W2, W3, W4, W5, W6, W7]>>,		[W0, W1, W2, W3, W4, W5, W6, W7]>>,
CCIfType<[f16], CCAssignToRegWithShadow<[H0, H1, H2, H3, H4, H5, H6, H7],		CCIfType<[f16], CCAssignToRegWithShadow<[H0, H1, H2, H3, H4, H5, H6, H7],
[Q0, Q1, Q2, Q3, Q4, Q5, Q6, Q7]>>,		[Q0, Q1, Q2, Q3, Q4, Q5, Q6, Q7]>>,
		CCIfType<[bf16], CCAssignToRegWithShadow<[H0, H1, H2, H3, H4, H5, H6, H7],
		[Q0, Q1, Q2, Q3, Q4, Q5, Q6, Q7]>>,
CCIfType<[f32], CCAssignToRegWithShadow<[S0, S1, S2, S3, S4, S5, S6, S7],		CCIfType<[f32], CCAssignToRegWithShadow<[S0, S1, S2, S3, S4, S5, S6, S7],
[Q0, Q1, Q2, Q3, Q4, Q5, Q6, Q7]>>,		[Q0, Q1, Q2, Q3, Q4, Q5, Q6, Q7]>>,
CCIfType<[f64], CCAssignToRegWithShadow<[D0, D1, D2, D3, D4, D5, D6, D7],		CCIfType<[f64], CCAssignToRegWithShadow<[D0, D1, D2, D3, D4, D5, D6, D7],
[Q0, Q1, Q2, Q3, Q4, Q5, Q6, Q7]>>,		[Q0, Q1, Q2, Q3, Q4, Q5, Q6, Q7]>>,
CCIfType<[v1i64, v2i32, v4i16, v8i8, v1f64, v2f32, v4f16],		CCIfType<[v1i64, v2i32, v4i16, v8i8, v1f64, v2f32, v4f16, v4bf16],
CCAssignToRegWithShadow<[D0, D1, D2, D3, D4, D5, D6, D7],		CCAssignToRegWithShadow<[D0, D1, D2, D3, D4, D5, D6, D7],
[Q0, Q1, Q2, Q3, Q4, Q5, Q6, Q7]>>,		[Q0, Q1, Q2, Q3, Q4, Q5, Q6, Q7]>>,
CCIfType<[f128, v2i64, v4i32, v8i16, v16i8, v4f32, v2f64, v8f16],		CCIfType<[f128, v2i64, v4i32, v8i16, v16i8, v4f32, v2f64, v8f16, v8bf16],
CCAssignToReg<[Q0, Q1, Q2, Q3, Q4, Q5, Q6, Q7]>>,		CCAssignToReg<[Q0, Q1, Q2, Q3, Q4, Q5, Q6, Q7]>>,

// If more than will fit in registers, pass them on the stack instead.		// If more than will fit in registers, pass them on the stack instead.
CCIfType<[i1, i8, i16, f16], CCAssignToStack<8, 8>>,		CCIfType<[i1, i8, i16, f16, bf16], CCAssignToStack<8, 8>>,
CCIfType<[i32, f32], CCAssignToStack<8, 8>>,		CCIfType<[i32, f32], CCAssignToStack<8, 8>>,
CCIfType<[i64, f64, v1f64, v2f32, v1i64, v2i32, v4i16, v8i8, v4f16],		CCIfType<[i64, f64, v1f64, v2f32, v1i64, v2i32, v4i16, v8i8, v4f16, v4bf16],
CCAssignToStack<8, 8>>,		CCAssignToStack<8, 8>>,
CCIfType<[f128, v2i64, v4i32, v8i16, v16i8, v4f32, v2f64, v8f16],		CCIfType<[f128, v2i64, v4i32, v8i16, v16i8, v4f32, v2f64, v8f16, v8bf16],
CCAssignToStack<16, 16>>		CCAssignToStack<16, 16>>
]>;		]>;

let Entry = 1 in		let Entry = 1 in
def RetCC_AArch64_AAPCS : CallingConv<[		def RetCC_AArch64_AAPCS : CallingConv<[
CCIfType<[iPTR], CCBitConvertToType<i64>>,		CCIfType<[iPTR], CCBitConvertToType<i64>>,
CCIfType<[v2f32], CCBitConvertToType<v2i32>>,		CCIfType<[v2f32], CCBitConvertToType<v2i32>>,
CCIfType<[v2f64, v4f32], CCBitConvertToType<v2i64>>,		CCIfType<[v2f64, v4f32], CCBitConvertToType<v2i64>>,

CCIfConsecutiveRegs<CCCustom<"CC_AArch64_Custom_Block">>,		CCIfConsecutiveRegs<CCCustom<"CC_AArch64_Custom_Block">>,
CCIfSwiftError<CCIfType<[i64], CCAssignToRegWithShadow<[X21], [W21]>>>,		CCIfSwiftError<CCIfType<[i64], CCAssignToRegWithShadow<[X21], [W21]>>>,

// Big endian vectors must be passed as if they were 1-element vectors so that		// Big endian vectors must be passed as if they were 1-element vectors so that
// their lanes are in a consistent order.		// their lanes are in a consistent order.
CCIfBigEndian<CCIfType<[v2i32, v2f32, v4i16, v4f16, v8i8],		CCIfBigEndian<CCIfType<[v2i32, v2f32, v4i16, v4f16, v4bf16, v8i8],
CCBitConvertToType<f64>>>,		CCBitConvertToType<f64>>>,
CCIfBigEndian<CCIfType<[v2i64, v2f64, v4i32, v4f32, v8i16, v8f16, v16i8],		CCIfBigEndian<CCIfType<[v2i64, v2f64, v4i32, v4f32, v8i16, v8f16, v8bf16, v16i8],
CCBitConvertToType<f128>>>,		CCBitConvertToType<f128>>>,

CCIfType<[i1, i8, i16], CCPromoteToType<i32>>,		CCIfType<[i1, i8, i16], CCPromoteToType<i32>>,
CCIfType<[i32], CCAssignToRegWithShadow<[W0, W1, W2, W3, W4, W5, W6, W7],		CCIfType<[i32], CCAssignToRegWithShadow<[W0, W1, W2, W3, W4, W5, W6, W7],
[X0, X1, X2, X3, X4, X5, X6, X7]>>,		[X0, X1, X2, X3, X4, X5, X6, X7]>>,
CCIfType<[i64], CCAssignToRegWithShadow<[X0, X1, X2, X3, X4, X5, X6, X7],		CCIfType<[i64], CCAssignToRegWithShadow<[X0, X1, X2, X3, X4, X5, X6, X7],
[W0, W1, W2, W3, W4, W5, W6, W7]>>,		[W0, W1, W2, W3, W4, W5, W6, W7]>>,
CCIfType<[f16], CCAssignToRegWithShadow<[H0, H1, H2, H3, H4, H5, H6, H7],		CCIfType<[f16], CCAssignToRegWithShadow<[H0, H1, H2, H3, H4, H5, H6, H7],
[Q0, Q1, Q2, Q3, Q4, Q5, Q6, Q7]>>,		[Q0, Q1, Q2, Q3, Q4, Q5, Q6, Q7]>>,
		CCIfType<[bf16], CCAssignToRegWithShadow<[H0, H1, H2, H3, H4, H5, H6, H7],
		[Q0, Q1, Q2, Q3, Q4, Q5, Q6, Q7]>>,
CCIfType<[f32], CCAssignToRegWithShadow<[S0, S1, S2, S3, S4, S5, S6, S7],		CCIfType<[f32], CCAssignToRegWithShadow<[S0, S1, S2, S3, S4, S5, S6, S7],
[Q0, Q1, Q2, Q3, Q4, Q5, Q6, Q7]>>,		[Q0, Q1, Q2, Q3, Q4, Q5, Q6, Q7]>>,
CCIfType<[f64], CCAssignToRegWithShadow<[D0, D1, D2, D3, D4, D5, D6, D7],		CCIfType<[f64], CCAssignToRegWithShadow<[D0, D1, D2, D3, D4, D5, D6, D7],
[Q0, Q1, Q2, Q3, Q4, Q5, Q6, Q7]>>,		[Q0, Q1, Q2, Q3, Q4, Q5, Q6, Q7]>>,
CCIfType<[v1i64, v2i32, v4i16, v8i8, v1f64, v2f32, v4f16],		CCIfType<[v1i64, v2i32, v4i16, v8i8, v1f64, v2f32, v4f16, v4bf16],
CCAssignToRegWithShadow<[D0, D1, D2, D3, D4, D5, D6, D7],		CCAssignToRegWithShadow<[D0, D1, D2, D3, D4, D5, D6, D7],
[Q0, Q1, Q2, Q3, Q4, Q5, Q6, Q7]>>,		[Q0, Q1, Q2, Q3, Q4, Q5, Q6, Q7]>>,
CCIfType<[f128, v2i64, v4i32, v8i16, v16i8, v4f32, v2f64, v8f16],		CCIfType<[f128, v2i64, v4i32, v8i16, v16i8, v4f32, v2f64, v8f16, v8bf16],
CCAssignToReg<[Q0, Q1, Q2, Q3, Q4, Q5, Q6, Q7]>>,		CCAssignToReg<[Q0, Q1, Q2, Q3, Q4, Q5, Q6, Q7]>>,

CCIfType<[nxv16i8, nxv8i16, nxv4i32, nxv2i64, nxv2f16, nxv4f16, nxv8f16,		CCIfType<[nxv16i8, nxv8i16, nxv4i32, nxv2i64, nxv2f16, nxv4f16, nxv8f16,
nxv2f32, nxv4f32, nxv2f64],		nxv2bf16, nxv4bf16, nxv8bf16, nxv2f32, nxv4f32, nxv2f64],
CCAssignToReg<[Z0, Z1, Z2, Z3, Z4, Z5, Z6, Z7]>>,		CCAssignToReg<[Z0, Z1, Z2, Z3, Z4, Z5, Z6, Z7]>>,

CCIfType<[nxv2i1, nxv4i1, nxv8i1, nxv16i1],		CCIfType<[nxv2i1, nxv4i1, nxv8i1, nxv16i1],
CCAssignToReg<[P0, P1, P2, P3]>>		CCAssignToReg<[P0, P1, P2, P3]>>
]>;		]>;

// Vararg functions on windows pass floats in integer registers		// Vararg functions on windows pass floats in integer registers
let Entry = 1 in		let Entry = 1 in
def CC_AArch64_Win64_VarArg : CallingConv<[		def CC_AArch64_Win64_VarArg : CallingConv<[
CCIfType<[f16, f32], CCPromoteToType<f64>>,		CCIfType<[f16, bf16, f32], CCPromoteToType<f64>>,
CCIfType<[f64], CCBitConvertToType<i64>>,		CCIfType<[f64], CCBitConvertToType<i64>>,
CCDelegateTo<CC_AArch64_AAPCS>		CCDelegateTo<CC_AArch64_AAPCS>
]>;		]>;

// Windows Control Flow Guard checks take a single argument (the target function		// Windows Control Flow Guard checks take a single argument (the target function
// address) and have no return value.		// address) and have no return value.
let Entry = 1 in		let Entry = 1 in
def CC_AArch64_Win64_CFGuard_Check : CallingConv<[		def CC_AArch64_Win64_CFGuard_Check : CallingConv<[
Show All 37 Lines	CCIfType<[i64],
[W0, W1, W2, W3, W4, W5, W6]>>>,		[W0, W1, W2, W3, W4, W5, W6]>>>,
// i128 is split to two i64s, and its stack alignment is 16 bytes.		// i128 is split to two i64s, and its stack alignment is 16 bytes.
CCIfType<[i64], CCIfSplit<CCAssignToStackWithShadow<8, 16, [X7]>>>,		CCIfType<[i64], CCIfSplit<CCAssignToStackWithShadow<8, 16, [X7]>>>,

CCIfType<[i64], CCAssignToRegWithShadow<[X0, X1, X2, X3, X4, X5, X6, X7],		CCIfType<[i64], CCAssignToRegWithShadow<[X0, X1, X2, X3, X4, X5, X6, X7],
[W0, W1, W2, W3, W4, W5, W6, W7]>>,		[W0, W1, W2, W3, W4, W5, W6, W7]>>,
CCIfType<[f16], CCAssignToRegWithShadow<[H0, H1, H2, H3, H4, H5, H6, H7],		CCIfType<[f16], CCAssignToRegWithShadow<[H0, H1, H2, H3, H4, H5, H6, H7],
[Q0, Q1, Q2, Q3, Q4, Q5, Q6, Q7]>>,		[Q0, Q1, Q2, Q3, Q4, Q5, Q6, Q7]>>,
		CCIfType<[bf16], CCAssignToRegWithShadow<[H0, H1, H2, H3, H4, H5, H6, H7],
		[Q0, Q1, Q2, Q3, Q4, Q5, Q6, Q7]>>,
CCIfType<[f32], CCAssignToRegWithShadow<[S0, S1, S2, S3, S4, S5, S6, S7],		CCIfType<[f32], CCAssignToRegWithShadow<[S0, S1, S2, S3, S4, S5, S6, S7],
[Q0, Q1, Q2, Q3, Q4, Q5, Q6, Q7]>>,		[Q0, Q1, Q2, Q3, Q4, Q5, Q6, Q7]>>,
CCIfType<[f64], CCAssignToRegWithShadow<[D0, D1, D2, D3, D4, D5, D6, D7],		CCIfType<[f64], CCAssignToRegWithShadow<[D0, D1, D2, D3, D4, D5, D6, D7],
[Q0, Q1, Q2, Q3, Q4, Q5, Q6, Q7]>>,		[Q0, Q1, Q2, Q3, Q4, Q5, Q6, Q7]>>,
CCIfType<[v1i64, v2i32, v4i16, v8i8, v1f64, v2f32, v4f16],		CCIfType<[v1i64, v2i32, v4i16, v8i8, v1f64, v2f32, v4f16, v4bf16],
CCAssignToRegWithShadow<[D0, D1, D2, D3, D4, D5, D6, D7],		CCAssignToRegWithShadow<[D0, D1, D2, D3, D4, D5, D6, D7],
[Q0, Q1, Q2, Q3, Q4, Q5, Q6, Q7]>>,		[Q0, Q1, Q2, Q3, Q4, Q5, Q6, Q7]>>,
CCIfType<[v2i64, v4i32, v8i16, v16i8, v4f32, v2f64, v8f16],		CCIfType<[v2i64, v4i32, v8i16, v16i8, v4f32, v2f64, v8f16, v8bf16],
CCAssignToReg<[Q0, Q1, Q2, Q3, Q4, Q5, Q6, Q7]>>,		CCAssignToReg<[Q0, Q1, Q2, Q3, Q4, Q5, Q6, Q7]>>,

// If more than will fit in registers, pass them on the stack instead.		// If more than will fit in registers, pass them on the stack instead.
CCIf<"ValVT == MVT::i1 \|\| ValVT == MVT::i8", CCAssignToStack<1, 1>>,		CCIf<"ValVT == MVT::i1 \|\| ValVT == MVT::i8", CCAssignToStack<1, 1>>,
CCIf<"ValVT == MVT::i16 \|\| ValVT == MVT::f16", CCAssignToStack<2, 2>>,		CCIf<"ValVT == MVT::i16 \|\| ValVT == MVT::f16 \|\| ValVT == MVT::bf16",
		CCAssignToStack<2, 2>>,
CCIfType<[i32, f32], CCAssignToStack<4, 4>>,		CCIfType<[i32, f32], CCAssignToStack<4, 4>>,

// Re-demote pointers to 32-bits so we don't end up storing 64-bit		// Re-demote pointers to 32-bits so we don't end up storing 64-bit
// values and clobbering neighbouring stack locations. Not very pretty.		// values and clobbering neighbouring stack locations. Not very pretty.
CCIfPtr<CCIfILP32<CCTruncToType<i32>>>,		CCIfPtr<CCIfILP32<CCTruncToType<i32>>>,
CCIfPtr<CCIfILP32<CCAssignToStack<4, 4>>>,		CCIfPtr<CCIfILP32<CCAssignToStack<4, 4>>>,

CCIfType<[i64, f64, v1f64, v2f32, v1i64, v2i32, v4i16, v8i8, v4f16],		CCIfType<[i64, f64, v1f64, v2f32, v1i64, v2i32, v4i16, v8i8, v4f16, v4bf16],
CCAssignToStack<8, 8>>,		CCAssignToStack<8, 8>>,
CCIfType<[v2i64, v4i32, v8i16, v16i8, v4f32, v2f64, v8f16],		CCIfType<[v2i64, v4i32, v8i16, v16i8, v4f32, v2f64, v8f16, v8bf16],
CCAssignToStack<16, 16>>		CCAssignToStack<16, 16>>
]>;		]>;

let Entry = 1 in		let Entry = 1 in
def CC_AArch64_DarwinPCS_VarArg : CallingConv<[		def CC_AArch64_DarwinPCS_VarArg : CallingConv<[
CCIfType<[iPTR], CCBitConvertToType<i64>>,		CCIfType<[iPTR], CCBitConvertToType<i64>>,
CCIfType<[v2f32], CCBitConvertToType<v2i32>>,		CCIfType<[v2f32], CCBitConvertToType<v2i32>>,
CCIfType<[v2f64, v4f32, f128], CCBitConvertToType<v2i64>>,		CCIfType<[v2f64, v4f32, f128], CCBitConvertToType<v2i64>>,

CCIfConsecutiveRegs<CCCustom<"CC_AArch64_Custom_Stack_Block">>,		CCIfConsecutiveRegs<CCCustom<"CC_AArch64_Custom_Stack_Block">>,

// Handle all scalar types as either i64 or f64.		// Handle all scalar types as either i64 or f64.
CCIfType<[i8, i16, i32], CCPromoteToType<i64>>,		CCIfType<[i8, i16, i32], CCPromoteToType<i64>>,
CCIfType<[f16, f32], CCPromoteToType<f64>>,		CCIfType<[f16, bf16, f32], CCPromoteToType<f64>>,

// Everything is on the stack.		// Everything is on the stack.
// i128 is split to two i64s, and its stack alignment is 16 bytes.		// i128 is split to two i64s, and its stack alignment is 16 bytes.
CCIfType<[i64], CCIfSplit<CCAssignToStack<8, 16>>>,		CCIfType<[i64], CCIfSplit<CCAssignToStack<8, 16>>>,
CCIfType<[i64, f64, v1i64, v2i32, v4i16, v8i8, v1f64, v2f32, v4f16],		CCIfType<[i64, f64, v1i64, v2i32, v4i16, v8i8, v1f64, v2f32, v4f16, v4bf16],
CCAssignToStack<8, 8>>,		CCAssignToStack<8, 8>>,
CCIfType<[v2i64, v4i32, v8i16, v16i8, v4f32, v2f64, v8f16],		CCIfType<[v2i64, v4i32, v8i16, v16i8, v4f32, v2f64, v8f16, v8bf16],
CCAssignToStack<16, 16>>		CCAssignToStack<16, 16>>
]>;		]>;

// In the ILP32 world, the minimum stack slot size is 4 bytes. Otherwise the		// In the ILP32 world, the minimum stack slot size is 4 bytes. Otherwise the
// same as the normal Darwin VarArgs handling.		// same as the normal Darwin VarArgs handling.
let Entry = 1 in		let Entry = 1 in
def CC_AArch64_DarwinPCS_ILP32_VarArg : CallingConv<[		def CC_AArch64_DarwinPCS_ILP32_VarArg : CallingConv<[
CCIfType<[v2f32], CCBitConvertToType<v2i32>>,		CCIfType<[v2f32], CCBitConvertToType<v2i32>>,
CCIfType<[v2f64, v4f32, f128], CCBitConvertToType<v2i64>>,		CCIfType<[v2f64, v4f32, f128], CCBitConvertToType<v2i64>>,

// Handle all scalar types as either i32 or f32.		// Handle all scalar types as either i32 or f32.
CCIfType<[i8, i16], CCPromoteToType<i32>>,		CCIfType<[i8, i16], CCPromoteToType<i32>>,
CCIfType<[f16], CCPromoteToType<f32>>,		CCIfType<[f16, bf16], CCPromoteToType<f32>>,

// Everything is on the stack.		// Everything is on the stack.
// i128 is split to two i64s, and its stack alignment is 16 bytes.		// i128 is split to two i64s, and its stack alignment is 16 bytes.
CCIfPtr<CCIfILP32<CCTruncToType<i32>>>,		CCIfPtr<CCIfILP32<CCTruncToType<i32>>>,
CCIfType<[i32, f32], CCAssignToStack<4, 4>>,		CCIfType<[i32, f32], CCAssignToStack<4, 4>>,
CCIfType<[i64], CCIfSplit<CCAssignToStack<8, 16>>>,		CCIfType<[i64], CCIfSplit<CCAssignToStack<8, 16>>>,
CCIfType<[i64, f64, v1i64, v2i32, v4i16, v8i8, v1f64, v2f32, v4f16],		CCIfType<[i64, f64, v1i64, v2i32, v4i16, v8i8, v1f64, v2f32, v4f16, v4bf16],
CCAssignToStack<8, 8>>,		CCAssignToStack<8, 8>>,
CCIfType<[v2i64, v4i32, v8i16, v16i8, v4f32, v2f64, v8f16],		CCIfType<[v2i64, v4i32, v8i16, v16i8, v4f32, v2f64, v8f16, v8bf16],
CCAssignToStack<16, 16>>		CCAssignToStack<16, 16>>
]>;		]>;


// The WebKit_JS calling convention only passes the first argument (the callee)		// The WebKit_JS calling convention only passes the first argument (the callee)
// in register and the remaining arguments on stack. We allow 32bit stack slots,		// in register and the remaining arguments on stack. We allow 32bit stack slots,
// so that WebKit can write partial values in the stack and define the other		// so that WebKit can write partial values in the stack and define the other
// 32bit quantity as undef.		// 32bit quantity as undef.
▲ Show 20 Lines • Show All 208 Lines • Show Last 20 Lines

llvm/lib/Target/AArch64/AArch64ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 126 Lines • ▼ Show 20 Lines	AArch64TargetLowering::AArch64TargetLowering(const TargetMachine &TM,
setBooleanVectorContents(ZeroOrNegativeOneBooleanContent);		setBooleanVectorContents(ZeroOrNegativeOneBooleanContent);

// Set up the register classes.		// Set up the register classes.
addRegisterClass(MVT::i32, &AArch64::GPR32allRegClass);		addRegisterClass(MVT::i32, &AArch64::GPR32allRegClass);
addRegisterClass(MVT::i64, &AArch64::GPR64allRegClass);		addRegisterClass(MVT::i64, &AArch64::GPR64allRegClass);

if (Subtarget->hasFPARMv8()) {		if (Subtarget->hasFPARMv8()) {
addRegisterClass(MVT::f16, &AArch64::FPR16RegClass);		addRegisterClass(MVT::f16, &AArch64::FPR16RegClass);
		addRegisterClass(MVT::bf16, &AArch64::FPR16RegClass);
		c-rhodesUnsubmitted Not Done Reply Inline Actions Shouldn't this and the types below be predicated on `Subtarget->hasBF16()`? We've been fixing up cases in SVE for bfloat intrinsics where we missed predicating intrinsics / patterns on `+bf16`. I fixed this for the sizeless bfloat types added here in D82494 and it revealed the places we'd forgot to add the guard. c-rhodes: Shouldn't this and the types below be predicated on `Subtarget->hasBF16()`? We've been fixing…
		stuijAuthorUnsubmitted Done Reply Inline Actions Sorry, I missed this comment. Yes, you're right, we should clean this up. stuij: Sorry, I missed this comment. Yes, you're right, we should clean this up.
addRegisterClass(MVT::f32, &AArch64::FPR32RegClass);		addRegisterClass(MVT::f32, &AArch64::FPR32RegClass);
addRegisterClass(MVT::f64, &AArch64::FPR64RegClass);		addRegisterClass(MVT::f64, &AArch64::FPR64RegClass);
addRegisterClass(MVT::f128, &AArch64::FPR128RegClass);		addRegisterClass(MVT::f128, &AArch64::FPR128RegClass);
}		}

if (Subtarget->hasNEON()) {		if (Subtarget->hasNEON()) {
addRegisterClass(MVT::v16i8, &AArch64::FPR8RegClass);		addRegisterClass(MVT::v16i8, &AArch64::FPR8RegClass);
addRegisterClass(MVT::v8i16, &AArch64::FPR16RegClass);		addRegisterClass(MVT::v8i16, &AArch64::FPR16RegClass);
// Someone set us up the NEON.		// Someone set us up the NEON.
addDRTypeForNEON(MVT::v2f32);		addDRTypeForNEON(MVT::v2f32);
addDRTypeForNEON(MVT::v8i8);		addDRTypeForNEON(MVT::v8i8);
addDRTypeForNEON(MVT::v4i16);		addDRTypeForNEON(MVT::v4i16);
addDRTypeForNEON(MVT::v2i32);		addDRTypeForNEON(MVT::v2i32);
addDRTypeForNEON(MVT::v1i64);		addDRTypeForNEON(MVT::v1i64);
addDRTypeForNEON(MVT::v1f64);		addDRTypeForNEON(MVT::v1f64);
addDRTypeForNEON(MVT::v4f16);		addDRTypeForNEON(MVT::v4f16);
		addDRTypeForNEON(MVT::v4bf16);

addQRTypeForNEON(MVT::v4f32);		addQRTypeForNEON(MVT::v4f32);
addQRTypeForNEON(MVT::v2f64);		addQRTypeForNEON(MVT::v2f64);
addQRTypeForNEON(MVT::v16i8);		addQRTypeForNEON(MVT::v16i8);
addQRTypeForNEON(MVT::v8i16);		addQRTypeForNEON(MVT::v8i16);
addQRTypeForNEON(MVT::v4i32);		addQRTypeForNEON(MVT::v4i32);
addQRTypeForNEON(MVT::v2i64);		addQRTypeForNEON(MVT::v2i64);
addQRTypeForNEON(MVT::v8f16);		addQRTypeForNEON(MVT::v8f16);
		addQRTypeForNEON(MVT::v8bf16);
}		}

if (Subtarget->hasSVE()) {		if (Subtarget->hasSVE()) {
// Add legal sve predicate types		// Add legal sve predicate types
addRegisterClass(MVT::nxv2i1, &AArch64::PPRRegClass);		addRegisterClass(MVT::nxv2i1, &AArch64::PPRRegClass);
addRegisterClass(MVT::nxv4i1, &AArch64::PPRRegClass);		addRegisterClass(MVT::nxv4i1, &AArch64::PPRRegClass);
addRegisterClass(MVT::nxv8i1, &AArch64::PPRRegClass);		addRegisterClass(MVT::nxv8i1, &AArch64::PPRRegClass);
addRegisterClass(MVT::nxv16i1, &AArch64::PPRRegClass);		addRegisterClass(MVT::nxv16i1, &AArch64::PPRRegClass);

// Add legal sve data types		// Add legal sve data types
addRegisterClass(MVT::nxv16i8, &AArch64::ZPRRegClass);		addRegisterClass(MVT::nxv16i8, &AArch64::ZPRRegClass);
addRegisterClass(MVT::nxv8i16, &AArch64::ZPRRegClass);		addRegisterClass(MVT::nxv8i16, &AArch64::ZPRRegClass);
addRegisterClass(MVT::nxv4i32, &AArch64::ZPRRegClass);		addRegisterClass(MVT::nxv4i32, &AArch64::ZPRRegClass);
addRegisterClass(MVT::nxv2i64, &AArch64::ZPRRegClass);		addRegisterClass(MVT::nxv2i64, &AArch64::ZPRRegClass);

addRegisterClass(MVT::nxv2f16, &AArch64::ZPRRegClass);		addRegisterClass(MVT::nxv2f16, &AArch64::ZPRRegClass);
addRegisterClass(MVT::nxv4f16, &AArch64::ZPRRegClass);		addRegisterClass(MVT::nxv4f16, &AArch64::ZPRRegClass);
addRegisterClass(MVT::nxv8f16, &AArch64::ZPRRegClass);		addRegisterClass(MVT::nxv8f16, &AArch64::ZPRRegClass);
		addRegisterClass(MVT::nxv2bf16, &AArch64::ZPRRegClass);
		addRegisterClass(MVT::nxv4bf16, &AArch64::ZPRRegClass);
		addRegisterClass(MVT::nxv8bf16, &AArch64::ZPRRegClass);
addRegisterClass(MVT::nxv2f32, &AArch64::ZPRRegClass);		addRegisterClass(MVT::nxv2f32, &AArch64::ZPRRegClass);
addRegisterClass(MVT::nxv4f32, &AArch64::ZPRRegClass);		addRegisterClass(MVT::nxv4f32, &AArch64::ZPRRegClass);
addRegisterClass(MVT::nxv2f64, &AArch64::ZPRRegClass);		addRegisterClass(MVT::nxv2f64, &AArch64::ZPRRegClass);

for (auto VT : { MVT::nxv16i8, MVT::nxv8i16, MVT::nxv4i32, MVT::nxv2i64 }) {		for (auto VT : { MVT::nxv16i8, MVT::nxv8i16, MVT::nxv4i32, MVT::nxv2i64 }) {
setOperationAction(ISD::SADDSAT, VT, Legal);		setOperationAction(ISD::SADDSAT, VT, Legal);
setOperationAction(ISD::UADDSAT, VT, Legal);		setOperationAction(ISD::UADDSAT, VT, Legal);
setOperationAction(ISD::SSUBSAT, VT, Legal);		setOperationAction(ISD::SSUBSAT, VT, Legal);
▲ Show 20 Lines • Show All 3,388 Lines • ▼ Show 20 Lines	if (VA.isRegLoc()) {
const TargetRegisterClass *RC;		const TargetRegisterClass *RC;

if (RegVT == MVT::i32)		if (RegVT == MVT::i32)
RC = &AArch64::GPR32RegClass;		RC = &AArch64::GPR32RegClass;
else if (RegVT == MVT::i64)		else if (RegVT == MVT::i64)
RC = &AArch64::GPR64RegClass;		RC = &AArch64::GPR64RegClass;
else if (RegVT == MVT::f16)		else if (RegVT == MVT::f16)
RC = &AArch64::FPR16RegClass;		RC = &AArch64::FPR16RegClass;
		else if (RegVT == MVT::bf16)
		RC = &AArch64::FPR16RegClass;
else if (RegVT == MVT::f32)		else if (RegVT == MVT::f32)
RC = &AArch64::FPR32RegClass;		RC = &AArch64::FPR32RegClass;
else if (RegVT == MVT::f64 \|\| RegVT.is64BitVector())		else if (RegVT == MVT::f64 \|\| RegVT.is64BitVector())
RC = &AArch64::FPR64RegClass;		RC = &AArch64::FPR64RegClass;
else if (RegVT == MVT::f128 \|\| RegVT.is128BitVector())		else if (RegVT == MVT::f128 \|\| RegVT.is128BitVector())
RC = &AArch64::FPR128RegClass;		RC = &AArch64::FPR128RegClass;
else if (RegVT.isScalableVector() &&		else if (RegVT.isScalableVector() &&
RegVT.getVectorElementType() == MVT::i1)		RegVT.getVectorElementType() == MVT::i1)
▲ Show 20 Lines • Show All 10,696 Lines • Show Last 20 Lines

llvm/lib/Target/AArch64/AArch64InstrFormats.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 4,441 Lines • ▼ Show 20 Lines	class BaseFPToInteger<bits<2> type, bits<2> rmode, bits<3> opcode,
let Inst{9-5} = Rn;		let Inst{9-5} = Rn;
let Inst{4-0} = Rd;		let Inst{4-0} = Rd;
}		}

multiclass FPToIntegerUnscaled<bits<2> rmode, bits<3> opcode, string asm,		multiclass FPToIntegerUnscaled<bits<2> rmode, bits<3> opcode, string asm,
SDPatternOperator OpN> {		SDPatternOperator OpN> {
// Unscaled half-precision to 32-bit		// Unscaled half-precision to 32-bit
def UWHr : BaseFPToIntegerUnscaled<0b11, rmode, opcode, FPR16, GPR32, asm,		def UWHr : BaseFPToIntegerUnscaled<0b11, rmode, opcode, FPR16, GPR32, asm,
[(set GPR32:$Rd, (OpN FPR16:$Rn))]> {		[(set GPR32:$Rd, (OpN (f16 FPR16:$Rn)))]> {
let Inst{31} = 0; // 32-bit GPR flag		let Inst{31} = 0; // 32-bit GPR flag
let Predicates = [HasFullFP16];		let Predicates = [HasFullFP16];
}		}

// Unscaled half-precision to 64-bit		// Unscaled half-precision to 64-bit
def UXHr : BaseFPToIntegerUnscaled<0b11, rmode, opcode, FPR16, GPR64, asm,		def UXHr : BaseFPToIntegerUnscaled<0b11, rmode, opcode, FPR16, GPR64, asm,
[(set GPR64:$Rd, (OpN FPR16:$Rn))]> {		[(set GPR64:$Rd, (OpN (f16 FPR16:$Rn)))]> {
let Inst{31} = 1; // 64-bit GPR flag		let Inst{31} = 1; // 64-bit GPR flag
let Predicates = [HasFullFP16];		let Predicates = [HasFullFP16];
}		}

// Unscaled single-precision to 32-bit		// Unscaled single-precision to 32-bit
def UWSr : BaseFPToIntegerUnscaled<0b00, rmode, opcode, FPR32, GPR32, asm,		def UWSr : BaseFPToIntegerUnscaled<0b00, rmode, opcode, FPR32, GPR32, asm,
[(set GPR32:$Rd, (OpN FPR32:$Rn))]> {		[(set GPR32:$Rd, (OpN FPR32:$Rn))]> {
let Inst{31} = 0; // 32-bit GPR flag		let Inst{31} = 0; // 32-bit GPR flag
Show All 18 Lines	multiclass FPToIntegerUnscaled<bits<2> rmode, bits<3> opcode, string asm,
}		}
}		}

multiclass FPToIntegerScaled<bits<2> rmode, bits<3> opcode, string asm,		multiclass FPToIntegerScaled<bits<2> rmode, bits<3> opcode, string asm,
SDPatternOperator OpN> {		SDPatternOperator OpN> {
// Scaled half-precision to 32-bit		// Scaled half-precision to 32-bit
def SWHri : BaseFPToInteger<0b11, rmode, opcode, FPR16, GPR32,		def SWHri : BaseFPToInteger<0b11, rmode, opcode, FPR16, GPR32,
fixedpoint_f16_i32, asm,		fixedpoint_f16_i32, asm,
[(set GPR32:$Rd, (OpN (fmul FPR16:$Rn,		[(set GPR32:$Rd, (OpN (fmul (f16 FPR16:$Rn),
fixedpoint_f16_i32:$scale)))]> {		fixedpoint_f16_i32:$scale)))]> {
let Inst{31} = 0; // 32-bit GPR flag		let Inst{31} = 0; // 32-bit GPR flag
let scale{5} = 1;		let scale{5} = 1;
let Predicates = [HasFullFP16];		let Predicates = [HasFullFP16];
}		}

// Scaled half-precision to 64-bit		// Scaled half-precision to 64-bit
def SXHri : BaseFPToInteger<0b11, rmode, opcode, FPR16, GPR64,		def SXHri : BaseFPToInteger<0b11, rmode, opcode, FPR16, GPR64,
fixedpoint_f16_i64, asm,		fixedpoint_f16_i64, asm,
[(set GPR64:$Rd, (OpN (fmul FPR16:$Rn,		[(set GPR64:$Rd, (OpN (fmul (f16 FPR16:$Rn),
fixedpoint_f16_i64:$scale)))]> {		fixedpoint_f16_i64:$scale)))]> {
let Inst{31} = 1; // 64-bit GPR flag		let Inst{31} = 1; // 64-bit GPR flag
let Predicates = [HasFullFP16];		let Predicates = [HasFullFP16];
}		}

// Scaled single-precision to 32-bit		// Scaled single-precision to 32-bit
def SWSri : BaseFPToInteger<0b00, rmode, opcode, FPR32, GPR32,		def SWSri : BaseFPToInteger<0b00, rmode, opcode, FPR32, GPR32,
fixedpoint_f32_i32, asm,		fixedpoint_f32_i32, asm,
▲ Show 20 Lines • Show All 99 Lines • ▼ Show 20 Lines	multiclass IntegerToFP<bit isUnsigned, string asm, SDNode node> {

def UXDri: BaseIntegerToFPUnscaled<isUnsigned, GPR64, FPR64, f64, asm, node> {		def UXDri: BaseIntegerToFPUnscaled<isUnsigned, GPR64, FPR64, f64, asm, node> {
let Inst{31} = 1; // 64-bit GPR flag		let Inst{31} = 1; // 64-bit GPR flag
let Inst{23-22} = 0b01; // 64-bit FPR flag		let Inst{23-22} = 0b01; // 64-bit FPR flag
}		}

// Scaled		// Scaled
def SWHri: BaseIntegerToFP<isUnsigned, GPR32, FPR16, fixedpoint_f16_i32, asm,		def SWHri: BaseIntegerToFP<isUnsigned, GPR32, FPR16, fixedpoint_f16_i32, asm,
[(set FPR16:$Rd,		[(set (f16 FPR16:$Rd),
(fdiv (node GPR32:$Rn),		(fdiv (node GPR32:$Rn),
fixedpoint_f16_i32:$scale))]> {		fixedpoint_f16_i32:$scale))]> {
let Inst{31} = 0; // 32-bit GPR flag		let Inst{31} = 0; // 32-bit GPR flag
let Inst{23-22} = 0b11; // 16-bit FPR flag		let Inst{23-22} = 0b11; // 16-bit FPR flag
let scale{5} = 1;		let scale{5} = 1;
let Predicates = [HasFullFP16];		let Predicates = [HasFullFP16];
}		}

Show All 11 Lines	def SWDri: BaseIntegerToFP<isUnsigned, GPR32, FPR64, fixedpoint_f64_i32, asm,
(fdiv (node GPR32:$Rn),		(fdiv (node GPR32:$Rn),
fixedpoint_f64_i32:$scale))]> {		fixedpoint_f64_i32:$scale))]> {
let Inst{31} = 0; // 32-bit GPR flag		let Inst{31} = 0; // 32-bit GPR flag
let Inst{23-22} = 0b01; // 64-bit FPR flag		let Inst{23-22} = 0b01; // 64-bit FPR flag
let scale{5} = 1;		let scale{5} = 1;
}		}

def SXHri: BaseIntegerToFP<isUnsigned, GPR64, FPR16, fixedpoint_f16_i64, asm,		def SXHri: BaseIntegerToFP<isUnsigned, GPR64, FPR16, fixedpoint_f16_i64, asm,
[(set FPR16:$Rd,		[(set (f16 FPR16:$Rd),
(fdiv (node GPR64:$Rn),		(fdiv (node GPR64:$Rn),
fixedpoint_f16_i64:$scale))]> {		fixedpoint_f16_i64:$scale))]> {
let Inst{31} = 1; // 64-bit GPR flag		let Inst{31} = 1; // 64-bit GPR flag
let Inst{23-22} = 0b11; // 16-bit FPR flag		let Inst{23-22} = 0b11; // 16-bit FPR flag
let Predicates = [HasFullFP16];		let Predicates = [HasFullFP16];
}		}

def SXSri: BaseIntegerToFP<isUnsigned, GPR64, FPR32, fixedpoint_f32_i64, asm,		def SXSri: BaseIntegerToFP<isUnsigned, GPR64, FPR32, fixedpoint_f32_i64, asm,
▲ Show 20 Lines • Show All 156 Lines • ▼ Show 20 Lines	class BaseFPConversion<bits<2> type, bits<2> opcode, RegisterClass dstType,
let Inst{14-10} = 0b10000;		let Inst{14-10} = 0b10000;
let Inst{9-5} = Rn;		let Inst{9-5} = Rn;
let Inst{4-0} = Rd;		let Inst{4-0} = Rd;
}		}

multiclass FPConversion<string asm> {		multiclass FPConversion<string asm> {
// Double-precision to Half-precision		// Double-precision to Half-precision
def HDr : BaseFPConversion<0b01, 0b11, FPR16, FPR64, asm,		def HDr : BaseFPConversion<0b01, 0b11, FPR16, FPR64, asm,
[(set FPR16:$Rd, (any_fpround FPR64:$Rn))]>;		[(set (f16 FPR16:$Rd), (any_fpround FPR64:$Rn))]>;

// Double-precision to Single-precision		// Double-precision to Single-precision
def SDr : BaseFPConversion<0b01, 0b00, FPR32, FPR64, asm,		def SDr : BaseFPConversion<0b01, 0b00, FPR32, FPR64, asm,
[(set FPR32:$Rd, (any_fpround FPR64:$Rn))]>;		[(set FPR32:$Rd, (any_fpround FPR64:$Rn))]>;

// Half-precision to Double-precision		// Half-precision to Double-precision
def DHr : BaseFPConversion<0b11, 0b01, FPR64, FPR16, asm,		def DHr : BaseFPConversion<0b11, 0b01, FPR64, FPR16, asm,
[(set FPR64:$Rd, (fpextend FPR16:$Rn))]>;		[(set FPR64:$Rd, (fpextend (f16 FPR16:$Rn)))]>;

// Half-precision to Single-precision		// Half-precision to Single-precision
def SHr : BaseFPConversion<0b11, 0b00, FPR32, FPR16, asm,		def SHr : BaseFPConversion<0b11, 0b00, FPR32, FPR16, asm,
[(set FPR32:$Rd, (fpextend FPR16:$Rn))]>;		[(set FPR32:$Rd, (fpextend (f16 FPR16:$Rn)))]>;

// Single-precision to Double-precision		// Single-precision to Double-precision
def DSr : BaseFPConversion<0b00, 0b01, FPR64, FPR32, asm,		def DSr : BaseFPConversion<0b00, 0b01, FPR64, FPR32, asm,
[(set FPR64:$Rd, (fpextend FPR32:$Rn))]>;		[(set FPR64:$Rd, (fpextend FPR32:$Rn))]>;

// Single-precision to Half-precision		// Single-precision to Half-precision
def HSr : BaseFPConversion<0b00, 0b11, FPR16, FPR32, asm,		def HSr : BaseFPConversion<0b00, 0b11, FPR16, FPR32, asm,
[(set FPR16:$Rd, (any_fpround FPR32:$Rn))]>;		[(set (f16 FPR16:$Rd), (any_fpround FPR32:$Rn))]>;
}		}

//---		//---
// Single operand floating point data processing		// Single operand floating point data processing
//---		//---

let mayLoad = 0, mayStore = 0, hasSideEffects = 0 in		let mayLoad = 0, mayStore = 0, hasSideEffects = 0 in
class BaseSingleOperandFPData<bits<6> opcode, RegisterClass regtype,		class BaseSingleOperandFPData<bits<6> opcode, RegisterClass regtype,
▲ Show 20 Lines • Show All 85 Lines • ▼ Show 20 Lines	def Drr : BaseTwoOperandFPData<opcode, FPR64, asm,
[(set (f64 FPR64:$Rd),		[(set (f64 FPR64:$Rd),
(node (f64 FPR64:$Rn), (f64 FPR64:$Rm)))]> {		(node (f64 FPR64:$Rn), (f64 FPR64:$Rm)))]> {
let Inst{23-22} = 0b01; // 64-bit size flag		let Inst{23-22} = 0b01; // 64-bit size flag
}		}
}		}

multiclass TwoOperandFPDataNeg<bits<4> opcode, string asm, SDNode node> {		multiclass TwoOperandFPDataNeg<bits<4> opcode, string asm, SDNode node> {
def Hrr : BaseTwoOperandFPData<opcode, FPR16, asm,		def Hrr : BaseTwoOperandFPData<opcode, FPR16, asm,
[(set FPR16:$Rd, (fneg (node FPR16:$Rn, (f16 FPR16:$Rm))))]> {		[(set (f16 FPR16:$Rd), (fneg (node (f16 FPR16:$Rn), (f16 FPR16:$Rm))))]> {
let Inst{23-22} = 0b11; // 16-bit size flag		let Inst{23-22} = 0b11; // 16-bit size flag
let Predicates = [HasFullFP16];		let Predicates = [HasFullFP16];
}		}

def Srr : BaseTwoOperandFPData<opcode, FPR32, asm,		def Srr : BaseTwoOperandFPData<opcode, FPR32, asm,
[(set FPR32:$Rd, (fneg (node FPR32:$Rn, (f32 FPR32:$Rm))))]> {		[(set FPR32:$Rd, (fneg (node FPR32:$Rn, (f32 FPR32:$Rm))))]> {
let Inst{23-22} = 0b00; // 32-bit size flag		let Inst{23-22} = 0b00; // 32-bit size flag
}		}
Show All 25 Lines	class BaseThreeOperandFPData<bit isNegated, bit isSub,
let Inst{14-10} = Ra;		let Inst{14-10} = Ra;
let Inst{9-5} = Rn;		let Inst{9-5} = Rn;
let Inst{4-0} = Rd;		let Inst{4-0} = Rd;
}		}

multiclass ThreeOperandFPData<bit isNegated, bit isSub,string asm,		multiclass ThreeOperandFPData<bit isNegated, bit isSub,string asm,
SDPatternOperator node> {		SDPatternOperator node> {
def Hrrr : BaseThreeOperandFPData<isNegated, isSub, FPR16, asm,		def Hrrr : BaseThreeOperandFPData<isNegated, isSub, FPR16, asm,
[(set FPR16:$Rd,		[(set (f16 FPR16:$Rd),
(node (f16 FPR16:$Rn), (f16 FPR16:$Rm), (f16 FPR16:$Ra)))]> {		(node (f16 FPR16:$Rn), (f16 FPR16:$Rm), (f16 FPR16:$Ra)))]> {
let Inst{23-22} = 0b11; // 16-bit size flag		let Inst{23-22} = 0b11; // 16-bit size flag
let Predicates = [HasFullFP16];		let Predicates = [HasFullFP16];
}		}

def Srrr : BaseThreeOperandFPData<isNegated, isSub, FPR32, asm,		def Srrr : BaseThreeOperandFPData<isNegated, isSub, FPR32, asm,
[(set FPR32:$Rd,		[(set FPR32:$Rd,
(node (f32 FPR32:$Rn), (f32 FPR32:$Rm), (f32 FPR32:$Ra)))]> {		(node (f32 FPR32:$Rn), (f32 FPR32:$Rm), (f32 FPR32:$Ra)))]> {
▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines	class BaseTwoOperandFPComparison<bit signalAllNans, RegisterClass regtype,
let Inst{4} = signalAllNans;		let Inst{4} = signalAllNans;
let Inst{3-0} = 0b0000;		let Inst{3-0} = 0b0000;
}		}

multiclass FPComparison<bit signalAllNans, string asm,		multiclass FPComparison<bit signalAllNans, string asm,
SDPatternOperator OpNode = null_frag> {		SDPatternOperator OpNode = null_frag> {
let Defs = [NZCV] in {		let Defs = [NZCV] in {
def Hrr : BaseTwoOperandFPComparison<signalAllNans, FPR16, asm,		def Hrr : BaseTwoOperandFPComparison<signalAllNans, FPR16, asm,
[(OpNode FPR16:$Rn, (f16 FPR16:$Rm)), (implicit NZCV)]> {		[(OpNode (f16 FPR16:$Rn), (f16 FPR16:$Rm)), (implicit NZCV)]> {
let Inst{23-22} = 0b11;		let Inst{23-22} = 0b11;
let Predicates = [HasFullFP16];		let Predicates = [HasFullFP16];
}		}

def Hri : BaseOneOperandFPComparison<signalAllNans, FPR16, asm,		def Hri : BaseOneOperandFPComparison<signalAllNans, FPR16, asm,
[(OpNode (f16 FPR16:$Rn), fpimm0), (implicit NZCV)]> {		[(OpNode (f16 FPR16:$Rn), fpimm0), (implicit NZCV)]> {
let Inst{23-22} = 0b11;		let Inst{23-22} = 0b11;
let Predicates = [HasFullFP16];		let Predicates = [HasFullFP16];
▲ Show 20 Lines • Show All 1,683 Lines • ▼ Show 20 Lines	multiclass SIMDFPThreeScalar<bit U, bit S, bits<3> opc, string asm,
SDPatternOperator OpNode = null_frag> {		SDPatternOperator OpNode = null_frag> {
let mayLoad = 0, mayStore = 0, hasSideEffects = 0 in {		let mayLoad = 0, mayStore = 0, hasSideEffects = 0 in {
def NAME#64 : BaseSIMDThreeScalar<U, {S,0b11}, {0b11,opc}, FPR64, asm,		def NAME#64 : BaseSIMDThreeScalar<U, {S,0b11}, {0b11,opc}, FPR64, asm,
[(set (f64 FPR64:$Rd), (OpNode (f64 FPR64:$Rn), (f64 FPR64:$Rm)))]>;		[(set (f64 FPR64:$Rd), (OpNode (f64 FPR64:$Rn), (f64 FPR64:$Rm)))]>;
def NAME#32 : BaseSIMDThreeScalar<U, {S,0b01}, {0b11,opc}, FPR32, asm,		def NAME#32 : BaseSIMDThreeScalar<U, {S,0b01}, {0b11,opc}, FPR32, asm,
[(set FPR32:$Rd, (OpNode FPR32:$Rn, FPR32:$Rm))]>;		[(set FPR32:$Rd, (OpNode FPR32:$Rn, FPR32:$Rm))]>;
let Predicates = [HasNEON, HasFullFP16] in {		let Predicates = [HasNEON, HasFullFP16] in {
def NAME#16 : BaseSIMDThreeScalar<U, {S,0b10}, {0b00,opc}, FPR16, asm,		def NAME#16 : BaseSIMDThreeScalar<U, {S,0b10}, {0b00,opc}, FPR16, asm,
[(set FPR16:$Rd, (OpNode FPR16:$Rn, FPR16:$Rm))]>;		[(set (f16 FPR16:$Rd), (OpNode (f16 FPR16:$Rn), (f16 FPR16:$Rm)))]>;
} // Predicates = [HasNEON, HasFullFP16]		} // Predicates = [HasNEON, HasFullFP16]
}		}

def : Pat<(v1f64 (OpNode (v1f64 FPR64:$Rn), (v1f64 FPR64:$Rm))),		def : Pat<(v1f64 (OpNode (v1f64 FPR64:$Rn), (v1f64 FPR64:$Rm))),
(!cast<Instruction>(NAME # "64") FPR64:$Rn, FPR64:$Rm)>;		(!cast<Instruction>(NAME # "64") FPR64:$Rn, FPR64:$Rm)>;
}		}

multiclass SIMDThreeScalarFPCmp<bit U, bit S, bits<3> opc, string asm,		multiclass SIMDThreeScalarFPCmp<bit U, bit S, bits<3> opc, string asm,
▲ Show 20 Lines • Show All 190 Lines • ▼ Show 20 Lines
multiclass SIMDFPTwoScalarCVT<bit U, bit S, bits<5> opc, string asm,		multiclass SIMDFPTwoScalarCVT<bit U, bit S, bits<5> opc, string asm,
SDPatternOperator OpNode> {		SDPatternOperator OpNode> {
def v1i64 : BaseSIMDTwoScalar<U, {S,1}, 0b00, opc, FPR64, FPR64, asm,		def v1i64 : BaseSIMDTwoScalar<U, {S,1}, 0b00, opc, FPR64, FPR64, asm,
[(set FPR64:$Rd, (OpNode (f64 FPR64:$Rn)))]>;		[(set FPR64:$Rd, (OpNode (f64 FPR64:$Rn)))]>;
def v1i32 : BaseSIMDTwoScalar<U, {S,0}, 0b00, opc, FPR32, FPR32, asm,		def v1i32 : BaseSIMDTwoScalar<U, {S,0}, 0b00, opc, FPR32, FPR32, asm,
[(set FPR32:$Rd, (OpNode (f32 FPR32:$Rn)))]>;		[(set FPR32:$Rd, (OpNode (f32 FPR32:$Rn)))]>;
let Predicates = [HasNEON, HasFullFP16] in {		let Predicates = [HasNEON, HasFullFP16] in {
def v1i16 : BaseSIMDTwoScalar<U, {S,1}, 0b11, opc, FPR16, FPR16, asm,		def v1i16 : BaseSIMDTwoScalar<U, {S,1}, 0b11, opc, FPR16, FPR16, asm,
[(set FPR16:$Rd, (OpNode (f16 FPR16:$Rn)))]>;		[(set (f16 FPR16:$Rd), (OpNode (f16 FPR16:$Rn)))]>;
}		}
}		}

multiclass SIMDTwoScalarBHSD<bit U, bits<5> opc, string asm,		multiclass SIMDTwoScalarBHSD<bit U, bits<5> opc, string asm,
SDPatternOperator OpNode = null_frag> {		SDPatternOperator OpNode = null_frag> {
let mayLoad = 0, mayStore = 0, hasSideEffects = 0 in {		let mayLoad = 0, mayStore = 0, hasSideEffects = 0 in {
def v1i64 : BaseSIMDTwoScalar<U, 0b11, 0b00, opc, FPR64, FPR64, asm,		def v1i64 : BaseSIMDTwoScalar<U, 0b11, 0b00, opc, FPR64, FPR64, asm,
[(set (i64 FPR64:$Rd), (OpNode (i64 FPR64:$Rn)))]>;		[(set (i64 FPR64:$Rd), (OpNode (i64 FPR64:$Rn)))]>;
▲ Show 20 Lines • Show All 125 Lines • ▼ Show 20 Lines	def v4i32v : BaseSIMDAcrossLanes<1, U, 0b10, opcode, FPR64, V128,
asm, ".4s", []>;		asm, ".4s", []>;
}		}

multiclass SIMDFPAcrossLanes<bits<5> opcode, bit sz1, string asm,		multiclass SIMDFPAcrossLanes<bits<5> opcode, bit sz1, string asm,
Intrinsic intOp> {		Intrinsic intOp> {
let Predicates = [HasNEON, HasFullFP16] in {		let Predicates = [HasNEON, HasFullFP16] in {
def v4i16v : BaseSIMDAcrossLanes<0, 0, {sz1, 0}, opcode, FPR16, V64,		def v4i16v : BaseSIMDAcrossLanes<0, 0, {sz1, 0}, opcode, FPR16, V64,
asm, ".4h",		asm, ".4h",
[(set FPR16:$Rd, (intOp (v4f16 V64:$Rn)))]>;		[(set (f16 FPR16:$Rd), (intOp (v4f16 V64:$Rn)))]>;
def v8i16v : BaseSIMDAcrossLanes<1, 0, {sz1, 0}, opcode, FPR16, V128,		def v8i16v : BaseSIMDAcrossLanes<1, 0, {sz1, 0}, opcode, FPR16, V128,
asm, ".8h",		asm, ".8h",
[(set FPR16:$Rd, (intOp (v8f16 V128:$Rn)))]>;		[(set (f16 FPR16:$Rd), (intOp (v8f16 V128:$Rn)))]>;
} // Predicates = [HasNEON, HasFullFP16]		} // Predicates = [HasNEON, HasFullFP16]
def v4i32v : BaseSIMDAcrossLanes<1, 1, {sz1, 0}, opcode, FPR32, V128,		def v4i32v : BaseSIMDAcrossLanes<1, 1, {sz1, 0}, opcode, FPR32, V128,
asm, ".4s",		asm, ".4s",
[(set FPR32:$Rd, (intOp (v4f32 V128:$Rn)))]>;		[(set FPR32:$Rd, (intOp (v4f32 V128:$Rn)))]>;
}		}

//----------------------------------------------------------------------------		//----------------------------------------------------------------------------
// AdvSIMD INS/DUP instructions		// AdvSIMD INS/DUP instructions
▲ Show 20 Lines • Show All 984 Lines • ▼ Show 20 Lines	multiclass SIMDFPIndexedTiedPatterns<string INST, SDPatternOperator OpNode> {
def : Pat<(v8f16 (OpNode (v8f16 V128:$Rd), (v8f16 V128:$Rn),		def : Pat<(v8f16 (OpNode (v8f16 V128:$Rd), (v8f16 V128:$Rn),
(AArch64duplane16 (v8f16 V128_lo:$Rm),		(AArch64duplane16 (v8f16 V128_lo:$Rm),
VectorIndexH:$idx))),		VectorIndexH:$idx))),
(!cast<Instruction>(INST # "v8i16_indexed")		(!cast<Instruction>(INST # "v8i16_indexed")
V128:$Rd, V128:$Rn, V128_lo:$Rm, VectorIndexH:$idx)>;		V128:$Rd, V128:$Rn, V128_lo:$Rm, VectorIndexH:$idx)>;
def : Pat<(v8f16 (OpNode (v8f16 V128:$Rd), (v8f16 V128:$Rn),		def : Pat<(v8f16 (OpNode (v8f16 V128:$Rd), (v8f16 V128:$Rn),
(AArch64dup (f16 FPR16Op_lo:$Rm)))),		(AArch64dup (f16 FPR16Op_lo:$Rm)))),
(!cast<Instruction>(INST # "v8i16_indexed") V128:$Rd, V128:$Rn,		(!cast<Instruction>(INST # "v8i16_indexed") V128:$Rd, V128:$Rn,
(SUBREG_TO_REG (i32 0), FPR16Op_lo:$Rm, hsub), (i64 0))>;		(SUBREG_TO_REG (i32 0), (f16 FPR16Op_lo:$Rm), hsub), (i64 0))>;

def : Pat<(v4f16 (OpNode (v4f16 V64:$Rd), (v4f16 V64:$Rn),		def : Pat<(v4f16 (OpNode (v4f16 V64:$Rd), (v4f16 V64:$Rn),
(AArch64duplane16 (v8f16 V128_lo:$Rm),		(AArch64duplane16 (v8f16 V128_lo:$Rm),
VectorIndexH:$idx))),		VectorIndexH:$idx))),
(!cast<Instruction>(INST # "v4i16_indexed")		(!cast<Instruction>(INST # "v4i16_indexed")
V64:$Rd, V64:$Rn, V128_lo:$Rm, VectorIndexH:$idx)>;		V64:$Rd, V64:$Rn, V128_lo:$Rm, VectorIndexH:$idx)>;
def : Pat<(v4f16 (OpNode (v4f16 V64:$Rd), (v4f16 V64:$Rn),		def : Pat<(v4f16 (OpNode (v4f16 V64:$Rd), (v4f16 V64:$Rn),
(AArch64dup (f16 FPR16Op_lo:$Rm)))),		(AArch64dup (f16 FPR16Op_lo:$Rm)))),
(!cast<Instruction>(INST # "v4i16_indexed") V64:$Rd, V64:$Rn,		(!cast<Instruction>(INST # "v4i16_indexed") V64:$Rd, V64:$Rn,
(SUBREG_TO_REG (i32 0), FPR16Op_lo:$Rm, hsub), (i64 0))>;		(SUBREG_TO_REG (i32 0), (f16 FPR16Op_lo:$Rm), hsub), (i64 0))>;

def : Pat<(f16 (OpNode (f16 FPR16:$Rd), (f16 FPR16:$Rn),		def : Pat<(f16 (OpNode (f16 FPR16:$Rd), (f16 FPR16:$Rn),
(vector_extract (v8f16 V128_lo:$Rm), VectorIndexH:$idx))),		(vector_extract (v8f16 V128_lo:$Rm), VectorIndexH:$idx))),
(!cast<Instruction>(INST # "v1i16_indexed") FPR16:$Rd, FPR16:$Rn,		(!cast<Instruction>(INST # "v1i16_indexed") FPR16:$Rd, FPR16:$Rn,
V128_lo:$Rm, VectorIndexH:$idx)>;		V128_lo:$Rm, VectorIndexH:$idx)>;
} // Predicates = [HasNEON, HasFullFP16]		} // Predicates = [HasNEON, HasFullFP16]

// 2 variants for the .2s version: DUPLANE from 128-bit and DUP scalar.		// 2 variants for the .2s version: DUPLANE from 128-bit and DUP scalar.
▲ Show 20 Lines • Show All 3,093 Lines • Show Last 20 Lines

llvm/lib/Target/AArch64/AArch64InstrInfo.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 2,523 Lines • ▼ Show 20 Lines	defm LDURX : LoadUnscaled<0b11, 0, 0b01, GPR64z, "ldur",
(load (am_unscaled64 GPR64sp:$Rn, simm9:$offset)))]>;		(load (am_unscaled64 GPR64sp:$Rn, simm9:$offset)))]>;
defm LDURW : LoadUnscaled<0b10, 0, 0b01, GPR32z, "ldur",		defm LDURW : LoadUnscaled<0b10, 0, 0b01, GPR32z, "ldur",
[(set GPR32z:$Rt,		[(set GPR32z:$Rt,
(load (am_unscaled32 GPR64sp:$Rn, simm9:$offset)))]>;		(load (am_unscaled32 GPR64sp:$Rn, simm9:$offset)))]>;
defm LDURB : LoadUnscaled<0b00, 1, 0b01, FPR8Op, "ldur",		defm LDURB : LoadUnscaled<0b00, 1, 0b01, FPR8Op, "ldur",
[(set FPR8Op:$Rt,		[(set FPR8Op:$Rt,
(load (am_unscaled8 GPR64sp:$Rn, simm9:$offset)))]>;		(load (am_unscaled8 GPR64sp:$Rn, simm9:$offset)))]>;
defm LDURH : LoadUnscaled<0b01, 1, 0b01, FPR16Op, "ldur",		defm LDURH : LoadUnscaled<0b01, 1, 0b01, FPR16Op, "ldur",
[(set FPR16Op:$Rt,		[(set (f16 FPR16Op:$Rt),
(load (am_unscaled16 GPR64sp:$Rn, simm9:$offset)))]>;		(load (am_unscaled16 GPR64sp:$Rn, simm9:$offset)))]>;
defm LDURS : LoadUnscaled<0b10, 1, 0b01, FPR32Op, "ldur",		defm LDURS : LoadUnscaled<0b10, 1, 0b01, FPR32Op, "ldur",
[(set (f32 FPR32Op:$Rt),		[(set (f32 FPR32Op:$Rt),
(load (am_unscaled32 GPR64sp:$Rn, simm9:$offset)))]>;		(load (am_unscaled32 GPR64sp:$Rn, simm9:$offset)))]>;
defm LDURD : LoadUnscaled<0b11, 1, 0b01, FPR64Op, "ldur",		defm LDURD : LoadUnscaled<0b11, 1, 0b01, FPR64Op, "ldur",
[(set (f64 FPR64Op:$Rt),		[(set (f64 FPR64Op:$Rt),
(load (am_unscaled64 GPR64sp:$Rn, simm9:$offset)))]>;		(load (am_unscaled64 GPR64sp:$Rn, simm9:$offset)))]>;
defm LDURQ : LoadUnscaled<0b00, 1, 0b11, FPR128Op, "ldur",		defm LDURQ : LoadUnscaled<0b00, 1, 0b11, FPR128Op, "ldur",
▲ Show 20 Lines • Show All 4,891 Lines • Show Last 20 Lines

llvm/lib/Target/AArch64/AArch64RegisterInfo.td

	Show First 20 Lines • Show All 416 Lines • ▼ Show 20 Lines
	def Q29 : AArch64Reg<29, "q29", [D29], ["v29", ""]>, DwarfRegAlias<B29>;			def Q29 : AArch64Reg<29, "q29", [D29], ["v29", ""]>, DwarfRegAlias<B29>;
	def Q30 : AArch64Reg<30, "q30", [D30], ["v30", ""]>, DwarfRegAlias<B30>;			def Q30 : AArch64Reg<30, "q30", [D30], ["v30", ""]>, DwarfRegAlias<B30>;
	def Q31 : AArch64Reg<31, "q31", [D31], ["v31", ""]>, DwarfRegAlias<B31>;			def Q31 : AArch64Reg<31, "q31", [D31], ["v31", ""]>, DwarfRegAlias<B31>;
	}			}

	def FPR8 : RegisterClass<"AArch64", [untyped], 8, (sequence "B%u", 0, 31)> {			def FPR8 : RegisterClass<"AArch64", [untyped], 8, (sequence "B%u", 0, 31)> {
	let Size = 8;			let Size = 8;
	}			}
	def FPR16 : RegisterClass<"AArch64", [f16], 16, (sequence "H%u", 0, 31)> {			def FPR16 : RegisterClass<"AArch64", [f16, bf16], 16, (sequence "H%u", 0, 31)> {
	let Size = 16;			let Size = 16;
	}			}

				fpetrogalliUnsubmitted Not Done Reply Inline Actions nit: remove me fpetrogalli: nit: remove me
	def FPR16_lo : RegisterClass<"AArch64", [f16], 16, (trunc FPR16, 16)> {			def FPR16_lo : RegisterClass<"AArch64", [f16], 16, (trunc FPR16, 16)> {
	let Size = 16;			let Size = 16;
	}			}
	def FPR32 : RegisterClass<"AArch64", [f32, i32], 32,(sequence "S%u", 0, 31)>;			def FPR32 : RegisterClass<"AArch64", [f32, i32], 32,(sequence "S%u", 0, 31)>;
	def FPR64 : RegisterClass<"AArch64", [f64, i64, v2f32, v1f64, v8i8, v4i16, v2i32,			def FPR64 : RegisterClass<"AArch64", [f64, i64, v2f32, v1f64, v8i8, v4i16, v2i32,
	v1i64, v4f16],			v1i64, v4f16, v4bf16],
	64, (sequence "D%u", 0, 31)>;			64, (sequence "D%u", 0, 31)>;
	def FPR64_lo : RegisterClass<"AArch64",			def FPR64_lo : RegisterClass<"AArch64",
	[v8i8, v4i16, v2i32, v1i64, v4f16, v2f32, v1f64],			[v8i8, v4i16, v2i32, v1i64, v4f16, v4bf16, v2f32,
				v1f64],
	64, (trunc FPR64, 16)>;			64, (trunc FPR64, 16)>;

	// We don't (yet) have an f128 legal type, so don't use that here. We			// We don't (yet) have an f128 legal type, so don't use that here. We
	// normalize 128-bit vectors to v2f64 for arg passing and such, so use			// normalize 128-bit vectors to v2f64 for arg passing and such, so use
	// that here.			// that here.
	def FPR128 : RegisterClass<"AArch64",			def FPR128 : RegisterClass<"AArch64",
	[v16i8, v8i16, v4i32, v2i64, v4f32, v2f64, f128,			[v16i8, v8i16, v4i32, v2i64, v4f32, v2f64, f128,
	v8f16],			v8f16, v8bf16],
	128, (sequence "Q%u", 0, 31)>;			128, (sequence "Q%u", 0, 31)>;

	// The lower 16 vector registers. Some instructions can only take registers			// The lower 16 vector registers. Some instructions can only take registers
	// in this range.			// in this range.
	def FPR128_lo : RegisterClass<"AArch64",			def FPR128_lo : RegisterClass<"AArch64",
	[v16i8, v8i16, v4i32, v2i64, v4f32, v2f64, v8f16],			[v16i8, v8i16, v4i32, v2i64, v4f32, v2f64, v8f16,
				v8bf16],
	128, (trunc FPR128, 16)>;			128, (trunc FPR128, 16)>;

	// Pairs, triples, and quads of 64-bit vector registers.			// Pairs, triples, and quads of 64-bit vector registers.
	def DSeqPairs : RegisterTuples<[dsub0, dsub1], [(rotl FPR64, 0), (rotl FPR64, 1)]>;			def DSeqPairs : RegisterTuples<[dsub0, dsub1], [(rotl FPR64, 0), (rotl FPR64, 1)]>;
	def DSeqTriples : RegisterTuples<[dsub0, dsub1, dsub2],			def DSeqTriples : RegisterTuples<[dsub0, dsub1, dsub2],
	[(rotl FPR64, 0), (rotl FPR64, 1),			[(rotl FPR64, 0), (rotl FPR64, 1),
	(rotl FPR64, 2)]>;			(rotl FPR64, 2)]>;
	def DSeqQuads : RegisterTuples<[dsub0, dsub1, dsub2, dsub3],			def DSeqQuads : RegisterTuples<[dsub0, dsub1, dsub2, dsub3],
	▲ Show 20 Lines • Show All 412 Lines • ▼ Show 20 Lines
	def PPR3b64 : PPRRegOp<"d", PPRAsmOp3b64, ElementSizeD, PPR_3b>;			def PPR3b64 : PPRRegOp<"d", PPRAsmOp3b64, ElementSizeD, PPR_3b>;

	//******************************************************************************			//******************************************************************************

	// SVE vector register classes			// SVE vector register classes
	class ZPRClass<int lastreg> : RegisterClass<"AArch64",			class ZPRClass<int lastreg> : RegisterClass<"AArch64",
	[nxv16i8, nxv8i16, nxv4i32, nxv2i64,			[nxv16i8, nxv8i16, nxv4i32, nxv2i64,
	nxv2f16, nxv4f16, nxv8f16,			nxv2f16, nxv4f16, nxv8f16,
				nxv2bf16, nxv4bf16, nxv8bf16,
	nxv2f32, nxv4f32,			nxv2f32, nxv4f32,
	nxv2f64],			nxv2f64],
	128, (sequence "Z%u", 0, lastreg)> {			128, (sequence "Z%u", 0, lastreg)> {
	let Size = 128;			let Size = 128;
	}			}

	def ZPR : ZPRClass<31>;			def ZPR : ZPRClass<31>;
	def ZPR_4b : ZPRClass<15>; // Restricted 4 bit SVE vector register class.			def ZPR_4b : ZPRClass<15>; // Restricted 4 bit SVE vector register class.
	▲ Show 20 Lines • Show All 241 Lines • Show Last 20 Lines