This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
lib/Target/ARM/
-
Target/
-
ARM/
-
ARMCallingConv.td
-
ARMISelDAGToDAG.cpp
-
ARMISelLowering.cpp
-
ARMInstrNEON.td
-
test/CodeGen/ARM/
-
CodeGen/
-
ARM/
-
vstlane-v4.ll
-
vstlane-v8.ll

Differential D35011

[ARM] add v4f16 and v8f16 as legal types
AbandonedPublic

Authored by SjoerdMeijer on Jul 5 2017, 6:44 AM.

Download Raw Diff

Details

Reviewers

az
t.p.northover

Summary

This is addressing an issue exposed by commit rL305820, see also D34161, which adds the ARMv.2-A FP16 vector intrinsics.
Due to this patch the backend now gets <4 x half> and <8 x half>types which wasn't the case before, and it doesn't know how to deal with them.

I am sharing my work in progress here when I learned that Samsung is also working on a solution; perhaps this helps and/or thus we can speed things up.

Essentially, the approach taken here is to add types MVT::v4f16 and MVT::v8f16 only when hasFullFP16 is enabled; this makes sure we don't change the old behaviour.
All regression tests pass with this patch, except the last one of a series of new tests that I added: i.e. a function that accepts and returns a <8 x half> type, see function variable_insertelement in vstlane-v8.ll. I am still working on fixing this.

Please let me know what you think, if you have ideas, or e.g. have taken another approach.

Diff Detail

Event Timeline

SjoerdMeijer created this revision.Jul 5 2017, 6:44 AM

Herald added subscribers: kristof.beyls, javed.absar, aemerson. · View Herald TranscriptJul 5 2017, 6:44 AM

SjoerdMeijer mentioned this in rL307277: This reverts r305820 (ARMv.2-A FP16 vector intrinsics) because it shows.Jul 6 2017, 9:38 AM

SjoerdMeijer abandoned this revision.Mar 17 2023, 1:43 AM

Herald added a project: Restricted Project. · View Herald TranscriptMar 17 2023, 1:43 AM

Revision Contents

Path

Size

lib/

Target/

ARM/

36 lines

10 lines

9 lines

13 lines

test/

CodeGen/

ARM/

vstlane-v4.ll

59 lines

vstlane-v8.ll

52 lines

Diff 105263

lib/Target/ARM/ARMCallingConv.td

Show All 24 Lines	def CC_ARM_APCS : CallingConv<[

// Pass SwiftSelf in a callee saved register.		// Pass SwiftSelf in a callee saved register.
CCIfSwiftSelf<CCIfType<[i32], CCAssignToReg<[R10]>>>,		CCIfSwiftSelf<CCIfType<[i32], CCAssignToReg<[R10]>>>,

// A SwiftError is passed in R8.		// A SwiftError is passed in R8.
CCIfSwiftError<CCIfType<[i32], CCAssignToReg<[R8]>>>,		CCIfSwiftError<CCIfType<[i32], CCAssignToReg<[R8]>>>,

// Handle all vector types as either f64 or v2f64.		// Handle all vector types as either f64 or v2f64.
CCIfType<[v1i64, v2i32, v4i16, v8i8, v2f32], CCBitConvertToType<f64>>,		CCIfType<[v1i64, v2i32, v4i16, v4f16, v8i8, v2f32], CCBitConvertToType<f64>>,
CCIfType<[v2i64, v4i32, v8i16, v16i8, v4f32], CCBitConvertToType<v2f64>>,		CCIfType<[v2i64, v4i32, v8i16, v16i8, v4f32, v8f16], CCBitConvertToType<v2f64>>,

// f64 and v2f64 are passed in adjacent GPRs, possibly split onto the stack		// f64 and v2f64 are passed in adjacent GPRs, possibly split onto the stack
CCIfType<[f64, v2f64], CCCustom<"CC_ARM_APCS_Custom_f64">>,		CCIfType<[f64, v2f64], CCCustom<"CC_ARM_APCS_Custom_f64">>,

CCIfType<[f32], CCBitConvertToType<i32>>,		CCIfType<[f32], CCBitConvertToType<i32>>,
CCIfType<[i32], CCAssignToReg<[R0, R1, R2, R3]>>,		CCIfType<[i32], CCAssignToReg<[R0, R1, R2, R3]>>,

CCIfType<[i32], CCAssignToStack<4, 4>>,		CCIfType<[i32], CCAssignToStack<4, 4>>,
CCIfType<[f64], CCAssignToStack<8, 4>>,		CCIfType<[f64], CCAssignToStack<8, 4>>,
CCIfType<[v2f64], CCAssignToStack<16, 4>>		CCIfType<[v2f64], CCAssignToStack<16, 4>>
]>;		]>;

def RetCC_ARM_APCS : CallingConv<[		def RetCC_ARM_APCS : CallingConv<[
CCIfType<[i1, i8, i16], CCPromoteToType<i32>>,		CCIfType<[i1, i8, i16], CCPromoteToType<i32>>,
CCIfType<[f32], CCBitConvertToType<i32>>,		CCIfType<[f32], CCBitConvertToType<i32>>,

// Pass SwiftSelf in a callee saved register.		// Pass SwiftSelf in a callee saved register.
CCIfSwiftSelf<CCIfType<[i32], CCAssignToReg<[R10]>>>,		CCIfSwiftSelf<CCIfType<[i32], CCAssignToReg<[R10]>>>,

// A SwiftError is returned in R8.		// A SwiftError is returned in R8.
CCIfSwiftError<CCIfType<[i32], CCAssignToReg<[R8]>>>,		CCIfSwiftError<CCIfType<[i32], CCAssignToReg<[R8]>>>,

// Handle all vector types as either f64 or v2f64.		// Handle all vector types as either f64 or v2f64.
CCIfType<[v1i64, v2i32, v4i16, v8i8, v2f32], CCBitConvertToType<f64>>,		CCIfType<[v1i64, v2i32, v4i16, v4f16, v8i8, v2f32], CCBitConvertToType<f64>>,
CCIfType<[v2i64, v4i32, v8i16, v16i8, v4f32], CCBitConvertToType<v2f64>>,		CCIfType<[v2i64, v4i32, v8i16, v8f16, v16i8, v4f32], CCBitConvertToType<v2f64>>,

CCIfType<[f64, v2f64], CCCustom<"RetCC_ARM_APCS_Custom_f64">>,		CCIfType<[f64, v2f64], CCCustom<"RetCC_ARM_APCS_Custom_f64">>,

CCIfType<[i32], CCAssignToReg<[R0, R1, R2, R3]>>,		CCIfType<[i32], CCAssignToReg<[R0, R1, R2, R3]>>,
CCIfType<[i64], CCAssignToRegWithShadow<[R0, R2], [R1, R3]>>		CCIfType<[i64], CCAssignToRegWithShadow<[R0, R2], [R1, R3]>>
]>;		]>;

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// ARM APCS Calling Convention for FastCC (when VFP2 or later is available)		// ARM APCS Calling Convention for FastCC (when VFP2 or later is available)
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
def FastCC_ARM_APCS : CallingConv<[		def FastCC_ARM_APCS : CallingConv<[
// Handle all vector types as either f64 or v2f64.		// Handle all vector types as either f64 or v2f64.
CCIfType<[v1i64, v2i32, v4i16, v8i8, v2f32], CCBitConvertToType<f64>>,		CCIfType<[v1i64, v2i32, v4i16, v4f16, v8i8, v2f32], CCBitConvertToType<f64>>,
CCIfType<[v2i64, v4i32, v8i16, v16i8, v4f32], CCBitConvertToType<v2f64>>,		CCIfType<[v2i64, v4i32, v8i16, v8f16, v16i8, v4f32], CCBitConvertToType<v2f64>>,

CCIfType<[v2f64], CCAssignToReg<[Q0, Q1, Q2, Q3]>>,		CCIfType<[v2f64], CCAssignToReg<[Q0, Q1, Q2, Q3]>>,
CCIfType<[f64], CCAssignToReg<[D0, D1, D2, D3, D4, D5, D6, D7]>>,		CCIfType<[f64], CCAssignToReg<[D0, D1, D2, D3, D4, D5, D6, D7]>>,
CCIfType<[f32], CCAssignToReg<[S0, S1, S2, S3, S4, S5, S6, S7, S8,		CCIfType<[f32], CCAssignToReg<[S0, S1, S2, S3, S4, S5, S6, S7, S8,
S9, S10, S11, S12, S13, S14, S15]>>,		S9, S10, S11, S12, S13, S14, S15]>>,

// CPRCs may be allocated to co-processor registers or the stack - they		// CPRCs may be allocated to co-processor registers or the stack - they
// may never be allocated to core registers.		// may never be allocated to core registers.
CCIfType<[f32], CCAssignToStackWithShadow<4, 4, [Q0, Q1, Q2, Q3]>>,		CCIfType<[f32], CCAssignToStackWithShadow<4, 4, [Q0, Q1, Q2, Q3]>>,
CCIfType<[f64], CCAssignToStackWithShadow<8, 4, [Q0, Q1, Q2, Q3]>>,		CCIfType<[f64], CCAssignToStackWithShadow<8, 4, [Q0, Q1, Q2, Q3]>>,
CCIfType<[v2f64], CCAssignToStackWithShadow<16, 4, [Q0, Q1, Q2, Q3]>>,		CCIfType<[v2f64], CCAssignToStackWithShadow<16, 4, [Q0, Q1, Q2, Q3]>>,

CCDelegateTo<CC_ARM_APCS>		CCDelegateTo<CC_ARM_APCS>
]>;		]>;

def RetFastCC_ARM_APCS : CallingConv<[		def RetFastCC_ARM_APCS : CallingConv<[
// Handle all vector types as either f64 or v2f64.		// Handle all vector types as either f64 or v2f64.
CCIfType<[v1i64, v2i32, v4i16, v8i8, v2f32], CCBitConvertToType<f64>>,		CCIfType<[v1i64, v2i32, v4i16, v4f16, v8i8, v2f32], CCBitConvertToType<f64>>,
CCIfType<[v2i64, v4i32, v8i16, v16i8, v4f32], CCBitConvertToType<v2f64>>,		CCIfType<[v2i64, v4i32, v8i16, v8f16, v16i8, v4f32], CCBitConvertToType<v2f64>>,

CCIfType<[v2f64], CCAssignToReg<[Q0, Q1, Q2, Q3]>>,		CCIfType<[v2f64], CCAssignToReg<[Q0, Q1, Q2, Q3]>>,
CCIfType<[f64], CCAssignToReg<[D0, D1, D2, D3, D4, D5, D6, D7]>>,		CCIfType<[f64], CCAssignToReg<[D0, D1, D2, D3, D4, D5, D6, D7]>>,
CCIfType<[f32], CCAssignToReg<[S0, S1, S2, S3, S4, S5, S6, S7, S8,		CCIfType<[f32], CCAssignToReg<[S0, S1, S2, S3, S4, S5, S6, S7, S8,
S9, S10, S11, S12, S13, S14, S15]>>,		S9, S10, S11, S12, S13, S14, S15]>>,
CCDelegateTo<RetCC_ARM_APCS>		CCDelegateTo<RetCC_ARM_APCS>
]>;		]>;

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// ARM APCS Calling Convention for GHC		// ARM APCS Calling Convention for GHC
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

def CC_ARM_APCS_GHC : CallingConv<[		def CC_ARM_APCS_GHC : CallingConv<[
// Handle all vector types as either f64 or v2f64.		// Handle all vector types as either f64 or v2f64.
CCIfType<[v1i64, v2i32, v4i16, v8i8, v2f32], CCBitConvertToType<f64>>,		CCIfType<[v1i64, v2i32, v4i16, v4f16, v8i8, v2f32], CCBitConvertToType<f64>>,
CCIfType<[v2i64, v4i32, v8i16, v16i8, v4f32], CCBitConvertToType<v2f64>>,		CCIfType<[v2i64, v4i32, v8i16, v8f16, v16i8, v4f32], CCBitConvertToType<v2f64>>,

CCIfType<[v2f64], CCAssignToReg<[Q4, Q5]>>,		CCIfType<[v2f64], CCAssignToReg<[Q4, Q5]>>,
CCIfType<[f64], CCAssignToReg<[D8, D9, D10, D11]>>,		CCIfType<[f64], CCAssignToReg<[D8, D9, D10, D11]>>,
CCIfType<[f32], CCAssignToReg<[S16, S17, S18, S19, S20, S21, S22, S23]>>,		CCIfType<[f32], CCAssignToReg<[S16, S17, S18, S19, S20, S21, S22, S23]>>,

// Promote i8/i16 arguments to i32.		// Promote i8/i16 arguments to i32.
CCIfType<[i8, i16], CCPromoteToType<i32>>,		CCIfType<[i8, i16], CCPromoteToType<i32>>,

Show All 38 Lines
def CC_ARM_AAPCS : CallingConv<[		def CC_ARM_AAPCS : CallingConv<[
// Handles byval parameters.		// Handles byval parameters.
CCIfByVal<CCPassByVal<4, 4>>,		CCIfByVal<CCPassByVal<4, 4>>,

// The 'nest' parameter, if any, is passed in R12.		// The 'nest' parameter, if any, is passed in R12.
CCIfNest<CCAssignToReg<[R12]>>,		CCIfNest<CCAssignToReg<[R12]>>,

// Handle all vector types as either f64 or v2f64.		// Handle all vector types as either f64 or v2f64.
CCIfType<[v1i64, v2i32, v4i16, v8i8, v2f32], CCBitConvertToType<f64>>,		CCIfType<[v1i64, v2i32, v4i16, v4f16, v8i8, v2f32], CCBitConvertToType<f64>>,
CCIfType<[v2i64, v4i32, v8i16, v16i8, v4f32], CCBitConvertToType<v2f64>>,		CCIfType<[v2i64, v4i32, v8i16, v8f16, v16i8, v4f32], CCBitConvertToType<v2f64>>,

// Pass SwiftSelf in a callee saved register.		// Pass SwiftSelf in a callee saved register.
CCIfSwiftSelf<CCIfType<[i32], CCAssignToReg<[R10]>>>,		CCIfSwiftSelf<CCIfType<[i32], CCAssignToReg<[R10]>>>,

// A SwiftError is passed in R8.		// A SwiftError is passed in R8.
CCIfSwiftError<CCIfType<[i32], CCAssignToReg<[R8]>>>,		CCIfSwiftError<CCIfType<[i32], CCAssignToReg<[R8]>>>,

CCIfType<[f64, v2f64], CCCustom<"CC_ARM_AAPCS_Custom_f64">>,		CCIfType<[f64, v2f64], CCCustom<"CC_ARM_AAPCS_Custom_f64">>,
CCIfType<[f32], CCBitConvertToType<i32>>,		CCIfType<[f32], CCBitConvertToType<i32>>,
CCDelegateTo<CC_ARM_AAPCS_Common>		CCDelegateTo<CC_ARM_AAPCS_Common>
]>;		]>;

def RetCC_ARM_AAPCS : CallingConv<[		def RetCC_ARM_AAPCS : CallingConv<[
// Handle all vector types as either f64 or v2f64.		// Handle all vector types as either f64 or v2f64.
CCIfType<[v1i64, v2i32, v4i16, v8i8, v2f32], CCBitConvertToType<f64>>,		CCIfType<[v1i64, v2i32, v4i16, v4f16, v8i8, v2f32], CCBitConvertToType<f64>>,
CCIfType<[v2i64, v4i32, v8i16, v16i8, v4f32], CCBitConvertToType<v2f64>>,		CCIfType<[v2i64, v4i32, v8i16, v8f16, v16i8, v4f32], CCBitConvertToType<v2f64>>,

// Pass SwiftSelf in a callee saved register.		// Pass SwiftSelf in a callee saved register.
CCIfSwiftSelf<CCIfType<[i32], CCAssignToReg<[R10]>>>,		CCIfSwiftSelf<CCIfType<[i32], CCAssignToReg<[R10]>>>,

// A SwiftError is returned in R8.		// A SwiftError is returned in R8.
CCIfSwiftError<CCIfType<[i32], CCAssignToReg<[R8]>>>,		CCIfSwiftError<CCIfType<[i32], CCAssignToReg<[R8]>>>,

CCIfType<[f64, v2f64], CCCustom<"RetCC_ARM_AAPCS_Custom_f64">>,		CCIfType<[f64, v2f64], CCCustom<"RetCC_ARM_AAPCS_Custom_f64">>,
CCIfType<[f32], CCBitConvertToType<i32>>,		CCIfType<[f32], CCBitConvertToType<i32>>,
CCDelegateTo<RetCC_ARM_AAPCS_Common>		CCDelegateTo<RetCC_ARM_AAPCS_Common>
]>;		]>;

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// ARM AAPCS-VFP (EABI) Calling Convention		// ARM AAPCS-VFP (EABI) Calling Convention
// Also used for FastCC (when VFP2 or later is available)		// Also used for FastCC (when VFP2 or later is available)
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

def CC_ARM_AAPCS_VFP : CallingConv<[		def CC_ARM_AAPCS_VFP : CallingConv<[
// Handles byval parameters.		// Handles byval parameters.
CCIfByVal<CCPassByVal<4, 4>>,		CCIfByVal<CCPassByVal<4, 4>>,

// Handle all vector types as either f64 or v2f64.		// Handle all vector types as either f64 or v2f64.
CCIfType<[v1i64, v2i32, v4i16, v8i8, v2f32], CCBitConvertToType<f64>>,		CCIfType<[v1i64, v2i32, v4i16, v4f16, v8i8, v2f32], CCBitConvertToType<f64>>,
CCIfType<[v2i64, v4i32, v8i16, v16i8, v4f32], CCBitConvertToType<v2f64>>,		CCIfType<[v2i64, v4i32, v8i16, v8f16, v16i8, v4f32], CCBitConvertToType<v2f64>>,

// Pass SwiftSelf in a callee saved register.		// Pass SwiftSelf in a callee saved register.
CCIfSwiftSelf<CCIfType<[i32], CCAssignToReg<[R10]>>>,		CCIfSwiftSelf<CCIfType<[i32], CCAssignToReg<[R10]>>>,

// A SwiftError is passed in R8.		// A SwiftError is passed in R8.
CCIfSwiftError<CCIfType<[i32], CCAssignToReg<[R8]>>>,		CCIfSwiftError<CCIfType<[i32], CCAssignToReg<[R8]>>>,

// HFAs are passed in a contiguous block of registers, or on the stack		// HFAs are passed in a contiguous block of registers, or on the stack
CCIfConsecutiveRegs<CCCustom<"CC_ARM_AAPCS_Custom_Aggregate">>,		CCIfConsecutiveRegs<CCCustom<"CC_ARM_AAPCS_Custom_Aggregate">>,

CCIfType<[v2f64], CCAssignToReg<[Q0, Q1, Q2, Q3]>>,		CCIfType<[v2f64], CCAssignToReg<[Q0, Q1, Q2, Q3]>>,
CCIfType<[f64], CCAssignToReg<[D0, D1, D2, D3, D4, D5, D6, D7]>>,		CCIfType<[f64], CCAssignToReg<[D0, D1, D2, D3, D4, D5, D6, D7]>>,
CCIfType<[f32], CCAssignToReg<[S0, S1, S2, S3, S4, S5, S6, S7, S8,		CCIfType<[f32], CCAssignToReg<[S0, S1, S2, S3, S4, S5, S6, S7, S8,
S9, S10, S11, S12, S13, S14, S15]>>,		S9, S10, S11, S12, S13, S14, S15]>>,
CCDelegateTo<CC_ARM_AAPCS_Common>		CCDelegateTo<CC_ARM_AAPCS_Common>
]>;		]>;

def RetCC_ARM_AAPCS_VFP : CallingConv<[		def RetCC_ARM_AAPCS_VFP : CallingConv<[
// Handle all vector types as either f64 or v2f64.		// Handle all vector types as either f64 or v2f64.
CCIfType<[v1i64, v2i32, v4i16, v8i8, v2f32], CCBitConvertToType<f64>>,		CCIfType<[v1i64, v2i32, v4i16, v4f16, v8i8, v2f32], CCBitConvertToType<f64>>,
CCIfType<[v2i64, v4i32, v8i16, v16i8, v4f32], CCBitConvertToType<v2f64>>,		CCIfType<[v2i64, v4i32, v8i16, v8f16, v16i8, v4f32], CCBitConvertToType<v2f64>>,

// Pass SwiftSelf in a callee saved register.		// Pass SwiftSelf in a callee saved register.
CCIfSwiftSelf<CCIfType<[i32], CCAssignToReg<[R10]>>>,		CCIfSwiftSelf<CCIfType<[i32], CCAssignToReg<[R10]>>>,

// A SwiftError is returned in R8.		// A SwiftError is returned in R8.
CCIfSwiftError<CCIfType<[i32], CCAssignToReg<[R8]>>>,		CCIfSwiftError<CCIfType<[i32], CCAssignToReg<[R8]>>>,

CCIfType<[v2f64], CCAssignToReg<[Q0, Q1, Q2, Q3]>>,		CCIfType<[v2f64], CCAssignToReg<[Q0, Q1, Q2, Q3]>>,
▲ Show 20 Lines • Show All 77 Lines • Show Last 20 Lines

lib/Target/ARM/ARMISelDAGToDAG.cpp

Show First 20 Lines • Show All 2,187 Lines • ▼ Show 20 Lines	void ARMDAGToDAGISel::SelectVLDSTLane(SDNode *N, bool IsLoad, bool isUpdating,
}		}
Align = CurDAG->getTargetConstant(Alignment, dl, MVT::i32);		Align = CurDAG->getTargetConstant(Alignment, dl, MVT::i32);

unsigned OpcodeIndex;		unsigned OpcodeIndex;
switch (VT.getSimpleVT().SimpleTy) {		switch (VT.getSimpleVT().SimpleTy) {
default: llvm_unreachable("unhandled vld/vst lane type");		default: llvm_unreachable("unhandled vld/vst lane type");
// Double-register operations:		// Double-register operations:
case MVT::v8i8: OpcodeIndex = 0; break;		case MVT::v8i8: OpcodeIndex = 0; break;
		case MVT::v4f16:
case MVT::v4i16: OpcodeIndex = 1; break;		case MVT::v4i16: OpcodeIndex = 1; break;
case MVT::v2f32:		case MVT::v2f32:
case MVT::v2i32: OpcodeIndex = 2; break;		case MVT::v2i32: OpcodeIndex = 2; break;
// Quad-register operations:		// Quad-register operations:
		case MVT::v8f16:
case MVT::v8i16: OpcodeIndex = 0; break;		case MVT::v8i16: OpcodeIndex = 0; break;
case MVT::v4f32:		case MVT::v4f32:
case MVT::v4i32: OpcodeIndex = 1; break;		case MVT::v4i32: OpcodeIndex = 1; break;
}		}

std::vector<EVT> ResTys;		std::vector<EVT> ResTys;
if (IsLoad) {		if (IsLoad) {
unsigned ResTyElts = (NumVecs == 3) ? 4 : NumVecs;		unsigned ResTyElts = (NumVecs == 3) ? 4 : NumVecs;
▲ Show 20 Lines • Show All 98 Lines • ▼ Show 20 Lines	void ARMDAGToDAGISel::SelectVLDDup(SDNode *N, bool isUpdating, unsigned NumVecs,
}		}
Align = CurDAG->getTargetConstant(Alignment, dl, MVT::i32);		Align = CurDAG->getTargetConstant(Alignment, dl, MVT::i32);

unsigned Opc;		unsigned Opc;
switch (VT.getSimpleVT().SimpleTy) {		switch (VT.getSimpleVT().SimpleTy) {
default: llvm_unreachable("unhandled vld-dup type");		default: llvm_unreachable("unhandled vld-dup type");
case MVT::v8i8: Opc = DOpcodes[0]; break;		case MVT::v8i8: Opc = DOpcodes[0]; break;
case MVT::v16i8: Opc = QOpcodes[0]; break;		case MVT::v16i8: Opc = QOpcodes[0]; break;
case MVT::v4i16: Opc = DOpcodes[1]; break;		case MVT::v4f16:
case MVT::v8i16: Opc = QOpcodes[1]; break;		case MVT::v4i16:
		Opc = DOpcodes[1]; break;
		case MVT::v8f16:
		case MVT::v8i16:
		Opc = QOpcodes[1]; break;
case MVT::v2f32:		case MVT::v2f32:
case MVT::v2i32: Opc = DOpcodes[2]; break;		case MVT::v2i32: Opc = DOpcodes[2]; break;
case MVT::v4f32:		case MVT::v4f32:
case MVT::v4i32: Opc = QOpcodes[2]; break;		case MVT::v4i32: Opc = QOpcodes[2]; break;
}		}

SDValue Pred = getAL(CurDAG, dl);		SDValue Pred = getAL(CurDAG, dl);
SDValue Reg0 = CurDAG->getRegister(0, MVT::i32);		SDValue Reg0 = CurDAG->getRegister(0, MVT::i32);
▲ Show 20 Lines • Show All 2,047 Lines • Show Last 20 Lines

lib/Target/ARM/ARMISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 547 Lines • ▼ Show 20 Lines	ARMTargetLowering::ARMTargetLowering(const TargetMachine &TM,

if (Subtarget->hasNEON()) {		if (Subtarget->hasNEON()) {
addDRTypeForNEON(MVT::v2f32);		addDRTypeForNEON(MVT::v2f32);
addDRTypeForNEON(MVT::v8i8);		addDRTypeForNEON(MVT::v8i8);
addDRTypeForNEON(MVT::v4i16);		addDRTypeForNEON(MVT::v4i16);
addDRTypeForNEON(MVT::v2i32);		addDRTypeForNEON(MVT::v2i32);
addDRTypeForNEON(MVT::v1i64);		addDRTypeForNEON(MVT::v1i64);

		if (Subtarget->hasFullFP16()) {
		addDRTypeForNEON(MVT::v4f16);
		addQRTypeForNEON(MVT::v8f16);
		}

addQRTypeForNEON(MVT::v4f32);		addQRTypeForNEON(MVT::v4f32);
addQRTypeForNEON(MVT::v2f64);		addQRTypeForNEON(MVT::v2f64);
addQRTypeForNEON(MVT::v16i8);		addQRTypeForNEON(MVT::v16i8);
addQRTypeForNEON(MVT::v8i16);		addQRTypeForNEON(MVT::v8i16);
addQRTypeForNEON(MVT::v4i32);		addQRTypeForNEON(MVT::v4i32);
addQRTypeForNEON(MVT::v2i64);		addQRTypeForNEON(MVT::v2i64);

// v2f64 is legal so that QR subregs can be extracted as f64 elements, but		// v2f64 is legal so that QR subregs can be extracted as f64 elements, but
▲ Show 20 Lines • Show All 632 Lines • ▼ Show 20 Lines	ARMTargetLowering::findRepresentativeClass(const TargetRegisterInfo *TRI,
uint8_t Cost = 1;		uint8_t Cost = 1;
switch (VT.SimpleTy) {		switch (VT.SimpleTy) {
default:		default:
return TargetLowering::findRepresentativeClass(TRI, VT);		return TargetLowering::findRepresentativeClass(TRI, VT);
// Use DPR as representative register class for all floating point		// Use DPR as representative register class for all floating point
// and vector types. Since there are 32 SPR registers and 32 DPR registers so		// and vector types. Since there are 32 SPR registers and 32 DPR registers so
// the cost is 1 for both f32 and f64.		// the cost is 1 for both f32 and f64.
case MVT::f32: case MVT::f64: case MVT::v8i8: case MVT::v4i16:		case MVT::f32: case MVT::f64: case MVT::v8i8: case MVT::v4i16:
case MVT::v2i32: case MVT::v1i64: case MVT::v2f32:		case MVT::v4f16: case MVT::v2i32: case MVT::v1i64: case MVT::v2f32:
RRC = &ARM::DPRRegClass;		RRC = &ARM::DPRRegClass;
// When NEON is used for SP, only half of the register file is available		// When NEON is used for SP, only half of the register file is available
// because operations that define both SP and DP results will be constrained		// because operations that define both SP and DP results will be constrained
// to the VFP2 class (D0-D15). We currently model this constraint prior to		// to the VFP2 class (D0-D15). We currently model this constraint prior to
// coalescing by double-counting the SP regs. See the FIXME above.		// coalescing by double-counting the SP regs. See the FIXME above.
if (Subtarget->useNEONForSinglePrecisionFP())		if (Subtarget->useNEONForSinglePrecisionFP())
Cost = 2;		Cost = 2;
break;		break;
case MVT::v16i8: case MVT::v8i16: case MVT::v4i32: case MVT::v2i64:		case MVT::v16i8: case MVT::v8i16: case MVT::v8f16: case MVT::v4i32: case MVT::v2i64:
case MVT::v4f32: case MVT::v2f64:		case MVT::v4f32: case MVT::v2f64:
RRC = &ARM::DPRRegClass;		RRC = &ARM::DPRRegClass;
Cost = 2;		Cost = 2;
break;		break;
case MVT::v4i64:		case MVT::v4i64:
RRC = &ARM::DPRRegClass;		RRC = &ARM::DPRRegClass;
Cost = 4;		Cost = 4;
break;		break;
▲ Show 20 Lines • Show All 12,855 Lines • Show Last 20 Lines

lib/Target/ARM/ARMInstrNEON.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 6,765 Lines • ▼ Show 20 Lines	let Predicates = [IsLE] in {
def : Pat<(v4i16 (bitconvert (f64 DPR:$src))), (v4i16 DPR:$src)>;		def : Pat<(v4i16 (bitconvert (f64 DPR:$src))), (v4i16 DPR:$src)>;
def : Pat<(v4i16 (bitconvert (v2f32 DPR:$src))), (v4i16 DPR:$src)>;		def : Pat<(v4i16 (bitconvert (v2f32 DPR:$src))), (v4i16 DPR:$src)>;
def : Pat<(v8i8 (bitconvert (v1i64 DPR:$src))), (v8i8 DPR:$src)>;		def : Pat<(v8i8 (bitconvert (v1i64 DPR:$src))), (v8i8 DPR:$src)>;
def : Pat<(v8i8 (bitconvert (v2i32 DPR:$src))), (v8i8 DPR:$src)>;		def : Pat<(v8i8 (bitconvert (v2i32 DPR:$src))), (v8i8 DPR:$src)>;
def : Pat<(v8i8 (bitconvert (v4i16 DPR:$src))), (v8i8 DPR:$src)>;		def : Pat<(v8i8 (bitconvert (v4i16 DPR:$src))), (v8i8 DPR:$src)>;
def : Pat<(v8i8 (bitconvert (f64 DPR:$src))), (v8i8 DPR:$src)>;		def : Pat<(v8i8 (bitconvert (f64 DPR:$src))), (v8i8 DPR:$src)>;
def : Pat<(v8i8 (bitconvert (v2f32 DPR:$src))), (v8i8 DPR:$src)>;		def : Pat<(v8i8 (bitconvert (v2f32 DPR:$src))), (v8i8 DPR:$src)>;
}		}

		def : Pat<(v2i32 (bitconvert (v2f32 DPR:$src))), (v2i32 DPR:$src)>;
		let Predicates = [IsLE,HasFullFP16] in {
		def : Pat<(v4f16 (bitconvert (v2f32 DPR:$src))), (v4f16 DPR:$src)>;
		def : Pat<(v4f16 (bitconvert (v8i8 DPR:$src))), (v4f16 DPR:$src)>;
		def : Pat<(v4f16 (bitconvert (f64 DPR:$src))), (v4f16 DPR:$src)>;
		def : Pat<(v4f16 (bitconvert (v2f32 DPR:$src))), (v4f16 DPR:$src)>;
		def : Pat<(v2f64 (bitconvert (v8f16 QPR:$src))), (v2f64 QPR:$src)>;
		def : Pat<(v8f16 (bitconvert (v2f64 QPR:$src))), (v8f16 QPR:$src)>;
		def : Pat<(v8f16 (bitconvert (v4f32 QPR:$src))), (v8f16 QPR:$src)>;
		def : Pat<(v8f16 (bitconvert (v16i8 QPR:$src))), (v8f16 QPR:$src)>;
		}

def : Pat<(f64 (bitconvert (v1i64 DPR:$src))), (f64 DPR:$src)>;		def : Pat<(f64 (bitconvert (v1i64 DPR:$src))), (f64 DPR:$src)>;
let Predicates = [IsLE] in {		let Predicates = [IsLE] in {
def : Pat<(f64 (bitconvert (v2i32 DPR:$src))), (f64 DPR:$src)>;		def : Pat<(f64 (bitconvert (v2i32 DPR:$src))), (f64 DPR:$src)>;
def : Pat<(f64 (bitconvert (v4i16 DPR:$src))), (f64 DPR:$src)>;		def : Pat<(f64 (bitconvert (v4i16 DPR:$src))), (f64 DPR:$src)>;
def : Pat<(f64 (bitconvert (v8i8 DPR:$src))), (f64 DPR:$src)>;		def : Pat<(f64 (bitconvert (v8i8 DPR:$src))), (f64 DPR:$src)>;
def : Pat<(f64 (bitconvert (v2f32 DPR:$src))), (f64 DPR:$src)>;		def : Pat<(f64 (bitconvert (v2f32 DPR:$src))), (f64 DPR:$src)>;
def : Pat<(v2f32 (bitconvert (f64 DPR:$src))), (v2f32 DPR:$src)>;		def : Pat<(v2f32 (bitconvert (f64 DPR:$src))), (v2f32 DPR:$src)>;
def : Pat<(v2f32 (bitconvert (v1i64 DPR:$src))), (v2f32 DPR:$src)>;		def : Pat<(v2f32 (bitconvert (v1i64 DPR:$src))), (v2f32 DPR:$src)>;
▲ Show 20 Lines • Show All 1,457 Lines • Show Last 20 Lines

test/CodeGen/ARM/vstlane-v4.ll

This file was added.

				; RUN: llc -mtriple=arm -mattr=+neon,+fullfp16 %s -o - \| FileCheck %s

				define void @vst1lanehalf(half* %A, <4 x half>* %B) nounwind {
				;CHECK-LABEL: vst1lanehalf:
				;Check the alignment value. Max for this instruction is 16 bits:
				;CHECK: vst1.16 {d16[2]}, [r0:16]
				%tmp1 = load <4 x half>, <4 x half>* %B
				%tmp2 = extractelement <4 x half> %tmp1, i32 2
				store half %tmp2, half* %A, align 8
				ret void
				}

				define void @vst2lanehalf(half* %A, <4 x half>* %B) nounwind {
				;CHECK-LABEL: vst2lanehalf:
				;Check the alignment value. Max for this instruction is 32 bits:
				;CHECK: vst2.16 {d16[1], d17[1]}, [r0:32]
				%tmp0 = bitcast half* %A to i8*
				%tmp1 = load <4 x half>, <4 x half>* %B
				call void @llvm.arm.neon.vst2lane.p0i8.v4f16(i8* %tmp0, <4 x half> %tmp1, <4 x half> %tmp1, i32 1, i32 8)
				ret void
				}

				;Check for a post-increment updating store with register increment.
				define void @vst2lanehalf_update(half** %ptr, <4 x half>* %B, i32 %inc) nounwind {
				;CHECK-LABEL: vst2lanehalf_update:
				;CHECK: vst2.16 {d16[1], d17[1]}, [r1], r2
				%A = load half, half* %ptr
				%tmp0 = bitcast half* %A to i8*
				%tmp1 = load <4 x half>, <4 x half>* %B
				call void @llvm.arm.neon.vst2lane.p0i8.v4f16(i8* %tmp0, <4 x half> %tmp1, <4 x half> %tmp1, i32 1, i32 2)
				%tmp2 = getelementptr half, half* %A, i32 %inc
				store half* %tmp2, half** %ptr
				ret void
				}

				declare void @llvm.arm.neon.vst2lane.p0i8.v4f16(i8*, <4 x half>, <4 x half>, i32, i32) nounwind

				define void @vst3lanehalf(half* %A, <4 x half>* %B) nounwind {
				;CHECK-LABEL: vst3lanehalf:
				;Check the (default) alignment value. VST3 does not support alignment.
				;CHECK: vst3.16 {d16[1], d17[1], d18[1]}, [r0]
				%tmp0 = bitcast half* %A to i8*
				%tmp1 = load <4 x half>, <4 x half>* %B
				call void @llvm.arm.neon.vst3lane.p0i8.v4f16(i8* %tmp0, <4 x half> %tmp1, <4 x half> %tmp1, <4 x half> %tmp1, i32 1, i32 8)
				ret void
				}

				declare void @llvm.arm.neon.vst3lane.p0i8.v4f16(i8*, <4 x half>, <4 x half>, <4 x half>, i32, i32) nounwind

				define void @vst4lanehalf(half* %A, <4 x half>* %B) nounwind {
				;CHECK-LABEL: vst4lanehalf:
				;CHECK: vst4.16
				%tmp0 = bitcast half* %A to i8*
				%tmp1 = load <4 x half>, <4 x half>* %B
				call void @llvm.arm.neon.vst4lane.p0i8.v4f16(i8* %tmp0, <4 x half> %tmp1, <4 x half> %tmp1, <4 x half> %tmp1, <4 x half> %tmp1, i32 1, i32 1)
				ret void
				}

				declare void @llvm.arm.neon.vst4lane.p0i8.v4f16(i8*, <4 x half>, <4 x half>, <4 x half>, <4 x half>, i32, i32) nounwind

test/CodeGen/ARM/vstlane-v8.ll

This file was added.

				; RUN: llc -mtriple=arm -mattr=+neon,+fullfp16 %s -o - \| FileCheck %s

				define void @vst1laneQhalf(half* %A, <8 x half>* %B) nounwind {
				;CHECK-LABEL: vst1laneQhalf:
				;CHECK: vst1.16 {d17[1]}, [r0:16]
				%tmp1 = load <8 x half>, <8 x half>* %B
				%tmp2 = extractelement <8 x half> %tmp1, i32 5
				store half %tmp2, half* %A, align 8
				ret void
				}

				define void @vst2laneQhalf(half* %A, <8 x half>* %B) nounwind {
				;CHECK-LABEL: vst2laneQhalf:
				;Check the (default) alignment.
				;CHECK: vst2.16 {d17[1], d19[1]}, [r0]
				%tmp0 = bitcast half* %A to i8*
				%tmp1 = load <8 x half>, <8 x half>* %B
				call void @llvm.arm.neon.vst2lane.p0i8.v8f16(i8* %tmp0, <8 x half> %tmp1, <8 x half> %tmp1, i32 5, i32 1)
				ret void
				}

				declare void @llvm.arm.neon.vst2lane.p0i8.v8f16(i8*, <8 x half>, <8 x half>, i32, i32) nounwind

				define void @vst3laneQhalf(half* %A, <8 x half>* %B) nounwind {
				;CHECK-LABEL: vst3laneQhalf:
				;Check the (default) alignment value. VST3 does not support alignment.
				;CHECK: vst3.16 {d17[2], d19[2], d21[2]}, [r0]
				%tmp0 = bitcast half* %A to i8*
				%tmp1 = load <8 x half>, <8 x half>* %B
				call void @llvm.arm.neon.vst3lane.p0i8.v8f16(i8* %tmp0, <8 x half> %tmp1, <8 x half> %tmp1, <8 x half> %tmp1, i32 6, i32 8)
				ret void
				}

				declare void @llvm.arm.neon.vst3lane.p0i8.v8f16(i8*, <8 x half>, <8 x half>, <8 x half>, i32, i32) nounwind

				define void @vst4laneQhalf(half* %A, <8 x half>* %B) nounwind {
				;CHECK-LABEL: vst4laneQhalf:
				;Check the alignment value. Max for this instruction is 64 bits:
				;CHECK: vst4.16 {d17[3], d19[3], d21[3], d23[3]}, [r0:64]
				%tmp0 = bitcast half* %A to i8*
				%tmp1 = load <8 x half>, <8 x half>* %B
				call void @llvm.arm.neon.vst4lane.p0i8.v8f16(i8* %tmp0, <8 x half> %tmp1, <8 x half> %tmp1, <8 x half> %tmp1, <8 x half> %tmp1, i32 7, i32 16)
				ret void
				}

				define <8 x half> @variable_insertelement(<8 x half> %a, half %b, i32 %c) nounwind readnone {
				;CHECK-LABEL: variable_insertelement:
				%r = insertelement <8 x half> %a, half %b, i32 %c
				ret <8 x half> %r
				}

				declare void @llvm.arm.neon.vst4lane.p0i8.v8f16(i8*, <8 x half>, <8 x half>, <8 x half>, <8 x half>, i32, i32) nounwind