This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Target/ARM/
-
Target/
-
ARM/
-
ARMInstrInfo.td
-
ARMInstrNEON.td
-
ARMInstrVFP.td
-
test/CodeGen/
-
CodeGen/
-
ARM/
-
fp16-insert-extract.ll
-
Thumb2/
-
LowOverheadLoops/
-
fast-fp-loops.ll
-
mve-float-loops.ll
-
mve-div-expand.ll
-
mve-fmath.ll
-
mve-masked-ldst.ll
-
mve-vcvt16.ll

Differential D81556

[ARM] VCVTT instruction selection
ClosedPublic

Authored by dmgreen on Jun 10 2020, 5:33 AM.

Download Raw Diff

Details

Reviewers

SjoerdMeijer
efriedma
samparker
simon_tatham
ostannard

Commits

rG76e0e1a55d1c: [ARM] VCVTT instruction selection

Summary

We current extract and convert from a top lane of a f16 vector using a VMOVX;VCVTB pair. We can simplify that to use a single VCVTT. The pattern is mostly copied from a vector extract pattern, but produces a VCVTTHS f32 directly.

I had to move some code around so that ARMInstrVFP had access to the required pattern frags that were previously part of ARMInstrNEON. I could also split the pattern into MVE and NEON separately if that is better. The v8f16 is currently a bit "MVE-y", but seems to apply fine for NEON.

Diff Detail

Event Timeline

dmgreen created this revision.Jun 10 2020, 5:33 AM

Herald added a project: Restricted Project. · View Herald TranscriptJun 10 2020, 5:33 AM

Herald added subscribers: danielkiss, hiraditya, kristof.beyls. · View Herald Transcript

LGTM. Maybe we should rename MQPR and DPR_VFP2 since they're not really specific to those architectures, but obviously not in this patch.

This revision is now accepted and ready to land.Jun 10 2020, 6:34 AM

dmgreen mentioned this in D81637: [ARM] VCVTT fpround instruction selection.Jun 11 2020, 2:35 AM

Closed by commit rG76e0e1a55d1c: [ARM] VCVTT instruction selection (authored by dmgreen). · Explain WhyJun 26 2020, 1:04 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

lib/

Target/

ARM/

ARMInstrInfo.td

54 lines

ARMInstrNEON.td

54 lines

ARMInstrVFP.td

7 lines

test/

CodeGen/

ARM/

fp16-insert-extract.ll

12 lines

Thumb2/

LowOverheadLoops/

14 lines

48 lines

52 lines

136 lines

80 lines

33 lines

Diff 269803

llvm/lib/Target/ARM/ARMInstrInfo.td

Show First 20 Lines • Show All 437 Lines • ▼ Show 20 Lines	def fadd_mlx : PatFrag<(ops node:$lhs, node:$rhs),(fadd node:$lhs, node:$rhs),[{
return hasNoVMLxHazardUse(N);		return hasNoVMLxHazardUse(N);
}]>;		}]>;

// An 'fsub' node which checks for single non-hazardous use.		// An 'fsub' node which checks for single non-hazardous use.
def fsub_mlx : PatFrag<(ops node:$lhs, node:$rhs),(fsub node:$lhs, node:$rhs),[{		def fsub_mlx : PatFrag<(ops node:$lhs, node:$rhs),(fsub node:$lhs, node:$rhs),[{
return hasNoVMLxHazardUse(N);		return hasNoVMLxHazardUse(N);
}]>;		}]>;

		def imm_even : ImmLeaf<i32, [{ return (Imm & 1) == 0; }]>;
		def imm_odd : ImmLeaf<i32, [{ return (Imm & 1) == 1; }]>;

		//===----------------------------------------------------------------------===//
		// NEON/MVE pattern fragments
		//

		// Extract D sub-registers of Q registers.
		def DSubReg_i8_reg : SDNodeXForm<imm, [{
		assert(ARM::dsub_7 == ARM::dsub_0+7 && "Unexpected subreg numbering");
		return CurDAG->getTargetConstant(ARM::dsub_0 + N->getZExtValue()/8, SDLoc(N),
		MVT::i32);
		}]>;
		def DSubReg_i16_reg : SDNodeXForm<imm, [{
		assert(ARM::dsub_7 == ARM::dsub_0+7 && "Unexpected subreg numbering");
		return CurDAG->getTargetConstant(ARM::dsub_0 + N->getZExtValue()/4, SDLoc(N),
		MVT::i32);
		}]>;
		def DSubReg_i32_reg : SDNodeXForm<imm, [{
		assert(ARM::dsub_7 == ARM::dsub_0+7 && "Unexpected subreg numbering");
		return CurDAG->getTargetConstant(ARM::dsub_0 + N->getZExtValue()/2, SDLoc(N),
		MVT::i32);
		}]>;
		def DSubReg_f64_reg : SDNodeXForm<imm, [{
		assert(ARM::dsub_7 == ARM::dsub_0+7 && "Unexpected subreg numbering");
		return CurDAG->getTargetConstant(ARM::dsub_0 + N->getZExtValue(), SDLoc(N),
		MVT::i32);
		}]>;

		// Extract S sub-registers of Q/D registers.
		def SSubReg_f32_reg : SDNodeXForm<imm, [{
		assert(ARM::ssub_3 == ARM::ssub_0+3 && "Unexpected subreg numbering");
		return CurDAG->getTargetConstant(ARM::ssub_0 + N->getZExtValue(), SDLoc(N),
		MVT::i32);
		}]>;

		// Extract S sub-registers of Q/D registers containing a given f16 lane.
		def SSubReg_f16_reg : SDNodeXForm<imm, [{
		assert(ARM::ssub_3 == ARM::ssub_0+3 && "Unexpected subreg numbering");
		return CurDAG->getTargetConstant(ARM::ssub_0 + N->getZExtValue()/2, SDLoc(N),
		MVT::i32);
		}]>;

		// Translate lane numbers from Q registers to D subregs.
		def SubReg_i8_lane : SDNodeXForm<imm, [{
		return CurDAG->getTargetConstant(N->getZExtValue() & 7, SDLoc(N), MVT::i32);
		}]>;
		def SubReg_i16_lane : SDNodeXForm<imm, [{
		return CurDAG->getTargetConstant(N->getZExtValue() & 3, SDLoc(N), MVT::i32);
		}]>;
		def SubReg_i32_lane : SDNodeXForm<imm, [{
		return CurDAG->getTargetConstant(N->getZExtValue() & 1, SDLoc(N), MVT::i32);
		}]>;

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// Operand Definitions.		// Operand Definitions.
//		//

// Immediate operands with a shared generic asm render method.		// Immediate operands with a shared generic asm render method.
class ImmAsmOperand<int Low, int High> : AsmOperandClass {		class ImmAsmOperand<int Low, int High> : AsmOperandClass {
let RenderMethod = "addImmOperands";		let RenderMethod = "addImmOperands";
let PredicateMethod = "isImmediate<" # Low # "," # High # ">";		let PredicateMethod = "isImmediate<" # Low # "," # High # ">";
▲ Show 20 Lines • Show All 5,868 Lines • Show Last 20 Lines

llvm/lib/Target/ARM/ARMInstrNEON.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 2,443 Lines • ▼ Show 20 Lines	def : Pat<(hword_alignedstore (v2f64 QPR:$value), addrmode6:$addr),
(VST1q16 addrmode6:$addr, QPR:$value)>;		(VST1q16 addrmode6:$addr, QPR:$value)>;
def : Pat<(v2f64 (byte_alignedload addrmode6:$addr)),		def : Pat<(v2f64 (byte_alignedload addrmode6:$addr)),
(VLD1q8 addrmode6:$addr)>;		(VLD1q8 addrmode6:$addr)>;
def : Pat<(byte_alignedstore (v2f64 QPR:$value), addrmode6:$addr),		def : Pat<(byte_alignedstore (v2f64 QPR:$value), addrmode6:$addr),
(VST1q8 addrmode6:$addr, QPR:$value)>;		(VST1q8 addrmode6:$addr, QPR:$value)>;
}		}

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// NEON pattern fragments
//===----------------------------------------------------------------------===//

// Extract D sub-registers of Q registers.
def DSubReg_i8_reg : SDNodeXForm<imm, [{
assert(ARM::dsub_7 == ARM::dsub_0+7 && "Unexpected subreg numbering");
return CurDAG->getTargetConstant(ARM::dsub_0 + N->getZExtValue()/8, SDLoc(N),
MVT::i32);
}]>;
def DSubReg_i16_reg : SDNodeXForm<imm, [{
assert(ARM::dsub_7 == ARM::dsub_0+7 && "Unexpected subreg numbering");
return CurDAG->getTargetConstant(ARM::dsub_0 + N->getZExtValue()/4, SDLoc(N),
MVT::i32);
}]>;
def DSubReg_i32_reg : SDNodeXForm<imm, [{
assert(ARM::dsub_7 == ARM::dsub_0+7 && "Unexpected subreg numbering");
return CurDAG->getTargetConstant(ARM::dsub_0 + N->getZExtValue()/2, SDLoc(N),
MVT::i32);
}]>;
def DSubReg_f64_reg : SDNodeXForm<imm, [{
assert(ARM::dsub_7 == ARM::dsub_0+7 && "Unexpected subreg numbering");
return CurDAG->getTargetConstant(ARM::dsub_0 + N->getZExtValue(), SDLoc(N),
MVT::i32);
}]>;

// Extract S sub-registers of Q/D registers.
def SSubReg_f32_reg : SDNodeXForm<imm, [{
assert(ARM::ssub_3 == ARM::ssub_0+3 && "Unexpected subreg numbering");
return CurDAG->getTargetConstant(ARM::ssub_0 + N->getZExtValue(), SDLoc(N),
MVT::i32);
}]>;

// Extract S sub-registers of Q/D registers containing a given f16 lane.
def SSubReg_f16_reg : SDNodeXForm<imm, [{
assert(ARM::ssub_3 == ARM::ssub_0+3 && "Unexpected subreg numbering");
return CurDAG->getTargetConstant(ARM::ssub_0 + N->getZExtValue()/2, SDLoc(N),
MVT::i32);
}]>;

// Translate lane numbers from Q registers to D subregs.
def SubReg_i8_lane : SDNodeXForm<imm, [{
return CurDAG->getTargetConstant(N->getZExtValue() & 7, SDLoc(N), MVT::i32);
}]>;
def SubReg_i16_lane : SDNodeXForm<imm, [{
return CurDAG->getTargetConstant(N->getZExtValue() & 3, SDLoc(N), MVT::i32);
}]>;
def SubReg_i32_lane : SDNodeXForm<imm, [{
return CurDAG->getTargetConstant(N->getZExtValue() & 1, SDLoc(N), MVT::i32);
}]>;

//===----------------------------------------------------------------------===//
// Instruction Classes		// Instruction Classes
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

// Basic 2-register operations: double- and quad-register.		// Basic 2-register operations: double- and quad-register.
class N2VD<bits<2> op24_23, bits<2> op21_20, bits<2> op19_18,		class N2VD<bits<2> op24_23, bits<2> op21_20, bits<2> op19_18,
bits<2> op17_16, bits<5> op11_7, bit op4, string OpcodeStr,		bits<2> op17_16, bits<5> op11_7, bit op4, string OpcodeStr,
string Dt, ValueType ResTy, ValueType OpTy, SDNode OpNode>		string Dt, ValueType ResTy, ValueType OpTy, SDNode OpNode>
: N2V<op24_23, op21_20, op19_18, op17_16, op11_7, 0, op4, (outs DPR:$Vd),		: N2V<op24_23, op21_20, op19_18, op17_16, op11_7, 0, op4, (outs DPR:$Vd),
▲ Show 20 Lines • Show All 3,888 Lines • ▼ Show 20 Lines	def : Pat<(extractelt (v4f32 QPR:$src1), imm:$src2),
(EXTRACT_SUBREG (v4f32 (COPY_TO_REGCLASS (v4f32 QPR:$src1),QPR_VFP2)),		(EXTRACT_SUBREG (v4f32 (COPY_TO_REGCLASS (v4f32 QPR:$src1),QPR_VFP2)),
(SSubReg_f32_reg imm:$src2))>;		(SSubReg_f32_reg imm:$src2))>;
//def : Pat<(extractelt (v2i64 QPR:$src1), imm:$src2),		//def : Pat<(extractelt (v2i64 QPR:$src1), imm:$src2),
// (EXTRACT_SUBREG QPR:$src1, (DSubReg_f64_reg imm:$src2))>;		// (EXTRACT_SUBREG QPR:$src1, (DSubReg_f64_reg imm:$src2))>;
def : Pat<(extractelt (v2f64 QPR:$src1), imm:$src2),		def : Pat<(extractelt (v2f64 QPR:$src1), imm:$src2),
(EXTRACT_SUBREG QPR:$src1, (DSubReg_f64_reg imm:$src2))>;		(EXTRACT_SUBREG QPR:$src1, (DSubReg_f64_reg imm:$src2))>;
}		}

def imm_even : ImmLeaf<i32, [{ return (Imm & 1) == 0; }]>;
def imm_odd : ImmLeaf<i32, [{ return (Imm & 1) == 1; }]>;

let Predicates = [HasNEON] in {		let Predicates = [HasNEON] in {
def : Pat<(extractelt (v4f16 DPR:$src), imm_even:$lane),		def : Pat<(extractelt (v4f16 DPR:$src), imm_even:$lane),
(EXTRACT_SUBREG		(EXTRACT_SUBREG
(v2f32 (COPY_TO_REGCLASS (v4f16 DPR:$src), DPR_VFP2)),		(v2f32 (COPY_TO_REGCLASS (v4f16 DPR:$src), DPR_VFP2)),
(SSubReg_f16_reg imm_even:$lane))>;		(SSubReg_f16_reg imm_even:$lane))>;

def : Pat<(extractelt (v4f16 DPR:$src), imm_odd:$lane),		def : Pat<(extractelt (v4f16 DPR:$src), imm_odd:$lane),
(COPY_TO_REGCLASS		(COPY_TO_REGCLASS
▲ Show 20 Lines • Show All 2,650 Lines • Show Last 20 Lines

llvm/lib/Target/ARM/ARMInstrVFP.td

Show First 20 Lines • Show All 732 Lines • ▼ Show 20 Lines	def : FP16Pat<(fp_to_f16 SPR:$a),
(i32 (COPY_TO_REGCLASS (VCVTBSH SPR:$a), GPR))>;		(i32 (COPY_TO_REGCLASS (VCVTBSH SPR:$a), GPR))>;

def VCVTTHS: ASuI<0b11101, 0b11, 0b0010, 0b11, 0, (outs SPR:$Sd), (ins SPR:$Sm),		def VCVTTHS: ASuI<0b11101, 0b11, 0b0010, 0b11, 0, (outs SPR:$Sd), (ins SPR:$Sm),
/* FIXME */ IIC_fpCVTSH, "vcvtt", ".f32.f16\t$Sd, $Sm",		/* FIXME */ IIC_fpCVTSH, "vcvtt", ".f32.f16\t$Sd, $Sm",
[/* For disassembly only; pattern left blank */]>,		[/* For disassembly only; pattern left blank */]>,
Requires<[HasFP16]>,		Requires<[HasFP16]>,
Sched<[WriteFPCVT]>;		Sched<[WriteFPCVT]>;

		def : FullFP16Pat<(f32 (fpextend (extractelt (v8f16 MQPR:$src), imm_odd:$lane))),
		(VCVTTHS (EXTRACT_SUBREG MQPR:$src, (SSubReg_f16_reg imm_odd:$lane)))>;
		def : FullFP16Pat<(f32 (fpextend (extractelt (v4f16 DPR:$src), imm_odd:$lane))),
		(VCVTTHS (EXTRACT_SUBREG
		(v2f32 (COPY_TO_REGCLASS (v4f16 DPR:$src), DPR_VFP2)),
		(SSubReg_f16_reg imm_odd:$lane)))>;

def VCVTTSH: ASuI<0b11101, 0b11, 0b0011, 0b11, 0, (outs SPR:$Sd), (ins SPR:$Sm),		def VCVTTSH: ASuI<0b11101, 0b11, 0b0011, 0b11, 0, (outs SPR:$Sd), (ins SPR:$Sm),
/* FIXME */ IIC_fpCVTHS, "vcvtt", ".f16.f32\t$Sd, $Sm",		/* FIXME */ IIC_fpCVTHS, "vcvtt", ".f16.f32\t$Sd, $Sm",
[/* For disassembly only; pattern left blank */]>,		[/* For disassembly only; pattern left blank */]>,
Requires<[HasFP16]>,		Requires<[HasFP16]>,
Sched<[WriteFPCVT]>;		Sched<[WriteFPCVT]>;

def VCVTBHD : ADuI<0b11101, 0b11, 0b0010, 0b01, 0,		def VCVTBHD : ADuI<0b11101, 0b11, 0b0010, 0b01, 0,
(outs DPR:$Dd), (ins SPR:$Sm),		(outs DPR:$Dd), (ins SPR:$Sm),
▲ Show 20 Lines • Show All 2,047 Lines • Show Last 20 Lines

llvm/test/CodeGen/ARM/fp16-insert-extract.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc -mtriple=arm-eabi -mattr=+armv8.2-a,+fullfp16,+neon -float-abi=hard < %s \| FileCheck %s --check-prefix=CHECKHARD		; RUN: llc -mtriple=arm-eabi -mattr=+armv8.2-a,+fullfp16,+neon -float-abi=hard < %s \| FileCheck %s --check-prefix=CHECKHARD
; RUN: llc -mtriple=arm-eabi -mattr=+armv8.2-a,+fullfp16,+neon -float-abi=soft < %s \| FileCheck %s --check-prefix=CHECKSOFT		; RUN: llc -mtriple=arm-eabi -mattr=+armv8.2-a,+fullfp16,+neon -float-abi=soft < %s \| FileCheck %s --check-prefix=CHECKSOFT

define float @test_vget_lane_f16_1(<4 x half> %a) nounwind {		define float @test_vget_lane_f16_1(<4 x half> %a) nounwind {
; CHECKHARD-LABEL: test_vget_lane_f16_1:		; CHECKHARD-LABEL: test_vget_lane_f16_1:
; CHECKHARD: @ %bb.0: @ %entry		; CHECKHARD: @ %bb.0: @ %entry
; CHECKHARD-NEXT: vmovx.f16 s0, s0		; CHECKHARD-NEXT: vcvtt.f32.f16 s0, s0
; CHECKHARD-NEXT: vcvtb.f32.f16 s0, s0
; CHECKHARD-NEXT: bx lr		; CHECKHARD-NEXT: bx lr
;		;
; CHECKSOFT-LABEL: test_vget_lane_f16_1:		; CHECKSOFT-LABEL: test_vget_lane_f16_1:
; CHECKSOFT: @ %bb.0: @ %entry		; CHECKSOFT: @ %bb.0: @ %entry
; CHECKSOFT-NEXT: vmov d0, r0, r1		; CHECKSOFT-NEXT: vmov d0, r0, r1
; CHECKSOFT-NEXT: vmovx.f16 s0, s0		; CHECKSOFT-NEXT: vcvtt.f32.f16 s0, s0
; CHECKSOFT-NEXT: vcvtb.f32.f16 s0, s0
; CHECKSOFT-NEXT: vmov r0, s0		; CHECKSOFT-NEXT: vmov r0, s0
; CHECKSOFT-NEXT: bx lr		; CHECKSOFT-NEXT: bx lr
entry:		entry:
%elt = extractelement <4 x half> %a, i32 1		%elt = extractelement <4 x half> %a, i32 1
%conv = fpext half %elt to float		%conv = fpext half %elt to float
ret float %conv		ret float %conv
}		}

Show All 31 Lines	entry:
%elt = extractelement <8 x half> %a, i32 6		%elt = extractelement <8 x half> %a, i32 6
%conv = fpext half %elt to float		%conv = fpext half %elt to float
ret float %conv		ret float %conv
}		}

define float @test_vget_laneq_f16_7(<8 x half> %a) nounwind {		define float @test_vget_laneq_f16_7(<8 x half> %a) nounwind {
; CHECKHARD-LABEL: test_vget_laneq_f16_7:		; CHECKHARD-LABEL: test_vget_laneq_f16_7:
; CHECKHARD: @ %bb.0: @ %entry		; CHECKHARD: @ %bb.0: @ %entry
; CHECKHARD-NEXT: vmovx.f16 s0, s3		; CHECKHARD-NEXT: vcvtt.f32.f16 s0, s3
; CHECKHARD-NEXT: vcvtb.f32.f16 s0, s0
; CHECKHARD-NEXT: bx lr		; CHECKHARD-NEXT: bx lr
;		;
; CHECKSOFT-LABEL: test_vget_laneq_f16_7:		; CHECKSOFT-LABEL: test_vget_laneq_f16_7:
; CHECKSOFT: @ %bb.0: @ %entry		; CHECKSOFT: @ %bb.0: @ %entry
; CHECKSOFT-NEXT: vmov d1, r2, r3		; CHECKSOFT-NEXT: vmov d1, r2, r3
; CHECKSOFT-NEXT: vmovx.f16 s0, s3		; CHECKSOFT-NEXT: vcvtt.f32.f16 s0, s3
; CHECKSOFT-NEXT: vcvtb.f32.f16 s0, s0
; CHECKSOFT-NEXT: vmov r0, s0		; CHECKSOFT-NEXT: vmov r0, s0
; CHECKSOFT-NEXT: bx lr		; CHECKSOFT-NEXT: bx lr
entry:		entry:
%elt = extractelement <8 x half> %a, i32 7		%elt = extractelement <8 x half> %a, i32 7
%conv = fpext half %elt to float		%conv = fpext half %elt to float
ret float %conv		ret float %conv
}		}

▲ Show 20 Lines • Show All 72 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/LowOverheadLoops/fast-fp-loops.ll

	Show First 20 Lines • Show All 331 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vldr.16 s0, [r1, #6]			; CHECK-NEXT: vldr.16 s0, [r1, #6]
	; CHECK-NEXT: vmov.16 q6[1], r2			; CHECK-NEXT: vmov.16 q6[1], r2
	; CHECK-NEXT: vmov r2, s29			; CHECK-NEXT: vmov r2, s29
	; CHECK-NEXT: vmov.16 q6[2], r2			; CHECK-NEXT: vmov.16 q6[2], r2
	; CHECK-NEXT: vmov r2, s0			; CHECK-NEXT: vmov r2, s0
	; CHECK-NEXT: vmov.16 q6[3], r2			; CHECK-NEXT: vmov.16 q6[3], r2
	; CHECK-NEXT: .LBB2_3: @ %else26			; CHECK-NEXT: .LBB2_3: @ %else26
	; CHECK-NEXT: @ in Loop: Header=BB2_4 Depth=1			; CHECK-NEXT: @ in Loop: Header=BB2_4 Depth=1
	; CHECK-NEXT: vmul.f16 q5, q6, q5			; CHECK-NEXT: vmul.f16 q0, q6, q5
	; CHECK-NEXT: adds r0, #8			; CHECK-NEXT: adds r0, #8
	; CHECK-NEXT: vmovx.f16 s2, s21			; CHECK-NEXT: vcvtt.f32.f16 s23, s1
	; CHECK-NEXT: vmovx.f16 s0, s20
	; CHECK-NEXT: vcvtb.f32.f16 s27, s2
	; CHECK-NEXT: adds r1, #8			; CHECK-NEXT: adds r1, #8
	; CHECK-NEXT: vcvtb.f32.f16 s26, s21			; CHECK-NEXT: vcvtb.f32.f16 s22, s1
	; CHECK-NEXT: adds r3, #4			; CHECK-NEXT: adds r3, #4
	; CHECK-NEXT: vcvtb.f32.f16 s25, s0			; CHECK-NEXT: vcvtt.f32.f16 s21, s0
	; CHECK-NEXT: subs.w lr, lr, #1			; CHECK-NEXT: subs.w lr, lr, #1
	; CHECK-NEXT: vcvtb.f32.f16 s24, s20			; CHECK-NEXT: vcvtb.f32.f16 s20, s0
	; CHECK-NEXT: vadd.f32 q5, q3, q6			; CHECK-NEXT: vadd.f32 q5, q3, q5
	; CHECK-NEXT: bne .LBB2_4			; CHECK-NEXT: bne .LBB2_4
	; CHECK-NEXT: b .LBB2_21			; CHECK-NEXT: b .LBB2_21
	; CHECK-NEXT: .LBB2_4: @ %vector.body			; CHECK-NEXT: .LBB2_4: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrw.u32 q0, [sp] @ 16-byte Reload			; CHECK-NEXT: vldrw.u32 q0, [sp] @ 16-byte Reload
	; CHECK-NEXT: vmov q3, q5			; CHECK-NEXT: vmov q3, q5
	; CHECK-NEXT: @ implicit-def: $q6			; CHECK-NEXT: @ implicit-def: $q6
	; CHECK-NEXT: vadd.i32 q4, q0, r3			; CHECK-NEXT: vadd.i32 q4, q0, r3
	▲ Show 20 Lines • Show All 229 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/LowOverheadLoops/mve-float-loops.ll

	Show First 20 Lines • Show All 1,005 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vmov.32 q0[0], r9			; CHECK-NEXT: vmov.32 q0[0], r9
	; CHECK-NEXT: ldr.w r10, [r5, #4]			; CHECK-NEXT: ldr.w r10, [r5, #4]
	; CHECK-NEXT: vmov.32 q1[0], r7			; CHECK-NEXT: vmov.32 q1[0], r7
	; CHECK-NEXT: vmov.32 q0[1], r8			; CHECK-NEXT: vmov.32 q0[1], r8
	; CHECK-NEXT: adds r4, #8			; CHECK-NEXT: adds r4, #8
	; CHECK-NEXT: vmov.32 q1[1], r10			; CHECK-NEXT: vmov.32 q1[1], r10
	; CHECK-NEXT: adds r5, #8			; CHECK-NEXT: adds r5, #8
	; CHECK-NEXT: vmul.f16 q0, q0, q1			; CHECK-NEXT: vmul.f16 q0, q0, q1
	; CHECK-NEXT: vmovx.f16 s6, s1			; CHECK-NEXT: vcvtt.f32.f16 s7, s1
	; CHECK-NEXT: vmovx.f16 s4, s0			; CHECK-NEXT: vcvtb.f32.f16 s6, s1
	; CHECK-NEXT: vcvtb.f32.f16 s11, s6			; CHECK-NEXT: vcvtt.f32.f16 s5, s0
	; CHECK-NEXT: vcvtb.f32.f16 s10, s1			; CHECK-NEXT: vcvtb.f32.f16 s4, s0
	; CHECK-NEXT: vcvtb.f32.f16 s9, s4			; CHECK-NEXT: vstrb.8 q1, [r6], #16
	; CHECK-NEXT: vcvtb.f32.f16 s8, s0
	; CHECK-NEXT: vstrb.8 q2, [r6], #16
	; CHECK-NEXT: le lr, .LBB5_4			; CHECK-NEXT: le lr, .LBB5_4
	; CHECK-NEXT: @ %bb.5: @ %middle.block			; CHECK-NEXT: @ %bb.5: @ %middle.block
	; CHECK-NEXT: cmp r12, r3			; CHECK-NEXT: cmp r12, r3
	; CHECK-NEXT: beq .LBB5_8			; CHECK-NEXT: beq .LBB5_8
	; CHECK-NEXT: .LBB5_6: @ %for.body.preheader11			; CHECK-NEXT: .LBB5_6: @ %for.body.preheader11
	; CHECK-NEXT: sub.w lr, r3, r12			; CHECK-NEXT: sub.w lr, r3, r12
	; CHECK-NEXT: add.w r0, r0, r12, lsl #1			; CHECK-NEXT: add.w r0, r0, r12, lsl #1
	; CHECK-NEXT: add.w r1, r1, r12, lsl #1			; CHECK-NEXT: add.w r1, r1, r12, lsl #1
	▲ Show 20 Lines • Show All 96 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vmov.32 q0[0], r9			; CHECK-NEXT: vmov.32 q0[0], r9
	; CHECK-NEXT: ldr.w r10, [r5, #4]			; CHECK-NEXT: ldr.w r10, [r5, #4]
	; CHECK-NEXT: vmov.32 q1[0], r7			; CHECK-NEXT: vmov.32 q1[0], r7
	; CHECK-NEXT: vmov.32 q0[1], r8			; CHECK-NEXT: vmov.32 q0[1], r8
	; CHECK-NEXT: adds r4, #8			; CHECK-NEXT: adds r4, #8
	; CHECK-NEXT: vmov.32 q1[1], r10			; CHECK-NEXT: vmov.32 q1[1], r10
	; CHECK-NEXT: adds r5, #8			; CHECK-NEXT: adds r5, #8
	; CHECK-NEXT: vadd.f16 q0, q0, q1			; CHECK-NEXT: vadd.f16 q0, q0, q1
	; CHECK-NEXT: vmovx.f16 s6, s1			; CHECK-NEXT: vcvtt.f32.f16 s7, s1
	; CHECK-NEXT: vmovx.f16 s4, s0			; CHECK-NEXT: vcvtb.f32.f16 s6, s1
	; CHECK-NEXT: vcvtb.f32.f16 s11, s6			; CHECK-NEXT: vcvtt.f32.f16 s5, s0
	; CHECK-NEXT: vcvtb.f32.f16 s10, s1			; CHECK-NEXT: vcvtb.f32.f16 s4, s0
	; CHECK-NEXT: vcvtb.f32.f16 s9, s4			; CHECK-NEXT: vstrb.8 q1, [r6], #16
	; CHECK-NEXT: vcvtb.f32.f16 s8, s0
	; CHECK-NEXT: vstrb.8 q2, [r6], #16
	; CHECK-NEXT: le lr, .LBB6_4			; CHECK-NEXT: le lr, .LBB6_4
	; CHECK-NEXT: @ %bb.5: @ %middle.block			; CHECK-NEXT: @ %bb.5: @ %middle.block
	; CHECK-NEXT: cmp r12, r3			; CHECK-NEXT: cmp r12, r3
	; CHECK-NEXT: beq .LBB6_8			; CHECK-NEXT: beq .LBB6_8
	; CHECK-NEXT: .LBB6_6: @ %for.body.preheader11			; CHECK-NEXT: .LBB6_6: @ %for.body.preheader11
	; CHECK-NEXT: sub.w lr, r3, r12			; CHECK-NEXT: sub.w lr, r3, r12
	; CHECK-NEXT: add.w r0, r0, r12, lsl #1			; CHECK-NEXT: add.w r0, r0, r12, lsl #1
	; CHECK-NEXT: add.w r1, r1, r12, lsl #1			; CHECK-NEXT: add.w r1, r1, r12, lsl #1
	▲ Show 20 Lines • Show All 96 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vmov.32 q0[0], r9			; CHECK-NEXT: vmov.32 q0[0], r9
	; CHECK-NEXT: ldr.w r10, [r5, #4]			; CHECK-NEXT: ldr.w r10, [r5, #4]
	; CHECK-NEXT: vmov.32 q1[0], r7			; CHECK-NEXT: vmov.32 q1[0], r7
	; CHECK-NEXT: vmov.32 q0[1], r8			; CHECK-NEXT: vmov.32 q0[1], r8
	; CHECK-NEXT: adds r4, #8			; CHECK-NEXT: adds r4, #8
	; CHECK-NEXT: vmov.32 q1[1], r10			; CHECK-NEXT: vmov.32 q1[1], r10
	; CHECK-NEXT: adds r5, #8			; CHECK-NEXT: adds r5, #8
	; CHECK-NEXT: vsub.f16 q0, q0, q1			; CHECK-NEXT: vsub.f16 q0, q0, q1
	; CHECK-NEXT: vmovx.f16 s6, s1			; CHECK-NEXT: vcvtt.f32.f16 s7, s1
	; CHECK-NEXT: vmovx.f16 s4, s0			; CHECK-NEXT: vcvtb.f32.f16 s6, s1
	; CHECK-NEXT: vcvtb.f32.f16 s11, s6			; CHECK-NEXT: vcvtt.f32.f16 s5, s0
	; CHECK-NEXT: vcvtb.f32.f16 s10, s1			; CHECK-NEXT: vcvtb.f32.f16 s4, s0
	; CHECK-NEXT: vcvtb.f32.f16 s9, s4			; CHECK-NEXT: vstrb.8 q1, [r6], #16
	; CHECK-NEXT: vcvtb.f32.f16 s8, s0
	; CHECK-NEXT: vstrb.8 q2, [r6], #16
	; CHECK-NEXT: le lr, .LBB7_4			; CHECK-NEXT: le lr, .LBB7_4
	; CHECK-NEXT: @ %bb.5: @ %middle.block			; CHECK-NEXT: @ %bb.5: @ %middle.block
	; CHECK-NEXT: cmp r12, r3			; CHECK-NEXT: cmp r12, r3
	; CHECK-NEXT: beq .LBB7_8			; CHECK-NEXT: beq .LBB7_8
	; CHECK-NEXT: .LBB7_6: @ %for.body.preheader11			; CHECK-NEXT: .LBB7_6: @ %for.body.preheader11
	; CHECK-NEXT: sub.w lr, r3, r12			; CHECK-NEXT: sub.w lr, r3, r12
	; CHECK-NEXT: add.w r0, r0, r12, lsl #1			; CHECK-NEXT: add.w r0, r0, r12, lsl #1
	; CHECK-NEXT: add.w r1, r1, r12, lsl #1			; CHECK-NEXT: add.w r1, r1, r12, lsl #1
	▲ Show 20 Lines • Show All 101 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vmov r7, s2			; CHECK-NEXT: vmov r7, s2
	; CHECK-NEXT: vmov.16 q1[2], r7			; CHECK-NEXT: vmov.16 q1[2], r7
	; CHECK-NEXT: vmov r7, s3			; CHECK-NEXT: vmov r7, s3
	; CHECK-NEXT: vmov.16 q1[3], r7			; CHECK-NEXT: vmov.16 q1[3], r7
	; CHECK-NEXT: vcvt.f16.s16 q0, q1			; CHECK-NEXT: vcvt.f16.s16 q0, q1
	; CHECK-NEXT: vmov.32 q1[0], r9			; CHECK-NEXT: vmov.32 q1[0], r9
	; CHECK-NEXT: vmov.32 q1[1], r8			; CHECK-NEXT: vmov.32 q1[1], r8
	; CHECK-NEXT: vmul.f16 q0, q1, q0			; CHECK-NEXT: vmul.f16 q0, q1, q0
	; CHECK-NEXT: vmovx.f16 s6, s1			; CHECK-NEXT: vcvtt.f32.f16 s7, s1
	; CHECK-NEXT: vmovx.f16 s4, s0			; CHECK-NEXT: vcvtb.f32.f16 s6, s1
	; CHECK-NEXT: vcvtb.f32.f16 s11, s6			; CHECK-NEXT: vcvtt.f32.f16 s5, s0
	; CHECK-NEXT: vcvtb.f32.f16 s10, s1			; CHECK-NEXT: vcvtb.f32.f16 s4, s0
	; CHECK-NEXT: vcvtb.f32.f16 s9, s4			; CHECK-NEXT: vstrb.8 q1, [r6], #16
	; CHECK-NEXT: vcvtb.f32.f16 s8, s0
	; CHECK-NEXT: vstrb.8 q2, [r6], #16
	; CHECK-NEXT: le lr, .LBB8_4			; CHECK-NEXT: le lr, .LBB8_4
	; CHECK-NEXT: @ %bb.5: @ %middle.block			; CHECK-NEXT: @ %bb.5: @ %middle.block
	; CHECK-NEXT: cmp r12, r3			; CHECK-NEXT: cmp r12, r3
	; CHECK-NEXT: beq .LBB8_8			; CHECK-NEXT: beq .LBB8_8
	; CHECK-NEXT: .LBB8_6: @ %for.body.preheader13			; CHECK-NEXT: .LBB8_6: @ %for.body.preheader13
	; CHECK-NEXT: sub.w lr, r3, r12			; CHECK-NEXT: sub.w lr, r3, r12
	; CHECK-NEXT: add.w r0, r0, r12, lsl #1			; CHECK-NEXT: add.w r0, r0, r12, lsl #1
	; CHECK-NEXT: add.w r1, r1, r12, lsl #1			; CHECK-NEXT: add.w r1, r1, r12, lsl #1
	▲ Show 20 Lines • Show All 558 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-div-expand.ll

	Show First 20 Lines • Show All 966 Lines • ▼ Show 20 Lines

	define arm_aapcs_vfpcc <8 x half> @frem_f16(<8 x half> %in1, <8 x half> %in2) {			define arm_aapcs_vfpcc <8 x half> @frem_f16(<8 x half> %in1, <8 x half> %in2) {
	; CHECK-LABEL: frem_f16:			; CHECK-LABEL: frem_f16:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r4, lr}			; CHECK-NEXT: .save {r4, lr}
	; CHECK-NEXT: push {r4, lr}			; CHECK-NEXT: push {r4, lr}
	; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13}			; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13}
	; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13}			; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13}
	; CHECK-NEXT: vmov q4, q0			; CHECK-NEXT: vmov q5, q0
	; CHECK-NEXT: vmov q5, q1			; CHECK-NEXT: vmov q4, q1
	; CHECK-NEXT: vcvtb.f32.f16 s0, s16
	; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s20			; CHECK-NEXT: vcvtb.f32.f16 s0, s20
				; CHECK-NEXT: vmov r0, s0
				; CHECK-NEXT: vcvtb.f32.f16 s0, s16
	; CHECK-NEXT: vmov r1, s0			; CHECK-NEXT: vmov r1, s0
	; CHECK-NEXT: bl fmodf			; CHECK-NEXT: bl fmodf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vmovx.f16 s2, s16
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s2, s2
	; CHECK-NEXT: vmov r4, s0			; CHECK-NEXT: vmov r4, s0
	; CHECK-NEXT: vmovx.f16 s0, s20			; CHECK-NEXT: vcvtt.f32.f16 s0, s20
	; CHECK-NEXT: vcvtb.f32.f16 s0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmov r0, s2			; CHECK-NEXT: vcvtt.f32.f16 s0, s16
	; CHECK-NEXT: vmov r1, s0			; CHECK-NEXT: vmov r1, s0
	; CHECK-NEXT: bl fmodf			; CHECK-NEXT: bl fmodf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vmov.16 q6[0], r4			; CHECK-NEXT: vmov.16 q6[0], r4
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s17			; CHECK-NEXT: vcvtb.f32.f16 s0, s21
	; CHECK-NEXT: vmov.16 q6[1], r0			; CHECK-NEXT: vmov.16 q6[1], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s21			; CHECK-NEXT: vcvtb.f32.f16 s0, s17
	; CHECK-NEXT: vmov r1, s0			; CHECK-NEXT: vmov r1, s0
	; CHECK-NEXT: bl fmodf			; CHECK-NEXT: bl fmodf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vmovx.f16 s2, s17
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s2, s2
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmovx.f16 s0, s21			; CHECK-NEXT: vcvtt.f32.f16 s0, s21
	; CHECK-NEXT: vcvtb.f32.f16 s0, s0
	; CHECK-NEXT: vmov.16 q6[2], r0			; CHECK-NEXT: vmov.16 q6[2], r0
	; CHECK-NEXT: vmov r0, s2			; CHECK-NEXT: vmov r0, s0
				; CHECK-NEXT: vcvtt.f32.f16 s0, s17
	; CHECK-NEXT: vmov r1, s0			; CHECK-NEXT: vmov r1, s0
	; CHECK-NEXT: bl fmodf			; CHECK-NEXT: bl fmodf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s18			; CHECK-NEXT: vcvtb.f32.f16 s0, s22
	; CHECK-NEXT: vmov.16 q6[3], r0			; CHECK-NEXT: vmov.16 q6[3], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s22			; CHECK-NEXT: vcvtb.f32.f16 s0, s18
	; CHECK-NEXT: vmov r1, s0			; CHECK-NEXT: vmov r1, s0
	; CHECK-NEXT: bl fmodf			; CHECK-NEXT: bl fmodf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vmovx.f16 s2, s18
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s2, s2
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmovx.f16 s0, s22			; CHECK-NEXT: vcvtt.f32.f16 s0, s22
	; CHECK-NEXT: vcvtb.f32.f16 s0, s0
	; CHECK-NEXT: vmov.16 q6[4], r0			; CHECK-NEXT: vmov.16 q6[4], r0
	; CHECK-NEXT: vmov r0, s2			; CHECK-NEXT: vmov r0, s0
				; CHECK-NEXT: vcvtt.f32.f16 s0, s18
	; CHECK-NEXT: vmov r1, s0			; CHECK-NEXT: vmov r1, s0
	; CHECK-NEXT: bl fmodf			; CHECK-NEXT: bl fmodf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s19			; CHECK-NEXT: vcvtb.f32.f16 s0, s23
	; CHECK-NEXT: vmov.16 q6[5], r0			; CHECK-NEXT: vmov.16 q6[5], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s23			; CHECK-NEXT: vcvtb.f32.f16 s0, s19
	; CHECK-NEXT: vmov r1, s0			; CHECK-NEXT: vmov r1, s0
	; CHECK-NEXT: bl fmodf			; CHECK-NEXT: bl fmodf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vmovx.f16 s2, s19
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s2, s2
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmovx.f16 s0, s23			; CHECK-NEXT: vcvtt.f32.f16 s0, s23
	; CHECK-NEXT: vcvtb.f32.f16 s0, s0
	; CHECK-NEXT: vmov.16 q6[6], r0			; CHECK-NEXT: vmov.16 q6[6], r0
	; CHECK-NEXT: vmov r0, s2			; CHECK-NEXT: vmov r0, s0
				; CHECK-NEXT: vcvtt.f32.f16 s0, s19
	; CHECK-NEXT: vmov r1, s0			; CHECK-NEXT: vmov r1, s0
	; CHECK-NEXT: bl fmodf			; CHECK-NEXT: bl fmodf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmov.16 q6[7], r0			; CHECK-NEXT: vmov.16 q6[7], r0
	; CHECK-NEXT: vmov q0, q6			; CHECK-NEXT: vmov q0, q6
	; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13}			; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13}
	▲ Show 20 Lines • Show All 61 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-fmath.ll

	Show First 20 Lines • Show All 117 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vpush {d8, d9, d10, d11}			; CHECK-NEXT: vpush {d8, d9, d10, d11}
	; CHECK-NEXT: vmov q4, q0			; CHECK-NEXT: vmov q4, q0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s16			; CHECK-NEXT: vcvtb.f32.f16 s0, s16
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl cosf			; CHECK-NEXT: bl cosf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r4, s0			; CHECK-NEXT: vmov r4, s0
	; CHECK-NEXT: vmovx.f16 s0, s16			; CHECK-NEXT: vcvtt.f32.f16 s0, s16
	; CHECK-NEXT: vcvtb.f32.f16 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl cosf			; CHECK-NEXT: bl cosf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vmov.16 q5[0], r4			; CHECK-NEXT: vmov.16 q5[0], r4
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s17			; CHECK-NEXT: vcvtb.f32.f16 s0, s17
	; CHECK-NEXT: vmov.16 q5[1], r0			; CHECK-NEXT: vmov.16 q5[1], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl cosf			; CHECK-NEXT: bl cosf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmovx.f16 s0, s17			; CHECK-NEXT: vcvtt.f32.f16 s0, s17
	; CHECK-NEXT: vcvtb.f32.f16 s0, s0
	; CHECK-NEXT: vmov.16 q5[2], r0			; CHECK-NEXT: vmov.16 q5[2], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl cosf			; CHECK-NEXT: bl cosf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s18			; CHECK-NEXT: vcvtb.f32.f16 s0, s18
	; CHECK-NEXT: vmov.16 q5[3], r0			; CHECK-NEXT: vmov.16 q5[3], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl cosf			; CHECK-NEXT: bl cosf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmovx.f16 s0, s18			; CHECK-NEXT: vcvtt.f32.f16 s0, s18
	; CHECK-NEXT: vcvtb.f32.f16 s0, s0
	; CHECK-NEXT: vmov.16 q5[4], r0			; CHECK-NEXT: vmov.16 q5[4], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl cosf			; CHECK-NEXT: bl cosf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s19			; CHECK-NEXT: vcvtb.f32.f16 s0, s19
	; CHECK-NEXT: vmov.16 q5[5], r0			; CHECK-NEXT: vmov.16 q5[5], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl cosf			; CHECK-NEXT: bl cosf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmovx.f16 s0, s19			; CHECK-NEXT: vcvtt.f32.f16 s0, s19
	; CHECK-NEXT: vcvtb.f32.f16 s0, s0
	; CHECK-NEXT: vmov.16 q5[6], r0			; CHECK-NEXT: vmov.16 q5[6], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl cosf			; CHECK-NEXT: bl cosf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmov.16 q5[7], r0			; CHECK-NEXT: vmov.16 q5[7], r0
	; CHECK-NEXT: vmov q0, q5			; CHECK-NEXT: vmov q0, q5
	▲ Show 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vpush {d8, d9, d10, d11}			; CHECK-NEXT: vpush {d8, d9, d10, d11}
	; CHECK-NEXT: vmov q4, q0			; CHECK-NEXT: vmov q4, q0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s16			; CHECK-NEXT: vcvtb.f32.f16 s0, s16
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl sinf			; CHECK-NEXT: bl sinf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r4, s0			; CHECK-NEXT: vmov r4, s0
	; CHECK-NEXT: vmovx.f16 s0, s16			; CHECK-NEXT: vcvtt.f32.f16 s0, s16
	; CHECK-NEXT: vcvtb.f32.f16 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl sinf			; CHECK-NEXT: bl sinf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vmov.16 q5[0], r4			; CHECK-NEXT: vmov.16 q5[0], r4
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s17			; CHECK-NEXT: vcvtb.f32.f16 s0, s17
	; CHECK-NEXT: vmov.16 q5[1], r0			; CHECK-NEXT: vmov.16 q5[1], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl sinf			; CHECK-NEXT: bl sinf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmovx.f16 s0, s17			; CHECK-NEXT: vcvtt.f32.f16 s0, s17
	; CHECK-NEXT: vcvtb.f32.f16 s0, s0
	; CHECK-NEXT: vmov.16 q5[2], r0			; CHECK-NEXT: vmov.16 q5[2], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl sinf			; CHECK-NEXT: bl sinf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s18			; CHECK-NEXT: vcvtb.f32.f16 s0, s18
	; CHECK-NEXT: vmov.16 q5[3], r0			; CHECK-NEXT: vmov.16 q5[3], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl sinf			; CHECK-NEXT: bl sinf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmovx.f16 s0, s18			; CHECK-NEXT: vcvtt.f32.f16 s0, s18
	; CHECK-NEXT: vcvtb.f32.f16 s0, s0
	; CHECK-NEXT: vmov.16 q5[4], r0			; CHECK-NEXT: vmov.16 q5[4], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl sinf			; CHECK-NEXT: bl sinf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s19			; CHECK-NEXT: vcvtb.f32.f16 s0, s19
	; CHECK-NEXT: vmov.16 q5[5], r0			; CHECK-NEXT: vmov.16 q5[5], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl sinf			; CHECK-NEXT: bl sinf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmovx.f16 s0, s19			; CHECK-NEXT: vcvtt.f32.f16 s0, s19
	; CHECK-NEXT: vcvtb.f32.f16 s0, s0
	; CHECK-NEXT: vmov.16 q5[6], r0			; CHECK-NEXT: vmov.16 q5[6], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl sinf			; CHECK-NEXT: bl sinf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmov.16 q5[7], r0			; CHECK-NEXT: vmov.16 q5[7], r0
	; CHECK-NEXT: vmov q0, q5			; CHECK-NEXT: vmov q0, q5
	▲ Show 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vpush {d8, d9, d10, d11}			; CHECK-NEXT: vpush {d8, d9, d10, d11}
	; CHECK-NEXT: vmov q4, q0			; CHECK-NEXT: vmov q4, q0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s16			; CHECK-NEXT: vcvtb.f32.f16 s0, s16
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl expf			; CHECK-NEXT: bl expf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r4, s0			; CHECK-NEXT: vmov r4, s0
	; CHECK-NEXT: vmovx.f16 s0, s16			; CHECK-NEXT: vcvtt.f32.f16 s0, s16
	; CHECK-NEXT: vcvtb.f32.f16 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl expf			; CHECK-NEXT: bl expf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vmov.16 q5[0], r4			; CHECK-NEXT: vmov.16 q5[0], r4
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s17			; CHECK-NEXT: vcvtb.f32.f16 s0, s17
	; CHECK-NEXT: vmov.16 q5[1], r0			; CHECK-NEXT: vmov.16 q5[1], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl expf			; CHECK-NEXT: bl expf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmovx.f16 s0, s17			; CHECK-NEXT: vcvtt.f32.f16 s0, s17
	; CHECK-NEXT: vcvtb.f32.f16 s0, s0
	; CHECK-NEXT: vmov.16 q5[2], r0			; CHECK-NEXT: vmov.16 q5[2], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl expf			; CHECK-NEXT: bl expf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s18			; CHECK-NEXT: vcvtb.f32.f16 s0, s18
	; CHECK-NEXT: vmov.16 q5[3], r0			; CHECK-NEXT: vmov.16 q5[3], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl expf			; CHECK-NEXT: bl expf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmovx.f16 s0, s18			; CHECK-NEXT: vcvtt.f32.f16 s0, s18
	; CHECK-NEXT: vcvtb.f32.f16 s0, s0
	; CHECK-NEXT: vmov.16 q5[4], r0			; CHECK-NEXT: vmov.16 q5[4], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl expf			; CHECK-NEXT: bl expf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s19			; CHECK-NEXT: vcvtb.f32.f16 s0, s19
	; CHECK-NEXT: vmov.16 q5[5], r0			; CHECK-NEXT: vmov.16 q5[5], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl expf			; CHECK-NEXT: bl expf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmovx.f16 s0, s19			; CHECK-NEXT: vcvtt.f32.f16 s0, s19
	; CHECK-NEXT: vcvtb.f32.f16 s0, s0
	; CHECK-NEXT: vmov.16 q5[6], r0			; CHECK-NEXT: vmov.16 q5[6], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl expf			; CHECK-NEXT: bl expf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmov.16 q5[7], r0			; CHECK-NEXT: vmov.16 q5[7], r0
	; CHECK-NEXT: vmov q0, q5			; CHECK-NEXT: vmov q0, q5
	▲ Show 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vpush {d8, d9, d10, d11}			; CHECK-NEXT: vpush {d8, d9, d10, d11}
	; CHECK-NEXT: vmov q4, q0			; CHECK-NEXT: vmov q4, q0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s16			; CHECK-NEXT: vcvtb.f32.f16 s0, s16
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl exp2f			; CHECK-NEXT: bl exp2f
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r4, s0			; CHECK-NEXT: vmov r4, s0
	; CHECK-NEXT: vmovx.f16 s0, s16			; CHECK-NEXT: vcvtt.f32.f16 s0, s16
	; CHECK-NEXT: vcvtb.f32.f16 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl exp2f			; CHECK-NEXT: bl exp2f
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vmov.16 q5[0], r4			; CHECK-NEXT: vmov.16 q5[0], r4
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s17			; CHECK-NEXT: vcvtb.f32.f16 s0, s17
	; CHECK-NEXT: vmov.16 q5[1], r0			; CHECK-NEXT: vmov.16 q5[1], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl exp2f			; CHECK-NEXT: bl exp2f
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmovx.f16 s0, s17			; CHECK-NEXT: vcvtt.f32.f16 s0, s17
	; CHECK-NEXT: vcvtb.f32.f16 s0, s0
	; CHECK-NEXT: vmov.16 q5[2], r0			; CHECK-NEXT: vmov.16 q5[2], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl exp2f			; CHECK-NEXT: bl exp2f
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s18			; CHECK-NEXT: vcvtb.f32.f16 s0, s18
	; CHECK-NEXT: vmov.16 q5[3], r0			; CHECK-NEXT: vmov.16 q5[3], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl exp2f			; CHECK-NEXT: bl exp2f
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmovx.f16 s0, s18			; CHECK-NEXT: vcvtt.f32.f16 s0, s18
	; CHECK-NEXT: vcvtb.f32.f16 s0, s0
	; CHECK-NEXT: vmov.16 q5[4], r0			; CHECK-NEXT: vmov.16 q5[4], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl exp2f			; CHECK-NEXT: bl exp2f
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s19			; CHECK-NEXT: vcvtb.f32.f16 s0, s19
	; CHECK-NEXT: vmov.16 q5[5], r0			; CHECK-NEXT: vmov.16 q5[5], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl exp2f			; CHECK-NEXT: bl exp2f
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmovx.f16 s0, s19			; CHECK-NEXT: vcvtt.f32.f16 s0, s19
	; CHECK-NEXT: vcvtb.f32.f16 s0, s0
	; CHECK-NEXT: vmov.16 q5[6], r0			; CHECK-NEXT: vmov.16 q5[6], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl exp2f			; CHECK-NEXT: bl exp2f
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmov.16 q5[7], r0			; CHECK-NEXT: vmov.16 q5[7], r0
	; CHECK-NEXT: vmov q0, q5			; CHECK-NEXT: vmov q0, q5
	▲ Show 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vpush {d8, d9, d10, d11}			; CHECK-NEXT: vpush {d8, d9, d10, d11}
	; CHECK-NEXT: vmov q4, q0			; CHECK-NEXT: vmov q4, q0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s16			; CHECK-NEXT: vcvtb.f32.f16 s0, s16
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl logf			; CHECK-NEXT: bl logf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r4, s0			; CHECK-NEXT: vmov r4, s0
	; CHECK-NEXT: vmovx.f16 s0, s16			; CHECK-NEXT: vcvtt.f32.f16 s0, s16
	; CHECK-NEXT: vcvtb.f32.f16 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl logf			; CHECK-NEXT: bl logf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vmov.16 q5[0], r4			; CHECK-NEXT: vmov.16 q5[0], r4
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s17			; CHECK-NEXT: vcvtb.f32.f16 s0, s17
	; CHECK-NEXT: vmov.16 q5[1], r0			; CHECK-NEXT: vmov.16 q5[1], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl logf			; CHECK-NEXT: bl logf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmovx.f16 s0, s17			; CHECK-NEXT: vcvtt.f32.f16 s0, s17
	; CHECK-NEXT: vcvtb.f32.f16 s0, s0
	; CHECK-NEXT: vmov.16 q5[2], r0			; CHECK-NEXT: vmov.16 q5[2], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl logf			; CHECK-NEXT: bl logf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s18			; CHECK-NEXT: vcvtb.f32.f16 s0, s18
	; CHECK-NEXT: vmov.16 q5[3], r0			; CHECK-NEXT: vmov.16 q5[3], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl logf			; CHECK-NEXT: bl logf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmovx.f16 s0, s18			; CHECK-NEXT: vcvtt.f32.f16 s0, s18
	; CHECK-NEXT: vcvtb.f32.f16 s0, s0
	; CHECK-NEXT: vmov.16 q5[4], r0			; CHECK-NEXT: vmov.16 q5[4], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl logf			; CHECK-NEXT: bl logf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s19			; CHECK-NEXT: vcvtb.f32.f16 s0, s19
	; CHECK-NEXT: vmov.16 q5[5], r0			; CHECK-NEXT: vmov.16 q5[5], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl logf			; CHECK-NEXT: bl logf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmovx.f16 s0, s19			; CHECK-NEXT: vcvtt.f32.f16 s0, s19
	; CHECK-NEXT: vcvtb.f32.f16 s0, s0
	; CHECK-NEXT: vmov.16 q5[6], r0			; CHECK-NEXT: vmov.16 q5[6], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl logf			; CHECK-NEXT: bl logf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmov.16 q5[7], r0			; CHECK-NEXT: vmov.16 q5[7], r0
	; CHECK-NEXT: vmov q0, q5			; CHECK-NEXT: vmov q0, q5
	▲ Show 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vpush {d8, d9, d10, d11}			; CHECK-NEXT: vpush {d8, d9, d10, d11}
	; CHECK-NEXT: vmov q4, q0			; CHECK-NEXT: vmov q4, q0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s16			; CHECK-NEXT: vcvtb.f32.f16 s0, s16
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl log2f			; CHECK-NEXT: bl log2f
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r4, s0			; CHECK-NEXT: vmov r4, s0
	; CHECK-NEXT: vmovx.f16 s0, s16			; CHECK-NEXT: vcvtt.f32.f16 s0, s16
	; CHECK-NEXT: vcvtb.f32.f16 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl log2f			; CHECK-NEXT: bl log2f
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vmov.16 q5[0], r4			; CHECK-NEXT: vmov.16 q5[0], r4
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s17			; CHECK-NEXT: vcvtb.f32.f16 s0, s17
	; CHECK-NEXT: vmov.16 q5[1], r0			; CHECK-NEXT: vmov.16 q5[1], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl log2f			; CHECK-NEXT: bl log2f
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmovx.f16 s0, s17			; CHECK-NEXT: vcvtt.f32.f16 s0, s17
	; CHECK-NEXT: vcvtb.f32.f16 s0, s0
	; CHECK-NEXT: vmov.16 q5[2], r0			; CHECK-NEXT: vmov.16 q5[2], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl log2f			; CHECK-NEXT: bl log2f
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s18			; CHECK-NEXT: vcvtb.f32.f16 s0, s18
	; CHECK-NEXT: vmov.16 q5[3], r0			; CHECK-NEXT: vmov.16 q5[3], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl log2f			; CHECK-NEXT: bl log2f
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmovx.f16 s0, s18			; CHECK-NEXT: vcvtt.f32.f16 s0, s18
	; CHECK-NEXT: vcvtb.f32.f16 s0, s0
	; CHECK-NEXT: vmov.16 q5[4], r0			; CHECK-NEXT: vmov.16 q5[4], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl log2f			; CHECK-NEXT: bl log2f
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s19			; CHECK-NEXT: vcvtb.f32.f16 s0, s19
	; CHECK-NEXT: vmov.16 q5[5], r0			; CHECK-NEXT: vmov.16 q5[5], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl log2f			; CHECK-NEXT: bl log2f
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmovx.f16 s0, s19			; CHECK-NEXT: vcvtt.f32.f16 s0, s19
	; CHECK-NEXT: vcvtb.f32.f16 s0, s0
	; CHECK-NEXT: vmov.16 q5[6], r0			; CHECK-NEXT: vmov.16 q5[6], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl log2f			; CHECK-NEXT: bl log2f
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmov.16 q5[7], r0			; CHECK-NEXT: vmov.16 q5[7], r0
	; CHECK-NEXT: vmov q0, q5			; CHECK-NEXT: vmov q0, q5
	▲ Show 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vpush {d8, d9, d10, d11}			; CHECK-NEXT: vpush {d8, d9, d10, d11}
	; CHECK-NEXT: vmov q4, q0			; CHECK-NEXT: vmov q4, q0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s16			; CHECK-NEXT: vcvtb.f32.f16 s0, s16
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl log10f			; CHECK-NEXT: bl log10f
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r4, s0			; CHECK-NEXT: vmov r4, s0
	; CHECK-NEXT: vmovx.f16 s0, s16			; CHECK-NEXT: vcvtt.f32.f16 s0, s16
	; CHECK-NEXT: vcvtb.f32.f16 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl log10f			; CHECK-NEXT: bl log10f
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vmov.16 q5[0], r4			; CHECK-NEXT: vmov.16 q5[0], r4
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s17			; CHECK-NEXT: vcvtb.f32.f16 s0, s17
	; CHECK-NEXT: vmov.16 q5[1], r0			; CHECK-NEXT: vmov.16 q5[1], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl log10f			; CHECK-NEXT: bl log10f
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmovx.f16 s0, s17			; CHECK-NEXT: vcvtt.f32.f16 s0, s17
	; CHECK-NEXT: vcvtb.f32.f16 s0, s0
	; CHECK-NEXT: vmov.16 q5[2], r0			; CHECK-NEXT: vmov.16 q5[2], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl log10f			; CHECK-NEXT: bl log10f
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s18			; CHECK-NEXT: vcvtb.f32.f16 s0, s18
	; CHECK-NEXT: vmov.16 q5[3], r0			; CHECK-NEXT: vmov.16 q5[3], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl log10f			; CHECK-NEXT: bl log10f
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmovx.f16 s0, s18			; CHECK-NEXT: vcvtt.f32.f16 s0, s18
	; CHECK-NEXT: vcvtb.f32.f16 s0, s0
	; CHECK-NEXT: vmov.16 q5[4], r0			; CHECK-NEXT: vmov.16 q5[4], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl log10f			; CHECK-NEXT: bl log10f
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s19			; CHECK-NEXT: vcvtb.f32.f16 s0, s19
	; CHECK-NEXT: vmov.16 q5[5], r0			; CHECK-NEXT: vmov.16 q5[5], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl log10f			; CHECK-NEXT: bl log10f
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmovx.f16 s0, s19			; CHECK-NEXT: vcvtt.f32.f16 s0, s19
	; CHECK-NEXT: vcvtb.f32.f16 s0, s0
	; CHECK-NEXT: vmov.16 q5[6], r0			; CHECK-NEXT: vmov.16 q5[6], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: bl log10f			; CHECK-NEXT: bl log10f
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmov.16 q5[7], r0			; CHECK-NEXT: vmov.16 q5[7], r0
	; CHECK-NEXT: vmov q0, q5			; CHECK-NEXT: vmov q0, q5
	▲ Show 20 Lines • Show All 67 Lines • ▼ Show 20 Lines

	define arm_aapcs_vfpcc <8 x half> @pow_float16_t(<8 x half> %src1, <8 x half> %src2) {			define arm_aapcs_vfpcc <8 x half> @pow_float16_t(<8 x half> %src1, <8 x half> %src2) {
	; CHECK-LABEL: pow_float16_t:			; CHECK-LABEL: pow_float16_t:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r4, lr}			; CHECK-NEXT: .save {r4, lr}
	; CHECK-NEXT: push {r4, lr}			; CHECK-NEXT: push {r4, lr}
	; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13}			; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13}
	; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13}			; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13}
	; CHECK-NEXT: vmov q4, q0			; CHECK-NEXT: vmov q5, q0
	; CHECK-NEXT: vmov q5, q1			; CHECK-NEXT: vmov q4, q1
	; CHECK-NEXT: vcvtb.f32.f16 s0, s16
	; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s20			; CHECK-NEXT: vcvtb.f32.f16 s0, s20
				; CHECK-NEXT: vmov r0, s0
				; CHECK-NEXT: vcvtb.f32.f16 s0, s16
	; CHECK-NEXT: vmov r1, s0			; CHECK-NEXT: vmov r1, s0
	; CHECK-NEXT: bl powf			; CHECK-NEXT: bl powf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vmovx.f16 s2, s16
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s2, s2
	; CHECK-NEXT: vmov r4, s0			; CHECK-NEXT: vmov r4, s0
	; CHECK-NEXT: vmovx.f16 s0, s20			; CHECK-NEXT: vcvtt.f32.f16 s0, s20
	; CHECK-NEXT: vcvtb.f32.f16 s0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmov r0, s2			; CHECK-NEXT: vcvtt.f32.f16 s0, s16
	; CHECK-NEXT: vmov r1, s0			; CHECK-NEXT: vmov r1, s0
	; CHECK-NEXT: bl powf			; CHECK-NEXT: bl powf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vmov.16 q6[0], r4			; CHECK-NEXT: vmov.16 q6[0], r4
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s17			; CHECK-NEXT: vcvtb.f32.f16 s0, s21
	; CHECK-NEXT: vmov.16 q6[1], r0			; CHECK-NEXT: vmov.16 q6[1], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s21			; CHECK-NEXT: vcvtb.f32.f16 s0, s17
	; CHECK-NEXT: vmov r1, s0			; CHECK-NEXT: vmov r1, s0
	; CHECK-NEXT: bl powf			; CHECK-NEXT: bl powf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vmovx.f16 s2, s17
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s2, s2
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmovx.f16 s0, s21			; CHECK-NEXT: vcvtt.f32.f16 s0, s21
	; CHECK-NEXT: vcvtb.f32.f16 s0, s0
	; CHECK-NEXT: vmov.16 q6[2], r0			; CHECK-NEXT: vmov.16 q6[2], r0
	; CHECK-NEXT: vmov r0, s2			; CHECK-NEXT: vmov r0, s0
				; CHECK-NEXT: vcvtt.f32.f16 s0, s17
	; CHECK-NEXT: vmov r1, s0			; CHECK-NEXT: vmov r1, s0
	; CHECK-NEXT: bl powf			; CHECK-NEXT: bl powf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s18			; CHECK-NEXT: vcvtb.f32.f16 s0, s22
	; CHECK-NEXT: vmov.16 q6[3], r0			; CHECK-NEXT: vmov.16 q6[3], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s22			; CHECK-NEXT: vcvtb.f32.f16 s0, s18
	; CHECK-NEXT: vmov r1, s0			; CHECK-NEXT: vmov r1, s0
	; CHECK-NEXT: bl powf			; CHECK-NEXT: bl powf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vmovx.f16 s2, s18
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s2, s2
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmovx.f16 s0, s22			; CHECK-NEXT: vcvtt.f32.f16 s0, s22
	; CHECK-NEXT: vcvtb.f32.f16 s0, s0
	; CHECK-NEXT: vmov.16 q6[4], r0			; CHECK-NEXT: vmov.16 q6[4], r0
	; CHECK-NEXT: vmov r0, s2			; CHECK-NEXT: vmov r0, s0
				; CHECK-NEXT: vcvtt.f32.f16 s0, s18
	; CHECK-NEXT: vmov r1, s0			; CHECK-NEXT: vmov r1, s0
	; CHECK-NEXT: bl powf			; CHECK-NEXT: bl powf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s19			; CHECK-NEXT: vcvtb.f32.f16 s0, s23
	; CHECK-NEXT: vmov.16 q6[5], r0			; CHECK-NEXT: vmov.16 q6[5], r0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s0, s23			; CHECK-NEXT: vcvtb.f32.f16 s0, s19
	; CHECK-NEXT: vmov r1, s0			; CHECK-NEXT: vmov r1, s0
	; CHECK-NEXT: bl powf			; CHECK-NEXT: bl powf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vmovx.f16 s2, s19
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vcvtb.f32.f16 s2, s2
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmovx.f16 s0, s23			; CHECK-NEXT: vcvtt.f32.f16 s0, s23
	; CHECK-NEXT: vcvtb.f32.f16 s0, s0
	; CHECK-NEXT: vmov.16 q6[6], r0			; CHECK-NEXT: vmov.16 q6[6], r0
	; CHECK-NEXT: vmov r0, s2			; CHECK-NEXT: vmov r0, s0
				; CHECK-NEXT: vcvtt.f32.f16 s0, s19
	; CHECK-NEXT: vmov r1, s0			; CHECK-NEXT: vmov r1, s0
	; CHECK-NEXT: bl powf			; CHECK-NEXT: bl powf
	; CHECK-NEXT: vmov s0, r0			; CHECK-NEXT: vmov s0, r0
	; CHECK-NEXT: vcvtb.f16.f32 s0, s0			; CHECK-NEXT: vcvtb.f16.f32 s0, s0
	; CHECK-NEXT: vmov r0, s0			; CHECK-NEXT: vmov r0, s0
	; CHECK-NEXT: vmov.16 q6[7], r0			; CHECK-NEXT: vmov.16 q6[7], r0
	; CHECK-NEXT: vmov q0, q6			; CHECK-NEXT: vmov q0, q6
	; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13}			; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13}
	▲ Show 20 Lines • Show All 217 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-masked-ldst.ll

	Show First 20 Lines • Show All 870 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vmov.16 q0[1], r1			; CHECK-NEXT: vmov.16 q0[1], r1
	; CHECK-NEXT: vmov r1, s5			; CHECK-NEXT: vmov r1, s5
	; CHECK-NEXT: vmov.16 q0[2], r1			; CHECK-NEXT: vmov.16 q0[2], r1
	; CHECK-NEXT: vmov r1, s4			; CHECK-NEXT: vmov r1, s4
	; CHECK-NEXT: vmov.16 q0[3], r1			; CHECK-NEXT: vmov.16 q0[3], r1
	; CHECK-NEXT: lsls.w r1, lr, #29			; CHECK-NEXT: lsls.w r1, lr, #29
	; CHECK-NEXT: bmi .LBB18_7			; CHECK-NEXT: bmi .LBB18_7
	; CHECK-NEXT: .LBB18_4:			; CHECK-NEXT: .LBB18_4:
	; CHECK-NEXT: vmov q2, q0			; CHECK-NEXT: vmov q1, q0
	; CHECK-NEXT: lsls.w r1, lr, #28			; CHECK-NEXT: lsls.w r1, lr, #28
	; CHECK-NEXT: bmi .LBB18_8			; CHECK-NEXT: bmi .LBB18_8
	; CHECK-NEXT: .LBB18_5:			; CHECK-NEXT: .LBB18_5:
	; CHECK-NEXT: vmov q1, q2			; CHECK-NEXT: vmov q2, q1
	; CHECK-NEXT: b .LBB18_9			; CHECK-NEXT: b .LBB18_9
	; CHECK-NEXT: .LBB18_6:			; CHECK-NEXT: .LBB18_6:
	; CHECK-NEXT: vmov q0, q1			; CHECK-NEXT: vmov q0, q1
	; CHECK-NEXT: lsls.w r1, lr, #29			; CHECK-NEXT: lsls.w r1, lr, #29
	; CHECK-NEXT: bpl .LBB18_4			; CHECK-NEXT: bpl .LBB18_4
	; CHECK-NEXT: .LBB18_7: @ %cond.load4			; CHECK-NEXT: .LBB18_7: @ %cond.load4
	; CHECK-NEXT: vmovx.f16 s4, s0			; CHECK-NEXT: vmovx.f16 s4, s0
	; CHECK-NEXT: vmov r1, s0			; CHECK-NEXT: vmov r1, s0
				; CHECK-NEXT: vldr.16 s8, [r2, #4]
	; CHECK-NEXT: vmov r3, s4			; CHECK-NEXT: vmov r3, s4
	; CHECK-NEXT: vldr.16 s4, [r2, #4]			; CHECK-NEXT: vmov.16 q1[0], r1
	; CHECK-NEXT: vmov.16 q2[0], r1
	; CHECK-NEXT: vmovx.f16 s0, s1			; CHECK-NEXT: vmovx.f16 s0, s1
	; CHECK-NEXT: vmov.16 q2[1], r3			; CHECK-NEXT: vmov.16 q1[1], r3
	; CHECK-NEXT: vmov r1, s4			; CHECK-NEXT: vmov r1, s8
	; CHECK-NEXT: vmov.16 q2[2], r1			; CHECK-NEXT: vmov.16 q1[2], r1
	; CHECK-NEXT: vmov r1, s0			; CHECK-NEXT: vmov r1, s0
	; CHECK-NEXT: vmov.16 q2[3], r1			; CHECK-NEXT: vmov.16 q1[3], r1
	; CHECK-NEXT: lsls.w r1, lr, #28			; CHECK-NEXT: lsls.w r1, lr, #28
	; CHECK-NEXT: bpl .LBB18_5			; CHECK-NEXT: bpl .LBB18_5
	; CHECK-NEXT: .LBB18_8: @ %cond.load7			; CHECK-NEXT: .LBB18_8: @ %cond.load7
	; CHECK-NEXT: vmovx.f16 s0, s8			; CHECK-NEXT: vmovx.f16 s0, s4
	; CHECK-NEXT: vmov r3, s8			; CHECK-NEXT: vmov r3, s4
	; CHECK-NEXT: vmov r1, s0			; CHECK-NEXT: vmov r1, s0
	; CHECK-NEXT: vmov.16 q1[0], r3			; CHECK-NEXT: vmov.16 q2[0], r3
	; CHECK-NEXT: vldr.16 s0, [r2, #6]			; CHECK-NEXT: vldr.16 s0, [r2, #6]
	; CHECK-NEXT: vmov.16 q1[1], r1			; CHECK-NEXT: vmov.16 q2[1], r1
	; CHECK-NEXT: vmov r1, s9			; CHECK-NEXT: vmov r1, s5
	; CHECK-NEXT: vmov.16 q1[2], r1			; CHECK-NEXT: vmov.16 q2[2], r1
	; CHECK-NEXT: vmov r1, s0			; CHECK-NEXT: vmov r1, s0
	; CHECK-NEXT: vmov.16 q1[3], r1			; CHECK-NEXT: vmov.16 q2[3], r1
	; CHECK-NEXT: .LBB18_9: @ %else8			; CHECK-NEXT: .LBB18_9: @ %else8
	; CHECK-NEXT: vmrs r2, p0			; CHECK-NEXT: vmrs r2, p0
	; CHECK-NEXT: vmovx.f16 s0, s5			; CHECK-NEXT: vcvtt.f32.f16 s3, s9
	; CHECK-NEXT: vcvtb.f32.f16 s3, s0			; CHECK-NEXT: vcvtb.f32.f16 s2, s9
	; CHECK-NEXT: vmovx.f16 s8, s4
	; CHECK-NEXT: vcvtb.f32.f16 s2, s5
	; CHECK-NEXT: movs r1, #0			; CHECK-NEXT: movs r1, #0
	; CHECK-NEXT: vcvtb.f32.f16 s1, s8			; CHECK-NEXT: vcvtt.f32.f16 s1, s8
	; CHECK-NEXT: vcvtb.f32.f16 s0, s4			; CHECK-NEXT: vcvtb.f32.f16 s0, s8
	; CHECK-NEXT: and r3, r2, #1			; CHECK-NEXT: and r3, r2, #1
	; CHECK-NEXT: rsbs r3, r3, #0			; CHECK-NEXT: rsbs r3, r3, #0
	; CHECK-NEXT: bfi r1, r3, #0, #1			; CHECK-NEXT: bfi r1, r3, #0, #1
	; CHECK-NEXT: ubfx r3, r2, #4, #1			; CHECK-NEXT: ubfx r3, r2, #4, #1
	; CHECK-NEXT: rsbs r3, r3, #0			; CHECK-NEXT: rsbs r3, r3, #0
	; CHECK-NEXT: bfi r1, r3, #1, #1			; CHECK-NEXT: bfi r1, r3, #1, #1
	; CHECK-NEXT: ubfx r3, r2, #8, #1			; CHECK-NEXT: ubfx r3, r2, #8, #1
	; CHECK-NEXT: ubfx r2, r2, #12, #1			; CHECK-NEXT: ubfx r2, r2, #12, #1
	▲ Show 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vmov.16 q0[1], r1			; CHECK-NEXT: vmov.16 q0[1], r1
	; CHECK-NEXT: vmov r1, s5			; CHECK-NEXT: vmov r1, s5
	; CHECK-NEXT: vmov.16 q0[2], r1			; CHECK-NEXT: vmov.16 q0[2], r1
	; CHECK-NEXT: vmov r1, s4			; CHECK-NEXT: vmov r1, s4
	; CHECK-NEXT: vmov.16 q0[3], r1			; CHECK-NEXT: vmov.16 q0[3], r1
	; CHECK-NEXT: lsls.w r1, lr, #29			; CHECK-NEXT: lsls.w r1, lr, #29
	; CHECK-NEXT: bmi .LBB19_7			; CHECK-NEXT: bmi .LBB19_7
	; CHECK-NEXT: .LBB19_4:			; CHECK-NEXT: .LBB19_4:
	; CHECK-NEXT: vmov q2, q0			; CHECK-NEXT: vmov q1, q0
	; CHECK-NEXT: lsls.w r1, lr, #28			; CHECK-NEXT: lsls.w r1, lr, #28
	; CHECK-NEXT: bmi .LBB19_8			; CHECK-NEXT: bmi .LBB19_8
	; CHECK-NEXT: .LBB19_5:			; CHECK-NEXT: .LBB19_5:
	; CHECK-NEXT: vmov q1, q2			; CHECK-NEXT: vmov q2, q1
	; CHECK-NEXT: b .LBB19_9			; CHECK-NEXT: b .LBB19_9
	; CHECK-NEXT: .LBB19_6:			; CHECK-NEXT: .LBB19_6:
	; CHECK-NEXT: vmov q0, q1			; CHECK-NEXT: vmov q0, q1
	; CHECK-NEXT: lsls.w r1, lr, #29			; CHECK-NEXT: lsls.w r1, lr, #29
	; CHECK-NEXT: bpl .LBB19_4			; CHECK-NEXT: bpl .LBB19_4
	; CHECK-NEXT: .LBB19_7: @ %cond.load4			; CHECK-NEXT: .LBB19_7: @ %cond.load4
	; CHECK-NEXT: vmovx.f16 s4, s0			; CHECK-NEXT: vmovx.f16 s4, s0
	; CHECK-NEXT: vmov r1, s0			; CHECK-NEXT: vmov r1, s0
				; CHECK-NEXT: vldr.16 s8, [r2, #4]
	; CHECK-NEXT: vmov r3, s4			; CHECK-NEXT: vmov r3, s4
	; CHECK-NEXT: vldr.16 s4, [r2, #4]			; CHECK-NEXT: vmov.16 q1[0], r1
	; CHECK-NEXT: vmov.16 q2[0], r1
	; CHECK-NEXT: vmovx.f16 s0, s1			; CHECK-NEXT: vmovx.f16 s0, s1
	; CHECK-NEXT: vmov.16 q2[1], r3			; CHECK-NEXT: vmov.16 q1[1], r3
	; CHECK-NEXT: vmov r1, s4			; CHECK-NEXT: vmov r1, s8
	; CHECK-NEXT: vmov.16 q2[2], r1			; CHECK-NEXT: vmov.16 q1[2], r1
	; CHECK-NEXT: vmov r1, s0			; CHECK-NEXT: vmov r1, s0
	; CHECK-NEXT: vmov.16 q2[3], r1			; CHECK-NEXT: vmov.16 q1[3], r1
	; CHECK-NEXT: lsls.w r1, lr, #28			; CHECK-NEXT: lsls.w r1, lr, #28
	; CHECK-NEXT: bpl .LBB19_5			; CHECK-NEXT: bpl .LBB19_5
	; CHECK-NEXT: .LBB19_8: @ %cond.load7			; CHECK-NEXT: .LBB19_8: @ %cond.load7
	; CHECK-NEXT: vmovx.f16 s0, s8			; CHECK-NEXT: vmovx.f16 s0, s4
	; CHECK-NEXT: vmov r3, s8			; CHECK-NEXT: vmov r3, s4
	; CHECK-NEXT: vmov r1, s0			; CHECK-NEXT: vmov r1, s0
	; CHECK-NEXT: vmov.16 q1[0], r3			; CHECK-NEXT: vmov.16 q2[0], r3
	; CHECK-NEXT: vldr.16 s0, [r2, #6]			; CHECK-NEXT: vldr.16 s0, [r2, #6]
	; CHECK-NEXT: vmov.16 q1[1], r1			; CHECK-NEXT: vmov.16 q2[1], r1
	; CHECK-NEXT: vmov r1, s9			; CHECK-NEXT: vmov r1, s5
	; CHECK-NEXT: vmov.16 q1[2], r1			; CHECK-NEXT: vmov.16 q2[2], r1
	; CHECK-NEXT: vmov r1, s0			; CHECK-NEXT: vmov r1, s0
	; CHECK-NEXT: vmov.16 q1[3], r1			; CHECK-NEXT: vmov.16 q2[3], r1
	; CHECK-NEXT: .LBB19_9: @ %else8			; CHECK-NEXT: .LBB19_9: @ %else8
	; CHECK-NEXT: vmrs r2, p0			; CHECK-NEXT: vmrs r2, p0
	; CHECK-NEXT: vmovx.f16 s0, s5			; CHECK-NEXT: vcvtt.f32.f16 s3, s9
	; CHECK-NEXT: vcvtb.f32.f16 s3, s0			; CHECK-NEXT: vcvtb.f32.f16 s2, s9
	; CHECK-NEXT: vmovx.f16 s8, s4
	; CHECK-NEXT: vcvtb.f32.f16 s2, s5
	; CHECK-NEXT: movs r1, #0			; CHECK-NEXT: movs r1, #0
	; CHECK-NEXT: vcvtb.f32.f16 s1, s8			; CHECK-NEXT: vcvtt.f32.f16 s1, s8
	; CHECK-NEXT: vcvtb.f32.f16 s0, s4			; CHECK-NEXT: vcvtb.f32.f16 s0, s8
	; CHECK-NEXT: and r3, r2, #1			; CHECK-NEXT: and r3, r2, #1
	; CHECK-NEXT: rsbs r3, r3, #0			; CHECK-NEXT: rsbs r3, r3, #0
	; CHECK-NEXT: bfi r1, r3, #0, #1			; CHECK-NEXT: bfi r1, r3, #0, #1
	; CHECK-NEXT: ubfx r3, r2, #4, #1			; CHECK-NEXT: ubfx r3, r2, #4, #1
	; CHECK-NEXT: rsbs r3, r3, #0			; CHECK-NEXT: rsbs r3, r3, #0
	; CHECK-NEXT: bfi r1, r3, #1, #1			; CHECK-NEXT: bfi r1, r3, #1, #1
	; CHECK-NEXT: ubfx r3, r2, #8, #1			; CHECK-NEXT: ubfx r3, r2, #8, #1
	; CHECK-NEXT: ubfx r2, r2, #12, #1			; CHECK-NEXT: ubfx r2, r2, #12, #1
	▲ Show 20 Lines • Show All 51 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vcvt16.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp -verify-machineinstrs %s -o - \| FileCheck %s		; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp -verify-machineinstrs %s -o - \| FileCheck %s

define arm_aapcs_vfpcc <4 x float> @fpext_4(<4 x half> %src1) {		define arm_aapcs_vfpcc <4 x float> @fpext_4(<4 x half> %src1) {
; CHECK-LABEL: fpext_4:		; CHECK-LABEL: fpext_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmovx.f16 s4, s1		; CHECK-NEXT: vcvtt.f32.f16 s7, s1
; CHECK-NEXT: vmovx.f16 s8, s0
; CHECK-NEXT: vcvtb.f32.f16 s7, s4
; CHECK-NEXT: vcvtb.f32.f16 s6, s1		; CHECK-NEXT: vcvtb.f32.f16 s6, s1
; CHECK-NEXT: vcvtb.f32.f16 s5, s8		; CHECK-NEXT: vcvtt.f32.f16 s5, s0
; CHECK-NEXT: vcvtb.f32.f16 s4, s0		; CHECK-NEXT: vcvtb.f32.f16 s4, s0
; CHECK-NEXT: vmov q0, q1		; CHECK-NEXT: vmov q0, q1
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%out = fpext <4 x half> %src1 to <4 x float>		%out = fpext <4 x half> %src1 to <4 x float>
ret <4 x float> %out		ret <4 x float> %out
}		}

define arm_aapcs_vfpcc <8 x float> @fpext_8(<8 x half> %src1) {		define arm_aapcs_vfpcc <8 x float> @fpext_8(<8 x half> %src1) {
; CHECK-LABEL: fpext_8:		; CHECK-LABEL: fpext_8:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmovx.f16 s8, s1		; CHECK-NEXT: vcvtt.f32.f16 s11, s1
; CHECK-NEXT: vmovx.f16 s6, s0
; CHECK-NEXT: vcvtb.f32.f16 s11, s8
; CHECK-NEXT: vmovx.f16 s4, s3
; CHECK-NEXT: vcvtb.f32.f16 s10, s1		; CHECK-NEXT: vcvtb.f32.f16 s10, s1
; CHECK-NEXT: vmovx.f16 s12, s2		; CHECK-NEXT: vcvtt.f32.f16 s9, s0
; CHECK-NEXT: vcvtb.f32.f16 s9, s6
; CHECK-NEXT: vcvtb.f32.f16 s8, s0		; CHECK-NEXT: vcvtb.f32.f16 s8, s0
; CHECK-NEXT: vcvtb.f32.f16 s7, s4		; CHECK-NEXT: vcvtt.f32.f16 s7, s3
; CHECK-NEXT: vcvtb.f32.f16 s6, s3		; CHECK-NEXT: vcvtb.f32.f16 s6, s3
; CHECK-NEXT: vcvtb.f32.f16 s5, s12		; CHECK-NEXT: vcvtt.f32.f16 s5, s2
; CHECK-NEXT: vcvtb.f32.f16 s4, s2		; CHECK-NEXT: vcvtb.f32.f16 s4, s2
; CHECK-NEXT: vmov q0, q2		; CHECK-NEXT: vmov q0, q2
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%out = fpext <8 x half> %src1 to <8 x float>		%out = fpext <8 x half> %src1 to <8 x float>
ret <8 x float> %out		ret <8 x float> %out
}		}

▲ Show 20 Lines • Show All 227 Lines • ▼ Show 20 Lines	entry:
%sh = shufflevector <8 x half> %wide.load, <8 x half> undef, <4 x i32> <i32 0, i32 2, i32 4, i32 6>		%sh = shufflevector <8 x half> %wide.load, <8 x half> undef, <4 x i32> <i32 0, i32 2, i32 4, i32 6>
%e = fpext <4 x half> %sh to <4 x float>		%e = fpext <4 x half> %sh to <4 x float>
ret <4 x float> %e		ret <4 x float> %e
}		}

define arm_aapcs_vfpcc <8 x float> @load_shuffleext_16(<16 x half>* %src) {		define arm_aapcs_vfpcc <8 x float> @load_shuffleext_16(<16 x half>* %src) {
; CHECK-LABEL: load_shuffleext_16:		; CHECK-LABEL: load_shuffleext_16:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .vsave {d8}
; CHECK-NEXT: vpush {d8}
; CHECK-NEXT: vld20.16 {q2, q3}, [r0]		; CHECK-NEXT: vld20.16 {q2, q3}, [r0]
; CHECK-NEXT: vld21.16 {q2, q3}, [r0]		; CHECK-NEXT: vld21.16 {q2, q3}, [r0]
; CHECK-NEXT: vmovx.f16 s0, s9		; CHECK-NEXT: vcvtt.f32.f16 s3, s9
; CHECK-NEXT: vmovx.f16 s6, s8
; CHECK-NEXT: vcvtb.f32.f16 s3, s0
; CHECK-NEXT: vmovx.f16 s4, s11
; CHECK-NEXT: vcvtb.f32.f16 s2, s9		; CHECK-NEXT: vcvtb.f32.f16 s2, s9
; CHECK-NEXT: vmovx.f16 s16, s10		; CHECK-NEXT: vcvtt.f32.f16 s1, s8
; CHECK-NEXT: vcvtb.f32.f16 s1, s6
; CHECK-NEXT: vcvtb.f32.f16 s0, s8		; CHECK-NEXT: vcvtb.f32.f16 s0, s8
; CHECK-NEXT: vcvtb.f32.f16 s7, s4		; CHECK-NEXT: vcvtt.f32.f16 s7, s11
; CHECK-NEXT: vcvtb.f32.f16 s6, s11		; CHECK-NEXT: vcvtb.f32.f16 s6, s11
; CHECK-NEXT: vcvtb.f32.f16 s5, s16		; CHECK-NEXT: vcvtt.f32.f16 s5, s10
; CHECK-NEXT: vcvtb.f32.f16 s4, s10		; CHECK-NEXT: vcvtb.f32.f16 s4, s10
; CHECK-NEXT: vpop {d8}
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%wide.load = load <16 x half>, <16 x half>* %src, align 4		%wide.load = load <16 x half>, <16 x half>* %src, align 4
%sh = shufflevector <16 x half> %wide.load, <16 x half> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>		%sh = shufflevector <16 x half> %wide.load, <16 x half> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>
%e = fpext <8 x half> %sh to <8 x float>		%e = fpext <8 x half> %sh to <8 x float>
ret <8 x float> %e		ret <8 x float> %e
}		}

▲ Show 20 Lines • Show All 77 Lines • Show Last 20 Lines