This is an archive of the discontinued LLVM Phabricator instance.

[ARM] Generate VDUP(Const) from constant buildvectors
ClosedPublic

Authored by dmgreen on Jun 7 2021, 6:20 AM.

Download Raw Diff

Details

Reviewers

samtebbs
NickGuy
SjoerdMeijer
ostannard
simon_tatham

Commits

rGd7853bae9410: [ARM] Generate VDUP(Const) from constant buildvectors

Summary

If we cannot otherwise use a VMOVimm/VMOVFPimm/VMVNimm, fall back to producing a VDUP(const) as opposed to a constant pool load. This will at least be smaller codesize and can allow the VDUP to be folded into other instructions.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

dmgreen created this revision.Jun 7 2021, 6:20 AM

Herald added subscribers: danielkiss, hiraditya, kristof.beyls. · View Herald TranscriptJun 7 2021, 6:20 AM

dmgreen requested review of this revision.Jun 7 2021, 6:20 AM

Herald added a project: Restricted Project. · View Herald TranscriptJun 7 2021, 6:20 AM

Harbormaster completed remote builds in B107971: Diff 350194.Jun 7 2021, 7:30 AM

Looks like an obviously good thing, and I only have one nitpick.

llvm/lib/Target/ARM/ARMISelLowering.cpp
7648	You've used VECTOR_REG_CAST where other branches of this code have BITCAST. As far as I can see, either one will work provided the constant is constructed right (e.g. if you wanted to make a v16i8 containing 1,2,3,4,1,2,3,4,... then you might have to vdup 0x01020304 or 0x04030201 depending which cast you wanted to use afterwards). But I don't see any big-endian test to demonstrate it picking the right one. Unless I've missed one, could you add it?

Added two new test cases, mov_int8_1234 that does like you said i8 <1,2,3,4,1,2,3,4,..> and mov_int32_16908546 which is 0x1020102 VDUP'd as a i16.

Harbormaster completed remote builds in B108152: Diff 350514.Jun 8 2021, 12:43 AM

simon_tatham accepted this revision.Jun 8 2021, 2:53 AM

simon_tatham added inline comments.

llvm/test/CodeGen/Thumb2/mve-vmovimm.ll
37–39	I think this output is right, but it confused me completely for a while and I had to try it in emulation to convince myself! In the middle of a larger function, I think that if you wanted to make this 1,2,3,4,1,2,3,4,... vector and then immediately apply another v16i8 operation to it, you would vdup the same 32-bit constant 0x04030201 regardless of endianness, because the logical 'lane 0' of the vector always occupies the low-order bits. And the reason why the output is different between LE and BE in this context is that the vdup is immediately followed by a function return, which in BE requires an extra vrev due to the vector register PCS. And that function-return vrev has been folded into the constant, which is why it's the other way round here. So, I think this is the right output, but it might benefit from a comment in case the next reader gets as confused as I did!

This revision is now accepted and ready to land.Jun 8 2021, 2:53 AM

This revision was landed with ongoing or failed builds.Jun 8 2021, 12:52 PM

Closed by commit rGd7853bae9410: [ARM] Generate VDUP(Const) from constant buildvectors (authored by dmgreen). · Explain Why

This revision was automatically updated to reflect the committed changes.

dmgreen added a commit: rGd7853bae9410: [ARM] Generate VDUP(Const) from constant buildvectors.

Revision Contents

Path

Size

llvm/

lib/

Target/

ARM/

ARMISelLowering.cpp

12 lines

test/

CodeGen/

Thumb2/

LowOverheadLoops/

predicated-liveout-unknown-lanes.ll

12 lines

mve-fp16convertloops.ll

331 lines

mve-gather-scatter-tailpred.ll

178 lines

mve-pred-vctpvpsel.ll

24 lines

mve-shifts.ll

24 lines

mve-vmovimm.ll

217 lines

mve-vmvnimm.ll

12 lines

Diff 350697

llvm/lib/Target/ARM/ARMISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 7,629 Lines • ▼ Show 20 Lines	if ((ST->hasNEON() && SplatBitSize <= 64) \|\|
// Use vmov.f32 to materialize other v2f32 and v4f32 splats.		// Use vmov.f32 to materialize other v2f32 and v4f32 splats.
if ((VT == MVT::v2f32 \|\| VT == MVT::v4f32) && SplatBitSize == 32) {		if ((VT == MVT::v2f32 \|\| VT == MVT::v4f32) && SplatBitSize == 32) {
int ImmVal = ARM_AM::getFP32Imm(SplatBits);		int ImmVal = ARM_AM::getFP32Imm(SplatBits);
if (ImmVal != -1) {		if (ImmVal != -1) {
SDValue Val = DAG.getTargetConstant(ImmVal, dl, MVT::i32);		SDValue Val = DAG.getTargetConstant(ImmVal, dl, MVT::i32);
return DAG.getNode(ARMISD::VMOVFPIMM, dl, VT, Val);		return DAG.getNode(ARMISD::VMOVFPIMM, dl, VT, Val);
}		}
}		}

		// If we are under MVE, generate a VDUP(constant), bitcast to the original
		// type.
		if (ST->hasMVEIntegerOps() &&
		(SplatBitSize == 8 \|\| SplatBitSize == 16 \|\| SplatBitSize == 32)) {
		EVT DupVT = SplatBitSize == 32 ? MVT::v4i32
		: SplatBitSize == 16 ? MVT::v8i16
		: MVT::v16i8;
		SDValue Const = DAG.getConstant(SplatBits.getZExtValue(), dl, MVT::i32);
		SDValue VDup = DAG.getNode(ARMISD::VDUP, dl, DupVT, Const);
		return DAG.getNode(ARMISD::VECTOR_REG_CAST, dl, VT, VDup);
		simon_tathamUnsubmitted Not Done Reply Inline Actions You've used VECTOR_REG_CAST where other branches of this code have BITCAST. As far as I can see, either one will work provided the constant is constructed right (e.g. if you wanted to make a v16i8 containing 1,2,3,4,1,2,3,4,... then you might have to vdup 0x01020304 or 0x04030201 depending which cast you wanted to use afterwards). But I don't see any big-endian test to demonstrate it picking the right one. Unless I've missed one, could you add it? simon_tatham: You've used VECTOR_REG_CAST where other branches of this code have BITCAST. As far as I can…
		}
}		}
}		}

// Scan through the operands to see if only one value is used.		// Scan through the operands to see if only one value is used.
//		//
// As an optimisation, even if more than one value is used it may be more		// As an optimisation, even if more than one value is used it may be more
// profitable to splat with one value then change some lanes.		// profitable to splat with one value then change some lanes.
//		//
▲ Show 20 Lines • Show All 12,549 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/LowOverheadLoops/predicated-liveout-unknown-lanes.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp -O3 -tail-predication=force-enabled-no-reductions %s -o - \| FileCheck %s			; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp -O3 -tail-predication=force-enabled-no-reductions %s -o - \| FileCheck %s

	define arm_aapcs_vfpcc <4 x float> @arm_max_no_idx_f32_mve(float* %pSrc, i32 %blockSize, float* nocapture %pResult) {			define arm_aapcs_vfpcc <4 x float> @arm_max_no_idx_f32_mve(float* %pSrc, i32 %blockSize, float* nocapture %pResult) {
	; CHECK-LABEL: arm_max_no_idx_f32_mve:			; CHECK-LABEL: arm_max_no_idx_f32_mve:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r7, lr}			; CHECK-NEXT: .save {r7, lr}
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: subs r2, r1, #4			; CHECK-NEXT: subs r2, r1, #4
	; CHECK-NEXT: adr r3, .LCPI0_0			; CHECK-NEXT: movw r3, #0
	; CHECK-NEXT: vldrw.u32 q0, [r3]			; CHECK-NEXT: movt r3, #65408
				; CHECK-NEXT: vdup.32 q0, r3
	; CHECK-NEXT: dlstp.32 lr, r1			; CHECK-NEXT: dlstp.32 lr, r1
	; CHECK-NEXT: .LBB0_1: @ %do.body			; CHECK-NEXT: .LBB0_1: @ %do.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrw.u32 q1, [r0], #16			; CHECK-NEXT: vldrw.u32 q1, [r0], #16
	; CHECK-NEXT: vmaxnm.f32 q0, q1, q0			; CHECK-NEXT: vmaxnm.f32 q0, q1, q0
	; CHECK-NEXT: letp lr, .LBB0_1			; CHECK-NEXT: letp lr, .LBB0_1
	; CHECK-NEXT: @ %bb.2: @ %do.end			; CHECK-NEXT: @ %bb.2: @ %do.end
	; CHECK-NEXT: pop {r7, pc}			; CHECK-NEXT: pop {r7, pc}
	; CHECK-NEXT: .p2align 4
	; CHECK-NEXT: @ %bb.3:
	; CHECK-NEXT: .LCPI0_0:
	; CHECK-NEXT: .long 0xff800000 @ float -Inf
	; CHECK-NEXT: .long 0xff800000 @ float -Inf
	; CHECK-NEXT: .long 0xff800000 @ float -Inf
	; CHECK-NEXT: .long 0xff800000 @ float -Inf
	entry:			entry:
	br label %do.body			br label %do.body

	do.body: ; preds = %do.body, %entry			do.body: ; preds = %do.body, %entry
	%blockSize.addr.0 = phi i32 [ %blockSize, %entry ], [ %sub, %do.body ]			%blockSize.addr.0 = phi i32 [ %blockSize, %entry ], [ %sub, %do.body ]
	%curExtremValVec.0 = phi <4 x float> [ <float 0xFFF0000000000000, float 0xFFF0000000000000, float 0xFFF0000000000000, float 0xFFF0000000000000>, %entry ], [ %3, %do.body ]			%curExtremValVec.0 = phi <4 x float> [ <float 0xFFF0000000000000, float 0xFFF0000000000000, float 0xFFF0000000000000, float 0xFFF0000000000000>, %entry ], [ %3, %do.body ]
	%pSrc.addr.0 = phi float* [ %pSrc, %entry ], [ %add.ptr, %do.body ]			%pSrc.addr.0 = phi float* [ %pSrc, %entry ], [ %add.ptr, %do.body ]
	%0 = tail call <4 x i1> @llvm.arm.mve.vctp32(i32 %blockSize.addr.0)			%0 = tail call <4 x i1> @llvm.arm.mve.vctp32(i32 %blockSize.addr.0)
	Show All 17 Lines

llvm/test/CodeGen/Thumb2/mve-fp16convertloops.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp -verify-machineinstrs %s -o - \| FileCheck %s			; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp -verify-machineinstrs %s -o - \| FileCheck %s

	define void @to_4(float* nocapture readonly %x, half* noalias nocapture %y) {			define void @to_4(float* nocapture readonly %x, half* noalias nocapture %y) {
	; CHECK-LABEL: to_4:			; CHECK-LABEL: to_4:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r7, lr}			; CHECK-NEXT: .save {r7, lr}
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: mov.w lr, #256			; CHECK-NEXT: mov.w lr, #256
	; CHECK-NEXT: adr r2, .LCPI0_0			; CHECK-NEXT: movw r2, #26214
	; CHECK-NEXT: vldrw.u32 q0, [r2]			; CHECK-NEXT: movt r2, #16390
	; CHECK-NEXT: .LBB0_1: @ %vector.body			; CHECK-NEXT: .LBB0_1: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrw.u32 q1, [r0], #16			; CHECK-NEXT: vldrw.u32 q0, [r0], #16
	; CHECK-NEXT: vmul.f32 q1, q1, q0			; CHECK-NEXT: vmul.f32 q0, q0, r2
	; CHECK-NEXT: vcvtb.f16.f32 q1, q1			; CHECK-NEXT: vcvtb.f16.f32 q0, q0
	; CHECK-NEXT: vstrh.32 q1, [r1], #8			; CHECK-NEXT: vstrh.32 q0, [r1], #8
	; CHECK-NEXT: le lr, .LBB0_1			; CHECK-NEXT: le lr, .LBB0_1
	; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup			; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup
	; CHECK-NEXT: pop {r7, pc}			; CHECK-NEXT: pop {r7, pc}
	; CHECK-NEXT: .p2align 4
	; CHECK-NEXT: @ %bb.3:
	; CHECK-NEXT: .LCPI0_0:
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	entry:			entry:
	br label %vector.body			br label %vector.body

	vector.body: ; preds = %vector.body, %entry			vector.body: ; preds = %vector.body, %entry
	%index = phi i32 [ 0, %entry ], [ %index.next, %vector.body ]			%index = phi i32 [ 0, %entry ], [ %index.next, %vector.body ]
	%0 = getelementptr inbounds float, float* %x, i32 %index			%0 = getelementptr inbounds float, float* %x, i32 %index
	%1 = bitcast float* %0 to <4 x float>*			%1 = bitcast float* %0 to <4 x float>*
	%wide.load = load <4 x float>, <4 x float>* %1, align 4			%wide.load = load <4 x float>, <4 x float>* %1, align 4
	Show All 11 Lines
	}			}

	define void @to_8(float* nocapture readonly %x, half* noalias nocapture %y) {			define void @to_8(float* nocapture readonly %x, half* noalias nocapture %y) {
	; CHECK-LABEL: to_8:			; CHECK-LABEL: to_8:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r7, lr}			; CHECK-NEXT: .save {r7, lr}
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: mov.w lr, #128			; CHECK-NEXT: mov.w lr, #128
	; CHECK-NEXT: adr r2, .LCPI1_0			; CHECK-NEXT: movw r2, #26214
	; CHECK-NEXT: vldrw.u32 q0, [r2]			; CHECK-NEXT: movt r2, #16390
	; CHECK-NEXT: .LBB1_1: @ %vector.body			; CHECK-NEXT: .LBB1_1: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrw.u32 q1, [r0, #16]			; CHECK-NEXT: vldrw.u32 q0, [r0, #16]
	; CHECK-NEXT: vmul.f32 q1, q1, q0			; CHECK-NEXT: vmul.f32 q0, q0, r2
	; CHECK-NEXT: vcvtb.f16.f32 q1, q1			; CHECK-NEXT: vcvtb.f16.f32 q0, q0
	; CHECK-NEXT: vstrh.32 q1, [r1, #8]			; CHECK-NEXT: vstrh.32 q0, [r1, #8]
	; CHECK-NEXT: vldrw.u32 q1, [r0], #32			; CHECK-NEXT: vldrw.u32 q0, [r0], #32
	; CHECK-NEXT: vmul.f32 q1, q1, q0			; CHECK-NEXT: vmul.f32 q0, q0, r2
	; CHECK-NEXT: vcvtb.f16.f32 q1, q1			; CHECK-NEXT: vcvtb.f16.f32 q0, q0
	; CHECK-NEXT: vstrh.32 q1, [r1], #16			; CHECK-NEXT: vstrh.32 q0, [r1], #16
	; CHECK-NEXT: le lr, .LBB1_1			; CHECK-NEXT: le lr, .LBB1_1
	; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup			; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup
	; CHECK-NEXT: pop {r7, pc}			; CHECK-NEXT: pop {r7, pc}
	; CHECK-NEXT: .p2align 4
	; CHECK-NEXT: @ %bb.3:
	; CHECK-NEXT: .LCPI1_0:
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	entry:			entry:
	br label %vector.body			br label %vector.body

	vector.body: ; preds = %vector.body, %entry			vector.body: ; preds = %vector.body, %entry
	%index = phi i32 [ 0, %entry ], [ %index.next, %vector.body ]			%index = phi i32 [ 0, %entry ], [ %index.next, %vector.body ]
	%0 = getelementptr inbounds float, float* %x, i32 %index			%0 = getelementptr inbounds float, float* %x, i32 %index
	%1 = bitcast float* %0 to <8 x float>*			%1 = bitcast float* %0 to <8 x float>*
	%wide.load = load <8 x float>, <8 x float>* %1, align 4			%wide.load = load <8 x float>, <8 x float>* %1, align 4
	Show All 11 Lines
	}			}

	define void @to_16(float* nocapture readonly %x, half* noalias nocapture %y) {			define void @to_16(float* nocapture readonly %x, half* noalias nocapture %y) {
	; CHECK-LABEL: to_16:			; CHECK-LABEL: to_16:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r7, lr}			; CHECK-NEXT: .save {r7, lr}
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: mov.w lr, #64			; CHECK-NEXT: mov.w lr, #64
	; CHECK-NEXT: adr r2, .LCPI2_0			; CHECK-NEXT: movw r2, #26214
	; CHECK-NEXT: vldrw.u32 q0, [r2]			; CHECK-NEXT: movt r2, #16390
	; CHECK-NEXT: .LBB2_1: @ %vector.body			; CHECK-NEXT: .LBB2_1: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrw.u32 q1, [r0, #48]			; CHECK-NEXT: vldrw.u32 q0, [r0, #48]
	; CHECK-NEXT: vmul.f32 q1, q1, q0			; CHECK-NEXT: vmul.f32 q0, q0, r2
	; CHECK-NEXT: vcvtb.f16.f32 q1, q1			; CHECK-NEXT: vcvtb.f16.f32 q0, q0
	; CHECK-NEXT: vstrh.32 q1, [r1, #24]			; CHECK-NEXT: vstrh.32 q0, [r1, #24]
	; CHECK-NEXT: vldrw.u32 q1, [r0, #32]			; CHECK-NEXT: vldrw.u32 q0, [r0, #32]
	; CHECK-NEXT: vmul.f32 q1, q1, q0			; CHECK-NEXT: vmul.f32 q0, q0, r2
	; CHECK-NEXT: vcvtb.f16.f32 q1, q1			; CHECK-NEXT: vcvtb.f16.f32 q0, q0
	; CHECK-NEXT: vstrh.32 q1, [r1, #16]			; CHECK-NEXT: vstrh.32 q0, [r1, #16]
	; CHECK-NEXT: vldrw.u32 q1, [r0, #16]			; CHECK-NEXT: vldrw.u32 q0, [r0, #16]
	; CHECK-NEXT: vmul.f32 q1, q1, q0			; CHECK-NEXT: vmul.f32 q0, q0, r2
	; CHECK-NEXT: vcvtb.f16.f32 q1, q1			; CHECK-NEXT: vcvtb.f16.f32 q0, q0
	; CHECK-NEXT: vstrh.32 q1, [r1, #8]			; CHECK-NEXT: vstrh.32 q0, [r1, #8]
	; CHECK-NEXT: vldrw.u32 q1, [r0], #64			; CHECK-NEXT: vldrw.u32 q0, [r0], #64
	; CHECK-NEXT: vmul.f32 q1, q1, q0			; CHECK-NEXT: vmul.f32 q0, q0, r2
	; CHECK-NEXT: vcvtb.f16.f32 q1, q1			; CHECK-NEXT: vcvtb.f16.f32 q0, q0
	; CHECK-NEXT: vstrh.32 q1, [r1], #32			; CHECK-NEXT: vstrh.32 q0, [r1], #32
	; CHECK-NEXT: le lr, .LBB2_1			; CHECK-NEXT: le lr, .LBB2_1
	; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup			; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup
	; CHECK-NEXT: pop {r7, pc}			; CHECK-NEXT: pop {r7, pc}
	; CHECK-NEXT: .p2align 4
	; CHECK-NEXT: @ %bb.3:
	; CHECK-NEXT: .LCPI2_0:
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	entry:			entry:
	br label %vector.body			br label %vector.body

	vector.body: ; preds = %vector.body, %entry			vector.body: ; preds = %vector.body, %entry
	%index = phi i32 [ 0, %entry ], [ %index.next, %vector.body ]			%index = phi i32 [ 0, %entry ], [ %index.next, %vector.body ]
	%0 = getelementptr inbounds float, float* %x, i32 %index			%0 = getelementptr inbounds float, float* %x, i32 %index
	%1 = bitcast float* %0 to <16 x float>*			%1 = bitcast float* %0 to <16 x float>*
	%wide.load = load <16 x float>, <16 x float>* %1, align 4			%wide.load = load <16 x float>, <16 x float>* %1, align 4
	Show All 11 Lines
	}			}

	define void @from_4(half* nocapture readonly %x, float* noalias nocapture %y) {			define void @from_4(half* nocapture readonly %x, float* noalias nocapture %y) {
	; CHECK-LABEL: from_4:			; CHECK-LABEL: from_4:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r7, lr}			; CHECK-NEXT: .save {r7, lr}
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: mov.w lr, #256			; CHECK-NEXT: mov.w lr, #256
	; CHECK-NEXT: adr r2, .LCPI3_0			; CHECK-NEXT: movw r2, #26214
	; CHECK-NEXT: vldrw.u32 q0, [r2]			; CHECK-NEXT: movt r2, #16390
	; CHECK-NEXT: .LBB3_1: @ %vector.body			; CHECK-NEXT: .LBB3_1: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrh.u32 q1, [r0], #8			; CHECK-NEXT: vldrh.u32 q0, [r0], #8
	; CHECK-NEXT: vcvtb.f32.f16 q1, q1			; CHECK-NEXT: vcvtb.f32.f16 q0, q0
	; CHECK-NEXT: vmul.f32 q1, q1, q0			; CHECK-NEXT: vmul.f32 q0, q0, r2
	; CHECK-NEXT: vstrb.8 q1, [r1], #16			; CHECK-NEXT: vstrb.8 q0, [r1], #16
	; CHECK-NEXT: le lr, .LBB3_1			; CHECK-NEXT: le lr, .LBB3_1
	; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup			; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup
	; CHECK-NEXT: pop {r7, pc}			; CHECK-NEXT: pop {r7, pc}
	; CHECK-NEXT: .p2align 4
	; CHECK-NEXT: @ %bb.3:
	; CHECK-NEXT: .LCPI3_0:
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	entry:			entry:
	br label %vector.body			br label %vector.body

	vector.body: ; preds = %vector.body, %entry			vector.body: ; preds = %vector.body, %entry
	%index = phi i32 [ 0, %entry ], [ %index.next, %vector.body ]			%index = phi i32 [ 0, %entry ], [ %index.next, %vector.body ]
	%0 = getelementptr inbounds half, half* %x, i32 %index			%0 = getelementptr inbounds half, half* %x, i32 %index
	%1 = bitcast half* %0 to <4 x half>*			%1 = bitcast half* %0 to <4 x half>*
	%wide.load = load <4 x half>, <4 x half>* %1, align 2			%wide.load = load <4 x half>, <4 x half>* %1, align 2
	Show All 11 Lines
	}			}

	define void @from_8(half* nocapture readonly %x, float* noalias nocapture %y) {			define void @from_8(half* nocapture readonly %x, float* noalias nocapture %y) {
	; CHECK-LABEL: from_8:			; CHECK-LABEL: from_8:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r7, lr}			; CHECK-NEXT: .save {r7, lr}
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: mov.w lr, #128			; CHECK-NEXT: mov.w lr, #128
	; CHECK-NEXT: adr r2, .LCPI4_0			; CHECK-NEXT: movw r2, #26214
	; CHECK-NEXT: vldrw.u32 q0, [r2]			; CHECK-NEXT: movt r2, #16390
	; CHECK-NEXT: .LBB4_1: @ %vector.body			; CHECK-NEXT: .LBB4_1: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrh.u32 q1, [r0, #8]			; CHECK-NEXT: vldrh.u32 q0, [r0], #16
				; CHECK-NEXT: vldrh.u32 q1, [r0, #-8]
				; CHECK-NEXT: vcvtb.f32.f16 q0, q0
				; CHECK-NEXT: vmul.f32 q0, q0, r2
	; CHECK-NEXT: vcvtb.f32.f16 q1, q1			; CHECK-NEXT: vcvtb.f32.f16 q1, q1
	; CHECK-NEXT: vmul.f32 q1, q1, q0			; CHECK-NEXT: vmul.f32 q1, q1, r2
	; CHECK-NEXT: vstrw.32 q1, [r1, #16]			; CHECK-NEXT: vstrw.32 q1, [r1, #16]
	; CHECK-NEXT: vldrh.u32 q1, [r0], #16			; CHECK-NEXT: vstrw.32 q0, [r1], #32
	; CHECK-NEXT: vcvtb.f32.f16 q1, q1
	; CHECK-NEXT: vmul.f32 q1, q1, q0
	; CHECK-NEXT: vstrw.32 q1, [r1], #32
	; CHECK-NEXT: le lr, .LBB4_1			; CHECK-NEXT: le lr, .LBB4_1
	; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup			; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup
	; CHECK-NEXT: pop {r7, pc}			; CHECK-NEXT: pop {r7, pc}
	; CHECK-NEXT: .p2align 4
	; CHECK-NEXT: @ %bb.3:
	; CHECK-NEXT: .LCPI4_0:
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	entry:			entry:
	br label %vector.body			br label %vector.body

	vector.body: ; preds = %vector.body, %entry			vector.body: ; preds = %vector.body, %entry
	%index = phi i32 [ 0, %entry ], [ %index.next, %vector.body ]			%index = phi i32 [ 0, %entry ], [ %index.next, %vector.body ]
	%0 = getelementptr inbounds half, half* %x, i32 %index			%0 = getelementptr inbounds half, half* %x, i32 %index
	%1 = bitcast half* %0 to <8 x half>*			%1 = bitcast half* %0 to <8 x half>*
	%wide.load = load <8 x half>, <8 x half>* %1, align 2			%wide.load = load <8 x half>, <8 x half>* %1, align 2
	Show All 11 Lines
	}			}

	define void @from_16(half* nocapture readonly %x, float* noalias nocapture %y) {			define void @from_16(half* nocapture readonly %x, float* noalias nocapture %y) {
	; CHECK-LABEL: from_16:			; CHECK-LABEL: from_16:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r7, lr}			; CHECK-NEXT: .save {r7, lr}
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: mov.w lr, #64			; CHECK-NEXT: mov.w lr, #64
	; CHECK-NEXT: adr r2, .LCPI5_0			; CHECK-NEXT: movw r2, #26214
	; CHECK-NEXT: vldrw.u32 q0, [r2]			; CHECK-NEXT: movt r2, #16390
	; CHECK-NEXT: .LBB5_1: @ %vector.body			; CHECK-NEXT: .LBB5_1: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrh.u32 q1, [r0, #24]			; CHECK-NEXT: vldrh.u32 q0, [r0], #32
	; CHECK-NEXT: vcvtb.f32.f16 q1, q1			; CHECK-NEXT: vldrh.u32 q1, [r0, #-24]
	; CHECK-NEXT: vmul.f32 q1, q1, q0			; CHECK-NEXT: vldrh.u32 q2, [r0, #-16]
	; CHECK-NEXT: vstrw.32 q1, [r1, #48]			; CHECK-NEXT: vldrh.u32 q3, [r0, #-8]
	; CHECK-NEXT: vldrh.u32 q1, [r0, #16]			; CHECK-NEXT: vcvtb.f32.f16 q0, q0
	; CHECK-NEXT: vcvtb.f32.f16 q1, q1
	; CHECK-NEXT: vmul.f32 q1, q1, q0
	; CHECK-NEXT: vstrw.32 q1, [r1, #32]
	; CHECK-NEXT: vldrh.u32 q1, [r0, #8]
	; CHECK-NEXT: vcvtb.f32.f16 q1, q1			; CHECK-NEXT: vcvtb.f32.f16 q1, q1
	; CHECK-NEXT: vmul.f32 q1, q1, q0			; CHECK-NEXT: vcvtb.f32.f16 q2, q2
				; CHECK-NEXT: vcvtb.f32.f16 q3, q3
				; CHECK-NEXT: vmul.f32 q2, q2, r2
				; CHECK-NEXT: vmul.f32 q3, q3, r2
				; CHECK-NEXT: vmul.f32 q1, q1, r2
				; CHECK-NEXT: vmul.f32 q0, q0, r2
				; CHECK-NEXT: vstrw.32 q3, [r1, #48]
				; CHECK-NEXT: vstrw.32 q2, [r1, #32]
	; CHECK-NEXT: vstrw.32 q1, [r1, #16]			; CHECK-NEXT: vstrw.32 q1, [r1, #16]
	; CHECK-NEXT: vldrh.u32 q1, [r0], #32			; CHECK-NEXT: vstrw.32 q0, [r1], #64
	; CHECK-NEXT: vcvtb.f32.f16 q1, q1
	; CHECK-NEXT: vmul.f32 q1, q1, q0
	; CHECK-NEXT: vstrw.32 q1, [r1], #64
	; CHECK-NEXT: le lr, .LBB5_1			; CHECK-NEXT: le lr, .LBB5_1
	; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup			; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup
	; CHECK-NEXT: pop {r7, pc}			; CHECK-NEXT: pop {r7, pc}
	; CHECK-NEXT: .p2align 4
	; CHECK-NEXT: @ %bb.3:
	; CHECK-NEXT: .LCPI5_0:
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	entry:			entry:
	br label %vector.body			br label %vector.body

	vector.body: ; preds = %vector.body, %entry			vector.body: ; preds = %vector.body, %entry
	%index = phi i32 [ 0, %entry ], [ %index.next, %vector.body ]			%index = phi i32 [ 0, %entry ], [ %index.next, %vector.body ]
	%0 = getelementptr inbounds half, half* %x, i32 %index			%0 = getelementptr inbounds half, half* %x, i32 %index
	%1 = bitcast half* %0 to <16 x half>*			%1 = bitcast half* %0 to <16 x half>*
	%wide.load = load <16 x half>, <16 x half>* %1, align 2			%wide.load = load <16 x half>, <16 x half>* %1, align 2
	Show All 11 Lines
	}			}

	define void @both_4(half* nocapture readonly %x, half* noalias nocapture %y) {			define void @both_4(half* nocapture readonly %x, half* noalias nocapture %y) {
	; CHECK-LABEL: both_4:			; CHECK-LABEL: both_4:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r7, lr}			; CHECK-NEXT: .save {r7, lr}
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: mov.w lr, #256			; CHECK-NEXT: mov.w lr, #256
	; CHECK-NEXT: adr r2, .LCPI6_0			; CHECK-NEXT: movw r2, #26214
	; CHECK-NEXT: vldrw.u32 q0, [r2]			; CHECK-NEXT: movt r2, #16390
	; CHECK-NEXT: .LBB6_1: @ %vector.body			; CHECK-NEXT: .LBB6_1: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrh.u32 q1, [r0], #8			; CHECK-NEXT: vldrh.u32 q0, [r0], #8
	; CHECK-NEXT: vcvtb.f32.f16 q1, q1			; CHECK-NEXT: vcvtb.f32.f16 q0, q0
	; CHECK-NEXT: vmul.f32 q1, q1, q0			; CHECK-NEXT: vmul.f32 q0, q0, r2
	; CHECK-NEXT: vcvtb.f16.f32 q1, q1			; CHECK-NEXT: vcvtb.f16.f32 q0, q0
	; CHECK-NEXT: vstrh.32 q1, [r1], #8			; CHECK-NEXT: vstrh.32 q0, [r1], #8
	; CHECK-NEXT: le lr, .LBB6_1			; CHECK-NEXT: le lr, .LBB6_1
	; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup			; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup
	; CHECK-NEXT: pop {r7, pc}			; CHECK-NEXT: pop {r7, pc}
	; CHECK-NEXT: .p2align 4
	; CHECK-NEXT: @ %bb.3:
	; CHECK-NEXT: .LCPI6_0:
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	entry:			entry:
	br label %vector.body			br label %vector.body

	vector.body: ; preds = %vector.body, %entry			vector.body: ; preds = %vector.body, %entry
	%index = phi i32 [ 0, %entry ], [ %index.next, %vector.body ]			%index = phi i32 [ 0, %entry ], [ %index.next, %vector.body ]
	%0 = getelementptr inbounds half, half* %x, i32 %index			%0 = getelementptr inbounds half, half* %x, i32 %index
	%1 = bitcast half* %0 to <4 x half>*			%1 = bitcast half* %0 to <4 x half>*
	%wide.load = load <4 x half>, <4 x half>* %1, align 2			%wide.load = load <4 x half>, <4 x half>* %1, align 2
	Show All 12 Lines
	}			}

	define void @both_8(half* nocapture readonly %x, half* noalias nocapture %y) {			define void @both_8(half* nocapture readonly %x, half* noalias nocapture %y) {
	; CHECK-LABEL: both_8:			; CHECK-LABEL: both_8:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r7, lr}			; CHECK-NEXT: .save {r7, lr}
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: mov.w lr, #128			; CHECK-NEXT: mov.w lr, #128
	; CHECK-NEXT: adr r2, .LCPI7_0			; CHECK-NEXT: movw r2, #26214
	; CHECK-NEXT: vldrw.u32 q0, [r2]			; CHECK-NEXT: movt r2, #16390
	; CHECK-NEXT: .LBB7_1: @ %vector.body			; CHECK-NEXT: .LBB7_1: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrh.u16 q1, [r0], #16			; CHECK-NEXT: vldrh.u16 q0, [r0], #16
	; CHECK-NEXT: vcvtb.f32.f16 q2, q1			; CHECK-NEXT: vcvtb.f32.f16 q1, q0
	; CHECK-NEXT: vcvtt.f32.f16 q1, q1			; CHECK-NEXT: vcvtt.f32.f16 q0, q0
	; CHECK-NEXT: vmul.f32 q2, q2, q0			; CHECK-NEXT: vmul.f32 q1, q1, r2
	; CHECK-NEXT: vmul.f32 q1, q1, q0			; CHECK-NEXT: vmul.f32 q0, q0, r2
	; CHECK-NEXT: vcvtb.f16.f32 q2, q2			; CHECK-NEXT: vcvtb.f16.f32 q1, q1
	; CHECK-NEXT: vcvtt.f16.f32 q2, q1			; CHECK-NEXT: vcvtt.f16.f32 q1, q0
	; CHECK-NEXT: vstrb.8 q2, [r1], #16			; CHECK-NEXT: vstrb.8 q1, [r1], #16
	; CHECK-NEXT: le lr, .LBB7_1			; CHECK-NEXT: le lr, .LBB7_1
	; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup			; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup
	; CHECK-NEXT: pop {r7, pc}			; CHECK-NEXT: pop {r7, pc}
	; CHECK-NEXT: .p2align 4
	; CHECK-NEXT: @ %bb.3:
	; CHECK-NEXT: .LCPI7_0:
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	entry:			entry:
	br label %vector.body			br label %vector.body

	vector.body: ; preds = %vector.body, %entry			vector.body: ; preds = %vector.body, %entry
	%index = phi i32 [ 0, %entry ], [ %index.next, %vector.body ]			%index = phi i32 [ 0, %entry ], [ %index.next, %vector.body ]
	%0 = getelementptr inbounds half, half* %x, i32 %index			%0 = getelementptr inbounds half, half* %x, i32 %index
	%1 = bitcast half* %0 to <8 x half>*			%1 = bitcast half* %0 to <8 x half>*
	%wide.load = load <8 x half>, <8 x half>* %1, align 2			%wide.load = load <8 x half>, <8 x half>* %1, align 2
	Show All 12 Lines
	}			}

	define void @both_16(half* nocapture readonly %x, half* noalias nocapture %y) {			define void @both_16(half* nocapture readonly %x, half* noalias nocapture %y) {
	; CHECK-LABEL: both_16:			; CHECK-LABEL: both_16:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r7, lr}			; CHECK-NEXT: .save {r7, lr}
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: mov.w lr, #64			; CHECK-NEXT: mov.w lr, #64
	; CHECK-NEXT: adr r2, .LCPI8_0			; CHECK-NEXT: movw r2, #26214
	; CHECK-NEXT: vldrw.u32 q0, [r2]			; CHECK-NEXT: movt r2, #16390
	; CHECK-NEXT: .LBB8_1: @ %vector.body			; CHECK-NEXT: .LBB8_1: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrh.u16 q1, [r0, #16]			; CHECK-NEXT: vldrh.u16 q0, [r0, #16]
	; CHECK-NEXT: vcvtb.f32.f16 q2, q1			; CHECK-NEXT: vcvtb.f32.f16 q1, q0
	; CHECK-NEXT: vcvtt.f32.f16 q1, q1			; CHECK-NEXT: vcvtt.f32.f16 q0, q0
	; CHECK-NEXT: vmul.f32 q2, q2, q0			; CHECK-NEXT: vmul.f32 q1, q1, r2
	; CHECK-NEXT: vmul.f32 q1, q1, q0			; CHECK-NEXT: vmul.f32 q0, q0, r2
	; CHECK-NEXT: vcvtb.f16.f32 q2, q2			; CHECK-NEXT: vcvtb.f16.f32 q1, q1
	; CHECK-NEXT: vcvtt.f16.f32 q2, q1			; CHECK-NEXT: vcvtt.f16.f32 q1, q0
	; CHECK-NEXT: vldrh.u16 q1, [r0], #32			; CHECK-NEXT: vldrh.u16 q0, [r0], #32
	; CHECK-NEXT: vstrh.16 q2, [r1, #16]			; CHECK-NEXT: vstrh.16 q1, [r1, #16]
	; CHECK-NEXT: vcvtb.f32.f16 q2, q1			; CHECK-NEXT: vcvtb.f32.f16 q1, q0
	; CHECK-NEXT: vcvtt.f32.f16 q1, q1			; CHECK-NEXT: vcvtt.f32.f16 q0, q0
	; CHECK-NEXT: vmul.f32 q2, q2, q0			; CHECK-NEXT: vmul.f32 q1, q1, r2
	; CHECK-NEXT: vmul.f32 q1, q1, q0			; CHECK-NEXT: vmul.f32 q0, q0, r2
	; CHECK-NEXT: vcvtb.f16.f32 q2, q2			; CHECK-NEXT: vcvtb.f16.f32 q1, q1
	; CHECK-NEXT: vcvtt.f16.f32 q2, q1			; CHECK-NEXT: vcvtt.f16.f32 q1, q0
	; CHECK-NEXT: vstrh.16 q2, [r1], #32			; CHECK-NEXT: vstrh.16 q1, [r1], #32
	; CHECK-NEXT: le lr, .LBB8_1			; CHECK-NEXT: le lr, .LBB8_1
	; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup			; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup
	; CHECK-NEXT: pop {r7, pc}			; CHECK-NEXT: pop {r7, pc}
	; CHECK-NEXT: .p2align 4
	; CHECK-NEXT: @ %bb.3:
	; CHECK-NEXT: .LCPI8_0:
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	entry:			entry:
	br label %vector.body			br label %vector.body

	vector.body: ; preds = %vector.body, %entry			vector.body: ; preds = %vector.body, %entry
	%index = phi i32 [ 0, %entry ], [ %index.next, %vector.body ]			%index = phi i32 [ 0, %entry ], [ %index.next, %vector.body ]
	%0 = getelementptr inbounds half, half* %x, i32 %index			%0 = getelementptr inbounds half, half* %x, i32 %index
	%1 = bitcast half* %0 to <16 x half>*			%1 = bitcast half* %0 to <16 x half>*
	%wide.load = load <16 x half>, <16 x half>* %1, align 2			%wide.load = load <16 x half>, <16 x half>* %1, align 2
	Show All 12 Lines
	}			}

	define void @both_8_I(half* nocapture readonly %x, half* noalias nocapture %y) {			define void @both_8_I(half* nocapture readonly %x, half* noalias nocapture %y) {
	; CHECK-LABEL: both_8_I:			; CHECK-LABEL: both_8_I:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r7, lr}			; CHECK-NEXT: .save {r7, lr}
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: mov.w lr, #128			; CHECK-NEXT: mov.w lr, #128
	; CHECK-NEXT: adr r2, .LCPI9_0			; CHECK-NEXT: movw r2, #26214
	; CHECK-NEXT: vldrw.u32 q0, [r2]			; CHECK-NEXT: movt r2, #16390
	; CHECK-NEXT: .LBB9_1: @ %vector.body			; CHECK-NEXT: .LBB9_1: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrh.u16 q1, [r0], #16			; CHECK-NEXT: vldrh.u16 q0, [r0], #16
	; CHECK-NEXT: vcvtb.f32.f16 q2, q1			; CHECK-NEXT: vcvtb.f32.f16 q1, q0
	; CHECK-NEXT: vcvtt.f32.f16 q1, q1			; CHECK-NEXT: vcvtt.f32.f16 q0, q0
	; CHECK-NEXT: vmul.f32 q2, q2, q0			; CHECK-NEXT: vmul.f32 q1, q1, r2
	; CHECK-NEXT: vmul.f32 q1, q1, q0			; CHECK-NEXT: vmul.f32 q0, q0, r2
	; CHECK-NEXT: vcvtb.f16.f32 q2, q2			; CHECK-NEXT: vcvtb.f16.f32 q1, q1
	; CHECK-NEXT: vcvtt.f16.f32 q2, q1			; CHECK-NEXT: vcvtt.f16.f32 q1, q0
	; CHECK-NEXT: vstrb.8 q2, [r1], #16			; CHECK-NEXT: vstrb.8 q1, [r1], #16
	; CHECK-NEXT: le lr, .LBB9_1			; CHECK-NEXT: le lr, .LBB9_1
	; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup			; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup
	; CHECK-NEXT: pop {r7, pc}			; CHECK-NEXT: pop {r7, pc}
	; CHECK-NEXT: .p2align 4
	; CHECK-NEXT: @ %bb.3:
	; CHECK-NEXT: .LCPI9_0:
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	entry:			entry:
	br label %vector.body			br label %vector.body

	vector.body: ; preds = %vector.body, %entry			vector.body: ; preds = %vector.body, %entry
	%index = phi i32 [ 0, %entry ], [ %index.next, %vector.body ]			%index = phi i32 [ 0, %entry ], [ %index.next, %vector.body ]
	%0 = getelementptr inbounds half, half* %x, i32 %index			%0 = getelementptr inbounds half, half* %x, i32 %index
	%1 = bitcast half* %0 to <8 x half>*			%1 = bitcast half* %0 to <8 x half>*
	%wide.load = load <8 x half>, <8 x half>* %1, align 2			%wide.load = load <8 x half>, <8 x half>* %1, align 2
	Show All 17 Lines
	}			}

	define void @both_16_I(half* nocapture readonly %x, half* noalias nocapture %y) {			define void @both_16_I(half* nocapture readonly %x, half* noalias nocapture %y) {
	; CHECK-LABEL: both_16_I:			; CHECK-LABEL: both_16_I:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r7, lr}			; CHECK-NEXT: .save {r7, lr}
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: mov.w lr, #128			; CHECK-NEXT: mov.w lr, #128
	; CHECK-NEXT: adr r2, .LCPI10_0			; CHECK-NEXT: movw r2, #26214
	; CHECK-NEXT: vldrw.u32 q0, [r2]			; CHECK-NEXT: movt r2, #16390
	; CHECK-NEXT: .LBB10_1: @ %vector.body			; CHECK-NEXT: .LBB10_1: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrh.u16 q1, [r0]			; CHECK-NEXT: vldrh.u16 q0, [r0]
	; CHECK-NEXT: vcvtb.f32.f16 q2, q1			; CHECK-NEXT: vcvtb.f32.f16 q1, q0
	; CHECK-NEXT: vcvtt.f32.f16 q1, q1			; CHECK-NEXT: vcvtt.f32.f16 q0, q0
	; CHECK-NEXT: vmul.f32 q2, q2, q0			; CHECK-NEXT: vmul.f32 q1, q1, r2
	; CHECK-NEXT: vmul.f32 q1, q1, q0			; CHECK-NEXT: vmul.f32 q0, q0, r2
	; CHECK-NEXT: vcvtb.f16.f32 q2, q2			; CHECK-NEXT: vcvtb.f16.f32 q1, q1
	; CHECK-NEXT: vcvtt.f16.f32 q2, q1			; CHECK-NEXT: vcvtt.f16.f32 q1, q0
	; CHECK-NEXT: vldrh.u16 q1, [r0, #16]!			; CHECK-NEXT: vldrh.u16 q0, [r0, #16]!
	; CHECK-NEXT: vstrh.16 q2, [r1]			; CHECK-NEXT: vstrh.16 q1, [r1]
	; CHECK-NEXT: vcvtb.f32.f16 q2, q1			; CHECK-NEXT: vcvtb.f32.f16 q1, q0
	; CHECK-NEXT: vcvtt.f32.f16 q1, q1			; CHECK-NEXT: vcvtt.f32.f16 q0, q0
	; CHECK-NEXT: vmul.f32 q2, q2, q0			; CHECK-NEXT: vmul.f32 q1, q1, r2
	; CHECK-NEXT: vmul.f32 q1, q1, q0			; CHECK-NEXT: vmul.f32 q0, q0, r2
	; CHECK-NEXT: vcvtb.f16.f32 q2, q2			; CHECK-NEXT: vcvtb.f16.f32 q1, q1
	; CHECK-NEXT: vcvtt.f16.f32 q2, q1			; CHECK-NEXT: vcvtt.f16.f32 q1, q0
	; CHECK-NEXT: vstrb.8 q2, [r1, #16]!			; CHECK-NEXT: vstrb.8 q1, [r1, #16]!
	; CHECK-NEXT: le lr, .LBB10_1			; CHECK-NEXT: le lr, .LBB10_1
	; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup			; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup
	; CHECK-NEXT: pop {r7, pc}			; CHECK-NEXT: pop {r7, pc}
	; CHECK-NEXT: .p2align 4
	; CHECK-NEXT: @ %bb.3:
	; CHECK-NEXT: .LCPI10_0:
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	; CHECK-NEXT: .long 0x40066666 @ float 2.0999999
	entry:			entry:
	br label %vector.body			br label %vector.body

	vector.body: ; preds = %vector.body, %entry			vector.body: ; preds = %vector.body, %entry
	%index = phi i32 [ 0, %entry ], [ %index.next, %vector.body ]			%index = phi i32 [ 0, %entry ], [ %index.next, %vector.body ]
	%0 = getelementptr inbounds half, half* %x, i32 %index			%0 = getelementptr inbounds half, half* %x, i32 %index
	%1 = bitcast half* %0 to <16 x half>*			%1 = bitcast half* %0 to <16 x half>*
	%wide.load = load <16 x half>, <16 x half>* %1, align 2			%wide.load = load <16 x half>, <16 x half>* %1, align 2
	Show All 18 Lines

llvm/test/CodeGen/Thumb2/mve-gather-scatter-tailpred.ll

Show First 20 Lines • Show All 215 Lines • ▼ Show 20 Lines	middle.block: ; preds = %vector.body
br label %end		br label %end
end: ; preds = %middle.block		end: ; preds = %middle.block
ret void		ret void
}		}

define void @justoffsets(i8* noalias nocapture readonly %r, i8* noalias nocapture %w, i32 %N) {		define void @justoffsets(i8* noalias nocapture readonly %r, i8* noalias nocapture %w, i32 %N) {
; CHECK-LABEL: justoffsets:		; CHECK-LABEL: justoffsets:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r4, r5, r6, r7, r8, lr}		; CHECK-NEXT: .save {r4, r5, r6, r7, r8, r9, lr}
; CHECK-NEXT: push.w {r4, r5, r6, r7, r8, lr}		; CHECK-NEXT: push.w {r4, r5, r6, r7, r8, r9, lr}
		; CHECK-NEXT: .pad #4
		; CHECK-NEXT: sub sp, #4
; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: .vsave {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: vpush {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: .pad #216		; CHECK-NEXT: .pad #32
; CHECK-NEXT: sub sp, #216		; CHECK-NEXT: sub sp, #32
; CHECK-NEXT: cmp r2, #0		; CHECK-NEXT: cmp r2, #0
; CHECK-NEXT: beq.w .LBB3_3		; CHECK-NEXT: beq .LBB3_3
; CHECK-NEXT: @ %bb.1: @ %vector.ph		; CHECK-NEXT: @ %bb.1: @ %vector.ph
		; CHECK-NEXT: adr r5, .LCPI3_2
		; CHECK-NEXT: vldrw.u32 q1, [r5]
		; CHECK-NEXT: adr r4, .LCPI3_1
		; CHECK-NEXT: movw r5, #50417
		; CHECK-NEXT: adr r3, .LCPI3_0
		; CHECK-NEXT: movw r7, #32769
		; CHECK-NEXT: vldrw.u32 q2, [r4]
		; CHECK-NEXT: movw r4, #47888
		; CHECK-NEXT: vldrw.u32 q3, [r3]
		; CHECK-NEXT: vstrw.32 q1, [sp, #16] @ 16-byte Spill
		; CHECK-NEXT: vmov.i32 q1, #0x7fff
; CHECK-NEXT: vmov.i32 q0, #0x8000		; CHECK-NEXT: vmov.i32 q0, #0x8000
; CHECK-NEXT: adr r7, .LCPI3_5		; CHECK-NEXT: movw r12, #7471
; CHECK-NEXT: vstrw.32 q0, [sp, #160] @ 16-byte Spill		; CHECK-NEXT: movw r9, #19595
; CHECK-NEXT: vldrw.u32 q0, [r7]		; CHECK-NEXT: movw r8, #38470
; CHECK-NEXT: adr r6, .LCPI3_4		; CHECK-NEXT: movt r4, #65535
; CHECK-NEXT: adr r5, .LCPI3_3		; CHECK-NEXT: movt r5, #65535
; CHECK-NEXT: vstrw.32 q0, [sp, #176] @ 16-byte Spill		; CHECK-NEXT: movw r6, #19485
; CHECK-NEXT: vldrw.u32 q0, [r6]		; CHECK-NEXT: movt r7, #65535
; CHECK-NEXT: adr.w r8, .LCPI3_2		; CHECK-NEXT: movw r3, #13282
; CHECK-NEXT: vstrw.32 q0, [sp, #144] @ 16-byte Spill		; CHECK-NEXT: vstrw.32 q1, [sp] @ 16-byte Spill
; CHECK-NEXT: vldrw.u32 q0, [r5]
; CHECK-NEXT: adr.w lr, .LCPI3_1
; CHECK-NEXT: vstrw.32 q0, [sp, #128] @ 16-byte Spill
; CHECK-NEXT: vldrw.u32 q0, [r8]
; CHECK-NEXT: vstrw.32 q0, [sp, #112] @ 16-byte Spill
; CHECK-NEXT: vldrw.u32 q0, [lr]
; CHECK-NEXT: adr.w r12, .LCPI3_0
; CHECK-NEXT: vstrw.32 q0, [sp, #96] @ 16-byte Spill
; CHECK-NEXT: vldrw.u32 q0, [r12]
; CHECK-NEXT: adr r7, .LCPI3_7
; CHECK-NEXT: adr r5, .LCPI3_10
; CHECK-NEXT: vstrw.32 q0, [sp, #80] @ 16-byte Spill
; CHECK-NEXT: vmov.i32 q0, #0x7fff
; CHECK-NEXT: vstrw.32 q0, [sp, #64] @ 16-byte Spill
; CHECK-NEXT: vldrw.u32 q0, [r7]
; CHECK-NEXT: adr r6, .LCPI3_9
; CHECK-NEXT: adr r4, .LCPI3_6
; CHECK-NEXT: vstrw.32 q0, [sp, #48] @ 16-byte Spill
; CHECK-NEXT: vldrw.u32 q0, [r5]
; CHECK-NEXT: adr r7, .LCPI3_8
; CHECK-NEXT: vldrw.u32 q1, [r4]
; CHECK-NEXT: vstrw.32 q0, [sp, #32] @ 16-byte Spill
; CHECK-NEXT: vldrw.u32 q0, [r6]
; CHECK-NEXT: vstrw.32 q1, [sp, #192] @ 16-byte Spill
; CHECK-NEXT: vstrw.32 q0, [sp, #16] @ 16-byte Spill
; CHECK-NEXT: vldrw.u32 q0, [r7]
; CHECK-NEXT: vstrw.32 q0, [sp] @ 16-byte Spill
; CHECK-NEXT: dlstp.32 lr, r2		; CHECK-NEXT: dlstp.32 lr, r2
; CHECK-NEXT: .LBB3_2: @ %vector.body		; CHECK-NEXT: .LBB3_2: @ %vector.body
; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1		; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
; CHECK-NEXT: vldrw.u32 q0, [sp, #192] @ 16-byte Reload		; CHECK-NEXT: vldrw.u32 q1, [sp, #16] @ 16-byte Reload
; CHECK-NEXT: vldrb.u32 q4, [r0, q0]		; CHECK-NEXT: vldrb.u32 q7, [r0, q1]
; CHECK-NEXT: vldrw.u32 q0, [sp, #176] @ 16-byte Reload		; CHECK-NEXT: vldrb.u32 q5, [r0, q2]
; CHECK-NEXT: vldrb.u32 q7, [r0, q0]		; CHECK-NEXT: vmul.i32 q4, q5, r8
; CHECK-NEXT: vldrw.u32 q0, [sp, #144] @ 16-byte Reload		; CHECK-NEXT: vmla.u32 q4, q7, r9
; CHECK-NEXT: vldrw.u32 q5, [sp, #112] @ 16-byte Reload		; CHECK-NEXT: vldrb.u32 q6, [r0, q3]
; CHECK-NEXT: vmul.i32 q6, q7, q0		; CHECK-NEXT: vmla.u32 q4, q6, r12
; CHECK-NEXT: vldrw.u32 q0, [sp, #128] @ 16-byte Reload
; CHECK-NEXT: vldrb.u32 q1, [r0, q5]
; CHECK-NEXT: vldrw.u32 q2, [sp, #80] @ 16-byte Reload
; CHECK-NEXT: vmul.i32 q3, q4, q0
; CHECK-NEXT: vldrw.u32 q0, [sp, #96] @ 16-byte Reload
; CHECK-NEXT: vadd.i32 q3, q3, q6
; CHECK-NEXT: adds r0, #12		; CHECK-NEXT: adds r0, #12
; CHECK-NEXT: vmul.i32 q6, q1, q0		; CHECK-NEXT: vadd.i32 q4, q4, q0
; CHECK-NEXT: vldrw.u32 q0, [sp, #160] @ 16-byte Reload		; CHECK-NEXT: vshr.u32 q4, q4, #16
; CHECK-NEXT: vadd.i32 q3, q3, q6		; CHECK-NEXT: vstrb.32 q4, [r1, q1]
; CHECK-NEXT: vadd.i32 q3, q3, q0		; CHECK-NEXT: vldrw.u32 q1, [sp] @ 16-byte Reload
; CHECK-NEXT: vshr.u32 q6, q3, #16		; CHECK-NEXT: vmul.i32 q4, q7, q1
; CHECK-NEXT: vmul.i32 q3, q7, q2		; CHECK-NEXT: vmul.i32 q1, q5, r7
; CHECK-NEXT: vldrw.u32 q2, [sp, #64] @ 16-byte Reload		; CHECK-NEXT: vmla.u32 q1, q7, r3
; CHECK-NEXT: vmul.i32 q2, q4, q2		; CHECK-NEXT: vmla.u32 q4, q5, r5
; CHECK-NEXT: vadd.i32 q2, q2, q3		; CHECK-NEXT: vmla.u32 q1, q6, r6
; CHECK-NEXT: vldrw.u32 q3, [sp, #48] @ 16-byte Reload		; CHECK-NEXT: vmla.u32 q4, q6, r4
; CHECK-NEXT: vmul.i32 q3, q1, q3
; CHECK-NEXT: vadd.i32 q2, q2, q3
; CHECK-NEXT: vldrw.u32 q3, [sp, #32] @ 16-byte Reload
; CHECK-NEXT: vadd.i32 q2, q2, q0
; CHECK-NEXT: vmul.i32 q3, q7, q3
; CHECK-NEXT: vldrw.u32 q7, [sp, #16] @ 16-byte Reload
; CHECK-NEXT: vshr.u32 q2, q2, #16
; CHECK-NEXT: vmul.i32 q4, q4, q7
; CHECK-NEXT: vadd.i32 q3, q4, q3
; CHECK-NEXT: vldrw.u32 q4, [sp] @ 16-byte Reload
; CHECK-NEXT: vmul.i32 q1, q1, q4
; CHECK-NEXT: vadd.i32 q1, q3, q1
; CHECK-NEXT: vadd.i32 q1, q1, q0		; CHECK-NEXT: vadd.i32 q1, q1, q0
; CHECK-NEXT: vldrw.u32 q0, [sp, #192] @ 16-byte Reload		; CHECK-NEXT: vadd.i32 q4, q4, q0
; CHECK-NEXT: vshr.u32 q1, q1, #16		; CHECK-NEXT: vshr.u32 q1, q1, #16
; CHECK-NEXT: vstrb.32 q1, [r1, q0]		; CHECK-NEXT: vshr.u32 q4, q4, #16
; CHECK-NEXT: vldrw.u32 q0, [sp, #176] @ 16-byte Reload		; CHECK-NEXT: vstrb.32 q4, [r1, q2]
; CHECK-NEXT: vstrb.32 q2, [r1, q0]		; CHECK-NEXT: vstrb.32 q1, [r1, q3]
; CHECK-NEXT: vstrb.32 q6, [r1, q5]
; CHECK-NEXT: adds r1, #12		; CHECK-NEXT: adds r1, #12
; CHECK-NEXT: letp lr, .LBB3_2		; CHECK-NEXT: letp lr, .LBB3_2
; CHECK-NEXT: .LBB3_3: @ %for.cond.cleanup		; CHECK-NEXT: .LBB3_3: @ %for.cond.cleanup
; CHECK-NEXT: add sp, #216		; CHECK-NEXT: add sp, #32
; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}		; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}
; CHECK-NEXT: pop.w {r4, r5, r6, r7, r8, pc}		; CHECK-NEXT: add sp, #4
		; CHECK-NEXT: pop.w {r4, r5, r6, r7, r8, r9, pc}
; CHECK-NEXT: .p2align 4		; CHECK-NEXT: .p2align 4
; CHECK-NEXT: @ %bb.4:		; CHECK-NEXT: @ %bb.4:
; CHECK-NEXT: .LCPI3_0:		; CHECK-NEXT: .LCPI3_0:
; CHECK-NEXT: .long 4294952177 @ 0xffffc4f1
; CHECK-NEXT: .long 4294952177 @ 0xffffc4f1
; CHECK-NEXT: .long 4294952177 @ 0xffffc4f1
; CHECK-NEXT: .long 4294952177 @ 0xffffc4f1
; CHECK-NEXT: .LCPI3_1:
; CHECK-NEXT: .long 19485 @ 0x4c1d
; CHECK-NEXT: .long 19485 @ 0x4c1d
; CHECK-NEXT: .long 19485 @ 0x4c1d
; CHECK-NEXT: .long 19485 @ 0x4c1d
; CHECK-NEXT: .LCPI3_2:
; CHECK-NEXT: .long 2 @ 0x2		; CHECK-NEXT: .long 2 @ 0x2
; CHECK-NEXT: .long 5 @ 0x5		; CHECK-NEXT: .long 5 @ 0x5
; CHECK-NEXT: .long 8 @ 0x8		; CHECK-NEXT: .long 8 @ 0x8
; CHECK-NEXT: .long 11 @ 0xb		; CHECK-NEXT: .long 11 @ 0xb
; CHECK-NEXT: .LCPI3_3:		; CHECK-NEXT: .LCPI3_1:
; CHECK-NEXT: .long 13282 @ 0x33e2
; CHECK-NEXT: .long 13282 @ 0x33e2
; CHECK-NEXT: .long 13282 @ 0x33e2
; CHECK-NEXT: .long 13282 @ 0x33e2
; CHECK-NEXT: .LCPI3_4:
; CHECK-NEXT: .long 4294934529 @ 0xffff8001
; CHECK-NEXT: .long 4294934529 @ 0xffff8001
; CHECK-NEXT: .long 4294934529 @ 0xffff8001
; CHECK-NEXT: .long 4294934529 @ 0xffff8001
; CHECK-NEXT: .LCPI3_5:
; CHECK-NEXT: .long 1 @ 0x1		; CHECK-NEXT: .long 1 @ 0x1
; CHECK-NEXT: .long 4 @ 0x4		; CHECK-NEXT: .long 4 @ 0x4
; CHECK-NEXT: .long 7 @ 0x7		; CHECK-NEXT: .long 7 @ 0x7
; CHECK-NEXT: .long 10 @ 0xa		; CHECK-NEXT: .long 10 @ 0xa
; CHECK-NEXT: .LCPI3_6:		; CHECK-NEXT: .LCPI3_2:
; CHECK-NEXT: .long 0 @ 0x0		; CHECK-NEXT: .long 0 @ 0x0
; CHECK-NEXT: .long 3 @ 0x3		; CHECK-NEXT: .long 3 @ 0x3
; CHECK-NEXT: .long 6 @ 0x6		; CHECK-NEXT: .long 6 @ 0x6
; CHECK-NEXT: .long 9 @ 0x9		; CHECK-NEXT: .long 9 @ 0x9
; CHECK-NEXT: .LCPI3_7:
; CHECK-NEXT: .long 4294949648 @ 0xffffbb10
; CHECK-NEXT: .long 4294949648 @ 0xffffbb10
; CHECK-NEXT: .long 4294949648 @ 0xffffbb10
; CHECK-NEXT: .long 4294949648 @ 0xffffbb10
; CHECK-NEXT: .LCPI3_8:
; CHECK-NEXT: .long 7471 @ 0x1d2f
; CHECK-NEXT: .long 7471 @ 0x1d2f
; CHECK-NEXT: .long 7471 @ 0x1d2f
; CHECK-NEXT: .long 7471 @ 0x1d2f
; CHECK-NEXT: .LCPI3_9:
; CHECK-NEXT: .long 19595 @ 0x4c8b
; CHECK-NEXT: .long 19595 @ 0x4c8b
; CHECK-NEXT: .long 19595 @ 0x4c8b
; CHECK-NEXT: .long 19595 @ 0x4c8b
; CHECK-NEXT: .LCPI3_10:
; CHECK-NEXT: .long 38470 @ 0x9646
; CHECK-NEXT: .long 38470 @ 0x9646
; CHECK-NEXT: .long 38470 @ 0x9646
; CHECK-NEXT: .long 38470 @ 0x9646
entry:		entry:
%cmp47.not = icmp eq i32 %N, 0		%cmp47.not = icmp eq i32 %N, 0
br i1 %cmp47.not, label %for.cond.cleanup, label %vector.ph		br i1 %cmp47.not, label %for.cond.cleanup, label %vector.ph

vector.ph: ; preds = %vector.memcheck		vector.ph: ; preds = %vector.memcheck
%n.rnd.up = add i32 %N, 3		%n.rnd.up = add i32 %N, 3
%n.vec = and i32 %n.rnd.up, -4		%n.vec = and i32 %n.rnd.up, -4
br label %vector.body		br label %vector.body
▲ Show 20 Lines • Show All 62 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-pred-vctpvpsel.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp %s -verify-machineinstrs -o - \| FileCheck %s			; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp %s -verify-machineinstrs -o - \| FileCheck %s

	define void @arm_min_helium_f32(float* %pSrc, i32 %blockSize, float* nocapture %pResult, i32* nocapture %pIndex) {			define void @arm_min_helium_f32(float* %pSrc, i32 %blockSize, float* nocapture %pResult, i32* nocapture %pIndex) {
	; CHECK-LABEL: arm_min_helium_f32:			; CHECK-LABEL: arm_min_helium_f32:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r4, r6, r7, lr}			; CHECK-NEXT: .save {r4, lr}
	; CHECK-NEXT: push {r4, r6, r7, lr}			; CHECK-NEXT: push {r4, lr}
	; CHECK-NEXT: .vsave {d8, d9}			; CHECK-NEXT: .vsave {d8, d9}
	; CHECK-NEXT: vpush {d8, d9}			; CHECK-NEXT: vpush {d8, d9}
	; CHECK-NEXT: movs r6, #0			; CHECK-NEXT: movs r4, #0
	; CHECK-NEXT: vidup.u32 q2, r6, #1			; CHECK-NEXT: vidup.u32 q2, r4, #1
	; CHECK-NEXT: adr r4, .LCPI0_0			; CHECK-NEXT: movw r4, #54437
	; CHECK-NEXT: vldrw.u32 q1, [r4]			; CHECK-NEXT: movt r4, #21352
				; CHECK-NEXT: vdup.32 q1, r4
	; CHECK-NEXT: vmov.i32 q0, #0x0			; CHECK-NEXT: vmov.i32 q0, #0x0
	; CHECK-NEXT: vmov.i32 q3, #0x4			; CHECK-NEXT: vmov.i32 q3, #0x4
	; CHECK-NEXT: dlstp.32 lr, r1			; CHECK-NEXT: dlstp.32 lr, r1
	; CHECK-NEXT: .LBB0_1: @ %do.body			; CHECK-NEXT: .LBB0_1: @ %do.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrw.u32 q4, [r0], #16			; CHECK-NEXT: vldrw.u32 q4, [r0], #16
	; CHECK-NEXT: vptt.f32 ge, q1, q4			; CHECK-NEXT: vptt.f32 ge, q1, q4
	; CHECK-NEXT: vmovt q1, q4			; CHECK-NEXT: vmovt q1, q4
	; CHECK-NEXT: vmovt q0, q2			; CHECK-NEXT: vmovt q0, q2
	; CHECK-NEXT: vadd.i32 q2, q2, q3			; CHECK-NEXT: vadd.i32 q2, q2, q3
	; CHECK-NEXT: letp lr, .LBB0_1			; CHECK-NEXT: letp lr, .LBB0_1
	; CHECK-NEXT: @ %bb.2: @ %do.end			; CHECK-NEXT: @ %bb.2: @ %do.end
	; CHECK-NEXT: vldr s8, .LCPI0_1			; CHECK-NEXT: vldr s8, .LCPI0_0
	; CHECK-NEXT: vdup.32 q3, r1			; CHECK-NEXT: vdup.32 q3, r1
	; CHECK-NEXT: vmov r0, s8			; CHECK-NEXT: vmov r0, s8
	; CHECK-NEXT: vminnmv.f32 r0, q1			; CHECK-NEXT: vminnmv.f32 r0, q1
	; CHECK-NEXT: vcmp.f32 le, q1, r0			; CHECK-NEXT: vcmp.f32 le, q1, r0
	; CHECK-NEXT: vmov s8, r0			; CHECK-NEXT: vmov s8, r0
	; CHECK-NEXT: vpsel q0, q0, q3			; CHECK-NEXT: vpsel q0, q0, q3
	; CHECK-NEXT: vminv.u32 r1, q0			; CHECK-NEXT: vminv.u32 r1, q0
	; CHECK-NEXT: str r1, [r3]			; CHECK-NEXT: str r1, [r3]
	; CHECK-NEXT: vstr s8, [r2]			; CHECK-NEXT: vstr s8, [r2]
	; CHECK-NEXT: vpop {d8, d9}			; CHECK-NEXT: vpop {d8, d9}
	; CHECK-NEXT: pop {r4, r6, r7, pc}			; CHECK-NEXT: pop {r4, pc}
	; CHECK-NEXT: .p2align 4			; CHECK-NEXT: .p2align 2
	; CHECK-NEXT: @ %bb.3:			; CHECK-NEXT: @ %bb.3:
	; CHECK-NEXT: .LCPI0_0:			; CHECK-NEXT: .LCPI0_0:
	; CHECK-NEXT: .long 0x5368d4a5 @ float 9.99999995E+11			; CHECK-NEXT: .long 0x5368d4a5 @ float 9.99999995E+11
	; CHECK-NEXT: .long 0x5368d4a5 @ float 9.99999995E+11
	; CHECK-NEXT: .long 0x5368d4a5 @ float 9.99999995E+11
	; CHECK-NEXT: .long 0x5368d4a5 @ float 9.99999995E+11
	; CHECK-NEXT: .LCPI0_1:
	; CHECK-NEXT: .long 0x5368d4a5 @ float 9.99999995E+11
	entry:			entry:
	%0 = tail call { <4 x i32>, i32 } @llvm.arm.mve.vidup.v4i32(i32 0, i32 1)			%0 = tail call { <4 x i32>, i32 } @llvm.arm.mve.vidup.v4i32(i32 0, i32 1)
	%1 = extractvalue { <4 x i32>, i32 } %0, 0			%1 = extractvalue { <4 x i32>, i32 } %0, 0
	br label %do.body			br label %do.body

	do.body: ; preds = %do.body, %entry			do.body: ; preds = %do.body, %entry
	%curExtremValVec.0 = phi <4 x float> [ <float 0x426D1A94A0000000, float 0x426D1A94A0000000, float 0x426D1A94A0000000, float 0x426D1A94A0000000>, %entry ], [ %8, %do.body ]			%curExtremValVec.0 = phi <4 x float> [ <float 0x426D1A94A0000000, float 0x426D1A94A0000000, float 0x426D1A94A0000000, float 0x426D1A94A0000000>, %entry ], [ %8, %do.body ]
	%indexVec.0 = phi <4 x i32> [ %1, %entry ], [ %11, %do.body ]			%indexVec.0 = phi <4 x i32> [ %1, %entry ], [ %11, %do.body ]
	Show All 37 Lines

llvm/test/CodeGen/Thumb2/mve-shifts.ll

Show First 20 Lines • Show All 464 Lines • ▼ Show 20 Lines	entry:
%s = shufflevector <2 x i64> %i, <2 x i64> undef, <2 x i32> zeroinitializer		%s = shufflevector <2 x i64> %i, <2 x i64> undef, <2 x i32> zeroinitializer
%0 = ashr <2 x i64> %src1, %s		%0 = ashr <2 x i64> %src1, %s
ret <2 x i64> %0		ret <2 x i64> %0
}		}

define arm_aapcs_vfpcc <16 x i8> @shl_qiv_int8_t(<16 x i8> %src1) {		define arm_aapcs_vfpcc <16 x i8> @shl_qiv_int8_t(<16 x i8> %src1) {
; CHECK-LABEL: shl_qiv_int8_t:		; CHECK-LABEL: shl_qiv_int8_t:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: adr r0, .LCPI36_0		; CHECK-NEXT: movw r0, #513
; CHECK-NEXT: vldrw.u32 q1, [r0]		; CHECK-NEXT: movt r0, #1027
		; CHECK-NEXT: vdup.32 q1, r0
; CHECK-NEXT: vshl.u8 q0, q0, q1		; CHECK-NEXT: vshl.u8 q0, q0, q1
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
; CHECK-NEXT: .p2align 4
; CHECK-NEXT: @ %bb.1:
; CHECK-NEXT: .LCPI36_0:
; CHECK-NEXT: .byte 1 @ 0x1
; CHECK-NEXT: .byte 2 @ 0x2
; CHECK-NEXT: .byte 3 @ 0x3
; CHECK-NEXT: .byte 4 @ 0x4
; CHECK-NEXT: .byte 1 @ 0x1
; CHECK-NEXT: .byte 2 @ 0x2
; CHECK-NEXT: .byte 3 @ 0x3
; CHECK-NEXT: .byte 4 @ 0x4
; CHECK-NEXT: .byte 1 @ 0x1
; CHECK-NEXT: .byte 2 @ 0x2
; CHECK-NEXT: .byte 3 @ 0x3
; CHECK-NEXT: .byte 4 @ 0x4
; CHECK-NEXT: .byte 1 @ 0x1
; CHECK-NEXT: .byte 2 @ 0x2
; CHECK-NEXT: .byte 3 @ 0x3
; CHECK-NEXT: .byte 4 @ 0x4
entry:		entry:
%0 = shl <16 x i8> %src1, <i8 1, i8 2, i8 3, i8 4, i8 1, i8 2, i8 3, i8 4, i8 1, i8 2, i8 3, i8 4, i8 1, i8 2, i8 3, i8 4>		%0 = shl <16 x i8> %src1, <i8 1, i8 2, i8 3, i8 4, i8 1, i8 2, i8 3, i8 4, i8 1, i8 2, i8 3, i8 4, i8 1, i8 2, i8 3, i8 4>
ret <16 x i8> %0		ret <16 x i8> %0
}		}

define arm_aapcs_vfpcc <8 x i16> @shl_qiv_int16_t(<8 x i16> %src1) {		define arm_aapcs_vfpcc <8 x i16> @shl_qiv_int16_t(<8 x i16> %src1) {
; CHECK-LABEL: shl_qiv_int16_t:		; CHECK-LABEL: shl_qiv_int16_t:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
Show All 38 Lines

llvm/test/CodeGen/Thumb2/mve-vmovimm.ll

	Show All 15 Lines
	; CHECK-LABEL: mov_int8_m1:			; CHECK-LABEL: mov_int8_m1:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: vmov.i8 q0, #0xff			; CHECK-NEXT: vmov.i8 q0, #0xff
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	ret <16 x i8> <i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1>			ret <16 x i8> <i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1, i8 -1>
	}			}

				; This has 0x01020304 or 0x04030201 vdup.32'd to q reg depending on endianness.
				; The big endian is different as there is an implicit vrev64.8 out of the
				; function, which gets constant folded away.
	define arm_aapcs_vfpcc <16 x i8> @mov_int8_1234() {			define arm_aapcs_vfpcc <16 x i8> @mov_int8_1234() {
	; CHECKLE-LABEL: mov_int8_1234:			; CHECKLE-LABEL: mov_int8_1234:
	; CHECKLE: @ %bb.0: @ %entry			; CHECKLE: @ %bb.0: @ %entry
	; CHECKLE-NEXT: adr r0, .LCPI2_0			; CHECKLE-NEXT: movw r0, #513
	; CHECKLE-NEXT: vldrw.u32 q0, [r0]			; CHECKLE-NEXT: movt r0, #1027
				; CHECKLE-NEXT: vdup.32 q0, r0
	; CHECKLE-NEXT: bx lr			; CHECKLE-NEXT: bx lr
	; CHECKLE-NEXT: .p2align 4
	; CHECKLE-NEXT: @ %bb.1:
	; CHECKLE-NEXT: .LCPI2_0:
	; CHECKLE-NEXT: .long 67305985 @ double 2.4380727978175888E-289
	; CHECKLE-NEXT: .long 67305985
	; CHECKLE-NEXT: .long 67305985 @ double 2.4380727978175888E-289
	; CHECKLE-NEXT: .long 67305985
	;			;
	; CHECKBE-LABEL: mov_int8_1234:			; CHECKBE-LABEL: mov_int8_1234:
	; CHECKBE: @ %bb.0: @ %entry			; CHECKBE: @ %bb.0: @ %entry
	; CHECKBE-NEXT: adr r0, .LCPI2_0			; CHECKBE-NEXT: movw r0, #772
	; CHECKBE-NEXT: vldrb.u8 q1, [r0]			; CHECKBE-NEXT: movt r0, #258
	; CHECKBE-NEXT: vrev64.8 q0, q1			; CHECKBE-NEXT: vdup.32 q0, r0
				simon_tathamUnsubmitted Not Done Reply Inline Actions I think this output is right, but it confused me completely for a while and I had to try it in emulation to convince myself! In the middle of a larger function, I think that if you wanted to make this 1,2,3,4,1,2,3,4,... vector and then immediately apply another v16i8 operation to it, you would vdup the same 32-bit constant 0x04030201 regardless of endianness, because the logical 'lane 0' of the vector always occupies the low-order bits. And the reason why the output is different between LE and BE in this context is that the vdup is immediately followed by a function return, which in BE requires an extra vrev due to the vector register PCS. And that function-return vrev has been folded into the constant, which is why it's the other way round here. So, I think this is the right output, but it might benefit from a comment in case the next reader gets as confused as I did! simon_tatham: I think this output is right, but it confused me completely for a while and I had to try it in…
	; CHECKBE-NEXT: bx lr			; CHECKBE-NEXT: bx lr
	; CHECKBE-NEXT: .p2align 4
	; CHECKBE-NEXT: @ %bb.1:
	; CHECKBE-NEXT: .LCPI2_0:
	; CHECKBE-NEXT: .long 16909060 @ double 8.2078802900595913E-304
	; CHECKBE-NEXT: .long 16909060
	; CHECKBE-NEXT: .long 16909060 @ double 8.2078802900595913E-304
	; CHECKBE-NEXT: .long 16909060
	entry:			entry:
	ret <16 x i8> <i8 1, i8 2, i8 3, i8 4, i8 1, i8 2, i8 3, i8 4, i8 1, i8 2, i8 3, i8 4, i8 1, i8 2, i8 3, i8 4>			ret <16 x i8> <i8 1, i8 2, i8 3, i8 4, i8 1, i8 2, i8 3, i8 4, i8 1, i8 2, i8 3, i8 4, i8 1, i8 2, i8 3, i8 4>
	}			}

	define arm_aapcs_vfpcc <8 x i16> @mov_int16_1() {			define arm_aapcs_vfpcc <8 x i16> @mov_int16_1() {
	; CHECK-LABEL: mov_int16_1:			; CHECK-LABEL: mov_int16_1:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: vmov.i16 q0, #0x1			; CHECK-NEXT: vmov.i16 q0, #0x1
	Show All 25 Lines
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: vmov.i8 q0, #0x1			; CHECK-NEXT: vmov.i8 q0, #0x1
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	ret <8 x i16> <i16 257, i16 257, i16 257, i16 257, i16 257, i16 257, i16 257, i16 257>			ret <8 x i16> <i16 257, i16 257, i16 257, i16 257, i16 257, i16 257, i16 257, i16 257>
	}			}

	define arm_aapcs_vfpcc <8 x i16> @mov_int16_258() {			define arm_aapcs_vfpcc <8 x i16> @mov_int16_258() {
	; CHECKLE-LABEL: mov_int16_258:			; CHECK-LABEL: mov_int16_258:
	; CHECKLE: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECKLE-NEXT: adr r0, .LCPI7_0			; CHECK-NEXT: mov.w r0, #258
	; CHECKLE-NEXT: vldrw.u32 q0, [r0]			; CHECK-NEXT: vdup.16 q0, r0
	; CHECKLE-NEXT: bx lr			; CHECK-NEXT: bx lr
	; CHECKLE-NEXT: .p2align 4
	; CHECKLE-NEXT: @ %bb.1:
	; CHECKLE-NEXT: .LCPI7_0:
	; CHECKLE-NEXT: .long 16908546 @ double 8.204306265173532E-304
	; CHECKLE-NEXT: .long 16908546
	; CHECKLE-NEXT: .long 16908546 @ double 8.204306265173532E-304
	; CHECKLE-NEXT: .long 16908546
	;
	; CHECKBE-LABEL: mov_int16_258:
	; CHECKBE: @ %bb.0: @ %entry
	; CHECKBE-NEXT: adr r0, .LCPI7_0
	; CHECKBE-NEXT: vldrb.u8 q1, [r0]
	; CHECKBE-NEXT: vrev64.8 q0, q1
	; CHECKBE-NEXT: bx lr
	; CHECKBE-NEXT: .p2align 4
	; CHECKBE-NEXT: @ %bb.1:
	; CHECKBE-NEXT: .LCPI7_0:
	; CHECKBE-NEXT: .long 16908546 @ double 8.204306265173532E-304
	; CHECKBE-NEXT: .long 16908546
	; CHECKBE-NEXT: .long 16908546 @ double 8.204306265173532E-304
	; CHECKBE-NEXT: .long 16908546
	entry:			entry:
	ret <8 x i16> <i16 258, i16 258, i16 258, i16 258, i16 258, i16 258, i16 258, i16 258>			ret <8 x i16> <i16 258, i16 258, i16 258, i16 258, i16 258, i16 258, i16 258, i16 258>
	}			}

	define arm_aapcs_vfpcc <4 x i32> @mov_int32_1() {			define arm_aapcs_vfpcc <4 x i32> @mov_int32_1() {
	; CHECK-LABEL: mov_int32_1:			; CHECK-LABEL: mov_int32_1:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: vmov.i32 q0, #0x1			; CHECK-NEXT: vmov.i32 q0, #0x1
	Show All 25 Lines
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: vmov.i32 q0, #0x1000000			; CHECK-NEXT: vmov.i32 q0, #0x1000000
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	ret <4 x i32> <i32 16777216, i32 16777216, i32 16777216, i32 16777216>			ret <4 x i32> <i32 16777216, i32 16777216, i32 16777216, i32 16777216>
	}			}

	define arm_aapcs_vfpcc <4 x i32> @mov_int32_16777217() {			define arm_aapcs_vfpcc <4 x i32> @mov_int32_16777217() {
	; CHECKLE-LABEL: mov_int32_16777217:			; CHECK-LABEL: mov_int32_16777217:
	; CHECKLE: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECKLE-NEXT: adr r0, .LCPI12_0			; CHECK-NEXT: movs r0, #1
	; CHECKLE-NEXT: vldrw.u32 q0, [r0]			; CHECK-NEXT: movt r0, #256
	; CHECKLE-NEXT: bx lr			; CHECK-NEXT: vdup.32 q0, r0
	; CHECKLE-NEXT: .p2align 4			; CHECK-NEXT: bx lr
	; CHECKLE-NEXT: @ %bb.1:
	; CHECKLE-NEXT: .LCPI12_0:
	; CHECKLE-NEXT: .long 16777217 @ double 7.2911290000737531E-304
	; CHECKLE-NEXT: .long 16777217
	; CHECKLE-NEXT: .long 16777217 @ double 7.2911290000737531E-304
	; CHECKLE-NEXT: .long 16777217
	;
	; CHECKBE-LABEL: mov_int32_16777217:
	; CHECKBE: @ %bb.0: @ %entry
	; CHECKBE-NEXT: adr r0, .LCPI12_0
	; CHECKBE-NEXT: vldrb.u8 q1, [r0]
	; CHECKBE-NEXT: vrev64.8 q0, q1
	; CHECKBE-NEXT: bx lr
	; CHECKBE-NEXT: .p2align 4
	; CHECKBE-NEXT: @ %bb.1:
	; CHECKBE-NEXT: .LCPI12_0:
	; CHECKBE-NEXT: .long 16777217 @ double 7.2911290000737531E-304
	; CHECKBE-NEXT: .long 16777217
	; CHECKBE-NEXT: .long 16777217 @ double 7.2911290000737531E-304
	; CHECKBE-NEXT: .long 16777217
	entry:			entry:
	ret <4 x i32> <i32 16777217, i32 16777217, i32 16777217, i32 16777217>			ret <4 x i32> <i32 16777217, i32 16777217, i32 16777217, i32 16777217>
	}			}

	define arm_aapcs_vfpcc <4 x i32> @mov_int32_17919() {			define arm_aapcs_vfpcc <4 x i32> @mov_int32_17919() {
	; CHECK-LABEL: mov_int32_17919:			; CHECK-LABEL: mov_int32_17919:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: vmov.i32 q0, #0x45ff			; CHECK-NEXT: vmov.i32 q0, #0x45ff
	Show All 25 Lines
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: vmvn.i32 q0, #0xffff			; CHECK-NEXT: vmvn.i32 q0, #0xffff
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	ret <4 x i32> <i32 4294901760, i32 4294901760, i32 4294901760, i32 4294901760>			ret <4 x i32> <i32 4294901760, i32 4294901760, i32 4294901760, i32 4294901760>
	}			}

	define arm_aapcs_vfpcc <4 x i32> @mov_int32_4278190335() {			define arm_aapcs_vfpcc <4 x i32> @mov_int32_4278190335() {
	; CHECKLE-LABEL: mov_int32_4278190335:			; CHECK-LABEL: mov_int32_4278190335:
	; CHECKLE: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECKLE-NEXT: adr r0, .LCPI17_0			; CHECK-NEXT: movs r0, #255
	; CHECKLE-NEXT: vldrw.u32 q0, [r0]			; CHECK-NEXT: movt r0, #65280
	; CHECKLE-NEXT: bx lr			; CHECK-NEXT: vdup.32 q0, r0
	; CHECKLE-NEXT: .p2align 4			; CHECK-NEXT: bx lr
	; CHECKLE-NEXT: @ %bb.1:
	; CHECKLE-NEXT: .LCPI17_0:
	; CHECKLE-NEXT: .long 4278190335 @ double -5.4874634341155774E+303
	; CHECKLE-NEXT: .long 4278190335
	; CHECKLE-NEXT: .long 4278190335 @ double -5.4874634341155774E+303
	; CHECKLE-NEXT: .long 4278190335
	;
	; CHECKBE-LABEL: mov_int32_4278190335:
	; CHECKBE: @ %bb.0: @ %entry
	; CHECKBE-NEXT: adr r0, .LCPI17_0
	; CHECKBE-NEXT: vldrb.u8 q1, [r0]
	; CHECKBE-NEXT: vrev64.8 q0, q1
	; CHECKBE-NEXT: bx lr
	; CHECKBE-NEXT: .p2align 4
	; CHECKBE-NEXT: @ %bb.1:
	; CHECKBE-NEXT: .LCPI17_0:
	; CHECKBE-NEXT: .long 4278190335 @ double -5.4874634341155774E+303
	; CHECKBE-NEXT: .long 4278190335
	; CHECKBE-NEXT: .long 4278190335 @ double -5.4874634341155774E+303
	; CHECKBE-NEXT: .long 4278190335
	entry:			entry:
	ret <4 x i32> <i32 4278190335, i32 4278190335, i32 4278190335, i32 4278190335>			ret <4 x i32> <i32 4278190335, i32 4278190335, i32 4278190335, i32 4278190335>
	}			}

	define arm_aapcs_vfpcc <4 x i32> @mov_int32_4278255615() {			define arm_aapcs_vfpcc <4 x i32> @mov_int32_4278255615() {
	; CHECK-LABEL: mov_int32_4278255615:			; CHECK-LABEL: mov_int32_4278255615:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: vmvn.i32 q0, #0xff0000			; CHECK-NEXT: vmvn.i32 q0, #0xff0000
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	ret <4 x i32> <i32 4278255615, i32 4278255615, i32 4278255615, i32 4278255615>			ret <4 x i32> <i32 4278255615, i32 4278255615, i32 4278255615, i32 4278255615>
	}			}

	define arm_aapcs_vfpcc <4 x i32> @mov_int32_16908546() {			define arm_aapcs_vfpcc <4 x i32> @mov_int32_16908546() {
	; CHECKLE-LABEL: mov_int32_16908546:			; CHECK-LABEL: mov_int32_16908546:
	; CHECKLE: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECKLE-NEXT: adr r0, .LCPI19_0			; CHECK-NEXT: mov.w r0, #258
	; CHECKLE-NEXT: vldrw.u32 q0, [r0]			; CHECK-NEXT: vdup.16 q0, r0
	; CHECKLE-NEXT: bx lr			; CHECK-NEXT: bx lr
	; CHECKLE-NEXT: .p2align 4
	; CHECKLE-NEXT: @ %bb.1:
	; CHECKLE-NEXT: .LCPI19_0:
	; CHECKLE-NEXT: .long 16908546 @ double 8.204306265173532E-304
	; CHECKLE-NEXT: .long 16908546
	; CHECKLE-NEXT: .long 16908546 @ double 8.204306265173532E-304
	; CHECKLE-NEXT: .long 16908546
	;
	; CHECKBE-LABEL: mov_int32_16908546:
	; CHECKBE: @ %bb.0: @ %entry
	; CHECKBE-NEXT: adr r0, .LCPI19_0
	; CHECKBE-NEXT: vldrb.u8 q1, [r0]
	; CHECKBE-NEXT: vrev64.8 q0, q1
	; CHECKBE-NEXT: bx lr
	; CHECKBE-NEXT: .p2align 4
	; CHECKBE-NEXT: @ %bb.1:
	; CHECKBE-NEXT: .LCPI19_0:
	; CHECKBE-NEXT: .long 16908546 @ double 8.204306265173532E-304
	; CHECKBE-NEXT: .long 16908546
	; CHECKBE-NEXT: .long 16908546 @ double 8.204306265173532E-304
	; CHECKBE-NEXT: .long 16908546
	entry:			entry:
	ret <4 x i32> <i32 16908546, i32 16908546, i32 16908546, i32 16908546>			ret <4 x i32> <i32 16908546, i32 16908546, i32 16908546, i32 16908546>
	}			}

	define arm_aapcs_vfpcc <2 x i64> @mov_int64_1() {			define arm_aapcs_vfpcc <2 x i64> @mov_int64_1() {
	; CHECKLE-LABEL: mov_int64_1:			; CHECKLE-LABEL: mov_int64_1:
	; CHECKLE: @ %bb.0: @ %entry			; CHECKLE: @ %bb.0: @ %entry
	; CHECKLE-NEXT: adr r0, .LCPI20_0			; CHECKLE-NEXT: adr r0, .LCPI20_0
	▲ Show 20 Lines • Show All 120 Lines • ▼ Show 20 Lines
	; CHECKBE: @ %bb.0: @ %entry			; CHECKBE: @ %bb.0: @ %entry
	; CHECKBE-NEXT: vmov.i16 q0, #0xff00			; CHECKBE-NEXT: vmov.i16 q0, #0xff00
	; CHECKBE-NEXT: bx lr			; CHECKBE-NEXT: bx lr
	entry:			entry:
	ret <16 x i8> <i8 -1, i8 0, i8 -1, i8 0, i8 -1, i8 0, i8 -1, i8 0, i8 -1, i8 0, i8 -1, i8 0, i8 -1, i8 0, i8 -1, i8 0>			ret <16 x i8> <i8 -1, i8 0, i8 -1, i8 0, i8 -1, i8 0, i8 -1, i8 0, i8 -1, i8 0, i8 -1, i8 0, i8 -1, i8 0, i8 -1, i8 0>
	}			}

	define arm_aapcs_vfpcc <4 x float> @mov_float_1() {			define arm_aapcs_vfpcc <4 x float> @mov_float_1() {
	; CHECKLE-LABEL: mov_float_1:			; CHECK-LABEL: mov_float_1:
	; CHECKLE: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECKLE-NEXT: adr r0, .LCPI28_0			; CHECK-NEXT: mov.w r0, #1065353216
	; CHECKLE-NEXT: vldrw.u32 q0, [r0]			; CHECK-NEXT: vdup.32 q0, r0
	; CHECKLE-NEXT: bx lr			; CHECK-NEXT: bx lr
	; CHECKLE-NEXT: .p2align 4
	; CHECKLE-NEXT: @ %bb.1:
	; CHECKLE-NEXT: .LCPI28_0:
	; CHECKLE-NEXT: .long 1065353216 @ double 0.007812501848093234
	; CHECKLE-NEXT: .long 1065353216
	; CHECKLE-NEXT: .long 1065353216 @ double 0.007812501848093234
	; CHECKLE-NEXT: .long 1065353216
	;
	; CHECKBE-LABEL: mov_float_1:
	; CHECKBE: @ %bb.0: @ %entry
	; CHECKBE-NEXT: adr r0, .LCPI28_0
	; CHECKBE-NEXT: vldrb.u8 q1, [r0]
	; CHECKBE-NEXT: vrev64.8 q0, q1
	; CHECKBE-NEXT: bx lr
	; CHECKBE-NEXT: .p2align 4
	; CHECKBE-NEXT: @ %bb.1:
	; CHECKBE-NEXT: .LCPI28_0:
	; CHECKBE-NEXT: .long 1065353216 @ double 0.007812501848093234
	; CHECKBE-NEXT: .long 1065353216
	; CHECKBE-NEXT: .long 1065353216 @ double 0.007812501848093234
	; CHECKBE-NEXT: .long 1065353216
	entry:			entry:
	ret <4 x float> <float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00>			ret <4 x float> <float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00>
	}			}

	define arm_aapcs_vfpcc <4 x float> @mov_float_m3() {			define arm_aapcs_vfpcc <4 x float> @mov_float_m3() {
	; CHECKLE-LABEL: mov_float_m3:			; CHECK-LABEL: mov_float_m3:
	; CHECKLE: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECKLE-NEXT: adr r0, .LCPI29_0			; CHECK-NEXT: movs r0, #0
	; CHECKLE-NEXT: vldrw.u32 q0, [r0]			; CHECK-NEXT: movt r0, #49216
	; CHECKLE-NEXT: bx lr			; CHECK-NEXT: vdup.32 q0, r0
	; CHECKLE-NEXT: .p2align 4			; CHECK-NEXT: bx lr
	; CHECKLE-NEXT: @ %bb.1:
	; CHECKLE-NEXT: .LCPI29_0:
	; CHECKLE-NEXT: .long 3225419776 @ double -32.000022917985916
	; CHECKLE-NEXT: .long 3225419776
	; CHECKLE-NEXT: .long 3225419776 @ double -32.000022917985916
	; CHECKLE-NEXT: .long 3225419776
	;
	; CHECKBE-LABEL: mov_float_m3:
	; CHECKBE: @ %bb.0: @ %entry
	; CHECKBE-NEXT: adr r0, .LCPI29_0
	; CHECKBE-NEXT: vldrb.u8 q1, [r0]
	; CHECKBE-NEXT: vrev64.8 q0, q1
	; CHECKBE-NEXT: bx lr
	; CHECKBE-NEXT: .p2align 4
	; CHECKBE-NEXT: @ %bb.1:
	; CHECKBE-NEXT: .LCPI29_0:
	; CHECKBE-NEXT: .long 3225419776 @ double -32.000022917985916
	; CHECKBE-NEXT: .long 3225419776
	; CHECKBE-NEXT: .long 3225419776 @ double -32.000022917985916
	; CHECKBE-NEXT: .long 3225419776
	entry:			entry:
	ret <4 x float> <float -3.000000e+00, float -3.000000e+00, float -3.000000e+00, float -3.000000e+00>			ret <4 x float> <float -3.000000e+00, float -3.000000e+00, float -3.000000e+00, float -3.000000e+00>
	}			}

	define arm_aapcs_vfpcc <8 x half> @mov_float16_1() {			define arm_aapcs_vfpcc <8 x half> @mov_float16_1() {
	; CHECK-LABEL: mov_float16_1:			; CHECK-LABEL: mov_float16_1:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: vmov.i16 q0, #0x3c00			; CHECK-NEXT: vmov.i16 q0, #0x3c00
	▲ Show 20 Lines • Show All 150 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vmvnimm.ll

	Show First 20 Lines • Show All 62 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	ret <4 x i32> <i32 4294902528, i32 4294902528, i32 4294902528, i32 4294902528>			ret <4 x i32> <i32 4294902528, i32 4294902528, i32 4294902528, i32 4294902528>
	}			}

	define arm_aapcs_vfpcc <4 x i32> @mov_int32_4278386688() {			define arm_aapcs_vfpcc <4 x i32> @mov_int32_4278386688() {
	; CHECK-LABEL: mov_int32_4278386688:			; CHECK-LABEL: mov_int32_4278386688:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: adr r0, .LCPI7_0			; CHECK-NEXT: movs r0, #0
	; CHECK-NEXT: vldrw.u32 q0, [r0]			; CHECK-NEXT: movt r0, #65283
				; CHECK-NEXT: vdup.32 q0, r0
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	; CHECK-NEXT: .p2align 4
	; CHECK-NEXT: @ %bb.1:
	; CHECK-NEXT: .LCPI7_0:
	; CHECK-NEXT: .long 4278386688 @ double -6.5147775434702224E+303
	; CHECK-NEXT: .long 4278386688
	; CHECK-NEXT: .long 4278386688 @ double -6.5147775434702224E+303
	; CHECK-NEXT: .long 4278386688
	entry:			entry:
	ret <4 x i32> <i32 4278386688, i32 4278386688, i32 4278386688, i32 4278386688>			ret <4 x i32> <i32 4278386688, i32 4278386688, i32 4278386688, i32 4278386688>
	}			}

This is an archive of the discontinued LLVM Phabricator instance.

[ARM] Generate VDUP(Const) from constant buildvectorsClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 350697

llvm/lib/Target/ARM/ARMISelLowering.cpp

llvm/test/CodeGen/Thumb2/LowOverheadLoops/predicated-liveout-unknown-lanes.ll

llvm/test/CodeGen/Thumb2/mve-fp16convertloops.ll

llvm/test/CodeGen/Thumb2/mve-gather-scatter-tailpred.ll

llvm/test/CodeGen/Thumb2/mve-pred-vctpvpsel.ll

llvm/test/CodeGen/Thumb2/mve-shifts.ll

llvm/test/CodeGen/Thumb2/mve-vmovimm.ll

llvm/test/CodeGen/Thumb2/mve-vmvnimm.ll

[ARM] Generate VDUP(Const) from constant buildvectors
ClosedPublic