This is an archive of the discontinued LLVM Phabricator instance.

[ARM] Make t2DoLoopStartTP a terminator
ClosedPublic

Authored by dmgreen on Nov 20 2020, 12:03 PM.

Download Raw Diff

Details

Reviewers

SjoerdMeijer
samtebbs
simon_tatham
efriedma
samparker

Commits

rG3f571be1c07b: [ARM] Make t2DoLoopStartTP a terminator

Summary

Although this was something that I was hoping we would not have to do, this patch makes t2DoLoopStartTP a terminator in order to keep it at the end of it's block, so not allowing extra MVE instruction between it and the end. With t2DoLoopStartTP's also starting tail predication regions, it also marks them as having side effects. The t2DoLoopStart is still not a terminator, giving it the extra scheduling freedom that can be helpful, but now that we have a TP version they can be treated differently.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

dmgreen created this revision.Nov 20 2020, 12:03 PM

Herald added a project: Restricted Project. · View Herald TranscriptNov 20 2020, 12:03 PM

Herald added subscribers: danielkiss, hiraditya, kristof.beyls. · View Herald Transcript

dmgreen requested review of this revision.Nov 20 2020, 12:03 PM

dmgreen added a parent revision: D91866: [ARM] Cleanup for the MVETailPrediction pass.

Although this was something that I was hoping we would not have to do,

Can you quickly remind me about the different options/trade-offs here? Just as a refresher for me how everything fits together.

Can you quickly remind me about the different options/trade-offs here? Just as a refresher for me how everything fits together.

It's just a little sub-optimal. It's better to let the scheduler place the instructions where they would be best, not artificially force them to the end of the block. The latency of setting LR into the next instruction that uses it can be felt at times, and on some CPU's you can get cases where the loop will be aligned with a NOP, meaning it's better to put a T1 instruction at the end of the block to allow more dual-issue.

They are mostly, hopefully fairly minor though. And the benefits of forcing the dlstp instruction to the end of the block to prevent reverted tail predicated loops is at least better in the short term, even if we change it back later.

In D91887#2410497, @dmgreen wrote:

Can you quickly remind me about the different options/trade-offs here? Just as a refresher for me how everything fits together.

It's just a little sub-optimal. It's better to let the scheduler place the instructions where they would be best, not artificially force them to the end of the block. The latency of setting LR into the next instruction that uses it can be felt at times, and on some CPU's you can get cases where the loop will be aligned with a NOP, meaning it's better to put a T1 instruction at the end of the block to allow more dual-issue.

They are mostly, hopefully fairly minor though. And the benefits of forcing the dlstp instruction to the end of the block to prevent reverted tail predicated loops is at least better in the short term, even if we change it back later.

Ah yes, thanks, got it. Just one more high-level follow up question then. Is this something we want to perhaps control with an option?

Ah yes, thanks, got it. Just one more high-level follow up question then. Is this something we want to perhaps control with an option?

We have an option for merging dec and end, and will currently only do this transform if that succeeded. I could add an option for controlling creating t2DoLoopEndDec too if it sounds useful, but we do already at least have an off switch.

Cheers, LGTM

This revision is now accepted and ready to land.Nov 25 2020, 12:52 AM

Closed by commit rG3f571be1c07b: [ARM] Make t2DoLoopStartTP a terminator (authored by dmgreen). · Explain WhyDec 11 2020, 1:24 AM

This revision was automatically updated to reflect the committed changes.

dmgreen added a commit: rG3f571be1c07b: [ARM] Make t2DoLoopStartTP a terminator.

malharJ mentioned this in D100376: [ARM] Prevent phi-node-elimination from generating copy above t2WhileLoopStartLR.Apr 13 2021, 3:32 AM

dmgreen mentioned this in rG093f1828e58c: [ARM] Prevent phi-node-elimination from generating copy above t2WhileLoopStartLR.Apr 16 2021, 8:45 AM

Revision Contents

Path

Size

llvm/

lib/

Target/

ARM/

ARMBaseInstrInfo.h

3 lines

ARMInstrThumb2.td

1 line

MVEVPTOptimisationsPass.cpp

11 lines

test/

CodeGen/

Thumb2/

LowOverheadLoops/

10 lines

23 lines

90 lines

16 lines

4 lines

mve-gather-scatter-tailpred.ll

8 lines

mve-postinc-dct.ll

383 lines

mve-postinc-lsr.ll

140 lines

mve-pred-vctpvpsel.ll

2 lines

mve-vecreduce-loops.ll

6 lines

Diff 311140

llvm/lib/Target/ARM/ARMBaseInstrInfo.h

Show First 20 Lines • Show All 355 Lines • ▼ Show 20 Lines	public:
insertOutlinedCall(Module &M, MachineBasicBlock &MBB,		insertOutlinedCall(Module &M, MachineBasicBlock &MBB,
MachineBasicBlock::iterator &It, MachineFunction &MF,		MachineBasicBlock::iterator &It, MachineFunction &MF,
const outliner::Candidate &C) const override;		const outliner::Candidate &C) const override;

/// Enable outlining by default at -Oz.		/// Enable outlining by default at -Oz.
bool shouldOutlineFromFunctionByDefault(MachineFunction &MF) const override;		bool shouldOutlineFromFunctionByDefault(MachineFunction &MF) const override;

bool isUnspillableTerminatorImpl(const MachineInstr *MI) const override {		bool isUnspillableTerminatorImpl(const MachineInstr *MI) const override {
return MI->getOpcode() == ARM::t2LoopEndDec;		return MI->getOpcode() == ARM::t2LoopEndDec \|\|
		MI->getOpcode() == ARM::t2DoLoopStartTP;
}		}

private:		private:
/// Returns an unused general-purpose register which can be used for		/// Returns an unused general-purpose register which can be used for
/// constructing an outlined call if one exists. Returns 0 otherwise.		/// constructing an outlined call if one exists. Returns 0 otherwise.
unsigned findRegisterToSaveLRTo(const outliner::Candidate &C) const;		unsigned findRegisterToSaveLRTo(const outliner::Candidate &C) const;

// Adds an instruction which saves the link register on top of the stack into		// Adds an instruction which saves the link register on top of the stack into
▲ Show 20 Lines • Show All 482 Lines • Show Last 20 Lines

llvm/lib/Target/ARM/ARMInstrThumb2.td

	Show First 20 Lines • Show All 5,421 Lines • ▼ Show 20 Lines

	let Predicates = [IsThumb2, HasV8_1MMainline, HasLOB] in {			let Predicates = [IsThumb2, HasV8_1MMainline, HasLOB] in {

	let usesCustomInserter = 1 in			let usesCustomInserter = 1 in
	def t2DoLoopStart :			def t2DoLoopStart :
	t2PseudoInst<(outs GPRlr:$X), (ins rGPR:$elts), 4, IIC_Br,			t2PseudoInst<(outs GPRlr:$X), (ins rGPR:$elts), 4, IIC_Br,
	[(set GPRlr:$X, (int_start_loop_iterations rGPR:$elts))]>;			[(set GPRlr:$X, (int_start_loop_iterations rGPR:$elts))]>;

				let isTerminator = 1, hasSideEffects = 1 in
	def t2DoLoopStartTP :			def t2DoLoopStartTP :
	t2PseudoInst<(outs GPRlr:$X), (ins rGPR:$elts, rGPR:$count), 4, IIC_Br, []>;			t2PseudoInst<(outs GPRlr:$X), (ins rGPR:$elts, rGPR:$count), 4, IIC_Br, []>;

	let hasSideEffects = 0 in			let hasSideEffects = 0 in
	def t2LoopDec :			def t2LoopDec :
	t2PseudoInst<(outs GPRlr:$Rm), (ins GPRlr:$Rn, imm0_7:$size),			t2PseudoInst<(outs GPRlr:$Rm), (ins GPRlr:$Rn, imm0_7:$size),
	4, IIC_Br, []>, Sched<[WriteBr]>;			4, IIC_Br, []>, Sched<[WriteBr]>;

	▲ Show 20 Lines • Show All 84 Lines • Show Last 20 Lines

llvm/lib/Target/ARM/MVEVPTOptimisationsPass.cpp

Show First 20 Lines • Show All 335 Lines • ▼ Show 20 Lines	bool MVEVPTOptimisations::ConvertTailPredLoop(MachineLoop *ML,
// Replace the t2DoLoopStart with the t2DoLoopStartTP, move it to the end of		// Replace the t2DoLoopStart with the t2DoLoopStartTP, move it to the end of
// the preheader and add the new CountReg to it. We attempt to place it late		// the preheader and add the new CountReg to it. We attempt to place it late
// in the preheader, but may need to move that earlier based on uses.		// in the preheader, but may need to move that earlier based on uses.
MachineBasicBlock *MBB = LoopStart->getParent();		MachineBasicBlock *MBB = LoopStart->getParent();
MachineBasicBlock::iterator InsertPt = MBB->getFirstTerminator();		MachineBasicBlock::iterator InsertPt = MBB->getFirstTerminator();
for (MachineInstr &Use :		for (MachineInstr &Use :
MRI->use_instructions(LoopStart->getOperand(0).getReg()))		MRI->use_instructions(LoopStart->getOperand(0).getReg()))
if ((InsertPt != MBB->end() && !DT->dominates(&*InsertPt, &Use)) \|\|		if ((InsertPt != MBB->end() && !DT->dominates(&*InsertPt, &Use)) \|\|
!DT->dominates(ML->getHeader(), Use.getParent()))		!DT->dominates(ML->getHeader(), Use.getParent())) {
InsertPt = &Use;		LLVM_DEBUG(dbgs() << " InsertPt could not be a terminator!\n");
if (InsertPt != MBB->end() &&
!DT->dominates(MRI->getVRegDef(CountReg), &*InsertPt)) {
LLVM_DEBUG(dbgs() << " InsertPt does not dominate CountReg!\n");
return false;		return false;
}		}

MachineInstrBuilder MI = BuildMI(*MBB, InsertPt, LoopStart->getDebugLoc(),		MachineInstrBuilder MI = BuildMI(*MBB, InsertPt, LoopStart->getDebugLoc(),
TII->get(ARM::t2DoLoopStartTP))		TII->get(ARM::t2DoLoopStartTP))
.add(LoopStart->getOperand(0))		.add(LoopStart->getOperand(0))
.add(LoopStart->getOperand(1))		.add(LoopStart->getOperand(1))
.addReg(CountReg);		.addReg(CountReg);
(void)MI;		(void)MI;
LLVM_DEBUG(dbgs() << "Replacing " << *LoopStart << " with "		LLVM_DEBUG(dbgs() << "Replacing " << *LoopStart << " with "
▲ Show 20 Lines • Show All 535 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/LowOverheadLoops/exitcount.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp -verify-machineinstrs -tail-predication=enabled -o - %s \| FileCheck %s			; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp -verify-machineinstrs -tail-predication=enabled -o - %s \| FileCheck %s
	%struct.SpeexPreprocessState_ = type { i32, i32, half, half }			%struct.SpeexPreprocessState_ = type { i32, i32, half, half }

	define void @foo(%struct.SpeexPreprocessState_* nocapture readonly %st, i16* %x) {			define void @foo(%struct.SpeexPreprocessState_* nocapture readonly %st, i16* %x) {
	; CHECK-LABEL: foo:			; CHECK-LABEL: foo:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r4, lr}			; CHECK-NEXT: .save {r4, lr}
	; CHECK-NEXT: push {r4, lr}			; CHECK-NEXT: push {r4, lr}
	; CHECK-NEXT: ldrd r12, r4, [r0]			; CHECK-NEXT: ldrd r12, r2, [r0]
	; CHECK-NEXT: ldrd r2, r3, [r0, #8]			; CHECK-NEXT: ldrd r4, r3, [r0, #8]
	; CHECK-NEXT: rsb r12, r12, r4, lsl #1			; CHECK-NEXT: rsb r12, r12, r2, lsl #1
	; CHECK-NEXT: mov r4, r12			; CHECK-NEXT: mov r2, r12
	; CHECK-NEXT: dlstp.16 lr, r12			; CHECK-NEXT: dlstp.16 lr, r12
	; CHECK-NEXT: .LBB0_1: @ %do.body			; CHECK-NEXT: .LBB0_1: @ %do.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrh.u16 q0, [r3], #16			; CHECK-NEXT: vldrh.u16 q0, [r3], #16
	; CHECK-NEXT: vstrh.16 q0, [r2], #16			; CHECK-NEXT: vstrh.16 q0, [r4], #16
	; CHECK-NEXT: letp lr, .LBB0_1			; CHECK-NEXT: letp lr, .LBB0_1
	; CHECK-NEXT: @ %bb.2: @ %do.end			; CHECK-NEXT: @ %bb.2: @ %do.end
	; CHECK-NEXT: ldr r2, [r0]			; CHECK-NEXT: ldr r2, [r0]
	; CHECK-NEXT: ldr r0, [r0, #8]			; CHECK-NEXT: ldr r0, [r0, #8]
	; CHECK-NEXT: vmov.i16 q0, #0x1800			; CHECK-NEXT: vmov.i16 q0, #0x1800
	; CHECK-NEXT: add.w r0, r0, r12, lsl #1			; CHECK-NEXT: add.w r0, r0, r12, lsl #1
	; CHECK-NEXT: dlstp.16 lr, r2			; CHECK-NEXT: dlstp.16 lr, r2
	; CHECK-NEXT: .LBB0_3: @ %do.body6			; CHECK-NEXT: .LBB0_3: @ %do.body6
	▲ Show 20 Lines • Show All 74 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/LowOverheadLoops/mov-operand.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp -verify-machineinstrs -tail-predication=enabled -o - %s \| FileCheck %s			; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp -verify-machineinstrs -tail-predication=enabled -o - %s \| FileCheck %s

	define arm_aapcs_vfpcc void @arm_var_f32_mve(float* %pSrc, i32 %blockSize, float* nocapture %pResult) {			define arm_aapcs_vfpcc void @arm_var_f32_mve(float* %pSrc, i32 %blockSize, float* nocapture %pResult) {
	; CHECK-LABEL: arm_var_f32_mve:			; CHECK-LABEL: arm_var_f32_mve:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r7, lr}			; CHECK-NEXT: .save {r7, lr}
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: vmov.i32 q0, #0x0			; CHECK-NEXT: vmov.i32 q0, #0x0
	; CHECK-NEXT: mov r3, r1			; CHECK-NEXT: mov r3, r1
	; CHECK-NEXT: dlstp.32 lr, r1
	; CHECK-NEXT: mov r12, r0			; CHECK-NEXT: mov r12, r0
				; CHECK-NEXT: dlstp.32 lr, r1
	; CHECK-NEXT: .LBB0_1: @ %do.body.i			; CHECK-NEXT: .LBB0_1: @ %do.body.i
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrw.u32 q1, [r12], #16			; CHECK-NEXT: vldrw.u32 q1, [r12], #16
	; CHECK-NEXT: vadd.f32 q0, q0, q1			; CHECK-NEXT: vadd.f32 q0, q0, q1
	; CHECK-NEXT: letp lr, .LBB0_1			; CHECK-NEXT: letp lr, .LBB0_1
	; CHECK-NEXT: @ %bb.2: @ %arm_mean_f32_mve.exit			; CHECK-NEXT: @ %bb.2: @ %arm_mean_f32_mve.exit
	; CHECK-NEXT: vmov s4, r1			; CHECK-NEXT: vmov s4, r1
	; CHECK-NEXT: mov r3, r1
	; CHECK-NEXT: vadd.f32 s0, s3, s3			; CHECK-NEXT: vadd.f32 s0, s3, s3
	; CHECK-NEXT: cmp r1, #4
	; CHECK-NEXT: vcvt.f32.u32 s4, s4			; CHECK-NEXT: vcvt.f32.u32 s4, s4
	; CHECK-NEXT: it ge
	; CHECK-NEXT: movge r3, #4
	; CHECK-NEXT: subs r3, r1, r3
	; CHECK-NEXT: mov.w lr, #1
	; CHECK-NEXT: adds r3, #3
	; CHECK-NEXT: add.w lr, lr, r3, lsr #2
	; CHECK-NEXT: mov r3, r1			; CHECK-NEXT: mov r3, r1
	; CHECK-NEXT: dls lr, lr
	; CHECK-NEXT: vdiv.f32 s0, s0, s4			; CHECK-NEXT: vdiv.f32 s0, s0, s4
	; CHECK-NEXT: vmov r12, s0			; CHECK-NEXT: vmov r12, s0
	; CHECK-NEXT: vmov.i32 q0, #0x0			; CHECK-NEXT: vmov.i32 q0, #0x0
				; CHECK-NEXT: dlstp.32 lr, r1
	; CHECK-NEXT: .LBB0_3: @ %do.body			; CHECK-NEXT: .LBB0_3: @ %do.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vctp.32 r3			; CHECK-NEXT: vldrw.u32 q1, [r0], #16
	; CHECK-NEXT: subs r3, #4			; CHECK-NEXT: vsub.f32 q1, q1, r12
	; CHECK-NEXT: vpsttt			; CHECK-NEXT: vfma.f32 q0, q1, q1
	; CHECK-NEXT: vldrwt.u32 q1, [r0], #16			; CHECK-NEXT: letp lr, .LBB0_3
	; CHECK-NEXT: vsubt.f32 q1, q1, r12
	; CHECK-NEXT: vfmat.f32 q0, q1, q1
	; CHECK-NEXT: le lr, .LBB0_3
	; CHECK-NEXT: @ %bb.4: @ %do.end			; CHECK-NEXT: @ %bb.4: @ %do.end
	; CHECK-NEXT: subs r0, r1, #1			; CHECK-NEXT: subs r0, r1, #1
	; CHECK-NEXT: vadd.f32 s0, s3, s3			; CHECK-NEXT: vadd.f32 s0, s3, s3
	; CHECK-NEXT: vmov s2, r0			; CHECK-NEXT: vmov s2, r0
	; CHECK-NEXT: vcvt.f32.u32 s2, s2			; CHECK-NEXT: vcvt.f32.u32 s2, s2
	; CHECK-NEXT: vdiv.f32 s0, s0, s2			; CHECK-NEXT: vdiv.f32 s0, s0, s2
	; CHECK-NEXT: vstr s0, [r2]			; CHECK-NEXT: vstr s0, [r2]
	; CHECK-NEXT: pop {r7, pc}			; CHECK-NEXT: pop {r7, pc}
	▲ Show 20 Lines • Show All 62 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/LowOverheadLoops/reductions.ll

	Show First 20 Lines • Show All 63 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: cmp r2, #0			; CHECK-NEXT: cmp r2, #0
	; CHECK-NEXT: ittt eq			; CHECK-NEXT: ittt eq
	; CHECK-NEXT: moveq r0, #0			; CHECK-NEXT: moveq r0, #0
	; CHECK-NEXT: sxtheq r0, r0			; CHECK-NEXT: sxtheq r0, r0
	; CHECK-NEXT: bxeq lr			; CHECK-NEXT: bxeq lr
	; CHECK-NEXT: .LBB1_1: @ %vector.ph			; CHECK-NEXT: .LBB1_1: @ %vector.ph
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: adds r3, r2, #7			; CHECK-NEXT: adds r3, r2, #7
	; CHECK-NEXT: vmov.i32 q0, #0x0			; CHECK-NEXT: vmov.i32 q1, #0x0
	; CHECK-NEXT: bic r3, r3, #7			; CHECK-NEXT: bic r3, r3, #7
	; CHECK-NEXT: sub.w r12, r3, #8			; CHECK-NEXT: sub.w r12, r3, #8
	; CHECK-NEXT: movs r3, #1			; CHECK-NEXT: movs r3, #1
	; CHECK-NEXT: add.w lr, r3, r12, lsr #3			; CHECK-NEXT: add.w lr, r3, r12, lsr #3
	; CHECK-NEXT: dls lr, lr			; CHECK-NEXT: dls lr, lr
	; CHECK-NEXT: .LBB1_2: @ %vector.body			; CHECK-NEXT: .LBB1_2: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vctp.16 r2			; CHECK-NEXT: vctp.16 r2
	; CHECK-NEXT: vmov q1, q0			; CHECK-NEXT: vmov q0, q1
	; CHECK-NEXT: vpst			; CHECK-NEXT: vpst
	; CHECK-NEXT: vldrbt.u16 q0, [r0], #8			; CHECK-NEXT: vldrbt.u16 q1, [r0], #8
	; CHECK-NEXT: subs r2, #8			; CHECK-NEXT: subs r2, #8
	; CHECK-NEXT: vadd.i16 q0, q1, q0			; CHECK-NEXT: vadd.i16 q1, q0, q1
	; CHECK-NEXT: vpst			; CHECK-NEXT: vpst
	; CHECK-NEXT: vldrbt.u16 q2, [r1], #8			; CHECK-NEXT: vldrbt.u16 q2, [r1], #8
	; CHECK-NEXT: vadd.i16 q0, q0, q2			; CHECK-NEXT: vadd.i16 q1, q1, q2
	; CHECK-NEXT: le lr, .LBB1_2			; CHECK-NEXT: le lr, .LBB1_2
	; CHECK-NEXT: @ %bb.3: @ %middle.block			; CHECK-NEXT: @ %bb.3: @ %middle.block
	; CHECK-NEXT: vpsel q0, q0, q1			; CHECK-NEXT: vpsel q0, q1, q0
	; CHECK-NEXT: vaddv.u16 r0, q0			; CHECK-NEXT: vaddv.u16 r0, q0
	; CHECK-NEXT: pop.w {r7, lr}			; CHECK-NEXT: pop.w {r7, lr}
	; CHECK-NEXT: sxth r0, r0			; CHECK-NEXT: sxth r0, r0
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%cmp12 = icmp eq i32 %N, 0			%cmp12 = icmp eq i32 %N, 0
	br i1 %cmp12, label %for.cond.cleanup, label %vector.ph			br i1 %cmp12, label %for.cond.cleanup, label %vector.ph

	Show All 37 Lines
	; CHECK-NEXT: cmp r2, #0			; CHECK-NEXT: cmp r2, #0
	; CHECK-NEXT: ittt eq			; CHECK-NEXT: ittt eq
	; CHECK-NEXT: moveq r0, #0			; CHECK-NEXT: moveq r0, #0
	; CHECK-NEXT: uxtbeq r0, r0			; CHECK-NEXT: uxtbeq r0, r0
	; CHECK-NEXT: bxeq lr			; CHECK-NEXT: bxeq lr
	; CHECK-NEXT: .LBB2_1: @ %vector.ph			; CHECK-NEXT: .LBB2_1: @ %vector.ph
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: add.w r3, r2, #15			; CHECK-NEXT: add.w r3, r2, #15
	; CHECK-NEXT: vmov.i32 q0, #0x0			; CHECK-NEXT: vmov.i32 q1, #0x0
	; CHECK-NEXT: bic r3, r3, #15			; CHECK-NEXT: bic r3, r3, #15
	; CHECK-NEXT: sub.w r12, r3, #16			; CHECK-NEXT: sub.w r12, r3, #16
	; CHECK-NEXT: movs r3, #1			; CHECK-NEXT: movs r3, #1
	; CHECK-NEXT: add.w lr, r3, r12, lsr #4			; CHECK-NEXT: add.w lr, r3, r12, lsr #4
	; CHECK-NEXT: dls lr, lr			; CHECK-NEXT: dls lr, lr
	; CHECK-NEXT: .LBB2_2: @ %vector.body			; CHECK-NEXT: .LBB2_2: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vctp.8 r2			; CHECK-NEXT: vctp.8 r2
	; CHECK-NEXT: vmov q1, q0			; CHECK-NEXT: vmov q0, q1
	; CHECK-NEXT: vpstt			; CHECK-NEXT: vpstt
	; CHECK-NEXT: vldrbt.u8 q0, [r1], #16			; CHECK-NEXT: vldrbt.u8 q1, [r1], #16
	; CHECK-NEXT: vldrbt.u8 q2, [r0], #16			; CHECK-NEXT: vldrbt.u8 q2, [r0], #16
	; CHECK-NEXT: subs r2, #16			; CHECK-NEXT: subs r2, #16
	; CHECK-NEXT: vsub.i8 q0, q2, q0			; CHECK-NEXT: vsub.i8 q1, q2, q1
	; CHECK-NEXT: vadd.i8 q0, q0, q1			; CHECK-NEXT: vadd.i8 q1, q1, q0
	; CHECK-NEXT: le lr, .LBB2_2			; CHECK-NEXT: le lr, .LBB2_2
	; CHECK-NEXT: @ %bb.3: @ %middle.block			; CHECK-NEXT: @ %bb.3: @ %middle.block
	; CHECK-NEXT: vpsel q0, q0, q1			; CHECK-NEXT: vpsel q0, q1, q0
	; CHECK-NEXT: vaddv.u8 r0, q0			; CHECK-NEXT: vaddv.u8 r0, q0
	; CHECK-NEXT: pop.w {r7, lr}			; CHECK-NEXT: pop.w {r7, lr}
	; CHECK-NEXT: uxtb r0, r0			; CHECK-NEXT: uxtb r0, r0
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%cmp11 = icmp eq i32 %N, 0			%cmp11 = icmp eq i32 %N, 0
	br i1 %cmp11, label %for.cond.cleanup, label %vector.ph			br i1 %cmp11, label %for.cond.cleanup, label %vector.ph

	Show All 35 Lines
	; CHECK-NEXT: cmp r2, #0			; CHECK-NEXT: cmp r2, #0
	; CHECK-NEXT: ittt eq			; CHECK-NEXT: ittt eq
	; CHECK-NEXT: moveq r0, #0			; CHECK-NEXT: moveq r0, #0
	; CHECK-NEXT: sxtheq r0, r0			; CHECK-NEXT: sxtheq r0, r0
	; CHECK-NEXT: bxeq lr			; CHECK-NEXT: bxeq lr
	; CHECK-NEXT: .LBB3_1: @ %vector.ph			; CHECK-NEXT: .LBB3_1: @ %vector.ph
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: adds r3, r2, #7			; CHECK-NEXT: adds r3, r2, #7
	; CHECK-NEXT: vmov.i32 q0, #0x0			; CHECK-NEXT: vmov.i32 q1, #0x0
	; CHECK-NEXT: bic r3, r3, #7			; CHECK-NEXT: bic r3, r3, #7
	; CHECK-NEXT: sub.w r12, r3, #8			; CHECK-NEXT: sub.w r12, r3, #8
	; CHECK-NEXT: movs r3, #1			; CHECK-NEXT: movs r3, #1
	; CHECK-NEXT: add.w lr, r3, r12, lsr #3			; CHECK-NEXT: add.w lr, r3, r12, lsr #3
	; CHECK-NEXT: dls lr, lr			; CHECK-NEXT: dls lr, lr
	; CHECK-NEXT: .LBB3_2: @ %vector.body			; CHECK-NEXT: .LBB3_2: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vctp.16 r2			; CHECK-NEXT: vctp.16 r2
	; CHECK-NEXT: vmov q1, q0			; CHECK-NEXT: vmov q0, q1
	; CHECK-NEXT: vpstt			; CHECK-NEXT: vpstt
	; CHECK-NEXT: vldrbt.u16 q0, [r0], #8			; CHECK-NEXT: vldrbt.u16 q1, [r0], #8
	; CHECK-NEXT: vldrbt.u16 q2, [r1], #8			; CHECK-NEXT: vldrbt.u16 q2, [r1], #8
	; CHECK-NEXT: subs r2, #8			; CHECK-NEXT: subs r2, #8
	; CHECK-NEXT: vsub.i16 q0, q2, q0			; CHECK-NEXT: vsub.i16 q1, q2, q1
	; CHECK-NEXT: vadd.i16 q0, q0, q1			; CHECK-NEXT: vadd.i16 q1, q1, q0
	; CHECK-NEXT: le lr, .LBB3_2			; CHECK-NEXT: le lr, .LBB3_2
	; CHECK-NEXT: @ %bb.3: @ %middle.block			; CHECK-NEXT: @ %bb.3: @ %middle.block
	; CHECK-NEXT: vpsel q0, q0, q1			; CHECK-NEXT: vpsel q0, q1, q0
	; CHECK-NEXT: vaddv.u16 r0, q0			; CHECK-NEXT: vaddv.u16 r0, q0
	; CHECK-NEXT: pop.w {r7, lr}			; CHECK-NEXT: pop.w {r7, lr}
	; CHECK-NEXT: sxth r0, r0			; CHECK-NEXT: sxth r0, r0
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%cmp12 = icmp eq i32 %N, 0			%cmp12 = icmp eq i32 %N, 0
	br i1 %cmp12, label %for.cond.cleanup, label %vector.ph			br i1 %cmp12, label %for.cond.cleanup, label %vector.ph

	Show All 37 Lines
	; CHECK-NEXT: cmp r2, #0			; CHECK-NEXT: cmp r2, #0
	; CHECK-NEXT: ittt eq			; CHECK-NEXT: ittt eq
	; CHECK-NEXT: moveq r0, #0			; CHECK-NEXT: moveq r0, #0
	; CHECK-NEXT: uxtbeq r0, r0			; CHECK-NEXT: uxtbeq r0, r0
	; CHECK-NEXT: bxeq lr			; CHECK-NEXT: bxeq lr
	; CHECK-NEXT: .LBB4_1: @ %vector.ph			; CHECK-NEXT: .LBB4_1: @ %vector.ph
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: add.w r3, r2, #15			; CHECK-NEXT: add.w r3, r2, #15
	; CHECK-NEXT: vmov.i32 q0, #0x0			; CHECK-NEXT: vmov.i32 q1, #0x0
	; CHECK-NEXT: bic r3, r3, #15			; CHECK-NEXT: bic r3, r3, #15
	; CHECK-NEXT: sub.w r12, r3, #16			; CHECK-NEXT: sub.w r12, r3, #16
	; CHECK-NEXT: movs r3, #1			; CHECK-NEXT: movs r3, #1
	; CHECK-NEXT: add.w lr, r3, r12, lsr #4			; CHECK-NEXT: add.w lr, r3, r12, lsr #4
	; CHECK-NEXT: dls lr, lr			; CHECK-NEXT: dls lr, lr
	; CHECK-NEXT: .LBB4_2: @ %vector.body			; CHECK-NEXT: .LBB4_2: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vctp.8 r2			; CHECK-NEXT: vctp.8 r2
	; CHECK-NEXT: vmov q1, q0			; CHECK-NEXT: vmov q0, q1
	; CHECK-NEXT: vpstt			; CHECK-NEXT: vpstt
	; CHECK-NEXT: vldrbt.u8 q0, [r0], #16			; CHECK-NEXT: vldrbt.u8 q1, [r0], #16
	; CHECK-NEXT: vldrbt.u8 q2, [r1], #16			; CHECK-NEXT: vldrbt.u8 q2, [r1], #16
	; CHECK-NEXT: subs r2, #16			; CHECK-NEXT: subs r2, #16
	; CHECK-NEXT: vmul.i8 q0, q2, q0			; CHECK-NEXT: vmul.i8 q1, q2, q1
	; CHECK-NEXT: vadd.i8 q0, q0, q1			; CHECK-NEXT: vadd.i8 q1, q1, q0
	; CHECK-NEXT: le lr, .LBB4_2			; CHECK-NEXT: le lr, .LBB4_2
	; CHECK-NEXT: @ %bb.3: @ %middle.block			; CHECK-NEXT: @ %bb.3: @ %middle.block
	; CHECK-NEXT: vpsel q0, q0, q1			; CHECK-NEXT: vpsel q0, q1, q0
	; CHECK-NEXT: vaddv.u8 r0, q0			; CHECK-NEXT: vaddv.u8 r0, q0
	; CHECK-NEXT: pop.w {r7, lr}			; CHECK-NEXT: pop.w {r7, lr}
	; CHECK-NEXT: uxtb r0, r0			; CHECK-NEXT: uxtb r0, r0
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%cmp10 = icmp eq i32 %N, 0			%cmp10 = icmp eq i32 %N, 0
	br i1 %cmp10, label %for.cond.cleanup, label %vector.ph			br i1 %cmp10, label %for.cond.cleanup, label %vector.ph

	Show All 35 Lines
	; CHECK-NEXT: cmp r2, #0			; CHECK-NEXT: cmp r2, #0
	; CHECK-NEXT: ittt eq			; CHECK-NEXT: ittt eq
	; CHECK-NEXT: moveq r0, #0			; CHECK-NEXT: moveq r0, #0
	; CHECK-NEXT: sxtheq r0, r0			; CHECK-NEXT: sxtheq r0, r0
	; CHECK-NEXT: bxeq lr			; CHECK-NEXT: bxeq lr
	; CHECK-NEXT: .LBB5_1: @ %vector.ph			; CHECK-NEXT: .LBB5_1: @ %vector.ph
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: adds r3, r2, #7			; CHECK-NEXT: adds r3, r2, #7
	; CHECK-NEXT: vmov.i32 q0, #0x0			; CHECK-NEXT: vmov.i32 q1, #0x0
	; CHECK-NEXT: bic r3, r3, #7			; CHECK-NEXT: bic r3, r3, #7
	; CHECK-NEXT: sub.w r12, r3, #8			; CHECK-NEXT: sub.w r12, r3, #8
	; CHECK-NEXT: movs r3, #1			; CHECK-NEXT: movs r3, #1
	; CHECK-NEXT: add.w lr, r3, r12, lsr #3			; CHECK-NEXT: add.w lr, r3, r12, lsr #3
	; CHECK-NEXT: dls lr, lr			; CHECK-NEXT: dls lr, lr
	; CHECK-NEXT: .LBB5_2: @ %vector.body			; CHECK-NEXT: .LBB5_2: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vctp.16 r2			; CHECK-NEXT: vctp.16 r2
	; CHECK-NEXT: vmov q1, q0			; CHECK-NEXT: vmov q0, q1
	; CHECK-NEXT: vpstt			; CHECK-NEXT: vpstt
	; CHECK-NEXT: vldrbt.u16 q0, [r0], #8			; CHECK-NEXT: vldrbt.u16 q1, [r0], #8
	; CHECK-NEXT: vldrbt.u16 q2, [r1], #8			; CHECK-NEXT: vldrbt.u16 q2, [r1], #8
	; CHECK-NEXT: subs r2, #8			; CHECK-NEXT: subs r2, #8
	; CHECK-NEXT: vmul.i16 q0, q2, q0			; CHECK-NEXT: vmul.i16 q1, q2, q1
	; CHECK-NEXT: vadd.i16 q0, q0, q1			; CHECK-NEXT: vadd.i16 q1, q1, q0
	; CHECK-NEXT: le lr, .LBB5_2			; CHECK-NEXT: le lr, .LBB5_2
	; CHECK-NEXT: @ %bb.3: @ %middle.block			; CHECK-NEXT: @ %bb.3: @ %middle.block
	; CHECK-NEXT: vpsel q0, q0, q1			; CHECK-NEXT: vpsel q0, q1, q0
	; CHECK-NEXT: vaddv.u16 r0, q0			; CHECK-NEXT: vaddv.u16 r0, q0
	; CHECK-NEXT: pop.w {r7, lr}			; CHECK-NEXT: pop.w {r7, lr}
	; CHECK-NEXT: sxth r0, r0			; CHECK-NEXT: sxth r0, r0
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%cmp12 = icmp eq i32 %N, 0			%cmp12 = icmp eq i32 %N, 0
	br i1 %cmp12, label %for.cond.cleanup, label %vector.ph			br i1 %cmp12, label %for.cond.cleanup, label %vector.ph

	Show All 34 Lines
	define dso_local arm_aapcs_vfpcc i32 @two_loops_mul_add_v4i32(i8* nocapture readonly %a, i8* nocapture readonly %b, i32 %N) local_unnamed_addr {			define dso_local arm_aapcs_vfpcc i32 @two_loops_mul_add_v4i32(i8* nocapture readonly %a, i8* nocapture readonly %b, i32 %N) local_unnamed_addr {
	; CHECK-LABEL: two_loops_mul_add_v4i32:			; CHECK-LABEL: two_loops_mul_add_v4i32:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: push {r4, r5, r6, lr}			; CHECK-NEXT: push {r4, r5, r6, lr}
	; CHECK-NEXT: cmp r2, #0			; CHECK-NEXT: cmp r2, #0
	; CHECK-NEXT: beq .LBB6_8			; CHECK-NEXT: beq .LBB6_8
	; CHECK-NEXT: @ %bb.1: @ %vector.ph			; CHECK-NEXT: @ %bb.1: @ %vector.ph
	; CHECK-NEXT: adds r3, r2, #3			; CHECK-NEXT: adds r3, r2, #3
	; CHECK-NEXT: vmov.i32 q0, #0x0			; CHECK-NEXT: vmov.i32 q1, #0x0
	; CHECK-NEXT: bic r3, r3, #3			; CHECK-NEXT: bic r3, r3, #3
	; CHECK-NEXT: mov r4, r0			; CHECK-NEXT: mov r4, r0
	; CHECK-NEXT: subs r6, r3, #4			; CHECK-NEXT: subs r6, r3, #4
	; CHECK-NEXT: movs r3, #1			; CHECK-NEXT: movs r3, #1
	; CHECK-NEXT: mov r5, r1			; CHECK-NEXT: mov r5, r1
	; CHECK-NEXT: add.w lr, r3, r6, lsr #2			; CHECK-NEXT: add.w lr, r3, r6, lsr #2
	; CHECK-NEXT: mov r3, r2			; CHECK-NEXT: mov r3, r2
	; CHECK-NEXT: dls lr, lr			; CHECK-NEXT: dls lr, lr
	; CHECK-NEXT: .LBB6_2: @ %vector.body			; CHECK-NEXT: .LBB6_2: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vctp.32 r3			; CHECK-NEXT: vctp.32 r3
	; CHECK-NEXT: vmov q1, q0			; CHECK-NEXT: vmov q0, q1
	; CHECK-NEXT: vpstt			; CHECK-NEXT: vpstt
	; CHECK-NEXT: vldrbt.u32 q0, [r4], #4			; CHECK-NEXT: vldrbt.u32 q1, [r4], #4
	; CHECK-NEXT: vldrbt.u32 q2, [r5], #4			; CHECK-NEXT: vldrbt.u32 q2, [r5], #4
	; CHECK-NEXT: subs r3, #4			; CHECK-NEXT: subs r3, #4
	; CHECK-NEXT: vmul.i32 q0, q2, q0			; CHECK-NEXT: vmul.i32 q1, q2, q1
	; CHECK-NEXT: vadd.i32 q0, q0, q1			; CHECK-NEXT: vadd.i32 q1, q1, q0
	; CHECK-NEXT: le lr, .LBB6_2			; CHECK-NEXT: le lr, .LBB6_2
	; CHECK-NEXT: @ %bb.3: @ %middle.block			; CHECK-NEXT: @ %bb.3: @ %middle.block
	; CHECK-NEXT: vpsel q0, q0, q1			; CHECK-NEXT: vpsel q0, q1, q0
	; CHECK-NEXT: vaddv.u32 r12, q0			; CHECK-NEXT: vaddv.u32 r12, q0
	; CHECK-NEXT: cbz r2, .LBB6_7			; CHECK-NEXT: cbz r2, .LBB6_7
	; CHECK-NEXT: @ %bb.4: @ %vector.ph47			; CHECK-NEXT: @ %bb.4: @ %vector.ph47
	; CHECK-NEXT: movs r3, #0			; CHECK-NEXT: movs r3, #0
	; CHECK-NEXT: vdup.32 q0, r3			; CHECK-NEXT: vdup.32 q0, r3
	; CHECK-NEXT: movs r3, #1			; CHECK-NEXT: movs r3, #1
	; CHECK-NEXT: add.w lr, r3, r6, lsr #2			; CHECK-NEXT: add.w lr, r3, r6, lsr #2
	; CHECK-NEXT: vmov.32 q0[0], r12			; CHECK-NEXT: vmov.32 q0[0], r12
	▲ Show 20 Lines • Show All 89 Lines • ▼ Show 20 Lines
	define dso_local arm_aapcs_vfpcc void @two_reductions_mul_add_v8i16(i8* nocapture readonly %a, i8* nocapture readonly %b, i32 %N) local_unnamed_addr {			define dso_local arm_aapcs_vfpcc void @two_reductions_mul_add_v8i16(i8* nocapture readonly %a, i8* nocapture readonly %b, i32 %N) local_unnamed_addr {
	; CHECK-LABEL: two_reductions_mul_add_v8i16:			; CHECK-LABEL: two_reductions_mul_add_v8i16:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: push {r4, lr}			; CHECK-NEXT: push {r4, lr}
	; CHECK-NEXT: vpush {d8, d9}			; CHECK-NEXT: vpush {d8, d9}
	; CHECK-NEXT: cbz r2, .LBB7_4			; CHECK-NEXT: cbz r2, .LBB7_4
	; CHECK-NEXT: @ %bb.1: @ %vector.ph			; CHECK-NEXT: @ %bb.1: @ %vector.ph
	; CHECK-NEXT: adds r3, r2, #7			; CHECK-NEXT: adds r3, r2, #7
	; CHECK-NEXT: vmov.i32 q0, #0x0			; CHECK-NEXT: vmov.i32 q1, #0x0
	; CHECK-NEXT: bic r3, r3, #7			; CHECK-NEXT: bic r3, r3, #7
	; CHECK-NEXT: movs r4, #1			; CHECK-NEXT: movs r4, #1
	; CHECK-NEXT: subs r3, #8			; CHECK-NEXT: subs r3, #8
	; CHECK-NEXT: vmov q3, q0			; CHECK-NEXT: vmov q3, q1
	; CHECK-NEXT: add.w lr, r4, r3, lsr #3			; CHECK-NEXT: add.w lr, r4, r3, lsr #3
	; CHECK-NEXT: mov r3, r0			; CHECK-NEXT: mov r3, r0
	; CHECK-NEXT: dls lr, lr
	; CHECK-NEXT: mov r4, r1			; CHECK-NEXT: mov r4, r1
				; CHECK-NEXT: dls lr, lr
	; CHECK-NEXT: .LBB7_2: @ %vector.body			; CHECK-NEXT: .LBB7_2: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vctp.16 r2			; CHECK-NEXT: vctp.16 r2
	; CHECK-NEXT: vmov q1, q0			; CHECK-NEXT: vmov q0, q1
	; CHECK-NEXT: vpstt			; CHECK-NEXT: vpstt
	; CHECK-NEXT: vldrbt.u16 q0, [r3], #8			; CHECK-NEXT: vldrbt.u16 q1, [r3], #8
	; CHECK-NEXT: vldrbt.u16 q4, [r4], #8			; CHECK-NEXT: vldrbt.u16 q4, [r4], #8
	; CHECK-NEXT: vmov q2, q3			; CHECK-NEXT: vmov q2, q3
	; CHECK-NEXT: vsub.i16 q3, q4, q0			; CHECK-NEXT: vsub.i16 q3, q4, q1
	; CHECK-NEXT: vmul.i16 q0, q4, q0			; CHECK-NEXT: vmul.i16 q1, q4, q1
	; CHECK-NEXT: subs r2, #8			; CHECK-NEXT: subs r2, #8
	; CHECK-NEXT: vadd.i16 q3, q3, q2			; CHECK-NEXT: vadd.i16 q3, q3, q2
	; CHECK-NEXT: vadd.i16 q0, q0, q1			; CHECK-NEXT: vadd.i16 q1, q1, q0
	; CHECK-NEXT: le lr, .LBB7_2			; CHECK-NEXT: le lr, .LBB7_2
	; CHECK-NEXT: @ %bb.3: @ %middle.block			; CHECK-NEXT: @ %bb.3: @ %middle.block
	; CHECK-NEXT: vpsel q2, q3, q2			; CHECK-NEXT: vpsel q2, q3, q2
	; CHECK-NEXT: vpsel q0, q0, q1			; CHECK-NEXT: vpsel q0, q1, q0
	; CHECK-NEXT: vaddv.u16 r4, q2			; CHECK-NEXT: vaddv.u16 r4, q2
	; CHECK-NEXT: vaddv.u16 r2, q0			; CHECK-NEXT: vaddv.u16 r2, q0
	; CHECK-NEXT: b .LBB7_5			; CHECK-NEXT: b .LBB7_5
	; CHECK-NEXT: .LBB7_4:			; CHECK-NEXT: .LBB7_4:
	; CHECK-NEXT: movs r2, #0			; CHECK-NEXT: movs r2, #0
	; CHECK-NEXT: movs r4, #0			; CHECK-NEXT: movs r4, #0
	; CHECK-NEXT: .LBB7_5: @ %for.cond.cleanup			; CHECK-NEXT: .LBB7_5: @ %for.cond.cleanup
	; CHECK-NEXT: strb r2, [r0]			; CHECK-NEXT: strb r2, [r0]
	▲ Show 20 Lines • Show All 171 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/LowOverheadLoops/while-loops.ll

Show First 20 Lines • Show All 47 Lines • ▼ Show 20 Lines	if.end: ; preds = %do.body, %entry
%s.1 = phi i32 [ %m, %entry ], [ %add2, %do.body ]		%s.1 = phi i32 [ %m, %entry ], [ %add2, %do.body ]
store i32 %s.1, i32* %z, align 4		store i32 %s.1, i32* %z, align 4
ret void		ret void
}		}

define void @nested(i32* nocapture readonly %x, i32* nocapture readnone %y, i32* nocapture %z, i32 %m, i32 %n) {		define void @nested(i32* nocapture readonly %x, i32* nocapture readnone %y, i32* nocapture %z, i32 %m, i32 %n) {
; CHECK-LABEL: nested:		; CHECK-LABEL: nested:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r4, r5, r6, r7, r8, lr}		; CHECK-NEXT: .save {r4, r5, r6, r7, r8, r9, lr}
; CHECK-NEXT: push.w {r4, r5, r6, r7, r8, lr}		; CHECK-NEXT: push.w {r4, r5, r6, r7, r8, r9, lr}
; CHECK-NEXT: cbz r3, .LBB1_8		; CHECK-NEXT: cbz r3, .LBB1_8
; CHECK-NEXT: @ %bb.1: @ %for.body.preheader		; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
; CHECK-NEXT: ldr r5, [sp, #24]		; CHECK-NEXT: ldr r5, [sp, #28]
; CHECK-NEXT: mov.w r12, #0		; CHECK-NEXT: mov.w r12, #0
; CHECK-NEXT: movs r1, #0		; CHECK-NEXT: movs r1, #0
; CHECK-NEXT: b .LBB1_4		; CHECK-NEXT: b .LBB1_4
; CHECK-NEXT: .LBB1_2: @ in Loop: Header=BB1_4 Depth=1		; CHECK-NEXT: .LBB1_2: @ in Loop: Header=BB1_4 Depth=1
; CHECK-NEXT: mov r4, r3		; CHECK-NEXT: mov r4, r3
; CHECK-NEXT: .LBB1_3: @ %if.end		; CHECK-NEXT: .LBB1_3: @ %if.end
; CHECK-NEXT: @ in Loop: Header=BB1_4 Depth=1		; CHECK-NEXT: @ in Loop: Header=BB1_4 Depth=1
; CHECK-NEXT: str.w r4, [r2, r1, lsl #2]		; CHECK-NEXT: str.w r4, [r2, r1, lsl #2]
; CHECK-NEXT: adds r1, #1		; CHECK-NEXT: adds r1, #1
; CHECK-NEXT: cmp r1, r3		; CHECK-NEXT: cmp r1, r3
; CHECK-NEXT: beq .LBB1_8		; CHECK-NEXT: beq .LBB1_8
; CHECK-NEXT: .LBB1_4: @ %for.body		; CHECK-NEXT: .LBB1_4: @ %for.body
; CHECK-NEXT: @ =>This Loop Header: Depth=1		; CHECK-NEXT: @ =>This Loop Header: Depth=1
; CHECK-NEXT: @ Child Loop BB1_6 Depth 2		; CHECK-NEXT: @ Child Loop BB1_6 Depth 2
; CHECK-NEXT: adds r7, r5, #3		; CHECK-NEXT: adds r7, r5, #3
; CHECK-NEXT: cmp.w r12, r7, lsr #2		; CHECK-NEXT: cmp.w r12, r7, lsr #2
; CHECK-NEXT: beq .LBB1_2		; CHECK-NEXT: beq .LBB1_2
; CHECK-NEXT: @ %bb.5: @ %do.body.preheader		; CHECK-NEXT: @ %bb.5: @ %do.body.preheader
; CHECK-NEXT: @ in Loop: Header=BB1_4 Depth=1		; CHECK-NEXT: @ in Loop: Header=BB1_4 Depth=1
; CHECK-NEXT: bic r6, r7, #3		; CHECK-NEXT: bic r9, r7, #3
; CHECK-NEXT: dlstp.32 lr, r5
; CHECK-NEXT: mov r7, r5		; CHECK-NEXT: mov r7, r5
; CHECK-NEXT: add.w r8, r0, r6, lsl #2
; CHECK-NEXT: mov r4, r3		; CHECK-NEXT: mov r4, r3
		; CHECK-NEXT: add.w r8, r0, r9, lsl #2
		; CHECK-NEXT: dlstp.32 lr, r5
; CHECK-NEXT: .LBB1_6: @ %do.body		; CHECK-NEXT: .LBB1_6: @ %do.body
; CHECK-NEXT: @ Parent Loop BB1_4 Depth=1		; CHECK-NEXT: @ Parent Loop BB1_4 Depth=1
; CHECK-NEXT: @ => This Inner Loop Header: Depth=2		; CHECK-NEXT: @ => This Inner Loop Header: Depth=2
; CHECK-NEXT: vldrw.u32 q0, [r0], #16		; CHECK-NEXT: vldrw.u32 q0, [r0], #16
; CHECK-NEXT: vaddva.s32 r4, q0		; CHECK-NEXT: vaddva.s32 r4, q0
; CHECK-NEXT: letp lr, .LBB1_6		; CHECK-NEXT: letp lr, .LBB1_6
; CHECK-NEXT: @ %bb.7: @ %if.end.loopexit		; CHECK-NEXT: @ %bb.7: @ %if.end.loopexit
; CHECK-NEXT: @ in Loop: Header=BB1_4 Depth=1		; CHECK-NEXT: @ in Loop: Header=BB1_4 Depth=1
; CHECK-NEXT: subs r5, r5, r6		; CHECK-NEXT: sub.w r5, r5, r9
; CHECK-NEXT: mov r0, r8		; CHECK-NEXT: mov r0, r8
; CHECK-NEXT: b .LBB1_3		; CHECK-NEXT: b .LBB1_3
; CHECK-NEXT: .LBB1_8: @ %for.cond.cleanup		; CHECK-NEXT: .LBB1_8: @ %for.cond.cleanup
; CHECK-NEXT: pop.w {r4, r5, r6, r7, r8, pc}		; CHECK-NEXT: pop.w {r4, r5, r6, r7, r8, r9, pc}
entry:		entry:
%cmp20.not = icmp eq i32 %m, 0		%cmp20.not = icmp eq i32 %m, 0
br i1 %cmp20.not, label %for.cond.cleanup, label %for.body		br i1 %cmp20.not, label %for.cond.cleanup, label %for.body

for.cond.cleanup: ; preds = %if.end, %entry		for.cond.cleanup: ; preds = %if.end, %entry
ret void		ret void

for.body: ; preds = %entry, %if.end		for.body: ; preds = %entry, %if.end
▲ Show 20 Lines • Show All 46 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-fma-loops.ll

	Show First 20 Lines • Show All 260 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: .save {r4, lr}			; CHECK-NEXT: .save {r4, lr}
	; CHECK-NEXT: push {r4, lr}			; CHECK-NEXT: push {r4, lr}
	; CHECK-NEXT: cmp r3, #1			; CHECK-NEXT: cmp r3, #1
	; CHECK-NEXT: it lt			; CHECK-NEXT: it lt
	; CHECK-NEXT: poplt {r4, pc}			; CHECK-NEXT: poplt {r4, pc}
	; CHECK-NEXT: .LBB4_1: @ %vector.ph			; CHECK-NEXT: .LBB4_1: @ %vector.ph
	; CHECK-NEXT: vmov r12, s0			; CHECK-NEXT: vmov r12, s0
	; CHECK-NEXT: movs r4, #0			; CHECK-NEXT: movs r4, #0
	; CHECK-NEXT: dlstp.32 lr, r3
	; CHECK-NEXT: eor r12, r12, #-2147483648			; CHECK-NEXT: eor r12, r12, #-2147483648
				; CHECK-NEXT: dlstp.32 lr, r3
	; CHECK-NEXT: .LBB4_2: @ %vector.body			; CHECK-NEXT: .LBB4_2: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: adds r4, #4			; CHECK-NEXT: adds r4, #4
	; CHECK-NEXT: vldrw.u32 q0, [r1], #16			; CHECK-NEXT: vldrw.u32 q0, [r1], #16
	; CHECK-NEXT: vldrw.u32 q1, [r0], #16			; CHECK-NEXT: vldrw.u32 q1, [r0], #16
	; CHECK-NEXT: vfmas.f32 q1, q0, r12			; CHECK-NEXT: vfmas.f32 q1, q0, r12
	; CHECK-NEXT: vstrw.32 q1, [r2], #16			; CHECK-NEXT: vstrw.32 q1, [r2], #16
	; CHECK-NEXT: letp lr, .LBB4_2			; CHECK-NEXT: letp lr, .LBB4_2
	▲ Show 20 Lines • Show All 246 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: .save {r4, lr}			; CHECK-NEXT: .save {r4, lr}
	; CHECK-NEXT: push {r4, lr}			; CHECK-NEXT: push {r4, lr}
	; CHECK-NEXT: cmp r3, #1			; CHECK-NEXT: cmp r3, #1
	; CHECK-NEXT: it lt			; CHECK-NEXT: it lt
	; CHECK-NEXT: poplt {r4, pc}			; CHECK-NEXT: poplt {r4, pc}
	; CHECK-NEXT: .LBB8_1: @ %vector.ph			; CHECK-NEXT: .LBB8_1: @ %vector.ph
	; CHECK-NEXT: vmov r12, s0			; CHECK-NEXT: vmov r12, s0
	; CHECK-NEXT: movs r4, #0			; CHECK-NEXT: movs r4, #0
	; CHECK-NEXT: dlstp.32 lr, r3
	; CHECK-NEXT: eor r12, r12, #-2147483648			; CHECK-NEXT: eor r12, r12, #-2147483648
				; CHECK-NEXT: dlstp.32 lr, r3
	; CHECK-NEXT: .LBB8_2: @ %vector.body			; CHECK-NEXT: .LBB8_2: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: adds r4, #4			; CHECK-NEXT: adds r4, #4
	; CHECK-NEXT: vldrw.u32 q0, [r0], #16			; CHECK-NEXT: vldrw.u32 q0, [r0], #16
	; CHECK-NEXT: vldrw.u32 q1, [r1], #16			; CHECK-NEXT: vldrw.u32 q1, [r1], #16
	; CHECK-NEXT: vfma.f32 q1, q0, r12			; CHECK-NEXT: vfma.f32 q1, q0, r12
	; CHECK-NEXT: vstrw.32 q1, [r2], #16			; CHECK-NEXT: vstrw.32 q1, [r2], #16
	; CHECK-NEXT: letp lr, .LBB8_2			; CHECK-NEXT: letp lr, .LBB8_2
	▲ Show 20 Lines • Show All 243 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-gather-scatter-tailpred.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp -enable-arm-maskedldst -enable-mem-access-versioning=false -tail-predication=force-enabled %s -o - \| FileCheck %s			; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp -enable-arm-maskedldst -enable-mem-access-versioning=false -tail-predication=force-enabled %s -o - \| FileCheck %s

	define dso_local void @mve_gather_qi_wb(i32* noalias nocapture readonly %A, i32* noalias nocapture readonly %B, i32* noalias nocapture %C, i32 %n, i32 %m, i32 %l) {			define dso_local void @mve_gather_qi_wb(i32* noalias nocapture readonly %A, i32* noalias nocapture readonly %B, i32* noalias nocapture %C, i32 %n, i32 %m, i32 %l) {
	; CHECK-LABEL: mve_gather_qi_wb:			; CHECK-LABEL: mve_gather_qi_wb:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r7, lr}			; CHECK-NEXT: .save {r7, lr}
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: add.w r12, r0, r3, lsl #2			; CHECK-NEXT: add.w r12, r0, r3, lsl #2
	; CHECK-NEXT: adr r0, .LCPI0_0			; CHECK-NEXT: adr r0, .LCPI0_0
	; CHECK-NEXT: vldrw.u32 q0, [r0]			; CHECK-NEXT: vldrw.u32 q0, [r0]
	; CHECK-NEXT: movw lr, #1250
	; CHECK-NEXT: vmov.i32 q1, #0x0			; CHECK-NEXT: vmov.i32 q1, #0x0
	; CHECK-NEXT: dls lr, lr			; CHECK-NEXT: movw lr, #1250
	; CHECK-NEXT: vadd.i32 q0, q0, r1			; CHECK-NEXT: vadd.i32 q0, q0, r1
	; CHECK-NEXT: adds r1, r3, #4			; CHECK-NEXT: adds r1, r3, #4
				; CHECK-NEXT: dls lr, lr
	; CHECK-NEXT: .LBB0_1: @ %vector.body			; CHECK-NEXT: .LBB0_1: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vctp.32 r3			; CHECK-NEXT: vctp.32 r3
	; CHECK-NEXT: vmov q2, q1			; CHECK-NEXT: vmov q2, q1
	; CHECK-NEXT: vpstt			; CHECK-NEXT: vpstt
	; CHECK-NEXT: vldrwt.u32 q1, [r12], #16			; CHECK-NEXT: vldrwt.u32 q1, [r12], #16
	; CHECK-NEXT: vldrwt.u32 q3, [q0, #80]!			; CHECK-NEXT: vldrwt.u32 q3, [q0, #80]!
	; CHECK-NEXT: subs r3, #4			; CHECK-NEXT: subs r3, #4
	▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	; CHECK-LABEL: mve_gatherscatter_offset:			; CHECK-LABEL: mve_gatherscatter_offset:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r4, lr}			; CHECK-NEXT: .save {r4, lr}
	; CHECK-NEXT: push {r4, lr}			; CHECK-NEXT: push {r4, lr}
	; CHECK-NEXT: .vsave {d8, d9}			; CHECK-NEXT: .vsave {d8, d9}
	; CHECK-NEXT: vpush {d8, d9}			; CHECK-NEXT: vpush {d8, d9}
	; CHECK-NEXT: add.w r4, r0, r3, lsl #2			; CHECK-NEXT: add.w r4, r0, r3, lsl #2
	; CHECK-NEXT: adr r0, .LCPI1_0			; CHECK-NEXT: adr r0, .LCPI1_0
	; CHECK-NEXT: movw lr, #1250
	; CHECK-NEXT: vldrw.u32 q1, [r0]			; CHECK-NEXT: vldrw.u32 q1, [r0]
	; CHECK-NEXT: add.w r12, r3, #4			; CHECK-NEXT: add.w r12, r3, #4
	; CHECK-NEXT: vmov.i32 q2, #0x0			; CHECK-NEXT: vmov.i32 q2, #0x0
	; CHECK-NEXT: vmov.i32 q0, #0x14			; CHECK-NEXT: vmov.i32 q0, #0x14
				; CHECK-NEXT: movw lr, #1250
	; CHECK-NEXT: dls lr, lr			; CHECK-NEXT: dls lr, lr
	; CHECK-NEXT: .LBB1_1: @ %vector.body			; CHECK-NEXT: .LBB1_1: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vctp.32 r3			; CHECK-NEXT: vctp.32 r3
	; CHECK-NEXT: vmov q3, q2			; CHECK-NEXT: vmov q3, q2
	; CHECK-NEXT: vpstt			; CHECK-NEXT: vpstt
	; CHECK-NEXT: vldrwt.u32 q2, [r1, q1, uxtw #2]			; CHECK-NEXT: vldrwt.u32 q2, [r1, q1, uxtw #2]
	; CHECK-NEXT: vldrwt.u32 q4, [r4], #16			; CHECK-NEXT: vldrwt.u32 q4, [r4], #16
	▲ Show 20 Lines • Show All 54 Lines • ▼ Show 20 Lines
	define dso_local void @mve_scatter_qi(i32* noalias nocapture readonly %A, i32* noalias nocapture readonly %B, i32* noalias nocapture %C, i32 %n, i32 %m, i32 %l) {			define dso_local void @mve_scatter_qi(i32* noalias nocapture readonly %A, i32* noalias nocapture readonly %B, i32* noalias nocapture %C, i32 %n, i32 %m, i32 %l) {
	; CHECK-LABEL: mve_scatter_qi:			; CHECK-LABEL: mve_scatter_qi:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r7, lr}			; CHECK-NEXT: .save {r7, lr}
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: add.w r12, r0, r3, lsl #2			; CHECK-NEXT: add.w r12, r0, r3, lsl #2
	; CHECK-NEXT: adr r0, .LCPI2_0			; CHECK-NEXT: adr r0, .LCPI2_0
	; CHECK-NEXT: vldrw.u32 q0, [r0]			; CHECK-NEXT: vldrw.u32 q0, [r0]
	; CHECK-NEXT: movw lr, #1250
	; CHECK-NEXT: vmov.i32 q1, #0x0			; CHECK-NEXT: vmov.i32 q1, #0x0
				; CHECK-NEXT: movw lr, #1250
	; CHECK-NEXT: vmov.i32 q2, #0x3			; CHECK-NEXT: vmov.i32 q2, #0x3
	; CHECK-NEXT: vadd.i32 q0, q0, r1			; CHECK-NEXT: vadd.i32 q0, q0, r1
	; CHECK-NEXT: adds r1, r3, #4			; CHECK-NEXT: adds r1, r3, #4
	; CHECK-NEXT: dls lr, lr			; CHECK-NEXT: dls lr, lr
	; CHECK-NEXT: .LBB2_1: @ %vector.body			; CHECK-NEXT: .LBB2_1: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vctp.32 r3			; CHECK-NEXT: vctp.32 r3
	; CHECK-NEXT: vmov q3, q1			; CHECK-NEXT: vmov q3, q1
	▲ Show 20 Lines • Show All 282 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-postinc-dct.ll

	Show All 9 Lines
	; CHECK-NEXT: push.w {r4, r5, r6, r7, r8, r9, lr}			; CHECK-NEXT: push.w {r4, r5, r6, r7, r8, r9, lr}
	; CHECK-NEXT: ldr r3, [r0, #4]			; CHECK-NEXT: ldr r3, [r0, #4]
	; CHECK-NEXT: sub.w r12, r3, #1			; CHECK-NEXT: sub.w r12, r3, #1
	; CHECK-NEXT: cmp.w r12, #2			; CHECK-NEXT: cmp.w r12, #2
	; CHECK-NEXT: blo .LBB0_5			; CHECK-NEXT: blo .LBB0_5
	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader			; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
	; CHECK-NEXT: ldr r5, [r0, #8]			; CHECK-NEXT: ldr r5, [r0, #8]
	; CHECK-NEXT: ldr r3, [r0]			; CHECK-NEXT: ldr r3, [r0]
	; CHECK-NEXT: add.w r4, r3, r5, lsl #2			; CHECK-NEXT: add.w r3, r3, r5, lsl #2
	; CHECK-NEXT: movs r0, #1			; CHECK-NEXT: movs r0, #1
	; CHECK-NEXT: lsl.w r9, r5, #2			; CHECK-NEXT: lsl.w r9, r5, #2
	; CHECK-NEXT: .LBB0_2: @ %for.body			; CHECK-NEXT: .LBB0_2: @ %for.body
	; CHECK-NEXT: @ =>This Loop Header: Depth=1			; CHECK-NEXT: @ =>This Loop Header: Depth=1
	; CHECK-NEXT: @ Child Loop BB0_3 Depth 2			; CHECK-NEXT: @ Child Loop BB0_3 Depth 2
	; CHECK-NEXT: vmov.i32 q0, #0x0			; CHECK-NEXT: vmov.i32 q0, #0x0
				; CHECK-NEXT: mov r6, r1
				; CHECK-NEXT: mov r7, r3
				; CHECK-NEXT: mov r4, r5
	; CHECK-NEXT: dlstp.32 lr, r5			; CHECK-NEXT: dlstp.32 lr, r5
	; CHECK-NEXT: mov r7, r1
	; CHECK-NEXT: mov r3, r4
	; CHECK-NEXT: mov r6, r5
	; CHECK-NEXT: .LBB0_3: @ %vector.body			; CHECK-NEXT: .LBB0_3: @ %vector.body
	; CHECK-NEXT: @ Parent Loop BB0_2 Depth=1			; CHECK-NEXT: @ Parent Loop BB0_2 Depth=1
	; CHECK-NEXT: @ => This Inner Loop Header: Depth=2			; CHECK-NEXT: @ => This Inner Loop Header: Depth=2
	; CHECK-NEXT: vldrw.u32 q1, [r7], #16			; CHECK-NEXT: vldrw.u32 q1, [r6], #16
	; CHECK-NEXT: vldrw.u32 q2, [r3], #16			; CHECK-NEXT: vldrw.u32 q2, [r7], #16
	; CHECK-NEXT: vfma.f32 q0, q2, q1			; CHECK-NEXT: vfma.f32 q0, q2, q1
	; CHECK-NEXT: letp lr, .LBB0_3			; CHECK-NEXT: letp lr, .LBB0_3
	; CHECK-NEXT: @ %bb.4: @ %middle.block			; CHECK-NEXT: @ %bb.4: @ %middle.block
	; CHECK-NEXT: @ in Loop: Header=BB0_2 Depth=1			; CHECK-NEXT: @ in Loop: Header=BB0_2 Depth=1
	; CHECK-NEXT: vadd.f32 s4, s2, s3			; CHECK-NEXT: vadd.f32 s4, s2, s3
	; CHECK-NEXT: add.w r3, r2, r0, lsl #2			; CHECK-NEXT: add.w r7, r2, r0, lsl #2
	; CHECK-NEXT: vadd.f32 s0, s0, s1			; CHECK-NEXT: vadd.f32 s0, s0, s1
	; CHECK-NEXT: adds r0, #1			; CHECK-NEXT: adds r0, #1
	; CHECK-NEXT: add r4, r9			; CHECK-NEXT: add r3, r9
	; CHECK-NEXT: cmp r0, r12			; CHECK-NEXT: cmp r0, r12
	; CHECK-NEXT: vadd.f32 s0, s0, s4			; CHECK-NEXT: vadd.f32 s0, s0, s4
	; CHECK-NEXT: vstr s0, [r3]			; CHECK-NEXT: vstr s0, [r7]
	; CHECK-NEXT: bne .LBB0_2			; CHECK-NEXT: bne .LBB0_2
	; CHECK-NEXT: .LBB0_5: @ %for.cond.cleanup			; CHECK-NEXT: .LBB0_5: @ %for.cond.cleanup
	; CHECK-NEXT: pop.w {r4, r5, r6, r7, r8, r9, pc}			; CHECK-NEXT: pop.w {r4, r5, r6, r7, r8, r9, pc}
	entry:			entry:
	%NumInputs = getelementptr inbounds %struct.DCT_InstanceTypeDef, %struct.DCT_InstanceTypeDef* %S, i32 0, i32 2			%NumInputs = getelementptr inbounds %struct.DCT_InstanceTypeDef, %struct.DCT_InstanceTypeDef* %S, i32 0, i32 2
	%0 = load i32, i32* %NumInputs, align 4			%0 = load i32, i32* %NumInputs, align 4
	%NumFilters = getelementptr inbounds %struct.DCT_InstanceTypeDef, %struct.DCT_InstanceTypeDef* %S, i32 0, i32 1			%NumFilters = getelementptr inbounds %struct.DCT_InstanceTypeDef, %struct.DCT_InstanceTypeDef* %S, i32 0, i32 1
	%1 = load i32, i32* %NumFilters, align 4			%1 = load i32, i32* %NumFilters, align 4
	▲ Show 20 Lines • Show All 56 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: ldr r1, [r0, #4]			; CHECK-NEXT: ldr r1, [r0, #4]
	; CHECK-NEXT: subs r1, #2			; CHECK-NEXT: subs r1, #2
	; CHECK-NEXT: cmp r1, #2			; CHECK-NEXT: cmp r1, #2
	; CHECK-NEXT: blo .LBB1_5			; CHECK-NEXT: blo .LBB1_5
	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader			; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
	; CHECK-NEXT: ldr.w r12, [r0, #8]			; CHECK-NEXT: ldr.w r12, [r0, #8]
	; CHECK-NEXT: movs r4, #1			; CHECK-NEXT: movs r4, #1
	; CHECK-NEXT: ldr r3, [r0]			; CHECK-NEXT: ldr r3, [r0]
	; CHECK-NEXT: add.w r0, r12, #3			; CHECK-NEXT: add.w r11, r3, r12, lsl #2
	; CHECK-NEXT: bic r0, r0, #3
	; CHECK-NEXT: add.w r5, r3, r12, lsl #2
	; CHECK-NEXT: subs r0, #4
	; CHECK-NEXT: add.w r7, r3, r12, lsl #3			; CHECK-NEXT: add.w r7, r3, r12, lsl #3
	; CHECK-NEXT: lsl.w r9, r12, #3			; CHECK-NEXT: lsl.w r9, r12, #3
	; CHECK-NEXT: add.w r8, r4, r0, lsr #2
	; CHECK-NEXT: .LBB1_2: @ %for.body			; CHECK-NEXT: .LBB1_2: @ %for.body
	; CHECK-NEXT: @ =>This Loop Header: Depth=1			; CHECK-NEXT: @ =>This Loop Header: Depth=1
	; CHECK-NEXT: @ Child Loop BB1_3 Depth 2			; CHECK-NEXT: @ Child Loop BB1_3 Depth 2
	; CHECK-NEXT: dls lr, r8			; CHECK-NEXT: ldr r5, [sp] @ 4-byte Reload
	; CHECK-NEXT: ldr r6, [sp] @ 4-byte Reload
	; CHECK-NEXT: vmov.i32 q0, #0x0			; CHECK-NEXT: vmov.i32 q0, #0x0
	; CHECK-NEXT: add.w r11, r4, #1			; CHECK-NEXT: add.w r10, r4, #1
	; CHECK-NEXT: mov r3, r5			; CHECK-NEXT: mov r3, r11
	; CHECK-NEXT: mov r0, r7			; CHECK-NEXT: mov r0, r7
	; CHECK-NEXT: vmov q1, q0			; CHECK-NEXT: vmov q1, q0
	; CHECK-NEXT: mov r10, r12			; CHECK-NEXT: mov r6, r12
				; CHECK-NEXT: dlstp.32 lr, r12
	; CHECK-NEXT: .LBB1_3: @ %vector.body			; CHECK-NEXT: .LBB1_3: @ %vector.body
	; CHECK-NEXT: @ Parent Loop BB1_2 Depth=1			; CHECK-NEXT: @ Parent Loop BB1_2 Depth=1
	; CHECK-NEXT: @ => This Inner Loop Header: Depth=2			; CHECK-NEXT: @ => This Inner Loop Header: Depth=2
	; CHECK-NEXT: vctp.32 r10			; CHECK-NEXT: vldrw.u32 q2, [r5], #16
	; CHECK-NEXT: sub.w r10, r10, #4			; CHECK-NEXT: vldrw.u32 q3, [r3], #16
	; CHECK-NEXT: vpstttt			; CHECK-NEXT: vfma.f32 q1, q3, q2
	; CHECK-NEXT: vldrwt.u32 q2, [r6], #16			; CHECK-NEXT: vldrw.u32 q3, [r0], #16
	; CHECK-NEXT: vldrwt.u32 q3, [r3], #16			; CHECK-NEXT: vfma.f32 q0, q3, q2
	; CHECK-NEXT: vfmat.f32 q1, q3, q2			; CHECK-NEXT: letp lr, .LBB1_3
	; CHECK-NEXT: vldrwt.u32 q3, [r0], #16
	; CHECK-NEXT: vpst
	; CHECK-NEXT: vfmat.f32 q0, q3, q2
	; CHECK-NEXT: le lr, .LBB1_3
	; CHECK-NEXT: @ %bb.4: @ %middle.block			; CHECK-NEXT: @ %bb.4: @ %middle.block
	; CHECK-NEXT: @ in Loop: Header=BB1_2 Depth=1			; CHECK-NEXT: @ in Loop: Header=BB1_2 Depth=1
	; CHECK-NEXT: vadd.f32 s8, s2, s3			; CHECK-NEXT: vadd.f32 s8, s2, s3
	; CHECK-NEXT: add.w r0, r2, r11, lsl #2			; CHECK-NEXT: add.w r0, r2, r10, lsl #2
	; CHECK-NEXT: vadd.f32 s0, s0, s1			; CHECK-NEXT: vadd.f32 s0, s0, s1
	; CHECK-NEXT: add r5, r9			; CHECK-NEXT: add r11, r9
	; CHECK-NEXT: vadd.f32 s2, s6, s7			; CHECK-NEXT: vadd.f32 s2, s6, s7
	; CHECK-NEXT: add r7, r9			; CHECK-NEXT: add r7, r9
	; CHECK-NEXT: vadd.f32 s4, s4, s5			; CHECK-NEXT: vadd.f32 s4, s4, s5
	; CHECK-NEXT: vadd.f32 s0, s0, s8			; CHECK-NEXT: vadd.f32 s0, s0, s8
	; CHECK-NEXT: vadd.f32 s2, s4, s2			; CHECK-NEXT: vadd.f32 s2, s4, s2
	; CHECK-NEXT: vstr s0, [r0]			; CHECK-NEXT: vstr s0, [r0]
	; CHECK-NEXT: add.w r0, r2, r4, lsl #2			; CHECK-NEXT: add.w r0, r2, r4, lsl #2
	; CHECK-NEXT: adds r4, #2			; CHECK-NEXT: adds r4, #2
	▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines
	; CHECK-LABEL: DCT_mve3:			; CHECK-LABEL: DCT_mve3:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r4, r5, r6, r7, r8, r9, r10, r11, lr}			; CHECK-NEXT: .save {r4, r5, r6, r7, r8, r9, r10, r11, lr}
	; CHECK-NEXT: push.w {r4, r5, r6, r7, r8, r9, r10, r11, lr}			; CHECK-NEXT: push.w {r4, r5, r6, r7, r8, r9, r10, r11, lr}
	; CHECK-NEXT: .pad #4			; CHECK-NEXT: .pad #4
	; CHECK-NEXT: sub sp, #4			; CHECK-NEXT: sub sp, #4
	; CHECK-NEXT: .vsave {d8, d9}			; CHECK-NEXT: .vsave {d8, d9}
	; CHECK-NEXT: vpush {d8, d9}			; CHECK-NEXT: vpush {d8, d9}
	; CHECK-NEXT: .pad #16			; CHECK-NEXT: .pad #24
	; CHECK-NEXT: sub sp, #16			; CHECK-NEXT: sub sp, #24
	; CHECK-NEXT: str r1, [sp, #12] @ 4-byte Spill			; CHECK-NEXT: str r1, [sp, #16] @ 4-byte Spill
	; CHECK-NEXT: ldr r1, [r0, #4]			; CHECK-NEXT: ldr r1, [r0, #4]
				; CHECK-NEXT: str r2, [sp, #8] @ 4-byte Spill
	; CHECK-NEXT: subs r1, #3			; CHECK-NEXT: subs r1, #3
	; CHECK-NEXT: str r1, [sp, #8] @ 4-byte Spill			; CHECK-NEXT: str r1, [sp, #12] @ 4-byte Spill
	; CHECK-NEXT: cmp r1, #2			; CHECK-NEXT: cmp r1, #2
	; CHECK-NEXT: blo .LBB2_5			; CHECK-NEXT: blo .LBB2_5
	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader			; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
	; CHECK-NEXT: ldr r7, [r0, #8]			; CHECK-NEXT: ldr r3, [r0, #8]
	; CHECK-NEXT: movs r5, #1			; CHECK-NEXT: movs r5, #1
	; CHECK-NEXT: ldr r3, [r0]			; CHECK-NEXT: ldr r1, [r0]
	; CHECK-NEXT: str r7, [sp, #4] @ 4-byte Spill			; CHECK-NEXT: str r3, [sp, #4] @ 4-byte Spill
	; CHECK-NEXT: add.w r0, r7, r7, lsl #1			; CHECK-NEXT: add.w r0, r3, r3, lsl #1
	; CHECK-NEXT: add.w r12, r3, r7, lsl #2			; CHECK-NEXT: add.w r9, r1, r3, lsl #2
	; CHECK-NEXT: add.w r1, r3, r7, lsl #3			; CHECK-NEXT: add.w r12, r1, r3, lsl #3
	; CHECK-NEXT: add.w r8, r3, r0, lsl #2			; CHECK-NEXT: adds r3, #3
	; CHECK-NEXT: adds r3, r7, #3
	; CHECK-NEXT: bic r3, r3, #3			; CHECK-NEXT: bic r3, r3, #3
	; CHECK-NEXT: lsls r7, r0, #2			; CHECK-NEXT: ldr r7, [sp, #4] @ 4-byte Reload
				; CHECK-NEXT: add.w r10, r1, r0, lsl #2
	; CHECK-NEXT: subs r3, #4			; CHECK-NEXT: subs r3, #4
	; CHECK-NEXT: add.w r3, r5, r3, lsr #2			; CHECK-NEXT: lsl.w r11, r0, #2
	; CHECK-NEXT: str r3, [sp] @ 4-byte Spill			; CHECK-NEXT: add.w r1, r5, r3, lsr #2
				; CHECK-NEXT: str r1, [sp] @ 4-byte Spill
	; CHECK-NEXT: .LBB2_2: @ %for.body			; CHECK-NEXT: .LBB2_2: @ %for.body
	; CHECK-NEXT: @ =>This Loop Header: Depth=1			; CHECK-NEXT: @ =>This Loop Header: Depth=1
	; CHECK-NEXT: @ Child Loop BB2_3 Depth 2			; CHECK-NEXT: @ Child Loop BB2_3 Depth 2
	; CHECK-NEXT: ldrd r0, r10, [sp] @ 8-byte Folded Reload			; CHECK-NEXT: ldr r6, [sp, #16] @ 4-byte Reload
	; CHECK-NEXT: vmov.i32 q0, #0x0			; CHECK-NEXT: vmov.i32 q0, #0x0
	; CHECK-NEXT: add.w r9, r5, #2			; CHECK-NEXT: ldr r1, [sp] @ 4-byte Reload
	; CHECK-NEXT: add.w r11, r5, #1			; CHECK-NEXT: adds r0, r5, #2
	; CHECK-NEXT: dls lr, r0			; CHECK-NEXT: adds r2, r5, #1
	; CHECK-NEXT: ldr r6, [sp, #12] @ 4-byte Reload			; CHECK-NEXT: str r0, [sp, #20] @ 4-byte Spill
	; CHECK-NEXT: mov r3, r12			; CHECK-NEXT: mov r3, r9
	; CHECK-NEXT: mov r0, r1			; CHECK-NEXT: mov r0, r12
	; CHECK-NEXT: mov r4, r8			; CHECK-NEXT: mov r4, r10
	; CHECK-NEXT: vmov q2, q0			; CHECK-NEXT: vmov q2, q0
	; CHECK-NEXT: vmov q1, q0			; CHECK-NEXT: vmov q1, q0
				; CHECK-NEXT: mov r8, r7
				; CHECK-NEXT: dlstp.32 lr, r7
	; CHECK-NEXT: .LBB2_3: @ %vector.body			; CHECK-NEXT: .LBB2_3: @ %vector.body
	; CHECK-NEXT: @ Parent Loop BB2_2 Depth=1			; CHECK-NEXT: @ Parent Loop BB2_2 Depth=1
	; CHECK-NEXT: @ => This Inner Loop Header: Depth=2			; CHECK-NEXT: @ => This Inner Loop Header: Depth=2
	; CHECK-NEXT: vctp.32 r10			; CHECK-NEXT: vldrw.u32 q3, [r6], #16
	; CHECK-NEXT: sub.w r10, r10, #4			; CHECK-NEXT: vldrw.u32 q4, [r3], #16
	; CHECK-NEXT: vpstttt			; CHECK-NEXT: vfma.f32 q1, q4, q3
	; CHECK-NEXT: vldrwt.u32 q3, [r6], #16			; CHECK-NEXT: vldrw.u32 q4, [r0], #16
	; CHECK-NEXT: vldrwt.u32 q4, [r3], #16			; CHECK-NEXT: vfma.f32 q2, q4, q3
	; CHECK-NEXT: vfmat.f32 q1, q4, q3			; CHECK-NEXT: vldrw.u32 q4, [r4], #16
	; CHECK-NEXT: vldrwt.u32 q4, [r0], #16			; CHECK-NEXT: vfma.f32 q0, q4, q3
	; CHECK-NEXT: vpsttt			; CHECK-NEXT: letp lr, .LBB2_3
	; CHECK-NEXT: vfmat.f32 q2, q4, q3
	; CHECK-NEXT: vldrwt.u32 q4, [r4], #16
	; CHECK-NEXT: vfmat.f32 q0, q4, q3
	; CHECK-NEXT: le lr, .LBB2_3
	; CHECK-NEXT: @ %bb.4: @ %middle.block			; CHECK-NEXT: @ %bb.4: @ %middle.block
	; CHECK-NEXT: @ in Loop: Header=BB2_2 Depth=1			; CHECK-NEXT: @ in Loop: Header=BB2_2 Depth=1
	; CHECK-NEXT: vadd.f32 s12, s10, s11			; CHECK-NEXT: vadd.f32 s12, s10, s11
	; CHECK-NEXT: add.w r0, r2, r11, lsl #2			; CHECK-NEXT: ldr r1, [sp, #8] @ 4-byte Reload
	; CHECK-NEXT: vadd.f32 s8, s8, s9			; CHECK-NEXT: vadd.f32 s8, s8, s9
	; CHECK-NEXT: add r12, r7			; CHECK-NEXT: add r9, r11
	; CHECK-NEXT: vadd.f32 s10, s6, s7			; CHECK-NEXT: vadd.f32 s10, s6, s7
	; CHECK-NEXT: add r1, r7			; CHECK-NEXT: add.w r0, r1, r2, lsl #2
	; CHECK-NEXT: vadd.f32 s4, s4, s5			; CHECK-NEXT: vadd.f32 s4, s4, s5
	; CHECK-NEXT: add r8, r7			; CHECK-NEXT: add r12, r11
	; CHECK-NEXT: vadd.f32 s6, s2, s3			; CHECK-NEXT: vadd.f32 s6, s2, s3
				; CHECK-NEXT: add r10, r11
	; CHECK-NEXT: vadd.f32 s0, s0, s1			; CHECK-NEXT: vadd.f32 s0, s0, s1
	; CHECK-NEXT: vadd.f32 s2, s8, s12			; CHECK-NEXT: vadd.f32 s2, s8, s12
	; CHECK-NEXT: vadd.f32 s4, s4, s10			; CHECK-NEXT: vadd.f32 s4, s4, s10
	; CHECK-NEXT: vadd.f32 s0, s0, s6			; CHECK-NEXT: vadd.f32 s0, s0, s6
	; CHECK-NEXT: vstr s2, [r0]			; CHECK-NEXT: vstr s2, [r0]
	; CHECK-NEXT: add.w r0, r2, r5, lsl #2			; CHECK-NEXT: add.w r0, r1, r5, lsl #2
	; CHECK-NEXT: adds r5, #3			; CHECK-NEXT: adds r5, #3
	; CHECK-NEXT: vstr s4, [r0]			; CHECK-NEXT: vstr s4, [r0]
	; CHECK-NEXT: add.w r0, r2, r9, lsl #2			; CHECK-NEXT: ldr r0, [sp, #20] @ 4-byte Reload
				; CHECK-NEXT: add.w r0, r1, r0, lsl #2
	; CHECK-NEXT: vstr s0, [r0]			; CHECK-NEXT: vstr s0, [r0]
	; CHECK-NEXT: ldr r0, [sp, #8] @ 4-byte Reload			; CHECK-NEXT: ldr r0, [sp, #12] @ 4-byte Reload
	; CHECK-NEXT: cmp r5, r0			; CHECK-NEXT: cmp r5, r0
	; CHECK-NEXT: blo .LBB2_2			; CHECK-NEXT: blo .LBB2_2
	; CHECK-NEXT: .LBB2_5: @ %for.cond.cleanup			; CHECK-NEXT: .LBB2_5: @ %for.cond.cleanup
	; CHECK-NEXT: add sp, #16			; CHECK-NEXT: add sp, #24
	; CHECK-NEXT: vpop {d8, d9}			; CHECK-NEXT: vpop {d8, d9}
	; CHECK-NEXT: add sp, #4			; CHECK-NEXT: add sp, #4
	; CHECK-NEXT: pop.w {r4, r5, r6, r7, r8, r9, r10, r11, pc}			; CHECK-NEXT: pop.w {r4, r5, r6, r7, r8, r9, r10, r11, pc}
	entry:			entry:
	%NumInputs = getelementptr inbounds %struct.DCT_InstanceTypeDef, %struct.DCT_InstanceTypeDef* %S, i32 0, i32 2			%NumInputs = getelementptr inbounds %struct.DCT_InstanceTypeDef, %struct.DCT_InstanceTypeDef* %S, i32 0, i32 2
	%0 = load i32, i32* %NumInputs, align 4			%0 = load i32, i32* %NumInputs, align 4
	%NumFilters = getelementptr inbounds %struct.DCT_InstanceTypeDef, %struct.DCT_InstanceTypeDef* %S, i32 0, i32 1			%NumFilters = getelementptr inbounds %struct.DCT_InstanceTypeDef, %struct.DCT_InstanceTypeDef* %S, i32 0, i32 1
	%1 = load i32, i32* %NumFilters, align 4			%1 = load i32, i32* %NumFilters, align 4
	▲ Show 20 Lines • Show All 75 Lines • ▼ Show 20 Lines
	; CHECK-LABEL: DCT_mve4:			; CHECK-LABEL: DCT_mve4:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r4, r5, r6, r7, r8, r9, r10, r11, lr}			; CHECK-NEXT: .save {r4, r5, r6, r7, r8, r9, r10, r11, lr}
	; CHECK-NEXT: push.w {r4, r5, r6, r7, r8, r9, r10, r11, lr}			; CHECK-NEXT: push.w {r4, r5, r6, r7, r8, r9, r10, r11, lr}
	; CHECK-NEXT: .pad #4			; CHECK-NEXT: .pad #4
	; CHECK-NEXT: sub sp, #4			; CHECK-NEXT: sub sp, #4
	; CHECK-NEXT: .vsave {d8, d9, d10, d11}			; CHECK-NEXT: .vsave {d8, d9, d10, d11}
	; CHECK-NEXT: vpush {d8, d9, d10, d11}			; CHECK-NEXT: vpush {d8, d9, d10, d11}
	; CHECK-NEXT: .pad #32			; CHECK-NEXT: .pad #40
	; CHECK-NEXT: sub sp, #32			; CHECK-NEXT: sub sp, #40
	; CHECK-NEXT: str r1, [sp, #16] @ 4-byte Spill			; CHECK-NEXT: str r1, [sp, #24] @ 4-byte Spill
	; CHECK-NEXT: ldr r1, [r0, #4]			; CHECK-NEXT: ldr r1, [r0, #4]
				; CHECK-NEXT: str r2, [sp, #16] @ 4-byte Spill
	; CHECK-NEXT: subs r1, #4			; CHECK-NEXT: subs r1, #4
	; CHECK-NEXT: str r1, [sp, #12] @ 4-byte Spill			; CHECK-NEXT: str r1, [sp, #20] @ 4-byte Spill
	; CHECK-NEXT: cmp r1, #2			; CHECK-NEXT: cmp r1, #2
	; CHECK-NEXT: blo.w .LBB3_5			; CHECK-NEXT: blo.w .LBB3_5
	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader			; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
	; CHECK-NEXT: ldr r3, [r0, #8]			; CHECK-NEXT: ldr r2, [r0, #8]
	; CHECK-NEXT: movs r6, #1			; CHECK-NEXT: movs r6, #1
	; CHECK-NEXT: ldr r1, [r0]			; CHECK-NEXT: ldr r1, [r0]
	; CHECK-NEXT: add.w r0, r3, r3, lsl #1			; CHECK-NEXT: add.w r0, r2, r2, lsl #1
	; CHECK-NEXT: add.w r8, r1, r3, lsl #2			; CHECK-NEXT: add.w r12, r1, r2, lsl #2
	; CHECK-NEXT: add.w r12, r1, r3, lsl #3			; CHECK-NEXT: add.w r8, r1, r2, lsl #3
	; CHECK-NEXT: add.w r10, r1, r3, lsl #4			; CHECK-NEXT: add.w r9, r1, r2, lsl #4
	; CHECK-NEXT: add.w r9, r1, r0, lsl #2			; CHECK-NEXT: add.w r11, r1, r0, lsl #2
	; CHECK-NEXT: adds r0, r3, #3			; CHECK-NEXT: adds r0, r2, #3
	; CHECK-NEXT: bic r0, r0, #3			; CHECK-NEXT: bic r0, r0, #3
	; CHECK-NEXT: lsls r7, r3, #4
	; CHECK-NEXT: subs r0, #4			; CHECK-NEXT: subs r0, #4
	; CHECK-NEXT: add.w r0, r6, r0, lsr #2			; CHECK-NEXT: add.w r0, r6, r0, lsr #2
	; CHECK-NEXT: strd r0, r3, [sp, #4] @ 8-byte Folded Spill			; CHECK-NEXT: strd r0, r2, [sp, #8] @ 8-byte Folded Spill
				; CHECK-NEXT: lsls r0, r2, #4
				; CHECK-NEXT: ldrd r2, r7, [sp, #8] @ 8-byte Folded Reload
				; CHECK-NEXT: str r0, [sp, #4] @ 4-byte Spill
	; CHECK-NEXT: .LBB3_2: @ %for.body			; CHECK-NEXT: .LBB3_2: @ %for.body
	; CHECK-NEXT: @ =>This Loop Header: Depth=1			; CHECK-NEXT: @ =>This Loop Header: Depth=1
	; CHECK-NEXT: @ Child Loop BB3_3 Depth 2			; CHECK-NEXT: @ Child Loop BB3_3 Depth 2
	; CHECK-NEXT: adds r0, r6, #3			; CHECK-NEXT: adds r0, r6, #3
	; CHECK-NEXT: str r0, [sp, #28] @ 4-byte Spill			; CHECK-NEXT: str r0, [sp, #36] @ 4-byte Spill
	; CHECK-NEXT: adds r0, r6, #2			; CHECK-NEXT: adds r0, r6, #2
	; CHECK-NEXT: str r0, [sp, #24] @ 4-byte Spill			; CHECK-NEXT: ldr r1, [sp, #24] @ 4-byte Reload
	; CHECK-NEXT: adds r0, r6, #1
	; CHECK-NEXT: str r0, [sp, #20] @ 4-byte Spill
	; CHECK-NEXT: ldrd r0, r11, [sp, #4] @ 8-byte Folded Reload
	; CHECK-NEXT: vmov.i32 q0, #0x0			; CHECK-NEXT: vmov.i32 q0, #0x0
	; CHECK-NEXT: mov r3, r8			; CHECK-NEXT: str r0, [sp, #32] @ 4-byte Spill
	; CHECK-NEXT: mov r5, r9			; CHECK-NEXT: adds r0, r6, #1
	; CHECK-NEXT: dls lr, r0			; CHECK-NEXT: str r0, [sp, #28] @ 4-byte Spill
	; CHECK-NEXT: ldr r1, [sp, #16] @ 4-byte Reload			; CHECK-NEXT: mov r3, r12
	; CHECK-NEXT: mov r0, r12			; CHECK-NEXT: mov r0, r8
	; CHECK-NEXT: mov r4, r10			; CHECK-NEXT: mov r5, r11
				; CHECK-NEXT: mov r4, r9
	; CHECK-NEXT: vmov q1, q0			; CHECK-NEXT: vmov q1, q0
	; CHECK-NEXT: vmov q2, q0			; CHECK-NEXT: vmov q2, q0
	; CHECK-NEXT: vmov q3, q0			; CHECK-NEXT: vmov q3, q0
				; CHECK-NEXT: mov r10, r7
				; CHECK-NEXT: dlstp.32 lr, r7
	; CHECK-NEXT: .LBB3_3: @ %vector.body			; CHECK-NEXT: .LBB3_3: @ %vector.body
	; CHECK-NEXT: @ Parent Loop BB3_2 Depth=1			; CHECK-NEXT: @ Parent Loop BB3_2 Depth=1
	; CHECK-NEXT: @ => This Inner Loop Header: Depth=2			; CHECK-NEXT: @ => This Inner Loop Header: Depth=2
	; CHECK-NEXT: vctp.32 r11			; CHECK-NEXT: vldrw.u32 q4, [r1], #16
	; CHECK-NEXT: sub.w r11, r11, #4			; CHECK-NEXT: vldrw.u32 q5, [r0], #16
	; CHECK-NEXT: vpstttt			; CHECK-NEXT: vfma.f32 q3, q5, q4
	; CHECK-NEXT: vldrwt.u32 q4, [r1], #16			; CHECK-NEXT: vldrw.u32 q5, [r3], #16
	; CHECK-NEXT: vldrwt.u32 q5, [r0], #16			; CHECK-NEXT: vfma.f32 q2, q5, q4
	; CHECK-NEXT: vfmat.f32 q3, q5, q4			; CHECK-NEXT: vldrw.u32 q5, [r5], #16
	; CHECK-NEXT: vldrwt.u32 q5, [r3], #16			; CHECK-NEXT: vfma.f32 q1, q5, q4
	; CHECK-NEXT: vpstttt			; CHECK-NEXT: vldrw.u32 q5, [r4], #16
	; CHECK-NEXT: vfmat.f32 q2, q5, q4			; CHECK-NEXT: vfma.f32 q0, q5, q4
	; CHECK-NEXT: vldrwt.u32 q5, [r5], #16			; CHECK-NEXT: letp lr, .LBB3_3
	; CHECK-NEXT: vfmat.f32 q1, q5, q4
	; CHECK-NEXT: vldrwt.u32 q5, [r4], #16
	; CHECK-NEXT: vpst
	; CHECK-NEXT: vfmat.f32 q0, q5, q4
	; CHECK-NEXT: le lr, .LBB3_3
	; CHECK-NEXT: @ %bb.4: @ %middle.block			; CHECK-NEXT: @ %bb.4: @ %middle.block
	; CHECK-NEXT: @ in Loop: Header=BB3_2 Depth=1			; CHECK-NEXT: @ in Loop: Header=BB3_2 Depth=1
	; CHECK-NEXT: vadd.f32 s16, s14, s15			; CHECK-NEXT: vadd.f32 s16, s14, s15
	; CHECK-NEXT: ldr r0, [sp, #20] @ 4-byte Reload			; CHECK-NEXT: ldr r0, [sp, #28] @ 4-byte Reload
	; CHECK-NEXT: vadd.f32 s12, s12, s13			; CHECK-NEXT: vadd.f32 s12, s12, s13
	; CHECK-NEXT: add r8, r7			; CHECK-NEXT: ldr r1, [sp, #16] @ 4-byte Reload
	; CHECK-NEXT: vadd.f32 s14, s10, s11			; CHECK-NEXT: vadd.f32 s14, s10, s11
	; CHECK-NEXT: add r12, r7
	; CHECK-NEXT: vadd.f32 s8, s8, s9			; CHECK-NEXT: vadd.f32 s8, s8, s9
	; CHECK-NEXT: add.w r0, r2, r0, lsl #2			; CHECK-NEXT: add.w r0, r1, r0, lsl #2
	; CHECK-NEXT: vadd.f32 s10, s6, s7			; CHECK-NEXT: vadd.f32 s10, s6, s7
	; CHECK-NEXT: add r9, r7
	; CHECK-NEXT: vadd.f32 s4, s4, s5			; CHECK-NEXT: vadd.f32 s4, s4, s5
	; CHECK-NEXT: add r10, r7
	; CHECK-NEXT: vadd.f32 s6, s2, s3			; CHECK-NEXT: vadd.f32 s6, s2, s3
	; CHECK-NEXT: vadd.f32 s0, s0, s1			; CHECK-NEXT: vadd.f32 s0, s0, s1
	; CHECK-NEXT: vadd.f32 s2, s12, s16			; CHECK-NEXT: vadd.f32 s2, s12, s16
	; CHECK-NEXT: vadd.f32 s8, s8, s14			; CHECK-NEXT: vadd.f32 s8, s8, s14
	; CHECK-NEXT: vadd.f32 s4, s4, s10			; CHECK-NEXT: vadd.f32 s4, s4, s10
	; CHECK-NEXT: vadd.f32 s0, s0, s6			; CHECK-NEXT: vadd.f32 s0, s0, s6
	; CHECK-NEXT: vstr s2, [r0]			; CHECK-NEXT: vstr s2, [r0]
	; CHECK-NEXT: add.w r0, r2, r6, lsl #2			; CHECK-NEXT: add.w r0, r1, r6, lsl #2
	; CHECK-NEXT: adds r6, #4			; CHECK-NEXT: adds r6, #4
	; CHECK-NEXT: vstr s8, [r0]			; CHECK-NEXT: vstr s8, [r0]
	; CHECK-NEXT: ldr r0, [sp, #24] @ 4-byte Reload			; CHECK-NEXT: ldr r0, [sp, #32] @ 4-byte Reload
	; CHECK-NEXT: add.w r0, r2, r0, lsl #2			; CHECK-NEXT: add.w r0, r1, r0, lsl #2
	; CHECK-NEXT: vstr s4, [r0]			; CHECK-NEXT: vstr s4, [r0]
	; CHECK-NEXT: ldr r0, [sp, #28] @ 4-byte Reload			; CHECK-NEXT: ldr r0, [sp, #36] @ 4-byte Reload
	; CHECK-NEXT: add.w r0, r2, r0, lsl #2			; CHECK-NEXT: add.w r0, r1, r0, lsl #2
	; CHECK-NEXT: vstr s0, [r0]			; CHECK-NEXT: vstr s0, [r0]
	; CHECK-NEXT: ldr r0, [sp, #12] @ 4-byte Reload			; CHECK-NEXT: ldr r0, [sp, #4] @ 4-byte Reload
				; CHECK-NEXT: add r12, r0
				; CHECK-NEXT: add r8, r0
				; CHECK-NEXT: add r11, r0
				; CHECK-NEXT: add r9, r0
				; CHECK-NEXT: ldr r0, [sp, #20] @ 4-byte Reload
	; CHECK-NEXT: cmp r6, r0			; CHECK-NEXT: cmp r6, r0
	; CHECK-NEXT: blo .LBB3_2			; CHECK-NEXT: blo .LBB3_2
	; CHECK-NEXT: .LBB3_5: @ %for.cond.cleanup			; CHECK-NEXT: .LBB3_5: @ %for.cond.cleanup
	; CHECK-NEXT: add sp, #32			; CHECK-NEXT: add sp, #40
	; CHECK-NEXT: vpop {d8, d9, d10, d11}			; CHECK-NEXT: vpop {d8, d9, d10, d11}
	; CHECK-NEXT: add sp, #4			; CHECK-NEXT: add sp, #4
	; CHECK-NEXT: pop.w {r4, r5, r6, r7, r8, r9, r10, r11, pc}			; CHECK-NEXT: pop.w {r4, r5, r6, r7, r8, r9, r10, r11, pc}
	entry:			entry:
	%NumInputs = getelementptr inbounds %struct.DCT_InstanceTypeDef, %struct.DCT_InstanceTypeDef* %S, i32 0, i32 2			%NumInputs = getelementptr inbounds %struct.DCT_InstanceTypeDef, %struct.DCT_InstanceTypeDef* %S, i32 0, i32 2
	%0 = load i32, i32* %NumInputs, align 4			%0 = load i32, i32* %NumInputs, align 4
	%NumFilters = getelementptr inbounds %struct.DCT_InstanceTypeDef, %struct.DCT_InstanceTypeDef* %S, i32 0, i32 1			%NumFilters = getelementptr inbounds %struct.DCT_InstanceTypeDef, %struct.DCT_InstanceTypeDef* %S, i32 0, i32 1
	%1 = load i32, i32* %NumFilters, align 4			%1 = load i32, i32* %NumFilters, align 4
	▲ Show 20 Lines • Show All 114 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: add.w r1, r0, r1, lsr #2			; CHECK-NEXT: add.w r1, r0, r1, lsr #2
	; CHECK-NEXT: str r1, [sp, #8] @ 4-byte Spill			; CHECK-NEXT: str r1, [sp, #8] @ 4-byte Spill
	; CHECK-NEXT: add.w r1, r3, r3, lsl #2			; CHECK-NEXT: add.w r1, r3, r3, lsl #2
	; CHECK-NEXT: lsls r1, r1, #2			; CHECK-NEXT: lsls r1, r1, #2
	; CHECK-NEXT: str r1, [sp, #4] @ 4-byte Spill			; CHECK-NEXT: str r1, [sp, #4] @ 4-byte Spill
	; CHECK-NEXT: .LBB4_2: @ %for.body			; CHECK-NEXT: .LBB4_2: @ %for.body
	; CHECK-NEXT: @ =>This Loop Header: Depth=1			; CHECK-NEXT: @ =>This Loop Header: Depth=1
	; CHECK-NEXT: @ Child Loop BB4_3 Depth 2			; CHECK-NEXT: @ Child Loop BB4_3 Depth 2
				; CHECK-NEXT: ldr r7, [sp, #12] @ 4-byte Reload
	; CHECK-NEXT: adds r1, r0, #4			; CHECK-NEXT: adds r1, r0, #4
				; CHECK-NEXT: ldr r4, [sp, #20] @ 4-byte Reload
				; CHECK-NEXT: vmov.i32 q1, #0x0
				; CHECK-NEXT: ldr r6, [sp, #8] @ 4-byte Reload
				; CHECK-NEXT: add.w r10, r0, #2
	; CHECK-NEXT: str r1, [sp, #28] @ 4-byte Spill			; CHECK-NEXT: str r1, [sp, #28] @ 4-byte Spill
	; CHECK-NEXT: adds r1, r0, #3			; CHECK-NEXT: adds r1, r0, #3
				; CHECK-NEXT: add.w r11, r0, #1
	; CHECK-NEXT: str r1, [sp, #24] @ 4-byte Spill			; CHECK-NEXT: str r1, [sp, #24] @ 4-byte Spill
	; CHECK-NEXT: ldrd r1, r11, [sp, #8] @ 8-byte Folded Reload
	; CHECK-NEXT: vmov.i32 q1, #0x0
	; CHECK-NEXT: add.w r10, r0, #2
	; CHECK-NEXT: adds r7, r0, #1
	; CHECK-NEXT: dls lr, r1
	; CHECK-NEXT: ldr r1, [sp, #20] @ 4-byte Reload
	; CHECK-NEXT: mov r3, r8			; CHECK-NEXT: mov r3, r8
	; CHECK-NEXT: vmov q0, q1			; CHECK-NEXT: vmov q0, q1
	; CHECK-NEXT: vmov q3, q1			; CHECK-NEXT: vmov q3, q1
	; CHECK-NEXT: vmov q2, q1			; CHECK-NEXT: vmov q2, q1
	; CHECK-NEXT: vmov q4, q1			; CHECK-NEXT: vmov q4, q1
				; CHECK-NEXT: mov r1, r7
				; CHECK-NEXT: dlstp.32 lr, r7
	; CHECK-NEXT: .LBB4_3: @ %vector.body			; CHECK-NEXT: .LBB4_3: @ %vector.body
	; CHECK-NEXT: @ Parent Loop BB4_2 Depth=1			; CHECK-NEXT: @ Parent Loop BB4_2 Depth=1
	; CHECK-NEXT: @ => This Inner Loop Header: Depth=2			; CHECK-NEXT: @ => This Inner Loop Header: Depth=2
	; CHECK-NEXT: add.w r9, r3, r5			; CHECK-NEXT: add.w r9, r3, r5
	; CHECK-NEXT: vctp.32 r11			; CHECK-NEXT: vldrw.u32 q5, [r4], #16
	; CHECK-NEXT: vpsttt			; CHECK-NEXT: vldrw.u32 q6, [r3], #16
	; CHECK-NEXT: vldrwt.u32 q5, [r1], #16			; CHECK-NEXT: vfma.f32 q3, q6, q5
	; CHECK-NEXT: vldrwt.u32 q6, [r3], #16
	; CHECK-NEXT: vfmat.f32 q3, q6, q5
	; CHECK-NEXT: add.w r12, r9, r5			; CHECK-NEXT: add.w r12, r9, r5
	; CHECK-NEXT: vpstt			; CHECK-NEXT: vldrw.u32 q6, [r9]
	; CHECK-NEXT: vldrwt.u32 q6, [r9]			; CHECK-NEXT: vfma.f32 q4, q6, q5
	; CHECK-NEXT: vfmat.f32 q4, q6, q5			; CHECK-NEXT: add.w r6, r12, r5
	; CHECK-NEXT: sub.w r11, r11, #4			; CHECK-NEXT: vldrw.u32 q6, [r12]
	; CHECK-NEXT: add.w r4, r12, r5			; CHECK-NEXT: vfma.f32 q2, q6, q5
	; CHECK-NEXT: vpstt			; CHECK-NEXT: adds r7, r6, r5
	; CHECK-NEXT: vldrwt.u32 q6, [r12]			; CHECK-NEXT: vldrw.u32 q6, [r6]
	; CHECK-NEXT: vfmat.f32 q2, q6, q5			; CHECK-NEXT: vfma.f32 q0, q6, q5
	; CHECK-NEXT: adds r6, r4, r5			; CHECK-NEXT: vldrw.u32 q6, [r7]
	; CHECK-NEXT: vpstttt			; CHECK-NEXT: vfma.f32 q1, q6, q5
	; CHECK-NEXT: vldrwt.u32 q6, [r4]			; CHECK-NEXT: letp lr, .LBB4_3
	; CHECK-NEXT: vfmat.f32 q0, q6, q5
	; CHECK-NEXT: vldrwt.u32 q6, [r6]
	; CHECK-NEXT: vfmat.f32 q1, q6, q5
	; CHECK-NEXT: le lr, .LBB4_3
	; CHECK-NEXT: @ %bb.4: @ %middle.block			; CHECK-NEXT: @ %bb.4: @ %middle.block
	; CHECK-NEXT: @ in Loop: Header=BB4_2 Depth=1			; CHECK-NEXT: @ in Loop: Header=BB4_2 Depth=1
	; CHECK-NEXT: vadd.f32 s20, s18, s19			; CHECK-NEXT: vadd.f32 s20, s18, s19
	; CHECK-NEXT: add.w r1, r2, r7, lsl #2			; CHECK-NEXT: add.w r1, r2, r11, lsl #2
	; CHECK-NEXT: vadd.f32 s16, s16, s17			; CHECK-NEXT: vadd.f32 s16, s16, s17
	; CHECK-NEXT: vadd.f32 s18, s14, s15			; CHECK-NEXT: vadd.f32 s18, s14, s15
	; CHECK-NEXT: vadd.f32 s12, s12, s13			; CHECK-NEXT: vadd.f32 s12, s12, s13
	; CHECK-NEXT: vadd.f32 s14, s6, s7			; CHECK-NEXT: vadd.f32 s14, s6, s7
	; CHECK-NEXT: vadd.f32 s4, s4, s5			; CHECK-NEXT: vadd.f32 s4, s4, s5
	; CHECK-NEXT: vadd.f32 s6, s10, s11			; CHECK-NEXT: vadd.f32 s6, s10, s11
	; CHECK-NEXT: vadd.f32 s8, s8, s9			; CHECK-NEXT: vadd.f32 s8, s8, s9
	; CHECK-NEXT: vadd.f32 s10, s2, s3			; CHECK-NEXT: vadd.f32 s10, s2, s3
	▲ Show 20 Lines • Show All 148 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: cmp r1, #2			; CHECK-NEXT: cmp r1, #2
	; CHECK-NEXT: blo.w .LBB5_5			; CHECK-NEXT: blo.w .LBB5_5
	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader			; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
	; CHECK-NEXT: ldr r3, [r0, #8]			; CHECK-NEXT: ldr r3, [r0, #8]
	; CHECK-NEXT: ldr r1, [r0]			; CHECK-NEXT: ldr r1, [r0]
	; CHECK-NEXT: adds r0, r3, #3			; CHECK-NEXT: adds r0, r3, #3
	; CHECK-NEXT: str r3, [sp, #8] @ 4-byte Spill			; CHECK-NEXT: str r3, [sp, #8] @ 4-byte Spill
	; CHECK-NEXT: bic r0, r0, #3			; CHECK-NEXT: bic r0, r0, #3
	; CHECK-NEXT: add.w r9, r1, r3, lsl #2			; CHECK-NEXT: add.w r8, r1, r3, lsl #2
	; CHECK-NEXT: subs r1, r0, #4			; CHECK-NEXT: subs r1, r0, #4
	; CHECK-NEXT: movs r0, #1			; CHECK-NEXT: movs r0, #1
	; CHECK-NEXT: lsls r5, r3, #2			; CHECK-NEXT: lsls r5, r3, #2
	; CHECK-NEXT: add.w r1, r0, r1, lsr #2			; CHECK-NEXT: add.w r1, r0, r1, lsr #2
	; CHECK-NEXT: str r1, [sp, #4] @ 4-byte Spill			; CHECK-NEXT: str r1, [sp, #4] @ 4-byte Spill
	; CHECK-NEXT: add.w r1, r3, r3, lsl #1			; CHECK-NEXT: add.w r1, r3, r3, lsl #1
	; CHECK-NEXT: lsls r1, r1, #3			; CHECK-NEXT: lsls r1, r1, #3
	; CHECK-NEXT: str r1, [sp] @ 4-byte Spill			; CHECK-NEXT: str r1, [sp] @ 4-byte Spill
	; CHECK-NEXT: .LBB5_2: @ %for.body			; CHECK-NEXT: .LBB5_2: @ %for.body
	; CHECK-NEXT: @ =>This Loop Header: Depth=1			; CHECK-NEXT: @ =>This Loop Header: Depth=1
	; CHECK-NEXT: @ Child Loop BB5_3 Depth 2			; CHECK-NEXT: @ Child Loop BB5_3 Depth 2
	; CHECK-NEXT: adds r1, r0, #5			; CHECK-NEXT: adds r1, r0, #5
	; CHECK-NEXT: str r1, [sp, #28] @ 4-byte Spill			; CHECK-NEXT: str r1, [sp, #28] @ 4-byte Spill
	; CHECK-NEXT: adds r1, r0, #4			; CHECK-NEXT: adds r1, r0, #4
	; CHECK-NEXT: str r1, [sp, #24] @ 4-byte Spill			; CHECK-NEXT: str r1, [sp, #24] @ 4-byte Spill
	; CHECK-NEXT: adds r1, r0, #3			; CHECK-NEXT: adds r1, r0, #3
				; CHECK-NEXT: ldr r7, [sp, #8] @ 4-byte Reload
	; CHECK-NEXT: str r1, [sp, #20] @ 4-byte Spill			; CHECK-NEXT: str r1, [sp, #20] @ 4-byte Spill
	; CHECK-NEXT: ldrd r1, r8, [sp, #4] @ 8-byte Folded Reload
	; CHECK-NEXT: vmov.i32 q1, #0x0			; CHECK-NEXT: vmov.i32 q1, #0x0
				; CHECK-NEXT: ldr r1, [sp, #16] @ 4-byte Reload
	; CHECK-NEXT: add.w r11, r0, #2			; CHECK-NEXT: add.w r11, r0, #2
				; CHECK-NEXT: ldr r6, [sp, #4] @ 4-byte Reload
	; CHECK-NEXT: adds r4, r0, #1			; CHECK-NEXT: adds r4, r0, #1
	; CHECK-NEXT: dls lr, r1			; CHECK-NEXT: mov r3, r8
	; CHECK-NEXT: ldr r1, [sp, #16] @ 4-byte Reload
	; CHECK-NEXT: mov r3, r9
	; CHECK-NEXT: vmov q3, q1			; CHECK-NEXT: vmov q3, q1
	; CHECK-NEXT: vmov q4, q1			; CHECK-NEXT: vmov q4, q1
	; CHECK-NEXT: vmov q0, q1			; CHECK-NEXT: vmov q0, q1
	; CHECK-NEXT: vmov q5, q1			; CHECK-NEXT: vmov q5, q1
	; CHECK-NEXT: vmov q2, q1			; CHECK-NEXT: vmov q2, q1
				; CHECK-NEXT: mov r9, r7
				; CHECK-NEXT: dlstp.32 lr, r7
	; CHECK-NEXT: .LBB5_3: @ %vector.body			; CHECK-NEXT: .LBB5_3: @ %vector.body
	; CHECK-NEXT: @ Parent Loop BB5_2 Depth=1			; CHECK-NEXT: @ Parent Loop BB5_2 Depth=1
	; CHECK-NEXT: @ => This Inner Loop Header: Depth=2			; CHECK-NEXT: @ => This Inner Loop Header: Depth=2
	; CHECK-NEXT: add.w r12, r3, r5			; CHECK-NEXT: add.w r12, r3, r5
	; CHECK-NEXT: vctp.32 r8			; CHECK-NEXT: vldrw.u32 q6, [r1], #16
	; CHECK-NEXT: vpsttt			; CHECK-NEXT: vldrw.u32 q7, [r3], #16
	; CHECK-NEXT: vldrwt.u32 q6, [r1], #16			; CHECK-NEXT: vfma.f32 q4, q7, q6
	; CHECK-NEXT: vldrwt.u32 q7, [r3], #16
	; CHECK-NEXT: vfmat.f32 q4, q7, q6
	; CHECK-NEXT: add.w r10, r12, r5			; CHECK-NEXT: add.w r10, r12, r5
	; CHECK-NEXT: vpstt			; CHECK-NEXT: vldrw.u32 q7, [r12]
	; CHECK-NEXT: vldrwt.u32 q7, [r12]			; CHECK-NEXT: vfma.f32 q5, q7, q6
	; CHECK-NEXT: vfmat.f32 q5, q7, q6
	; CHECK-NEXT: add.w r6, r10, r5			; CHECK-NEXT: add.w r6, r10, r5
	; CHECK-NEXT: vpstt			; CHECK-NEXT: vldrw.u32 q7, [r10]
	; CHECK-NEXT: vldrwt.u32 q7, [r10]			; CHECK-NEXT: vfma.f32 q2, q7, q6
	; CHECK-NEXT: vfmat.f32 q2, q7, q6
	; CHECK-NEXT: sub.w r8, r8, #4
	; CHECK-NEXT: adds r7, r6, r5			; CHECK-NEXT: adds r7, r6, r5
	; CHECK-NEXT: vpstt			; CHECK-NEXT: vldrw.u32 q7, [r6]
	; CHECK-NEXT: vldrwt.u32 q7, [r6]			; CHECK-NEXT: vfma.f32 q0, q7, q6
	; CHECK-NEXT: vfmat.f32 q0, q7, q6
	; CHECK-NEXT: adds r6, r7, r5			; CHECK-NEXT: adds r6, r7, r5
	; CHECK-NEXT: vpstttt			; CHECK-NEXT: vldrw.u32 q7, [r7]
	; CHECK-NEXT: vldrwt.u32 q7, [r7]			; CHECK-NEXT: vfma.f32 q3, q7, q6
	; CHECK-NEXT: vfmat.f32 q3, q7, q6			; CHECK-NEXT: vldrw.u32 q7, [r6]
	; CHECK-NEXT: vldrwt.u32 q7, [r6]			; CHECK-NEXT: vfma.f32 q1, q7, q6
	; CHECK-NEXT: vfmat.f32 q1, q7, q6			; CHECK-NEXT: letp lr, .LBB5_3
	; CHECK-NEXT: le lr, .LBB5_3
	; CHECK-NEXT: @ %bb.4: @ %middle.block			; CHECK-NEXT: @ %bb.4: @ %middle.block
	; CHECK-NEXT: @ in Loop: Header=BB5_2 Depth=1			; CHECK-NEXT: @ in Loop: Header=BB5_2 Depth=1
	; CHECK-NEXT: vadd.f32 s24, s22, s23			; CHECK-NEXT: vadd.f32 s24, s22, s23
	; CHECK-NEXT: add.w r1, r2, r4, lsl #2			; CHECK-NEXT: add.w r1, r2, r4, lsl #2
	; CHECK-NEXT: vadd.f32 s20, s20, s21			; CHECK-NEXT: vadd.f32 s20, s20, s21
	; CHECK-NEXT: vadd.f32 s22, s18, s19			; CHECK-NEXT: vadd.f32 s22, s18, s19
	; CHECK-NEXT: vadd.f32 s16, s16, s17			; CHECK-NEXT: vadd.f32 s16, s16, s17
	; CHECK-NEXT: vadd.f32 s18, s6, s7			; CHECK-NEXT: vadd.f32 s18, s6, s7
	Show All 21 Lines
	; CHECK-NEXT: vstr s0, [r1]			; CHECK-NEXT: vstr s0, [r1]
	; CHECK-NEXT: ldr r1, [sp, #24] @ 4-byte Reload			; CHECK-NEXT: ldr r1, [sp, #24] @ 4-byte Reload
	; CHECK-NEXT: add.w r1, r2, r1, lsl #2			; CHECK-NEXT: add.w r1, r2, r1, lsl #2
	; CHECK-NEXT: vstr s6, [r1]			; CHECK-NEXT: vstr s6, [r1]
	; CHECK-NEXT: ldr r1, [sp, #28] @ 4-byte Reload			; CHECK-NEXT: ldr r1, [sp, #28] @ 4-byte Reload
	; CHECK-NEXT: add.w r1, r2, r1, lsl #2			; CHECK-NEXT: add.w r1, r2, r1, lsl #2
	; CHECK-NEXT: vstr s4, [r1]			; CHECK-NEXT: vstr s4, [r1]
	; CHECK-NEXT: ldr r1, [sp] @ 4-byte Reload			; CHECK-NEXT: ldr r1, [sp] @ 4-byte Reload
	; CHECK-NEXT: add r9, r1			; CHECK-NEXT: add r8, r1
	; CHECK-NEXT: ldr r1, [sp, #12] @ 4-byte Reload			; CHECK-NEXT: ldr r1, [sp, #12] @ 4-byte Reload
	; CHECK-NEXT: cmp r0, r1			; CHECK-NEXT: cmp r0, r1
	; CHECK-NEXT: blo.w .LBB5_2			; CHECK-NEXT: blo.w .LBB5_2
	; CHECK-NEXT: .LBB5_5: @ %for.cond.cleanup			; CHECK-NEXT: .LBB5_5: @ %for.cond.cleanup
	; CHECK-NEXT: add sp, #32			; CHECK-NEXT: add sp, #32
	; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}			; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}
	; CHECK-NEXT: add sp, #4			; CHECK-NEXT: add sp, #4
	; CHECK-NEXT: pop.w {r4, r5, r6, r7, r8, r9, r10, r11, pc}			; CHECK-NEXT: pop.w {r4, r5, r6, r7, r8, r9, r10, r11, pc}
	▲ Show 20 Lines • Show All 133 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: cmp r1, #2			; CHECK-NEXT: cmp r1, #2
	; CHECK-NEXT: blo.w .LBB6_5			; CHECK-NEXT: blo.w .LBB6_5
	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader			; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
	; CHECK-NEXT: ldr r3, [r0, #8]			; CHECK-NEXT: ldr r3, [r0, #8]
	; CHECK-NEXT: ldr r1, [r0]			; CHECK-NEXT: ldr r1, [r0]
	; CHECK-NEXT: adds r0, r3, #3			; CHECK-NEXT: adds r0, r3, #3
	; CHECK-NEXT: str r3, [sp, #20] @ 4-byte Spill			; CHECK-NEXT: str r3, [sp, #20] @ 4-byte Spill
	; CHECK-NEXT: bic r0, r0, #3			; CHECK-NEXT: bic r0, r0, #3
	; CHECK-NEXT: add.w r12, r1, r3, lsl #2			; CHECK-NEXT: add.w r9, r1, r3, lsl #2
	; CHECK-NEXT: subs r1, r0, #4			; CHECK-NEXT: subs r1, r0, #4
	; CHECK-NEXT: movs r0, #1			; CHECK-NEXT: movs r0, #1
	; CHECK-NEXT: lsls r5, r3, #2			; CHECK-NEXT: lsls r5, r3, #2
	; CHECK-NEXT: add.w r1, r0, r1, lsr #2			; CHECK-NEXT: add.w r1, r0, r1, lsr #2
	; CHECK-NEXT: str r1, [sp, #16] @ 4-byte Spill			; CHECK-NEXT: str r1, [sp, #16] @ 4-byte Spill
	; CHECK-NEXT: rsb r1, r3, r3, lsl #3			; CHECK-NEXT: rsb r1, r3, r3, lsl #3
	; CHECK-NEXT: lsls r1, r1, #2			; CHECK-NEXT: lsls r1, r1, #2
	; CHECK-NEXT: str r1, [sp, #12] @ 4-byte Spill			; CHECK-NEXT: str r1, [sp, #12] @ 4-byte Spill
	; CHECK-NEXT: .LBB6_2: @ %for.body			; CHECK-NEXT: .LBB6_2: @ %for.body
	; CHECK-NEXT: @ =>This Loop Header: Depth=1			; CHECK-NEXT: @ =>This Loop Header: Depth=1
	; CHECK-NEXT: @ Child Loop BB6_3 Depth 2			; CHECK-NEXT: @ Child Loop BB6_3 Depth 2
	; CHECK-NEXT: adds r1, r0, #6			; CHECK-NEXT: adds r1, r0, #6
	; CHECK-NEXT: str r1, [sp, #44] @ 4-byte Spill			; CHECK-NEXT: str r1, [sp, #44] @ 4-byte Spill
	; CHECK-NEXT: adds r1, r0, #5			; CHECK-NEXT: adds r1, r0, #5
	; CHECK-NEXT: str r1, [sp, #40] @ 4-byte Spill			; CHECK-NEXT: str r1, [sp, #40] @ 4-byte Spill
	; CHECK-NEXT: adds r1, r0, #4			; CHECK-NEXT: adds r1, r0, #4
	; CHECK-NEXT: str r1, [sp, #36] @ 4-byte Spill			; CHECK-NEXT: str r1, [sp, #36] @ 4-byte Spill
	; CHECK-NEXT: adds r1, r0, #3			; CHECK-NEXT: adds r1, r0, #3
				; CHECK-NEXT: ldr r7, [sp, #20] @ 4-byte Reload
	; CHECK-NEXT: str r1, [sp, #32] @ 4-byte Spill			; CHECK-NEXT: str r1, [sp, #32] @ 4-byte Spill
	; CHECK-NEXT: ldrd r3, r1, [sp, #16] @ 8-byte Folded Reload
	; CHECK-NEXT: vmov.i32 q2, #0x0			; CHECK-NEXT: vmov.i32 q2, #0x0
				; CHECK-NEXT: ldr r1, [sp, #28] @ 4-byte Reload
	; CHECK-NEXT: adds r4, r0, #2			; CHECK-NEXT: adds r4, r0, #2
				; CHECK-NEXT: ldr r6, [sp, #16] @ 4-byte Reload
	; CHECK-NEXT: add.w r8, r0, #1			; CHECK-NEXT: add.w r8, r0, #1
	; CHECK-NEXT: dls lr, r3			; CHECK-NEXT: mov r3, r9
	; CHECK-NEXT: ldr.w r9, [sp, #28] @ 4-byte Reload
	; CHECK-NEXT: mov r3, r12
	; CHECK-NEXT: vmov q4, q2			; CHECK-NEXT: vmov q4, q2
	; CHECK-NEXT: vmov q5, q2			; CHECK-NEXT: vmov q5, q2
	; CHECK-NEXT: vmov q3, q2			; CHECK-NEXT: vmov q3, q2
	; CHECK-NEXT: vmov q6, q2			; CHECK-NEXT: vmov q6, q2
	; CHECK-NEXT: vmov q1, q2			; CHECK-NEXT: vmov q1, q2
				; CHECK-NEXT: mov r12, r7
	; CHECK-NEXT: vstrw.32 q2, [sp, #64] @ 16-byte Spill			; CHECK-NEXT: vstrw.32 q2, [sp, #64] @ 16-byte Spill
				; CHECK-NEXT: dls lr, r6
	; CHECK-NEXT: .LBB6_3: @ %vector.body			; CHECK-NEXT: .LBB6_3: @ %vector.body
	; CHECK-NEXT: @ Parent Loop BB6_2 Depth=1			; CHECK-NEXT: @ Parent Loop BB6_2 Depth=1
	; CHECK-NEXT: @ => This Inner Loop Header: Depth=2			; CHECK-NEXT: @ => This Inner Loop Header: Depth=2
	; CHECK-NEXT: add.w r10, r3, r5			; CHECK-NEXT: add.w r10, r3, r5
	; CHECK-NEXT: vctp.32 r1			; CHECK-NEXT: vctp.32 r12
	; CHECK-NEXT: vpsttt			; CHECK-NEXT: vpsttt
	; CHECK-NEXT: vldrwt.u32 q7, [r9], #16			; CHECK-NEXT: vldrwt.u32 q7, [r1], #16
	; CHECK-NEXT: vldrwt.u32 q0, [r3], #16			; CHECK-NEXT: vldrwt.u32 q0, [r3], #16
	; CHECK-NEXT: vfmat.f32 q5, q0, q7			; CHECK-NEXT: vfmat.f32 q5, q0, q7
	; CHECK-NEXT: add.w r11, r10, r5			; CHECK-NEXT: add.w r11, r10, r5
	; CHECK-NEXT: vpstt			; CHECK-NEXT: vpstt
	; CHECK-NEXT: vldrwt.u32 q0, [r10]			; CHECK-NEXT: vldrwt.u32 q0, [r10]
	; CHECK-NEXT: vfmat.f32 q6, q0, q7			; CHECK-NEXT: vfmat.f32 q6, q0, q7
	; CHECK-NEXT: vstrw.32 q6, [sp, #48] @ 16-byte Spill			; CHECK-NEXT: vstrw.32 q6, [sp, #48] @ 16-byte Spill
	; CHECK-NEXT: vpstt			; CHECK-NEXT: vpstt
	Show All 13 Lines
	; CHECK-NEXT: vfmat.f32 q1, q0, q7			; CHECK-NEXT: vfmat.f32 q1, q0, q7
	; CHECK-NEXT: vstrw.32 q1, [sp, #64] @ 16-byte Spill			; CHECK-NEXT: vstrw.32 q1, [sp, #64] @ 16-byte Spill
	; CHECK-NEXT: vmov q1, q3			; CHECK-NEXT: vmov q1, q3
	; CHECK-NEXT: vmov q3, q2			; CHECK-NEXT: vmov q3, q2
	; CHECK-NEXT: vmov q2, q4			; CHECK-NEXT: vmov q2, q4
	; CHECK-NEXT: vmov q4, q5			; CHECK-NEXT: vmov q4, q5
	; CHECK-NEXT: vmov q5, q6			; CHECK-NEXT: vmov q5, q6
	; CHECK-NEXT: vldrw.u32 q6, [sp, #48] @ 16-byte Reload			; CHECK-NEXT: vldrw.u32 q6, [sp, #48] @ 16-byte Reload
	; CHECK-NEXT: subs r1, #4			; CHECK-NEXT: sub.w r12, r12, #4
	; CHECK-NEXT: adds r6, r7, r5			; CHECK-NEXT: adds r6, r7, r5
	; CHECK-NEXT: vpstt			; CHECK-NEXT: vpstt
	; CHECK-NEXT: vldrwt.u32 q0, [r7]			; CHECK-NEXT: vldrwt.u32 q0, [r7]
	; CHECK-NEXT: vfmat.f32 q3, q0, q7			; CHECK-NEXT: vfmat.f32 q3, q0, q7
	; CHECK-NEXT: adds r7, r6, r5			; CHECK-NEXT: adds r7, r6, r5
	; CHECK-NEXT: vpstttt			; CHECK-NEXT: vpstttt
	; CHECK-NEXT: vldrwt.u32 q0, [r6]			; CHECK-NEXT: vldrwt.u32 q0, [r6]
	; CHECK-NEXT: vfmat.f32 q4, q0, q7			; CHECK-NEXT: vfmat.f32 q4, q0, q7
	Show All 39 Lines
	; CHECK-NEXT: vstr s12, [r1]			; CHECK-NEXT: vstr s12, [r1]
	; CHECK-NEXT: ldr r1, [sp, #40] @ 4-byte Reload			; CHECK-NEXT: ldr r1, [sp, #40] @ 4-byte Reload
	; CHECK-NEXT: add.w r1, r2, r1, lsl #2			; CHECK-NEXT: add.w r1, r2, r1, lsl #2
	; CHECK-NEXT: vstr s10, [r1]			; CHECK-NEXT: vstr s10, [r1]
	; CHECK-NEXT: ldr r1, [sp, #44] @ 4-byte Reload			; CHECK-NEXT: ldr r1, [sp, #44] @ 4-byte Reload
	; CHECK-NEXT: add.w r1, r2, r1, lsl #2			; CHECK-NEXT: add.w r1, r2, r1, lsl #2
	; CHECK-NEXT: vstr s8, [r1]			; CHECK-NEXT: vstr s8, [r1]
	; CHECK-NEXT: ldr r1, [sp, #12] @ 4-byte Reload			; CHECK-NEXT: ldr r1, [sp, #12] @ 4-byte Reload
	; CHECK-NEXT: add r12, r1			; CHECK-NEXT: add r9, r1
	; CHECK-NEXT: ldr r1, [sp, #24] @ 4-byte Reload			; CHECK-NEXT: ldr r1, [sp, #24] @ 4-byte Reload
	; CHECK-NEXT: cmp r0, r1			; CHECK-NEXT: cmp r0, r1
	; CHECK-NEXT: blo.w .LBB6_2			; CHECK-NEXT: blo.w .LBB6_2
	; CHECK-NEXT: .LBB6_5: @ %for.cond.cleanup			; CHECK-NEXT: .LBB6_5: @ %for.cond.cleanup
	; CHECK-NEXT: add sp, #88			; CHECK-NEXT: add sp, #88
	; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}			; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}
	; CHECK-NEXT: add sp, #4			; CHECK-NEXT: add sp, #4
	; CHECK-NEXT: pop.w {r4, r5, r6, r7, r8, r9, r10, r11, pc}			; CHECK-NEXT: pop.w {r4, r5, r6, r7, r8, r9, r10, r11, pc}
	▲ Show 20 Lines • Show All 146 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: cmp r1, #2			; CHECK-NEXT: cmp r1, #2
	; CHECK-NEXT: blo.w .LBB7_5			; CHECK-NEXT: blo.w .LBB7_5
	; CHECK-NEXT: @ %bb.1: @ %for.body.preheader			; CHECK-NEXT: @ %bb.1: @ %for.body.preheader
	; CHECK-NEXT: ldr r3, [r0, #8]			; CHECK-NEXT: ldr r3, [r0, #8]
	; CHECK-NEXT: ldr r1, [r0]			; CHECK-NEXT: ldr r1, [r0]
	; CHECK-NEXT: adds r0, r3, #3			; CHECK-NEXT: adds r0, r3, #3
	; CHECK-NEXT: str r3, [sp, #20] @ 4-byte Spill			; CHECK-NEXT: str r3, [sp, #20] @ 4-byte Spill
	; CHECK-NEXT: bic r0, r0, #3			; CHECK-NEXT: bic r0, r0, #3
	; CHECK-NEXT: add.w r9, r1, r3, lsl #2			; CHECK-NEXT: add.w r12, r1, r3, lsl #2
	; CHECK-NEXT: subs r1, r0, #4			; CHECK-NEXT: subs r1, r0, #4
	; CHECK-NEXT: movs r0, #1			; CHECK-NEXT: movs r0, #1
	; CHECK-NEXT: lsls r5, r3, #2			; CHECK-NEXT: lsls r5, r3, #2
	; CHECK-NEXT: add.w r1, r0, r1, lsr #2			; CHECK-NEXT: add.w r1, r0, r1, lsr #2
	; CHECK-NEXT: str r1, [sp, #16] @ 4-byte Spill			; CHECK-NEXT: str r1, [sp, #16] @ 4-byte Spill
	; CHECK-NEXT: lsls r1, r3, #5			; CHECK-NEXT: lsls r1, r3, #5
	; CHECK-NEXT: str r1, [sp, #12] @ 4-byte Spill			; CHECK-NEXT: str r1, [sp, #12] @ 4-byte Spill
	; CHECK-NEXT: .LBB7_2: @ %for.body			; CHECK-NEXT: .LBB7_2: @ %for.body
	; CHECK-NEXT: @ =>This Loop Header: Depth=1			; CHECK-NEXT: @ =>This Loop Header: Depth=1
	; CHECK-NEXT: @ Child Loop BB7_3 Depth 2			; CHECK-NEXT: @ Child Loop BB7_3 Depth 2
	; CHECK-NEXT: adds r1, r0, #7			; CHECK-NEXT: adds r1, r0, #7
	; CHECK-NEXT: str r1, [sp, #44] @ 4-byte Spill			; CHECK-NEXT: str r1, [sp, #44] @ 4-byte Spill
	; CHECK-NEXT: adds r1, r0, #6			; CHECK-NEXT: adds r1, r0, #6
	; CHECK-NEXT: ldrd r3, r10, [sp, #16] @ 8-byte Folded Reload
	; CHECK-NEXT: str r1, [sp, #40] @ 4-byte Spill			; CHECK-NEXT: str r1, [sp, #40] @ 4-byte Spill
	; CHECK-NEXT: adds r1, r0, #5			; CHECK-NEXT: adds r1, r0, #5
				; CHECK-NEXT: ldr r7, [sp, #20] @ 4-byte Reload
	; CHECK-NEXT: str r1, [sp, #36] @ 4-byte Spill			; CHECK-NEXT: str r1, [sp, #36] @ 4-byte Spill
	; CHECK-NEXT: adds r1, r0, #4			; CHECK-NEXT: adds r1, r0, #4
	; CHECK-NEXT: str r1, [sp, #32] @ 4-byte Spill			; CHECK-NEXT: ldr.w r9, [sp, #28] @ 4-byte Reload
	; CHECK-NEXT: dls lr, r3
	; CHECK-NEXT: ldr.w r12, [sp, #28] @ 4-byte Reload
	; CHECK-NEXT: vmov.i32 q3, #0x0			; CHECK-NEXT: vmov.i32 q3, #0x0
				; CHECK-NEXT: ldr r6, [sp, #16] @ 4-byte Reload
	; CHECK-NEXT: adds r4, r0, #3			; CHECK-NEXT: adds r4, r0, #3
				; CHECK-NEXT: str r1, [sp, #32] @ 4-byte Spill
	; CHECK-NEXT: add.w r8, r0, #2			; CHECK-NEXT: add.w r8, r0, #2
	; CHECK-NEXT: adds r1, r0, #1			; CHECK-NEXT: adds r1, r0, #1
	; CHECK-NEXT: mov r3, r9			; CHECK-NEXT: mov r3, r12
	; CHECK-NEXT: vmov q5, q3			; CHECK-NEXT: vmov q5, q3
	; CHECK-NEXT: vmov q6, q3			; CHECK-NEXT: vmov q6, q3
	; CHECK-NEXT: vmov q4, q3			; CHECK-NEXT: vmov q4, q3
	; CHECK-NEXT: vmov q7, q3			; CHECK-NEXT: vmov q7, q3
	; CHECK-NEXT: vmov q2, q3			; CHECK-NEXT: vmov q2, q3
				; CHECK-NEXT: mov r10, r7
	; CHECK-NEXT: vstrw.32 q3, [sp, #64] @ 16-byte Spill			; CHECK-NEXT: vstrw.32 q3, [sp, #64] @ 16-byte Spill
	; CHECK-NEXT: vstrw.32 q3, [sp, #80] @ 16-byte Spill			; CHECK-NEXT: vstrw.32 q3, [sp, #80] @ 16-byte Spill
				; CHECK-NEXT: dls lr, r6
	; CHECK-NEXT: .LBB7_3: @ %vector.body			; CHECK-NEXT: .LBB7_3: @ %vector.body
	; CHECK-NEXT: @ Parent Loop BB7_2 Depth=1			; CHECK-NEXT: @ Parent Loop BB7_2 Depth=1
	; CHECK-NEXT: @ => This Inner Loop Header: Depth=2			; CHECK-NEXT: @ => This Inner Loop Header: Depth=2
	; CHECK-NEXT: add.w r11, r3, r5			; CHECK-NEXT: add.w r11, r3, r5
	; CHECK-NEXT: vctp.32 r10			; CHECK-NEXT: vctp.32 r10
	; CHECK-NEXT: vpsttt			; CHECK-NEXT: vpsttt
	; CHECK-NEXT: vldrwt.u32 q0, [r12], #16			; CHECK-NEXT: vldrwt.u32 q0, [r9], #16
	; CHECK-NEXT: vldrwt.u32 q1, [r3], #16			; CHECK-NEXT: vldrwt.u32 q1, [r3], #16
	; CHECK-NEXT: vfmat.f32 q6, q1, q0			; CHECK-NEXT: vfmat.f32 q6, q1, q0
	; CHECK-NEXT: vstrw.32 q6, [sp, #48] @ 16-byte Spill			; CHECK-NEXT: vstrw.32 q6, [sp, #48] @ 16-byte Spill
	; CHECK-NEXT: vpstt			; CHECK-NEXT: vpstt
	; CHECK-NEXT: vldrwt.u32 q1, [r11]			; CHECK-NEXT: vldrwt.u32 q1, [r11]
	; CHECK-NEXT: vfmat.f32 q7, q1, q0			; CHECK-NEXT: vfmat.f32 q7, q1, q0
	; CHECK-NEXT: add.w r6, r11, r5			; CHECK-NEXT: add.w r6, r11, r5
	; CHECK-NEXT: vmov q6, q5			; CHECK-NEXT: vmov q6, q5
	▲ Show 20 Lines • Show All 80 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vstr s12, [r1]			; CHECK-NEXT: vstr s12, [r1]
	; CHECK-NEXT: ldr r1, [sp, #40] @ 4-byte Reload			; CHECK-NEXT: ldr r1, [sp, #40] @ 4-byte Reload
	; CHECK-NEXT: add.w r1, r2, r1, lsl #2			; CHECK-NEXT: add.w r1, r2, r1, lsl #2
	; CHECK-NEXT: vstr s4, [r1]			; CHECK-NEXT: vstr s4, [r1]
	; CHECK-NEXT: ldr r1, [sp, #44] @ 4-byte Reload			; CHECK-NEXT: ldr r1, [sp, #44] @ 4-byte Reload
	; CHECK-NEXT: add.w r1, r2, r1, lsl #2			; CHECK-NEXT: add.w r1, r2, r1, lsl #2
	; CHECK-NEXT: vstr s6, [r1]			; CHECK-NEXT: vstr s6, [r1]
	; CHECK-NEXT: ldr r1, [sp, #12] @ 4-byte Reload			; CHECK-NEXT: ldr r1, [sp, #12] @ 4-byte Reload
	; CHECK-NEXT: add r9, r1			; CHECK-NEXT: add r12, r1
	; CHECK-NEXT: ldr r1, [sp, #24] @ 4-byte Reload			; CHECK-NEXT: ldr r1, [sp, #24] @ 4-byte Reload
	; CHECK-NEXT: cmp r0, r1			; CHECK-NEXT: cmp r0, r1
	; CHECK-NEXT: blo.w .LBB7_2			; CHECK-NEXT: blo.w .LBB7_2
	; CHECK-NEXT: .LBB7_5: @ %for.cond.cleanup			; CHECK-NEXT: .LBB7_5: @ %for.cond.cleanup
	; CHECK-NEXT: add sp, #104			; CHECK-NEXT: add sp, #104
	; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}			; CHECK-NEXT: vpop {d8, d9, d10, d11, d12, d13, d14, d15}
	; CHECK-NEXT: add sp, #4			; CHECK-NEXT: add sp, #4
	; CHECK-NEXT: pop.w {r4, r5, r6, r7, r8, r9, r10, r11, pc}			; CHECK-NEXT: pop.w {r4, r5, r6, r7, r8, r9, r10, r11, pc}
	▲ Show 20 Lines • Show All 148 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-postinc-lsr.ll

Show First 20 Lines • Show All 677 Lines • ▼ Show 20 Lines	for.body: ; preds = %for.body, %for.body.preheader
br i1 %exitcond, label %for.cond.cleanup, label %for.body		br i1 %exitcond, label %for.cond.cleanup, label %for.body
}		}

define i8* @signext(i8* %input_row, i8* %input_col, i16 zeroext %output_ch, i16 zeroext %num_cols, i32* nocapture readnone %output_shift, i32* nocapture readnone %output_mult, i32 %out_offset, i32 %col_offset, i32 %row_offset, i16 signext %activation_min, i16 signext %activation_max, i16 zeroext %row_len, i32* nocapture readonly %bias, i8* returned %out) {		define i8* @signext(i8* %input_row, i8* %input_col, i16 zeroext %output_ch, i16 zeroext %num_cols, i32* nocapture readnone %output_shift, i32* nocapture readnone %output_mult, i32 %out_offset, i32 %col_offset, i32 %row_offset, i16 signext %activation_min, i16 signext %activation_max, i16 zeroext %row_len, i32* nocapture readonly %bias, i8* returned %out) {
; CHECK-LABEL: signext:		; CHECK-LABEL: signext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r4, r5, r6, r7, r8, r9, r10, r11, lr}		; CHECK-NEXT: .save {r4, r5, r6, r7, r8, r9, r10, r11, lr}
; CHECK-NEXT: push.w {r4, r5, r6, r7, r8, r9, r10, r11, lr}		; CHECK-NEXT: push.w {r4, r5, r6, r7, r8, r9, r10, r11, lr}
; CHECK-NEXT: .pad #24		; CHECK-NEXT: .pad #28
; CHECK-NEXT: sub sp, #24		; CHECK-NEXT: sub sp, #28
; CHECK-NEXT: add.w r12, sp, #12		; CHECK-NEXT: add.w r12, sp, #12
; CHECK-NEXT: cmp r3, #4		; CHECK-NEXT: cmp r3, #4
; CHECK-NEXT: stm.w r12, {r0, r1, r2} @ 12-byte Folded Spill		; CHECK-NEXT: stm.w r12, {r0, r1, r2} @ 12-byte Folded Spill
; CHECK-NEXT: bne .LBB5_8		; CHECK-NEXT: bne .LBB5_8
; CHECK-NEXT: @ %bb.1: @ %entry		; CHECK-NEXT: @ %bb.1: @ %entry
; CHECK-NEXT: ldr r0, [sp, #20] @ 4-byte Reload		; CHECK-NEXT: ldr r0, [sp, #20] @ 4-byte Reload
; CHECK-NEXT: cmp r0, #0		; CHECK-NEXT: cmp r0, #0
; CHECK-NEXT: beq .LBB5_8		; CHECK-NEXT: beq .LBB5_8
; CHECK-NEXT: @ %bb.2: @ %for.body.lr.ph		; CHECK-NEXT: @ %bb.2: @ %for.body.lr.ph
; CHECK-NEXT: ldr r2, [sp, #88]		; CHECK-NEXT: ldr r2, [sp, #92]
; CHECK-NEXT: mov.w r9, #0		; CHECK-NEXT: mov.w r9, #0
; CHECK-NEXT: ldr r1, [sp, #16] @ 4-byte Reload		; CHECK-NEXT: ldr r1, [sp, #16] @ 4-byte Reload
; CHECK-NEXT: ldr.w r10, [sp, #72]		; CHECK-NEXT: ldr r4, [sp, #76]
; CHECK-NEXT: add.w r0, r1, r2, lsl #1		; CHECK-NEXT: add.w r0, r1, r2, lsl #1
; CHECK-NEXT: str r0, [sp, #8] @ 4-byte Spill		; CHECK-NEXT: str r0, [sp, #8] @ 4-byte Spill
; CHECK-NEXT: adds r0, r1, r2		; CHECK-NEXT: adds r0, r1, r2
; CHECK-NEXT: str r0, [sp, #4] @ 4-byte Spill		; CHECK-NEXT: str r0, [sp, #4] @ 4-byte Spill
; CHECK-NEXT: add.w r0, r2, r2, lsl #1		; CHECK-NEXT: add.w r0, r2, r2, lsl #1
; CHECK-NEXT: add r0, r1		; CHECK-NEXT: add r0, r1
; CHECK-NEXT: str r0, [sp] @ 4-byte Spill		; CHECK-NEXT: str r0, [sp] @ 4-byte Spill
; CHECK-NEXT: adds r0, r2, #7		; CHECK-NEXT: adds r0, r2, #7
; CHECK-NEXT: lsrs r2, r0, #3		; CHECK-NEXT: lsrs r1, r0, #3
; CHECK-NEXT: b .LBB5_5		; CHECK-NEXT: b .LBB5_5
; CHECK-NEXT: .LBB5_3: @ in Loop: Header=BB5_5 Depth=1		; CHECK-NEXT: .LBB5_3: @ in Loop: Header=BB5_5 Depth=1
; CHECK-NEXT: mov r8, r0		; CHECK-NEXT: mov r8, r10
; CHECK-NEXT: mov r12, r0		; CHECK-NEXT: mov r12, r10
; CHECK-NEXT: mov r6, r0		; CHECK-NEXT: mov r6, r10
; CHECK-NEXT: .LBB5_4: @ %for.cond.cleanup23		; CHECK-NEXT: .LBB5_4: @ %for.cond.cleanup23
; CHECK-NEXT: @ in Loop: Header=BB5_5 Depth=1		; CHECK-NEXT: @ in Loop: Header=BB5_5 Depth=1
; CHECK-NEXT: add.w r1, r12, r8		; CHECK-NEXT: add.w r0, r12, r8
; CHECK-NEXT: add r1, r6		; CHECK-NEXT: ldr r1, [sp, #100]
; CHECK-NEXT: add r0, r1		; CHECK-NEXT: add r0, r6
; CHECK-NEXT: ldr r1, [sp, #96]		; CHECK-NEXT: add r0, r10
; CHECK-NEXT: strb.w r0, [r1, r9]		; CHECK-NEXT: strb.w r0, [r1, r9]
; CHECK-NEXT: add.w r9, r9, #1		; CHECK-NEXT: add.w r9, r9, #1
; CHECK-NEXT: ldr r0, [sp, #20] @ 4-byte Reload		; CHECK-NEXT: ldr r0, [sp, #20] @ 4-byte Reload
		; CHECK-NEXT: ldr r1, [sp, #24] @ 4-byte Reload
; CHECK-NEXT: cmp r9, r0		; CHECK-NEXT: cmp r9, r0
; CHECK-NEXT: beq .LBB5_8		; CHECK-NEXT: beq .LBB5_8
; CHECK-NEXT: .LBB5_5: @ %for.body		; CHECK-NEXT: .LBB5_5: @ %for.body
; CHECK-NEXT: @ =>This Loop Header: Depth=1		; CHECK-NEXT: @ =>This Loop Header: Depth=1
; CHECK-NEXT: @ Child Loop BB5_7 Depth 2		; CHECK-NEXT: @ Child Loop BB5_7 Depth 2
; CHECK-NEXT: ldr r0, [sp, #92]		; CHECK-NEXT: ldr r0, [sp, #96]
; CHECK-NEXT: cmp r2, r2		; CHECK-NEXT: cmp r1, r1
; CHECK-NEXT: ldr.w r0, [r0, r9, lsl #2]		; CHECK-NEXT: str r1, [sp, #24] @ 4-byte Spill
		; CHECK-NEXT: ldr.w r10, [r0, r9, lsl #2]
; CHECK-NEXT: bge .LBB5_3		; CHECK-NEXT: bge .LBB5_3
; CHECK-NEXT: @ %bb.6: @ %for.body24.preheader		; CHECK-NEXT: @ %bb.6: @ %for.body24.preheader
; CHECK-NEXT: @ in Loop: Header=BB5_5 Depth=1		; CHECK-NEXT: @ in Loop: Header=BB5_5 Depth=1
; CHECK-NEXT: ldr.w r11, [sp, #88]		; CHECK-NEXT: ldr r2, [sp, #92]
; CHECK-NEXT: ldr r1, [sp, #12] @ 4-byte Reload		; CHECK-NEXT: ldr r0, [sp, #12] @ 4-byte Reload
; CHECK-NEXT: mov r6, r0		; CHECK-NEXT: mov r6, r10
; CHECK-NEXT: dlstp.16 lr, r11
; CHECK-NEXT: ldm.w sp, {r4, r5, r7} @ 12-byte Folded Reload
; CHECK-NEXT: mov r12, r0
; CHECK-NEXT: mla r3, r9, r11, r1
; CHECK-NEXT: ldr r1, [sp, #16] @ 4-byte Reload		; CHECK-NEXT: ldr r1, [sp, #16] @ 4-byte Reload
; CHECK-NEXT: mov r8, r0		; CHECK-NEXT: mov r12, r10
		; CHECK-NEXT: mla r3, r9, r2, r0
		; CHECK-NEXT: ldr r5, [sp, #8] @ 4-byte Reload
		; CHECK-NEXT: ldrd r7, r0, [sp] @ 8-byte Folded Reload
		; CHECK-NEXT: mov r11, r2
		; CHECK-NEXT: mov r8, r10
		; CHECK-NEXT: dlstp.16 lr, r2
; CHECK-NEXT: .LBB5_7: @ %for.body24		; CHECK-NEXT: .LBB5_7: @ %for.body24
; CHECK-NEXT: @ Parent Loop BB5_5 Depth=1		; CHECK-NEXT: @ Parent Loop BB5_5 Depth=1
; CHECK-NEXT: @ => This Inner Loop Header: Depth=2		; CHECK-NEXT: @ => This Inner Loop Header: Depth=2
; CHECK-NEXT: vldrb.s16 q0, [r4], #8		; CHECK-NEXT: vldrb.s16 q0, [r7], #8
; CHECK-NEXT: vadd.i16 q1, q0, r10		; CHECK-NEXT: vadd.i16 q1, q0, r4
; CHECK-NEXT: vldrb.s16 q0, [r3], #8		; CHECK-NEXT: vldrb.s16 q0, [r3], #8
; CHECK-NEXT: vmlava.s16 r0, q0, q1		; CHECK-NEXT: vmlava.s16 r10, q0, q1
; CHECK-NEXT: vldrb.s16 q1, [r7], #8
; CHECK-NEXT: vadd.i16 q1, q1, r10
; CHECK-NEXT: vmlava.s16 r6, q0, q1
; CHECK-NEXT: vldrb.s16 q1, [r5], #8		; CHECK-NEXT: vldrb.s16 q1, [r5], #8
; CHECK-NEXT: vadd.i16 q1, q1, r10		; CHECK-NEXT: vadd.i16 q1, q1, r4
		; CHECK-NEXT: vmlava.s16 r6, q0, q1
		; CHECK-NEXT: vldrb.s16 q1, [r0], #8
		; CHECK-NEXT: vadd.i16 q1, q1, r4
; CHECK-NEXT: vmlava.s16 r12, q0, q1		; CHECK-NEXT: vmlava.s16 r12, q0, q1
; CHECK-NEXT: vldrb.s16 q1, [r1], #8		; CHECK-NEXT: vldrb.s16 q1, [r1], #8
; CHECK-NEXT: vadd.i16 q1, q1, r10		; CHECK-NEXT: vadd.i16 q1, q1, r4
; CHECK-NEXT: vmlava.s16 r8, q0, q1		; CHECK-NEXT: vmlava.s16 r8, q0, q1
; CHECK-NEXT: letp lr, .LBB5_7		; CHECK-NEXT: letp lr, .LBB5_7
; CHECK-NEXT: b .LBB5_4		; CHECK-NEXT: b .LBB5_4
; CHECK-NEXT: .LBB5_8: @ %if.end		; CHECK-NEXT: .LBB5_8: @ %if.end
; CHECK-NEXT: ldr r0, [sp, #96]		; CHECK-NEXT: ldr r0, [sp, #100]
; CHECK-NEXT: add sp, #24		; CHECK-NEXT: add sp, #28
; CHECK-NEXT: pop.w {r4, r5, r6, r7, r8, r9, r10, r11, pc}		; CHECK-NEXT: pop.w {r4, r5, r6, r7, r8, r9, r10, r11, pc}
entry:		entry:
%cmp = icmp eq i16 %num_cols, 4		%cmp = icmp eq i16 %num_cols, 4
br i1 %cmp, label %for.cond.preheader, label %if.end		br i1 %cmp, label %for.cond.preheader, label %if.end

for.cond.preheader: ; preds = %entry		for.cond.preheader: ; preds = %entry
%conv2 = zext i16 %output_ch to i32		%conv2 = zext i16 %output_ch to i32
%cmp3127 = icmp eq i16 %output_ch, 0		%cmp3127 = icmp eq i16 %output_ch, 0
▲ Show 20 Lines • Show All 92 Lines • ▼ Show 20 Lines	if.end: ; preds = %for.cond.cleanup23, %for.cond.preheader, %entry
ret i8* %out		ret i8* %out
}		}

define i8* @signext_optsize(i8* %input_row, i8* %input_col, i16 zeroext %output_ch, i16 zeroext %num_cols, i32* nocapture readnone %output_shift, i32* nocapture readnone %output_mult, i32 %out_offset, i32 %col_offset, i32 %row_offset, i16 signext %activation_min, i16 signext %activation_max, i16 zeroext %row_len, i32* nocapture readonly %bias, i8* returned %out) optsize {		define i8* @signext_optsize(i8* %input_row, i8* %input_col, i16 zeroext %output_ch, i16 zeroext %num_cols, i32* nocapture readnone %output_shift, i32* nocapture readnone %output_mult, i32 %out_offset, i32 %col_offset, i32 %row_offset, i16 signext %activation_min, i16 signext %activation_max, i16 zeroext %row_len, i32* nocapture readonly %bias, i8* returned %out) optsize {
; CHECK-LABEL: signext_optsize:		; CHECK-LABEL: signext_optsize:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: .save {r4, r5, r6, r7, r8, r9, r10, r11, lr}		; CHECK-NEXT: .save {r4, r5, r6, r7, r8, r9, r10, r11, lr}
; CHECK-NEXT: push.w {r4, r5, r6, r7, r8, r9, r10, r11, lr}		; CHECK-NEXT: push.w {r4, r5, r6, r7, r8, r9, r10, r11, lr}
; CHECK-NEXT: .pad #24		; CHECK-NEXT: .pad #28
; CHECK-NEXT: sub sp, #24		; CHECK-NEXT: sub sp, #28
; CHECK-NEXT: add.w r12, sp, #12		; CHECK-NEXT: add.w r12, sp, #12
; CHECK-NEXT: cmp r3, #4		; CHECK-NEXT: cmp r3, #4
; CHECK-NEXT: stm.w r12, {r0, r1, r2} @ 12-byte Folded Spill		; CHECK-NEXT: stm.w r12, {r0, r1, r2} @ 12-byte Folded Spill
; CHECK-NEXT: bne .LBB6_8		; CHECK-NEXT: bne .LBB6_8
; CHECK-NEXT: @ %bb.1: @ %entry		; CHECK-NEXT: @ %bb.1: @ %entry
; CHECK-NEXT: ldr r0, [sp, #20] @ 4-byte Reload		; CHECK-NEXT: ldr r0, [sp, #20] @ 4-byte Reload
; CHECK-NEXT: cmp r0, #0		; CHECK-NEXT: cmp r0, #0
; CHECK-NEXT: beq .LBB6_8		; CHECK-NEXT: beq .LBB6_8
; CHECK-NEXT: @ %bb.2: @ %for.body.lr.ph		; CHECK-NEXT: @ %bb.2: @ %for.body.lr.ph
; CHECK-NEXT: ldr r2, [sp, #88]		; CHECK-NEXT: ldr r2, [sp, #92]
; CHECK-NEXT: mov.w r9, #0		; CHECK-NEXT: mov.w r9, #0
; CHECK-NEXT: ldr r1, [sp, #16] @ 4-byte Reload		; CHECK-NEXT: ldr r1, [sp, #16] @ 4-byte Reload
; CHECK-NEXT: ldr.w r10, [sp, #72]		; CHECK-NEXT: ldr r4, [sp, #76]
; CHECK-NEXT: add.w r0, r1, r2, lsl #1		; CHECK-NEXT: add.w r0, r1, r2, lsl #1
; CHECK-NEXT: str r0, [sp, #8] @ 4-byte Spill		; CHECK-NEXT: str r0, [sp, #8] @ 4-byte Spill
; CHECK-NEXT: adds r0, r1, r2		; CHECK-NEXT: adds r0, r1, r2
; CHECK-NEXT: str r0, [sp, #4] @ 4-byte Spill		; CHECK-NEXT: str r0, [sp, #4] @ 4-byte Spill
; CHECK-NEXT: add.w r0, r2, r2, lsl #1		; CHECK-NEXT: add.w r0, r2, r2, lsl #1
; CHECK-NEXT: add r0, r1		; CHECK-NEXT: add r0, r1
; CHECK-NEXT: str r0, [sp] @ 4-byte Spill		; CHECK-NEXT: str r0, [sp] @ 4-byte Spill
; CHECK-NEXT: adds r0, r2, #7		; CHECK-NEXT: adds r0, r2, #7
; CHECK-NEXT: lsrs r2, r0, #3		; CHECK-NEXT: lsrs r1, r0, #3
; CHECK-NEXT: .LBB6_3: @ %for.body		; CHECK-NEXT: .LBB6_3: @ %for.body
; CHECK-NEXT: @ =>This Loop Header: Depth=1		; CHECK-NEXT: @ =>This Loop Header: Depth=1
; CHECK-NEXT: @ Child Loop BB6_5 Depth 2		; CHECK-NEXT: @ Child Loop BB6_5 Depth 2
; CHECK-NEXT: ldr r0, [sp, #92]		; CHECK-NEXT: ldr r0, [sp, #96]
; CHECK-NEXT: cmp r2, r2		; CHECK-NEXT: cmp r1, r1
; CHECK-NEXT: ldr.w r0, [r0, r9, lsl #2]		; CHECK-NEXT: str r1, [sp, #24] @ 4-byte Spill
		; CHECK-NEXT: ldr.w r10, [r0, r9, lsl #2]
; CHECK-NEXT: bge .LBB6_6		; CHECK-NEXT: bge .LBB6_6
; CHECK-NEXT: @ %bb.4: @ %for.body24.preheader		; CHECK-NEXT: @ %bb.4: @ %for.body24.preheader
; CHECK-NEXT: @ in Loop: Header=BB6_3 Depth=1		; CHECK-NEXT: @ in Loop: Header=BB6_3 Depth=1
; CHECK-NEXT: ldr.w r11, [sp, #88]		; CHECK-NEXT: ldr r2, [sp, #92]
; CHECK-NEXT: ldr r1, [sp, #12] @ 4-byte Reload		; CHECK-NEXT: ldr r0, [sp, #12] @ 4-byte Reload
; CHECK-NEXT: mov r6, r0		; CHECK-NEXT: mov r6, r10
; CHECK-NEXT: dlstp.16 lr, r11
; CHECK-NEXT: ldm.w sp, {r4, r5, r7} @ 12-byte Folded Reload
; CHECK-NEXT: mov r12, r0
; CHECK-NEXT: mla r3, r9, r11, r1
; CHECK-NEXT: ldr r1, [sp, #16] @ 4-byte Reload		; CHECK-NEXT: ldr r1, [sp, #16] @ 4-byte Reload
; CHECK-NEXT: mov r8, r0		; CHECK-NEXT: mov r12, r10
		; CHECK-NEXT: mla r3, r9, r2, r0
		; CHECK-NEXT: ldr r5, [sp, #8] @ 4-byte Reload
		; CHECK-NEXT: ldrd r7, r0, [sp] @ 8-byte Folded Reload
		; CHECK-NEXT: mov r11, r2
		; CHECK-NEXT: mov r8, r10
		; CHECK-NEXT: dlstp.16 lr, r2
; CHECK-NEXT: .LBB6_5: @ %for.body24		; CHECK-NEXT: .LBB6_5: @ %for.body24
; CHECK-NEXT: @ Parent Loop BB6_3 Depth=1		; CHECK-NEXT: @ Parent Loop BB6_3 Depth=1
; CHECK-NEXT: @ => This Inner Loop Header: Depth=2		; CHECK-NEXT: @ => This Inner Loop Header: Depth=2
; CHECK-NEXT: vldrb.s16 q0, [r4], #8		; CHECK-NEXT: vldrb.s16 q0, [r7], #8
; CHECK-NEXT: vadd.i16 q1, q0, r10		; CHECK-NEXT: vadd.i16 q1, q0, r4
; CHECK-NEXT: vldrb.s16 q0, [r3], #8		; CHECK-NEXT: vldrb.s16 q0, [r3], #8
; CHECK-NEXT: vmlava.s16 r0, q0, q1		; CHECK-NEXT: vmlava.s16 r10, q0, q1
; CHECK-NEXT: vldrb.s16 q1, [r7], #8
; CHECK-NEXT: vadd.i16 q1, q1, r10
; CHECK-NEXT: vmlava.s16 r6, q0, q1
; CHECK-NEXT: vldrb.s16 q1, [r5], #8		; CHECK-NEXT: vldrb.s16 q1, [r5], #8
; CHECK-NEXT: vadd.i16 q1, q1, r10		; CHECK-NEXT: vadd.i16 q1, q1, r4
		; CHECK-NEXT: vmlava.s16 r6, q0, q1
		; CHECK-NEXT: vldrb.s16 q1, [r0], #8
		; CHECK-NEXT: vadd.i16 q1, q1, r4
; CHECK-NEXT: vmlava.s16 r12, q0, q1		; CHECK-NEXT: vmlava.s16 r12, q0, q1
; CHECK-NEXT: vldrb.s16 q1, [r1], #8		; CHECK-NEXT: vldrb.s16 q1, [r1], #8
; CHECK-NEXT: vadd.i16 q1, q1, r10		; CHECK-NEXT: vadd.i16 q1, q1, r4
; CHECK-NEXT: vmlava.s16 r8, q0, q1		; CHECK-NEXT: vmlava.s16 r8, q0, q1
; CHECK-NEXT: letp lr, .LBB6_5		; CHECK-NEXT: letp lr, .LBB6_5
; CHECK-NEXT: b .LBB6_7		; CHECK-NEXT: b .LBB6_7
; CHECK-NEXT: .LBB6_6: @ in Loop: Header=BB6_3 Depth=1		; CHECK-NEXT: .LBB6_6: @ in Loop: Header=BB6_3 Depth=1
; CHECK-NEXT: mov r8, r0		; CHECK-NEXT: mov r8, r10
; CHECK-NEXT: mov r12, r0		; CHECK-NEXT: mov r12, r10
; CHECK-NEXT: mov r6, r0		; CHECK-NEXT: mov r6, r10
; CHECK-NEXT: .LBB6_7: @ %for.cond.cleanup23		; CHECK-NEXT: .LBB6_7: @ %for.cond.cleanup23
; CHECK-NEXT: @ in Loop: Header=BB6_3 Depth=1		; CHECK-NEXT: @ in Loop: Header=BB6_3 Depth=1
; CHECK-NEXT: add.w r1, r12, r8		; CHECK-NEXT: add.w r0, r12, r8
; CHECK-NEXT: add r1, r6		; CHECK-NEXT: ldr r1, [sp, #100]
; CHECK-NEXT: add r0, r1		; CHECK-NEXT: add r0, r6
; CHECK-NEXT: ldr r1, [sp, #96]		; CHECK-NEXT: add r0, r10
; CHECK-NEXT: strb.w r0, [r1, r9]		; CHECK-NEXT: strb.w r0, [r1, r9]
; CHECK-NEXT: add.w r9, r9, #1		; CHECK-NEXT: add.w r9, r9, #1
; CHECK-NEXT: ldr r0, [sp, #20] @ 4-byte Reload		; CHECK-NEXT: ldr r0, [sp, #20] @ 4-byte Reload
		; CHECK-NEXT: ldr r1, [sp, #24] @ 4-byte Reload
; CHECK-NEXT: cmp r9, r0		; CHECK-NEXT: cmp r9, r0
; CHECK-NEXT: bne .LBB6_3		; CHECK-NEXT: bne .LBB6_3
; CHECK-NEXT: .LBB6_8: @ %if.end		; CHECK-NEXT: .LBB6_8: @ %if.end
; CHECK-NEXT: ldr r0, [sp, #96]		; CHECK-NEXT: ldr r0, [sp, #100]
; CHECK-NEXT: add sp, #24		; CHECK-NEXT: add sp, #28
; CHECK-NEXT: pop.w {r4, r5, r6, r7, r8, r9, r10, r11, pc}		; CHECK-NEXT: pop.w {r4, r5, r6, r7, r8, r9, r10, r11, pc}
entry:		entry:
%cmp = icmp eq i16 %num_cols, 4		%cmp = icmp eq i16 %num_cols, 4
br i1 %cmp, label %for.cond.preheader, label %if.end		br i1 %cmp, label %for.cond.preheader, label %if.end

for.cond.preheader: ; preds = %entry		for.cond.preheader: ; preds = %entry
%conv2 = zext i16 %output_ch to i32		%conv2 = zext i16 %output_ch to i32
%cmp3127 = icmp eq i16 %output_ch, 0		%cmp3127 = icmp eq i16 %output_ch, 0
▲ Show 20 Lines • Show All 444 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-pred-vctpvpsel.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp %s -verify-machineinstrs -o - \| FileCheck %s			; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp %s -verify-machineinstrs -o - \| FileCheck %s

	define void @arm_min_helium_f32(float* %pSrc, i32 %blockSize, float* nocapture %pResult, i32* nocapture %pIndex) {			define void @arm_min_helium_f32(float* %pSrc, i32 %blockSize, float* nocapture %pResult, i32* nocapture %pIndex) {
	; CHECK-LABEL: arm_min_helium_f32:			; CHECK-LABEL: arm_min_helium_f32:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r4, r6, r7, lr}			; CHECK-NEXT: .save {r4, r6, r7, lr}
	; CHECK-NEXT: push {r4, r6, r7, lr}			; CHECK-NEXT: push {r4, r6, r7, lr}
	; CHECK-NEXT: .vsave {d8, d9}			; CHECK-NEXT: .vsave {d8, d9}
	; CHECK-NEXT: vpush {d8, d9}			; CHECK-NEXT: vpush {d8, d9}
	; CHECK-NEXT: movs r6, #0			; CHECK-NEXT: movs r6, #0
	; CHECK-NEXT: vidup.u32 q2, r6, #1			; CHECK-NEXT: vidup.u32 q2, r6, #1
	; CHECK-NEXT: adr r4, .LCPI0_0			; CHECK-NEXT: adr r4, .LCPI0_0
	; CHECK-NEXT: vmov.i32 q0, #0x0			; CHECK-NEXT: vmov.i32 q0, #0x0
	; CHECK-NEXT: vldrw.u32 q1, [r4]			; CHECK-NEXT: vldrw.u32 q1, [r4]
	; CHECK-NEXT: vmov.i32 q3, #0x4			; CHECK-NEXT: vmov.i32 q3, #0x4
	; CHECK-NEXT: dlstp.32 lr, r1
	; CHECK-NEXT: mov r12, r1			; CHECK-NEXT: mov r12, r1
				; CHECK-NEXT: dlstp.32 lr, r1
	; CHECK-NEXT: .LBB0_1: @ %do.body			; CHECK-NEXT: .LBB0_1: @ %do.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrw.u32 q4, [r0], #16			; CHECK-NEXT: vldrw.u32 q4, [r0], #16
	; CHECK-NEXT: vptt.f32 ge, q1, q4			; CHECK-NEXT: vptt.f32 ge, q1, q4
	; CHECK-NEXT: vmovt q1, q4			; CHECK-NEXT: vmovt q1, q4
	; CHECK-NEXT: vmovt q0, q2			; CHECK-NEXT: vmovt q0, q2
	; CHECK-NEXT: vadd.i32 q2, q2, q3			; CHECK-NEXT: vadd.i32 q2, q2, q3
	; CHECK-NEXT: letp lr, .LBB0_1			; CHECK-NEXT: letp lr, .LBB0_1
	▲ Show 20 Lines • Show All 67 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vecreduce-loops.ll

	Show First 20 Lines • Show All 2,324 Lines • ▼ Show 20 Lines
	define i64 @add4i64(i32* noalias nocapture readonly %x, i32 %n) {			define i64 @add4i64(i32* noalias nocapture readonly %x, i32 %n) {
	; CHECK-LABEL: add4i64:			; CHECK-LABEL: add4i64:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r7, lr}			; CHECK-NEXT: .save {r7, lr}
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: cbz r1, .LBB29_3			; CHECK-NEXT: cbz r1, .LBB29_3
	; CHECK-NEXT: @ %bb.1: @ %vector.ph			; CHECK-NEXT: @ %bb.1: @ %vector.ph
	; CHECK-NEXT: movs r2, #0			; CHECK-NEXT: movs r2, #0
	; CHECK-NEXT: dlstp.32 lr, r1
	; CHECK-NEXT: mov r3, r2			; CHECK-NEXT: mov r3, r2
				; CHECK-NEXT: dlstp.32 lr, r1
	; CHECK-NEXT: .LBB29_2: @ %vector.body			; CHECK-NEXT: .LBB29_2: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrw.u32 q0, [r0], #16			; CHECK-NEXT: vldrw.u32 q0, [r0], #16
	; CHECK-NEXT: vaddlva.s32 r2, r3, q0			; CHECK-NEXT: vaddlva.s32 r2, r3, q0
	; CHECK-NEXT: letp lr, .LBB29_2			; CHECK-NEXT: letp lr, .LBB29_2
	; CHECK-NEXT: b .LBB29_4			; CHECK-NEXT: b .LBB29_4
	; CHECK-NEXT: .LBB29_3:			; CHECK-NEXT: .LBB29_3:
	; CHECK-NEXT: movs r2, #0			; CHECK-NEXT: movs r2, #0
	Show All 35 Lines
	define i64 @mla4i64(i32* noalias nocapture readonly %x, i32* noalias nocapture readonly %y, i32 %n) {			define i64 @mla4i64(i32* noalias nocapture readonly %x, i32* noalias nocapture readonly %y, i32 %n) {
	; CHECK-LABEL: mla4i64:			; CHECK-LABEL: mla4i64:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r7, lr}			; CHECK-NEXT: .save {r7, lr}
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: cbz r2, .LBB30_3			; CHECK-NEXT: cbz r2, .LBB30_3
	; CHECK-NEXT: @ %bb.1: @ %vector.ph			; CHECK-NEXT: @ %bb.1: @ %vector.ph
	; CHECK-NEXT: mov.w r12, #0			; CHECK-NEXT: mov.w r12, #0
	; CHECK-NEXT: dlstp.32 lr, r2
	; CHECK-NEXT: mov r3, r12			; CHECK-NEXT: mov r3, r12
				; CHECK-NEXT: dlstp.32 lr, r2
	; CHECK-NEXT: .LBB30_2: @ %vector.body			; CHECK-NEXT: .LBB30_2: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrw.u32 q0, [r0], #16			; CHECK-NEXT: vldrw.u32 q0, [r0], #16
	; CHECK-NEXT: vldrw.u32 q1, [r1], #16			; CHECK-NEXT: vldrw.u32 q1, [r1], #16
	; CHECK-NEXT: vmlalva.s32 r12, r3, q1, q0			; CHECK-NEXT: vmlalva.s32 r12, r3, q1, q0
	; CHECK-NEXT: letp lr, .LBB30_2			; CHECK-NEXT: letp lr, .LBB30_2
	; CHECK-NEXT: b .LBB30_4			; CHECK-NEXT: b .LBB30_4
	; CHECK-NEXT: .LBB30_3:			; CHECK-NEXT: .LBB30_3:
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	define i64 @mla8i64(i16* noalias nocapture readonly %x, i16* noalias nocapture readonly %y, i32 %n) {			define i64 @mla8i64(i16* noalias nocapture readonly %x, i16* noalias nocapture readonly %y, i32 %n) {
	; CHECK-LABEL: mla8i64:			; CHECK-LABEL: mla8i64:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r7, lr}			; CHECK-NEXT: .save {r7, lr}
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: cbz r2, .LBB31_3			; CHECK-NEXT: cbz r2, .LBB31_3
	; CHECK-NEXT: @ %bb.1: @ %vector.ph			; CHECK-NEXT: @ %bb.1: @ %vector.ph
	; CHECK-NEXT: mov.w r12, #0			; CHECK-NEXT: mov.w r12, #0
	; CHECK-NEXT: dlstp.16 lr, r2
	; CHECK-NEXT: mov r3, r12			; CHECK-NEXT: mov r3, r12
				; CHECK-NEXT: dlstp.16 lr, r2
	; CHECK-NEXT: .LBB31_2: @ %vector.body			; CHECK-NEXT: .LBB31_2: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrh.u16 q0, [r0], #16			; CHECK-NEXT: vldrh.u16 q0, [r0], #16
	; CHECK-NEXT: vldrh.u16 q1, [r1], #16			; CHECK-NEXT: vldrh.u16 q1, [r1], #16
	; CHECK-NEXT: vmlalva.s16 r12, r3, q1, q0			; CHECK-NEXT: vmlalva.s16 r12, r3, q1, q0
	; CHECK-NEXT: letp lr, .LBB31_2			; CHECK-NEXT: letp lr, .LBB31_2
	; CHECK-NEXT: b .LBB31_4			; CHECK-NEXT: b .LBB31_4
	; CHECK-NEXT: .LBB31_3:			; CHECK-NEXT: .LBB31_3:
	▲ Show 20 Lines • Show All 68 Lines • Show Last 20 Lines