Diff 238756

llvm/include/llvm/CodeGen/ReachingDefAnalysis.h

Show First 20 Lines • Show All 113 Lines • ▼ Show 20 Lines	public:
/// nullptr for a non-live out or non-local def.		/// nullptr for a non-live out or non-local def.
MachineInstr getLocalLiveOutMIDef(MachineBasicBlock MBB,		MachineInstr getLocalLiveOutMIDef(MachineBasicBlock MBB,
int PhysReg);		int PhysReg);

/// Return whether the given register is used after MI, whether it's a local		/// Return whether the given register is used after MI, whether it's a local
/// use or a live out.		/// use or a live out.
bool isRegUsedAfter(MachineInstr *MI, int PhysReg);		bool isRegUsedAfter(MachineInstr *MI, int PhysReg);

/// Provides the first instruction before MI that uses PhysReg
MachineInstr getInstWithUseBefore(MachineInstr MI, int PhysReg);

/// Provides all instructions before MI that uses PhysReg
void getAllInstWithUseBefore(MachineInstr *MI, int PhysReg,
SmallVectorImpl<MachineInstr*> &Uses);

/// Provides the clearance - the number of instructions since the closest		/// Provides the clearance - the number of instructions since the closest
/// reaching def instuction of PhysReg that reaches MI.		/// reaching def instuction of PhysReg that reaches MI.
int getClearance(MachineInstr *MI, MCPhysReg PhysReg);		int getClearance(MachineInstr *MI, MCPhysReg PhysReg);

/// Provides the uses, in the same block as MI, of register that MI defines.		/// Provides the uses, in the same block as MI, of register that MI defines.
/// This does not consider live-outs.		/// This does not consider live-outs.
void getReachingLocalUses(MachineInstr *MI, int PhysReg,		void getReachingLocalUses(MachineInstr *MI, int PhysReg,
SmallVectorImpl<MachineInstr*> &Uses);		SmallPtrSetImpl<MachineInstr*> &Uses);

/// Provide the number of uses, in the same block as MI, of the register that		/// For the given block, collect the instructions that use the live-in
/// MI defines.		/// value of the provided register. Return whether the value is still
unsigned getNumUses(MachineInstr *MI, int PhysReg);		/// live on exit.
		bool getLiveInUses(MachineBasicBlock *MBB, int PhysReg,
		SmallPtrSetImpl<MachineInstr*> &Uses);

		/// Collect the users of the value stored in PhysReg, which is defined
		SjoerdMeijerUnsubmitted Not Done Reply Inline Actions typo: the the SjoerdMeijer: typo: the the
		/// by MI.
		void getGlobalUses(MachineInstr *MI, int PhysReg,
		SmallPtrSetImpl<MachineInstr*> &Uses);

private:		private:
/// Set up LiveRegs by merging predecessor live-out values.		/// Set up LiveRegs by merging predecessor live-out values.
void enterBasicBlock(const LoopTraversal::TraversedMBBInfo &TraversedMBB);		void enterBasicBlock(const LoopTraversal::TraversedMBBInfo &TraversedMBB);

/// Update live-out values.		/// Update live-out values.
void leaveBasicBlock(const LoopTraversal::TraversedMBBInfo &TraversedMBB);		void leaveBasicBlock(const LoopTraversal::TraversedMBBInfo &TraversedMBB);

Show All 11 Lines

llvm/lib/CodeGen/ReachingDefAnalysis.cpp

Show First 20 Lines • Show All 219 Lines • ▼ Show 20 Lines
}		}

int ReachingDefAnalysis::getClearance(MachineInstr *MI, MCPhysReg PhysReg) {		int ReachingDefAnalysis::getClearance(MachineInstr *MI, MCPhysReg PhysReg) {
assert(InstIds.count(MI) && "Unexpected machine instuction.");		assert(InstIds.count(MI) && "Unexpected machine instuction.");
return InstIds[MI] - getReachingDef(MI, PhysReg);		return InstIds[MI] - getReachingDef(MI, PhysReg);
}		}

void ReachingDefAnalysis::getReachingLocalUses(MachineInstr *Def, int PhysReg,		void ReachingDefAnalysis::getReachingLocalUses(MachineInstr *Def, int PhysReg,
SmallVectorImpl<MachineInstr*> &Uses) {		SmallPtrSetImpl<MachineInstr*> &Uses) {
MachineBasicBlock *MBB = Def->getParent();		MachineBasicBlock *MBB = Def->getParent();
MachineBasicBlock::iterator MI = MachineBasicBlock::iterator(Def);		MachineBasicBlock::iterator MI = MachineBasicBlock::iterator(Def);
while (++MI != MBB->end()) {		while (++MI != MBB->end()) {
// If/when we find a new reaching def, we know that there's no more uses		// If/when we find a new reaching def, we know that there's no more uses
// of 'Def'.		// of 'Def'.
if (getReachingMIDef(&*MI, PhysReg) != Def)		if (getReachingMIDef(&*MI, PhysReg) != Def)
return;		return;

for (auto &MO : MI->operands()) {		for (auto &MO : MI->operands()) {
if (!MO.isReg() \|\| !MO.isUse() \|\| MO.getReg() != PhysReg)		if (!MO.isReg() \|\| !MO.isUse() \|\| MO.getReg() != PhysReg)
continue;		continue;

Uses.push_back(&*MI);		Uses.insert(&*MI);
if (MO.isKill())		if (MO.isKill())
return;		return;
}		}
}		}
}		}

unsigned ReachingDefAnalysis::getNumUses(MachineInstr *Def, int PhysReg) {		bool ReachingDefAnalysis::getLiveInUses(MachineBasicBlock *MBB, int PhysReg,
SmallVector<MachineInstr*, 4> Uses;		SmallPtrSetImpl<MachineInstr*> &Uses) {
getReachingLocalUses(Def, PhysReg, Uses);		for (auto &MI : *MBB) {
return Uses.size();		for (auto &MO : MI.operands()) {
		if (!MO.isReg() \|\| !MO.isUse() \|\| MO.getReg() != PhysReg)
		continue;
		if (getReachingDef(&MI, PhysReg) >= 0)
		return false;
		Uses.insert(&MI);
		}
		}
		return isReachingDefLiveOut(&MBB->back(), PhysReg);
		}

		void ReachingDefAnalysis::getGlobalUses(MachineInstr *MI, int PhysReg,
		SjoerdMeijerUnsubmitted Not Done Reply Inline Actions How about `getReachingGlobalUses()` because it is more consistent with `getReachingLocalUses()` that we already have and also more explicit about its "scope" of all uses. SjoerdMeijer: How about `getReachingGlobalUses()` because it is more consistent with `getReachingLocalUses()`…
		SmallPtrSetImpl<MachineInstr*> &Uses) {
		MachineBasicBlock *MBB = MI->getParent();

		// Collect the uses that each def touches within the block.
		getReachingLocalUses(MI, PhysReg, Uses);

		// Handle live-out values.
		if (auto *LiveOut = getLocalLiveOutMIDef(MI->getParent(), PhysReg)) {
		if (LiveOut != MI)
		return;

		SmallVector<MachineBasicBlock*, 4> ToVisit;
		ToVisit.insert(ToVisit.begin(), MBB->successors().begin(),
		MBB->successors().end());
		SmallPtrSet<MachineBasicBlock*, 4>Visited;
		while (!ToVisit.empty()) {
		MachineBasicBlock *MBB = ToVisit.back();
		ToVisit.pop_back();
		if (Visited.count(MBB) \|\| !MBB->isLiveIn(PhysReg))
		continue;
		if (getLiveInUses(MBB, PhysReg, Uses))
		ToVisit.insert(ToVisit.end(), MBB->successors().begin(),
		MBB->successors().end());
		Visited.insert(MBB);
		}
		}
}		}

bool ReachingDefAnalysis::isRegUsedAfter(MachineInstr *MI, int PhysReg) {		bool ReachingDefAnalysis::isRegUsedAfter(MachineInstr *MI, int PhysReg) {
MachineBasicBlock *MBB = MI->getParent();		MachineBasicBlock *MBB = MI->getParent();
LivePhysRegs LiveRegs(*TRI);		LivePhysRegs LiveRegs(*TRI);
LiveRegs.addLiveOuts(*MBB);		LiveRegs.addLiveOuts(*MBB);

// Yes if the register is live out of the basic block.		// Yes if the register is live out of the basic block.
Show All 40 Lines	MachineInstr* ReachingDefAnalysis::getLocalLiveOutMIDef(MachineBasicBlock *MBB,
MachineInstr *Last = &MBB->back();		MachineInstr *Last = &MBB->back();
int Def = getReachingDef(Last, PhysReg);		int Def = getReachingDef(Last, PhysReg);
for (auto &MO : Last->operands())		for (auto &MO : Last->operands())
if (MO.isReg() && MO.isDef() && MO.getReg() == PhysReg)		if (MO.isReg() && MO.isDef() && MO.getReg() == PhysReg)
return Last;		return Last;

return Def < 0 ? nullptr : getInstFromId(MBB, Def);		return Def < 0 ? nullptr : getInstFromId(MBB, Def);
}		}

MachineInstr ReachingDefAnalysis::getInstWithUseBefore(MachineInstr MI,
int PhysReg) {
auto I = MachineBasicBlock::reverse_iterator(MI);
auto E = MI->getParent()->rend();
I++;

for ( ; I != E; I++)
for (auto &MO : I->operands())
if (MO.isReg() && MO.isUse() && MO.getReg() == PhysReg)
return &*I;

return nullptr;
}

void ReachingDefAnalysis::getAllInstWithUseBefore(MachineInstr *MI,
int PhysReg, SmallVectorImpl<MachineInstr*> &Uses) {
MachineInstr *Use = nullptr;
MachineInstr *Pos = MI;

while ((Use = getInstWithUseBefore(Pos, PhysReg))) {
Uses.push_back(Use);
Pos = Use;
}
}

llvm/lib/Target/ARM/ARMBaseInstrInfo.h

Show First 20 Lines • Show All 485 Lines • ▼ Show 20 Lines
static inline		static inline
bool isUncondBranchOpcode(int Opc) {		bool isUncondBranchOpcode(int Opc) {
return Opc == ARM::B \|\| Opc == ARM::tB \|\| Opc == ARM::t2B;		return Opc == ARM::B \|\| Opc == ARM::tB \|\| Opc == ARM::t2B;
}		}

// This table shows the VPT instruction variants, i.e. the different		// This table shows the VPT instruction variants, i.e. the different
// mask field encodings, see also B5.6. Predication/conditional execution in		// mask field encodings, see also B5.6. Predication/conditional execution in
// the ArmARM.		// the ArmARM.
enum VPTMaskValue {
T = 8, // 0b1000
TT = 4, // 0b0100		inline static unsigned getARMVPTBlockMask(unsigned NumInsts) {
TE = 12, // 0b1100		switch (NumInsts) {
TTT = 2, // 0b0010		case 1:
TTE = 6, // 0b0110		return ARMVCC::T;
TEE = 10, // 0b1010		case 2:
TET = 14, // 0b1110		return ARMVCC::TT;
TTTT = 1, // 0b0001		case 3:
TTTE = 3, // 0b0011		return ARMVCC::TTT;
TTEE = 5, // 0b0101		case 4:
TTET = 7, // 0b0111		return ARMVCC::TTTT;
TEEE = 9, // 0b1001		default:
TEET = 11, // 0b1011		break;
TETT = 13, // 0b1101
TETE = 15 // 0b1111
};		};
		llvm_unreachable("Unexpected number of instruction in a VPT block");
		}


static inline bool isVPTOpcode(int Opc) {		static inline bool isVPTOpcode(int Opc) {
return Opc == ARM::MVE_VPTv16i8 \|\| Opc == ARM::MVE_VPTv16u8 \|\|		return Opc == ARM::MVE_VPTv16i8 \|\| Opc == ARM::MVE_VPTv16u8 \|\|
Opc == ARM::MVE_VPTv16s8 \|\| Opc == ARM::MVE_VPTv8i16 \|\|		Opc == ARM::MVE_VPTv16s8 \|\| Opc == ARM::MVE_VPTv8i16 \|\|
Opc == ARM::MVE_VPTv8u16 \|\| Opc == ARM::MVE_VPTv8s16 \|\|		Opc == ARM::MVE_VPTv8u16 \|\| Opc == ARM::MVE_VPTv8s16 \|\|
Opc == ARM::MVE_VPTv4i32 \|\| Opc == ARM::MVE_VPTv4u32 \|\|		Opc == ARM::MVE_VPTv4i32 \|\| Opc == ARM::MVE_VPTv4u32 \|\|
Opc == ARM::MVE_VPTv4s32 \|\| Opc == ARM::MVE_VPTv4f32 \|\|		Opc == ARM::MVE_VPTv4s32 \|\| Opc == ARM::MVE_VPTv4f32 \|\|
Opc == ARM::MVE_VPTv8f16 \|\| Opc == ARM::MVE_VPTv16i8r \|\|		Opc == ARM::MVE_VPTv8f16 \|\| Opc == ARM::MVE_VPTv16i8r \|\|
▲ Show 20 Lines • Show All 71 Lines • ▼ Show 20 Lines	unsigned VCTPOpcodeToLSTP(unsigned Opcode, bool IsDoLoop) {
case ARM::MVE_VCTP32:		case ARM::MVE_VCTP32:
return IsDoLoop ? ARM::MVE_DLSTP_32 : ARM::MVE_WLSTP_32;		return IsDoLoop ? ARM::MVE_DLSTP_32 : ARM::MVE_WLSTP_32;
case ARM::MVE_VCTP64:		case ARM::MVE_VCTP64:
return IsDoLoop ? ARM::MVE_DLSTP_64 : ARM::MVE_WLSTP_64;		return IsDoLoop ? ARM::MVE_DLSTP_64 : ARM::MVE_WLSTP_64;
}		}
return 0;		return 0;
}		}

		static inline unsigned getTailPredVectorWidth(unsigned Opcode) {
		switch (Opcode) {
		default:
		llvm_unreachable("unhandled vctp opcode");
		case ARM::MVE_VCTP8: return 16;
		case ARM::MVE_VCTP16: return 8;
		case ARM::MVE_VCTP32: return 4;
		case ARM::MVE_VCTP64: return 2;
		}
		return 0;
		}

static inline		static inline
bool isVCTP(MachineInstr *MI) {		bool isVCTP(MachineInstr *MI) {
switch (MI->getOpcode()) {		switch (MI->getOpcode()) {
default:		default:
break;		break;
case ARM::MVE_VCTP8:		case ARM::MVE_VCTP8:
case ARM::MVE_VCTP16:		case ARM::MVE_VCTP16:
case ARM::MVE_VCTP32:		case ARM::MVE_VCTP32:
Show All 31 Lines	return Opc == ARM::tPOP_RET \|\| Opc == ARM::LDMIA_RET \|\|
Opc == ARM::t2LDMIA_UPD \|\| Opc == ARM::VLDMDIA_UPD;		Opc == ARM::t2LDMIA_UPD \|\| Opc == ARM::VLDMDIA_UPD;
}		}

static inline bool isPushOpcode(int Opc) {		static inline bool isPushOpcode(int Opc) {
return Opc == ARM::tPUSH \|\| Opc == ARM::t2STMDB_UPD \|\|		return Opc == ARM::tPUSH \|\| Opc == ARM::t2STMDB_UPD \|\|
Opc == ARM::STMDB_UPD \|\| Opc == ARM::VSTMDDB_UPD;		Opc == ARM::STMDB_UPD \|\| Opc == ARM::VSTMDDB_UPD;
}		}

		static inline bool isSubImmOpcode(int Opc) {
		return Opc == ARM::SUBri \|\|
		Opc == ARM::tSUBi3 \|\| Opc == ARM::tSUBi8 \|\|
		SjoerdMeijerUnsubmitted Not Done Reply Inline Actions What about `tSUBSi3`, do we need to consider that too? SjoerdMeijer: What about `tSUBSi3`, do we need to consider that too?
		Opc == ARM::tSUBSi3 \|\| Opc == ARM::tSUBSi8 \|\|
		Opc == ARM::t2SUBri \|\| Opc == ARM::t2SUBri12 \|\| Opc == ARM::t2SUBSri;
		}

		static inline bool isMovRegOpcode(int Opc) {
		return Opc == ARM::MOVr \|\| Opc == ARM::tMOVr \|\| Opc == ARM::t2MOVr;
		}

/// isValidCoprocessorNumber - decide whether an explicit coprocessor		/// isValidCoprocessorNumber - decide whether an explicit coprocessor
/// number is legal in generic instructions like CDP. The answer can		/// number is legal in generic instructions like CDP. The answer can
/// vary with the subtarget.		/// vary with the subtarget.
static inline bool isValidCoprocessorNumber(unsigned Num,		static inline bool isValidCoprocessorNumber(unsigned Num,
const FeatureBitset& featureBits) {		const FeatureBitset& featureBits) {
// Armv8-A disallows everything other than 111x (CP14 and CP15).		// Armv8-A disallows everything other than 111x (CP14 and CP15).
if (featureBits[ARM::HasV8Ops] && (Num & 0xE) != 0xE)		if (featureBits[ARM::HasV8Ops] && (Num & 0xE) != 0xE)
return false;		return false;
▲ Show 20 Lines • Show All 106 Lines • Show Last 20 Lines

llvm/lib/Target/ARM/ARMInstrThumb2.td

Show First 20 Lines • Show All 5,354 Lines • ▼ Show 20 Lines	def t2LE : t2LOL<(outs ), (ins lelabel_u11:$label), "le", "$label"> {
let isBranch = 1;		let isBranch = 1;
let isTerminator = 1;		let isTerminator = 1;
}		}

def t2DoLoopStart :		def t2DoLoopStart :
t2PseudoInst<(outs), (ins rGPR:$elts), 4, IIC_Br,		t2PseudoInst<(outs), (ins rGPR:$elts), 4, IIC_Br,
[(int_set_loop_iterations rGPR:$elts)]>, Sched<[WriteBr]>;		[(int_set_loop_iterations rGPR:$elts)]>, Sched<[WriteBr]>;

		let hasSideEffects = 0 in
def t2LoopDec :		def t2LoopDec :
t2PseudoInst<(outs GPRlr:$Rm), (ins GPRlr:$Rn, imm0_7:$size),		t2PseudoInst<(outs GPRlr:$Rm), (ins GPRlr:$Rn, imm0_7:$size),
4, IIC_Br, []>, Sched<[WriteBr]>;		4, IIC_Br, []>, Sched<[WriteBr]>;

let isBranch = 1, isTerminator = 1, hasSideEffects = 1, Defs = [CPSR] in {		let isBranch = 1, isTerminator = 1, hasSideEffects = 1, Defs = [CPSR] in {
// Set WhileLoopStart and LoopEnd to occupy 8 bytes because they may		// Set WhileLoopStart and LoopEnd to occupy 8 bytes because they may
// get converted into t2CMP and t2Bcc.		// get converted into t2CMP and t2Bcc.
def t2WhileLoopStart :		def t2WhileLoopStart :
▲ Show 20 Lines • Show All 73 Lines • Show Last 20 Lines

llvm/lib/Target/ARM/ARMLowOverheadLoops.cpp

Show All 39 Lines
#include "ARM.h"		#include "ARM.h"
#include "ARMBaseInstrInfo.h"		#include "ARMBaseInstrInfo.h"
#include "ARMBaseRegisterInfo.h"		#include "ARMBaseRegisterInfo.h"
#include "ARMBasicBlockInfo.h"		#include "ARMBasicBlockInfo.h"
#include "ARMSubtarget.h"		#include "ARMSubtarget.h"
#include "Thumb2InstrInfo.h"		#include "Thumb2InstrInfo.h"
#include "llvm/ADT/SetOperations.h"		#include "llvm/ADT/SetOperations.h"
#include "llvm/ADT/SmallSet.h"		#include "llvm/ADT/SmallSet.h"
		#include "llvm/CodeGen/LivePhysRegs.h"
#include "llvm/CodeGen/MachineFunctionPass.h"		#include "llvm/CodeGen/MachineFunctionPass.h"
#include "llvm/CodeGen/MachineLoopInfo.h"		#include "llvm/CodeGen/MachineLoopInfo.h"
#include "llvm/CodeGen/MachineLoopUtils.h"		#include "llvm/CodeGen/MachineLoopUtils.h"
#include "llvm/CodeGen/MachineRegisterInfo.h"		#include "llvm/CodeGen/MachineRegisterInfo.h"
#include "llvm/CodeGen/Passes.h"		#include "llvm/CodeGen/Passes.h"
#include "llvm/CodeGen/ReachingDefAnalysis.h"		#include "llvm/CodeGen/ReachingDefAnalysis.h"
#include "llvm/MC/MCInstrDesc.h"		#include "llvm/MC/MCInstrDesc.h"

▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines	namespace {
};		};

struct PredicatedMI {		struct PredicatedMI {
MachineInstr *MI = nullptr;		MachineInstr *MI = nullptr;
SetVector<MachineInstr*> Predicates;		SetVector<MachineInstr*> Predicates;

public:		public:
PredicatedMI(MachineInstr I, SetVector<MachineInstr> &Preds) :		PredicatedMI(MachineInstr I, SetVector<MachineInstr> &Preds) :
MI(I) {		MI(I) { Predicates.insert(Preds.begin(), Preds.end()); }
Predicates.insert(Preds.begin(), Preds.end());
}
};		};

// Represent a VPT block, a list of instructions that begins with a VPST and		// Represent a VPT block, a list of instructions that begins with a VPST and
// has a maximum of four proceeding instructions. All instructions within the		// has a maximum of four proceeding instructions. All instructions within the
// block are predicated upon the vpr and we allow instructions to define the		// block are predicated upon the vpr and we allow instructions to define the
// vpr within in the block too.		// vpr within in the block too.
class VPTBlock {		class VPTBlock {
std::unique_ptr<PredicatedMI> VPST;		std::unique_ptr<PredicatedMI> VPST;
▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines	struct LowOverheadLoop {
MachineInstr *InsertPt = nullptr;		MachineInstr *InsertPt = nullptr;
MachineInstr *Start = nullptr;		MachineInstr *Start = nullptr;
MachineInstr *Dec = nullptr;		MachineInstr *Dec = nullptr;
MachineInstr *End = nullptr;		MachineInstr *End = nullptr;
MachineInstr *VCTP = nullptr;		MachineInstr *VCTP = nullptr;
VPTBlock *CurrentBlock = nullptr;		VPTBlock *CurrentBlock = nullptr;
SetVector<MachineInstr*> CurrentPredicate;		SetVector<MachineInstr*> CurrentPredicate;
SmallVector<VPTBlock, 4> VPTBlocks;		SmallVector<VPTBlock, 4> VPTBlocks;
		SmallPtrSet<MachineInstr*, 4> ToRemove;
bool Revert = false;		bool Revert = false;
bool CannotTailPredicate = false;		bool CannotTailPredicate = false;

LowOverheadLoop(MachineLoop *ML) : ML(ML) {		LowOverheadLoop(MachineLoop *ML) : ML(ML) {
MF = ML->getHeader()->getParent();		MF = ML->getHeader()->getParent();
}		}

// If this is an MVE instruction, check that we know how to use tail		// If this is an MVE instruction, check that we know how to use tail
▲ Show 20 Lines • Show All 98 Lines • ▼ Show 20 Lines	private:
bool RevertNonLoops();		bool RevertNonLoops();

void RevertWhile(MachineInstr *MI) const;		void RevertWhile(MachineInstr *MI) const;

bool RevertLoopDec(MachineInstr *MI, bool AllowFlags = false) const;		bool RevertLoopDec(MachineInstr *MI, bool AllowFlags = false) const;

void RevertLoopEnd(MachineInstr *MI, bool SkipCmp = false) const;		void RevertLoopEnd(MachineInstr *MI, bool SkipCmp = false) const;

void RemoveLoopUpdate(LowOverheadLoop &LoLoop);

void ConvertVPTBlocks(LowOverheadLoop &LoLoop);		void ConvertVPTBlocks(LowOverheadLoop &LoLoop);

MachineInstr *ExpandLoopStart(LowOverheadLoop &LoLoop);		MachineInstr *ExpandLoopStart(LowOverheadLoop &LoLoop);

void Expand(LowOverheadLoop &LoLoop);		void Expand(LowOverheadLoop &LoLoop);

};		};
}		}
▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines	static bool IsSafeToMove(MachineInstr From, MachineInstr To, ReachingDefAnalysis *RDA) {
for (auto I = ++Iterator(From), E = Iterator(To); I != E; ++I) {		for (auto I = ++Iterator(From), E = Iterator(To); I != E; ++I) {
for (auto &MO : I->operands())		for (auto &MO : I->operands())
if (MO.isReg() && MO.getReg() && MO.isUse() && Defs.count(MO.getReg()))		if (MO.isReg() && MO.getReg() && MO.isUse() && Defs.count(MO.getReg()))
return false;		return false;
}		}
return true;		return true;
}		}

		static bool IsSafeToRemove(MachineInstr MI, ReachingDefAnalysis RDA,
		SmallPtrSetImpl<MachineInstr*> &Visited,
		SmallPtrSetImpl<MachineInstr*> &ToRemove,
		SmallPtrSetImpl<MachineInstr*> &Ignore) {
		SjoerdMeijerUnsubmitted Not Done Reply Inline Actions style: personally I think `getLocalUses` could be a local static helper function. It is a lambda, but pretty big, and only invoked here. I.e. it isn't e.g. used as an object that is passed to an algorithm. SjoerdMeijer: style: personally I think `getLocalUses` could be a local static helper function. It is a…
		if (Visited.count(MI) \|\| Ignore.count(MI))
		return true;
		else if (MI->mayLoadOrStore() \|\| MI->hasUnmodeledSideEffects() \|\|
		MI->isBranch() \|\| MI->isTerminator() \|\| MI->isReturn()) {
		// Unless told to ignore the instruction, don't remove anything which has
		SjoerdMeijerUnsubmitted Not Done Reply Inline Actions nit: perhaps a debug message here that MI has side-effects and can't be removed SjoerdMeijer: nit: perhaps a debug message here that MI has side-effects and can't be removed
		// side effects.
		LLVM_DEBUG(dbgs() << "ARM Loops: Has side effects: " << *MI);
		return false;
		}

		Visited.insert(MI);
		for (auto &MO : MI->operands()) {
		SjoerdMeijerUnsubmitted Not Done Reply Inline Actions typo: if -> is SjoerdMeijer: typo: if -> is
		if (!MO.isReg() \|\| MO.isUse() \|\| MO.getReg() == 0)
		continue;

		SmallPtrSet<MachineInstr*, 4> Uses;
		RDA->getGlobalUses(MI, MO.getReg(), Uses);

		for (auto I : Uses) {
		if (Ignore.count(I) \|\| ToRemove.count(I))
		continue;
		if (!IsSafeToRemove(I, RDA, Visited, ToRemove, Ignore)) {
		LLVM_DEBUG(dbgs() << "ARM Loops: Unable to remove " << *I);
		return false;
		}
		}
		}
		ToRemove.insert(MI);
		LLVM_DEBUG(dbgs() << "ARM Loops: Can remove: " << *MI);
		return true;
		}

bool LowOverheadLoop::ValidateTailPredicate(MachineInstr *StartInsertPt,		bool LowOverheadLoop::ValidateTailPredicate(MachineInstr *StartInsertPt,
ReachingDefAnalysis RDA, MachineLoopInfo MLI) {		ReachingDefAnalysis *RDA,
		MachineLoopInfo *MLI) {
assert(VCTP && "VCTP instruction expected but is not set");		assert(VCTP && "VCTP instruction expected but is not set");
// All predication within the loop should be based on vctp. If the block		// All predication within the loop should be based on vctp. If the block
// isn't predicated on entry, check whether the vctp is within the block		// isn't predicated on entry, check whether the vctp is within the block
// and that all other instructions are then predicated on it.		// and that all other instructions are then predicated on it.
for (auto &Block : VPTBlocks) {		for (auto &Block : VPTBlocks) {
if (Block.IsPredicatedOn(VCTP))		if (Block.IsPredicatedOn(VCTP))
continue;		continue;
if (!Block.HasNonUniformPredicate() \|\| !isVCTP(Block.getDivergent()->MI)) {		if (!Block.HasNonUniformPredicate() \|\| !isVCTP(Block.getDivergent()->MI)) {
LLVM_DEBUG(dbgs() << "ARM Loops: Found unsupported diverging predicate: "		LLVM_DEBUG(dbgs() << "ARM Loops: Found unsupported diverging predicate: "
<< *Block.getDivergent()->MI);		<< *Block.getDivergent()->MI);
return false;		return false;
}		}
SmallVectorImpl<PredicatedMI> &Insts = Block.getInsts();		SmallVectorImpl<PredicatedMI> &Insts = Block.getInsts();
for (auto &PredMI : Insts) {		for (auto &PredMI : Insts) {
if (PredMI.Predicates.count(VCTP) \|\| isVCTP(PredMI.MI))		if (PredMI.Predicates.count(VCTP) \|\| isVCTP(PredMI.MI))
continue;		continue;
LLVM_DEBUG(dbgs() << "ARM Loops: Can't convert: " << *PredMI.MI		LLVM_DEBUG(dbgs() << "ARM Loops: Can't convert: " << *PredMI.MI
<< " - which is predicated on:\n";		<< " - which is predicated on:\n";
for (auto *MI : PredMI.Predicates)		for (auto *MI : PredMI.Predicates)
dbgs() << " - " << *MI;		dbgs() << " - " << *MI);
);
return false;		return false;
}		}
}		}

// For tail predication, we need to provide the number of elements, instead		// For tail predication, we need to provide the number of elements, instead
// of the iteration count, to the loop start instruction. The number of		// of the iteration count, to the loop start instruction. The number of
// elements is provided to the vctp instruction, so we need to check that		// elements is provided to the vctp instruction, so we need to check that
// we can use this register at InsertPt.		// we can use this register at InsertPt.
Register NumElements = VCTP->getOperand(1).getReg();		Register NumElements = VCTP->getOperand(1).getReg();

// If the register is defined within loop, then we can't perform TP.		// If the register is defined within loop, then we can't perform TP.
// TODO: Check whether this is just a mov of a register that would be		// TODO: Check whether this is just a mov of a register that would be
// available.		// available.
if (RDA->getReachingDef(VCTP, NumElements) >= 0) {		if (RDA->getReachingDef(VCTP, NumElements) >= 0) {
LLVM_DEBUG(dbgs() << "ARM Loops: VCTP operand is defined in the loop.\n");		LLVM_DEBUG(dbgs() << "ARM Loops: VCTP operand is defined in the loop.\n");
return false;		return false;
}		}

// The element count register maybe defined after InsertPt, in which case we		// The element count register maybe defined after InsertPt, in which case we
// need to try to move either InsertPt or the def so that the [w\|d]lstp can		// need to try to move either InsertPt or the def so that the [w\|d]lstp can
// use the value.		// use the value.
MachineBasicBlock *InsertBB = InsertPt->getParent();		MachineBasicBlock *InsertBB = StartInsertPt->getParent();
if (!RDA->isReachingDefLiveOut(InsertPt, NumElements)) {		if (!RDA->isReachingDefLiveOut(StartInsertPt, NumElements)) {
if (auto *ElemDef = RDA->getLocalLiveOutMIDef(InsertBB, NumElements)) {		if (auto *ElemDef = RDA->getLocalLiveOutMIDef(InsertBB, NumElements)) {
if (IsSafeToMove<MachineBasicBlock::reverse_iterator>(ElemDef, InsertPt, RDA)) {		if (IsSafeToMove<MachineBasicBlock::reverse_iterator>(
		ElemDef, StartInsertPt, RDA)) {
ElemDef->removeFromParent();		ElemDef->removeFromParent();
InsertBB->insert(MachineBasicBlock::iterator(InsertPt), ElemDef);		InsertBB->insert(MachineBasicBlock::iterator(StartInsertPt), ElemDef);
LLVM_DEBUG(dbgs() << "ARM Loops: Moved element count def: "		LLVM_DEBUG(dbgs() << "ARM Loops: Moved element count def: "
<< *ElemDef);		<< *ElemDef);
} else if (IsSafeToMove<MachineBasicBlock::iterator>(InsertPt, ElemDef, RDA)) {		} else if (IsSafeToMove<MachineBasicBlock::iterator>(
InsertPt->removeFromParent();		StartInsertPt, ElemDef, RDA)) {
InsertBB->insertAfter(MachineBasicBlock::iterator(ElemDef), InsertPt);		StartInsertPt->removeFromParent();
		InsertBB->insertAfter(MachineBasicBlock::iterator(ElemDef),
		StartInsertPt);
LLVM_DEBUG(dbgs() << "ARM Loops: Moved start past: " << *ElemDef);		LLVM_DEBUG(dbgs() << "ARM Loops: Moved start past: " << *ElemDef);
} else {		} else {
LLVM_DEBUG(dbgs() << "ARM Loops: Unable to move element count to loop "		LLVM_DEBUG(dbgs() << "ARM Loops: Unable to move element count to loop "
<< "start instruction.\n");		<< "start instruction.\n");
return false;		return false;
}		}
}		}
}		}
Show All 25 Lines	bool LowOverheadLoop::ValidateTailPredicate(MachineInstr *StartInsertPt,
while (MBB != InsertBB) {		while (MBB != InsertBB) {
if (CannotProvideElements(MBB, NumElements)) {		if (CannotProvideElements(MBB, NumElements)) {
LLVM_DEBUG(dbgs() << "ARM Loops: Unable to provide element count.\n");		LLVM_DEBUG(dbgs() << "ARM Loops: Unable to provide element count.\n");
return false;		return false;
}		}
MBB = *MBB->pred_begin();		MBB = *MBB->pred_begin();
}		}

LLVM_DEBUG(dbgs() << "ARM Loops: Will use tail predication.\n");		// Check that the value change of the element count is what we expect and
		// that the predication will be equivalent. For this we need:
		// NumElements = NumElements - VectorWidth. The sub will be a sub immediate
		// and we can also allow register copies within the chain too.
		auto IsValidSub = [](MachineInstr *MI, unsigned ExpectedVecWidth) {
		SjoerdMeijerUnsubmitted Not Done Reply Inline Actions ...renaming `VecWidth` to `ExpectedVecWidth` or something along those lines help a bit. SjoerdMeijer: ...renaming `VecWidth` to `ExpectedVecWidth` or something along those lines help a bit.
		unsigned ImmOpIdx = 0;
		switch (MI->getOpcode()) {
		SjoerdMeijerUnsubmitted Not Done Reply Inline Actions Is this also a little helper function that could live in ARMBaseInstrInfo as e.g. `getSubImmOpIndex`? SjoerdMeijer: Is this also a little helper function that could live in ARMBaseInstrInfo as e.g.
		default:
		llvm_unreachable("unhandled sub opcode");
		case ARM::tSUBi3:
		case ARM::tSUBi8:
		ImmOpIdx = 3;
		break;
		case ARM::t2SUBri:
		case ARM::t2SUBri12:
		ImmOpIdx = 2;
		break;
		}
		return MI->getOperand(ImmOpIdx).getImm() == ExpectedVecWidth;
		};

		MBB = VCTP->getParent();
		if (MachineInstr *Def = RDA->getReachingMIDef(&MBB->back(), NumElements)) {
		SmallPtrSet<MachineInstr*, 2> Visited;
		SmallPtrSet<MachineInstr*, 2> ElementChain;
		SmallPtrSet<MachineInstr*, 2> Ignore = { VCTP };
		unsigned ExpectedVectorWidth = getTailPredVectorWidth(VCTP->getOpcode());

		if (IsSafeToRemove(Def, RDA, Visited, ElementChain, Ignore)) {
		bool FoundSub = false;

		for (auto *MI : ElementChain) {
		if (isMovRegOpcode(MI->getOpcode()))
		continue;

		if (isSubImmOpcode(MI->getOpcode())) {
		if (FoundSub \|\| !IsValidSub(MI, ExpectedVectorWidth))
		return false;
		FoundSub = true;
		} else
		return false;
		}

		LLVM_DEBUG(dbgs() << "ARM Loops: Will remove element count chain:\n";
		for (auto *MI : ElementChain)
		dbgs() << " - " << *MI);
		ToRemove.insert(ElementChain.begin(), ElementChain.end());
		}
		}
		SjoerdMeijerUnsubmitted Not Done Reply Inline Actions I wanted to comment if you could be more specific what you mean with `value change` and `what we expect` here, but reading a bit further clarified that, but perhaps.... SjoerdMeijer: I wanted to comment if you could be more specific what you mean with `value change` and `what…
return true;		return true;
}		}

void LowOverheadLoop::CheckLegality(ARMBasicBlockUtils *BBUtils,		void LowOverheadLoop::CheckLegality(ARMBasicBlockUtils *BBUtils,
ReachingDefAnalysis *RDA,		ReachingDefAnalysis *RDA,
MachineLoopInfo *MLI) {		MachineLoopInfo *MLI) {
if (Revert)		if (Revert)
return;		return;
▲ Show 20 Lines • Show All 155 Lines • ▼ Show 20 Lines	bool ARMLowOverheadLoops::ProcessLoop(MachineLoop *ML) {
for (auto I = ML->begin(), E = ML->end(); I != E; ++I)		for (auto I = ML->begin(), E = ML->end(); I != E; ++I)
Changed \|= ProcessLoop(*I);		Changed \|= ProcessLoop(*I);

LLVM_DEBUG(dbgs() << "ARM Loops: Processing loop containing:\n";		LLVM_DEBUG(dbgs() << "ARM Loops: Processing loop containing:\n";
if (auto *Preheader = ML->getLoopPreheader())		if (auto *Preheader = ML->getLoopPreheader())
dbgs() << " - " << Preheader->getName() << "\n";		dbgs() << " - " << Preheader->getName() << "\n";
else if (auto *Preheader = MLI->findLoopPreheader(ML))		else if (auto *Preheader = MLI->findLoopPreheader(ML))
dbgs() << " - " << Preheader->getName() << "\n";		dbgs() << " - " << Preheader->getName() << "\n";
		else if (auto *Preheader = MLI->findLoopPreheader(ML, true))
		dbgs() << " - " << Preheader->getName() << "\n";
for (auto *MBB : ML->getBlocks())		for (auto *MBB : ML->getBlocks())
dbgs() << " - " << MBB->getName() << "\n";		dbgs() << " - " << MBB->getName() << "\n";
);		);

// Search the given block for a loop start instruction. If one isn't found,		// Search the given block for a loop start instruction. If one isn't found,
// and there's only one predecessor block, search that one too.		// and there's only one predecessor block, search that one too.
std::function<MachineInstr(MachineBasicBlock)> SearchForStart =		std::function<MachineInstr(MachineBasicBlock)> SearchForStart =
[&SearchForStart](MachineBasicBlock MBB) -> MachineInstr {		[&SearchForStart](MachineBasicBlock MBB) -> MachineInstr {
Show All 34 Lines	for (auto &MI : *MBB) {
// faster than performing a sub,cmp,br or even subs,br.		// faster than performing a sub,cmp,br or even subs,br.
LoLoop.Revert = true;		LoLoop.Revert = true;
LLVM_DEBUG(dbgs() << "ARM Loops: Found call.\n");		LLVM_DEBUG(dbgs() << "ARM Loops: Found call.\n");
} else {		} else {
// Record VPR defs and build up their corresponding vpt blocks.		// Record VPR defs and build up their corresponding vpt blocks.
// Check we know how to tail predicate any mve instructions.		// Check we know how to tail predicate any mve instructions.
LoLoop.AnalyseMVEInst(&MI);		LoLoop.AnalyseMVEInst(&MI);
}		}

// We need to ensure that LR is not used or defined inbetween LoopDec and
// LoopEnd.
if (!LoLoop.Dec \|\| LoLoop.End \|\| LoLoop.Revert)
continue;

// If we find that LR has been written or read between LoopDec and
// LoopEnd, expect that the decremented value is being used else where.
// Because this value isn't actually going to be produced until the
// latch, by LE, we would need to generate a real sub. The value is also
// likely to be copied/reloaded for use of LoopEnd - in which in case
// we'd need to perform an add because it gets subtracted again by LE!
// The other option is to then generate the other form of LE which doesn't
// perform the sub.
for (auto &MO : MI.operands()) {
if (MI.getOpcode() != ARM::t2LoopDec && MO.isReg() &&
MO.getReg() == ARM::LR) {
LLVM_DEBUG(dbgs() << "ARM Loops: Found LR Use/Def: " << MI);
LoLoop.Revert = true;
break;
}
}
}		}
}		}

LLVM_DEBUG(LoLoop.dump());		LLVM_DEBUG(LoLoop.dump());
if (!LoLoop.FoundAllComponents()) {		if (!LoLoop.FoundAllComponents()) {
LLVM_DEBUG(dbgs() << "ARM Loops: Didn't find loop start, update, end\n");		LLVM_DEBUG(dbgs() << "ARM Loops: Didn't find loop start, update, end\n");
return false;		return false;
}		}

		SmallPtrSet<MachineInstr*, 2> Visited;
		SmallPtrSet<MachineInstr*, 2> Ignore = { LoLoop.End };
		SmallPtrSet<MachineInstr*, 4> Remove;
		if (!IsSafeToRemove(LoLoop.Dec, RDA, Visited, Remove, Ignore)) {
		LLVM_DEBUG(dbgs() << "ARM Loops: Unable to remove loop count chain.\n");
		LoLoop.Revert = true;
		} else {
		LLVM_DEBUG(dbgs() << "ARM Loops: Will need to remove:\n";
		for (auto *I : Remove)
		dbgs() << " - " << *I);
		LoLoop.ToRemove.insert(Remove.begin(), Remove.end());
		}

LoLoop.CheckLegality(BBUtils.get(), RDA, MLI);		LoLoop.CheckLegality(BBUtils.get(), RDA, MLI);
Expand(LoLoop);		Expand(LoLoop);
return true;		return true;
}		}

// WhileLoopStart holds the exit block, so produce a cmp lr, 0 and then a		// WhileLoopStart holds the exit block, so produce a cmp lr, 0 and then a
// beq that branches to the exit branch.		// beq that branches to the exit branch.
// TODO: We could also try to generate a cbz if the value in LR is also in		// TODO: We could also try to generate a cbz if the value in LR is also in
▲ Show 20 Lines • Show All 71 Lines • ▼ Show 20 Lines	void ARMLowOverheadLoops::RevertLoopEnd(MachineInstr *MI, bool SkipCmp) const {
MachineInstrBuilder MIB =		MachineInstrBuilder MIB =
BuildMI(*MBB, MI, MI->getDebugLoc(), TII->get(BrOpc));		BuildMI(*MBB, MI, MI->getDebugLoc(), TII->get(BrOpc));
MIB.add(MI->getOperand(1)); // branch target		MIB.add(MI->getOperand(1)); // branch target
MIB.addImm(ARMCC::NE); // condition code		MIB.addImm(ARMCC::NE); // condition code
MIB.addReg(ARM::CPSR);		MIB.addReg(ARM::CPSR);
MI->eraseFromParent();		MI->eraseFromParent();
}		}

MachineInstr* ARMLowOverheadLoops::ExpandLoopStart(LowOverheadLoop &LoLoop) {		MachineInstr* ARMLowOverheadLoops::ExpandLoopStart(LowOverheadLoop &LoLoop) {
		LLVM_DEBUG(dbgs() << "ARM Loops: Expanding LoopStart.\n");
		// When using tail-predication, try to delete the dead code that was used to
		// calculate the number of loop iterations.
		if (LoLoop.IsTailPredicationLegal()) {
		SmallVector<MachineInstr*, 4> Killed;
		SjoerdMeijerUnsubmitted Not Done Reply Inline Actions I was wondering if it was a bit counter intuitive to start this `ExpandLoopStart` function with removing loop iteration instructions. We have `RemoveDeadBranch` that is called after `ExpandLoopStart`, so perhaps a similar helper function for this? SjoerdMeijer: I was wondering if it was a bit counter intuitive to start this `ExpandLoopStart` function with…
		samparkerAuthorUnsubmitted Done Reply Inline Actions I think removing the instruction, as well as its operand, in the same place makes sense. It's a bit different to the RemoveDeadBranch because that's really just a hack around the lack of understanding of LEUpdate in the backend. samparker: I think removing the instruction, as well as its operand, in the same place makes sense. It's a…
		SmallVector<MachineInstr*, 4> Dead;
		if (auto *Def = RDA->getReachingMIDef(LoLoop.Start,
		LoLoop.Start->getOperand(0).getReg())) {
		SjoerdMeijerUnsubmitted Not Done Reply Inline Actions nit: indentation SjoerdMeijer: nit: indentation
		SmallPtrSet<MachineInstr*, 4> Visited;
		SmallPtrSet<MachineInstr*, 4> Remove;
		SmallPtrSet<MachineInstr*, 4> Ignore = { LoLoop.Start, LoLoop.Dec,
		LoLoop.End, LoLoop.VCTP,
		LoLoop.InsertPt };
		SmallVector<MachineInstr*, 4> Chain = { Def };
		while (!Chain.empty()) {
		MachineInstr *MI = Chain.back();
		Chain.pop_back();
		if (IsSafeToRemove(MI, RDA, Visited, Remove, Ignore)) {
		for (auto &MO : MI->operands()) {
		if (!MO.isReg() \|\| !MO.isUse() \|\| MO.getReg() == 0)
		continue;
		if (auto *Op = RDA->getReachingMIDef(MI, MO.getReg()))
		Chain.push_back(Op);
		}
		Ignore.insert(MI);
		}
		}
		LoLoop.ToRemove.insert(Remove.begin(), Remove.end());
		}
		}

		SjoerdMeijerUnsubmitted Not Done Reply Inline Actions nit: `MachineInstr* A...` -> `MachineInstr A...` SjoerdMeijer:* nit: `MachineInstr* A...` -> `MachineInstr *A...`
MachineInstr *InsertPt = LoLoop.InsertPt;		MachineInstr *InsertPt = LoLoop.InsertPt;
MachineInstr *Start = LoLoop.Start;		MachineInstr *Start = LoLoop.Start;
MachineBasicBlock *MBB = InsertPt->getParent();		MachineBasicBlock *MBB = InsertPt->getParent();
bool IsDo = Start->getOpcode() == ARM::t2DoLoopStart;		bool IsDo = Start->getOpcode() == ARM::t2DoLoopStart;
unsigned Opc = LoLoop.getStartOpcode();		unsigned Opc = LoLoop.getStartOpcode();
MachineOperand &Count = LoLoop.getCount();		MachineOperand &Count = LoLoop.getCount();

MachineInstrBuilder MIB =		MachineInstrBuilder MIB =
BuildMI(*MBB, InsertPt, InsertPt->getDebugLoc(), TII->get(Opc));		BuildMI(*MBB, InsertPt, InsertPt->getDebugLoc(), TII->get(Opc));

MIB.addDef(ARM::LR);		MIB.addDef(ARM::LR);
MIB.add(Count);		MIB.add(Count);
if (!IsDo)		if (!IsDo)
MIB.add(Start->getOperand(1));		MIB.add(Start->getOperand(1));

// When using tail-predication, try to delete the dead code that was used to
// calculate the number of loop iterations.
if (LoLoop.IsTailPredicationLegal()) {
SmallVector<MachineInstr*, 4> Killed;
SmallVector<MachineInstr*, 4> Dead;
if (auto *Def = RDA->getReachingMIDef(Start,
Start->getOperand(0).getReg())) {
Killed.push_back(Def);

while (!Killed.empty()) {
MachineInstr *Def = Killed.back();
Killed.pop_back();
Dead.push_back(Def);
for (auto &MO : Def->operands()) {
if (!MO.isReg() \|\| !MO.isKill())
continue;

MachineInstr *Kill = RDA->getReachingMIDef(Def, MO.getReg());
if (Kill && RDA->getNumUses(Kill, MO.getReg()) == 1)
Killed.push_back(Kill);
}
}
for (auto *MI : Dead)
MI->eraseFromParent();
}
}

// If we're inserting at a mov lr, then remove it as it's redundant.		// If we're inserting at a mov lr, then remove it as it's redundant.
if (InsertPt != Start)		if (InsertPt != Start)
InsertPt->eraseFromParent();		LoLoop.ToRemove.insert(InsertPt);
Start->eraseFromParent();		LoLoop.ToRemove.insert(Start);
LLVM_DEBUG(dbgs() << "ARM Loops: Inserted start: " << *MIB);		LLVM_DEBUG(dbgs() << "ARM Loops: Inserted start: " << *MIB);
return &*MIB;		return &*MIB;
}		}

// Goal is to optimise and clean-up these loops:
//
// vector.body:
// renamable $vpr = MVE_VCTP32 renamable $r3, 0, $noreg
// renamable $r3, dead $cpsr = tSUBi8 killed renamable $r3(tied-def 0), 4
// ..
// $lr = MVE_DLSTP_32 renamable $r3
//
// The SUB is the old update of the loop iteration count expression, which
// is no longer needed. This sub is removed when the element count, which is in
// r3 in this example, is defined by an instruction in the loop, and it has
// no uses.
//
void ARMLowOverheadLoops::RemoveLoopUpdate(LowOverheadLoop &LoLoop) {
Register ElemCount = LoLoop.VCTP->getOperand(1).getReg();
MachineInstr *LastInstrInBlock = &LoLoop.VCTP->getParent()->back();

LLVM_DEBUG(dbgs() << "ARM Loops: Trying to remove loop update stmt\n");

if (LoLoop.ML->getNumBlocks() != 1) {
LLVM_DEBUG(dbgs() << "ARM Loops: Single block loop expected\n");
return;
}

LLVM_DEBUG(dbgs() << "ARM Loops: Analyzing elemcount in operand: ";
LoLoop.VCTP->getOperand(1).dump());

// Find the definition we are interested in removing, if there is one.
MachineInstr *Def = RDA->getReachingMIDef(LastInstrInBlock, ElemCount);
if (!Def) {
LLVM_DEBUG(dbgs() << "ARM Loops: Can't find a def, nothing to do.\n");
return;
}

// Bail if we define CPSR and it is not dead
if (!Def->registerDefIsDead(ARM::CPSR, TRI)) {
LLVM_DEBUG(dbgs() << "ARM Loops: CPSR is not dead\n");
return;
}

// Bail if elemcount is used in exit blocks, i.e. if it is live-in.
if (isRegLiveInExitBlocks(LoLoop.ML, ElemCount)) {
LLVM_DEBUG(dbgs() << "ARM Loops: Elemcount is live-out, can't remove stmt\n");
return;
}

// Bail if there are uses after this Def in the block.
SmallVector<MachineInstr*, 4> Uses;
RDA->getReachingLocalUses(Def, ElemCount, Uses);
if (Uses.size()) {
LLVM_DEBUG(dbgs() << "ARM Loops: Local uses in block, can't remove stmt\n");
return;
}

Uses.clear();
RDA->getAllInstWithUseBefore(Def, ElemCount, Uses);

// Remove Def if there are no uses, or if the only use is the VCTP
// instruction.
if (!Uses.size() \|\| (Uses.size() == 1 && Uses[0] == LoLoop.VCTP)) {
LLVM_DEBUG(dbgs() << "ARM Loops: Removing loop update instruction: ";
Def->dump());
Def->eraseFromParent();
return;
}

LLVM_DEBUG(dbgs() << "ARM Loops: Can't remove loop update, it's used by:\n";
for (auto U : Uses) U->dump());
}

void ARMLowOverheadLoops::ConvertVPTBlocks(LowOverheadLoop &LoLoop) {		void ARMLowOverheadLoops::ConvertVPTBlocks(LowOverheadLoop &LoLoop) {
auto RemovePredicate = [](MachineInstr *MI) {		auto RemovePredicate = [](MachineInstr *MI) {
LLVM_DEBUG(dbgs() << "ARM Loops: Removing predicate from: " << *MI);		LLVM_DEBUG(dbgs() << "ARM Loops: Removing predicate from: " << *MI);
if (int PIdx = llvm::findFirstVPTPredOperandIdx(*MI)) {		if (int PIdx = llvm::findFirstVPTPredOperandIdx(*MI)) {
assert(MI->getOperand(PIdx).getImm() == ARMVCC::Then &&		assert(MI->getOperand(PIdx).getImm() == ARMVCC::Then &&
"Expected Then predicate!");		"Expected Then predicate!");
MI->getOperand(PIdx).setImm(ARMVCC::None);		MI->getOperand(PIdx).setImm(ARMVCC::None);
MI->getOperand(PIdx+1).setReg(0);		MI->getOperand(PIdx+1).setReg(0);
▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines	if (Block.HasNonUniformPredicate()) {
++I;		++I;
}		}
MachineInstrBuilder MIB = BuildMI(*InsertAt->getParent(), InsertAt,		MachineInstrBuilder MIB = BuildMI(*InsertAt->getParent(), InsertAt,
InsertAt->getDebugLoc(),		InsertAt->getDebugLoc(),
TII->get(ARM::MVE_VPST));		TII->get(ARM::MVE_VPST));
MIB.addImm(getARMVPTBlockMask(Size));		MIB.addImm(getARMVPTBlockMask(Size));
LLVM_DEBUG(dbgs() << "ARM Loops: Removing VPST: " << *Block.getVPST());		LLVM_DEBUG(dbgs() << "ARM Loops: Removing VPST: " << *Block.getVPST());
LLVM_DEBUG(dbgs() << "ARM Loops: Created VPST: " << *MIB);		LLVM_DEBUG(dbgs() << "ARM Loops: Created VPST: " << *MIB);
Block.getVPST()->eraseFromParent();		LoLoop.ToRemove.insert(Block.getVPST());
}		}
} else if (Block.IsOnlyPredicatedOn(LoLoop.VCTP)) {		} else if (Block.IsOnlyPredicatedOn(LoLoop.VCTP)) {
// A vpt block which is only predicated upon vctp and has no internal vpr		// A vpt block which is only predicated upon vctp and has no internal vpr
// defs:		// defs:
// - Remove vpst.		// - Remove vpst.
// - Unpredicate the remaining instructions.		// - Unpredicate the remaining instructions.
LLVM_DEBUG(dbgs() << "ARM Loops: Removing VPST: " << *Block.getVPST());		LLVM_DEBUG(dbgs() << "ARM Loops: Removing VPST: " << *Block.getVPST());
Block.getVPST()->eraseFromParent();		LoLoop.ToRemove.insert(Block.getVPST());
for (auto &PredMI : Insts)		for (auto &PredMI : Insts)
RemovePredicate(PredMI.MI);		RemovePredicate(PredMI.MI);
}		}
}		}

LLVM_DEBUG(dbgs() << "ARM Loops: Removing VCTP: " << *LoLoop.VCTP);		LLVM_DEBUG(dbgs() << "ARM Loops: Removing VCTP: " << *LoLoop.VCTP);
LoLoop.VCTP->eraseFromParent();		LoLoop.ToRemove.insert(LoLoop.VCTP);
}		}

void ARMLowOverheadLoops::Expand(LowOverheadLoop &LoLoop) {		void ARMLowOverheadLoops::Expand(LowOverheadLoop &LoLoop) {

// Combine the LoopDec and LoopEnd instructions into LE(TP).		// Combine the LoopDec and LoopEnd instructions into LE(TP).
auto ExpandLoopEnd = [this](LowOverheadLoop &LoLoop) {		auto ExpandLoopEnd = [this](LowOverheadLoop &LoLoop) {
MachineInstr *End = LoLoop.End;		MachineInstr *End = LoLoop.End;
MachineBasicBlock *MBB = End->getParent();		MachineBasicBlock *MBB = End->getParent();
unsigned Opc = LoLoop.IsTailPredicationLegal() ?		unsigned Opc = LoLoop.IsTailPredicationLegal() ?
ARM::MVE_LETP : ARM::t2LEUpdate;		ARM::MVE_LETP : ARM::t2LEUpdate;
MachineInstrBuilder MIB = BuildMI(*MBB, End, End->getDebugLoc(),		MachineInstrBuilder MIB = BuildMI(*MBB, End, End->getDebugLoc(),
TII->get(Opc));		TII->get(Opc));
MIB.addDef(ARM::LR);		MIB.addDef(ARM::LR);
MIB.add(End->getOperand(0));		MIB.add(End->getOperand(0));
MIB.add(End->getOperand(1));		MIB.add(End->getOperand(1));
LLVM_DEBUG(dbgs() << "ARM Loops: Inserted LE: " << *MIB);		LLVM_DEBUG(dbgs() << "ARM Loops: Inserted LE: " << *MIB);
		End->eraseFromParent();
LoLoop.End->eraseFromParent();
LoLoop.Dec->eraseFromParent();
return &*MIB;		return &*MIB;
};		};

// TODO: We should be able to automatically remove these branches before we		// TODO: We should be able to automatically remove these branches before we
// get here - probably by teaching analyzeBranch about the pseudo		// get here - probably by teaching analyzeBranch about the pseudo
// instructions.		// instructions.
// If there is an unconditional branch, after I, that just branches to the		// If there is an unconditional branch, after I, that just branches to the
// next block, remove it.		// next block, remove it.
Show All 16 Lines	else
LoLoop.Start->eraseFromParent();		LoLoop.Start->eraseFromParent();
bool FlagsAlreadySet = RevertLoopDec(LoLoop.Dec, true);		bool FlagsAlreadySet = RevertLoopDec(LoLoop.Dec, true);
RevertLoopEnd(LoLoop.End, FlagsAlreadySet);		RevertLoopEnd(LoLoop.End, FlagsAlreadySet);
} else {		} else {
LoLoop.Start = ExpandLoopStart(LoLoop);		LoLoop.Start = ExpandLoopStart(LoLoop);
RemoveDeadBranch(LoLoop.Start);		RemoveDeadBranch(LoLoop.Start);
LoLoop.End = ExpandLoopEnd(LoLoop);		LoLoop.End = ExpandLoopEnd(LoLoop);
RemoveDeadBranch(LoLoop.End);		RemoveDeadBranch(LoLoop.End);
if (LoLoop.IsTailPredicationLegal()) {		if (LoLoop.IsTailPredicationLegal())
RemoveLoopUpdate(LoLoop);
ConvertVPTBlocks(LoLoop);		ConvertVPTBlocks(LoLoop);
		for (auto *I : LoLoop.ToRemove) {
		LLVM_DEBUG(dbgs() << "ARM Loops: Erasing " << *I);
		I->eraseFromParent();
}		}
}		}

PostOrderLoopTraversal DFS(LoLoop.ML, MLI);		PostOrderLoopTraversal DFS(LoLoop.ML, MLI);
DFS.ProcessLoop();		DFS.ProcessLoop();
const SmallVectorImpl<MachineBasicBlock*> &PostOrder = DFS.getOrder();		const SmallVectorImpl<MachineBasicBlock*> &PostOrder = DFS.getOrder();
for (auto *MBB : PostOrder) {		for (auto *MBB : PostOrder) {
recomputeLiveIns(*MBB);		recomputeLiveIns(*MBB);
▲ Show 20 Lines • Show All 50 Lines • Show Last 20 Lines

llvm/lib/Target/ARM/Utils/ARMBaseInfo.h

Show First 20 Lines • Show All 105 Lines • ▼ Show 20 Lines	enum VPTMaskValue {
TTET = 7, // 0b0111		TTET = 7, // 0b0111
TEEE = 9, // 0b1001		TEEE = 9, // 0b1001
TEET = 11, // 0b1011		TEET = 11, // 0b1011
TETT = 13, // 0b1101		TETT = 13, // 0b1101
TETE = 15 // 0b1111		TETE = 15 // 0b1111
};		};
}		}

inline static unsigned getARMVPTBlockMask(unsigned NumInsts) {
switch (NumInsts) {
case 1:
return ARMVCC::T;
case 2:
return ARMVCC::TT;
case 3:
return ARMVCC::TTT;
case 4:
return ARMVCC::TTTT;
default:
break;
};
llvm_unreachable("Unexpected number of instruction in a VPT block");
}

inline static const char *ARMVPTPredToString(ARMVCC::VPTCodes CC) {		inline static const char *ARMVPTPredToString(ARMVCC::VPTCodes CC) {
switch (CC) {		switch (CC) {
case ARMVCC::None: return "none";		case ARMVCC::None: return "none";
case ARMVCC::Then: return "t";		case ARMVCC::Then: return "t";
case ARMVCC::Else: return "e";		case ARMVCC::Else: return "e";
}		}
llvm_unreachable("Unknown VPT code");		llvm_unreachable("Unknown VPT code");
}		}
▲ Show 20 Lines • Show All 100 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/LowOverheadLoops/dont-remove-loop-update.mir

		# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
# RUN: llc -mtriple=thumbv8.1m.main -mattr=+mve,+lob -run-pass=arm-low-overhead-loops --verify-machineinstrs %s -o - \| FileCheck %s		# RUN: llc -mtriple=thumbv8.1m.main -mattr=+mve,+lob -run-pass=arm-low-overhead-loops --verify-machineinstrs %s -o - \| FileCheck %s

# There are 2 SUBS, and the 2nd one is identified as the def.		# There are 2 SUBS, so don't use tail predication
# Thus, the 1st is a use, and we shouldn't optimise away the SUBS.

# CHECK: bb.1.vector.body:
# CHECK: renamable $r3, dead $cpsr = tSUBi8 killed renamable $r3, 4, 14, $noreg
# CHECK: renamable $r3, dead $cpsr = tSUBi8 killed renamable $r3, 4, 14, $noreg
# CHECK: $lr = MVE_LETP killed renamable $lr, %bb.1

--- \|		--- \|
target datalayout = "e-m:e-p:32:32-Fi8-i64:64-v128:64:128-a:0:32-n32-S64"		target datalayout = "e-m:e-p:32:32-Fi8-i64:64-v128:64:128-a:0:32-n32-S64"
target triple = "thumbv8.1m.main-arm-unknown-eabi"		target triple = "thumbv8.1m.main-arm-unknown-eabi"

define dso_local void @use_before_def(i32* noalias nocapture %A, i32* noalias nocapture readonly %B, i32* noalias nocapture readonly %C, i32 %N) local_unnamed_addr #0 {		define dso_local void @use_before_def(i32* noalias nocapture %A, i32* noalias nocapture readonly %B, i32* noalias nocapture readonly %C, i32 %N) local_unnamed_addr #0 {
entry:		entry:
%cmp8 = icmp sgt i32 %N, 0		%cmp8 = icmp sgt i32 %N, 0
Show All 15 Lines	vector.body: ; preds = %vector.body, %vector.ph
%lsr.iv = phi i32* [ %scevgep, %vector.body ], [ %B, %vector.ph ]		%lsr.iv = phi i32* [ %scevgep, %vector.body ], [ %B, %vector.ph ]
%6 = phi i32 [ %5, %vector.ph ], [ %11, %vector.body ]		%6 = phi i32 [ %5, %vector.ph ], [ %11, %vector.body ]
%7 = phi i32 [ %N, %vector.ph ], [ %9, %vector.body ]		%7 = phi i32 [ %N, %vector.ph ], [ %9, %vector.body ]
%lsr.iv13 = bitcast i32* %lsr.iv to <4 x i32>*		%lsr.iv13 = bitcast i32* %lsr.iv to <4 x i32>*
%lsr.iv1416 = bitcast i32* %lsr.iv14 to <4 x i32>*		%lsr.iv1416 = bitcast i32* %lsr.iv14 to <4 x i32>*
%lsr.iv1719 = bitcast i32* %lsr.iv17 to <4 x i32>*		%lsr.iv1719 = bitcast i32* %lsr.iv17 to <4 x i32>*
%8 = call <4 x i1> @llvm.arm.vctp32(i32 %7)		%8 = call <4 x i1> @llvm.arm.vctp32(i32 %7)
%9 = sub i32 %7, 4		%9 = sub i32 %7, 4
%wide.masked.load = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %lsr.iv13, i32 4, <4 x i1> %8, <4 x i32> undef), !tbaa !3		%wide.masked.load = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %lsr.iv13, i32 4, <4 x i1> %8, <4 x i32> undef)
%wide.masked.load12 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %lsr.iv1416, i32 4, <4 x i1> %8, <4 x i32> undef), !tbaa !3		%wide.masked.load12 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %lsr.iv1416, i32 4, <4 x i1> %8, <4 x i32> undef)
%10 = add nsw <4 x i32> %wide.masked.load12, %wide.masked.load		%10 = add nsw <4 x i32> %wide.masked.load12, %wide.masked.load
call void @llvm.masked.store.v4i32.p0v4i32(<4 x i32> %10, <4 x i32>* %lsr.iv1719, i32 4, <4 x i1> %8), !tbaa !3		call void @llvm.masked.store.v4i32.p0v4i32(<4 x i32> %10, <4 x i32>* %lsr.iv1719, i32 4, <4 x i1> %8)
%scevgep = getelementptr i32, i32* %lsr.iv, i32 4		%scevgep = getelementptr i32, i32* %lsr.iv, i32 4
%scevgep15 = getelementptr i32, i32* %lsr.iv14, i32 4		%scevgep15 = getelementptr i32, i32* %lsr.iv14, i32 4
%scevgep18 = getelementptr i32, i32* %lsr.iv17, i32 4		%scevgep18 = getelementptr i32, i32* %lsr.iv17, i32 4
%11 = call i32 @llvm.loop.decrement.reg.i32.i32.i32(i32 %6, i32 1)		%11 = call i32 @llvm.loop.decrement.reg.i32.i32.i32(i32 %6, i32 1)
%12 = icmp ne i32 %11, 0		%12 = icmp ne i32 %11, 0
br i1 %12, label %vector.body, label %for.cond.cleanup, !llvm.loop !7		br i1 %12, label %vector.body, label %for.cond.cleanup

for.cond.cleanup: ; preds = %vector.body, %entry		for.cond.cleanup: ; preds = %vector.body, %entry
ret void		ret void
}		}
declare void @llvm.set.loop.iterations.i32(i32) #1		declare void @llvm.set.loop.iterations.i32(i32)
declare <4 x i1> @llvm.arm.vctp32(i32) #2		declare <4 x i1> @llvm.arm.vctp32(i32)
declare i32 @llvm.loop.decrement.reg.i32.i32.i32(i32, i32) #1		declare i32 @llvm.loop.decrement.reg.i32.i32.i32(i32, i32)
declare void @llvm.lifetime.start.p0i8(i64 immarg, i8* nocapture) #3		declare void @llvm.lifetime.start.p0i8(i64 immarg, i8* nocapture)
declare <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>*, i32 immarg, <4 x i1>, <4 x i32>) #4		declare <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>*, i32 immarg, <4 x i1>, <4 x i32>)
declare void @llvm.masked.store.v4i32.p0v4i32(<4 x i32>, <4 x i32>*, i32 immarg, <4 x i1>) #3		declare void @llvm.masked.store.v4i32.p0v4i32(<4 x i32>, <4 x i32>*, i32 immarg, <4 x i1>)
declare void @llvm.stackprotector(i8, i8*) #5

attributes #0 = { nofree norecurse nounwind "correctly-rounded-divide-sqrt-fp-math"="false" "disable-tail-calls"="false" "frame-pointer"="all" "less-precise-fpmad"="false" "min-legal-vector-width"="0" "no-infs-fp-math"="true" "no-jump-tables"="false" "no-nans-fp-math"="true" "no-signed-zeros-fp-math"="true" "no-trapping-math"="true" "stack-protector-buffer-size"="8" "target-cpu"="generic" "target-features"="+armv8.1-m.main,+fp-armv8d16sp,+fp16,+fullfp16,+hwdiv,+lob,+mve.fp,+ras,+strict-align,+thumb-mode,+vfp2sp,+vfp3d16sp,+vfp4d16sp" "unsafe-fp-math"="true" "use-soft-float"="false" }
attributes #1 = { noduplicate nounwind }
attributes #2 = { nounwind readnone }
attributes #3 = { argmemonly nounwind willreturn }
attributes #4 = { argmemonly nounwind readonly willreturn }
attributes #5 = { nounwind }

!llvm.module.flags = !{!0, !1}
!llvm.ident = !{!2}

!0 = !{i32 1, !"wchar_size", i32 4}
!1 = !{i32 1, !"min_enum_size", i32 4}
!2 = !{!"clang version 10.0.0 (http://github.com/llvm/llvm-project 2589b6d9edda73280fe1dc1d944ee34e22fe9a6f)"}
!3 = !{!4, !4, i64 0}
!4 = !{!"int", !5, i64 0}
!5 = !{!"omnipotent char", !6, i64 0}
!6 = !{!"Simple C++ TBAA"}
!7 = distinct !{!7, !8}
!8 = !{!"llvm.loop.isvectorized", i32 1}

...		...
---		---
name: use_before_def		name: use_before_def
alignment: 2		alignment: 2
exposesReturnsTwice: false		exposesReturnsTwice: false
legalized: false		legalized: false
regBankSelected: false		regBankSelected: false
Show All 33 Lines	- { id: 0, name: '', type: spill-slot, offset: -4, size: 4, alignment: 4,
debug-info-variable: '', debug-info-expression: '', debug-info-location: '' }		debug-info-variable: '', debug-info-expression: '', debug-info-location: '' }
- { id: 1, name: '', type: spill-slot, offset: -8, size: 4, alignment: 4,		- { id: 1, name: '', type: spill-slot, offset: -8, size: 4, alignment: 4,
stack-id: default, callee-saved-register: '$r7', callee-saved-restored: true,		stack-id: default, callee-saved-register: '$r7', callee-saved-restored: true,
debug-info-variable: '', debug-info-expression: '', debug-info-location: '' }		debug-info-variable: '', debug-info-expression: '', debug-info-location: '' }
callSites: []		callSites: []
constants: []		constants: []
machineFunctionInfo: {}		machineFunctionInfo: {}
body: \|		body: \|
		; CHECK-LABEL: name: use_before_def
		; CHECK: bb.0.entry:
		; CHECK: successors: %bb.1(0x80000000)
		; CHECK: liveins: $lr, $r0, $r1, $r2, $r3
		; CHECK: frame-setup tPUSH 14, $noreg, killed $r7, killed $lr, implicit-def $sp, implicit $sp
		; CHECK: frame-setup CFI_INSTRUCTION def_cfa_offset 8
		; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4
		; CHECK: frame-setup CFI_INSTRUCTION offset $r7, -8
		; CHECK: dead $r7 = frame-setup tMOVr $sp, 14, $noreg
		; CHECK: frame-setup CFI_INSTRUCTION def_cfa_register $r7
		; CHECK: tCMPi8 renamable $r3, 1, 14, $noreg, implicit-def $cpsr
		; CHECK: t2IT 11, 8, implicit-def $itstate
		; CHECK: tPOP_RET 11, killed $cpsr, def $r7, def $pc, implicit killed $itstate
		; CHECK: renamable $r12 = t2ADDri renamable $r3, 3, 14, $noreg, $noreg
		; CHECK: renamable $lr = t2MOVi 1, 14, $noreg, $noreg
		; CHECK: renamable $r12 = t2BICri killed renamable $r12, 3, 14, $noreg, $noreg
		; CHECK: renamable $r12 = t2SUBri killed renamable $r12, 4, 14, $noreg, $noreg
		; CHECK: renamable $lr = nuw nsw t2ADDrs killed renamable $lr, killed renamable $r12, 19, 14, $noreg, $noreg
		; CHECK: $lr = t2DLS killed renamable $lr
		; CHECK: bb.1.vector.body:
		; CHECK: successors: %bb.1(0x7c000000), %bb.2(0x04000000)
		; CHECK: liveins: $lr, $r0, $r1, $r2, $r3
		; CHECK: renamable $vpr = MVE_VCTP32 renamable $r3, 0, $noreg
		; CHECK: MVE_VPST 4, implicit $vpr
		; CHECK: renamable $r1, renamable $q0 = MVE_VLDRWU32_post killed renamable $r1, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv13, align 4)
		; CHECK: renamable $r2, renamable $q1 = MVE_VLDRWU32_post killed renamable $r2, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv1416, align 4)
		; CHECK: renamable $r3, dead $cpsr = tSUBi8 killed renamable $r3, 4, 14, $noreg
		; CHECK: renamable $q0 = nsw MVE_VADDi32 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0
		; CHECK: MVE_VPST 8, implicit $vpr
		; CHECK: renamable $r0 = MVE_VSTRWU32_post killed renamable $q0, killed renamable $r0, 16, 1, killed renamable $vpr :: (store 16 into %ir.lsr.iv1719, align 4)
		; CHECK: renamable $r3, dead $cpsr = tSUBi8 killed renamable $r3, 4, 14, $noreg
		; CHECK: $lr = t2LEUpdate killed renamable $lr, %bb.1
		; CHECK: bb.2.for.cond.cleanup:
		; CHECK: tPOP_RET 14, $noreg, def $r7, def $pc
bb.0.entry:		bb.0.entry:
successors: %bb.1(0x80000000)		successors: %bb.1(0x80000000)
liveins: $r0, $r1, $r2, $r3, $lr		liveins: $r0, $r1, $r2, $r3, $r7, $lr

frame-setup tPUSH 14, $noreg, $r7, killed $lr, implicit-def $sp, implicit $sp		frame-setup tPUSH 14, $noreg, killed $r7, killed $lr, implicit-def $sp, implicit $sp
frame-setup CFI_INSTRUCTION def_cfa_offset 8		frame-setup CFI_INSTRUCTION def_cfa_offset 8
frame-setup CFI_INSTRUCTION offset $lr, -4		frame-setup CFI_INSTRUCTION offset $lr, -4
frame-setup CFI_INSTRUCTION offset $r7, -8		frame-setup CFI_INSTRUCTION offset $r7, -8
$r7 = frame-setup tMOVr $sp, 14, $noreg		$r7 = frame-setup tMOVr $sp, 14, $noreg
frame-setup CFI_INSTRUCTION def_cfa_register $r7		frame-setup CFI_INSTRUCTION def_cfa_register $r7
tCMPi8 renamable $r3, 1, 14, $noreg, implicit-def $cpsr		tCMPi8 renamable $r3, 1, 14, $noreg, implicit-def $cpsr
t2IT 11, 8, implicit-def $itstate		t2IT 11, 8, implicit-def $itstate
tPOP_RET 11, killed $cpsr, def $r7, def $pc, implicit killed $itstate		tPOP_RET 11, killed $cpsr, def $r7, def $pc, implicit killed $itstate
renamable $r12 = t2ADDri renamable $r3, 3, 14, $noreg, $noreg		renamable $r12 = t2ADDri renamable $r3, 3, 14, $noreg, $noreg
renamable $lr = t2MOVi 1, 14, $noreg, $noreg		renamable $lr = t2MOVi 1, 14, $noreg, $noreg
renamable $r12 = t2BICri killed renamable $r12, 3, 14, $noreg, $noreg		renamable $r12 = t2BICri killed renamable $r12, 3, 14, $noreg, $noreg
renamable $r12 = t2SUBri killed renamable $r12, 4, 14, $noreg, $noreg		renamable $r12 = t2SUBri killed renamable $r12, 4, 14, $noreg, $noreg
renamable $lr = nuw nsw t2ADDrs killed renamable $lr, killed renamable $r12, 19, 14, $noreg, $noreg		renamable $lr = nuw nsw t2ADDrs killed renamable $lr, killed renamable $r12, 19, 14, $noreg, $noreg
t2DoLoopStart renamable $lr		t2DoLoopStart renamable $lr

bb.1.vector.body:		bb.1.vector.body:
successors: %bb.1(0x7c000000), %bb.2(0x04000000)		successors: %bb.1(0x7c000000), %bb.2(0x04000000)
liveins: $lr, $r0, $r1, $r2, $r3		liveins: $lr, $r0, $r1, $r2, $r3

renamable $vpr = MVE_VCTP32 renamable $r3, 0, $noreg		renamable $vpr = MVE_VCTP32 renamable $r3, 0, $noreg
MVE_VPST 4, implicit $vpr		MVE_VPST 4, implicit $vpr
renamable $r1, renamable $q0 = MVE_VLDRWU32_post killed renamable $r1, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv13, align 4, !tbaa !3)		renamable $r1, renamable $q0 = MVE_VLDRWU32_post killed renamable $r1, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv13, align 4)
renamable $r2, renamable $q1 = MVE_VLDRWU32_post killed renamable $r2, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv1416, align 4, !tbaa !3)		renamable $r2, renamable $q1 = MVE_VLDRWU32_post killed renamable $r2, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv1416, align 4)
renamable $r3, dead $cpsr = tSUBi8 killed renamable $r3, 4, 14, $noreg		renamable $r3, dead $cpsr = tSUBi8 killed renamable $r3, 4, 14, $noreg
renamable $q0 = nsw MVE_VADDi32 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0		renamable $q0 = nsw MVE_VADDi32 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0
MVE_VPST 8, implicit $vpr		MVE_VPST 8, implicit $vpr
renamable $r0 = MVE_VSTRWU32_post killed renamable $q0, killed renamable $r0, 16, 1, killed renamable $vpr :: (store 16 into %ir.lsr.iv1719, align 4, !tbaa !3)		renamable $r0 = MVE_VSTRWU32_post killed renamable $q0, killed renamable $r0, 16, 1, killed renamable $vpr :: (store 16 into %ir.lsr.iv1719, align 4)
renamable $lr = t2LoopDec killed renamable $lr, 1		renamable $lr = t2LoopDec killed renamable $lr, 1
renamable $r3, dead $cpsr = tSUBi8 killed renamable $r3, 4, 14, $noreg		renamable $r3, dead $cpsr = tSUBi8 killed renamable $r3, 4, 14, $noreg
t2LoopEnd renamable $lr, %bb.1, implicit-def dead $cpsr		t2LoopEnd renamable $lr, %bb.1, implicit-def dead $cpsr
tB %bb.2, 14, $noreg		tB %bb.2, 14, $noreg

bb.2.for.cond.cleanup:		bb.2.for.cond.cleanup:
tPOP_RET 14, $noreg, def $r7, def $pc		tPOP_RET 14, $noreg, def $r7, def $pc

...		...

llvm/test/CodeGen/Thumb2/LowOverheadLoops/dont-remove-loop-update2.mir

This file was copied to llvm/test/CodeGen/Thumb2/LowOverheadLoops/vctp-subri.mir, llvm/test/CodeGen/Thumb2/LowOverheadLoops/vctp-subri12.mir.

# RUN: llc -mtriple=thumbv8.1m.main -mattr=+mve,+lob -run-pass=arm-low-overhead-loops --verify-machineinstrs %s -o - \| FileCheck %s		# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
		# RUN: llc -mtriple=thumbv8.1m.main -mattr=+mve -run-pass=arm-low-overhead-loops %s -o - \| FileCheck %s
# The CPSR is not dead:
#
# renamable $r3, $cpsr = tSUBi8 killed renamable $r3, 4, 14, $noreg
#
# We shouldn't optimise away the SUB.

# CHECK: bb.1.vector.body:
# CHECK: renamable $r3, dead $cpsr = tSUBi8 killed renamable $r3, 4, 14, $noreg
# CHECK: $lr = MVE_LETP killed renamable $lr, %bb.1

--- \|		--- \|
target datalayout = "e-m:e-p:32:32-Fi8-i64:64-v128:64:128-a:0:32-n32-S64"
target triple = "thumbv8.1m.main-arm-unknown-eabi"

define dso_local void @CPSR_not_dead(i32* noalias nocapture %A, i32* noalias nocapture readonly %B, i32* noalias nocapture readonly %C, i32 %N) local_unnamed_addr #0 {		define dso_local void @CPSR_not_dead(i32* noalias nocapture %A, i32* noalias nocapture readonly %B, i32* noalias nocapture readonly %C, i32 %N) local_unnamed_addr #0 {
entry:		entry:
%cmp8 = icmp sgt i32 %N, 0		%cmp8 = icmp sgt i32 %N, 0
%0 = add i32 %N, 3		%0 = add i32 %N, 3
%1 = lshr i32 %0, 2		%1 = lshr i32 %0, 2
%2 = shl nuw i32 %1, 2		%2 = shl nuw i32 %1, 2
%3 = add i32 %2, -4		%3 = add i32 %2, -4
%4 = lshr i32 %3, 2		%4 = lshr i32 %3, 2
%5 = add nuw nsw i32 %4, 1		%5 = add nuw nsw i32 %4, 1
br i1 %cmp8, label %vector.ph, label %for.cond.cleanup		br i1 %cmp8, label %vector.ph, label %for.cond.cleanup

vector.ph: ; preds = %entry		vector.ph: ; preds = %entry
call void @llvm.set.loop.iterations.i32(i32 %5)		call void @llvm.set.loop.iterations.i32(i32 %5)
br label %vector.body		br label %vector.body

vector.body: ; preds = %vector.body, %vector.ph		vector.body: ; preds = %vector.body, %vector.ph
		%lsr.iv1 = phi i32 [ %lsr.iv.next, %vector.body ], [ %5, %vector.ph ]
%lsr.iv17 = phi i32* [ %scevgep18, %vector.body ], [ %A, %vector.ph ]		%lsr.iv17 = phi i32* [ %scevgep18, %vector.body ], [ %A, %vector.ph ]
%lsr.iv14 = phi i32* [ %scevgep15, %vector.body ], [ %C, %vector.ph ]		%lsr.iv14 = phi i32* [ %scevgep15, %vector.body ], [ %C, %vector.ph ]
%lsr.iv = phi i32* [ %scevgep, %vector.body ], [ %B, %vector.ph ]		%lsr.iv = phi i32* [ %scevgep, %vector.body ], [ %B, %vector.ph ]
%6 = phi i32 [ %5, %vector.ph ], [ %11, %vector.body ]		%6 = phi i32 [ %N, %vector.ph ], [ %8, %vector.body ]
%7 = phi i32 [ %N, %vector.ph ], [ %9, %vector.body ]
%lsr.iv13 = bitcast i32* %lsr.iv to <4 x i32>*		%lsr.iv13 = bitcast i32* %lsr.iv to <4 x i32>*
%lsr.iv1416 = bitcast i32* %lsr.iv14 to <4 x i32>*		%lsr.iv1416 = bitcast i32* %lsr.iv14 to <4 x i32>*
%lsr.iv1719 = bitcast i32* %lsr.iv17 to <4 x i32>*		%lsr.iv1719 = bitcast i32* %lsr.iv17 to <4 x i32>*
%8 = call <4 x i1> @llvm.arm.vctp32(i32 %7)		%7 = call <4 x i1> @llvm.arm.mve.vctp32(i32 %6)
%9 = sub i32 %7, 4		%8 = sub i32 %6, 4
%wide.masked.load = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %lsr.iv13, i32 4, <4 x i1> %8, <4 x i32> undef), !tbaa !3		%wide.masked.load = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %lsr.iv13, i32 4, <4 x i1> %7, <4 x i32> undef)
%wide.masked.load12 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %lsr.iv1416, i32 4, <4 x i1> %8, <4 x i32> undef), !tbaa !3		%wide.masked.load12 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %lsr.iv1416, i32 4, <4 x i1> %7, <4 x i32> undef)
%10 = add nsw <4 x i32> %wide.masked.load12, %wide.masked.load		%9 = add nsw <4 x i32> %wide.masked.load12, %wide.masked.load
call void @llvm.masked.store.v4i32.p0v4i32(<4 x i32> %10, <4 x i32>* %lsr.iv1719, i32 4, <4 x i1> %8), !tbaa !3		call void @llvm.masked.store.v4i32.p0v4i32(<4 x i32> %9, <4 x i32>* %lsr.iv1719, i32 4, <4 x i1> %7)
%scevgep = getelementptr i32, i32* %lsr.iv, i32 4		%scevgep = getelementptr i32, i32* %lsr.iv, i32 4
%scevgep15 = getelementptr i32, i32* %lsr.iv14, i32 4		%scevgep15 = getelementptr i32, i32* %lsr.iv14, i32 4
%scevgep18 = getelementptr i32, i32* %lsr.iv17, i32 4		%scevgep18 = getelementptr i32, i32* %lsr.iv17, i32 4
%11 = call i32 @llvm.loop.decrement.reg.i32.i32.i32(i32 %6, i32 1)		%10 = call i32 @llvm.loop.decrement.reg.i32.i32.i32(i32 %lsr.iv1, i32 1)
%12 = icmp ne i32 %11, 0		%11 = icmp ne i32 %10, 0
br i1 %12, label %vector.body, label %for.cond.cleanup, !llvm.loop !7		%lsr.iv.next = add nsw i32 %lsr.iv1, -1
		br i1 %11, label %vector.body, label %for.cond.cleanup

for.cond.cleanup: ; preds = %vector.body, %entry		for.cond.cleanup: ; preds = %vector.body, %entry
ret void		ret void
}		}
declare void @llvm.set.loop.iterations.i32(i32) #1		declare void @llvm.set.loop.iterations.i32(i32)
declare <4 x i1> @llvm.arm.vctp32(i32) #2		declare <4 x i1> @llvm.arm.mve.vctp32(i32)
declare i32 @llvm.loop.decrement.reg.i32.i32.i32(i32, i32) #1		declare i32 @llvm.loop.decrement.reg.i32.i32.i32(i32, i32)
declare void @llvm.lifetime.start.p0i8(i64 immarg, i8* nocapture) #3		declare <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>*, i32 immarg, <4 x i1>, <4 x i32>)
declare <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>*, i32 immarg, <4 x i1>, <4 x i32>) #4		declare void @llvm.masked.store.v4i32.p0v4i32(<4 x i32>, <4 x i32>*, i32 immarg, <4 x i1>)
declare void @llvm.masked.store.v4i32.p0v4i32(<4 x i32>, <4 x i32>*, i32 immarg, <4 x i1>) #3
declare void @llvm.stackprotector(i8, i8*) #5

attributes #0 = { nofree norecurse nounwind "correctly-rounded-divide-sqrt-fp-math"="false" "disable-tail-calls"="false" "frame-pointer"="all" "less-precise-fpmad"="false" "min-legal-vector-width"="0" "no-infs-fp-math"="true" "no-jump-tables"="false" "no-nans-fp-math"="true" "no-signed-zeros-fp-math"="true" "no-trapping-math"="true" "stack-protector-buffer-size"="8" "target-cpu"="generic" "target-features"="+armv8.1-m.main,+fp-armv8d16sp,+fp16,+fullfp16,+hwdiv,+lob,+mve.fp,+ras,+strict-align,+thumb-mode,+vfp2sp,+vfp3d16sp,+vfp4d16sp" "unsafe-fp-math"="true" "use-soft-float"="false" }
attributes #1 = { noduplicate nounwind }
attributes #2 = { nounwind readnone }
attributes #3 = { argmemonly nounwind willreturn }
attributes #4 = { argmemonly nounwind readonly willreturn }
attributes #5 = { nounwind }

!llvm.module.flags = !{!0, !1}
!llvm.ident = !{!2}

!0 = !{i32 1, !"wchar_size", i32 4}
!1 = !{i32 1, !"min_enum_size", i32 4}
!2 = !{!"clang version 10.0.0 (http://github.com/llvm/llvm-project 2589b6d9edda73280fe1dc1d944ee34e22fe9a6f)"}
!3 = !{!4, !4, i64 0}
!4 = !{!"int", !5, i64 0}
!5 = !{!"omnipotent char", !6, i64 0}
!6 = !{!"Simple C++ TBAA"}
!7 = distinct !{!7, !8}
!8 = !{!"llvm.loop.isvectorized", i32 1}

...		...
---		---
name: CPSR_not_dead		name: CPSR_not_dead
alignment: 2		alignment: 2
exposesReturnsTwice: false		exposesReturnsTwice: false
legalized: false		legalized: false
regBankSelected: false		regBankSelected: false
Show All 27 Lines	frameInfo:
savePoint: ''		savePoint: ''
restorePoint: ''		restorePoint: ''
fixedStack: []		fixedStack: []
stack:		stack:
- { id: 0, name: '', type: spill-slot, offset: -4, size: 4, alignment: 4,		- { id: 0, name: '', type: spill-slot, offset: -4, size: 4, alignment: 4,
stack-id: default, callee-saved-register: '$lr', callee-saved-restored: false,		stack-id: default, callee-saved-register: '$lr', callee-saved-restored: false,
debug-info-variable: '', debug-info-expression: '', debug-info-location: '' }		debug-info-variable: '', debug-info-expression: '', debug-info-location: '' }
- { id: 1, name: '', type: spill-slot, offset: -8, size: 4, alignment: 4,		- { id: 1, name: '', type: spill-slot, offset: -8, size: 4, alignment: 4,
stack-id: default, callee-saved-register: '$r7', callee-saved-restored: true,		stack-id: default, callee-saved-register: '$r4', callee-saved-restored: true,
debug-info-variable: '', debug-info-expression: '', debug-info-location: '' }		debug-info-variable: '', debug-info-expression: '', debug-info-location: '' }
callSites: []		callSites: []
constants: []		constants: []
machineFunctionInfo: {}		machineFunctionInfo: {}
body: \|		body: \|
		; CHECK-LABEL: name: CPSR_not_dead
		; CHECK: bb.0.entry:
		; CHECK: successors: %bb.1(0x80000000)
		; CHECK: liveins: $lr, $r0, $r1, $r2, $r3, $r4
		; CHECK: frame-setup tPUSH 14, $noreg, killed $r4, killed $lr, implicit-def $sp, implicit $sp
		; CHECK: frame-setup CFI_INSTRUCTION def_cfa_offset 8
		; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4
		; CHECK: frame-setup CFI_INSTRUCTION offset $r4, -8
		; CHECK: tCMPi8 renamable $r3, 1, 14, $noreg, implicit-def $cpsr
		; CHECK: t2IT 11, 8, implicit-def $itstate
		; CHECK: tPOP_RET 11, killed $cpsr, def $r4, def $pc, implicit killed $itstate
		; CHECK: $lr = MVE_DLSTP_32 renamable $r3
		; CHECK: bb.1.vector.body:
		; CHECK: successors: %bb.1(0x7c000000), %bb.2(0x04000000)
		; CHECK: liveins: $lr, $r0, $r1, $r2, $r3
		; CHECK: renamable $r3, $cpsr = tSUBi8 killed renamable $r3, 4, 14, $noreg
		; CHECK: t2IT 11, 8, implicit-def $itstate
		; CHECK: tPOP_RET 11, killed $cpsr, def $r4, def $pc, implicit killed $itstate
		; CHECK: renamable $r1, renamable $q0 = MVE_VLDRWU32_post killed renamable $r1, 16, 0, $noreg :: (load 16 from %ir.lsr.iv13, align 4)
		; CHECK: renamable $r2, renamable $q1 = MVE_VLDRWU32_post killed renamable $r2, 16, 0, $noreg :: (load 16 from %ir.lsr.iv1416, align 4)
		; CHECK: renamable $q0 = nsw MVE_VADDi32 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0
		; CHECK: renamable $r0 = MVE_VSTRWU32_post killed renamable $q0, killed renamable $r0, 16, 0, killed $noreg :: (store 16 into %ir.lsr.iv1719, align 4)
		; CHECK: $lr = MVE_LETP killed renamable $lr, %bb.1
		; CHECK: bb.2.for.cond.cleanup:
		; CHECK: t2IT 11, 8, implicit-def dead $itstate
		; CHECK: tPOP_RET 14, $noreg, def $r4, def $pc
bb.0.entry:		bb.0.entry:
successors: %bb.1(0x80000000)		successors: %bb.1(0x80000000)
liveins: $r0, $r1, $r2, $r3, $lr		liveins: $r0, $r1, $r2, $r3, $r4, $lr

frame-setup tPUSH 14, $noreg, $r7, killed $lr, implicit-def $sp, implicit $sp		frame-setup tPUSH 14, $noreg, killed $r4, killed $lr, implicit-def $sp, implicit $sp
frame-setup CFI_INSTRUCTION def_cfa_offset 8		frame-setup CFI_INSTRUCTION def_cfa_offset 8
frame-setup CFI_INSTRUCTION offset $lr, -4		frame-setup CFI_INSTRUCTION offset $lr, -4
frame-setup CFI_INSTRUCTION offset $r7, -8		frame-setup CFI_INSTRUCTION offset $r4, -8
$r7 = frame-setup tMOVr $sp, 14, $noreg
frame-setup CFI_INSTRUCTION def_cfa_register $r7
tCMPi8 renamable $r3, 1, 14, $noreg, implicit-def $cpsr		tCMPi8 renamable $r3, 1, 14, $noreg, implicit-def $cpsr
t2IT 11, 8, implicit-def $itstate		t2IT 11, 8, implicit-def $itstate
tPOP_RET 11, killed $cpsr, def $r7, def $pc, implicit killed $itstate		tPOP_RET 11, killed $cpsr, def $r4, def $pc, implicit killed $itstate
renamable $r12 = t2ADDri renamable $r3, 3, 14, $noreg, $noreg		renamable $r12 = t2ADDri renamable $r3, 3, 14, $noreg, $noreg
renamable $lr = t2MOVi 1, 14, $noreg, $noreg		renamable $lr = t2MOVi 1, 14, $noreg, $noreg
renamable $r12 = t2BICri killed renamable $r12, 3, 14, $noreg, $noreg		renamable $r12 = t2BICri killed renamable $r12, 3, 14, $noreg, $noreg
renamable $r12 = t2SUBri killed renamable $r12, 4, 14, $noreg, $noreg		renamable $r12 = t2SUBri killed renamable $r12, 4, 14, $noreg, $noreg
renamable $lr = nuw nsw t2ADDrs killed renamable $lr, killed renamable $r12, 19, 14, $noreg, $noreg		renamable $r4 = nuw nsw t2ADDrs killed renamable $lr, killed renamable $r12, 19, 14, $noreg, $noreg
t2DoLoopStart renamable $lr		t2DoLoopStart renamable $r4
		$r12 = tMOVr killed $r4, 14, $noreg

bb.1.vector.body:		bb.1.vector.body:
successors: %bb.1(0x7c000000), %bb.2(0x04000000)		successors: %bb.1(0x7c000000), %bb.2(0x04000000)
liveins: $lr, $r0, $r1, $r2, $r3		liveins: $r0, $r1, $r2, $r3, $r12

renamable $vpr = MVE_VCTP32 renamable $r3, 0, $noreg		renamable $vpr = MVE_VCTP32 renamable $r3, 0, $noreg
MVE_VPST 4, implicit $vpr		$lr = tMOVr $r12, 14, $noreg
renamable $r1, renamable $q0 = MVE_VLDRWU32_post killed renamable $r1, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv13, align 4, !tbaa !3)		renamable $r12 = nsw t2SUBri killed $r12, 1, 14, $noreg, $noreg
renamable $r2, renamable $q1 = MVE_VLDRWU32_post killed renamable $r2, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv1416, align 4, !tbaa !3)
renamable $r3, $cpsr = tSUBi8 killed renamable $r3, 4, 14, $noreg		renamable $r3, $cpsr = tSUBi8 killed renamable $r3, 4, 14, $noreg
		t2IT 11, 8, implicit-def $itstate
		tPOP_RET 11, killed $cpsr, def $r4, def $pc, implicit killed $itstate
		MVE_VPST 4, implicit $vpr
		renamable $r1, renamable $q0 = MVE_VLDRWU32_post killed renamable $r1, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv13, align 4)
		renamable $r2, renamable $q1 = MVE_VLDRWU32_post killed renamable $r2, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv1416, align 4)
		renamable $lr = t2LoopDec killed renamable $lr, 1
renamable $q0 = nsw MVE_VADDi32 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0		renamable $q0 = nsw MVE_VADDi32 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0
MVE_VPST 8, implicit $vpr		MVE_VPST 8, implicit $vpr
renamable $r0 = MVE_VSTRWU32_post killed renamable $q0, killed renamable $r0, 16, 1, killed renamable $vpr :: (store 16 into %ir.lsr.iv1719, align 4, !tbaa !3)		renamable $r0 = MVE_VSTRWU32_post killed renamable $q0, killed renamable $r0, 16, 1, killed renamable $vpr :: (store 16 into %ir.lsr.iv1719, align 4)
renamable $lr = t2LoopDec killed renamable $lr, 1		t2LoopEnd killed renamable $lr, %bb.1, implicit-def dead $cpsr
t2LoopEnd renamable $lr, %bb.1, implicit-def dead $cpsr
tB %bb.2, 14, $noreg		tB %bb.2, 14, $noreg

bb.2.for.cond.cleanup:		bb.2.for.cond.cleanup:
tPOP_RET 14, $noreg, def $r7, def $pc		t2IT 11, 8, implicit-def $itstate
		tPOP_RET 14, $noreg, def $r4, def $pc

...		...

llvm/test/CodeGen/Thumb2/LowOverheadLoops/dont-remove-loop-update3.mir

This file was deleted after being copied to llvm/test/CodeGen/Thumb2/LowOverheadLoops/incorrect-sub-32.mir, llvm/test/CodeGen/Thumb2/LowOverheadLoops/vctp-subi3.mir.

The contents of this file were not changed.

llvm/test/CodeGen/Thumb2/LowOverheadLoops/fast-fp-loops.ll

	Show First 20 Lines • Show All 226 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: movs r3, #1			; CHECK-NEXT: movs r3, #1
	; CHECK-NEXT: add.w lr, r3, r12, lsr #2			; CHECK-NEXT: add.w lr, r3, r12, lsr #2
	; CHECK-NEXT: dls lr, lr			; CHECK-NEXT: dls lr, lr
	; CHECK-NEXT: .LBB1_2: @ %vector.body			; CHECK-NEXT: .LBB1_2: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vctp.32 r2			; CHECK-NEXT: vctp.32 r2
	; CHECK-NEXT: mov r3, r2			; CHECK-NEXT: mov r3, r2
	; CHECK-NEXT: subs r2, #4			; CHECK-NEXT: subs r2, #4
				; CHECK-NEXT: vmov q1, q0
	; CHECK-NEXT: vpstt			; CHECK-NEXT: vpstt
	; CHECK-NEXT: vldrwt.u32 q2, [r0], #16			; CHECK-NEXT: vldrwt.u32 q2, [r0], #16
	; CHECK-NEXT: vldrwt.u32 q3, [r1], #16			; CHECK-NEXT: vldrwt.u32 q3, [r1], #16
	; CHECK-NEXT: vmov q1, q0
	; CHECK-NEXT: vfma.f32 q0, q3, q2			; CHECK-NEXT: vfma.f32 q0, q3, q2
	; CHECK-NEXT: le lr, .LBB1_2			; CHECK-NEXT: le lr, .LBB1_2
	; CHECK-NEXT: @ %bb.3: @ %middle.block			; CHECK-NEXT: @ %bb.3: @ %middle.block
	; CHECK-NEXT: vctp.32 r3			; CHECK-NEXT: vctp.32 r3
	; CHECK-NEXT: vpsel q0, q0, q1			; CHECK-NEXT: vpsel q0, q0, q1
	; CHECK-NEXT: vmov.f32 s4, s2			; CHECK-NEXT: vmov.f32 s4, s2
	; CHECK-NEXT: vmov.f32 s5, s3			; CHECK-NEXT: vmov.f32 s5, s3
	; CHECK-NEXT: vadd.f32 q0, q0, q1			; CHECK-NEXT: vadd.f32 q0, q0, q1
	▲ Show 20 Lines • Show All 88 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vmov.16 q6[1], r2			; CHECK-NEXT: vmov.16 q6[1], r2
	; CHECK-NEXT: vmov r2, s29			; CHECK-NEXT: vmov r2, s29
	; CHECK-NEXT: vmov.16 q6[2], r2			; CHECK-NEXT: vmov.16 q6[2], r2
	; CHECK-NEXT: vmov r2, s0			; CHECK-NEXT: vmov r2, s0
	; CHECK-NEXT: vmov.16 q6[3], r2			; CHECK-NEXT: vmov.16 q6[3], r2
	; CHECK-NEXT: .LBB2_3: @ %else25			; CHECK-NEXT: .LBB2_3: @ %else25
	; CHECK-NEXT: @ in Loop: Header=BB2_4 Depth=1			; CHECK-NEXT: @ in Loop: Header=BB2_4 Depth=1
	; CHECK-NEXT: vmul.f16 q5, q6, q5			; CHECK-NEXT: vmul.f16 q5, q6, q5
	; CHECK-NEXT: sub.w lr, lr, #1			; CHECK-NEXT: adds r0, #8
	; CHECK-NEXT: vmovx.f16 s2, s21			; CHECK-NEXT: vmovx.f16 s2, s21
	; CHECK-NEXT: vmovx.f16 s0, s20			; CHECK-NEXT: vmovx.f16 s0, s20
	; CHECK-NEXT: vcvtb.f32.f16 s27, s2			; CHECK-NEXT: vcvtb.f32.f16 s27, s2
	; CHECK-NEXT: adds r0, #8
	; CHECK-NEXT: vcvtb.f32.f16 s26, s21
	; CHECK-NEXT: adds r1, #8			; CHECK-NEXT: adds r1, #8
	; CHECK-NEXT: vcvtb.f32.f16 s25, s0			; CHECK-NEXT: vcvtb.f32.f16 s26, s21
	; CHECK-NEXT: adds r3, #4			; CHECK-NEXT: adds r3, #4
				; CHECK-NEXT: vcvtb.f32.f16 s25, s0
				; CHECK-NEXT: subs.w lr, lr, #1
	; CHECK-NEXT: vcvtb.f32.f16 s24, s20			; CHECK-NEXT: vcvtb.f32.f16 s24, s20
	; CHECK-NEXT: vadd.f32 q5, q3, q6			; CHECK-NEXT: vadd.f32 q5, q3, q6
	; CHECK-NEXT: cmp.w lr, #0
	; CHECK-NEXT: bne .LBB2_4			; CHECK-NEXT: bne .LBB2_4
	; CHECK-NEXT: b .LBB2_21			; CHECK-NEXT: b .LBB2_21
	; CHECK-NEXT: .LBB2_4: @ %vector.body			; CHECK-NEXT: .LBB2_4: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrw.u32 q0, [sp] @ 16-byte Reload			; CHECK-NEXT: vldrw.u32 q0, [sp] @ 16-byte Reload
	; CHECK-NEXT: vmov q3, q5			; CHECK-NEXT: vmov q3, q5
	; CHECK-NEXT: @ implicit-def: $q6			; CHECK-NEXT: @ implicit-def: $q6
	; CHECK-NEXT: vadd.i32 q4, q0, r3			; CHECK-NEXT: vadd.i32 q4, q0, r3
	▲ Show 20 Lines • Show All 230 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/LowOverheadLoops/incorrect-sub-16.mir

This file was added.

				# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
				# RUN: llc -mtriple=thumbv8.1m.main -mattr=+mve -run-pass=arm-low-overhead-loops --verify-machineinstrs %s -o - \| FileCheck %s
				--- \|
				define dso_local void @incorrect_sub_16(i16* noalias nocapture %A, i16* noalias nocapture readonly %B, i16* noalias nocapture readonly %C, i32 %N) local_unnamed_addr #0 {
				entry:
				%cmp8 = icmp sgt i32 %N, 0
				%0 = add i32 %N, 3
				%1 = lshr i32 %0, 2
				%2 = shl nuw i32 %1, 2
				%3 = add i32 %2, -4
				%4 = lshr i32 %3, 2
				%5 = add nuw nsw i32 %4, 1
				br i1 %cmp8, label %vector.ph, label %for.cond.cleanup

				vector.ph: ; preds = %entry
				call void @llvm.set.loop.iterations.i32(i32 %5)
				br label %vector.body

				vector.body: ; preds = %vector.body, %vector.ph
				%lsr.iv17 = phi i16* [ %scevgep18, %vector.body ], [ %A, %vector.ph ]
				%lsr.iv14 = phi i16* [ %scevgep15, %vector.body ], [ %C, %vector.ph ]
				%lsr.iv = phi i16* [ %scevgep, %vector.body ], [ %B, %vector.ph ]
				%6 = phi i32 [ %5, %vector.ph ], [ %11, %vector.body ]
				%7 = phi i32 [ %N, %vector.ph ], [ %9, %vector.body ]
				%lsr.iv13 = bitcast i16* %lsr.iv to <8 x i16>*
				%lsr.iv1416 = bitcast i16* %lsr.iv14 to <8 x i16>*
				%lsr.iv1719 = bitcast i16* %lsr.iv17 to <8 x i16>*
				%8 = call <8 x i1> @llvm.arm.mve.vctp16(i32 %7)
				%9 = sub i32 %7, 7
				%wide.masked.load = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %lsr.iv13, i32 4, <8 x i1> %8, <8 x i16> undef)
				%wide.masked.load12 = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %lsr.iv1416, i32 4, <8 x i1> %8, <8 x i16> undef)
				%10 = add nsw <8 x i16> %wide.masked.load12, %wide.masked.load
				call void @llvm.masked.store.v8i16.p0v8i16(<8 x i16> %10, <8 x i16>* %lsr.iv1719, i32 4, <8 x i1> %8)
				%scevgep = getelementptr i16, i16* %lsr.iv, i32 8
				%scevgep15 = getelementptr i16, i16* %lsr.iv14, i32 8
				%scevgep18 = getelementptr i16, i16* %lsr.iv17, i32 8
				%11 = call i32 @llvm.loop.decrement.reg.i32.i32.i32(i32 %6, i32 1)
				%12 = icmp ne i32 %11, 0
				br i1 %12, label %vector.body, label %for.cond.cleanup

				for.cond.cleanup: ; preds = %vector.body, %entry
				ret void
				}
				declare void @llvm.set.loop.iterations.i32(i32)
				declare <8 x i1> @llvm.arm.mve.vctp16(i32)
				declare i32 @llvm.loop.decrement.reg.i32.i32.i32(i32, i32)
				declare <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>*, i32 immarg, <8 x i1>, <8 x i16>)
				declare void @llvm.masked.store.v8i16.p0v8i16(<8 x i16>, <8 x i16>*, i32 immarg, <8 x i1>)
				...
				---
				name: incorrect_sub_16
				alignment: 2
				exposesReturnsTwice: false
				legalized: false
				regBankSelected: false
				selected: false
				failedISel: false
				tracksRegLiveness: true
				hasWinCFI: false
				registers: []
				liveins:
				- { reg: '$r0', virtual-reg: '' }
				- { reg: '$r1', virtual-reg: '' }
				- { reg: '$r2', virtual-reg: '' }
				- { reg: '$r3', virtual-reg: '' }
				frameInfo:
				isFrameAddressTaken: false
				isReturnAddressTaken: false
				hasStackMap: false
				hasPatchPoint: false
				stackSize: 8
				offsetAdjustment: 0
				maxAlignment: 4
				adjustsStack: false
				hasCalls: false
				stackProtector: ''
				maxCallFrameSize: 0
				cvBytesOfCalleeSavedRegisters: 0
				hasOpaqueSPAdjustment: false
				hasVAStart: false
				hasMustTailInVarArgFunc: false
				localFrameSize: 0
				savePoint: ''
				restorePoint: ''
				fixedStack: []
				stack:
				- { id: 0, name: '', type: spill-slot, offset: -4, size: 4, alignment: 4,
				stack-id: default, callee-saved-register: '$lr', callee-saved-restored: false,
				debug-info-variable: '', debug-info-expression: '', debug-info-location: '' }
				- { id: 1, name: '', type: spill-slot, offset: -8, size: 4, alignment: 4,
				stack-id: default, callee-saved-register: '$r7', callee-saved-restored: true,
				debug-info-variable: '', debug-info-expression: '', debug-info-location: '' }
				callSites: []
				constants: []
				machineFunctionInfo: {}
				body: \|
				; CHECK-LABEL: name: incorrect_sub_16
				; CHECK: bb.0.entry:
				; CHECK: successors: %bb.1(0x80000000)
				; CHECK: liveins: $lr, $r0, $r1, $r2, $r3, $r7
				; CHECK: frame-setup tPUSH 14, $noreg, killed $r7, killed $lr, implicit-def $sp, implicit $sp
				; CHECK: frame-setup CFI_INSTRUCTION def_cfa_offset 8
				; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4
				; CHECK: frame-setup CFI_INSTRUCTION offset $r7, -8
				; CHECK: tCMPi8 renamable $r3, 1, 14, $noreg, implicit-def $cpsr
				; CHECK: t2IT 11, 8, implicit-def $itstate
				; CHECK: tPOP_RET 11, killed $cpsr, def $r7, def $pc, implicit killed $itstate
				; CHECK: renamable $r12 = t2ADDri renamable $r3, 3, 14, $noreg, $noreg
				; CHECK: renamable $lr = t2MOVi 1, 14, $noreg, $noreg
				; CHECK: renamable $r12 = t2BICri killed renamable $r12, 3, 14, $noreg, $noreg
				; CHECK: renamable $r12 = t2SUBri killed renamable $r12, 4, 14, $noreg, $noreg
				; CHECK: renamable $lr = nuw nsw t2ADDrs killed renamable $lr, killed renamable $r12, 19, 14, $noreg, $noreg
				; CHECK: $lr = t2DLS killed renamable $lr
				; CHECK: bb.1.vector.body:
				; CHECK: successors: %bb.1(0x7c000000), %bb.2(0x04000000)
				; CHECK: liveins: $lr, $r0, $r1, $r2, $r3
				; CHECK: renamable $vpr = MVE_VCTP16 renamable $r3, 0, $noreg
				; CHECK: MVE_VPST 4, implicit $vpr
				; CHECK: renamable $r1, renamable $q0 = MVE_VLDRHU16_post killed renamable $r1, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv13, align 4)
				; CHECK: renamable $r2, renamable $q1 = MVE_VLDRHU16_post killed renamable $r2, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv1416, align 4)
				; CHECK: renamable $r3, dead $cpsr = tSUBi8 killed renamable $r3, 7, 14, $noreg
				; CHECK: renamable $q0 = nsw MVE_VADDi16 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0
				; CHECK: MVE_VPST 8, implicit $vpr
				; CHECK: renamable $r0 = MVE_VSTRHU16_post killed renamable $q0, killed renamable $r0, 16, 1, killed renamable $vpr :: (store 16 into %ir.lsr.iv1719, align 4)
				; CHECK: $lr = t2LEUpdate killed renamable $lr, %bb.1
				; CHECK: bb.2.for.cond.cleanup:
				; CHECK: tPOP_RET 14, $noreg, def $r7, def $pc
				bb.0.entry:
				successors: %bb.1(0x80000000)
				liveins: $r0, $r1, $r2, $r3, $r7, $lr

				frame-setup tPUSH 14, $noreg, killed $r7, killed $lr, implicit-def $sp, implicit $sp
				frame-setup CFI_INSTRUCTION def_cfa_offset 8
				frame-setup CFI_INSTRUCTION offset $lr, -4
				frame-setup CFI_INSTRUCTION offset $r7, -8
				tCMPi8 renamable $r3, 1, 14, $noreg, implicit-def $cpsr
				t2IT 11, 8, implicit-def $itstate
				tPOP_RET 11, killed $cpsr, def $r7, def $pc, implicit killed $itstate
				renamable $r12 = t2ADDri renamable $r3, 3, 14, $noreg, $noreg
				renamable $lr = t2MOVi 1, 14, $noreg, $noreg
				renamable $r12 = t2BICri killed renamable $r12, 3, 14, $noreg, $noreg
				renamable $r12 = t2SUBri killed renamable $r12, 4, 14, $noreg, $noreg
				renamable $lr = nuw nsw t2ADDrs killed renamable $lr, killed renamable $r12, 19, 14, $noreg, $noreg
				t2DoLoopStart renamable $lr

				bb.1.vector.body:
				successors: %bb.1(0x7c000000), %bb.2(0x04000000)
				liveins: $lr, $r0, $r1, $r2, $r3

				renamable $vpr = MVE_VCTP16 renamable $r3, 0, $noreg
				MVE_VPST 4, implicit $vpr
				renamable $r1, renamable $q0 = MVE_VLDRHU16_post killed renamable $r1, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv13, align 4)
				renamable $r2, renamable $q1 = MVE_VLDRHU16_post killed renamable $r2, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv1416, align 4)
				renamable $r3, dead $cpsr = tSUBi8 killed renamable $r3, 7, 14, $noreg
				renamable $q0 = nsw MVE_VADDi16 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0
				MVE_VPST 8, implicit $vpr
				renamable $r0 = MVE_VSTRHU16_post killed renamable $q0, killed renamable $r0, 16, 1, killed renamable $vpr :: (store 16 into %ir.lsr.iv1719, align 4)
				renamable $lr = t2LoopDec killed renamable $lr, 1
				t2LoopEnd renamable $lr, %bb.1, implicit-def dead $cpsr
				tB %bb.2, 14, $noreg

				bb.2.for.cond.cleanup:
				tPOP_RET 14, $noreg, def $r7, def $pc

				...

llvm/test/CodeGen/Thumb2/LowOverheadLoops/incorrect-sub-32.mir

This file was copied from llvm/test/CodeGen/Thumb2/LowOverheadLoops/dont-remove-loop-update3.mir.

		# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
# RUN: llc -mtriple=thumbv8.1m.main -mattr=+mve,+lob -run-pass=arm-low-overhead-loops --verify-machineinstrs %s -o - \| FileCheck %s		# RUN: llc -mtriple=thumbv8.1m.main -mattr=+mve,+lob -run-pass=arm-low-overhead-loops --verify-machineinstrs %s -o - \| FileCheck %s

# Local use after def, this mov is using r3:		# Local use after def, this mov is using r3:
#		#
# $r2 = tMOVr killed $r3, 14, $noreg		# $r2 = tMOVr killed $r3, 14, $noreg
#		#
# We should optimise away the SUB		# We should optimise away the SUB

# CHECK: bb.1.vector.body:
# CHECK: renamable $r3, dead $cpsr = tSUBi8 killed renamable $r3, 4, 14, $noreg
# CHECK: $lr = MVE_LETP killed renamable $lr, %bb.1

--- \|		--- \|
target datalayout = "e-m:e-p:32:32-Fi8-i64:64-v128:64:128-a:0:32-n32-S64"		define dso_local void @incorrect_sub_32(i32* noalias nocapture %A, i32* noalias nocapture readonly %B, i32* noalias nocapture readonly %C, i32 %N) local_unnamed_addr #0 {
target triple = "thumbv8.1m.main-arm-unknown-eabi"

define dso_local void @local_use_after_def(i32* noalias nocapture %A, i32* noalias nocapture readonly %B, i32* noalias nocapture readonly %C, i32 %N) local_unnamed_addr #0 {
entry:		entry:
%cmp8 = icmp sgt i32 %N, 0		%cmp8 = icmp sgt i32 %N, 0
%0 = add i32 %N, 3		%0 = add i32 %N, 3
%1 = lshr i32 %0, 2		%1 = lshr i32 %0, 2
%2 = shl nuw i32 %1, 2		%2 = shl nuw i32 %1, 2
%3 = add i32 %2, -4		%3 = add i32 %2, -4
%4 = lshr i32 %3, 2		%4 = lshr i32 %3, 2
%5 = add nuw nsw i32 %4, 1		%5 = add nuw nsw i32 %4, 1
br i1 %cmp8, label %vector.ph, label %for.cond.cleanup		br i1 %cmp8, label %vector.ph, label %for.cond.cleanup

vector.ph: ; preds = %entry		vector.ph: ; preds = %entry
call void @llvm.set.loop.iterations.i32(i32 %5)		call void @llvm.set.loop.iterations.i32(i32 %5)
br label %vector.body		br label %vector.body

vector.body: ; preds = %vector.body, %vector.ph		vector.body: ; preds = %vector.body, %vector.ph
%lsr.iv17 = phi i32* [ %scevgep18, %vector.body ], [ %A, %vector.ph ]		%lsr.iv17 = phi i32* [ %scevgep18, %vector.body ], [ %A, %vector.ph ]
%lsr.iv14 = phi i32* [ %scevgep15, %vector.body ], [ %C, %vector.ph ]		%lsr.iv14 = phi i32* [ %scevgep15, %vector.body ], [ %C, %vector.ph ]
%lsr.iv = phi i32* [ %scevgep, %vector.body ], [ %B, %vector.ph ]		%lsr.iv = phi i32* [ %scevgep, %vector.body ], [ %B, %vector.ph ]
%6 = phi i32 [ %5, %vector.ph ], [ %11, %vector.body ]		%6 = phi i32 [ %5, %vector.ph ], [ %11, %vector.body ]
%7 = phi i32 [ %N, %vector.ph ], [ %9, %vector.body ]		%7 = phi i32 [ %N, %vector.ph ], [ %9, %vector.body ]
%lsr.iv13 = bitcast i32* %lsr.iv to <4 x i32>*		%lsr.iv13 = bitcast i32* %lsr.iv to <4 x i32>*
%lsr.iv1416 = bitcast i32* %lsr.iv14 to <4 x i32>*		%lsr.iv1416 = bitcast i32* %lsr.iv14 to <4 x i32>*
%lsr.iv1719 = bitcast i32* %lsr.iv17 to <4 x i32>*		%lsr.iv1719 = bitcast i32* %lsr.iv17 to <4 x i32>*
%8 = call <4 x i1> @llvm.arm.vctp32(i32 %7)		%8 = call <4 x i1> @llvm.arm.mve.vctp32(i32 %7)
%9 = sub i32 %7, 4		%9 = sub i32 %7, 5
%wide.masked.load = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %lsr.iv13, i32 4, <4 x i1> %8, <4 x i32> undef), !tbaa !3		%wide.masked.load = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %lsr.iv13, i32 4, <4 x i1> %8, <4 x i32> undef)
%wide.masked.load12 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %lsr.iv1416, i32 4, <4 x i1> %8, <4 x i32> undef), !tbaa !3		%wide.masked.load12 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %lsr.iv1416, i32 4, <4 x i1> %8, <4 x i32> undef)
%10 = add nsw <4 x i32> %wide.masked.load12, %wide.masked.load		%10 = add nsw <4 x i32> %wide.masked.load12, %wide.masked.load
call void @llvm.masked.store.v4i32.p0v4i32(<4 x i32> %10, <4 x i32>* %lsr.iv1719, i32 4, <4 x i1> %8), !tbaa !3		call void @llvm.masked.store.v4i32.p0v4i32(<4 x i32> %10, <4 x i32>* %lsr.iv1719, i32 4, <4 x i1> %8)
%scevgep = getelementptr i32, i32* %lsr.iv, i32 4		%scevgep = getelementptr i32, i32* %lsr.iv, i32 4
%scevgep15 = getelementptr i32, i32* %lsr.iv14, i32 4		%scevgep15 = getelementptr i32, i32* %lsr.iv14, i32 4
%scevgep18 = getelementptr i32, i32* %lsr.iv17, i32 4		%scevgep18 = getelementptr i32, i32* %lsr.iv17, i32 4
%11 = call i32 @llvm.loop.decrement.reg.i32.i32.i32(i32 %6, i32 1)		%11 = call i32 @llvm.loop.decrement.reg.i32.i32.i32(i32 %6, i32 1)
%12 = icmp ne i32 %11, 0		%12 = icmp ne i32 %11, 0
br i1 %12, label %vector.body, label %for.cond.cleanup, !llvm.loop !7		br i1 %12, label %vector.body, label %for.cond.cleanup

for.cond.cleanup: ; preds = %vector.body, %entry		for.cond.cleanup: ; preds = %vector.body, %entry
ret void		ret void
}		}
declare void @llvm.set.loop.iterations.i32(i32) #1		declare void @llvm.set.loop.iterations.i32(i32)
declare <4 x i1> @llvm.arm.vctp32(i32) #2		declare <4 x i1> @llvm.arm.mve.vctp32(i32)
declare i32 @llvm.loop.decrement.reg.i32.i32.i32(i32, i32) #1		declare i32 @llvm.loop.decrement.reg.i32.i32.i32(i32, i32)
declare void @llvm.lifetime.start.p0i8(i64 immarg, i8* nocapture) #3		declare <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>*, i32 immarg, <4 x i1>, <4 x i32>)
declare <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>*, i32 immarg, <4 x i1>, <4 x i32>) #4		declare void @llvm.masked.store.v4i32.p0v4i32(<4 x i32>, <4 x i32>*, i32 immarg, <4 x i1>)
declare void @llvm.masked.store.v4i32.p0v4i32(<4 x i32>, <4 x i32>*, i32 immarg, <4 x i1>) #3
declare void @llvm.stackprotector(i8, i8*) #5

attributes #0 = { nofree norecurse nounwind "correctly-rounded-divide-sqrt-fp-math"="false" "disable-tail-calls"="false" "frame-pointer"="all" "less-precise-fpmad"="false" "min-legal-vector-width"="0" "no-infs-fp-math"="true" "no-jump-tables"="false" "no-nans-fp-math"="true" "no-signed-zeros-fp-math"="true" "no-trapping-math"="true" "stack-protector-buffer-size"="8" "target-cpu"="generic" "target-features"="+armv8.1-m.main,+fp-armv8d16sp,+fp16,+fullfp16,+hwdiv,+lob,+mve.fp,+ras,+strict-align,+thumb-mode,+vfp2sp,+vfp3d16sp,+vfp4d16sp" "unsafe-fp-math"="true" "use-soft-float"="false" }
attributes #1 = { noduplicate nounwind }
attributes #2 = { nounwind readnone }
attributes #3 = { argmemonly nounwind willreturn }
attributes #4 = { argmemonly nounwind readonly willreturn }
attributes #5 = { nounwind }

!llvm.module.flags = !{!0, !1}
!llvm.ident = !{!2}

!0 = !{i32 1, !"wchar_size", i32 4}
!1 = !{i32 1, !"min_enum_size", i32 4}
!2 = !{!"clang version 10.0.0 (http://github.com/llvm/llvm-project 2589b6d9edda73280fe1dc1d944ee34e22fe9a6f)"}
!3 = !{!4, !4, i64 0}
!4 = !{!"int", !5, i64 0}
!5 = !{!"omnipotent char", !6, i64 0}
!6 = !{!"Simple C++ TBAA"}
!7 = distinct !{!7, !8}
!8 = !{!"llvm.loop.isvectorized", i32 1}

...		...
---		---
name: local_use_after_def		name: incorrect_sub_32
alignment: 2		alignment: 2
exposesReturnsTwice: false		exposesReturnsTwice: false
legalized: false		legalized: false
regBankSelected: false		regBankSelected: false
selected: false		selected: false
failedISel: false		failedISel: false
tracksRegLiveness: true		tracksRegLiveness: true
hasWinCFI: false		hasWinCFI: false
Show All 29 Lines	- { id: 0, name: '', type: spill-slot, offset: -4, size: 4, alignment: 4,
debug-info-variable: '', debug-info-expression: '', debug-info-location: '' }		debug-info-variable: '', debug-info-expression: '', debug-info-location: '' }
- { id: 1, name: '', type: spill-slot, offset: -8, size: 4, alignment: 4,		- { id: 1, name: '', type: spill-slot, offset: -8, size: 4, alignment: 4,
stack-id: default, callee-saved-register: '$r7', callee-saved-restored: true,		stack-id: default, callee-saved-register: '$r7', callee-saved-restored: true,
debug-info-variable: '', debug-info-expression: '', debug-info-location: '' }		debug-info-variable: '', debug-info-expression: '', debug-info-location: '' }
callSites: []		callSites: []
constants: []		constants: []
machineFunctionInfo: {}		machineFunctionInfo: {}
body: \|		body: \|
		; CHECK-LABEL: name: incorrect_sub_32
		; CHECK: bb.0.entry:
		; CHECK: successors: %bb.1(0x80000000)
		; CHECK: liveins: $lr, $r0, $r1, $r2, $r3, $r7
		; CHECK: frame-setup tPUSH 14, $noreg, killed $r7, killed $lr, implicit-def $sp, implicit $sp
		; CHECK: frame-setup CFI_INSTRUCTION def_cfa_offset 8
		; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4
		; CHECK: frame-setup CFI_INSTRUCTION offset $r7, -8
		; CHECK: tCMPi8 renamable $r3, 1, 14, $noreg, implicit-def $cpsr
		; CHECK: t2IT 11, 8, implicit-def $itstate
		; CHECK: tPOP_RET 11, killed $cpsr, def $r7, def $pc, implicit killed $itstate
		; CHECK: renamable $r12 = t2ADDri renamable $r3, 3, 14, $noreg, $noreg
		; CHECK: renamable $lr = t2MOVi 1, 14, $noreg, $noreg
		; CHECK: renamable $r12 = t2BICri killed renamable $r12, 3, 14, $noreg, $noreg
		; CHECK: renamable $r12 = t2SUBri killed renamable $r12, 4, 14, $noreg, $noreg
		; CHECK: renamable $lr = nuw nsw t2ADDrs killed renamable $lr, killed renamable $r12, 19, 14, $noreg, $noreg
		; CHECK: $lr = t2DLS killed renamable $lr
		; CHECK: bb.1.vector.body:
		; CHECK: successors: %bb.1(0x7c000000), %bb.2(0x04000000)
		; CHECK: liveins: $lr, $r0, $r1, $r2, $r3
		; CHECK: renamable $vpr = MVE_VCTP32 renamable $r3, 0, $noreg
		; CHECK: MVE_VPST 4, implicit $vpr
		; CHECK: renamable $r1, renamable $q0 = MVE_VLDRWU32_post killed renamable $r1, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv13, align 4)
		; CHECK: renamable $r2, renamable $q1 = MVE_VLDRWU32_post killed renamable $r2, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv1416, align 4)
		; CHECK: renamable $r3, dead $cpsr = tSUBi8 killed renamable $r3, 5, 14, $noreg
		; CHECK: renamable $q0 = nsw MVE_VADDi32 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0
		; CHECK: MVE_VPST 8, implicit $vpr
		; CHECK: renamable $r0 = MVE_VSTRWU32_post killed renamable $q0, killed renamable $r0, 16, 1, killed renamable $vpr :: (store 16 into %ir.lsr.iv1719, align 4)
		; CHECK: $lr = t2LEUpdate killed renamable $lr, %bb.1
		; CHECK: bb.2.for.cond.cleanup:
		; CHECK: tPOP_RET 14, $noreg, def $r7, def $pc
bb.0.entry:		bb.0.entry:
successors: %bb.1(0x80000000)		successors: %bb.1(0x80000000)
liveins: $r0, $r1, $r2, $r3, $lr		liveins: $r0, $r1, $r2, $r3, $r7, $lr

frame-setup tPUSH 14, $noreg, $r7, killed $lr, implicit-def $sp, implicit $sp		frame-setup tPUSH 14, $noreg, killed $r7, killed $lr, implicit-def $sp, implicit $sp
frame-setup CFI_INSTRUCTION def_cfa_offset 8		frame-setup CFI_INSTRUCTION def_cfa_offset 8
frame-setup CFI_INSTRUCTION offset $lr, -4		frame-setup CFI_INSTRUCTION offset $lr, -4
frame-setup CFI_INSTRUCTION offset $r7, -8		frame-setup CFI_INSTRUCTION offset $r7, -8
$r7 = frame-setup tMOVr $sp, 14, $noreg
frame-setup CFI_INSTRUCTION def_cfa_register $r7
tCMPi8 renamable $r3, 1, 14, $noreg, implicit-def $cpsr		tCMPi8 renamable $r3, 1, 14, $noreg, implicit-def $cpsr
t2IT 11, 8, implicit-def $itstate		t2IT 11, 8, implicit-def $itstate
tPOP_RET 11, killed $cpsr, def $r7, def $pc, implicit killed $itstate		tPOP_RET 11, killed $cpsr, def $r7, def $pc, implicit killed $itstate
renamable $r12 = t2ADDri renamable $r3, 3, 14, $noreg, $noreg		renamable $r12 = t2ADDri renamable $r3, 3, 14, $noreg, $noreg
renamable $lr = t2MOVi 1, 14, $noreg, $noreg		renamable $lr = t2MOVi 1, 14, $noreg, $noreg
renamable $r12 = t2BICri killed renamable $r12, 3, 14, $noreg, $noreg		renamable $r12 = t2BICri killed renamable $r12, 3, 14, $noreg, $noreg
renamable $r12 = t2SUBri killed renamable $r12, 4, 14, $noreg, $noreg		renamable $r12 = t2SUBri killed renamable $r12, 4, 14, $noreg, $noreg
renamable $lr = nuw nsw t2ADDrs killed renamable $lr, killed renamable $r12, 19, 14, $noreg, $noreg		renamable $lr = nuw nsw t2ADDrs killed renamable $lr, killed renamable $r12, 19, 14, $noreg, $noreg
t2DoLoopStart renamable $lr		t2DoLoopStart renamable $lr

bb.1.vector.body:		bb.1.vector.body:
successors: %bb.1(0x7c000000), %bb.2(0x04000000)		successors: %bb.1(0x7c000000), %bb.2(0x04000000)
liveins: $lr, $r0, $r1, $r2, $r3		liveins: $lr, $r0, $r1, $r2, $r3

renamable $vpr = MVE_VCTP32 renamable $r3, 0, $noreg		renamable $vpr = MVE_VCTP32 renamable $r3, 0, $noreg
MVE_VPST 4, implicit $vpr		MVE_VPST 4, implicit $vpr
renamable $r1, renamable $q0 = MVE_VLDRWU32_post killed renamable $r1, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv13, align 4, !tbaa !3)		renamable $r1, renamable $q0 = MVE_VLDRWU32_post killed renamable $r1, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv13, align 4)
renamable $r2, renamable $q1 = MVE_VLDRWU32_post killed renamable $r2, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv1416, align 4, !tbaa !3)		renamable $r2, renamable $q1 = MVE_VLDRWU32_post killed renamable $r2, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv1416, align 4)
renamable $r3, dead $cpsr = tSUBi8 killed renamable $r3, 4, 14, $noreg		renamable $r3, dead $cpsr = tSUBi8 killed renamable $r3, 5, 14, $noreg
renamable $q0 = nsw MVE_VADDi32 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0		renamable $q0 = nsw MVE_VADDi32 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0
MVE_VPST 8, implicit $vpr		MVE_VPST 8, implicit $vpr
renamable $r0 = MVE_VSTRWU32_post killed renamable $q0, killed renamable $r0, 16, 1, killed renamable $vpr :: (store 16 into %ir.lsr.iv1719, align 4, !tbaa !3)		renamable $r0 = MVE_VSTRWU32_post killed renamable $q0, killed renamable $r0, 16, 1, killed renamable $vpr :: (store 16 into %ir.lsr.iv1719, align 4)
renamable $lr = t2LoopDec killed renamable $lr, 1		renamable $lr = t2LoopDec killed renamable $lr, 1
$r2 = tMOVr killed $r3, 14, $noreg
t2LoopEnd renamable $lr, %bb.1, implicit-def dead $cpsr		t2LoopEnd renamable $lr, %bb.1, implicit-def dead $cpsr
tB %bb.2, 14, $noreg		tB %bb.2, 14, $noreg

bb.2.for.cond.cleanup:		bb.2.for.cond.cleanup:
tPOP_RET 14, $noreg, def $r7, def $pc		tPOP_RET 14, $noreg, def $r7, def $pc

...		...

llvm/test/CodeGen/Thumb2/LowOverheadLoops/incorrect-sub-8.mir

This file was added.

				# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
				# RUN: llc -mtriple=thumbv8.1m.main -mattr=+mve -run-pass=arm-low-overhead-loops --verify-machineinstrs %s -o - \| FileCheck %s
				--- \|
				define dso_local void @incorrect_sub_8(i8* noalias nocapture %A, i8* noalias nocapture readonly %B, i8* noalias nocapture readonly %C, i32 %N) local_unnamed_addr #0 {
				entry:
				%cmp8 = icmp sgt i32 %N, 0
				%0 = add i32 %N, 3
				%1 = lshr i32 %0, 2
				%2 = shl nuw i32 %1, 2
				%3 = add i32 %2, -4
				%4 = lshr i32 %3, 2
				%5 = add nuw nsw i32 %4, 1
				br i1 %cmp8, label %vector.ph, label %for.cond.cleanup

				vector.ph: ; preds = %entry
				call void @llvm.set.loop.iterations.i32(i32 %5)
				br label %vector.body

				vector.body: ; preds = %vector.body, %vector.ph
				%lsr.iv17 = phi i8* [ %scevgep18, %vector.body ], [ %A, %vector.ph ]
				%lsr.iv14 = phi i8* [ %scevgep15, %vector.body ], [ %C, %vector.ph ]
				%lsr.iv = phi i8* [ %scevgep, %vector.body ], [ %B, %vector.ph ]
				%6 = phi i32 [ %5, %vector.ph ], [ %11, %vector.body ]
				%7 = phi i32 [ %N, %vector.ph ], [ %9, %vector.body ]
				%lsr.iv13 = bitcast i8* %lsr.iv to <16 x i8>*
				%lsr.iv1416 = bitcast i8* %lsr.iv14 to <16 x i8>*
				%lsr.iv1719 = bitcast i8* %lsr.iv17 to <16 x i8>*
				%8 = call <16 x i1> @llvm.arm.mve.vctp8(i32 %7)
				%9 = sub i32 %7, 15
				%wide.masked.load = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %lsr.iv13, i32 4, <16 x i1> %8, <16 x i8> undef)
				%wide.masked.load12 = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %lsr.iv1416, i32 4, <16 x i1> %8, <16 x i8> undef)
				%10 = add nsw <16 x i8> %wide.masked.load12, %wide.masked.load
				call void @llvm.masked.store.v16i8.p0v16i8(<16 x i8> %10, <16 x i8>* %lsr.iv1719, i32 4, <16 x i1> %8)
				%scevgep = getelementptr i8, i8* %lsr.iv, i32 16
				%scevgep15 = getelementptr i8, i8* %lsr.iv14, i32 16
				%scevgep18 = getelementptr i8, i8* %lsr.iv17, i32 16
				%11 = call i32 @llvm.loop.decrement.reg.i32.i32.i32(i32 %6, i32 1)
				%12 = icmp ne i32 %11, 0
				br i1 %12, label %vector.body, label %for.cond.cleanup

				for.cond.cleanup: ; preds = %vector.body, %entry
				ret void
				}
				declare void @llvm.set.loop.iterations.i32(i32)
				declare <16 x i1> @llvm.arm.mve.vctp8(i32)
				declare i32 @llvm.loop.decrement.reg.i32.i32.i32(i32, i32)
				declare <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>*, i32 immarg, <16 x i1>, <16 x i8>)
				declare void @llvm.masked.store.v16i8.p0v16i8(<16 x i8>, <16 x i8>*, i32 immarg, <16 x i1>)
				declare void @llvm.stackprotector(i8, i8*)
				...
				---
				name: incorrect_sub_8
				alignment: 2
				exposesReturnsTwice: false
				legalized: false
				regBankSelected: false
				selected: false
				failedISel: false
				tracksRegLiveness: true
				hasWinCFI: false
				registers: []
				liveins:
				- { reg: '$r0', virtual-reg: '' }
				- { reg: '$r1', virtual-reg: '' }
				- { reg: '$r2', virtual-reg: '' }
				- { reg: '$r3', virtual-reg: '' }
				frameInfo:
				isFrameAddressTaken: false
				isReturnAddressTaken: false
				hasStackMap: false
				hasPatchPoint: false
				stackSize: 8
				offsetAdjustment: 0
				maxAlignment: 4
				adjustsStack: false
				hasCalls: false
				stackProtector: ''
				maxCallFrameSize: 0
				cvBytesOfCalleeSavedRegisters: 0
				hasOpaqueSPAdjustment: false
				hasVAStart: false
				hasMustTailInVarArgFunc: false
				localFrameSize: 0
				savePoint: ''
				restorePoint: ''
				fixedStack: []
				stack:
				- { id: 0, name: '', type: spill-slot, offset: -4, size: 4, alignment: 4,
				stack-id: default, callee-saved-register: '$lr', callee-saved-restored: false,
				debug-info-variable: '', debug-info-expression: '', debug-info-location: '' }
				- { id: 1, name: '', type: spill-slot, offset: -8, size: 4, alignment: 4,
				stack-id: default, callee-saved-register: '$r7', callee-saved-restored: true,
				debug-info-variable: '', debug-info-expression: '', debug-info-location: '' }
				callSites: []
				constants: []
				machineFunctionInfo: {}
				body: \|
				; CHECK-LABEL: name: incorrect_sub_8
				; CHECK: bb.0.entry:
				; CHECK: successors: %bb.1(0x80000000)
				; CHECK: liveins: $lr, $r0, $r1, $r2, $r3, $r7
				; CHECK: frame-setup tPUSH 14, $noreg, killed $r7, killed $lr, implicit-def $sp, implicit $sp
				; CHECK: frame-setup CFI_INSTRUCTION def_cfa_offset 8
				; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4
				; CHECK: frame-setup CFI_INSTRUCTION offset $r7, -8
				; CHECK: tCMPi8 renamable $r3, 1, 14, $noreg, implicit-def $cpsr
				; CHECK: t2IT 11, 8, implicit-def $itstate
				; CHECK: tPOP_RET 11, killed $cpsr, def $r7, def $pc, implicit killed $itstate
				; CHECK: renamable $r12 = t2ADDri renamable $r3, 3, 14, $noreg, $noreg
				; CHECK: renamable $lr = t2MOVi 1, 14, $noreg, $noreg
				; CHECK: renamable $r12 = t2BICri killed renamable $r12, 3, 14, $noreg, $noreg
				; CHECK: renamable $r12 = t2SUBri killed renamable $r12, 4, 14, $noreg, $noreg
				; CHECK: renamable $lr = nuw nsw t2ADDrs killed renamable $lr, killed renamable $r12, 19, 14, $noreg, $noreg
				; CHECK: $lr = t2DLS killed renamable $lr
				; CHECK: bb.1.vector.body:
				; CHECK: successors: %bb.1(0x7c000000), %bb.2(0x04000000)
				; CHECK: liveins: $lr, $r0, $r1, $r2, $r3
				; CHECK: renamable $vpr = MVE_VCTP8 renamable $r3, 0, $noreg
				; CHECK: MVE_VPST 4, implicit $vpr
				; CHECK: renamable $r1, renamable $q0 = MVE_VLDRBU8_post killed renamable $r1, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv13, align 4)
				; CHECK: renamable $r2, renamable $q1 = MVE_VLDRBU8_post killed renamable $r2, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv1416, align 4)
				; CHECK: renamable $r3, dead $cpsr = tSUBi8 killed renamable $r3, 15, 14, $noreg
				; CHECK: renamable $q0 = nsw MVE_VADDi8 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0
				; CHECK: MVE_VPST 8, implicit $vpr
				; CHECK: renamable $r0 = MVE_VSTRBU8_post killed renamable $q0, killed renamable $r0, 16, 1, killed renamable $vpr :: (store 16 into %ir.lsr.iv1719, align 4)
				; CHECK: $lr = t2LEUpdate killed renamable $lr, %bb.1
				; CHECK: bb.2.for.cond.cleanup:
				; CHECK: tPOP_RET 14, $noreg, def $r7, def $pc
				bb.0.entry:
				successors: %bb.1(0x80000000)
				liveins: $r0, $r1, $r2, $r3, $r7, $lr

				frame-setup tPUSH 14, $noreg, killed $r7, killed $lr, implicit-def $sp, implicit $sp
				frame-setup CFI_INSTRUCTION def_cfa_offset 8
				frame-setup CFI_INSTRUCTION offset $lr, -4
				frame-setup CFI_INSTRUCTION offset $r7, -8
				tCMPi8 renamable $r3, 1, 14, $noreg, implicit-def $cpsr
				t2IT 11, 8, implicit-def $itstate
				tPOP_RET 11, killed $cpsr, def $r7, def $pc, implicit killed $itstate
				renamable $r12 = t2ADDri renamable $r3, 3, 14, $noreg, $noreg
				renamable $lr = t2MOVi 1, 14, $noreg, $noreg
				renamable $r12 = t2BICri killed renamable $r12, 3, 14, $noreg, $noreg
				renamable $r12 = t2SUBri killed renamable $r12, 4, 14, $noreg, $noreg
				renamable $lr = nuw nsw t2ADDrs killed renamable $lr, killed renamable $r12, 19, 14, $noreg, $noreg
				t2DoLoopStart renamable $lr

				bb.1.vector.body:
				successors: %bb.1(0x7c000000), %bb.2(0x04000000)
				liveins: $lr, $r0, $r1, $r2, $r3

				renamable $vpr = MVE_VCTP8 renamable $r3, 0, $noreg
				MVE_VPST 4, implicit $vpr
				renamable $r1, renamable $q0 = MVE_VLDRBU8_post killed renamable $r1, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv13, align 4)
				renamable $r2, renamable $q1 = MVE_VLDRBU8_post killed renamable $r2, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv1416, align 4)
				renamable $r3, dead $cpsr = tSUBi8 killed renamable $r3, 15, 14, $noreg
				renamable $q0 = nsw MVE_VADDi8 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0
				MVE_VPST 8, implicit $vpr
				renamable $r0 = MVE_VSTRBU8_post killed renamable $q0, killed renamable $r0, 16, 1, killed renamable $vpr :: (store 16 into %ir.lsr.iv1719, align 4)
				renamable $lr = t2LoopDec killed renamable $lr, 1
				t2LoopEnd renamable $lr, %bb.1, implicit-def dead $cpsr
				tB %bb.2, 14, $noreg

				bb.2.for.cond.cleanup:
				tPOP_RET 14, $noreg, def $r7, def $pc

				...

llvm/test/CodeGen/Thumb2/LowOverheadLoops/mov-lr-terminator.mir

Show First 20 Lines • Show All 105 Lines • ▼ Show 20 Lines	body: \|
; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4		; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4
; CHECK: frame-setup CFI_INSTRUCTION offset $r4, -8		; CHECK: frame-setup CFI_INSTRUCTION offset $r4, -8
; CHECK: renamable $r12 = t2MOVi 0, 14, $noreg, $noreg		; CHECK: renamable $r12 = t2MOVi 0, 14, $noreg, $noreg
; CHECK: t2CMPrs killed renamable $r12, renamable $r3, 11, 14, $noreg, implicit-def $cpsr		; CHECK: t2CMPrs killed renamable $r12, renamable $r3, 11, 14, $noreg, implicit-def $cpsr
; CHECK: t2IT 0, 8, implicit-def $itstate		; CHECK: t2IT 0, 8, implicit-def $itstate
; CHECK: tPOP_RET 0, killed $cpsr, def $r4, def $pc, implicit killed $itstate		; CHECK: tPOP_RET 0, killed $cpsr, def $r4, def $pc, implicit killed $itstate
; CHECK: renamable $r12 = t2LSRri killed renamable $r3, 1, 14, $noreg, $noreg		; CHECK: renamable $r12 = t2LSRri killed renamable $r3, 1, 14, $noreg, $noreg
; CHECK: renamable $r3, dead $cpsr = tMOVi8 0, 14, $noreg		; CHECK: renamable $r3, dead $cpsr = tMOVi8 0, 14, $noreg
; CHECK: $lr = MVE_DLSTP_32 renamable $r12		; CHECK: $lr = MVE_DLSTP_32 killed renamable $r12
; CHECK: bb.1.vector.body:		; CHECK: bb.1.vector.body:
; CHECK: successors: %bb.1(0x7c000000), %bb.2(0x04000000)		; CHECK: successors: %bb.1(0x7c000000), %bb.2(0x04000000)
; CHECK: liveins: $lr, $r0, $r1, $r2, $r3, $r12		; CHECK: liveins: $lr, $r0, $r1, $r2, $r3
; CHECK: renamable $r4, dead $cpsr = tADDrr renamable $r1, renamable $r3, 14, $noreg		; CHECK: renamable $r4, dead $cpsr = tADDrr renamable $r1, renamable $r3, 14, $noreg
; CHECK: renamable $q0 = MVE_VLDRBU32 killed renamable $r4, 0, 0, $noreg :: (load 4 from %ir.scevgep45, align 1)		; CHECK: renamable $q0 = MVE_VLDRBU32 killed renamable $r4, 0, 0, $noreg :: (load 4 from %ir.scevgep45, align 1)
; CHECK: renamable $r4, dead $cpsr = tADDrr renamable $r2, renamable $r3, 14, $noreg		; CHECK: renamable $r4, dead $cpsr = tADDrr renamable $r2, renamable $r3, 14, $noreg
; CHECK: renamable $r3, dead $cpsr = tADDi8 killed renamable $r3, 4, 14, $noreg		; CHECK: renamable $r3, dead $cpsr = tADDi8 killed renamable $r3, 4, 14, $noreg
; CHECK: renamable $r12 = t2SUBri killed renamable $r12, 4, 14, $noreg, $noreg
; CHECK: renamable $q1 = MVE_VLDRBU32 killed renamable $r4, 0, 0, $noreg :: (load 4 from %ir.scevgep23, align 1)		; CHECK: renamable $q1 = MVE_VLDRBU32 killed renamable $r4, 0, 0, $noreg :: (load 4 from %ir.scevgep23, align 1)
; CHECK: renamable $q0 = nuw nsw MVE_VMULi32 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0		; CHECK: renamable $q0 = nuw nsw MVE_VMULi32 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0
; CHECK: renamable $r0 = MVE_VSTRWU32_post killed renamable $q0, killed renamable $r0, 16, 0, killed $noreg :: (store 16 into %ir.lsr.iv1, align 4)		; CHECK: renamable $r0 = MVE_VSTRWU32_post killed renamable $q0, killed renamable $r0, 16, 0, killed $noreg :: (store 16 into %ir.lsr.iv1, align 4)
; CHECK: $lr = MVE_LETP killed renamable $lr, %bb.1		; CHECK: $lr = MVE_LETP killed renamable $lr, %bb.1
; CHECK: bb.2.for.cond.cleanup:		; CHECK: bb.2.for.cond.cleanup:
; CHECK: tPOP_RET 14, $noreg, def $r4, def $pc		; CHECK: tPOP_RET 14, $noreg, def $r4, def $pc
bb.0.entry:		bb.0.entry:
successors: %bb.1(0x80000000)		successors: %bb.1(0x80000000)
▲ Show 20 Lines • Show All 45 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/LowOverheadLoops/move-def-before-start.mir

Show First 20 Lines • Show All 112 Lines • ▼ Show 20 Lines	body: \|
; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4		; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4
; CHECK: frame-setup CFI_INSTRUCTION offset $r4, -8		; CHECK: frame-setup CFI_INSTRUCTION offset $r4, -8
; CHECK: renamable $r12 = t2MOVi 0, 14, $noreg, $noreg		; CHECK: renamable $r12 = t2MOVi 0, 14, $noreg, $noreg
; CHECK: t2CMPrs killed renamable $r12, renamable $r3, 11, 14, $noreg, implicit-def $cpsr		; CHECK: t2CMPrs killed renamable $r12, renamable $r3, 11, 14, $noreg, implicit-def $cpsr
; CHECK: t2IT 0, 8, implicit-def $itstate		; CHECK: t2IT 0, 8, implicit-def $itstate
; CHECK: tPOP_RET 0, killed $cpsr, def $r4, def $pc, implicit killed $itstate		; CHECK: tPOP_RET 0, killed $cpsr, def $r4, def $pc, implicit killed $itstate
; CHECK: $r12 = t2MOVr killed $r3, 14, $noreg, $noreg		; CHECK: $r12 = t2MOVr killed $r3, 14, $noreg, $noreg
; CHECK: renamable $r12 = t2LSRri killed renamable $r12, 1, 14, $noreg, $noreg		; CHECK: renamable $r12 = t2LSRri killed renamable $r12, 1, 14, $noreg, $noreg
; CHECK: $lr = MVE_DLSTP_32 renamable $r12		; CHECK: $lr = MVE_DLSTP_32 killed renamable $r12
; CHECK: renamable $r3, dead $cpsr = tMOVi8 0, 14, $noreg		; CHECK: renamable $r3, dead $cpsr = tMOVi8 0, 14, $noreg
; CHECK: bb.1.vector.body:		; CHECK: bb.1.vector.body:
; CHECK: successors: %bb.1(0x7c000000), %bb.2(0x04000000)		; CHECK: successors: %bb.1(0x7c000000), %bb.2(0x04000000)
; CHECK: liveins: $lr, $r0, $r1, $r2, $r3, $r12		; CHECK: liveins: $lr, $r0, $r1, $r2, $r3
; CHECK: renamable $r4, dead $cpsr = tADDrr renamable $r1, renamable $r3, 14, $noreg		; CHECK: renamable $r4, dead $cpsr = tADDrr renamable $r1, renamable $r3, 14, $noreg
; CHECK: renamable $q0 = MVE_VLDRBU32 killed renamable $r4, 0, 0, $noreg :: (load 4 from %ir.scevgep45, align 1)		; CHECK: renamable $q0 = MVE_VLDRBU32 killed renamable $r4, 0, 0, $noreg :: (load 4 from %ir.scevgep45, align 1)
; CHECK: renamable $r4, dead $cpsr = tADDrr renamable $r2, renamable $r3, 14, $noreg		; CHECK: renamable $r4, dead $cpsr = tADDrr renamable $r2, renamable $r3, 14, $noreg
; CHECK: renamable $r3, dead $cpsr = tADDi8 killed renamable $r3, 4, 14, $noreg		; CHECK: renamable $r3, dead $cpsr = tADDi8 killed renamable $r3, 4, 14, $noreg
; CHECK: renamable $r12 = t2SUBri killed renamable $r12, 4, 14, $noreg, $noreg
; CHECK: renamable $q1 = MVE_VLDRBU32 killed renamable $r4, 0, 0, $noreg :: (load 4 from %ir.scevgep23, align 1)		; CHECK: renamable $q1 = MVE_VLDRBU32 killed renamable $r4, 0, 0, $noreg :: (load 4 from %ir.scevgep23, align 1)
; CHECK: renamable $q0 = nuw nsw MVE_VMULi32 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0		; CHECK: renamable $q0 = nuw nsw MVE_VMULi32 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0
; CHECK: renamable $r0 = MVE_VSTRWU32_post killed renamable $q0, killed renamable $r0, 16, 0, killed $noreg :: (store 16 into %ir.lsr.iv1, align 4)		; CHECK: renamable $r0 = MVE_VSTRWU32_post killed renamable $q0, killed renamable $r0, 16, 0, killed $noreg :: (store 16 into %ir.lsr.iv1, align 4)
; CHECK: $lr = MVE_LETP killed renamable $lr, %bb.1		; CHECK: $lr = MVE_LETP killed renamable $lr, %bb.1
; CHECK: bb.2.for.cond.cleanup:		; CHECK: bb.2.for.cond.cleanup:
; CHECK: tPOP_RET 14, $noreg, def $r4, def $pc		; CHECK: tPOP_RET 14, $noreg, def $r4, def $pc
bb.0.entry:		bb.0.entry:
successors: %bb.1(0x80000000)		successors: %bb.1(0x80000000)
▲ Show 20 Lines • Show All 45 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/LowOverheadLoops/move-start-after-def.mir

Show First 20 Lines • Show All 111 Lines • ▼ Show 20 Lines	body: \|
; CHECK: frame-setup CFI_INSTRUCTION offset $r4, -8		; CHECK: frame-setup CFI_INSTRUCTION offset $r4, -8
; CHECK: renamable $r12 = t2MOVi 0, 14, $noreg, $noreg		; CHECK: renamable $r12 = t2MOVi 0, 14, $noreg, $noreg
; CHECK: t2CMPrs killed renamable $r12, renamable $r3, 11, 14, $noreg, implicit-def $cpsr		; CHECK: t2CMPrs killed renamable $r12, renamable $r3, 11, 14, $noreg, implicit-def $cpsr
; CHECK: t2IT 0, 8, implicit-def $itstate		; CHECK: t2IT 0, 8, implicit-def $itstate
; CHECK: tPOP_RET 0, killed $cpsr, def $r4, def $pc, implicit killed $itstate		; CHECK: tPOP_RET 0, killed $cpsr, def $r4, def $pc, implicit killed $itstate
; CHECK: $r12 = t2MOVr killed $r3, 14, $noreg, $noreg		; CHECK: $r12 = t2MOVr killed $r3, 14, $noreg, $noreg
; CHECK: renamable $r3, dead $cpsr = tMOVi8 0, 14, $noreg		; CHECK: renamable $r3, dead $cpsr = tMOVi8 0, 14, $noreg
; CHECK: renamable $r12 = t2LSRri killed renamable $r12, 1, 14, $noreg, $noreg		; CHECK: renamable $r12 = t2LSRri killed renamable $r12, 1, 14, $noreg, $noreg
; CHECK: $lr = MVE_DLSTP_32 renamable $r12		; CHECK: $lr = MVE_DLSTP_32 killed renamable $r12
; CHECK: bb.1.vector.body:		; CHECK: bb.1.vector.body:
; CHECK: successors: %bb.1(0x7c000000), %bb.2(0x04000000)		; CHECK: successors: %bb.1(0x7c000000), %bb.2(0x04000000)
; CHECK: liveins: $lr, $r0, $r1, $r2, $r3, $r12		; CHECK: liveins: $lr, $r0, $r1, $r2, $r3
; CHECK: renamable $r4, dead $cpsr = tADDrr renamable $r1, renamable $r3, 14, $noreg		; CHECK: renamable $r4, dead $cpsr = tADDrr renamable $r1, renamable $r3, 14, $noreg
; CHECK: renamable $q0 = MVE_VLDRBU32 killed renamable $r4, 0, 0, $noreg :: (load 4 from %ir.scevgep45, align 1)		; CHECK: renamable $q0 = MVE_VLDRBU32 killed renamable $r4, 0, 0, $noreg :: (load 4 from %ir.scevgep45, align 1)
; CHECK: renamable $r4, dead $cpsr = tADDrr renamable $r2, renamable $r3, 14, $noreg		; CHECK: renamable $r4, dead $cpsr = tADDrr renamable $r2, renamable $r3, 14, $noreg
; CHECK: renamable $r3, dead $cpsr = tADDi8 killed renamable $r3, 4, 14, $noreg		; CHECK: renamable $r3, dead $cpsr = tADDi8 killed renamable $r3, 4, 14, $noreg
; CHECK: renamable $r12 = t2SUBri killed renamable $r12, 4, 14, $noreg, $noreg
; CHECK: renamable $q1 = MVE_VLDRBU32 killed renamable $r4, 0, 0, $noreg :: (load 4 from %ir.scevgep23, align 1)		; CHECK: renamable $q1 = MVE_VLDRBU32 killed renamable $r4, 0, 0, $noreg :: (load 4 from %ir.scevgep23, align 1)
; CHECK: renamable $q0 = nuw nsw MVE_VMULi32 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0		; CHECK: renamable $q0 = nuw nsw MVE_VMULi32 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0
; CHECK: renamable $r0 = MVE_VSTRWU32_post killed renamable $q0, killed renamable $r0, 16, 0, killed $noreg :: (store 16 into %ir.lsr.iv1, align 4)		; CHECK: renamable $r0 = MVE_VSTRWU32_post killed renamable $q0, killed renamable $r0, 16, 0, killed $noreg :: (store 16 into %ir.lsr.iv1, align 4)
; CHECK: $lr = MVE_LETP killed renamable $lr, %bb.1		; CHECK: $lr = MVE_LETP killed renamable $lr, %bb.1
; CHECK: bb.2.for.cond.cleanup:		; CHECK: bb.2.for.cond.cleanup:
; CHECK: tPOP_RET 14, $noreg, def $r4, def $pc		; CHECK: tPOP_RET 14, $noreg, def $r4, def $pc
bb.0.entry:		bb.0.entry:
successors: %bb.1(0x80000000)		successors: %bb.1(0x80000000)
▲ Show 20 Lines • Show All 45 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/LowOverheadLoops/mve-tail-data-types.ll

	Show First 20 Lines • Show All 84 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: bxeq lr			; CHECK-NEXT: bxeq lr
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: vmov.i32 q0, #0x0			; CHECK-NEXT: vmov.i32 q0, #0x0
	; CHECK-NEXT: dlstp.32 lr, r2			; CHECK-NEXT: dlstp.32 lr, r2
	; CHECK-NEXT: .LBB1_1: @ %vector.body			; CHECK-NEXT: .LBB1_1: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: mov r3, r2			; CHECK-NEXT: mov r3, r2
	; CHECK-NEXT: subs r2, #4			; CHECK-NEXT: subs r2, #4
	; CHECK-NEXT: vldrh.s32 q2, [r1], #8
	; CHECK-NEXT: vmov q1, q0			; CHECK-NEXT: vmov q1, q0
				; CHECK-NEXT: vldrh.s32 q2, [r1], #8
	; CHECK-NEXT: vmla.u32 q0, q2, r0			; CHECK-NEXT: vmla.u32 q0, q2, r0
	; CHECK-NEXT: letp lr, .LBB1_1			; CHECK-NEXT: letp lr, .LBB1_1
	; CHECK-NEXT: @ %bb.2: @ %middle.block			; CHECK-NEXT: @ %bb.2: @ %middle.block
	; CHECK-NEXT: vctp.32 r3			; CHECK-NEXT: vctp.32 r3
	; CHECK-NEXT: vpsel q0, q0, q1			; CHECK-NEXT: vpsel q0, q0, q1
	; CHECK-NEXT: vaddv.u32 r0, q0			; CHECK-NEXT: vaddv.u32 r0, q0
	; CHECK-NEXT: pop {r7, pc}			; CHECK-NEXT: pop {r7, pc}
	entry:			entry:
	▲ Show 20 Lines • Show All 122 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: bxeq lr			; CHECK-NEXT: bxeq lr
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: vmov.i32 q0, #0x0			; CHECK-NEXT: vmov.i32 q0, #0x0
	; CHECK-NEXT: dlstp.32 lr, r2			; CHECK-NEXT: dlstp.32 lr, r2
	; CHECK-NEXT: .LBB3_1: @ %vector.body			; CHECK-NEXT: .LBB3_1: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: mov r3, r2			; CHECK-NEXT: mov r3, r2
	; CHECK-NEXT: subs r2, #4			; CHECK-NEXT: subs r2, #4
	; CHECK-NEXT: vldrh.u32 q2, [r1], #8
	; CHECK-NEXT: vmov q1, q0			; CHECK-NEXT: vmov q1, q0
				; CHECK-NEXT: vldrh.u32 q2, [r1], #8
	; CHECK-NEXT: vmla.u32 q0, q2, r0			; CHECK-NEXT: vmla.u32 q0, q2, r0
	; CHECK-NEXT: letp lr, .LBB3_1			; CHECK-NEXT: letp lr, .LBB3_1
	; CHECK-NEXT: @ %bb.2: @ %middle.block			; CHECK-NEXT: @ %bb.2: @ %middle.block
	; CHECK-NEXT: vctp.32 r3			; CHECK-NEXT: vctp.32 r3
	; CHECK-NEXT: vpsel q0, q0, q1			; CHECK-NEXT: vpsel q0, q0, q1
	; CHECK-NEXT: vaddv.u32 r0, q0			; CHECK-NEXT: vaddv.u32 r0, q0
	; CHECK-NEXT: pop {r7, pc}			; CHECK-NEXT: pop {r7, pc}
	entry:			entry:
	▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: bxeq lr			; CHECK-NEXT: bxeq lr
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: vmov.i32 q0, #0x0			; CHECK-NEXT: vmov.i32 q0, #0x0
	; CHECK-NEXT: dlstp.32 lr, r2			; CHECK-NEXT: dlstp.32 lr, r2
	; CHECK-NEXT: .LBB4_1: @ %vector.body			; CHECK-NEXT: .LBB4_1: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: mov r3, r2			; CHECK-NEXT: mov r3, r2
	; CHECK-NEXT: subs r2, #4			; CHECK-NEXT: subs r2, #4
	; CHECK-NEXT: vldrw.u32 q2, [r1], #16
	; CHECK-NEXT: vmov q1, q0			; CHECK-NEXT: vmov q1, q0
				; CHECK-NEXT: vldrw.u32 q2, [r1], #16
	; CHECK-NEXT: vmla.u32 q0, q2, r0			; CHECK-NEXT: vmla.u32 q0, q2, r0
	; CHECK-NEXT: letp lr, .LBB4_1			; CHECK-NEXT: letp lr, .LBB4_1
	; CHECK-NEXT: @ %bb.2: @ %middle.block			; CHECK-NEXT: @ %bb.2: @ %middle.block
	; CHECK-NEXT: vctp.32 r3			; CHECK-NEXT: vctp.32 r3
	; CHECK-NEXT: vpsel q0, q0, q1			; CHECK-NEXT: vpsel q0, q0, q1
	; CHECK-NEXT: vaddv.u32 r0, q0			; CHECK-NEXT: vaddv.u32 r0, q0
	; CHECK-NEXT: pop {r7, pc}			; CHECK-NEXT: pop {r7, pc}
	entry:			entry:
	▲ Show 20 Lines • Show All 72 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: .LBB5_4: @ %vector.ph			; CHECK-NEXT: .LBB5_4: @ %vector.ph
	; CHECK-NEXT: movs r4, #0			; CHECK-NEXT: movs r4, #0
	; CHECK-NEXT: dlstp.32 lr, r12			; CHECK-NEXT: dlstp.32 lr, r12
	; CHECK-NEXT: .LBB5_5: @ %vector.body			; CHECK-NEXT: .LBB5_5: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: adds r5, r0, r4			; CHECK-NEXT: adds r5, r0, r4
	; CHECK-NEXT: vldrb.u32 q0, [r5]			; CHECK-NEXT: vldrb.u32 q0, [r5]
	; CHECK-NEXT: adds r5, r1, r4			; CHECK-NEXT: adds r5, r1, r4
				; CHECK-NEXT: adds r4, #4
	; CHECK-NEXT: vldrb.u32 q1, [r5]			; CHECK-NEXT: vldrb.u32 q1, [r5]
	; CHECK-NEXT: vmul.i32 q0, q1, q0			; CHECK-NEXT: vmul.i32 q0, q1, q0
	; CHECK-NEXT: adds r4, #4
	; CHECK-NEXT: sub.w r12, r12, #4
	; CHECK-NEXT: vadd.i32 q0, q0, r2			; CHECK-NEXT: vadd.i32 q0, q0, r2
	; CHECK-NEXT: vstrw.32 q0, [r3], #16			; CHECK-NEXT: vstrw.32 q0, [r3], #16
	; CHECK-NEXT: letp lr, .LBB5_5			; CHECK-NEXT: letp lr, .LBB5_5
	; CHECK-NEXT: b .LBB5_12			; CHECK-NEXT: b .LBB5_12
	; CHECK-NEXT: .LBB5_6: @ %for.body.preheader.new			; CHECK-NEXT: .LBB5_6: @ %for.body.preheader.new
	; CHECK-NEXT: sub.w r12, lr, r12			; CHECK-NEXT: sub.w r12, lr, r12
	; CHECK-NEXT: subs r4, r1, #3			; CHECK-NEXT: subs r4, r1, #3
	; CHECK-NEXT: subs r5, r0, #3			; CHECK-NEXT: subs r5, r0, #3
	▲ Show 20 Lines • Show All 188 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: it eq			; CHECK-NEXT: it eq
	; CHECK-NEXT: popeq {r4, pc}			; CHECK-NEXT: popeq {r4, pc}
	; CHECK-NEXT: dlstp.32 lr, r12			; CHECK-NEXT: dlstp.32 lr, r12
	; CHECK-NEXT: .LBB6_1: @ %vector.body			; CHECK-NEXT: .LBB6_1: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrh.s32 q0, [r0], #8			; CHECK-NEXT: vldrh.s32 q0, [r0], #8
	; CHECK-NEXT: vldrh.s32 q1, [r1], #8			; CHECK-NEXT: vldrh.s32 q1, [r1], #8
	; CHECK-NEXT: vmul.i32 q0, q1, q0			; CHECK-NEXT: vmul.i32 q0, q1, q0
	; CHECK-NEXT: sub.w r12, r12, #4
	; CHECK-NEXT: vadd.i32 q0, q0, r2			; CHECK-NEXT: vadd.i32 q0, q0, r2
	; CHECK-NEXT: vstrw.32 q0, [r3], #16			; CHECK-NEXT: vstrw.32 q0, [r3], #16
	; CHECK-NEXT: letp lr, .LBB6_1			; CHECK-NEXT: letp lr, .LBB6_1
	; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup			; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup
	; CHECK-NEXT: pop {r4, pc}			; CHECK-NEXT: pop {r4, pc}
	entry:			entry:
	%cmp10 = icmp eq i32 %N, 0			%cmp10 = icmp eq i32 %N, 0
	br i1 %cmp10, label %for.cond.cleanup, label %vector.ph			br i1 %cmp10, label %for.cond.cleanup, label %vector.ph
	▲ Show 20 Lines • Show All 72 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: .LBB7_4: @ %vector.ph			; CHECK-NEXT: .LBB7_4: @ %vector.ph
	; CHECK-NEXT: movs r4, #0			; CHECK-NEXT: movs r4, #0
	; CHECK-NEXT: dlstp.32 lr, r12			; CHECK-NEXT: dlstp.32 lr, r12
	; CHECK-NEXT: .LBB7_5: @ %vector.body			; CHECK-NEXT: .LBB7_5: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: adds r5, r0, r4			; CHECK-NEXT: adds r5, r0, r4
	; CHECK-NEXT: vldrb.u32 q0, [r5]			; CHECK-NEXT: vldrb.u32 q0, [r5]
	; CHECK-NEXT: adds r5, r1, r4			; CHECK-NEXT: adds r5, r1, r4
				; CHECK-NEXT: adds r4, #4
	; CHECK-NEXT: vldrb.u32 q1, [r5]			; CHECK-NEXT: vldrb.u32 q1, [r5]
	; CHECK-NEXT: vmul.i32 q0, q1, q0			; CHECK-NEXT: vmul.i32 q0, q1, q0
	; CHECK-NEXT: adds r4, #4
	; CHECK-NEXT: sub.w r12, r12, #4
	; CHECK-NEXT: vadd.i32 q0, q0, r2			; CHECK-NEXT: vadd.i32 q0, q0, r2
	; CHECK-NEXT: vstrw.32 q0, [r3], #16			; CHECK-NEXT: vstrw.32 q0, [r3], #16
	; CHECK-NEXT: letp lr, .LBB7_5			; CHECK-NEXT: letp lr, .LBB7_5
	; CHECK-NEXT: b .LBB7_12			; CHECK-NEXT: b .LBB7_12
	; CHECK-NEXT: .LBB7_6: @ %for.body.preheader.new			; CHECK-NEXT: .LBB7_6: @ %for.body.preheader.new
	; CHECK-NEXT: sub.w r12, lr, r12			; CHECK-NEXT: sub.w r12, lr, r12
	; CHECK-NEXT: subs r4, r1, #3			; CHECK-NEXT: subs r4, r1, #3
	; CHECK-NEXT: subs r5, r0, #3			; CHECK-NEXT: subs r5, r0, #3
	▲ Show 20 Lines • Show All 188 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: it eq			; CHECK-NEXT: it eq
	; CHECK-NEXT: popeq {r4, pc}			; CHECK-NEXT: popeq {r4, pc}
	; CHECK-NEXT: dlstp.32 lr, r12			; CHECK-NEXT: dlstp.32 lr, r12
	; CHECK-NEXT: .LBB8_1: @ %vector.body			; CHECK-NEXT: .LBB8_1: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrh.u32 q0, [r0], #8			; CHECK-NEXT: vldrh.u32 q0, [r0], #8
	; CHECK-NEXT: vldrh.u32 q1, [r1], #8			; CHECK-NEXT: vldrh.u32 q1, [r1], #8
	; CHECK-NEXT: vmul.i32 q0, q1, q0			; CHECK-NEXT: vmul.i32 q0, q1, q0
	; CHECK-NEXT: sub.w r12, r12, #4
	; CHECK-NEXT: vadd.i32 q0, q0, r2			; CHECK-NEXT: vadd.i32 q0, q0, r2
	; CHECK-NEXT: vstrw.32 q0, [r3], #16			; CHECK-NEXT: vstrw.32 q0, [r3], #16
	; CHECK-NEXT: letp lr, .LBB8_1			; CHECK-NEXT: letp lr, .LBB8_1
	; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup			; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup
	; CHECK-NEXT: pop {r4, pc}			; CHECK-NEXT: pop {r4, pc}
	entry:			entry:
	%cmp10 = icmp eq i32 %N, 0			%cmp10 = icmp eq i32 %N, 0
	br i1 %cmp10, label %for.cond.cleanup, label %vector.ph			br i1 %cmp10, label %for.cond.cleanup, label %vector.ph
	▲ Show 20 Lines • Show All 72 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: b .LBB9_8			; CHECK-NEXT: b .LBB9_8
	; CHECK-NEXT: .LBB9_4: @ %vector.ph			; CHECK-NEXT: .LBB9_4: @ %vector.ph
	; CHECK-NEXT: dlstp.32 lr, r12			; CHECK-NEXT: dlstp.32 lr, r12
	; CHECK-NEXT: .LBB9_5: @ %vector.body			; CHECK-NEXT: .LBB9_5: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrw.u32 q0, [r0], #16			; CHECK-NEXT: vldrw.u32 q0, [r0], #16
	; CHECK-NEXT: vldrw.u32 q1, [r1], #16			; CHECK-NEXT: vldrw.u32 q1, [r1], #16
	; CHECK-NEXT: vmul.i32 q0, q1, q0			; CHECK-NEXT: vmul.i32 q0, q1, q0
	; CHECK-NEXT: sub.w r12, r12, #4
	; CHECK-NEXT: vadd.i32 q0, q0, r2			; CHECK-NEXT: vadd.i32 q0, q0, r2
	; CHECK-NEXT: vstrw.32 q0, [r3], #16			; CHECK-NEXT: vstrw.32 q0, [r3], #16
	; CHECK-NEXT: letp lr, .LBB9_5			; CHECK-NEXT: letp lr, .LBB9_5
	; CHECK-NEXT: b .LBB9_11			; CHECK-NEXT: b .LBB9_11
	; CHECK-NEXT: .LBB9_6: @ %for.body.preheader.new			; CHECK-NEXT: .LBB9_6: @ %for.body.preheader.new
	; CHECK-NEXT: bic r7, r12, #3			; CHECK-NEXT: bic r7, r12, #3
	; CHECK-NEXT: movs r4, #0			; CHECK-NEXT: movs r4, #0
	; CHECK-NEXT: subs r7, #4			; CHECK-NEXT: subs r7, #4
	▲ Show 20 Lines • Show All 240 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/LowOverheadLoops/remove-elem-moves.mir

This file was added.

				# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
				# RUN: llc -mtriple=thumbv8.1m.main -mattr=+mve.fp -run-pass=arm-low-overhead-loops --verify-machineinstrs %s -o - \| FileCheck %s

				--- \|
				define dso_local arm_aapcs_vfpcc void @remove_mov_lr_chain(float* nocapture readonly %pSrc, float* nocapture %pDst, i32 %blockSize) #0 {
				entry:
				%cmp5 = icmp eq i32 %blockSize, 0
				br i1 %cmp5, label %while.end, label %while.body.preheader

				while.body.preheader: ; preds = %entry
				%min.iters.check = icmp ult i32 %blockSize, 4
				br i1 %min.iters.check, label %while.body.preheader19, label %vector.memcheck

				vector.memcheck: ; preds = %while.body.preheader
				%scevgep = getelementptr float, float* %pDst, i32 %blockSize
				%scevgep12 = getelementptr float, float* %pSrc, i32 %blockSize
				%bound0 = icmp ugt float* %scevgep12, %pDst
				%bound1 = icmp ugt float* %scevgep, %pSrc
				%found.conflict = and i1 %bound0, %bound1
				%0 = lshr i32 %blockSize, 2
				%1 = shl nuw i32 %0, 2
				%2 = add i32 %1, -4
				%3 = lshr i32 %2, 2
				%4 = add nuw nsw i32 %3, 1
				br i1 %found.conflict, label %while.body.preheader19, label %vector.ph

				vector.ph: ; preds = %vector.memcheck
				%n.vec = and i32 %blockSize, -4
				%ind.end = sub i32 %blockSize, %n.vec
				%ind.end15 = getelementptr float, float* %pSrc, i32 %n.vec
				%ind.end17 = getelementptr float, float* %pDst, i32 %n.vec
				%scevgep9 = getelementptr float, float* %pDst, i32 -4
				%scevgep14 = getelementptr float, float* %pSrc, i32 -4
				call void @llvm.set.loop.iterations.i32(i32 %4)
				br label %vector.body

				vector.body: ; preds = %vector.body, %vector.ph
				%lsr.iv15 = phi float* [ %scevgep16, %vector.body ], [ %scevgep14, %vector.ph ]
				%lsr.iv10 = phi float* [ %scevgep11, %vector.body ], [ %scevgep9, %vector.ph ]
				%5 = phi i32 [ %4, %vector.ph ], [ %7, %vector.body ]
				%lsr.iv1517 = bitcast float* %lsr.iv15 to <4 x float>*
				%lsr.iv1012 = bitcast float* %lsr.iv10 to <4 x float>*
				%scevgep18 = getelementptr <4 x float>, <4 x float>* %lsr.iv1517, i32 1
				%wide.load = load <4 x float>, <4 x float>* %scevgep18, align 4
				%6 = call fast <4 x float> @llvm.fabs.v4f32(<4 x float> %wide.load)
				%scevgep13 = getelementptr <4 x float>, <4 x float>* %lsr.iv1012, i32 1
				store <4 x float> %6, <4 x float>* %scevgep13, align 4
				%scevgep11 = getelementptr float, float* %lsr.iv10, i32 4
				%scevgep16 = getelementptr float, float* %lsr.iv15, i32 4
				%7 = call i32 @llvm.loop.decrement.reg.i32.i32.i32(i32 %5, i32 1)
				%8 = icmp ne i32 %7, 0
				br i1 %8, label %vector.body, label %middle.block

				middle.block: ; preds = %vector.body
				%cmp.n = icmp eq i32 %n.vec, %blockSize
				br i1 %cmp.n, label %while.end, label %while.body.preheader19

				while.body.preheader19: ; preds = %middle.block, %vector.memcheck, %while.body.preheader
				%blkCnt.08.ph = phi i32 [ %blockSize, %vector.memcheck ], [ %blockSize, %while.body.preheader ], [ %ind.end, %middle.block ]
				%pSrc.addr.07.ph = phi float* [ %pSrc, %vector.memcheck ], [ %pSrc, %while.body.preheader ], [ %ind.end15, %middle.block ]
				%pDst.addr.06.ph = phi float* [ %pDst, %vector.memcheck ], [ %pDst, %while.body.preheader ], [ %ind.end17, %middle.block ]
				%scevgep1 = getelementptr float, float* %pSrc.addr.07.ph, i32 -1
				%scevgep4 = getelementptr float, float* %pDst.addr.06.ph, i32 -1
				call void @llvm.set.loop.iterations.i32(i32 %blkCnt.08.ph)
				br label %while.body

				while.body: ; preds = %while.body, %while.body.preheader19
				%lsr.iv5 = phi float* [ %scevgep6, %while.body ], [ %scevgep4, %while.body.preheader19 ]
				%lsr.iv = phi float* [ %scevgep2, %while.body ], [ %scevgep1, %while.body.preheader19 ]
				%9 = phi i32 [ %blkCnt.08.ph, %while.body.preheader19 ], [ %12, %while.body ]
				%scevgep3 = getelementptr float, float* %lsr.iv, i32 1
				%scevgep7 = getelementptr float, float* %lsr.iv5, i32 1
				%10 = load float, float* %scevgep3, align 4
				%11 = tail call fast float @llvm.fabs.f32(float %10)
				store float %11, float* %scevgep7, align 4
				%scevgep2 = getelementptr float, float* %lsr.iv, i32 1
				%scevgep6 = getelementptr float, float* %lsr.iv5, i32 1
				%12 = call i32 @llvm.loop.decrement.reg.i32.i32.i32(i32 %9, i32 1)
				%13 = icmp ne i32 %12, 0
				br i1 %13, label %while.body, label %while.end

				while.end: ; preds = %while.body, %middle.block, %entry
				ret void
				}
				declare float @llvm.fabs.f32(float)
				declare <4 x float> @llvm.fabs.v4f32(<4 x float>)
				declare void @llvm.set.loop.iterations.i32(i32)
				declare i32 @llvm.loop.decrement.reg.i32.i32.i32(i32, i32)

				...
				---
				name: remove_mov_lr_chain
				alignment: 2
				exposesReturnsTwice: false
				legalized: false
				regBankSelected: false
				selected: false
				failedISel: false
				tracksRegLiveness: true
				hasWinCFI: false
				registers: []
				liveins:
				- { reg: '$r0', virtual-reg: '' }
				- { reg: '$r1', virtual-reg: '' }
				- { reg: '$r2', virtual-reg: '' }
				frameInfo:
				isFrameAddressTaken: false
				isReturnAddressTaken: false
				hasStackMap: false
				hasPatchPoint: false
				stackSize: 16
				offsetAdjustment: 0
				maxAlignment: 4
				adjustsStack: false
				hasCalls: false
				stackProtector: ''
				maxCallFrameSize: 0
				cvBytesOfCalleeSavedRegisters: 0
				hasOpaqueSPAdjustment: false
				hasVAStart: false
				hasMustTailInVarArgFunc: false
				localFrameSize: 0
				savePoint: ''
				restorePoint: ''
				fixedStack: []
				stack:
				- { id: 0, name: '', type: spill-slot, offset: -4, size: 4, alignment: 4,
				stack-id: default, callee-saved-register: '$lr', callee-saved-restored: false,
				debug-info-variable: '', debug-info-expression: '', debug-info-location: '' }
				- { id: 1, name: '', type: spill-slot, offset: -8, size: 4, alignment: 4,
				stack-id: default, callee-saved-register: '$r7', callee-saved-restored: true,
				debug-info-variable: '', debug-info-expression: '', debug-info-location: '' }
				- { id: 2, name: '', type: spill-slot, offset: -12, size: 4, alignment: 4,
				stack-id: default, callee-saved-register: '$r5', callee-saved-restored: true,
				debug-info-variable: '', debug-info-expression: '', debug-info-location: '' }
				- { id: 3, name: '', type: spill-slot, offset: -16, size: 4, alignment: 4,
				stack-id: default, callee-saved-register: '$r4', callee-saved-restored: true,
				debug-info-variable: '', debug-info-expression: '', debug-info-location: '' }
				callSites: []
				constants: []
				machineFunctionInfo: {}
				body: \|
				; CHECK-LABEL: name: remove_mov_lr_chain
				; CHECK: bb.0.entry:
				; CHECK: successors: %bb.9(0x30000000), %bb.1(0x50000000)
				; CHECK: liveins: $lr, $r0, $r1, $r2, $r4, $r5, $r7
				; CHECK: frame-setup tPUSH 14, $noreg, killed $r4, killed $r5, killed $r7, killed $lr, implicit-def $sp, implicit $sp
				; CHECK: frame-setup CFI_INSTRUCTION def_cfa_offset 16
				; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4
				; CHECK: frame-setup CFI_INSTRUCTION offset $r7, -8
				; CHECK: frame-setup CFI_INSTRUCTION offset $r5, -12
				; CHECK: frame-setup CFI_INSTRUCTION offset $r4, -16
				; CHECK: tCMPi8 renamable $r2, 0, 14, $noreg, implicit-def $cpsr
				; CHECK: tBcc %bb.9, 0, killed $cpsr
				; CHECK: bb.1.while.body.preheader:
				; CHECK: successors: %bb.6(0x40000000), %bb.2(0x40000000)
				; CHECK: liveins: $r0, $r1, $r2
				; CHECK: tCMPi8 renamable $r2, 4, 14, $noreg, implicit-def $cpsr
				; CHECK: tBcc %bb.6, 3, killed $cpsr
				; CHECK: bb.2.vector.memcheck:
				; CHECK: successors: %bb.3(0x40000000), %bb.6(0x40000000)
				; CHECK: liveins: $r0, $r1, $r2
				; CHECK: renamable $r3 = t2ADDrs renamable $r0, renamable $r2, 18, 14, $noreg, $noreg
				; CHECK: tCMPr killed renamable $r3, renamable $r1, 14, $noreg, implicit-def $cpsr
				; CHECK: t2IT 8, 4, implicit-def $itstate
				; CHECK: renamable $r3 = t2ADDrs renamable $r1, renamable $r2, 18, 8, $cpsr, $noreg, implicit $itstate
				; CHECK: tCMPr killed renamable $r3, renamable $r0, 8, killed $cpsr, implicit-def $cpsr, implicit killed $itstate
				; CHECK: tBcc %bb.6, 8, killed $cpsr
				; CHECK: bb.3.vector.ph:
				; CHECK: successors: %bb.4(0x80000000)
				; CHECK: liveins: $r0, $r1, $r2
				; CHECK: renamable $r4 = t2BICri renamable $r2, 3, 14, $noreg, $noreg
				; CHECK: renamable $r3, dead $cpsr = tMOVi8 1, 14, $noreg
				; CHECK: renamable $r12 = t2SUBri renamable $r4, 4, 14, $noreg, $noreg
				; CHECK: renamable $r7, dead $cpsr = tSUBrr renamable $r2, renamable $r4, 14, $noreg
				; CHECK: renamable $r3 = nuw nsw t2ADDrs killed renamable $r3, killed renamable $r12, 19, 14, $noreg, $noreg
				; CHECK: renamable $r12 = t2ADDrs renamable $r0, renamable $r4, 18, 14, $noreg, $noreg
				; CHECK: $lr = t2DLS renamable $r3
				; CHECK: renamable $r0, dead $cpsr = tSUBi8 killed renamable $r0, 16, 14, $noreg
				; CHECK: dead $r5 = tMOVr killed $r3, 14, $noreg
				; CHECK: renamable $r3 = t2ADDrs renamable $r1, renamable $r4, 18, 14, $noreg, $noreg
				; CHECK: renamable $r1, dead $cpsr = tSUBi8 killed renamable $r1, 16, 14, $noreg
				; CHECK: bb.4.vector.body:
				; CHECK: successors: %bb.4(0x7c000000), %bb.5(0x04000000)
				; CHECK: liveins: $lr, $r0, $r1, $r2, $r3, $r4, $r7, $r12
				; CHECK: renamable $r0, renamable $q0 = MVE_VLDRWU32_pre killed renamable $r0, 16, 0, $noreg :: (load 16 from %ir.scevgep18, align 4)
				; CHECK: renamable $q0 = nnan ninf nsz arcp contract afn reassoc MVE_VABSf32 killed renamable $q0, 0, $noreg, undef renamable $q0
				; CHECK: renamable $r1 = MVE_VSTRBU8_pre killed renamable $q0, killed renamable $r1, 16, 0, $noreg :: (store 16 into %ir.scevgep13, align 4)
				; CHECK: $lr = t2LEUpdate killed renamable $lr, %bb.4
				; CHECK: bb.5.middle.block:
				; CHECK: successors: %bb.7(0x80000000)
				; CHECK: liveins: $r2, $r3, $r4, $r7, $r12
				; CHECK: tCMPr killed renamable $r4, killed renamable $r2, 14, $noreg, implicit-def $cpsr
				; CHECK: $lr = tMOVr killed $r7, 14, $noreg
				; CHECK: t2IT 0, 8, implicit-def $itstate
				; CHECK: tPOP_RET 0, killed $cpsr, def $r4, def $r5, def $r7, def $pc, implicit killed $itstate
				; CHECK: tB %bb.7, 14, $noreg
				; CHECK: bb.6:
				; CHECK: successors: %bb.7(0x80000000)
				; CHECK: liveins: $r0, $r1, $r2
				; CHECK: $lr = tMOVr killed $r2, 14, $noreg
				; CHECK: $r12 = tMOVr killed $r0, 14, $noreg
				; CHECK: $r3 = tMOVr killed $r1, 14, $noreg
				; CHECK: bb.7.while.body.preheader19:
				; CHECK: successors: %bb.8(0x80000000)
				; CHECK: liveins: $lr, $r3, $r12
				; CHECK: renamable $r0, dead $cpsr = tSUBi3 killed renamable $r3, 4, 14, $noreg
				; CHECK: renamable $r1 = t2SUBri killed renamable $r12, 4, 14, $noreg, $noreg
				; CHECK: $lr = t2DLS killed renamable $lr
				; CHECK: bb.8.while.body:
				; CHECK: successors: %bb.8(0x7c000000), %bb.9(0x04000000)
				; CHECK: liveins: $lr, $r0, $r1
				; CHECK: renamable $s0 = VLDRS renamable $r1, 1, 14, $noreg :: (load 4 from %ir.scevgep3)
				; CHECK: renamable $r1, dead $cpsr = tADDi8 killed renamable $r1, 4, 14, $noreg
				; CHECK: renamable $s0 = nnan ninf nsz arcp contract afn reassoc VABSS killed renamable $s0, 14, $noreg
				; CHECK: VSTRS killed renamable $s0, renamable $r0, 1, 14, $noreg :: (store 4 into %ir.scevgep7)
				; CHECK: renamable $r0, dead $cpsr = tADDi8 killed renamable $r0, 4, 14, $noreg
				; CHECK: $lr = t2LEUpdate killed renamable $lr, %bb.8
				; CHECK: bb.9.while.end:
				; CHECK: tPOP_RET 14, $noreg, def $r4, def $r5, def $r7, def $pc
				bb.0.entry:
				successors: %bb.9(0x30000000), %bb.1(0x50000000)
				liveins: $r0, $r1, $r2, $r4, $r5, $r7, $lr

				frame-setup tPUSH 14, $noreg, killed $r4, killed $r5, killed $r7, killed $lr, implicit-def $sp, implicit $sp
				frame-setup CFI_INSTRUCTION def_cfa_offset 16
				frame-setup CFI_INSTRUCTION offset $lr, -4
				frame-setup CFI_INSTRUCTION offset $r7, -8
				frame-setup CFI_INSTRUCTION offset $r5, -12
				frame-setup CFI_INSTRUCTION offset $r4, -16
				tCMPi8 renamable $r2, 0, 14, $noreg, implicit-def $cpsr
				tBcc %bb.9, 0, killed $cpsr

				bb.1.while.body.preheader:
				successors: %bb.6(0x40000000), %bb.2(0x40000000)
				liveins: $r0, $r1, $r2

				tCMPi8 renamable $r2, 4, 14, $noreg, implicit-def $cpsr
				tBcc %bb.6, 3, killed $cpsr

				bb.2.vector.memcheck:
				successors: %bb.3(0x40000000), %bb.6(0x40000000)
				liveins: $r0, $r1, $r2

				renamable $r3 = t2ADDrs renamable $r0, renamable $r2, 18, 14, $noreg, $noreg
				tCMPr killed renamable $r3, renamable $r1, 14, $noreg, implicit-def $cpsr
				t2IT 8, 4, implicit-def $itstate
				renamable $r3 = t2ADDrs renamable $r1, renamable $r2, 18, 8, $cpsr, $noreg, implicit $itstate
				tCMPr killed renamable $r3, renamable $r0, 8, killed $cpsr, implicit-def $cpsr, implicit killed $itstate
				tBcc %bb.6, 8, killed $cpsr

				bb.3.vector.ph:
				successors: %bb.4(0x80000000)
				liveins: $r0, $r1, $r2

				renamable $r4 = t2BICri renamable $r2, 3, 14, $noreg, $noreg
				renamable $r3, dead $cpsr = tMOVi8 1, 14, $noreg
				renamable $r12 = t2SUBri renamable $r4, 4, 14, $noreg, $noreg
				renamable $r7, dead $cpsr = tSUBrr renamable $r2, renamable $r4, 14, $noreg
				renamable $r3 = nuw nsw t2ADDrs killed renamable $r3, killed renamable $r12, 19, 14, $noreg, $noreg
				renamable $r12 = t2ADDrs renamable $r0, renamable $r4, 18, 14, $noreg, $noreg
				t2DoLoopStart renamable $r3
				renamable $r0, dead $cpsr = tSUBi8 killed renamable $r0, 16, 14, $noreg
				$r5 = tMOVr killed $r3, 14, $noreg
				renamable $r3 = t2ADDrs renamable $r1, renamable $r4, 18, 14, $noreg, $noreg
				renamable $r1, dead $cpsr = tSUBi8 killed renamable $r1, 16, 14, $noreg

				bb.4.vector.body:
				successors: %bb.4(0x7c000000), %bb.5(0x04000000)
				liveins: $r0, $r1, $r2, $r3, $r4, $r5, $r7, $r12

				renamable $r0, renamable $q0 = MVE_VLDRWU32_pre killed renamable $r0, 16, 0, $noreg :: (load 16 from %ir.scevgep18, align 4)
				$lr = tMOVr killed $r5, 14, $noreg
				renamable $q0 = nnan ninf nsz arcp contract afn reassoc MVE_VABSf32 killed renamable $q0, 0, $noreg, undef renamable $q0
				renamable $r1 = MVE_VSTRBU8_pre killed renamable $q0, killed renamable $r1, 16, 0, $noreg :: (store 16 into %ir.scevgep13, align 4)
				renamable $lr = t2LoopDec killed renamable $lr, 1
				$r5 = tMOVr $lr, 14, $noreg
				t2LoopEnd killed renamable $lr, %bb.4, implicit-def dead $cpsr
				tB %bb.5, 14, $noreg

				bb.5.middle.block:
				successors: %bb.7(0x80000000)
				liveins: $r2, $r3, $r4, $r7, $r12

				tCMPr killed renamable $r4, killed renamable $r2, 14, $noreg, implicit-def $cpsr
				$lr = tMOVr killed $r7, 14, $noreg
				t2IT 0, 8, implicit-def $itstate
				tPOP_RET 0, killed $cpsr, def $r4, def $r5, def $r7, def $pc, implicit killed $itstate
				tB %bb.7, 14, $noreg

				bb.6:
				successors: %bb.7(0x80000000)
				liveins: $r0, $r1, $r2

				$lr = tMOVr killed $r2, 14, $noreg
				$r12 = tMOVr killed $r0, 14, $noreg
				$r3 = tMOVr killed $r1, 14, $noreg

				bb.7.while.body.preheader19:
				successors: %bb.8(0x80000000)
				liveins: $lr, $r3, $r12

				renamable $r0, dead $cpsr = tSUBi3 killed renamable $r3, 4, 14, $noreg
				renamable $r1 = t2SUBri killed renamable $r12, 4, 14, $noreg, $noreg
				t2DoLoopStart renamable $lr

				bb.8.while.body:
				successors: %bb.8(0x7c000000), %bb.9(0x04000000)
				liveins: $lr, $r0, $r1

				renamable $s0 = VLDRS renamable $r1, 1, 14, $noreg :: (load 4 from %ir.scevgep3)
				renamable $r1, dead $cpsr = tADDi8 killed renamable $r1, 4, 14, $noreg
				renamable $s0 = nnan ninf nsz arcp contract afn reassoc VABSS killed renamable $s0, 14, $noreg
				VSTRS killed renamable $s0, renamable $r0, 1, 14, $noreg :: (store 4 into %ir.scevgep7)
				renamable $r0, dead $cpsr = tADDi8 killed renamable $r0, 4, 14, $noreg
				renamable $lr = t2LoopDec killed renamable $lr, 1
				t2LoopEnd renamable $lr, %bb.8, implicit-def dead $cpsr
				tB %bb.9, 14, $noreg

				bb.9.while.end:
				tPOP_RET 14, $noreg, def $r4, def $r5, def $r7, def $pc

				...

llvm/test/CodeGen/Thumb2/LowOverheadLoops/unsafe-use-after.mir

		# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
# RUN: llc -mtriple=thumbv8.1m.main -run-pass=arm-low-overhead-loops %s -verify-machineinstrs -o - \| FileCheck %s		# RUN: llc -mtriple=thumbv8.1m.main -run-pass=arm-low-overhead-loops %s -verify-machineinstrs -o - \| FileCheck %s
# CHECK-NOT: $lr = t2DLS
# CHECK: $lr = tMOVr $r0, 14
# CHECK-NOT: $lr = t2LEUpdate

--- \|		--- \|
target datalayout = "e-m:e-p:32:32-Fi8-i64:64-v128:64:128-a:0:32-n32-S64"		target datalayout = "e-m:e-p:32:32-Fi8-i64:64-v128:64:128-a:0:32-n32-S64"
target triple = "thumbv8.1m.main"		target triple = "thumbv8.1m.main"

define i32 @do_copy(i32 %n, i32* nocapture %p, i32* nocapture readonly %q) {		define i32 @do_copy(i32 %n, i32* nocapture %p, i32* nocapture readonly %q) {
entry:		entry:
%scevgep = getelementptr i32, i32* %q, i32 -1		%scevgep = getelementptr i32, i32* %q, i32 -1
%scevgep3 = getelementptr i32, i32* %p, i32 -1		%scevgep3 = getelementptr i32, i32* %p, i32 -1
call void @llvm.set.loop.iterations.i32(i32 %n)		call void @llvm.set.loop.iterations.i32(i32 %n)
br label %preheader		br label %preheader

preheader:		preheader:
br label %while.body		br label %while.body

while.body: ; preds = %while.body, %entry		while.body: ; preds = %while.body, %entry
%lsr.iv4 = phi i32* [ %scevgep5, %while.body ], [ %scevgep3, %preheader ]		%lsr.iv4 = phi i32* [ %scevgep5, %while.body ], [ %scevgep3, %preheader ]
%lsr.iv = phi i32* [ %scevgep1, %while.body ], [ %scevgep, %preheader ]		%lsr.iv = phi i32* [ %scevgep1, %while.body ], [ %scevgep, %preheader ]
%0 = phi i32 [ %n, %preheader ], [ %2, %while.body ]		%0 = phi i32 [ %n, %preheader ], [ %2, %while.body ]
%scevgep6 = getelementptr i32, i32* %lsr.iv, i32 1		%scevgep6 = getelementptr i32, i32* %lsr.iv, i32 1
%scevgep2 = getelementptr i32, i32* %lsr.iv4, i32 1		%scevgep2 = getelementptr i32, i32* %lsr.iv4, i32 1
%1 = load i32, i32* %scevgep6, align 4		%1 = load i32, i32* %scevgep6, align 4
store i32 %1, i32* %scevgep2, align 4		store i32 %1, i32* %scevgep2, align 4
%scevgep1 = getelementptr i32, i32* %lsr.iv, i32 1		%scevgep1 = getelementptr i32, i32* %lsr.iv, i32 1
%scevgep5 = getelementptr i32, i32* %lsr.iv4, i32 1		%scevgep5 = getelementptr i32, i32* %lsr.iv4, i32 1
%2 = call i32 @llvm.loop.decrement.reg.i32.i32.i32(i32 %0, i32 1)		%2 = call i32 @llvm.loop.decrement.reg.i32.i32.i32(i32 %0, i32 1)
%3 = icmp ne i32 %2, 0		%3 = icmp ne i32 %2, 0
br i1 %3, label %while.body, label %while.end		br i1 %3, label %while.body, label %while.end

while.end: ; preds = %while.body		while.end: ; preds = %while.body
ret i32 0		ret i32 0
}		}

declare void @llvm.set.loop.iterations.i32(i32) #0		declare void @llvm.set.loop.iterations.i32(i32) #0
declare i32 @llvm.loop.decrement.reg.i32.i32.i32(i32, i32) #0		declare i32 @llvm.loop.decrement.reg.i32.i32.i32(i32, i32) #0

attributes #0 = { noduplicate nounwind }		attributes #0 = { noduplicate nounwind }
attributes #1 = { nounwind }		attributes #1 = { nounwind }

...		...
---		---
name: do_copy		name: do_copy
alignment: 2		alignment: 2
exposesReturnsTwice: false		exposesReturnsTwice: false
Show All 24 Lines	frameInfo:
hasOpaqueSPAdjustment: false		hasOpaqueSPAdjustment: false
hasVAStart: false		hasVAStart: false
hasMustTailInVarArgFunc: false		hasMustTailInVarArgFunc: false
localFrameSize: 0		localFrameSize: 0
savePoint: ''		savePoint: ''
restorePoint: ''		restorePoint: ''
fixedStack: []		fixedStack: []
stack:		stack:
- { id: 0, name: '', type: spill-slot, offset: -4, size: 4, alignment: 4,		- { id: 0, name: '', type: spill-slot, offset: -4, size: 4, alignment: 4,
stack-id: default, callee-saved-register: '$lr', callee-saved-restored: false,		stack-id: default, callee-saved-register: '$lr', callee-saved-restored: false,
debug-info-variable: '', debug-info-expression: '', debug-info-location: '' }		debug-info-variable: '', debug-info-expression: '', debug-info-location: '' }
- { id: 1, name: '', type: spill-slot, offset: -8, size: 4, alignment: 4,		- { id: 1, name: '', type: spill-slot, offset: -8, size: 4, alignment: 4,
stack-id: default, callee-saved-register: '$r7', callee-saved-restored: true,		stack-id: default, callee-saved-register: '$r7', callee-saved-restored: true,
debug-info-variable: '', debug-info-expression: '', debug-info-location: '' }		debug-info-variable: '', debug-info-expression: '', debug-info-location: '' }
callSites: []		callSites: []
constants: []		constants: []
machineFunctionInfo: {}		machineFunctionInfo: {}
body: \|		body: \|
		; CHECK-LABEL: name: do_copy
		; CHECK: bb.0.entry:
		; CHECK: successors: %bb.1(0x80000000)
		; CHECK: liveins: $lr, $r2, $r7
		; CHECK: frame-setup tPUSH 14, $noreg, killed $r7, implicit-def $sp, implicit $sp
		; CHECK: frame-setup CFI_INSTRUCTION def_cfa_offset 8
		; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4
		; CHECK: frame-setup CFI_INSTRUCTION offset $r7, -8
		; CHECK: renamable $r0 = t2SUBri killed renamable $lr, 4, 14, $noreg, def dead $cpsr
		; CHECK: renamable $r1, dead $cpsr = tSUBi3 killed renamable $r2, 4, 14, $noreg
		; CHECK: bb.1.preheader:
		; CHECK: successors: %bb.2(0x80000000)
		; CHECK: liveins: $r0, $r1
		; CHECK: $lr = tMOVr $r0, 14, $noreg
		; CHECK: bb.2.while.body:
		; CHECK: successors: %bb.2(0x7c000000), %bb.3(0x04000000)
		; CHECK: liveins: $lr, $r0, $r1
		; CHECK: renamable $r2, renamable $r1 = t2LDR_PRE killed renamable $r1, 4, 14, $noreg :: (load 4 from %ir.scevgep6)
		; CHECK: early-clobber renamable $r0 = t2STR_PRE killed renamable $r2, killed renamable $r0, 4, 14, $noreg :: (store 4 into %ir.scevgep2)
		; CHECK: $lr = t2SUBri killed renamable $lr, 1, 14, $noreg, def $cpsr
		; CHECK: tBcc %bb.2, 1, killed $cpsr
		; CHECK: tB %bb.3, 14, $noreg
		; CHECK: bb.3.while.end:
		; CHECK: $r0, dead $cpsr = tMOVi8 0, 14, $noreg
		; CHECK: tPOP_RET 14, $noreg, def $r7, def $pc, implicit killed $r0
bb.0.entry:		bb.0.entry:
successors: %bb.1(0x80000000)		successors: %bb.1(0x80000000)
liveins: $r0, $r1, $r2, $r7, $lr		liveins: $r0, $r1, $r2, $r7, $lr

frame-setup tPUSH 14, $noreg, killed $r7, implicit-def $sp, implicit $sp		frame-setup tPUSH 14, $noreg, killed $r7, implicit-def $sp, implicit $sp
frame-setup CFI_INSTRUCTION def_cfa_offset 8		frame-setup CFI_INSTRUCTION def_cfa_offset 8
frame-setup CFI_INSTRUCTION offset $lr, -4		frame-setup CFI_INSTRUCTION offset $lr, -4
frame-setup CFI_INSTRUCTION offset $r7, -8		frame-setup CFI_INSTRUCTION offset $r7, -8
t2DoLoopStart $r0		t2DoLoopStart $r0
renamable $r0 = t2SUBri killed renamable $lr, 4, 14, $noreg, def $cpsr		renamable $r0 = t2SUBri killed renamable $lr, 4, 14, $noreg, def $cpsr
renamable $r1, dead $cpsr = tSUBi3 killed renamable $r2, 4, 14, $noreg		renamable $r1, dead $cpsr = tSUBi3 killed renamable $r2, 4, 14, $noreg

bb.1.preheader:		bb.1.preheader:
successors: %bb.2(0x80000000)		successors: %bb.2(0x80000000)
liveins: $r0		liveins: $r0
$lr = tMOVr $r0, 14, $noreg		$lr = tMOVr $r0, 14, $noreg

bb.2.while.body:		bb.2.while.body:
successors: %bb.2(0x7c000000), %bb.3(0x04000000)		successors: %bb.2(0x7c000000), %bb.3(0x04000000)
liveins: $lr, $r0, $r1		liveins: $lr, $r0, $r1

renamable $r2, renamable $r1 = t2LDR_PRE killed renamable $r1, 4, 14, $noreg :: (load 4 from %ir.scevgep6)		renamable $r2, renamable $r1 = t2LDR_PRE killed renamable $r1, 4, 14, $noreg :: (load 4 from %ir.scevgep6)
early-clobber renamable $r0 = t2STR_PRE killed renamable $r2, killed renamable $r0, 4, 14, $noreg :: (store 4 into %ir.scevgep2)		early-clobber renamable $r0 = t2STR_PRE killed renamable $r2, killed renamable $r0, 4, 14, $noreg :: (store 4 into %ir.scevgep2)
renamable $lr = t2LoopDec killed renamable $lr, 1		renamable $lr = t2LoopDec killed renamable $lr, 1
t2LoopEnd renamable $lr, %bb.2, implicit-def dead $cpsr		t2LoopEnd renamable $lr, %bb.2, implicit-def dead $cpsr
tB %bb.3, 14, $noreg		tB %bb.3, 14, $noreg

bb.3.while.end:		bb.3.while.end:
$r0, dead $cpsr = tMOVi8 0, 14, $noreg		$r0, dead $cpsr = tMOVi8 0, 14, $noreg
tPOP_RET 14, $noreg, def $r7, def $pc, implicit killed $r0		tPOP_RET 14, $noreg, def $r7, def $pc, implicit killed $r0

...		...

llvm/test/CodeGen/Thumb2/LowOverheadLoops/vctp-in-vpt-2.mir

Show All 24 Lines	bb9: ; preds = %bb9, %bb3
%lsr.iv = phi i32* [ %scevgep, %bb9 ], [ %arg, %bb3 ]		%lsr.iv = phi i32* [ %scevgep, %bb9 ], [ %arg, %bb3 ]
%tmp7 = phi i32 [ %tmp6, %bb3 ], [ %tmp12, %bb9 ]		%tmp7 = phi i32 [ %tmp6, %bb3 ], [ %tmp12, %bb9 ]
%tmp8 = phi i32 [ %arg2, %bb3 ], [ %tmp11, %bb9 ]		%tmp8 = phi i32 [ %arg2, %bb3 ], [ %tmp11, %bb9 ]
%lsr.iv24 = bitcast i32* %lsr.iv2 to <4 x i32>*		%lsr.iv24 = bitcast i32* %lsr.iv2 to <4 x i32>*
%lsr.iv1 = bitcast i32* %lsr.iv to <4 x i32>*		%lsr.iv1 = bitcast i32* %lsr.iv to <4 x i32>*
%vctp = call <4 x i1> @llvm.arm.mve.vctp32(i32 %tmp8)		%vctp = call <4 x i1> @llvm.arm.mve.vctp32(i32 %tmp8)
%and = and <4 x i1> %vctp, %invariant.mask		%and = and <4 x i1> %vctp, %invariant.mask
%tmp11 = sub i32 %tmp8, 4		%tmp11 = sub i32 %tmp8, 4
%tmp17 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %lsr.iv24, i32 4, <4 x i1> %and, <4 x i32> undef), !tbaa !3		%tmp17 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %lsr.iv24, i32 4, <4 x i1> %and, <4 x i32> undef)
%tmp18 = icmp ne <4 x i32> %tmp17, zeroinitializer		%tmp18 = icmp ne <4 x i32> %tmp17, zeroinitializer
%tmp20 = and <4 x i1> %tmp18, %vctp		%tmp20 = and <4 x i1> %tmp18, %vctp
%tmp22 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %lsr.iv1, i32 4, <4 x i1> %tmp20, <4 x i32> undef), !tbaa !3		%tmp22 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %lsr.iv1, i32 4, <4 x i1> %tmp20, <4 x i32> undef)
%tmp23 = mul nsw <4 x i32> %tmp22, %tmp17		%tmp23 = mul nsw <4 x i32> %tmp22, %tmp17
call void @llvm.masked.store.v4i32.p0v4i32(<4 x i32> %tmp23, <4 x i32>* %lsr.iv1, i32 4, <4 x i1> %tmp20), !tbaa !3		call void @llvm.masked.store.v4i32.p0v4i32(<4 x i32> %tmp23, <4 x i32>* %lsr.iv1, i32 4, <4 x i1> %tmp20)
%tmp12 = call i32 @llvm.loop.decrement.reg.i32.i32.i32(i32 %tmp7, i32 1)		%tmp12 = call i32 @llvm.loop.decrement.reg.i32.i32.i32(i32 %tmp7, i32 1)
%tmp13 = icmp ne i32 %tmp12, 0		%tmp13 = icmp ne i32 %tmp12, 0
%scevgep = getelementptr i32, i32* %lsr.iv, i32 4		%scevgep = getelementptr i32, i32* %lsr.iv, i32 4
%scevgep3 = getelementptr i32, i32* %lsr.iv2, i32 4		%scevgep3 = getelementptr i32, i32* %lsr.iv2, i32 4
br i1 %tmp13, label %bb9, label %bb27, !llvm.loop !7		br i1 %tmp13, label %bb9, label %bb27

bb27: ; preds = %bb9, %bb		bb27: ; preds = %bb9, %bb
ret void		ret void
}		}
; Function Attrs: argmemonly nounwind readonly willreturn		declare <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>*, i32 immarg, <4 x i1>, <4 x i32>)
declare <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>*, i32 immarg, <4 x i1>, <4 x i32>) #1		declare void @llvm.masked.store.v4i32.p0v4i32(<4 x i32>, <4 x i32>*, i32 immarg, <4 x i1>)
; Function Attrs: argmemonly nounwind willreturn		declare void @llvm.set.loop.iterations.i32(i32)
declare void @llvm.masked.store.v4i32.p0v4i32(<4 x i32>, <4 x i32>*, i32 immarg, <4 x i1>) #2		declare i32 @llvm.loop.decrement.reg.i32.i32.i32(i32, i32)
; Function Attrs: noduplicate nounwind		declare <4 x i1> @llvm.arm.mve.vctp32(i32)
declare void @llvm.set.loop.iterations.i32(i32) #3		declare <4 x i1> @llvm.arm.mve.pred.i2v.v4i1(i32)
; Function Attrs: noduplicate nounwind
declare i32 @llvm.loop.decrement.reg.i32.i32.i32(i32, i32) #3
; Function Attrs: nounwind readnone
declare <4 x i1> @llvm.arm.mve.vctp32(i32) #4
; Function Attrs: nounwind readnone
declare <4 x i1> @llvm.arm.mve.pred.i2v.v4i1(i32) #4
; Function Attrs: nounwind
declare void @llvm.stackprotector(i8, i8*) #5

attributes #0 = { nofree norecurse nounwind "correctly-rounded-divide-sqrt-fp-math"="false" "disable-tail-calls"="false" "frame-pointer"="all" "less-precise-fpmad"="false" "min-legal-vector-width"="0" "no-infs-fp-math"="false" "no-jump-tables"="false" "no-nans-fp-math"="false" "no-signed-zeros-fp-math"="false" "no-trapping-math"="false" "stack-protector-buffer-size"="8" "target-cpu"="generic" "target-features"="+mve" "unsafe-fp-math"="false" "use-soft-float"="false" }
attributes #1 = { argmemonly nounwind readonly willreturn "target-features"="+mve" }
attributes #2 = { argmemonly nounwind willreturn "target-features"="+mve" }
attributes #3 = { noduplicate nounwind "target-features"="+mve" }
attributes #4 = { nounwind readnone "target-features"="+mve" }
attributes #5 = { nounwind }

!llvm.module.flags = !{!0, !1}
!llvm.ident = !{!2}

!0 = !{i32 1, !"wchar_size", i32 4}
!1 = !{i32 1, !"min_enum_size", i32 4}
!2 = !{!"clang version 10.0.0 (https://github.com/llvm/llvm-project.git 8f92f97150cbdd3b9f569570b8377db78ed61a9e)"}
!3 = !{!4, !4, i64 0}
!4 = !{!"int", !5, i64 0}
!5 = !{!"omnipotent char", !6, i64 0}
!6 = !{!"Simple C/C++ TBAA"}
!7 = distinct !{!7, !8}
!8 = !{!"llvm.loop.isvectorized", i32 1}

...		...
---		---
name: test		name: test
alignment: 2		alignment: 2
exposesReturnsTwice: false		exposesReturnsTwice: false
legalized: false		legalized: false
regBankSelected: false		regBankSelected: false
Show All 40 Lines
callSites: []		callSites: []
constants: []		constants: []
machineFunctionInfo: {}		machineFunctionInfo: {}
body: \|		body: \|
; CHECK-LABEL: name: test		; CHECK-LABEL: name: test
; CHECK: bb.0.bb:		; CHECK: bb.0.bb:
; CHECK: successors: %bb.3(0x30000000), %bb.1(0x50000000)		; CHECK: successors: %bb.3(0x30000000), %bb.1(0x50000000)
; CHECK: liveins: $lr, $r0, $r1, $r2, $r3		; CHECK: liveins: $lr, $r0, $r1, $r2, $r3
; CHECK: frame-setup tPUSH 14, $noreg, $r7, killed $lr, implicit-def $sp, implicit $sp		; CHECK: frame-setup tPUSH 14, $noreg, killed $lr, implicit-def $sp, implicit $sp
; CHECK: frame-setup CFI_INSTRUCTION def_cfa_offset 8		; CHECK: frame-setup CFI_INSTRUCTION def_cfa_offset 8
; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4		; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4
; CHECK: frame-setup CFI_INSTRUCTION offset $r7, -8		; CHECK: frame-setup CFI_INSTRUCTION offset $r7, -8
; CHECK: $r7 = frame-setup tMOVr $sp, 14, $noreg		; CHECK: $r7 = frame-setup tMOVr $sp, 14, $noreg
; CHECK: frame-setup CFI_INSTRUCTION def_cfa_register $r7		; CHECK: frame-setup CFI_INSTRUCTION def_cfa_register $r7
; CHECK: $sp = frame-setup tSUBspi $sp, 1, 14, $noreg		; CHECK: $sp = frame-setup tSUBspi $sp, 1, 14, $noreg
; CHECK: tCBZ $r2, %bb.3		; CHECK: tCBZ $r2, %bb.3
; CHECK: bb.1.bb3:		; CHECK: bb.1.bb3:
Show All 9 Lines	body: \|
; CHECK: renamable $lr = nuw nsw t2ADDrs killed renamable $lr, killed renamable $r12, 19, 14, $noreg, $noreg		; CHECK: renamable $lr = nuw nsw t2ADDrs killed renamable $lr, killed renamable $r12, 19, 14, $noreg, $noreg
; CHECK: $lr = t2DLS killed renamable $lr		; CHECK: $lr = t2DLS killed renamable $lr
; CHECK: bb.2.bb9:		; CHECK: bb.2.bb9:
; CHECK: successors: %bb.2(0x7c000000), %bb.3(0x04000000)		; CHECK: successors: %bb.2(0x7c000000), %bb.3(0x04000000)
; CHECK: liveins: $lr, $r0, $r1, $r2, $r3		; CHECK: liveins: $lr, $r0, $r1, $r2, $r3
; CHECK: renamable $vpr = VLDR_P0_off $sp, 0, 14, $noreg :: (load 4 from %stack.0)		; CHECK: renamable $vpr = VLDR_P0_off $sp, 0, 14, $noreg :: (load 4 from %stack.0)
; CHECK: MVE_VPST 4, implicit $vpr		; CHECK: MVE_VPST 4, implicit $vpr
; CHECK: renamable $vpr = MVE_VCTP32 renamable $r2, 1, killed renamable $vpr		; CHECK: renamable $vpr = MVE_VCTP32 renamable $r2, 1, killed renamable $vpr
; CHECK: renamable $r1, renamable $q0 = MVE_VLDRWU32_post killed renamable $r1, 16, 1, killed renamable $vpr :: (load 16 from %ir.lsr.iv24, align 4, !tbaa !3)		; CHECK: renamable $r1, renamable $q0 = MVE_VLDRWU32_post killed renamable $r1, 16, 1, killed renamable $vpr :: (load 16 from %ir.lsr.iv24, align 4)
; CHECK: renamable $vpr = MVE_VCTP32 renamable $r2, 0, $noreg		; CHECK: renamable $vpr = MVE_VCTP32 renamable $r2, 0, $noreg
; CHECK: renamable $r2, dead $cpsr = tSUBi8 killed renamable $r2, 4, 14, $noreg		; CHECK: renamable $r2, dead $cpsr = tSUBi8 killed renamable $r2, 4, 14, $noreg
; CHECK: MVE_VPST 4, implicit $vpr		; CHECK: MVE_VPST 4, implicit $vpr
; CHECK: renamable $vpr = MVE_VCMPi32r renamable $q0, $zr, 1, 1, killed renamable $vpr		; CHECK: renamable $vpr = MVE_VCMPi32r renamable $q0, $zr, 1, 1, killed renamable $vpr
; CHECK: renamable $r3, renamable $q1 = MVE_VLDRWU32_post killed renamable $r3, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv1, align 4, !tbaa !3)		; CHECK: renamable $r3, renamable $q1 = MVE_VLDRWU32_post killed renamable $r3, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv1, align 4)
; CHECK: renamable $q0 = nsw MVE_VMULi32 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0		; CHECK: renamable $q0 = nsw MVE_VMULi32 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0
; CHECK: MVE_VPST 8, implicit $vpr		; CHECK: MVE_VPST 8, implicit $vpr
; CHECK: MVE_VSTRWU32 killed renamable $q0, killed renamable $r0, 0, 1, killed renamable $vpr :: (store 16 into %ir.lsr.iv1, align 4, !tbaa !3)		; CHECK: MVE_VSTRWU32 killed renamable $q0, killed renamable $r0, 0, 1, killed renamable $vpr :: (store 16 into %ir.lsr.iv1, align 4)
; CHECK: $r0 = tMOVr $r3, 14, $noreg		; CHECK: $r0 = tMOVr $r3, 14, $noreg
; CHECK: $lr = t2LEUpdate killed renamable $lr, %bb.2		; CHECK: $lr = t2LEUpdate killed renamable $lr, %bb.2
; CHECK: bb.3.bb27:		; CHECK: bb.3.bb27:
; CHECK: $sp = tADDspi $sp, 1, 14, $noreg		; CHECK: $sp = tADDspi $sp, 1, 14, $noreg
; CHECK: tPOP_RET 14, $noreg, def $r7, def $pc		; CHECK: tPOP_RET 14, $noreg, def $r7, def $pc
bb.0.bb:		bb.0.bb:
successors: %bb.3(0x30000000), %bb.1(0x50000000)		successors: %bb.3(0x30000000), %bb.1(0x50000000)
liveins: $r0, $r1, $r2, $r3, $lr		liveins: $r0, $r1, $r2, $r3, $lr

frame-setup tPUSH 14, $noreg, $r7, killed $lr, implicit-def $sp, implicit $sp		frame-setup tPUSH 14, $noreg, killed $lr, implicit-def $sp, implicit $sp
frame-setup CFI_INSTRUCTION def_cfa_offset 8		frame-setup CFI_INSTRUCTION def_cfa_offset 8
frame-setup CFI_INSTRUCTION offset $lr, -4		frame-setup CFI_INSTRUCTION offset $lr, -4
frame-setup CFI_INSTRUCTION offset $r7, -8		frame-setup CFI_INSTRUCTION offset $r7, -8
$r7 = frame-setup tMOVr $sp, 14, $noreg		$r7 = frame-setup tMOVr $sp, 14, $noreg
frame-setup CFI_INSTRUCTION def_cfa_register $r7		frame-setup CFI_INSTRUCTION def_cfa_register $r7
$sp = frame-setup tSUBspi $sp, 1, 14, $noreg		$sp = frame-setup tSUBspi $sp, 1, 14, $noreg
tCBZ $r2, %bb.3		tCBZ $r2, %bb.3

Show All 13 Lines	body: \|

bb.2.bb9:		bb.2.bb9:
successors: %bb.2(0x7c000000), %bb.3(0x04000000)		successors: %bb.2(0x7c000000), %bb.3(0x04000000)
liveins: $lr, $r0, $r1, $r2, $r3		liveins: $lr, $r0, $r1, $r2, $r3

renamable $vpr = VLDR_P0_off $sp, 0, 14, $noreg :: (load 4 from %stack.0)		renamable $vpr = VLDR_P0_off $sp, 0, 14, $noreg :: (load 4 from %stack.0)
MVE_VPST 4, implicit $vpr		MVE_VPST 4, implicit $vpr
renamable $vpr = MVE_VCTP32 renamable $r2, 1, killed renamable $vpr		renamable $vpr = MVE_VCTP32 renamable $r2, 1, killed renamable $vpr
renamable $r1, renamable $q0 = MVE_VLDRWU32_post killed renamable $r1, 16, 1, killed renamable $vpr :: (load 16 from %ir.lsr.iv24, align 4, !tbaa !3)		renamable $r1, renamable $q0 = MVE_VLDRWU32_post killed renamable $r1, 16, 1, killed renamable $vpr :: (load 16 from %ir.lsr.iv24, align 4)
renamable $vpr = MVE_VCTP32 renamable $r2, 0, $noreg		renamable $vpr = MVE_VCTP32 renamable $r2, 0, $noreg
renamable $r2, dead $cpsr = tSUBi8 killed renamable $r2, 4, 14, $noreg		renamable $r2, dead $cpsr = tSUBi8 killed renamable $r2, 4, 14, $noreg
MVE_VPST 4, implicit $vpr		MVE_VPST 4, implicit $vpr
renamable $vpr = MVE_VCMPi32r renamable $q0, $zr, 1, 1, killed renamable $vpr		renamable $vpr = MVE_VCMPi32r renamable $q0, $zr, 1, 1, killed renamable $vpr
renamable $r3, renamable $q1 = MVE_VLDRWU32_post killed renamable $r3, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv1, align 4, !tbaa !3)		renamable $r3, renamable $q1 = MVE_VLDRWU32_post killed renamable $r3, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv1, align 4)
renamable $q0 = nsw MVE_VMULi32 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0		renamable $q0 = nsw MVE_VMULi32 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0
MVE_VPST 8, implicit $vpr		MVE_VPST 8, implicit $vpr
MVE_VSTRWU32 killed renamable $q0, killed renamable $r0, 0, 1, killed renamable $vpr :: (store 16 into %ir.lsr.iv1, align 4, !tbaa !3)		MVE_VSTRWU32 killed renamable $q0, killed renamable $r0, 0, 1, killed renamable $vpr :: (store 16 into %ir.lsr.iv1, align 4)
renamable $lr = t2LoopDec killed renamable $lr, 1		renamable $lr = t2LoopDec killed renamable $lr, 1
$r0 = tMOVr $r3, 14, $noreg		$r0 = tMOVr $r3, 14, $noreg
t2LoopEnd renamable $lr, %bb.2, implicit-def dead $cpsr		t2LoopEnd renamable $lr, %bb.2, implicit-def dead $cpsr
tB %bb.3, 14, $noreg		tB %bb.3, 14, $noreg

bb.3.bb27:		bb.3.bb27:
$sp = tADDspi $sp, 1, 14, $noreg		$sp = tADDspi $sp, 1, 14, $noreg
tPOP_RET 14, $noreg, def $r7, def $pc		tPOP_RET 14, $noreg, def $r7, def $pc

...		...

llvm/test/CodeGen/Thumb2/LowOverheadLoops/vctp-in-vpt.mir

Show All 23 Lines	bb9: ; preds = %bb9, %bb3
%lsr.iv = phi i32* [ %scevgep, %bb9 ], [ %arg, %bb3 ]		%lsr.iv = phi i32* [ %scevgep, %bb9 ], [ %arg, %bb3 ]
%tmp7 = phi i32 [ %tmp6, %bb3 ], [ %tmp12, %bb9 ]		%tmp7 = phi i32 [ %tmp6, %bb3 ], [ %tmp12, %bb9 ]
%tmp8 = phi i32 [ %arg2, %bb3 ], [ %tmp11, %bb9 ]		%tmp8 = phi i32 [ %arg2, %bb3 ], [ %tmp11, %bb9 ]
%lsr.iv24 = bitcast i32* %lsr.iv2 to <4 x i32>*		%lsr.iv24 = bitcast i32* %lsr.iv2 to <4 x i32>*
%lsr.iv1 = bitcast i32* %lsr.iv to <4 x i32>*		%lsr.iv1 = bitcast i32* %lsr.iv to <4 x i32>*
%vctp = call <4 x i1> @llvm.arm.mve.vctp32(i32 %tmp8)		%vctp = call <4 x i1> @llvm.arm.mve.vctp32(i32 %tmp8)
%and = and <4 x i1> %vctp, %invariant.mask		%and = and <4 x i1> %vctp, %invariant.mask
%tmp11 = sub i32 %tmp8, 4		%tmp11 = sub i32 %tmp8, 4
%tmp17 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %lsr.iv24, i32 4, <4 x i1> %and, <4 x i32> undef), !tbaa !3		%tmp17 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %lsr.iv24, i32 4, <4 x i1> %and, <4 x i32> undef)
%tmp22 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %lsr.iv1, i32 4, <4 x i1> %and, <4 x i32> undef), !tbaa !3		%tmp22 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %lsr.iv1, i32 4, <4 x i1> %and, <4 x i32> undef)
%tmp23 = mul nsw <4 x i32> %tmp22, %tmp17		%tmp23 = mul nsw <4 x i32> %tmp22, %tmp17
call void @llvm.masked.store.v4i32.p0v4i32(<4 x i32> %tmp23, <4 x i32>* %lsr.iv1, i32 4, <4 x i1> %and), !tbaa !3		call void @llvm.masked.store.v4i32.p0v4i32(<4 x i32> %tmp23, <4 x i32>* %lsr.iv1, i32 4, <4 x i1> %and)
%tmp12 = call i32 @llvm.loop.decrement.reg.i32.i32.i32(i32 %tmp7, i32 1)		%tmp12 = call i32 @llvm.loop.decrement.reg.i32.i32.i32(i32 %tmp7, i32 1)
%tmp13 = icmp ne i32 %tmp12, 0		%tmp13 = icmp ne i32 %tmp12, 0
%scevgep = getelementptr i32, i32* %lsr.iv, i32 4		%scevgep = getelementptr i32, i32* %lsr.iv, i32 4
%scevgep3 = getelementptr i32, i32* %lsr.iv2, i32 4		%scevgep3 = getelementptr i32, i32* %lsr.iv2, i32 4
br i1 %tmp13, label %bb9, label %bb27, !llvm.loop !7		br i1 %tmp13, label %bb9, label %bb27

bb27: ; preds = %bb9, %bb		bb27: ; preds = %bb9, %bb
ret void		ret void
}		}
; Function Attrs: argmemonly nounwind readonly willreturn
declare <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>*, i32 immarg, <4 x i1>, <4 x i32>) #1		declare <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>*, i32 immarg, <4 x i1>, <4 x i32>) #1
; Function Attrs: argmemonly nounwind willreturn
declare void @llvm.masked.store.v4i32.p0v4i32(<4 x i32>, <4 x i32>*, i32 immarg, <4 x i1>) #2		declare void @llvm.masked.store.v4i32.p0v4i32(<4 x i32>, <4 x i32>*, i32 immarg, <4 x i1>) #2
; Function Attrs: noduplicate nounwind
declare void @llvm.set.loop.iterations.i32(i32) #3		declare void @llvm.set.loop.iterations.i32(i32) #3
; Function Attrs: noduplicate nounwind
declare i32 @llvm.loop.decrement.reg.i32.i32.i32(i32, i32) #3		declare i32 @llvm.loop.decrement.reg.i32.i32.i32(i32, i32) #3
; Function Attrs: nounwind readnone
declare <4 x i1> @llvm.arm.mve.vctp32(i32) #4		declare <4 x i1> @llvm.arm.mve.vctp32(i32) #4
; Function Attrs: nounwind readnone
declare <4 x i1> @llvm.arm.mve.pred.i2v.v4i1(i32) #4		declare <4 x i1> @llvm.arm.mve.pred.i2v.v4i1(i32) #4
; Function Attrs: nounwind
declare void @llvm.stackprotector(i8, i8*) #5

attributes #0 = { nofree norecurse nounwind "correctly-rounded-divide-sqrt-fp-math"="false" "disable-tail-calls"="false" "frame-pointer"="all" "less-precise-fpmad"="false" "min-legal-vector-width"="0" "no-infs-fp-math"="false" "no-jump-tables"="false" "no-nans-fp-math"="false" "no-signed-zeros-fp-math"="false" "no-trapping-math"="false" "stack-protector-buffer-size"="8" "target-cpu"="generic" "target-features"="+mve" "unsafe-fp-math"="false" "use-soft-float"="false" }
attributes #1 = { argmemonly nounwind readonly willreturn "target-features"="+mve" }
attributes #2 = { argmemonly nounwind willreturn "target-features"="+mve" }
attributes #3 = { noduplicate nounwind "target-features"="+mve" }
attributes #4 = { nounwind readnone "target-features"="+mve" }
attributes #5 = { nounwind }

!llvm.module.flags = !{!0, !1}
!llvm.ident = !{!2}

!0 = !{i32 1, !"wchar_size", i32 4}
!1 = !{i32 1, !"min_enum_size", i32 4}
!2 = !{!"clang version 10.0.0 (https://github.com/llvm/llvm-project.git 8f92f97150cbdd3b9f569570b8377db78ed61a9e)"}
!3 = !{!4, !4, i64 0}
!4 = !{!"int", !5, i64 0}
!5 = !{!"omnipotent char", !6, i64 0}
!6 = !{!"Simple C/C++ TBAA"}
!7 = distinct !{!7, !8}
!8 = !{!"llvm.loop.isvectorized", i32 1}

...		...
---		---
name: test		name: test
alignment: 2		alignment: 2
exposesReturnsTwice: false		exposesReturnsTwice: false
legalized: false		legalized: false
regBankSelected: false		regBankSelected: false
Show All 40 Lines
callSites: []		callSites: []
constants: []		constants: []
machineFunctionInfo: {}		machineFunctionInfo: {}
body: \|		body: \|
; CHECK-LABEL: name: test		; CHECK-LABEL: name: test
; CHECK: bb.0.bb:		; CHECK: bb.0.bb:
; CHECK: successors: %bb.3(0x30000000), %bb.1(0x50000000)		; CHECK: successors: %bb.3(0x30000000), %bb.1(0x50000000)
; CHECK: liveins: $lr, $r0, $r1, $r2, $r3		; CHECK: liveins: $lr, $r0, $r1, $r2, $r3
; CHECK: frame-setup tPUSH 14, $noreg, $r7, killed $lr, implicit-def $sp, implicit $sp		; CHECK: frame-setup tPUSH 14, $noreg, killed $lr, implicit-def $sp, implicit $sp
; CHECK: frame-setup CFI_INSTRUCTION def_cfa_offset 8		; CHECK: frame-setup CFI_INSTRUCTION def_cfa_offset 8
; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4		; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4
; CHECK: frame-setup CFI_INSTRUCTION offset $r7, -8		; CHECK: frame-setup CFI_INSTRUCTION offset $r7, -8
; CHECK: $r7 = frame-setup tMOVr $sp, 14, $noreg		; CHECK: $r7 = frame-setup tMOVr $sp, 14, $noreg
; CHECK: frame-setup CFI_INSTRUCTION def_cfa_register $r7		; CHECK: frame-setup CFI_INSTRUCTION def_cfa_register $r7
; CHECK: $sp = frame-setup tSUBspi $sp, 1, 14, $noreg		; CHECK: $sp = frame-setup tSUBspi $sp, 1, 14, $noreg
; CHECK: tCBZ $r2, %bb.3		; CHECK: tCBZ $r2, %bb.3
; CHECK: bb.1.bb3:		; CHECK: bb.1.bb3:
; CHECK: successors: %bb.2(0x80000000)		; CHECK: successors: %bb.2(0x80000000)
; CHECK: liveins: $r0, $r1, $r2, $r3		; CHECK: liveins: $r0, $r1, $r2, $r3
; CHECK: $vpr = VMSR_P0 killed $r3, 14, $noreg		; CHECK: $vpr = VMSR_P0 killed $r3, 14, $noreg
; CHECK: VSTR_P0_off killed renamable $vpr, $sp, 0, 14, $noreg :: (store 4 into %stack.0)		; CHECK: VSTR_P0_off killed renamable $vpr, $sp, 0, 14, $noreg :: (store 4 into %stack.0)
; CHECK: $r3 = tMOVr $r0, 14, $noreg		; CHECK: $r3 = tMOVr $r0, 14, $noreg
; CHECK: $lr = MVE_DLSTP_32 killed renamable $r2		; CHECK: $lr = MVE_DLSTP_32 killed renamable $r2
; CHECK: bb.2.bb9:		; CHECK: bb.2.bb9:
; CHECK: successors: %bb.2(0x7c000000), %bb.3(0x04000000)		; CHECK: successors: %bb.2(0x7c000000), %bb.3(0x04000000)
; CHECK: liveins: $lr, $r0, $r1, $r3		; CHECK: liveins: $lr, $r0, $r1, $r3
; CHECK: renamable $vpr = VLDR_P0_off $sp, 0, 14, $noreg :: (load 4 from %stack.0)		; CHECK: renamable $vpr = VLDR_P0_off $sp, 0, 14, $noreg :: (load 4 from %stack.0)
; CHECK: MVE_VPST 4, implicit $vpr		; CHECK: MVE_VPST 4, implicit $vpr
; CHECK: renamable $r1, renamable $q0 = MVE_VLDRWU32_post killed renamable $r1, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv24, align 4, !tbaa !3)		; CHECK: renamable $r1, renamable $q0 = MVE_VLDRWU32_post killed renamable $r1, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv24, align 4)
; CHECK: renamable $r3, renamable $q1 = MVE_VLDRWU32_post killed renamable $r3, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv1, align 4, !tbaa !3)		; CHECK: renamable $r3, renamable $q1 = MVE_VLDRWU32_post killed renamable $r3, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv1, align 4)
; CHECK: renamable $q0 = nsw MVE_VMULi32 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0		; CHECK: renamable $q0 = nsw MVE_VMULi32 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0
; CHECK: MVE_VPST 8, implicit $vpr		; CHECK: MVE_VPST 8, implicit $vpr
; CHECK: MVE_VSTRWU32 killed renamable $q0, killed renamable $r0, 0, 1, killed renamable $vpr :: (store 16 into %ir.lsr.iv1, align 4, !tbaa !3)		; CHECK: MVE_VSTRWU32 killed renamable $q0, killed renamable $r0, 0, 1, killed renamable $vpr :: (store 16 into %ir.lsr.iv1, align 4)
; CHECK: $r0 = tMOVr $r3, 14, $noreg		; CHECK: $r0 = tMOVr $r3, 14, $noreg
; CHECK: $lr = MVE_LETP killed renamable $lr, %bb.2		; CHECK: $lr = MVE_LETP killed renamable $lr, %bb.2
; CHECK: bb.3.bb27:		; CHECK: bb.3.bb27:
; CHECK: $sp = tADDspi $sp, 1, 14, $noreg		; CHECK: $sp = tADDspi $sp, 1, 14, $noreg
; CHECK: tPOP_RET 14, $noreg, def $r7, def $pc		; CHECK: tPOP_RET 14, $noreg, def $r7, def $pc
bb.0.bb:		bb.0.bb:
successors: %bb.3(0x30000000), %bb.1(0x50000000)		successors: %bb.3(0x30000000), %bb.1(0x50000000)
liveins: $r0, $r1, $r2, $r3, $lr		liveins: $r0, $r1, $r2, $r3, $lr

frame-setup tPUSH 14, $noreg, $r7, killed $lr, implicit-def $sp, implicit $sp		frame-setup tPUSH 14, $noreg, killed $lr, implicit-def $sp, implicit $sp
frame-setup CFI_INSTRUCTION def_cfa_offset 8		frame-setup CFI_INSTRUCTION def_cfa_offset 8
frame-setup CFI_INSTRUCTION offset $lr, -4		frame-setup CFI_INSTRUCTION offset $lr, -4
frame-setup CFI_INSTRUCTION offset $r7, -8		frame-setup CFI_INSTRUCTION offset $r7, -8
$r7 = frame-setup tMOVr $sp, 14, $noreg		$r7 = frame-setup tMOVr $sp, 14, $noreg
frame-setup CFI_INSTRUCTION def_cfa_register $r7		frame-setup CFI_INSTRUCTION def_cfa_register $r7
$sp = frame-setup tSUBspi $sp, 1, 14, $noreg		$sp = frame-setup tSUBspi $sp, 1, 14, $noreg
tCBZ $r2, %bb.3		tCBZ $r2, %bb.3

Show All 13 Lines	body: \|

bb.2.bb9:		bb.2.bb9:
successors: %bb.2(0x7c000000), %bb.3(0x04000000)		successors: %bb.2(0x7c000000), %bb.3(0x04000000)
liveins: $lr, $r0, $r1, $r2, $r3		liveins: $lr, $r0, $r1, $r2, $r3

renamable $vpr = VLDR_P0_off $sp, 0, 14, $noreg :: (load 4 from %stack.0)		renamable $vpr = VLDR_P0_off $sp, 0, 14, $noreg :: (load 4 from %stack.0)
MVE_VPST 2, implicit $vpr		MVE_VPST 2, implicit $vpr
renamable $vpr = MVE_VCTP32 renamable $r2, 1, killed renamable $vpr		renamable $vpr = MVE_VCTP32 renamable $r2, 1, killed renamable $vpr
renamable $r1, renamable $q0 = MVE_VLDRWU32_post killed renamable $r1, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv24, align 4, !tbaa !3)		renamable $r1, renamable $q0 = MVE_VLDRWU32_post killed renamable $r1, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv24, align 4)
renamable $r3, renamable $q1 = MVE_VLDRWU32_post killed renamable $r3, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv1, align 4, !tbaa !3)		renamable $r3, renamable $q1 = MVE_VLDRWU32_post killed renamable $r3, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv1, align 4)
renamable $r2, dead $cpsr = tSUBi8 killed renamable $r2, 4, 14, $noreg		renamable $r2, dead $cpsr = tSUBi8 killed renamable $r2, 4, 14, $noreg
renamable $q0 = nsw MVE_VMULi32 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0		renamable $q0 = nsw MVE_VMULi32 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0
MVE_VPST 8, implicit $vpr		MVE_VPST 8, implicit $vpr
MVE_VSTRWU32 killed renamable $q0, killed renamable $r0, 0, 1, killed renamable $vpr :: (store 16 into %ir.lsr.iv1, align 4, !tbaa !3)		MVE_VSTRWU32 killed renamable $q0, killed renamable $r0, 0, 1, killed renamable $vpr :: (store 16 into %ir.lsr.iv1, align 4)
renamable $lr = t2LoopDec killed renamable $lr, 1		renamable $lr = t2LoopDec killed renamable $lr, 1
$r0 = tMOVr $r3, 14, $noreg		$r0 = tMOVr $r3, 14, $noreg
t2LoopEnd renamable $lr, %bb.2, implicit-def dead $cpsr		t2LoopEnd renamable $lr, %bb.2, implicit-def dead $cpsr
tB %bb.3, 14, $noreg		tB %bb.3, 14, $noreg

bb.3.bb27:		bb.3.bb27:
$sp = tADDspi $sp, 1, 14, $noreg		$sp = tADDspi $sp, 1, 14, $noreg
tPOP_RET 14, $noreg, def $r7, def $pc		tPOP_RET 14, $noreg, def $r7, def $pc

...		...

llvm/test/CodeGen/Thumb2/LowOverheadLoops/vctp-subi3.mir

This file was moved from llvm/test/CodeGen/Thumb2/LowOverheadLoops/dont-remove-loop-update3.mir.

		# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
# RUN: llc -mtriple=thumbv8.1m.main -mattr=+mve,+lob -run-pass=arm-low-overhead-loops --verify-machineinstrs %s -o - \| FileCheck %s		# RUN: llc -mtriple=thumbv8.1m.main -mattr=+mve,+lob -run-pass=arm-low-overhead-loops --verify-machineinstrs %s -o - \| FileCheck %s

# Local use after def, this mov is using r3:
#
# $r2 = tMOVr killed $r3, 14, $noreg
#
# We should optimise away the SUB

# CHECK: bb.1.vector.body:
# CHECK: renamable $r3, dead $cpsr = tSUBi8 killed renamable $r3, 4, 14, $noreg
# CHECK: $lr = MVE_LETP killed renamable $lr, %bb.1

--- \|		--- \|
target datalayout = "e-m:e-p:32:32-Fi8-i64:64-v128:64:128-a:0:32-n32-S64"		define dso_local void @vctp_tsubi3(i32* noalias nocapture %A, i32* noalias nocapture readonly %B, i32* noalias nocapture readonly %C, i32 %N) local_unnamed_addr #0 {
target triple = "thumbv8.1m.main-arm-unknown-eabi"

define dso_local void @local_use_after_def(i32* noalias nocapture %A, i32* noalias nocapture readonly %B, i32* noalias nocapture readonly %C, i32 %N) local_unnamed_addr #0 {
entry:		entry:
%cmp8 = icmp sgt i32 %N, 0		%cmp8 = icmp sgt i32 %N, 0
%0 = add i32 %N, 3		%0 = add i32 %N, 3
%1 = lshr i32 %0, 2		%1 = lshr i32 %0, 2
%2 = shl nuw i32 %1, 2		%2 = shl nuw i32 %1, 2
%3 = add i32 %2, -4		%3 = add i32 %2, -4
%4 = lshr i32 %3, 2		%4 = lshr i32 %3, 2
%5 = add nuw nsw i32 %4, 1		%5 = add nuw nsw i32 %4, 1
br i1 %cmp8, label %vector.ph, label %for.cond.cleanup		br i1 %cmp8, label %vector.ph, label %for.cond.cleanup

vector.ph: ; preds = %entry		vector.ph: ; preds = %entry
call void @llvm.set.loop.iterations.i32(i32 %5)		call void @llvm.set.loop.iterations.i32(i32 %5)
br label %vector.body		br label %vector.body

vector.body: ; preds = %vector.body, %vector.ph		vector.body: ; preds = %vector.body, %vector.ph
%lsr.iv17 = phi i32* [ %scevgep18, %vector.body ], [ %A, %vector.ph ]		%lsr.iv17 = phi i32* [ %scevgep18, %vector.body ], [ %A, %vector.ph ]
%lsr.iv14 = phi i32* [ %scevgep15, %vector.body ], [ %C, %vector.ph ]		%lsr.iv14 = phi i32* [ %scevgep15, %vector.body ], [ %C, %vector.ph ]
%lsr.iv = phi i32* [ %scevgep, %vector.body ], [ %B, %vector.ph ]		%lsr.iv = phi i32* [ %scevgep, %vector.body ], [ %B, %vector.ph ]
%6 = phi i32 [ %5, %vector.ph ], [ %11, %vector.body ]		%6 = phi i32 [ %5, %vector.ph ], [ %11, %vector.body ]
%7 = phi i32 [ %N, %vector.ph ], [ %9, %vector.body ]		%7 = phi i32 [ %N, %vector.ph ], [ %9, %vector.body ]
%lsr.iv13 = bitcast i32* %lsr.iv to <4 x i32>*		%lsr.iv13 = bitcast i32* %lsr.iv to <4 x i32>*
%lsr.iv1416 = bitcast i32* %lsr.iv14 to <4 x i32>*		%lsr.iv1416 = bitcast i32* %lsr.iv14 to <4 x i32>*
%lsr.iv1719 = bitcast i32* %lsr.iv17 to <4 x i32>*		%lsr.iv1719 = bitcast i32* %lsr.iv17 to <4 x i32>*
%8 = call <4 x i1> @llvm.arm.vctp32(i32 %7)		%8 = call <4 x i1> @llvm.arm.mve.vctp32(i32 %7)
%9 = sub i32 %7, 4		%9 = sub i32 %7, 5
%wide.masked.load = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %lsr.iv13, i32 4, <4 x i1> %8, <4 x i32> undef), !tbaa !3		%wide.masked.load = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %lsr.iv13, i32 4, <4 x i1> %8, <4 x i32> undef)
%wide.masked.load12 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %lsr.iv1416, i32 4, <4 x i1> %8, <4 x i32> undef), !tbaa !3		%wide.masked.load12 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %lsr.iv1416, i32 4, <4 x i1> %8, <4 x i32> undef)
%10 = add nsw <4 x i32> %wide.masked.load12, %wide.masked.load		%10 = add nsw <4 x i32> %wide.masked.load12, %wide.masked.load
call void @llvm.masked.store.v4i32.p0v4i32(<4 x i32> %10, <4 x i32>* %lsr.iv1719, i32 4, <4 x i1> %8), !tbaa !3		call void @llvm.masked.store.v4i32.p0v4i32(<4 x i32> %10, <4 x i32>* %lsr.iv1719, i32 4, <4 x i1> %8)
%scevgep = getelementptr i32, i32* %lsr.iv, i32 4		%scevgep = getelementptr i32, i32* %lsr.iv, i32 4
%scevgep15 = getelementptr i32, i32* %lsr.iv14, i32 4		%scevgep15 = getelementptr i32, i32* %lsr.iv14, i32 4
%scevgep18 = getelementptr i32, i32* %lsr.iv17, i32 4		%scevgep18 = getelementptr i32, i32* %lsr.iv17, i32 4
%11 = call i32 @llvm.loop.decrement.reg.i32.i32.i32(i32 %6, i32 1)		%11 = call i32 @llvm.loop.decrement.reg.i32.i32.i32(i32 %6, i32 1)
%12 = icmp ne i32 %11, 0		%12 = icmp ne i32 %11, 0
br i1 %12, label %vector.body, label %for.cond.cleanup, !llvm.loop !7		br i1 %12, label %vector.body, label %for.cond.cleanup

for.cond.cleanup: ; preds = %vector.body, %entry		for.cond.cleanup: ; preds = %vector.body, %entry
ret void		ret void
}		}
declare void @llvm.set.loop.iterations.i32(i32) #1		declare void @llvm.set.loop.iterations.i32(i32) #1
declare <4 x i1> @llvm.arm.vctp32(i32) #2		declare <4 x i1> @llvm.arm.mve.vctp32(i32) #2
declare i32 @llvm.loop.decrement.reg.i32.i32.i32(i32, i32) #1		declare i32 @llvm.loop.decrement.reg.i32.i32.i32(i32, i32) #1
declare void @llvm.lifetime.start.p0i8(i64 immarg, i8* nocapture) #3		declare void @llvm.lifetime.start.p0i8(i64 immarg, i8* nocapture) #3
declare <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>*, i32 immarg, <4 x i1>, <4 x i32>) #4		declare <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>*, i32 immarg, <4 x i1>, <4 x i32>) #4
declare void @llvm.masked.store.v4i32.p0v4i32(<4 x i32>, <4 x i32>*, i32 immarg, <4 x i1>) #3		declare void @llvm.masked.store.v4i32.p0v4i32(<4 x i32>, <4 x i32>*, i32 immarg, <4 x i1>) #3
declare void @llvm.stackprotector(i8, i8*) #5

attributes #0 = { nofree norecurse nounwind "correctly-rounded-divide-sqrt-fp-math"="false" "disable-tail-calls"="false" "frame-pointer"="all" "less-precise-fpmad"="false" "min-legal-vector-width"="0" "no-infs-fp-math"="true" "no-jump-tables"="false" "no-nans-fp-math"="true" "no-signed-zeros-fp-math"="true" "no-trapping-math"="true" "stack-protector-buffer-size"="8" "target-cpu"="generic" "target-features"="+armv8.1-m.main,+fp-armv8d16sp,+fp16,+fullfp16,+hwdiv,+lob,+mve.fp,+ras,+strict-align,+thumb-mode,+vfp2sp,+vfp3d16sp,+vfp4d16sp" "unsafe-fp-math"="true" "use-soft-float"="false" }
attributes #1 = { noduplicate nounwind }
attributes #2 = { nounwind readnone }
attributes #3 = { argmemonly nounwind willreturn }
attributes #4 = { argmemonly nounwind readonly willreturn }
attributes #5 = { nounwind }

!llvm.module.flags = !{!0, !1}
!llvm.ident = !{!2}

!0 = !{i32 1, !"wchar_size", i32 4}
!1 = !{i32 1, !"min_enum_size", i32 4}
!2 = !{!"clang version 10.0.0 (http://github.com/llvm/llvm-project 2589b6d9edda73280fe1dc1d944ee34e22fe9a6f)"}
!3 = !{!4, !4, i64 0}
!4 = !{!"int", !5, i64 0}
!5 = !{!"omnipotent char", !6, i64 0}
!6 = !{!"Simple C++ TBAA"}
!7 = distinct !{!7, !8}
!8 = !{!"llvm.loop.isvectorized", i32 1}

...		...
---		---
name: local_use_after_def		name: vctp_tsubi3
alignment: 2		alignment: 2
exposesReturnsTwice: false		exposesReturnsTwice: false
legalized: false		legalized: false
regBankSelected: false		regBankSelected: false
selected: false		selected: false
failedISel: false		failedISel: false
tracksRegLiveness: true		tracksRegLiveness: true
hasWinCFI: false		hasWinCFI: false
Show All 29 Lines	- { id: 0, name: '', type: spill-slot, offset: -4, size: 4, alignment: 4,
debug-info-variable: '', debug-info-expression: '', debug-info-location: '' }		debug-info-variable: '', debug-info-expression: '', debug-info-location: '' }
- { id: 1, name: '', type: spill-slot, offset: -8, size: 4, alignment: 4,		- { id: 1, name: '', type: spill-slot, offset: -8, size: 4, alignment: 4,
stack-id: default, callee-saved-register: '$r7', callee-saved-restored: true,		stack-id: default, callee-saved-register: '$r7', callee-saved-restored: true,
debug-info-variable: '', debug-info-expression: '', debug-info-location: '' }		debug-info-variable: '', debug-info-expression: '', debug-info-location: '' }
callSites: []		callSites: []
constants: []		constants: []
machineFunctionInfo: {}		machineFunctionInfo: {}
body: \|		body: \|
		; CHECK-LABEL: name: vctp_tsubi3
		; CHECK: bb.0.entry:
		; CHECK: successors: %bb.1(0x80000000)
		; CHECK: liveins: $lr, $r0, $r1, $r2, $r3, $r7
		; CHECK: frame-setup tPUSH 14, $noreg, killed $r7, killed $lr, implicit-def $sp, implicit $sp
		; CHECK: frame-setup CFI_INSTRUCTION def_cfa_offset 8
		; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4
		; CHECK: frame-setup CFI_INSTRUCTION offset $r7, -8
		; CHECK: tCMPi8 renamable $r3, 1, 14, $noreg, implicit-def $cpsr
		; CHECK: t2IT 11, 8, implicit-def $itstate
		; CHECK: tPOP_RET 11, killed $cpsr, def $r7, def $pc, implicit killed $itstate
		; CHECK: $lr = MVE_DLSTP_32 killed renamable $r3
		; CHECK: bb.1.vector.body:
		; CHECK: successors: %bb.1(0x7c000000), %bb.2(0x04000000)
		; CHECK: liveins: $lr, $r0, $r1, $r2
		; CHECK: renamable $r1, renamable $q0 = MVE_VLDRWU32_post killed renamable $r1, 16, 0, $noreg :: (load 16 from %ir.lsr.iv13, align 4)
		; CHECK: renamable $r2, renamable $q1 = MVE_VLDRWU32_post killed renamable $r2, 16, 0, $noreg :: (load 16 from %ir.lsr.iv1416, align 4)
		; CHECK: renamable $q0 = nsw MVE_VADDi32 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0
		; CHECK: renamable $r0 = MVE_VSTRWU32_post killed renamable $q0, killed renamable $r0, 16, 0, killed $noreg :: (store 16 into %ir.lsr.iv1719, align 4)
		; CHECK: $lr = MVE_LETP killed renamable $lr, %bb.1
		; CHECK: bb.2.for.cond.cleanup:
		; CHECK: tPOP_RET 14, $noreg, def $r7, def $pc
bb.0.entry:		bb.0.entry:
successors: %bb.1(0x80000000)		successors: %bb.1(0x80000000)
liveins: $r0, $r1, $r2, $r3, $lr		liveins: $r0, $r1, $r2, $r3, $r7, $lr

frame-setup tPUSH 14, $noreg, $r7, killed $lr, implicit-def $sp, implicit $sp		frame-setup tPUSH 14, $noreg, killed $r7, killed $lr, implicit-def $sp, implicit $sp
frame-setup CFI_INSTRUCTION def_cfa_offset 8		frame-setup CFI_INSTRUCTION def_cfa_offset 8
frame-setup CFI_INSTRUCTION offset $lr, -4		frame-setup CFI_INSTRUCTION offset $lr, -4
frame-setup CFI_INSTRUCTION offset $r7, -8		frame-setup CFI_INSTRUCTION offset $r7, -8
$r7 = frame-setup tMOVr $sp, 14, $noreg
frame-setup CFI_INSTRUCTION def_cfa_register $r7
tCMPi8 renamable $r3, 1, 14, $noreg, implicit-def $cpsr		tCMPi8 renamable $r3, 1, 14, $noreg, implicit-def $cpsr
t2IT 11, 8, implicit-def $itstate		t2IT 11, 8, implicit-def $itstate
tPOP_RET 11, killed $cpsr, def $r7, def $pc, implicit killed $itstate		tPOP_RET 11, killed $cpsr, def $r7, def $pc, implicit killed $itstate
renamable $r12 = t2ADDri renamable $r3, 3, 14, $noreg, $noreg		renamable $r12 = t2ADDri renamable $r3, 3, 14, $noreg, $noreg
renamable $lr = t2MOVi 1, 14, $noreg, $noreg		renamable $lr = t2MOVi 1, 14, $noreg, $noreg
renamable $r12 = t2BICri killed renamable $r12, 3, 14, $noreg, $noreg		renamable $r12 = t2BICri killed renamable $r12, 3, 14, $noreg, $noreg
renamable $r12 = t2SUBri killed renamable $r12, 4, 14, $noreg, $noreg		renamable $r12 = t2SUBri killed renamable $r12, 4, 14, $noreg, $noreg
renamable $lr = nuw nsw t2ADDrs killed renamable $lr, killed renamable $r12, 19, 14, $noreg, $noreg		renamable $lr = nuw nsw t2ADDrs killed renamable $lr, killed renamable $r12, 19, 14, $noreg, $noreg
t2DoLoopStart renamable $lr		t2DoLoopStart renamable $lr

bb.1.vector.body:		bb.1.vector.body:
successors: %bb.1(0x7c000000), %bb.2(0x04000000)		successors: %bb.1(0x7c000000), %bb.2(0x04000000)
liveins: $lr, $r0, $r1, $r2, $r3		liveins: $lr, $r0, $r1, $r2, $r3

renamable $vpr = MVE_VCTP32 renamable $r3, 0, $noreg		renamable $vpr = MVE_VCTP32 renamable $r3, 0, $noreg
MVE_VPST 4, implicit $vpr		MVE_VPST 4, implicit $vpr
renamable $r1, renamable $q0 = MVE_VLDRWU32_post killed renamable $r1, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv13, align 4, !tbaa !3)		renamable $r1, renamable $q0 = MVE_VLDRWU32_post killed renamable $r1, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv13, align 4)
renamable $r2, renamable $q1 = MVE_VLDRWU32_post killed renamable $r2, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv1416, align 4, !tbaa !3)		renamable $r2, renamable $q1 = MVE_VLDRWU32_post killed renamable $r2, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv1416, align 4)
renamable $r3, dead $cpsr = tSUBi8 killed renamable $r3, 4, 14, $noreg		renamable $r3, dead $cpsr = tSUBi3 killed renamable $r3, 4, 14, $noreg
renamable $q0 = nsw MVE_VADDi32 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0		renamable $q0 = nsw MVE_VADDi32 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0
MVE_VPST 8, implicit $vpr		MVE_VPST 8, implicit $vpr
renamable $r0 = MVE_VSTRWU32_post killed renamable $q0, killed renamable $r0, 16, 1, killed renamable $vpr :: (store 16 into %ir.lsr.iv1719, align 4, !tbaa !3)		renamable $r0 = MVE_VSTRWU32_post killed renamable $q0, killed renamable $r0, 16, 1, killed renamable $vpr :: (store 16 into %ir.lsr.iv1719, align 4)
renamable $lr = t2LoopDec killed renamable $lr, 1		renamable $lr = t2LoopDec killed renamable $lr, 1
$r2 = tMOVr killed $r3, 14, $noreg
t2LoopEnd renamable $lr, %bb.1, implicit-def dead $cpsr		t2LoopEnd renamable $lr, %bb.1, implicit-def dead $cpsr
tB %bb.2, 14, $noreg		tB %bb.2, 14, $noreg

bb.2.for.cond.cleanup:		bb.2.for.cond.cleanup:
tPOP_RET 14, $noreg, def $r7, def $pc		tPOP_RET 14, $noreg, def $r7, def $pc

...		...

llvm/test/CodeGen/Thumb2/LowOverheadLoops/vctp-subri.mir

This file was copied from llvm/test/CodeGen/Thumb2/LowOverheadLoops/dont-remove-loop-update2.mir.

		# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
# RUN: llc -mtriple=thumbv8.1m.main -mattr=+mve,+lob -run-pass=arm-low-overhead-loops --verify-machineinstrs %s -o - \| FileCheck %s		# RUN: llc -mtriple=thumbv8.1m.main -mattr=+mve,+lob -run-pass=arm-low-overhead-loops --verify-machineinstrs %s -o - \| FileCheck %s

# The CPSR is not dead:
#
# renamable $r3, $cpsr = tSUBi8 killed renamable $r3, 4, 14, $noreg
#
# We shouldn't optimise away the SUB.

# CHECK: bb.1.vector.body:
# CHECK: renamable $r3, dead $cpsr = tSUBi8 killed renamable $r3, 4, 14, $noreg
# CHECK: $lr = MVE_LETP killed renamable $lr, %bb.1

--- \|		--- \|
target datalayout = "e-m:e-p:32:32-Fi8-i64:64-v128:64:128-a:0:32-n32-S64"		define dso_local void @vctp_tsubi3(i32* noalias nocapture %A, i32* noalias nocapture readonly %B, i32* noalias nocapture readonly %C, i32 %N) local_unnamed_addr #0 {
target triple = "thumbv8.1m.main-arm-unknown-eabi"

define dso_local void @CPSR_not_dead(i32* noalias nocapture %A, i32* noalias nocapture readonly %B, i32* noalias nocapture readonly %C, i32 %N) local_unnamed_addr #0 {
entry:		entry:
%cmp8 = icmp sgt i32 %N, 0		%cmp8 = icmp sgt i32 %N, 0
%0 = add i32 %N, 3		%0 = add i32 %N, 3
%1 = lshr i32 %0, 2		%1 = lshr i32 %0, 2
%2 = shl nuw i32 %1, 2		%2 = shl nuw i32 %1, 2
%3 = add i32 %2, -4		%3 = add i32 %2, -4
%4 = lshr i32 %3, 2		%4 = lshr i32 %3, 2
%5 = add nuw nsw i32 %4, 1		%5 = add nuw nsw i32 %4, 1
br i1 %cmp8, label %vector.ph, label %for.cond.cleanup		br i1 %cmp8, label %vector.ph, label %for.cond.cleanup

vector.ph: ; preds = %entry		vector.ph: ; preds = %entry
call void @llvm.set.loop.iterations.i32(i32 %5)		call void @llvm.set.loop.iterations.i32(i32 %5)
br label %vector.body		br label %vector.body

vector.body: ; preds = %vector.body, %vector.ph		vector.body: ; preds = %vector.body, %vector.ph
%lsr.iv17 = phi i32* [ %scevgep18, %vector.body ], [ %A, %vector.ph ]		%lsr.iv17 = phi i32* [ %scevgep18, %vector.body ], [ %A, %vector.ph ]
%lsr.iv14 = phi i32* [ %scevgep15, %vector.body ], [ %C, %vector.ph ]		%lsr.iv14 = phi i32* [ %scevgep15, %vector.body ], [ %C, %vector.ph ]
%lsr.iv = phi i32* [ %scevgep, %vector.body ], [ %B, %vector.ph ]		%lsr.iv = phi i32* [ %scevgep, %vector.body ], [ %B, %vector.ph ]
%6 = phi i32 [ %5, %vector.ph ], [ %11, %vector.body ]		%6 = phi i32 [ %5, %vector.ph ], [ %11, %vector.body ]
%7 = phi i32 [ %N, %vector.ph ], [ %9, %vector.body ]		%7 = phi i32 [ %N, %vector.ph ], [ %9, %vector.body ]
%lsr.iv13 = bitcast i32* %lsr.iv to <4 x i32>*		%lsr.iv13 = bitcast i32* %lsr.iv to <4 x i32>*
%lsr.iv1416 = bitcast i32* %lsr.iv14 to <4 x i32>*		%lsr.iv1416 = bitcast i32* %lsr.iv14 to <4 x i32>*
%lsr.iv1719 = bitcast i32* %lsr.iv17 to <4 x i32>*		%lsr.iv1719 = bitcast i32* %lsr.iv17 to <4 x i32>*
%8 = call <4 x i1> @llvm.arm.vctp32(i32 %7)		%8 = call <4 x i1> @llvm.arm.mve.vctp32(i32 %7)
%9 = sub i32 %7, 4		%9 = sub i32 %7, 5
%wide.masked.load = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %lsr.iv13, i32 4, <4 x i1> %8, <4 x i32> undef), !tbaa !3		%wide.masked.load = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %lsr.iv13, i32 4, <4 x i1> %8, <4 x i32> undef)
%wide.masked.load12 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %lsr.iv1416, i32 4, <4 x i1> %8, <4 x i32> undef), !tbaa !3		%wide.masked.load12 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %lsr.iv1416, i32 4, <4 x i1> %8, <4 x i32> undef)
%10 = add nsw <4 x i32> %wide.masked.load12, %wide.masked.load		%10 = add nsw <4 x i32> %wide.masked.load12, %wide.masked.load
call void @llvm.masked.store.v4i32.p0v4i32(<4 x i32> %10, <4 x i32>* %lsr.iv1719, i32 4, <4 x i1> %8), !tbaa !3		call void @llvm.masked.store.v4i32.p0v4i32(<4 x i32> %10, <4 x i32>* %lsr.iv1719, i32 4, <4 x i1> %8)
%scevgep = getelementptr i32, i32* %lsr.iv, i32 4		%scevgep = getelementptr i32, i32* %lsr.iv, i32 4
%scevgep15 = getelementptr i32, i32* %lsr.iv14, i32 4		%scevgep15 = getelementptr i32, i32* %lsr.iv14, i32 4
%scevgep18 = getelementptr i32, i32* %lsr.iv17, i32 4		%scevgep18 = getelementptr i32, i32* %lsr.iv17, i32 4
%11 = call i32 @llvm.loop.decrement.reg.i32.i32.i32(i32 %6, i32 1)		%11 = call i32 @llvm.loop.decrement.reg.i32.i32.i32(i32 %6, i32 1)
%12 = icmp ne i32 %11, 0		%12 = icmp ne i32 %11, 0
br i1 %12, label %vector.body, label %for.cond.cleanup, !llvm.loop !7		br i1 %12, label %vector.body, label %for.cond.cleanup

for.cond.cleanup: ; preds = %vector.body, %entry		for.cond.cleanup: ; preds = %vector.body, %entry
ret void		ret void
}		}
declare void @llvm.set.loop.iterations.i32(i32) #1		declare void @llvm.set.loop.iterations.i32(i32)
declare <4 x i1> @llvm.arm.vctp32(i32) #2		declare <4 x i1> @llvm.arm.mve.vctp32(i32)
declare i32 @llvm.loop.decrement.reg.i32.i32.i32(i32, i32) #1		declare i32 @llvm.loop.decrement.reg.i32.i32.i32(i32, i32)
declare void @llvm.lifetime.start.p0i8(i64 immarg, i8* nocapture) #3		declare <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>*, i32 immarg, <4 x i1>, <4 x i32>)
declare <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>*, i32 immarg, <4 x i1>, <4 x i32>) #4		declare void @llvm.masked.store.v4i32.p0v4i32(<4 x i32>, <4 x i32>*, i32 immarg, <4 x i1>)
declare void @llvm.masked.store.v4i32.p0v4i32(<4 x i32>, <4 x i32>*, i32 immarg, <4 x i1>) #3
declare void @llvm.stackprotector(i8, i8*) #5

attributes #0 = { nofree norecurse nounwind "correctly-rounded-divide-sqrt-fp-math"="false" "disable-tail-calls"="false" "frame-pointer"="all" "less-precise-fpmad"="false" "min-legal-vector-width"="0" "no-infs-fp-math"="true" "no-jump-tables"="false" "no-nans-fp-math"="true" "no-signed-zeros-fp-math"="true" "no-trapping-math"="true" "stack-protector-buffer-size"="8" "target-cpu"="generic" "target-features"="+armv8.1-m.main,+fp-armv8d16sp,+fp16,+fullfp16,+hwdiv,+lob,+mve.fp,+ras,+strict-align,+thumb-mode,+vfp2sp,+vfp3d16sp,+vfp4d16sp" "unsafe-fp-math"="true" "use-soft-float"="false" }
attributes #1 = { noduplicate nounwind }
attributes #2 = { nounwind readnone }
attributes #3 = { argmemonly nounwind willreturn }
attributes #4 = { argmemonly nounwind readonly willreturn }
attributes #5 = { nounwind }

!llvm.module.flags = !{!0, !1}
!llvm.ident = !{!2}

!0 = !{i32 1, !"wchar_size", i32 4}
!1 = !{i32 1, !"min_enum_size", i32 4}
!2 = !{!"clang version 10.0.0 (http://github.com/llvm/llvm-project 2589b6d9edda73280fe1dc1d944ee34e22fe9a6f)"}
!3 = !{!4, !4, i64 0}
!4 = !{!"int", !5, i64 0}
!5 = !{!"omnipotent char", !6, i64 0}
!6 = !{!"Simple C++ TBAA"}
!7 = distinct !{!7, !8}
!8 = !{!"llvm.loop.isvectorized", i32 1}

...		...
---		---
name: CPSR_not_dead		name: vctp_tsubi3
alignment: 2		alignment: 2
exposesReturnsTwice: false		exposesReturnsTwice: false
legalized: false		legalized: false
regBankSelected: false		regBankSelected: false
selected: false		selected: false
failedISel: false		failedISel: false
tracksRegLiveness: true		tracksRegLiveness: true
hasWinCFI: false		hasWinCFI: false
Show All 29 Lines	- { id: 0, name: '', type: spill-slot, offset: -4, size: 4, alignment: 4,
debug-info-variable: '', debug-info-expression: '', debug-info-location: '' }		debug-info-variable: '', debug-info-expression: '', debug-info-location: '' }
- { id: 1, name: '', type: spill-slot, offset: -8, size: 4, alignment: 4,		- { id: 1, name: '', type: spill-slot, offset: -8, size: 4, alignment: 4,
stack-id: default, callee-saved-register: '$r7', callee-saved-restored: true,		stack-id: default, callee-saved-register: '$r7', callee-saved-restored: true,
debug-info-variable: '', debug-info-expression: '', debug-info-location: '' }		debug-info-variable: '', debug-info-expression: '', debug-info-location: '' }
callSites: []		callSites: []
constants: []		constants: []
machineFunctionInfo: {}		machineFunctionInfo: {}
body: \|		body: \|
		; CHECK-LABEL: name: vctp_tsubi3
		; CHECK: bb.0.entry:
		; CHECK: successors: %bb.1(0x80000000)
		; CHECK: liveins: $lr, $r0, $r1, $r2, $r3, $r7
		; CHECK: frame-setup tPUSH 14, $noreg, killed $r7, killed $lr, implicit-def $sp, implicit $sp
		; CHECK: frame-setup CFI_INSTRUCTION def_cfa_offset 8
		; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4
		; CHECK: frame-setup CFI_INSTRUCTION offset $r7, -8
		; CHECK: tCMPi8 renamable $r3, 1, 14, $noreg, implicit-def $cpsr
		; CHECK: t2IT 11, 8, implicit-def $itstate
		; CHECK: tPOP_RET 11, killed $cpsr, def $r7, def $pc, implicit killed $itstate
		; CHECK: $lr = MVE_DLSTP_32 killed renamable $r3
		; CHECK: bb.1.vector.body:
		; CHECK: successors: %bb.1(0x7c000000), %bb.2(0x04000000)
		; CHECK: liveins: $lr, $r0, $r1, $r2
		; CHECK: renamable $r1, renamable $q0 = MVE_VLDRWU32_post killed renamable $r1, 16, 0, $noreg :: (load 16 from %ir.lsr.iv13, align 4)
		; CHECK: renamable $r2, renamable $q1 = MVE_VLDRWU32_post killed renamable $r2, 16, 0, $noreg :: (load 16 from %ir.lsr.iv1416, align 4)
		; CHECK: renamable $q0 = nsw MVE_VADDi32 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0
		; CHECK: renamable $r0 = MVE_VSTRWU32_post killed renamable $q0, killed renamable $r0, 16, 0, killed $noreg :: (store 16 into %ir.lsr.iv1719, align 4)
		; CHECK: $lr = MVE_LETP killed renamable $lr, %bb.1
		; CHECK: bb.2.for.cond.cleanup:
		; CHECK: tPOP_RET 14, $noreg, def $r7, def $pc
bb.0.entry:		bb.0.entry:
successors: %bb.1(0x80000000)		successors: %bb.1(0x80000000)
liveins: $r0, $r1, $r2, $r3, $lr		liveins: $r0, $r1, $r2, $r3, $r7, $lr

frame-setup tPUSH 14, $noreg, $r7, killed $lr, implicit-def $sp, implicit $sp		frame-setup tPUSH 14, $noreg, killed $r7, killed $lr, implicit-def $sp, implicit $sp
frame-setup CFI_INSTRUCTION def_cfa_offset 8		frame-setup CFI_INSTRUCTION def_cfa_offset 8
frame-setup CFI_INSTRUCTION offset $lr, -4		frame-setup CFI_INSTRUCTION offset $lr, -4
frame-setup CFI_INSTRUCTION offset $r7, -8		frame-setup CFI_INSTRUCTION offset $r7, -8
$r7 = frame-setup tMOVr $sp, 14, $noreg
frame-setup CFI_INSTRUCTION def_cfa_register $r7
tCMPi8 renamable $r3, 1, 14, $noreg, implicit-def $cpsr		tCMPi8 renamable $r3, 1, 14, $noreg, implicit-def $cpsr
t2IT 11, 8, implicit-def $itstate		t2IT 11, 8, implicit-def $itstate
tPOP_RET 11, killed $cpsr, def $r7, def $pc, implicit killed $itstate		tPOP_RET 11, killed $cpsr, def $r7, def $pc, implicit killed $itstate
renamable $r12 = t2ADDri renamable $r3, 3, 14, $noreg, $noreg		renamable $r12 = t2ADDri renamable $r3, 3, 14, $noreg, $noreg
renamable $lr = t2MOVi 1, 14, $noreg, $noreg		renamable $lr = t2MOVi 1, 14, $noreg, $noreg
renamable $r12 = t2BICri killed renamable $r12, 3, 14, $noreg, $noreg		renamable $r12 = t2BICri killed renamable $r12, 3, 14, $noreg, $noreg
renamable $r12 = t2SUBri killed renamable $r12, 4, 14, $noreg, $noreg		renamable $r12 = t2SUBri killed renamable $r12, 4, 14, $noreg, $noreg
renamable $lr = nuw nsw t2ADDrs killed renamable $lr, killed renamable $r12, 19, 14, $noreg, $noreg		renamable $lr = nuw nsw t2ADDrs killed renamable $lr, killed renamable $r12, 19, 14, $noreg, $noreg
t2DoLoopStart renamable $lr		t2DoLoopStart renamable $lr

bb.1.vector.body:		bb.1.vector.body:
successors: %bb.1(0x7c000000), %bb.2(0x04000000)		successors: %bb.1(0x7c000000), %bb.2(0x04000000)
liveins: $lr, $r0, $r1, $r2, $r3		liveins: $lr, $r0, $r1, $r2, $r3

renamable $vpr = MVE_VCTP32 renamable $r3, 0, $noreg		renamable $vpr = MVE_VCTP32 renamable $r3, 0, $noreg
MVE_VPST 4, implicit $vpr		MVE_VPST 4, implicit $vpr
renamable $r1, renamable $q0 = MVE_VLDRWU32_post killed renamable $r1, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv13, align 4, !tbaa !3)		renamable $r1, renamable $q0 = MVE_VLDRWU32_post killed renamable $r1, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv13, align 4)
renamable $r2, renamable $q1 = MVE_VLDRWU32_post killed renamable $r2, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv1416, align 4, !tbaa !3)		renamable $r2, renamable $q1 = MVE_VLDRWU32_post killed renamable $r2, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv1416, align 4)
renamable $r3, $cpsr = tSUBi8 killed renamable $r3, 4, 14, $noreg		renamable $r3 = t2SUBri killed renamable $r3, 4, 14, $noreg, $noreg
		SjoerdMeijerUnsubmitted Not Done Reply Inline Actions are we testing t2subri3 here? SjoerdMeijer: are we testing t2subri3 here?
renamable $q0 = nsw MVE_VADDi32 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0		renamable $q0 = nsw MVE_VADDi32 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0
MVE_VPST 8, implicit $vpr		MVE_VPST 8, implicit $vpr
renamable $r0 = MVE_VSTRWU32_post killed renamable $q0, killed renamable $r0, 16, 1, killed renamable $vpr :: (store 16 into %ir.lsr.iv1719, align 4, !tbaa !3)		renamable $r0 = MVE_VSTRWU32_post killed renamable $q0, killed renamable $r0, 16, 1, killed renamable $vpr :: (store 16 into %ir.lsr.iv1719, align 4)
renamable $lr = t2LoopDec killed renamable $lr, 1		renamable $lr = t2LoopDec killed renamable $lr, 1
t2LoopEnd renamable $lr, %bb.1, implicit-def dead $cpsr		t2LoopEnd renamable $lr, %bb.1, implicit-def dead $cpsr
tB %bb.2, 14, $noreg		tB %bb.2, 14, $noreg

bb.2.for.cond.cleanup:		bb.2.for.cond.cleanup:
tPOP_RET 14, $noreg, def $r7, def $pc		tPOP_RET 14, $noreg, def $r7, def $pc

...		...

llvm/test/CodeGen/Thumb2/LowOverheadLoops/vctp-subri12.mir

This file was copied from llvm/test/CodeGen/Thumb2/LowOverheadLoops/dont-remove-loop-update2.mir.

		# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
# RUN: llc -mtriple=thumbv8.1m.main -mattr=+mve,+lob -run-pass=arm-low-overhead-loops --verify-machineinstrs %s -o - \| FileCheck %s		# RUN: llc -mtriple=thumbv8.1m.main -mattr=+mve,+lob -run-pass=arm-low-overhead-loops --verify-machineinstrs %s -o - \| FileCheck %s

# The CPSR is not dead:
#
# renamable $r3, $cpsr = tSUBi8 killed renamable $r3, 4, 14, $noreg
#
# We shouldn't optimise away the SUB.

# CHECK: bb.1.vector.body:
# CHECK: renamable $r3, dead $cpsr = tSUBi8 killed renamable $r3, 4, 14, $noreg
# CHECK: $lr = MVE_LETP killed renamable $lr, %bb.1

--- \|		--- \|
target datalayout = "e-m:e-p:32:32-Fi8-i64:64-v128:64:128-a:0:32-n32-S64"		define dso_local void @vctp_tsubi3(i32* noalias nocapture %A, i32* noalias nocapture readonly %B, i32* noalias nocapture readonly %C, i32 %N) local_unnamed_addr #0 {
target triple = "thumbv8.1m.main-arm-unknown-eabi"

define dso_local void @CPSR_not_dead(i32* noalias nocapture %A, i32* noalias nocapture readonly %B, i32* noalias nocapture readonly %C, i32 %N) local_unnamed_addr #0 {
entry:		entry:
%cmp8 = icmp sgt i32 %N, 0		%cmp8 = icmp sgt i32 %N, 0
%0 = add i32 %N, 3		%0 = add i32 %N, 3
%1 = lshr i32 %0, 2		%1 = lshr i32 %0, 2
%2 = shl nuw i32 %1, 2		%2 = shl nuw i32 %1, 2
%3 = add i32 %2, -4		%3 = add i32 %2, -4
%4 = lshr i32 %3, 2		%4 = lshr i32 %3, 2
%5 = add nuw nsw i32 %4, 1		%5 = add nuw nsw i32 %4, 1
br i1 %cmp8, label %vector.ph, label %for.cond.cleanup		br i1 %cmp8, label %vector.ph, label %for.cond.cleanup

vector.ph: ; preds = %entry		vector.ph: ; preds = %entry
call void @llvm.set.loop.iterations.i32(i32 %5)		call void @llvm.set.loop.iterations.i32(i32 %5)
br label %vector.body		br label %vector.body

vector.body: ; preds = %vector.body, %vector.ph		vector.body: ; preds = %vector.body, %vector.ph
%lsr.iv17 = phi i32* [ %scevgep18, %vector.body ], [ %A, %vector.ph ]		%lsr.iv17 = phi i32* [ %scevgep18, %vector.body ], [ %A, %vector.ph ]
%lsr.iv14 = phi i32* [ %scevgep15, %vector.body ], [ %C, %vector.ph ]		%lsr.iv14 = phi i32* [ %scevgep15, %vector.body ], [ %C, %vector.ph ]
%lsr.iv = phi i32* [ %scevgep, %vector.body ], [ %B, %vector.ph ]		%lsr.iv = phi i32* [ %scevgep, %vector.body ], [ %B, %vector.ph ]
%6 = phi i32 [ %5, %vector.ph ], [ %11, %vector.body ]		%6 = phi i32 [ %5, %vector.ph ], [ %11, %vector.body ]
%7 = phi i32 [ %N, %vector.ph ], [ %9, %vector.body ]		%7 = phi i32 [ %N, %vector.ph ], [ %9, %vector.body ]
%lsr.iv13 = bitcast i32* %lsr.iv to <4 x i32>*		%lsr.iv13 = bitcast i32* %lsr.iv to <4 x i32>*
%lsr.iv1416 = bitcast i32* %lsr.iv14 to <4 x i32>*		%lsr.iv1416 = bitcast i32* %lsr.iv14 to <4 x i32>*
%lsr.iv1719 = bitcast i32* %lsr.iv17 to <4 x i32>*		%lsr.iv1719 = bitcast i32* %lsr.iv17 to <4 x i32>*
%8 = call <4 x i1> @llvm.arm.vctp32(i32 %7)		%8 = call <4 x i1> @llvm.arm.mve.vctp32(i32 %7)
%9 = sub i32 %7, 4		%9 = sub i32 %7, 5
%wide.masked.load = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %lsr.iv13, i32 4, <4 x i1> %8, <4 x i32> undef), !tbaa !3		%wide.masked.load = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %lsr.iv13, i32 4, <4 x i1> %8, <4 x i32> undef)
%wide.masked.load12 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %lsr.iv1416, i32 4, <4 x i1> %8, <4 x i32> undef), !tbaa !3		%wide.masked.load12 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %lsr.iv1416, i32 4, <4 x i1> %8, <4 x i32> undef)
%10 = add nsw <4 x i32> %wide.masked.load12, %wide.masked.load		%10 = add nsw <4 x i32> %wide.masked.load12, %wide.masked.load
call void @llvm.masked.store.v4i32.p0v4i32(<4 x i32> %10, <4 x i32>* %lsr.iv1719, i32 4, <4 x i1> %8), !tbaa !3		call void @llvm.masked.store.v4i32.p0v4i32(<4 x i32> %10, <4 x i32>* %lsr.iv1719, i32 4, <4 x i1> %8)
%scevgep = getelementptr i32, i32* %lsr.iv, i32 4		%scevgep = getelementptr i32, i32* %lsr.iv, i32 4
%scevgep15 = getelementptr i32, i32* %lsr.iv14, i32 4		%scevgep15 = getelementptr i32, i32* %lsr.iv14, i32 4
%scevgep18 = getelementptr i32, i32* %lsr.iv17, i32 4		%scevgep18 = getelementptr i32, i32* %lsr.iv17, i32 4
%11 = call i32 @llvm.loop.decrement.reg.i32.i32.i32(i32 %6, i32 1)		%11 = call i32 @llvm.loop.decrement.reg.i32.i32.i32(i32 %6, i32 1)
%12 = icmp ne i32 %11, 0		%12 = icmp ne i32 %11, 0
br i1 %12, label %vector.body, label %for.cond.cleanup, !llvm.loop !7		br i1 %12, label %vector.body, label %for.cond.cleanup

for.cond.cleanup: ; preds = %vector.body, %entry		for.cond.cleanup: ; preds = %vector.body, %entry
ret void		ret void
}		}
declare void @llvm.set.loop.iterations.i32(i32) #1		declare void @llvm.set.loop.iterations.i32(i32)
declare <4 x i1> @llvm.arm.vctp32(i32) #2		declare <4 x i1> @llvm.arm.mve.vctp32(i32)
declare i32 @llvm.loop.decrement.reg.i32.i32.i32(i32, i32) #1		declare i32 @llvm.loop.decrement.reg.i32.i32.i32(i32, i32)
declare void @llvm.lifetime.start.p0i8(i64 immarg, i8* nocapture) #3		declare <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>*, i32 immarg, <4 x i1>, <4 x i32>)
declare <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>*, i32 immarg, <4 x i1>, <4 x i32>) #4		declare void @llvm.masked.store.v4i32.p0v4i32(<4 x i32>, <4 x i32>*, i32 immarg, <4 x i1>)
declare void @llvm.masked.store.v4i32.p0v4i32(<4 x i32>, <4 x i32>*, i32 immarg, <4 x i1>) #3
declare void @llvm.stackprotector(i8, i8*) #5

attributes #0 = { nofree norecurse nounwind "correctly-rounded-divide-sqrt-fp-math"="false" "disable-tail-calls"="false" "frame-pointer"="all" "less-precise-fpmad"="false" "min-legal-vector-width"="0" "no-infs-fp-math"="true" "no-jump-tables"="false" "no-nans-fp-math"="true" "no-signed-zeros-fp-math"="true" "no-trapping-math"="true" "stack-protector-buffer-size"="8" "target-cpu"="generic" "target-features"="+armv8.1-m.main,+fp-armv8d16sp,+fp16,+fullfp16,+hwdiv,+lob,+mve.fp,+ras,+strict-align,+thumb-mode,+vfp2sp,+vfp3d16sp,+vfp4d16sp" "unsafe-fp-math"="true" "use-soft-float"="false" }
attributes #1 = { noduplicate nounwind }
attributes #2 = { nounwind readnone }
attributes #3 = { argmemonly nounwind willreturn }
attributes #4 = { argmemonly nounwind readonly willreturn }
attributes #5 = { nounwind }

!llvm.module.flags = !{!0, !1}
!llvm.ident = !{!2}

!0 = !{i32 1, !"wchar_size", i32 4}
!1 = !{i32 1, !"min_enum_size", i32 4}
!2 = !{!"clang version 10.0.0 (http://github.com/llvm/llvm-project 2589b6d9edda73280fe1dc1d944ee34e22fe9a6f)"}
!3 = !{!4, !4, i64 0}
!4 = !{!"int", !5, i64 0}
!5 = !{!"omnipotent char", !6, i64 0}
!6 = !{!"Simple C++ TBAA"}
!7 = distinct !{!7, !8}
!8 = !{!"llvm.loop.isvectorized", i32 1}

...		...
---		---
name: CPSR_not_dead		name: vctp_tsubi3
alignment: 2		alignment: 2
exposesReturnsTwice: false		exposesReturnsTwice: false
legalized: false		legalized: false
regBankSelected: false		regBankSelected: false
selected: false		selected: false
failedISel: false		failedISel: false
tracksRegLiveness: true		tracksRegLiveness: true
hasWinCFI: false		hasWinCFI: false
Show All 29 Lines	- { id: 0, name: '', type: spill-slot, offset: -4, size: 4, alignment: 4,
debug-info-variable: '', debug-info-expression: '', debug-info-location: '' }		debug-info-variable: '', debug-info-expression: '', debug-info-location: '' }
- { id: 1, name: '', type: spill-slot, offset: -8, size: 4, alignment: 4,		- { id: 1, name: '', type: spill-slot, offset: -8, size: 4, alignment: 4,
stack-id: default, callee-saved-register: '$r7', callee-saved-restored: true,		stack-id: default, callee-saved-register: '$r7', callee-saved-restored: true,
debug-info-variable: '', debug-info-expression: '', debug-info-location: '' }		debug-info-variable: '', debug-info-expression: '', debug-info-location: '' }
callSites: []		callSites: []
constants: []		constants: []
machineFunctionInfo: {}		machineFunctionInfo: {}
body: \|		body: \|
		; CHECK-LABEL: name: vctp_tsubi3
		; CHECK: bb.0.entry:
		; CHECK: successors: %bb.1(0x80000000)
		; CHECK: liveins: $lr, $r0, $r1, $r2, $r3, $r7
		; CHECK: frame-setup tPUSH 14, $noreg, killed $r7, killed $lr, implicit-def $sp, implicit $sp
		; CHECK: frame-setup CFI_INSTRUCTION def_cfa_offset 8
		; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4
		; CHECK: frame-setup CFI_INSTRUCTION offset $r7, -8
		; CHECK: tCMPi8 renamable $r3, 1, 14, $noreg, implicit-def $cpsr
		; CHECK: t2IT 11, 8, implicit-def $itstate
		; CHECK: tPOP_RET 11, killed $cpsr, def $r7, def $pc, implicit killed $itstate
		; CHECK: $lr = MVE_DLSTP_32 killed renamable $r3
		; CHECK: bb.1.vector.body:
		; CHECK: successors: %bb.1(0x7c000000), %bb.2(0x04000000)
		; CHECK: liveins: $lr, $r0, $r1, $r2
		; CHECK: renamable $r1, renamable $q0 = MVE_VLDRWU32_post killed renamable $r1, 16, 0, $noreg :: (load 16 from %ir.lsr.iv13, align 4)
		; CHECK: renamable $r2, renamable $q1 = MVE_VLDRWU32_post killed renamable $r2, 16, 0, $noreg :: (load 16 from %ir.lsr.iv1416, align 4)
		; CHECK: renamable $q0 = nsw MVE_VADDi32 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0
		; CHECK: renamable $r0 = MVE_VSTRWU32_post killed renamable $q0, killed renamable $r0, 16, 0, killed $noreg :: (store 16 into %ir.lsr.iv1719, align 4)
		; CHECK: $lr = MVE_LETP killed renamable $lr, %bb.1
		; CHECK: bb.2.for.cond.cleanup:
		; CHECK: tPOP_RET 14, $noreg, def $r7, def $pc
bb.0.entry:		bb.0.entry:
successors: %bb.1(0x80000000)		successors: %bb.1(0x80000000)
liveins: $r0, $r1, $r2, $r3, $lr		liveins: $r0, $r1, $r2, $r3, $r7, $lr

frame-setup tPUSH 14, $noreg, $r7, killed $lr, implicit-def $sp, implicit $sp		frame-setup tPUSH 14, $noreg, killed $r7, killed $lr, implicit-def $sp, implicit $sp
frame-setup CFI_INSTRUCTION def_cfa_offset 8		frame-setup CFI_INSTRUCTION def_cfa_offset 8
frame-setup CFI_INSTRUCTION offset $lr, -4		frame-setup CFI_INSTRUCTION offset $lr, -4
frame-setup CFI_INSTRUCTION offset $r7, -8		frame-setup CFI_INSTRUCTION offset $r7, -8
$r7 = frame-setup tMOVr $sp, 14, $noreg
frame-setup CFI_INSTRUCTION def_cfa_register $r7
tCMPi8 renamable $r3, 1, 14, $noreg, implicit-def $cpsr		tCMPi8 renamable $r3, 1, 14, $noreg, implicit-def $cpsr
t2IT 11, 8, implicit-def $itstate		t2IT 11, 8, implicit-def $itstate
tPOP_RET 11, killed $cpsr, def $r7, def $pc, implicit killed $itstate		tPOP_RET 11, killed $cpsr, def $r7, def $pc, implicit killed $itstate
renamable $r12 = t2ADDri renamable $r3, 3, 14, $noreg, $noreg		renamable $r12 = t2ADDri renamable $r3, 3, 14, $noreg, $noreg
renamable $lr = t2MOVi 1, 14, $noreg, $noreg		renamable $lr = t2MOVi 1, 14, $noreg, $noreg
renamable $r12 = t2BICri killed renamable $r12, 3, 14, $noreg, $noreg		renamable $r12 = t2BICri killed renamable $r12, 3, 14, $noreg, $noreg
renamable $r12 = t2SUBri killed renamable $r12, 4, 14, $noreg, $noreg		renamable $r12 = t2SUBri killed renamable $r12, 4, 14, $noreg, $noreg
renamable $lr = nuw nsw t2ADDrs killed renamable $lr, killed renamable $r12, 19, 14, $noreg, $noreg		renamable $lr = nuw nsw t2ADDrs killed renamable $lr, killed renamable $r12, 19, 14, $noreg, $noreg
t2DoLoopStart renamable $lr		t2DoLoopStart renamable $lr

bb.1.vector.body:		bb.1.vector.body:
successors: %bb.1(0x7c000000), %bb.2(0x04000000)		successors: %bb.1(0x7c000000), %bb.2(0x04000000)
liveins: $lr, $r0, $r1, $r2, $r3		liveins: $lr, $r0, $r1, $r2, $r3

renamable $vpr = MVE_VCTP32 renamable $r3, 0, $noreg		renamable $vpr = MVE_VCTP32 renamable $r3, 0, $noreg
MVE_VPST 4, implicit $vpr		MVE_VPST 4, implicit $vpr
renamable $r1, renamable $q0 = MVE_VLDRWU32_post killed renamable $r1, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv13, align 4, !tbaa !3)		renamable $r1, renamable $q0 = MVE_VLDRWU32_post killed renamable $r1, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv13, align 4)
renamable $r2, renamable $q1 = MVE_VLDRWU32_post killed renamable $r2, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv1416, align 4, !tbaa !3)		renamable $r2, renamable $q1 = MVE_VLDRWU32_post killed renamable $r2, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv1416, align 4)
renamable $r3, $cpsr = tSUBi8 killed renamable $r3, 4, 14, $noreg		renamable $r3 = t2SUBri12 killed renamable $r3, 4, 14, $noreg
renamable $q0 = nsw MVE_VADDi32 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0		renamable $q0 = nsw MVE_VADDi32 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0
MVE_VPST 8, implicit $vpr		MVE_VPST 8, implicit $vpr
renamable $r0 = MVE_VSTRWU32_post killed renamable $q0, killed renamable $r0, 16, 1, killed renamable $vpr :: (store 16 into %ir.lsr.iv1719, align 4, !tbaa !3)		renamable $r0 = MVE_VSTRWU32_post killed renamable $q0, killed renamable $r0, 16, 1, killed renamable $vpr :: (store 16 into %ir.lsr.iv1719, align 4)
renamable $lr = t2LoopDec killed renamable $lr, 1		renamable $lr = t2LoopDec killed renamable $lr, 1
t2LoopEnd renamable $lr, %bb.1, implicit-def dead $cpsr		t2LoopEnd renamable $lr, %bb.1, implicit-def dead $cpsr
tB %bb.2, 14, $noreg		tB %bb.2, 14, $noreg

bb.2.for.cond.cleanup:		bb.2.for.cond.cleanup:
tPOP_RET 14, $noreg, def $r7, def $pc		tPOP_RET 14, $noreg, def $r7, def $pc

...		...

llvm/test/CodeGen/Thumb2/LowOverheadLoops/vmaxmin_vpred_r.mir

Show First 20 Lines • Show All 144 Lines • ▼ Show 20 Lines	body: \|
; CHECK: frame-setup tPUSH 14, $noreg, killed $r4, killed $r5, killed $r6, killed $r7, killed $lr, implicit-def $sp, implicit $sp		; CHECK: frame-setup tPUSH 14, $noreg, killed $r4, killed $r5, killed $r6, killed $r7, killed $lr, implicit-def $sp, implicit $sp
; CHECK: frame-setup CFI_INSTRUCTION def_cfa_offset 20		; CHECK: frame-setup CFI_INSTRUCTION def_cfa_offset 20
; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4		; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4
; CHECK: frame-setup CFI_INSTRUCTION offset $r7, -8		; CHECK: frame-setup CFI_INSTRUCTION offset $r7, -8
; CHECK: frame-setup CFI_INSTRUCTION offset $r6, -12		; CHECK: frame-setup CFI_INSTRUCTION offset $r6, -12
; CHECK: frame-setup CFI_INSTRUCTION offset $r5, -16		; CHECK: frame-setup CFI_INSTRUCTION offset $r5, -16
; CHECK: frame-setup CFI_INSTRUCTION offset $r4, -20		; CHECK: frame-setup CFI_INSTRUCTION offset $r4, -20
; CHECK: renamable $r12 = t2LDRi12 $sp, 44, 14, $noreg :: (load 4 from %fixed-stack.6, align 8)		; CHECK: renamable $r12 = t2LDRi12 $sp, 44, 14, $noreg :: (load 4 from %fixed-stack.6, align 8)
; CHECK: $lr = MVE_WLSTP_32 renamable $r12, %bb.3		; CHECK: $lr = MVE_WLSTP_32 killed renamable $r12, %bb.3
; CHECK: bb.1.for.body.lr.ph:		; CHECK: bb.1.for.body.lr.ph:
; CHECK: successors: %bb.2(0x80000000)		; CHECK: successors: %bb.2(0x80000000)
; CHECK: liveins: $lr, $r0, $r1, $r2, $r3, $r12		; CHECK: liveins: $lr, $r0, $r1, $r2, $r3
; CHECK: $r7, $r6 = t2LDRDi8 $sp, 36, 14, $noreg :: (load 4 from %fixed-stack.4, align 8), (load 4 from %fixed-stack.5)		; CHECK: $r7, $r6 = t2LDRDi8 $sp, 36, 14, $noreg :: (load 4 from %fixed-stack.4, align 8), (load 4 from %fixed-stack.5)
; CHECK: $r5, $r4 = t2LDRDi8 $sp, 20, 14, $noreg :: (load 4 from %fixed-stack.0, align 8), (load 4 from %fixed-stack.1)		; CHECK: $r5, $r4 = t2LDRDi8 $sp, 20, 14, $noreg :: (load 4 from %fixed-stack.0, align 8), (load 4 from %fixed-stack.1)
; CHECK: renamable $q0 = MVE_VDUP32 killed renamable $r6, 0, $noreg, undef renamable $q0		; CHECK: renamable $q0 = MVE_VDUP32 killed renamable $r6, 0, $noreg, undef renamable $q0
; CHECK: renamable $q1 = MVE_VDUP32 killed renamable $r7, 0, $noreg, undef renamable $q1		; CHECK: renamable $q1 = MVE_VDUP32 killed renamable $r7, 0, $noreg, undef renamable $q1
; CHECK: bb.2.for.body:		; CHECK: bb.2.for.body:
; CHECK: successors: %bb.2(0x7c000000), %bb.3(0x04000000)		; CHECK: successors: %bb.2(0x7c000000), %bb.3(0x04000000)
; CHECK: liveins: $lr, $q0, $q1, $r0, $r1, $r2, $r3, $r4, $r5, $r12		; CHECK: liveins: $lr, $q0, $q1, $r0, $r1, $r2, $r3, $r4, $r5
; CHECK: renamable $r1, renamable $q2 = MVE_VLDRWU32_post killed renamable $r1, 4, 0, $noreg :: (load 16 from %ir.input_2_cast, align 4)		; CHECK: renamable $r1, renamable $q2 = MVE_VLDRWU32_post killed renamable $r1, 4, 0, $noreg :: (load 16 from %ir.input_2_cast, align 4)
; CHECK: renamable $r0, renamable $q3 = MVE_VLDRWU32_post killed renamable $r0, 4, 0, $noreg :: (load 16 from %ir.input_1_cast, align 4)		; CHECK: renamable $r0, renamable $q3 = MVE_VLDRWU32_post killed renamable $r0, 4, 0, $noreg :: (load 16 from %ir.input_1_cast, align 4)
; CHECK: renamable $q2 = MVE_VADD_qr_i32 killed renamable $q2, renamable $r3, 0, $noreg, undef renamable $q2		; CHECK: renamable $q2 = MVE_VADD_qr_i32 killed renamable $q2, renamable $r3, 0, $noreg, undef renamable $q2
; CHECK: renamable $q3 = MVE_VADD_qr_i32 killed renamable $q3, renamable $r2, 0, $noreg, undef renamable $q3		; CHECK: renamable $q3 = MVE_VADD_qr_i32 killed renamable $q3, renamable $r2, 0, $noreg, undef renamable $q3
; CHECK: renamable $r12 = t2SUBri killed renamable $r12, 4, 14, $noreg, $noreg
; CHECK: renamable $q2 = MVE_VMULi32 killed renamable $q3, killed renamable $q2, 0, $noreg, undef renamable $q2		; CHECK: renamable $q2 = MVE_VMULi32 killed renamable $q3, killed renamable $q2, 0, $noreg, undef renamable $q2
; CHECK: renamable $q2 = MVE_VADD_qr_i32 killed renamable $q2, renamable $r4, 0, $noreg, undef renamable $q2		; CHECK: renamable $q2 = MVE_VADD_qr_i32 killed renamable $q2, renamable $r4, 0, $noreg, undef renamable $q2
; CHECK: renamable $q2 = MVE_VMAXu32 killed renamable $q2, renamable $q1, 0, $noreg, undef renamable $q2		; CHECK: renamable $q2 = MVE_VMAXu32 killed renamable $q2, renamable $q1, 0, $noreg, undef renamable $q2
; CHECK: renamable $q2 = MVE_VMINu32 killed renamable $q2, renamable $q0, 0, $noreg, undef renamable $q2		; CHECK: renamable $q2 = MVE_VMINu32 killed renamable $q2, renamable $q0, 0, $noreg, undef renamable $q2
; CHECK: renamable $r5 = MVE_VSTRWU32_post killed renamable $q2, killed renamable $r5, 4, 0, killed $noreg :: (store 16 into %ir.output_cast, align 4)		; CHECK: renamable $r5 = MVE_VSTRWU32_post killed renamable $q2, killed renamable $r5, 4, 0, killed $noreg :: (store 16 into %ir.output_cast, align 4)
; CHECK: $lr = MVE_LETP killed renamable $lr, %bb.2		; CHECK: $lr = MVE_LETP killed renamable $lr, %bb.2
; CHECK: bb.3.for.cond.cleanup:		; CHECK: bb.3.for.cond.cleanup:
; CHECK: $r0, dead $cpsr = tMOVi8 0, 14, $noreg		; CHECK: $r0, dead $cpsr = tMOVi8 0, 14, $noreg
▲ Show 20 Lines • Show All 54 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/LowOverheadLoops/vmldava_in_vpt.mir

	Show First 20 Lines • Show All 133 Lines • ▼ Show 20 Lines
	callSites: []			callSites: []
	constants: []			constants: []
	machineFunctionInfo: {}			machineFunctionInfo: {}
	body: \|			body: \|
	; CHECK-LABEL: name: vmldava_in_vpt			; CHECK-LABEL: name: vmldava_in_vpt
	; CHECK: bb.0.entry:			; CHECK: bb.0.entry:
	; CHECK: successors: %bb.1(0x40000000), %bb.3(0x40000000)			; CHECK: successors: %bb.1(0x40000000), %bb.3(0x40000000)
	; CHECK: liveins: $lr, $r0, $r1, $r2, $r3, $r4, $r5, $r6, $r7			; CHECK: liveins: $lr, $r0, $r1, $r2, $r3, $r4, $r5, $r6, $r7
	; CHECK: frame-setup tPUSH 14, $noreg, killed $r4, $r5, killed $r6, killed $r7, killed $lr, implicit-def $sp, implicit $sp			; CHECK: frame-setup tPUSH 14, $noreg, killed $r4, killed $r5, killed $r6, killed $r7, killed $lr, implicit-def $sp, implicit $sp
	; CHECK: frame-setup CFI_INSTRUCTION def_cfa_offset 20			; CHECK: frame-setup CFI_INSTRUCTION def_cfa_offset 20
	; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4			; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4
	; CHECK: frame-setup CFI_INSTRUCTION offset $r7, -8			; CHECK: frame-setup CFI_INSTRUCTION offset $r7, -8
	; CHECK: frame-setup CFI_INSTRUCTION offset $r6, -12			; CHECK: frame-setup CFI_INSTRUCTION offset $r6, -12
	; CHECK: frame-setup CFI_INSTRUCTION offset $r5, -16			; CHECK: frame-setup CFI_INSTRUCTION offset $r5, -16
	; CHECK: frame-setup CFI_INSTRUCTION offset $r4, -20			; CHECK: frame-setup CFI_INSTRUCTION offset $r4, -20
	; CHECK: renamable $r7 = tLDRspi $sp, 10, 14, $noreg :: (load 4 from %fixed-stack.5)			; CHECK: renamable $r7 = tLDRspi $sp, 10, 14, $noreg :: (load 4 from %fixed-stack.5)
	; CHECK: renamable $r12 = t2MOVi 0, 14, $noreg, $noreg			; CHECK: renamable $r12 = t2MOVi 0, 14, $noreg, $noreg
	; CHECK: dead $lr = MVE_WLSTP_32 killed renamable $r7, %bb.3			; CHECK: $lr = MVE_WLSTP_32 killed renamable $r7, %bb.3
	; CHECK: bb.1.for.body.lr.ph:			; CHECK: bb.1.for.body.lr.ph:
	; CHECK: successors: %bb.2(0x80000000)			; CHECK: successors: %bb.2(0x80000000)
	; CHECK: liveins: $r0, $r1, $r2, $r3, $r5			; CHECK: liveins: $lr, $r0, $r1, $r2, $r3
	; CHECK: $r6 = tMOVr killed $r5, 14, $noreg
	; CHECK: $r5, $r12 = t2LDRDi8 $sp, 32, 14, $noreg :: (load 4 from %fixed-stack.3), (load 4 from %fixed-stack.4, align 8)			; CHECK: $r5, $r12 = t2LDRDi8 $sp, 32, 14, $noreg :: (load 4 from %fixed-stack.3), (load 4 from %fixed-stack.4, align 8)
	; CHECK: renamable $r4 = tLDRspi $sp, 5, 14, $noreg :: (load 4 from %fixed-stack.0, align 8)			; CHECK: renamable $r4 = tLDRspi $sp, 5, 14, $noreg :: (load 4 from %fixed-stack.0, align 8)
	; CHECK: renamable $q0 = MVE_VDUP32 killed renamable $r12, 0, $noreg, undef renamable $q0			; CHECK: renamable $q0 = MVE_VDUP32 killed renamable $r12, 0, $noreg, undef renamable $q0
	; CHECK: renamable $q1 = MVE_VDUP32 killed renamable $r5, 0, $noreg, undef renamable $q1			; CHECK: renamable $q1 = MVE_VDUP32 killed renamable $r5, 0, $noreg, undef renamable $q1
	; CHECK: renamable $r12 = t2MOVi 0, 14, $noreg, $noreg			; CHECK: renamable $r12 = t2MOVi 0, 14, $noreg, $noreg
	; CHECK: bb.2.for.body:			; CHECK: bb.2.for.body:
	; CHECK: successors: %bb.2(0x7c000000), %bb.3(0x04000000)			; CHECK: successors: %bb.2(0x7c000000), %bb.3(0x04000000)
	; CHECK: liveins: $q0, $q1, $r0, $r1, $r2, $r3, $r4, $r6, $r12			; CHECK: liveins: $lr, $q0, $q1, $r0, $r1, $r2, $r3, $r4, $r12
	; CHECK: renamable $r1, renamable $q2 = MVE_VLDRWU32_post killed renamable $r1, 4, 0, $noreg :: (load 16 from %ir.input_2_cast, align 4)			; CHECK: renamable $r1, renamable $q2 = MVE_VLDRWU32_post killed renamable $r1, 4, 0, $noreg :: (load 16 from %ir.input_2_cast, align 4)
	; CHECK: renamable $r0, renamable $q3 = MVE_VLDRWU32_post killed renamable $r0, 4, 0, $noreg :: (load 16 from %ir.input_1_cast, align 4)			; CHECK: renamable $r0, renamable $q3 = MVE_VLDRWU32_post killed renamable $r0, 4, 0, $noreg :: (load 16 from %ir.input_1_cast, align 4)
	; CHECK: renamable $q2 = MVE_VADD_qr_i32 killed renamable $q2, renamable $r3, 0, $noreg, undef renamable $q2			; CHECK: renamable $q2 = MVE_VADD_qr_i32 killed renamable $q2, renamable $r3, 0, $noreg, undef renamable $q2
	; CHECK: renamable $q3 = MVE_VADD_qr_i32 killed renamable $q3, renamable $r2, 0, $noreg, undef renamable $q3			; CHECK: renamable $q3 = MVE_VADD_qr_i32 killed renamable $q3, renamable $r2, 0, $noreg, undef renamable $q3
	; CHECK: $lr = tMOVr $r6, 14, $noreg
	; CHECK: renamable $q2 = MVE_VMULi32 killed renamable $q3, killed renamable $q2, 0, $noreg, undef renamable $q2			; CHECK: renamable $q2 = MVE_VMULi32 killed renamable $q3, killed renamable $q2, 0, $noreg, undef renamable $q2
	; CHECK: renamable $r6, dead $cpsr = tSUBi8 killed $r6, 1, 14, $noreg
	; CHECK: renamable $q2 = MVE_VADD_qr_i32 killed renamable $q2, renamable $r4, 0, $noreg, undef renamable $q2			; CHECK: renamable $q2 = MVE_VADD_qr_i32 killed renamable $q2, renamable $r4, 0, $noreg, undef renamable $q2
	; CHECK: renamable $q2 = MVE_VMAXu32 killed renamable $q2, renamable $q1, 0, $noreg, undef renamable $q2			; CHECK: renamable $q2 = MVE_VMAXu32 killed renamable $q2, renamable $q1, 0, $noreg, undef renamable $q2
	; CHECK: renamable $q3 = MVE_VMINu32 renamable $q2, renamable $q0, 0, $noreg, undef renamable $q3			; CHECK: renamable $q3 = MVE_VMINu32 renamable $q2, renamable $q0, 0, $noreg, undef renamable $q3
	; CHECK: renamable $r12 = MVE_VMLADAVas32 killed renamable $r12, killed renamable $q3, killed renamable $q2, 0, killed $noreg			; CHECK: renamable $r12 = MVE_VMLADAVas32 killed renamable $r12, killed renamable $q3, killed renamable $q2, 0, killed $noreg
	; CHECK: dead $lr = MVE_LETP killed renamable $lr, %bb.2			; CHECK: $lr = MVE_LETP killed renamable $lr, %bb.2
	; CHECK: bb.3.for.cond.cleanup:			; CHECK: bb.3.for.cond.cleanup:
	; CHECK: liveins: $r12			; CHECK: liveins: $r12
	; CHECK: $r0 = tMOVr killed $r12, 14, $noreg			; CHECK: $r0 = tMOVr killed $r12, 14, $noreg
	; CHECK: tPOP_RET 14, $noreg, def $r4, def $r5, def $r6, def $r7, def $pc, implicit killed $r0			; CHECK: tPOP_RET 14, $noreg, def $r4, def $r5, def $r6, def $r7, def $pc, implicit killed $r0
	bb.0.entry:			bb.0.entry:
	successors: %bb.1(0x40000000), %bb.3(0x40000000)			successors: %bb.1(0x40000000), %bb.3(0x40000000)
	liveins: $r0, $r1, $r2, $r3, $r4, $r5, $r6, $r7, $lr			liveins: $r0, $r1, $r2, $r3, $r4, $r5, $r6, $r7, $lr

	▲ Show 20 Lines • Show All 56 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/LowOverheadLoops/wlstp.mir

Show First 20 Lines • Show All 189 Lines • ▼ Show 20 Lines	body: \|
; CHECK-LABEL: name: test_wlstp8		; CHECK-LABEL: name: test_wlstp8
; CHECK: bb.0.entry:		; CHECK: bb.0.entry:
; CHECK: successors: %bb.3(0x40000000), %bb.1(0x40000000)		; CHECK: successors: %bb.3(0x40000000), %bb.1(0x40000000)
; CHECK: liveins: $lr, $r0, $r1, $r2, $r3, $r4		; CHECK: liveins: $lr, $r0, $r1, $r2, $r3, $r4
; CHECK: frame-setup tPUSH 14, $noreg, killed $r4, killed $lr, implicit-def $sp, implicit $sp		; CHECK: frame-setup tPUSH 14, $noreg, killed $r4, killed $lr, implicit-def $sp, implicit $sp
; CHECK: frame-setup CFI_INSTRUCTION def_cfa_offset 8		; CHECK: frame-setup CFI_INSTRUCTION def_cfa_offset 8
; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4		; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4
; CHECK: frame-setup CFI_INSTRUCTION offset $r4, -8		; CHECK: frame-setup CFI_INSTRUCTION offset $r4, -8
; CHECK: $lr = MVE_WLSTP_8 renamable $r3, %bb.1		; CHECK: $lr = MVE_WLSTP_8 killed renamable $r3, %bb.1
; CHECK: tB %bb.3, 14, $noreg		; CHECK: tB %bb.3, 14, $noreg
; CHECK: bb.1.vector.ph:		; CHECK: bb.1.vector.ph:
; CHECK: successors: %bb.2(0x80000000)		; CHECK: successors: %bb.2(0x80000000)
; CHECK: liveins: $lr, $r0, $r1, $r2, $r3		; CHECK: liveins: $lr, $r0, $r1, $r2
; CHECK: renamable $r12 = t2MOVi 0, 14, $noreg, $noreg		; CHECK: renamable $r12 = t2MOVi 0, 14, $noreg, $noreg
; CHECK: bb.2.vector.body:		; CHECK: bb.2.vector.body:
; CHECK: successors: %bb.3(0x04000000), %bb.2(0x7c000000)		; CHECK: successors: %bb.3(0x04000000), %bb.2(0x7c000000)
; CHECK: liveins: $lr, $r0, $r1, $r2, $r3, $r12		; CHECK: liveins: $lr, $r0, $r1, $r2, $r12
; CHECK: renamable $r4 = t2ADDrr renamable $r1, renamable $r12, 14, $noreg, $noreg		; CHECK: renamable $r4 = t2ADDrr renamable $r1, renamable $r12, 14, $noreg, $noreg
; CHECK: renamable $q0 = MVE_VLDRBU8 killed renamable $r4, 0, 0, $noreg :: (load 16 from %ir.scevgep45, align 1)		; CHECK: renamable $q0 = MVE_VLDRBU8 killed renamable $r4, 0, 0, $noreg :: (load 16 from %ir.scevgep45, align 1)
; CHECK: renamable $r4 = t2ADDrr renamable $r2, renamable $r12, 14, $noreg, $noreg		; CHECK: renamable $r4 = t2ADDrr renamable $r2, renamable $r12, 14, $noreg, $noreg
; CHECK: renamable $q1 = MVE_VLDRBU8 killed renamable $r4, 0, 0, $noreg :: (load 16 from %ir.scevgep23, align 1)		; CHECK: renamable $q1 = MVE_VLDRBU8 killed renamable $r4, 0, 0, $noreg :: (load 16 from %ir.scevgep23, align 1)
; CHECK: renamable $r4 = t2ADDrr renamable $r0, renamable $r12, 14, $noreg, $noreg		; CHECK: renamable $r4 = t2ADDrr renamable $r0, renamable $r12, 14, $noreg, $noreg
; CHECK: renamable $r12 = t2ADDri killed renamable $r12, 16, 14, $noreg, $noreg		; CHECK: renamable $r12 = t2ADDri killed renamable $r12, 16, 14, $noreg, $noreg
; CHECK: renamable $r3, dead $cpsr = tSUBi8 killed renamable $r3, 16, 14, $noreg
; CHECK: renamable $q0 = MVE_VMULi8 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0		; CHECK: renamable $q0 = MVE_VMULi8 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0
; CHECK: MVE_VSTRBU8 killed renamable $q0, killed renamable $r4, 0, 0, killed $noreg :: (store 16 into %ir.scevgep1, align 1)		; CHECK: MVE_VSTRBU8 killed renamable $q0, killed renamable $r4, 0, 0, killed $noreg :: (store 16 into %ir.scevgep1, align 1)
; CHECK: $lr = MVE_LETP killed renamable $lr, %bb.2		; CHECK: $lr = MVE_LETP killed renamable $lr, %bb.2
; CHECK: bb.3.for.cond.cleanup:		; CHECK: bb.3.for.cond.cleanup:
; CHECK: tPOP_RET 14, $noreg, def $r4, def $pc		; CHECK: tPOP_RET 14, $noreg, def $r4, def $pc
bb.0.entry:		bb.0.entry:
successors: %bb.3(0x40000000), %bb.1(0x40000000)		successors: %bb.3(0x40000000), %bb.1(0x40000000)
liveins: $r0, $r1, $r2, $r3, $r4, $lr		liveins: $r0, $r1, $r2, $r3, $r4, $lr
▲ Show 20 Lines • Show All 91 Lines • ▼ Show 20 Lines	body: \|
; CHECK-LABEL: name: test_wlstp16		; CHECK-LABEL: name: test_wlstp16
; CHECK: bb.0.entry:		; CHECK: bb.0.entry:
; CHECK: successors: %bb.2(0x40000000), %bb.1(0x40000000)		; CHECK: successors: %bb.2(0x40000000), %bb.1(0x40000000)
; CHECK: liveins: $lr, $r0, $r1, $r2, $r3, $r7		; CHECK: liveins: $lr, $r0, $r1, $r2, $r3, $r7
; CHECK: frame-setup tPUSH 14, $noreg, killed $r7, killed $lr, implicit-def $sp, implicit $sp		; CHECK: frame-setup tPUSH 14, $noreg, killed $r7, killed $lr, implicit-def $sp, implicit $sp
; CHECK: frame-setup CFI_INSTRUCTION def_cfa_offset 8		; CHECK: frame-setup CFI_INSTRUCTION def_cfa_offset 8
; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4		; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4
; CHECK: frame-setup CFI_INSTRUCTION offset $r7, -8		; CHECK: frame-setup CFI_INSTRUCTION offset $r7, -8
; CHECK: $lr = MVE_WLSTP_16 renamable $r3, %bb.1		; CHECK: $lr = MVE_WLSTP_16 killed renamable $r3, %bb.1
; CHECK: tB %bb.2, 14, $noreg		; CHECK: tB %bb.2, 14, $noreg
; CHECK: bb.1.vector.body:		; CHECK: bb.1.vector.body:
; CHECK: successors: %bb.2(0x04000000), %bb.1(0x7c000000)		; CHECK: successors: %bb.2(0x04000000), %bb.1(0x7c000000)
; CHECK: liveins: $lr, $r0, $r1, $r2, $r3		; CHECK: liveins: $lr, $r0, $r1, $r2
; CHECK: renamable $q0 = MVE_VLDRHU16 renamable $r1, 0, 0, $noreg :: (load 16 from %ir.lsr.iv57, align 2)		; CHECK: renamable $q0 = MVE_VLDRHU16 renamable $r1, 0, 0, $noreg :: (load 16 from %ir.lsr.iv57, align 2)
; CHECK: renamable $q1 = MVE_VLDRHU16 renamable $r2, 0, 0, $noreg :: (load 16 from %ir.lsr.iv24, align 2)		; CHECK: renamable $q1 = MVE_VLDRHU16 renamable $r2, 0, 0, $noreg :: (load 16 from %ir.lsr.iv24, align 2)
; CHECK: renamable $q0 = MVE_VMULi16 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0		; CHECK: renamable $q0 = MVE_VMULi16 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0
; CHECK: MVE_VSTRHU16 killed renamable $q0, renamable $r0, 0, 0, killed $noreg :: (store 16 into %ir.lsr.iv1, align 2)		; CHECK: MVE_VSTRHU16 killed renamable $q0, renamable $r0, 0, 0, killed $noreg :: (store 16 into %ir.lsr.iv1, align 2)
; CHECK: renamable $r1, dead $cpsr = tADDi8 killed renamable $r1, 16, 14, $noreg		; CHECK: renamable $r1, dead $cpsr = tADDi8 killed renamable $r1, 16, 14, $noreg
; CHECK: renamable $r2, dead $cpsr = tADDi8 killed renamable $r2, 16, 14, $noreg		; CHECK: renamable $r2, dead $cpsr = tADDi8 killed renamable $r2, 16, 14, $noreg
; CHECK: renamable $r0, dead $cpsr = tADDi8 killed renamable $r0, 16, 14, $noreg		; CHECK: renamable $r0, dead $cpsr = tADDi8 killed renamable $r0, 16, 14, $noreg
; CHECK: renamable $r3, dead $cpsr = tSUBi8 killed renamable $r3, 8, 14, $noreg
; CHECK: $lr = MVE_LETP killed renamable $lr, %bb.1		; CHECK: $lr = MVE_LETP killed renamable $lr, %bb.1
; CHECK: bb.2.for.cond.cleanup:		; CHECK: bb.2.for.cond.cleanup:
; CHECK: tPOP_RET 14, $noreg, def $r7, def $pc		; CHECK: tPOP_RET 14, $noreg, def $r7, def $pc
bb.0.entry:		bb.0.entry:
successors: %bb.2(0x40000000), %bb.1(0x40000000)		successors: %bb.2(0x40000000), %bb.1(0x40000000)
liveins: $r0, $r1, $r2, $r3, $r7, $lr		liveins: $r0, $r1, $r2, $r3, $r7, $lr

frame-setup tPUSH 14, $noreg, killed $r7, killed $lr, implicit-def $sp, implicit $sp		frame-setup tPUSH 14, $noreg, killed $r7, killed $lr, implicit-def $sp, implicit $sp
Show All 17 Lines	bb.1.vector.body:
renamable $q0 = MVE_VLDRHU16 renamable $r1, 0, 1, renamable $vpr :: (load 16 from %ir.lsr.iv57, align 2)		renamable $q0 = MVE_VLDRHU16 renamable $r1, 0, 1, renamable $vpr :: (load 16 from %ir.lsr.iv57, align 2)
renamable $q1 = MVE_VLDRHU16 renamable $r2, 0, 1, renamable $vpr :: (load 16 from %ir.lsr.iv24, align 2)		renamable $q1 = MVE_VLDRHU16 renamable $r2, 0, 1, renamable $vpr :: (load 16 from %ir.lsr.iv24, align 2)
renamable $q0 = MVE_VMULi16 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0		renamable $q0 = MVE_VMULi16 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0
MVE_VPST 8, implicit $vpr		MVE_VPST 8, implicit $vpr
MVE_VSTRHU16 killed renamable $q0, renamable $r0, 0, 1, killed renamable $vpr :: (store 16 into %ir.lsr.iv1, align 2)		MVE_VSTRHU16 killed renamable $q0, renamable $r0, 0, 1, killed renamable $vpr :: (store 16 into %ir.lsr.iv1, align 2)
renamable $r1, dead $cpsr = tADDi8 killed renamable $r1, 16, 14, $noreg		renamable $r1, dead $cpsr = tADDi8 killed renamable $r1, 16, 14, $noreg
renamable $r2, dead $cpsr = tADDi8 killed renamable $r2, 16, 14, $noreg		renamable $r2, dead $cpsr = tADDi8 killed renamable $r2, 16, 14, $noreg
renamable $r0, dead $cpsr = tADDi8 killed renamable $r0, 16, 14, $noreg		renamable $r0, dead $cpsr = tADDi8 killed renamable $r0, 16, 14, $noreg
renamable $r3, dead $cpsr = tSUBi8 killed renamable $r3, 8, 14, $noreg		renamable $r3, dead $cpsr = tSUBi8 killed renamable $r3, 8, 14, $noreg
		SjoerdMeijerUnsubmitted Not Done Reply Inline Actions Ah, here's tSUBi8. SjoerdMeijer: Ah, here's tSUBi8.
		samparkerAuthorUnsubmitted Done Reply Inline Actions And the other is in vctp-subi3.mir. samparker: And the other is in vctp-subi3.mir.
		SjoerdMeijerUnsubmitted Not Done Reply Inline Actions ah, missed that one! SjoerdMeijer: ah, missed that one!
renamable $lr = t2LoopDec killed renamable $lr, 1		renamable $lr = t2LoopDec killed renamable $lr, 1
t2LoopEnd renamable $lr, %bb.1, implicit-def dead $cpsr		t2LoopEnd renamable $lr, %bb.1, implicit-def dead $cpsr
tB %bb.2, 14, $noreg		tB %bb.2, 14, $noreg

bb.2.for.cond.cleanup:		bb.2.for.cond.cleanup:
tPOP_RET 14, $noreg, def $r7, def $pc		tPOP_RET 14, $noreg, def $r7, def $pc

...		...
▲ Show 20 Lines • Show All 141 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[ARM][MVE] Tail Predicate IsSafeToRemove
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 238756

llvm/include/llvm/CodeGen/ReachingDefAnalysis.h

llvm/lib/CodeGen/ReachingDefAnalysis.cpp

llvm/lib/Target/ARM/ARMBaseInstrInfo.h

llvm/lib/Target/ARM/ARMInstrThumb2.td

llvm/lib/Target/ARM/ARMLowOverheadLoops.cpp

llvm/lib/Target/ARM/Utils/ARMBaseInfo.h

llvm/test/CodeGen/Thumb2/LowOverheadLoops/dont-remove-loop-update.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/dont-remove-loop-update2.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/dont-remove-loop-update3.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/fast-fp-loops.ll

llvm/test/CodeGen/Thumb2/LowOverheadLoops/incorrect-sub-16.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/incorrect-sub-32.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/incorrect-sub-8.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/mov-lr-terminator.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/move-def-before-start.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/move-start-after-def.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/mve-tail-data-types.ll

llvm/test/CodeGen/Thumb2/LowOverheadLoops/remove-elem-moves.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/unsafe-use-after.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/vctp-in-vpt-2.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/vctp-in-vpt.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/vctp-subi3.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/vctp-subri.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/vctp-subri12.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/vmaxmin_vpred_r.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/vmldava_in_vpt.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/wlstp.mir

This is an archive of the discontinued LLVM Phabricator instance.

[ARM][MVE] Tail Predicate IsSafeToRemoveClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 238756

llvm/include/llvm/CodeGen/ReachingDefAnalysis.h

llvm/lib/CodeGen/ReachingDefAnalysis.cpp

llvm/lib/Target/ARM/ARMBaseInstrInfo.h

llvm/lib/Target/ARM/ARMInstrThumb2.td

llvm/lib/Target/ARM/ARMLowOverheadLoops.cpp

llvm/lib/Target/ARM/Utils/ARMBaseInfo.h

llvm/test/CodeGen/Thumb2/LowOverheadLoops/dont-remove-loop-update.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/dont-remove-loop-update2.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/dont-remove-loop-update3.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/fast-fp-loops.ll

llvm/test/CodeGen/Thumb2/LowOverheadLoops/incorrect-sub-16.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/incorrect-sub-32.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/incorrect-sub-8.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/mov-lr-terminator.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/move-def-before-start.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/move-start-after-def.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/mve-tail-data-types.ll

llvm/test/CodeGen/Thumb2/LowOverheadLoops/remove-elem-moves.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/unsafe-use-after.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/vctp-in-vpt-2.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/vctp-in-vpt.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/vctp-subi3.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/vctp-subri.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/vctp-subri12.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/vmaxmin_vpred_r.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/vmldava_in_vpt.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/wlstp.mir

[ARM][MVE] Tail Predicate IsSafeToRemove
ClosedPublic