This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
include/llvm/CodeGen/
-
llvm/
-
CodeGen/
1
ReachingDefAnalysis.h
-
lib/
-
CodeGen/
-
ReachingDefAnalysis.cpp
-
Target/ARM/
-
ARM/
2/6
ARMLowOverheadLoops.cpp
-
test/CodeGen/Thumb2/
-
CodeGen/
-
Thumb2/
-
LowOverheadLoops/
-
disjoint-vcmp.mir
-
extract-element.mir
-
no-vpsel-liveout.mir
-
reductions.ll
-
varying-outer-2d-reduction.ll
-
vctp-add-operand-liveout.mir
-
vector-arith-codegen.ll
-
wlstp.mir
-
wrong-vctp-opcode-liveout.mir
-
wrong-vctp-operand-liveout.mir
-
mve-gather-scatter-tailpred.ll
-
mve-pred-vctpvpsel.ll

Differential D86613

[ARM][LowOverheadLoops] Liveouts and reductions
ClosedPublic

Authored by samparker on Aug 26 2020, 4:58 AM.

Download Raw Diff

Details

Reviewers

dmgreen
SjoerdMeijer
anwel
samtebbs

Commits

rGb30adfb5295e: [ARM][LowOverheadLoops] Liveouts and reductions

Summary

I've removed the code that tried to look for reduction patterns, since the vectorizer and isel can now produce predicated reductions within the loop body. This has required some reorganisation and fixes around live-out and predication checks, as well as looking for cases where an input/output is initialised to zero.
I've only changed one test, one_loop_add_add_v16i8 in reductions.ll, to represent what IR should now be generated, but the rest of those functions remain untouched.
A lot of other tests look much worse because tail predication is no longer happening (probably more correct though!) and we don't expect to see those types of reductions anymore. I didn't want to make a whole bunch of test changes because enough of the existing tests have already changed and I don't want those to get lost with lots of input change.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

samparker created this revision.Aug 26 2020, 4:58 AM

Herald added a project: Restricted Project. · View Herald TranscriptAug 26 2020, 4:58 AM

Herald added subscribers: danielkiss, hiraditya, kristof.beyls. · View Herald Transcript

samparker requested review of this revision.Aug 26 2020, 4:58 AM

Harbormaster completed remote builds in B69581: Diff 287928.Aug 26 2020, 5:30 AM

Think I've fixed the confusing cases of dodgy predication happening, when the vctp needs to be live in an exit block.

samparker edited the summary of this revision. (Show Details)Aug 26 2020, 7:07 AM

samparker added inline comments.Aug 26 2020, 7:09 AM

llvm/test/CodeGen/Thumb2/LowOverheadLoops/unpredload.ll
49 ↗	(On Diff #287966)	@dmgreen I still need to look at this one.

Fixed the 'bad' test case.

That's good amount of red/deletions!
Read this for the first time, and looks very reasonable. I have one question inline for now while I go over this again.

llvm/include/llvm/CodeGen/ReachingDefAnalysis.h
208	nit: `Uses` -> `Defs`?
llvm/lib/Target/ARM/ARMLowOverheadLoops.cpp
643	Is this the only instruction that could zero initialise that def?
656	nit: it's -> its

samparker added inline comments.Aug 26 2020, 11:43 PM

llvm/lib/Target/ARM/ARMLowOverheadLoops.cpp
643	It's the only way that I saw, but there's probably more. It's the common and easy case to catch though.

SjoerdMeijer added inline comments.Aug 27 2020, 6:50 AM

llvm/lib/Target/ARM/ARMLowOverheadLoops.cpp
643	ah, because how we use `IsZeroInit`, we are on the safe side here, right? I missed that earlier. Not sure, perhaps XOR-ing the same register is the other common case?

samparker added inline comments.Aug 27 2020, 11:50 PM

llvm/lib/Target/ARM/ARMLowOverheadLoops.cpp
643	I don't think that's something I've seen, I guess that a move immediate is the obvious pattern to match in isel.

LGTM

llvm/lib/Target/ARM/ARMLowOverheadLoops.cpp
767	nit: it's

This revision is now accepted and ready to land.Aug 28 2020, 12:24 AM

Closed by commit rGb30adfb5295e: [ARM][LowOverheadLoops] Liveouts and reductions (authored by samparker). · Explain WhyAug 28 2020, 5:56 AM

This revision was automatically updated to reflect the committed changes.

samparker added a commit: rGb30adfb5295e: [ARM][LowOverheadLoops] Liveouts and reductions.

Revision Contents

Path

Size

llvm/

include/

llvm/

CodeGen/

ReachingDefAnalysis.h

5 lines

lib/

CodeGen/

ReachingDefAnalysis.cpp

13 lines

Target/

ARM/

ARMLowOverheadLoops.cpp

272 lines

test/

CodeGen/

Thumb2/

LowOverheadLoops/

15 lines

21 lines

21 lines

207 lines

varying-outer-2d-reduction.ll

48 lines

vctp-add-operand-liveout.mir

20 lines

vector-arith-codegen.ll

79 lines

wlstp.mir

20 lines

wrong-vctp-opcode-liveout.mir

10 lines

wrong-vctp-operand-liveout.mir

20 lines

mve-gather-scatter-tailpred.ll

74 lines

mve-pred-vctpvpsel.ll

31 lines

Diff 288589

llvm/include/llvm/CodeGen/ReachingDefAnalysis.h

Show First 20 Lines • Show All 196 Lines • ▼ Show 20 Lines	public:
bool getLiveInUses(MachineBasicBlock *MBB, int PhysReg,		bool getLiveInUses(MachineBasicBlock *MBB, int PhysReg,
InstSet &Uses) const;		InstSet &Uses) const;

/// Collect the users of the value stored in PhysReg, which is defined		/// Collect the users of the value stored in PhysReg, which is defined
/// by MI.		/// by MI.
void getGlobalUses(MachineInstr *MI, int PhysReg,		void getGlobalUses(MachineInstr *MI, int PhysReg,
InstSet &Uses) const;		InstSet &Uses) const;

		/// Collect all possible definitions of the value stored in PhysReg, which is
		/// used by MI.
		void getGlobalReachingDefs(MachineInstr *MI, int PhysReg,
		InstSet &Defs) const;
		SjoerdMeijerUnsubmitted Not Done Reply Inline Actions nit: `Uses` -> `Defs`? SjoerdMeijer: nit: `Uses` -> `Defs`?

/// Return whether From can be moved forwards to just before To.		/// Return whether From can be moved forwards to just before To.
bool isSafeToMoveForwards(MachineInstr From, MachineInstr To) const;		bool isSafeToMoveForwards(MachineInstr From, MachineInstr To) const;

/// Return whether From can be moved backwards to just after To.		/// Return whether From can be moved backwards to just after To.
bool isSafeToMoveBackwards(MachineInstr From, MachineInstr To) const;		bool isSafeToMoveBackwards(MachineInstr From, MachineInstr To) const;

/// Assuming MI is dead, recursively search the incoming operands which are		/// Assuming MI is dead, recursively search the incoming operands which are
/// killed by MI and collect those that would become dead.		/// killed by MI and collect those that would become dead.
▲ Show 20 Lines • Show All 60 Lines • Show Last 20 Lines

llvm/lib/CodeGen/ReachingDefAnalysis.cpp

Show First 20 Lines • Show All 383 Lines • ▼ Show 20 Lines	while (!ToVisit.empty()) {
if (getLiveInUses(MBB, PhysReg, Uses))		if (getLiveInUses(MBB, PhysReg, Uses))
ToVisit.insert(ToVisit.end(), MBB->successors().begin(),		ToVisit.insert(ToVisit.end(), MBB->successors().begin(),
MBB->successors().end());		MBB->successors().end());
Visited.insert(MBB);		Visited.insert(MBB);
}		}
}		}
}		}

		void
		ReachingDefAnalysis::getGlobalReachingDefs(MachineInstr *MI, int PhysReg,
		InstSet &Defs) const {
		if (auto *Def = getUniqueReachingMIDef(MI, PhysReg)) {
		Defs.insert(Def);
		return;
		}

		SmallPtrSet<MachineBasicBlock *, 2> Visited;
		for (auto *MBB : MI->getParent()->predecessors())
		getLiveOuts(MBB, PhysReg, Defs);
		}

void ReachingDefAnalysis::getLiveOuts(MachineBasicBlock *MBB, int PhysReg,		void ReachingDefAnalysis::getLiveOuts(MachineBasicBlock *MBB, int PhysReg,
InstSet &Defs) const {		InstSet &Defs) const {
SmallPtrSet<MachineBasicBlock*, 2> VisitedBBs;		SmallPtrSet<MachineBasicBlock*, 2> VisitedBBs;
getLiveOuts(MBB, PhysReg, Defs, VisitedBBs);		getLiveOuts(MBB, PhysReg, Defs, VisitedBBs);
}		}

void		void
ReachingDefAnalysis::getLiveOuts(MachineBasicBlock *MBB, int PhysReg,		ReachingDefAnalysis::getLiveOuts(MachineBasicBlock *MBB, int PhysReg,
▲ Show 20 Lines • Show All 282 Lines • Show Last 20 Lines

llvm/lib/Target/ARM/ARMLowOverheadLoops.cpp

Show First 20 Lines • Show All 195 Lines • ▼ Show 20 Lines	public:
}		}

unsigned size() const { return Insts.size(); }		unsigned size() const { return Insts.size(); }
SmallVectorImpl<PredicatedMI> &getInsts() { return Insts; }		SmallVectorImpl<PredicatedMI> &getInsts() { return Insts; }
MachineInstr *getPredicateThen() const { return PredicateThen->MI; }		MachineInstr *getPredicateThen() const { return PredicateThen->MI; }
PredicatedMI *getDivergent() const { return Divergent; }		PredicatedMI *getDivergent() const { return Divergent; }
};		};

struct Reduction {
MachineInstr *Init;
MachineInstr &Copy;
MachineInstr &Reduce;
MachineInstr &VPSEL;

Reduction(MachineInstr Init, MachineInstr Mov, MachineInstr *Add,
MachineInstr *Sel)
: Init(Init), Copy(Mov), Reduce(Add), VPSEL(*Sel) { }
};

struct LowOverheadLoop {		struct LowOverheadLoop {

MachineLoop &ML;		MachineLoop &ML;
MachineBasicBlock *Preheader = nullptr;		MachineBasicBlock *Preheader = nullptr;
MachineLoopInfo &MLI;		MachineLoopInfo &MLI;
ReachingDefAnalysis &RDA;		ReachingDefAnalysis &RDA;
const TargetRegisterInfo &TRI;		const TargetRegisterInfo &TRI;
const ARMBaseInstrInfo &TII;		const ARMBaseInstrInfo &TII;
MachineFunction *MF = nullptr;		MachineFunction *MF = nullptr;
MachineInstr *InsertPt = nullptr;		MachineInstr *InsertPt = nullptr;
MachineInstr *Start = nullptr;		MachineInstr *Start = nullptr;
MachineInstr *Dec = nullptr;		MachineInstr *Dec = nullptr;
MachineInstr *End = nullptr;		MachineInstr *End = nullptr;
MachineInstr *VCTP = nullptr;		MachineInstr *VCTP = nullptr;
MachineOperand TPNumElements;		MachineOperand TPNumElements;
SmallPtrSet<MachineInstr*, 4> SecondaryVCTPs;		SmallPtrSet<MachineInstr*, 4> SecondaryVCTPs;
VPTBlock *CurrentBlock = nullptr;		VPTBlock *CurrentBlock = nullptr;
SetVector<MachineInstr*> CurrentPredicate;		SetVector<MachineInstr*> CurrentPredicate;
SmallVector<VPTBlock, 4> VPTBlocks;		SmallVector<VPTBlock, 4> VPTBlocks;
SmallPtrSet<MachineInstr*, 4> ToRemove;		SmallPtrSet<MachineInstr*, 4> ToRemove;
SmallVector<std::unique_ptr<Reduction>, 1> Reductions;
SmallPtrSet<MachineInstr*, 4> BlockMasksToRecompute;		SmallPtrSet<MachineInstr*, 4> BlockMasksToRecompute;
bool Revert = false;		bool Revert = false;
bool CannotTailPredicate = false;		bool CannotTailPredicate = false;

LowOverheadLoop(MachineLoop &ML, MachineLoopInfo &MLI,		LowOverheadLoop(MachineLoop &ML, MachineLoopInfo &MLI,
ReachingDefAnalysis &RDA, const TargetRegisterInfo &TRI,		ReachingDefAnalysis &RDA, const TargetRegisterInfo &TRI,
const ARMBaseInstrInfo &TII)		const ARMBaseInstrInfo &TII)
: ML(ML), MLI(MLI), RDA(RDA), TRI(TRI), TII(TII),		: ML(ML), MLI(MLI), RDA(RDA), TRI(TRI), TII(TII),
Show All 21 Lines	bool IsTailPredicationLegal() const {
!CannotTailPredicate && ML.getNumBlocks() == 1;		!CannotTailPredicate && ML.getNumBlocks() == 1;
}		}

// Check that the predication in the loop will be equivalent once we		// Check that the predication in the loop will be equivalent once we
// perform the conversion. Also ensure that we can provide the number		// perform the conversion. Also ensure that we can provide the number
// of elements to the loop start instruction.		// of elements to the loop start instruction.
bool ValidateTailPredicate(MachineInstr *StartInsertPt);		bool ValidateTailPredicate(MachineInstr *StartInsertPt);

// See whether the live-out instructions are a reduction that we can fixup
// later.
bool FindValidReduction(InstSet &LiveMIs, InstSet &LiveOutUsers);

// Check that any values available outside of the loop will be the same		// Check that any values available outside of the loop will be the same
// after tail predication conversion.		// after tail predication conversion.
bool ValidateLiveOuts();		bool ValidateLiveOuts();

// Is it safe to define LR with DLS/WLS?		// Is it safe to define LR with DLS/WLS?
// LR can be defined if it is the operand to start, because it's the same		// LR can be defined if it is the operand to start, because it's the same
// value, or if it's going to be equivalent to the operand to Start.		// value, or if it's going to be equivalent to the operand to Start.
MachineInstr *isSafeToDefineLR();		MachineInstr *isSafeToDefineLR();
▲ Show 20 Lines • Show All 75 Lines • ▼ Show 20 Lines	private:
void RevertWhile(MachineInstr *MI) const;		void RevertWhile(MachineInstr *MI) const;

bool RevertLoopDec(MachineInstr *MI) const;		bool RevertLoopDec(MachineInstr *MI) const;

void RevertLoopEnd(MachineInstr *MI, bool SkipCmp = false) const;		void RevertLoopEnd(MachineInstr *MI, bool SkipCmp = false) const;

void ConvertVPTBlocks(LowOverheadLoop &LoLoop);		void ConvertVPTBlocks(LowOverheadLoop &LoLoop);

void FixupReductions(LowOverheadLoop &LoLoop) const;

MachineInstr *ExpandLoopStart(LowOverheadLoop &LoLoop);		MachineInstr *ExpandLoopStart(LowOverheadLoop &LoLoop);

void Expand(LowOverheadLoop &LoLoop);		void Expand(LowOverheadLoop &LoLoop);

void IterationCountDCE(LowOverheadLoop &LoLoop);		void IterationCountDCE(LowOverheadLoop &LoLoop);
};		};
}		}

▲ Show 20 Lines • Show All 64 Lines • ▼ Show 20 Lines	for (auto &PredMI : Insts) {
LLVM_DEBUG(dbgs() << "ARM Loops: Can't convert: " << *PredMI.MI		LLVM_DEBUG(dbgs() << "ARM Loops: Can't convert: " << *PredMI.MI
<< " - which is predicated on:\n";		<< " - which is predicated on:\n";
for (auto *MI : PredMI.Predicates)		for (auto *MI : PredMI.Predicates)
dbgs() << " - " << *MI);		dbgs() << " - " << *MI);
return false;		return false;
}		}
}		}

if (!ValidateLiveOuts())		if (!ValidateLiveOuts()) {
		LLVM_DEBUG(dbgs() << "ARM Loops: Invalid live outs.\n");
return false;		return false;
		}

// For tail predication, we need to provide the number of elements, instead		// For tail predication, we need to provide the number of elements, instead
// of the iteration count, to the loop start instruction. The number of		// of the iteration count, to the loop start instruction. The number of
// elements is provided to the vctp instruction, so we need to check that		// elements is provided to the vctp instruction, so we need to check that
// we can use this register at InsertPt.		// we can use this register at InsertPt.
TPNumElements = VCTP->getOperand(1);		TPNumElements = VCTP->getOperand(1);
Register NumElements = TPNumElements.getReg();		Register NumElements = TPNumElements.getReg();

▲ Show 20 Lines • Show All 171 Lines • ▼ Show 20 Lines	static bool canGenerateNonZeros(const MachineInstr &MI) {
case ARM::MVE_VCLZs8:		case ARM::MVE_VCLZs8:
case ARM::MVE_VCLZs16:		case ARM::MVE_VCLZs16:
case ARM::MVE_VCLZs32:		case ARM::MVE_VCLZs32:
return true;		return true;
}		}
return false;		return false;
}		}


// Look at its register uses to see if it only can only receive zeros		// Look at its register uses to see if it only can only receive zeros
// into its false lanes which would then produce zeros. Also check that		// into its false lanes which would then produce zeros. Also check that
// the output register is also defined by an FalseLanesZero instruction		// the output register is also defined by an FalseLanesZero instruction
// so that if tail-predication happens, the lanes that aren't updated will		// so that if tail-predication happens, the lanes that aren't updated will
// still be zeros.		// still be zeros.
static bool producesFalseLanesZero(MachineInstr &MI,		static bool producesFalseLanesZero(MachineInstr &MI,
const TargetRegisterClass *QPRs,		const TargetRegisterClass *QPRs,
const ReachingDefAnalysis &RDA,		const ReachingDefAnalysis &RDA,
InstSet &FalseLanesZero) {		InstSet &FalseLanesZero) {
if (canGenerateNonZeros(MI))		if (canGenerateNonZeros(MI))
return false;		return false;

		bool isPredicated = isVectorPredicated(&MI);
		// Predicated loads will write zeros to the falsely predicated bytes of the
		// destination register.
		if (MI.mayLoad())
		return isPredicated;

		auto IsZeroInit = [](MachineInstr *Def) {
		return !isVectorPredicated(Def) &&
		Def->getOpcode() == ARM::MVE_VMOVimmi32 &&
		SjoerdMeijerUnsubmitted Not Done Reply Inline Actions Is this the only instruction that could zero initialise that def? SjoerdMeijer: Is this the only instruction that could zero initialise that def?
		samparkerAuthorUnsubmitted Done Reply Inline Actions It's the only way that I saw, but there's probably more. It's the common and easy case to catch though. samparker: It's the only way that I saw, but there's probably more. It's the common and easy case to catch…
		SjoerdMeijerUnsubmitted Not Done Reply Inline Actions ah, because how we use `IsZeroInit`, we are on the safe side here, right? I missed that earlier. Not sure, perhaps XOR-ing the same register is the other common case? SjoerdMeijer: ah, because how we use `IsZeroInit`, we are on the safe side here, right? I missed that earlier.
		samparkerAuthorUnsubmitted Done Reply Inline Actions I don't think that's something I've seen, I guess that a move immediate is the obvious pattern to match in isel. samparker: I don't think that's something I've seen, I guess that a move immediate is the obvious pattern…
		Def->getOperand(1).getImm() == 0;
		};

bool AllowScalars = isHorizontalReduction(MI);		bool AllowScalars = isHorizontalReduction(MI);
for (auto &MO : MI.operands()) {		for (auto &MO : MI.operands()) {
if (!MO.isReg() \|\| !MO.getReg())		if (!MO.isReg() \|\| !MO.getReg())
continue;		continue;
if (!isRegInClass(MO, QPRs) && AllowScalars)		if (!isRegInClass(MO, QPRs) && AllowScalars)
continue;		continue;
if (auto *OpDef = RDA.getMIOperand(&MI, MO))
if (FalseLanesZero.count(OpDef))
continue;
return false;
}
LLVM_DEBUG(dbgs() << "ARM Loops: Always False Zeros: " << MI);
return true;
}

bool
LowOverheadLoop::FindValidReduction(InstSet &LiveMIs, InstSet &LiveOutUsers) {
// Also check for reductions where the operation needs to be merging values
// from the last and previous loop iterations. This means an instruction
// producing a value and a vmov storing the value calculated in the previous
// iteration. So we can have two live-out regs, one produced by a vmov and
// both being consumed by a vpsel.
LLVM_DEBUG(dbgs() << "ARM Loops: Looking for reduction live-outs:\n";
for (auto *MI : LiveMIs)
dbgs() << " - " << *MI);

if (!Preheader)
return false;

// Expect a vmov, a vadd and a single vpsel user.
// TODO: This means we can't currently support multiple reductions in the
// loop.
if (LiveMIs.size() != 2 \|\| LiveOutUsers.size() != 1)
return false;

MachineInstr VPSEL = LiveOutUsers.begin();
if (VPSEL->getOpcode() != ARM::MVE_VPSEL)
return false;

unsigned VPRIdx = llvm::findFirstVPTPredOperandIdx(*VPSEL) + 1;
MachineInstr *Pred = RDA.getMIOperand(VPSEL, VPRIdx);
if (!Pred \|\| Pred != VCTP) {
LLVM_DEBUG(dbgs() << "ARM Loops: Not using equivalent predicate.\n");
return false;
}

MachineInstr *Reduce = RDA.getMIOperand(VPSEL, 1);
if (!Reduce)
return false;

assert(LiveMIs.count(Reduce) && "Expected MI to be live-out");

// TODO: Support more operations than VADD.
switch (VCTP->getOpcode()) {
default:
return false;
case ARM::MVE_VCTP8:
if (Reduce->getOpcode() != ARM::MVE_VADDi8)
return false;
break;
case ARM::MVE_VCTP16:
if (Reduce->getOpcode() != ARM::MVE_VADDi16)
return false;
break;
case ARM::MVE_VCTP32:
if (Reduce->getOpcode() != ARM::MVE_VADDi32)
return false;
break;
}

// Test that the reduce op is overwriting ones of its operands.
if (Reduce->getOperand(0).getReg() != Reduce->getOperand(1).getReg() &&
Reduce->getOperand(0).getReg() != Reduce->getOperand(2).getReg()) {
LLVM_DEBUG(dbgs() << "ARM Loops: Reducing op isn't overwriting itself.\n");
return false;
}

// Check that the VORR is actually a VMOV.
MachineInstr *Copy = RDA.getMIOperand(VPSEL, 2);
if (!Copy \|\| Copy->getOpcode() != ARM::MVE_VORR \|\|
!Copy->getOperand(1).isReg() \|\| !Copy->getOperand(2).isReg() \|\|
Copy->getOperand(1).getReg() != Copy->getOperand(2).getReg())
return false;

assert(LiveMIs.count(Copy) && "Expected MI to be live-out");		// Check that this instruction will produce zeros in its false lanes:
		// - If it only consumes false lanes zero or constant 0 (vmov #0)
// Check that the vadd and vmov are only used by each other and the vpsel.		// - If it's predicated, it only matters that it's def register already has
		SjoerdMeijerUnsubmitted Not Done Reply Inline Actions nit: it's -> its SjoerdMeijer: nit: it's -> its
SmallPtrSet<MachineInstr*, 2> CopyUsers;		// false lane zeros, so we can ignore the uses.
RDA.getGlobalUses(Copy, Copy->getOperand(0).getReg(), CopyUsers);		SmallPtrSet<MachineInstr *, 2> Defs;
if (CopyUsers.size() > 2 \|\| !CopyUsers.count(Reduce)) {		RDA.getGlobalReachingDefs(&MI, MO.getReg(), Defs);
LLVM_DEBUG(dbgs() << "ARM Loops: Copy users unsupported.\n");		for (auto *Def : Defs) {
		if (Def == &MI \|\| FalseLanesZero.count(Def) \|\| IsZeroInit(Def))
		continue;
		if (MO.isUse() && isPredicated)
		continue;
return false;		return false;
}		}

SmallPtrSet<MachineInstr*, 2> ReduceUsers;
RDA.getGlobalUses(Reduce, Reduce->getOperand(0).getReg(), ReduceUsers);
if (ReduceUsers.size() > 2 \|\| !ReduceUsers.count(Copy)) {
LLVM_DEBUG(dbgs() << "ARM Loops: Reduce users unsupported.\n");
return false;
}		}
		LLVM_DEBUG(dbgs() << "ARM Loops: Always False Zeros: " << MI);
// Then find whether there's an instruction initialising the register that
// is storing the reduction.
SmallPtrSet<MachineInstr*, 2> Incoming;
RDA.getLiveOuts(Preheader, Copy->getOperand(1).getReg(), Incoming);
if (Incoming.size() > 1)
return false;

MachineInstr Init = Incoming.empty() ? nullptr : Incoming.begin();
LLVM_DEBUG(dbgs() << "ARM Loops: Found a reduction:\n"
<< " - " << *Copy
<< " - " << *Reduce
<< " - " << *VPSEL);
Reductions.push_back(std::make_unique<Reduction>(Init, Copy, Reduce, VPSEL));
return true;		return true;
}		}

bool LowOverheadLoop::ValidateLiveOuts() {		bool LowOverheadLoop::ValidateLiveOuts() {
// We want to find out if the tail-predicated version of this loop will		// We want to find out if the tail-predicated version of this loop will
// produce the same values as the loop in its original form. For this to		// produce the same values as the loop in its original form. For this to
// be true, the newly inserted implicit predication must not change the		// be true, the newly inserted implicit predication must not change the
// the (observable) results.		// the (observable) results.
Show All 24 Lines	for (auto &MI : *Header) {
const MCInstrDesc &MCID = MI.getDesc();		const MCInstrDesc &MCID = MI.getDesc();
uint64_t Flags = MCID.TSFlags;		uint64_t Flags = MCID.TSFlags;
if ((Flags & ARMII::DomainMask) != ARMII::DomainMVE)		if ((Flags & ARMII::DomainMask) != ARMII::DomainMVE)
continue;		continue;

if (isVCTP(&MI) \|\| isVPTOpcode(MI.getOpcode()))		if (isVCTP(&MI) \|\| isVPTOpcode(MI.getOpcode()))
continue;		continue;

// Predicated loads will write zeros to the falsely predicated bytes of the		bool isPredicated = isVectorPredicated(&MI);
// destination register.		bool retainsOrReduces =
if (isVectorPredicated(&MI)) {		retainsPreviousHalfElement(MI) \|\| isHorizontalReduction(MI);
if (MI.mayLoad())
FalseLanesZero.insert(&MI);
Predicated.insert(&MI);
continue;
}

if (MI.getNumDefs() == 0)		if (isPredicated)
		Predicated.insert(&MI);
		if (producesFalseLanesZero(MI, QPRs, RDA, FalseLanesZero))
		FalseLanesZero.insert(&MI);
		else if (MI.getNumDefs() == 0)
continue;		continue;
		else if (!isPredicated && retainsOrReduces)
if (!producesFalseLanesZero(MI, QPRs, RDA, FalseLanesZero)) {
// We require retaining and horizontal operations to operate upon zero'd
// false lanes to ensure the conversion doesn't change the output.
if (retainsPreviousHalfElement(MI) \|\| isHorizontalReduction(MI))
return false;		return false;
// Otherwise we need to evaluate this instruction later to see whether		else
// unknown false lanes will get masked away by their user(s).
FalseLanesUnknown.insert(&MI);		FalseLanesUnknown.insert(&MI);
} else if (!isHorizontalReduction(MI))
FalseLanesZero.insert(&MI);
}		}

auto HasPredicatedUsers = [this](MachineInstr *MI, const MachineOperand &MO,		auto HasPredicatedUsers = [this](MachineInstr *MI, const MachineOperand &MO,
SmallPtrSetImpl<MachineInstr *> &Predicated) {		SmallPtrSetImpl<MachineInstr *> &Predicated) {
SmallPtrSet<MachineInstr *, 2> Uses;		SmallPtrSet<MachineInstr *, 2> Uses;
RDA.getGlobalUses(MI, MO.getReg(), Uses);		RDA.getGlobalUses(MI, MO.getReg(), Uses);
for (auto *Use : Uses) {		for (auto *Use : Uses) {
if (Use != MI && !Predicated.count(Use))		if (Use != MI && !Predicated.count(Use))
Show All 12 Lines	bool LowOverheadLoop::ValidateLiveOuts() {
for (auto *MI : reverse(FalseLanesUnknown)) {		for (auto *MI : reverse(FalseLanesUnknown)) {
for (auto &MO : MI->operands()) {		for (auto &MO : MI->operands()) {
if (!isRegInClass(MO, QPRs) \|\| !MO.isDef())		if (!isRegInClass(MO, QPRs) \|\| !MO.isDef())
continue;		continue;
if (!HasPredicatedUsers(MI, MO, Predicated)) {		if (!HasPredicatedUsers(MI, MO, Predicated)) {
LLVM_DEBUG(dbgs() << "ARM Loops: Found an unknown def of : "		LLVM_DEBUG(dbgs() << "ARM Loops: Found an unknown def of : "
<< TRI.getRegAsmName(MO.getReg()) << " at " << *MI);		<< TRI.getRegAsmName(MO.getReg()) << " at " << *MI);
NonPredicated.insert(MI);		NonPredicated.insert(MI);
continue;		break;
}		}
}		}
// Any unknown false lanes have been masked away by the user(s).		// Any unknown false lanes have been masked away by the user(s).
		if (!NonPredicated.contains(MI))
Predicated.insert(MI);		Predicated.insert(MI);
}		}

SmallPtrSet<MachineInstr *, 2> LiveOutMIs;		SmallPtrSet<MachineInstr *, 2> LiveOutMIs;
SmallPtrSet<MachineInstr*, 2> LiveOutUsers;
SmallVector<MachineBasicBlock *, 2> ExitBlocks;		SmallVector<MachineBasicBlock *, 2> ExitBlocks;
ML.getExitBlocks(ExitBlocks);		ML.getExitBlocks(ExitBlocks);
assert(ML.getNumBlocks() == 1 && "Expected single block loop!");		assert(ML.getNumBlocks() == 1 && "Expected single block loop!");
assert(ExitBlocks.size() == 1 && "Expected a single exit block");		assert(ExitBlocks.size() == 1 && "Expected a single exit block");
MachineBasicBlock *ExitBB = ExitBlocks.front();		MachineBasicBlock *ExitBB = ExitBlocks.front();
for (const MachineBasicBlock::RegisterMaskPair &RegMask : ExitBB->liveins()) {		for (const MachineBasicBlock::RegisterMaskPair &RegMask : ExitBB->liveins()) {
		// TODO: Instead of blocking predication, we could move the vctp to the exit
		// block and calculate it's operand there in or the preheader.
		SjoerdMeijerUnsubmitted Not Done Reply Inline Actions nit: it's SjoerdMeijer: nit: it's
		if (RegMask.PhysReg == ARM::VPR)
		return false;
// Check Q-regs that are live in the exit blocks. We don't collect scalars		// Check Q-regs that are live in the exit blocks. We don't collect scalars
// because they won't be affected by lane predication.		// because they won't be affected by lane predication.
if (QPRs->contains(RegMask.PhysReg)) {		if (QPRs->contains(RegMask.PhysReg))
if (auto *MI = RDA.getLocalLiveOutMIDef(Header, RegMask.PhysReg))		if (auto *MI = RDA.getLocalLiveOutMIDef(Header, RegMask.PhysReg))
LiveOutMIs.insert(MI);		LiveOutMIs.insert(MI);
RDA.getLiveInUses(ExitBB, RegMask.PhysReg, LiveOutUsers);
}
}		}

// If we have any non-predicated live-outs, they need to be part of a
// reduction that we can fixup later. The reduction that the form of an
// operation that uses its previous values through a vmov and then a vpsel
// resides in the exit blocks to select the final bytes from n and n-1
// iterations.
if (!NonPredicated.empty() &&
!FindValidReduction(NonPredicated, LiveOutUsers))
return false;

// We've already validated that any VPT predication within the loop will be		// We've already validated that any VPT predication within the loop will be
// equivalent when we perform the predication transformation; so we know that		// equivalent when we perform the predication transformation; so we know that
// any VPT predicated instruction is predicated upon VCTP. Any live-out		// any VPT predicated instruction is predicated upon VCTP. Any live-out
// instruction needs to be predicated, so check this here. The instructions		// instruction needs to be predicated, so check this here. The instructions
// in NonPredicated have been found to be a reduction that we can ensure its		// in NonPredicated have been found to be a reduction that we can ensure its
// legality.		// legality.
for (auto *MI : LiveOutMIs)		for (auto *MI : LiveOutMIs) {
if (!isVectorPredicated(MI) && !NonPredicated.count(MI))		if (NonPredicated.count(MI) && FalseLanesUnknown.contains(MI)) {
		LLVM_DEBUG(dbgs() << "ARM Loops: Unable to handle live out: " << *MI);
return false;		return false;
		}
		}

return true;		return true;
}		}

void LowOverheadLoop::CheckLegality(ARMBasicBlockUtils *BBUtils) {		void LowOverheadLoop::CheckLegality(ARMBasicBlockUtils *BBUtils) {
if (Revert)		if (Revert)
return;		return;

▲ Show 20 Lines • Show All 449 Lines • ▼ Show 20 Lines	MachineInstr* ARMLowOverheadLoops::ExpandLoopStart(LowOverheadLoop &LoLoop) {
// If we're inserting at a mov lr, then remove it as it's redundant.		// If we're inserting at a mov lr, then remove it as it's redundant.
if (InsertPt != Start)		if (InsertPt != Start)
LoLoop.ToRemove.insert(InsertPt);		LoLoop.ToRemove.insert(InsertPt);
LoLoop.ToRemove.insert(Start);		LoLoop.ToRemove.insert(Start);
LLVM_DEBUG(dbgs() << "ARM Loops: Inserted start: " << *MIB);		LLVM_DEBUG(dbgs() << "ARM Loops: Inserted start: " << *MIB);
return &*MIB;		return &*MIB;
}		}

void ARMLowOverheadLoops::FixupReductions(LowOverheadLoop &LoLoop) const {
LLVM_DEBUG(dbgs() << "ARM Loops: Fixing up reduction(s).\n");
auto BuildMov = [this](MachineInstr &InsertPt, Register To, Register From) {
MachineBasicBlock *MBB = InsertPt.getParent();
MachineInstrBuilder MIB =
BuildMI(*MBB, &InsertPt, InsertPt.getDebugLoc(), TII->get(ARM::MVE_VORR));
MIB.addDef(To);
MIB.addReg(From);
MIB.addReg(From);
MIB.addImm(0);
MIB.addReg(0);
MIB.addReg(To);
LLVM_DEBUG(dbgs() << "ARM Loops: Inserted VMOV: " << *MIB);
};

for (auto &Reduction : LoLoop.Reductions) {
MachineInstr &Copy = Reduction->Copy;
MachineInstr &Reduce = Reduction->Reduce;
Register DestReg = Copy.getOperand(0).getReg();

// Change the initialiser if present
if (Reduction->Init) {
MachineInstr *Init = Reduction->Init;

for (unsigned i = 0; i < Init->getNumOperands(); ++i) {
MachineOperand &MO = Init->getOperand(i);
if (MO.isReg() && MO.isUse() && MO.isTied() &&
Init->findTiedOperandIdx(i) == 0)
Init->getOperand(i).setReg(DestReg);
}
Init->getOperand(0).setReg(DestReg);
LLVM_DEBUG(dbgs() << "ARM Loops: Changed init regs: " << *Init);
} else
BuildMov(LoLoop.Preheader->instr_back(), DestReg, Copy.getOperand(1).getReg());

// Change the reducing op to write to the register that is used to copy
// its value on the next iteration. Also update the tied-def operand.
Reduce.getOperand(0).setReg(DestReg);
Reduce.getOperand(5).setReg(DestReg);
LLVM_DEBUG(dbgs() << "ARM Loops: Changed reduction regs: " << Reduce);

// Instead of a vpsel, just copy the register into the necessary one.
MachineInstr &VPSEL = Reduction->VPSEL;
if (VPSEL.getOperand(0).getReg() != DestReg)
BuildMov(VPSEL, VPSEL.getOperand(0).getReg(), DestReg);

// Remove the unnecessary instructions.
LLVM_DEBUG(dbgs() << "ARM Loops: Removing:\n"
<< " - " << Copy
<< " - " << VPSEL << "\n");
Copy.eraseFromParent();
VPSEL.eraseFromParent();
}
}

void ARMLowOverheadLoops::ConvertVPTBlocks(LowOverheadLoop &LoLoop) {		void ARMLowOverheadLoops::ConvertVPTBlocks(LowOverheadLoop &LoLoop) {
auto RemovePredicate = [](MachineInstr *MI) {		auto RemovePredicate = [](MachineInstr *MI) {
LLVM_DEBUG(dbgs() << "ARM Loops: Removing predicate from: " << *MI);		LLVM_DEBUG(dbgs() << "ARM Loops: Removing predicate from: " << *MI);
if (int PIdx = llvm::findFirstVPTPredOperandIdx(*MI)) {		if (int PIdx = llvm::findFirstVPTPredOperandIdx(*MI)) {
assert(MI->getOperand(PIdx).getImm() == ARMVCC::Then &&		assert(MI->getOperand(PIdx).getImm() == ARMVCC::Then &&
"Expected Then predicate!");		"Expected Then predicate!");
MI->getOperand(PIdx).setImm(ARMVCC::None);		MI->getOperand(PIdx).setImm(ARMVCC::None);
MI->getOperand(PIdx+1).setReg(0);		MI->getOperand(PIdx+1).setReg(0);
▲ Show 20 Lines • Show All 137 Lines • ▼ Show 20 Lines	else
LoLoop.Start->eraseFromParent();		LoLoop.Start->eraseFromParent();
bool FlagsAlreadySet = RevertLoopDec(LoLoop.Dec);		bool FlagsAlreadySet = RevertLoopDec(LoLoop.Dec);
RevertLoopEnd(LoLoop.End, FlagsAlreadySet);		RevertLoopEnd(LoLoop.End, FlagsAlreadySet);
} else {		} else {
LoLoop.Start = ExpandLoopStart(LoLoop);		LoLoop.Start = ExpandLoopStart(LoLoop);
RemoveDeadBranch(LoLoop.Start);		RemoveDeadBranch(LoLoop.Start);
LoLoop.End = ExpandLoopEnd(LoLoop);		LoLoop.End = ExpandLoopEnd(LoLoop);
RemoveDeadBranch(LoLoop.End);		RemoveDeadBranch(LoLoop.End);
if (LoLoop.IsTailPredicationLegal()) {		if (LoLoop.IsTailPredicationLegal())
ConvertVPTBlocks(LoLoop);		ConvertVPTBlocks(LoLoop);
FixupReductions(LoLoop);
}
for (auto *I : LoLoop.ToRemove) {		for (auto *I : LoLoop.ToRemove) {
LLVM_DEBUG(dbgs() << "ARM Loops: Erasing " << *I);		LLVM_DEBUG(dbgs() << "ARM Loops: Erasing " << *I);
I->eraseFromParent();		I->eraseFromParent();
}		}
for (auto *I : LoLoop.BlockMasksToRecompute) {		for (auto *I : LoLoop.BlockMasksToRecompute) {
LLVM_DEBUG(dbgs() << "ARM Loops: Recomputing VPT/VPST Block Mask: " << *I);		LLVM_DEBUG(dbgs() << "ARM Loops: Recomputing VPT/VPST Block Mask: " << *I);
recomputeVPTBlockMask(*I);		recomputeVPTBlockMask(*I);
LLVM_DEBUG(dbgs() << " ... done: " << *I);		LLVM_DEBUG(dbgs() << " ... done: " << *I);
▲ Show 20 Lines • Show All 61 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/LowOverheadLoops/disjoint-vcmp.mir

Show First 20 Lines • Show All 129 Lines • ▼ Show 20 Lines	body: \|
; CHECK: frame-setup CFI_INSTRUCTION offset $r4, -16		; CHECK: frame-setup CFI_INSTRUCTION offset $r4, -16
; CHECK: $sp = frame-setup tSUBspi $sp, 1, 14 /* CC::al */, $noreg		; CHECK: $sp = frame-setup tSUBspi $sp, 1, 14 /* CC::al */, $noreg
; CHECK: frame-setup CFI_INSTRUCTION def_cfa_offset 20		; CHECK: frame-setup CFI_INSTRUCTION def_cfa_offset 20
; CHECK: tCBZ $r2, %bb.3		; CHECK: tCBZ $r2, %bb.3
; CHECK: bb.1.bb3:		; CHECK: bb.1.bb3:
; CHECK: successors: %bb.2(0x80000000)		; CHECK: successors: %bb.2(0x80000000)
; CHECK: liveins: $r0, $r1, $r2, $r3		; CHECK: liveins: $r0, $r1, $r2, $r3
; CHECK: $r12 = t2MOVi16 target-flags(arm-lo16) @mask, 14 /* CC::al */, $noreg		; CHECK: $r12 = t2MOVi16 target-flags(arm-lo16) @mask, 14 /* CC::al */, $noreg
; CHECK: renamable $r4, dead $cpsr = tADDi3 renamable $r2, 3, 14 /* CC::al */, $noreg
; CHECK: $r12 = t2MOVTi16 killed $r12, target-flags(arm-hi16) @mask, 14 /* CC::al */, $noreg		; CHECK: $r12 = t2MOVTi16 killed $r12, target-flags(arm-hi16) @mask, 14 /* CC::al */, $noreg
; CHECK: renamable $r4 = t2BICri killed renamable $r4, 3, 14 /* CC::al */, $noreg, $noreg
; CHECK: renamable $r5 = t2LDRHi12 killed renamable $r12, 0, 14 /* CC::al */, $noreg :: (dereferenceable load 2 from %ir.mask.gep9)		; CHECK: renamable $r5 = t2LDRHi12 killed renamable $r12, 0, 14 /* CC::al */, $noreg :: (dereferenceable load 2 from %ir.mask.gep9)
; CHECK: renamable $r12 = t2SUBri killed renamable $r4, 4, 14 /* CC::al */, $noreg, $noreg
; CHECK: renamable $r4, dead $cpsr = tMOVi8 1, 14 /* CC::al */, $noreg
; CHECK: $vpr = VMSR_P0 $r5, 14 /* CC::al */, $noreg		; CHECK: $vpr = VMSR_P0 $r5, 14 /* CC::al */, $noreg
; CHECK: renamable $lr = nuw nsw t2ADDrs killed renamable $r4, killed renamable $r12, 19, 14 /* CC::al */, $noreg, $noreg
; CHECK: renamable $r12 = t2SUBri killed renamable $r3, 16, 14 /* CC::al */, $noreg, $noreg		; CHECK: renamable $r12 = t2SUBri killed renamable $r3, 16, 14 /* CC::al */, $noreg, $noreg
; CHECK: VSTR_P0_off killed renamable $vpr, $sp, 0, 14 /* CC::al */, $noreg :: (store 4 into %stack.0)		; CHECK: VSTR_P0_off killed renamable $vpr, $sp, 0, 14 /* CC::al */, $noreg :: (store 4 into %stack.0)
; CHECK: renamable $q0 = MVE_VDUP32 killed renamable $r5, 0, $noreg, undef renamable $q0		; CHECK: renamable $q0 = MVE_VDUP32 killed renamable $r5, 0, $noreg, undef renamable $q0
; CHECK: $r3 = tMOVr $r0, 14 /* CC::al */, $noreg		; CHECK: $r3 = tMOVr $r0, 14 /* CC::al */, $noreg
; CHECK: $lr = t2DLS killed renamable $lr		; CHECK: $lr = MVE_DLSTP_32 killed renamable $r2
; CHECK: bb.2.bb9:		; CHECK: bb.2.bb9:
; CHECK: successors: %bb.2(0x7c000000), %bb.3(0x04000000)		; CHECK: successors: %bb.2(0x7c000000), %bb.3(0x04000000)
; CHECK: liveins: $lr, $q0, $r0, $r1, $r2, $r3, $r12		; CHECK: liveins: $lr, $q0, $r0, $r1, $r3, $r12
; CHECK: renamable $vpr = VLDR_P0_off $sp, 0, 14 /* CC::al */, $noreg :: (load 4 from %stack.0)		; CHECK: renamable $vpr = VLDR_P0_off $sp, 0, 14 /* CC::al */, $noreg :: (load 4 from %stack.0)
; CHECK: MVE_VPST 2, implicit $vpr		; CHECK: MVE_VPST 4, implicit $vpr
; CHECK: renamable $vpr = MVE_VCTP32 renamable $r2, 1, killed renamable $vpr
; CHECK: renamable $r1, renamable $q1 = MVE_VLDRWU32_post killed renamable $r1, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv24, align 4)		; CHECK: renamable $r1, renamable $q1 = MVE_VLDRWU32_post killed renamable $r1, 16, 1, renamable $vpr :: (load 16 from %ir.lsr.iv24, align 4)
; CHECK: renamable $r3, renamable $q2 = MVE_VLDRWU32_post killed renamable $r3, 16, 1, killed renamable $vpr :: (load 16 from %ir.lsr.iv1, align 4)		; CHECK: renamable $r3, renamable $q2 = MVE_VLDRWU32_post killed renamable $r3, 16, 1, killed renamable $vpr :: (load 16 from %ir.lsr.iv1, align 4)
; CHECK: renamable $r2, dead $cpsr = tSUBi8 killed renamable $r2, 4, 14 /* CC::al */, $noreg
; CHECK: renamable $q1 = nsw MVE_VMULi32 killed renamable $q2, killed renamable $q1, 0, $noreg, undef renamable $q1		; CHECK: renamable $q1 = nsw MVE_VMULi32 killed renamable $q2, killed renamable $q1, 0, $noreg, undef renamable $q1
; CHECK: renamable $r12, renamable $q2 = MVE_VLDRWU32_pre killed renamable $r12, 16, 0, $noreg :: (load 16 from %ir.scevgep2, align 8)		; CHECK: renamable $r12, renamable $q2 = MVE_VLDRWU32_pre killed renamable $r12, 16, 0, $noreg :: (load 16 from %ir.scevgep2, align 8)
; CHECK: MVE_VPTv4u32 8, renamable $q0, killed renamable $q2, 2, implicit-def $vpr		; CHECK: MVE_VPTv4u32 8, renamable $q0, killed renamable $q2, 2, implicit-def $vpr
; CHECK: MVE_VSTRWU32 killed renamable $q1, killed renamable $r0, 0, 1, killed renamable $vpr :: (store 16 into %ir.lsr.iv1, align 4)		; CHECK: MVE_VSTRWU32 killed renamable $q1, killed renamable $r0, 0, 1, killed renamable $vpr :: (store 16 into %ir.lsr.iv1, align 4)
; CHECK: $r0 = tMOVr $r3, 14 /* CC::al */, $noreg		; CHECK: $r0 = tMOVr $r3, 14 /* CC::al */, $noreg
; CHECK: $lr = t2LEUpdate killed renamable $lr, %bb.2		; CHECK: $lr = MVE_LETP killed renamable $lr, %bb.2
; CHECK: bb.3.bb27:		; CHECK: bb.3.bb27:
; CHECK: $sp = tADDspi $sp, 1, 14 /* CC::al */, $noreg		; CHECK: $sp = tADDspi $sp, 1, 14 /* CC::al */, $noreg
; CHECK: tPOP_RET 14 /* CC::al */, $noreg, def $r4, def $r5, def $r7, def $pc		; CHECK: tPOP_RET 14 /* CC::al */, $noreg, def $r4, def $r5, def $r7, def $pc
bb.0.bb:		bb.0.bb:
successors: %bb.3(0x30000000), %bb.1(0x50000000)		successors: %bb.3(0x30000000), %bb.1(0x50000000)
liveins: $r0, $r1, $r2, $r3, $r4, $r5, $r7, $lr		liveins: $r0, $r1, $r2, $r3, $r4, $r5, $r7, $lr

frame-setup tPUSH 14, $noreg, killed $r4, killed $r5, killed $r7, killed $lr, implicit-def $sp, implicit $sp		frame-setup tPUSH 14, $noreg, killed $r4, killed $r5, killed $r7, killed $lr, implicit-def $sp, implicit $sp
▲ Show 20 Lines • Show All 52 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/LowOverheadLoops/extract-element.mir

Show First 20 Lines • Show All 112 Lines • ▼ Show 20 Lines	body: \|
; CHECK: tBX_RET 0 /* CC::eq */, killed $cpsr, implicit $r0, implicit killed $itstate		; CHECK: tBX_RET 0 /* CC::eq */, killed $cpsr, implicit $r0, implicit killed $itstate
; CHECK: bb.1.vector.ph:		; CHECK: bb.1.vector.ph:
; CHECK: successors: %bb.2(0x80000000)		; CHECK: successors: %bb.2(0x80000000)
; CHECK: liveins: $lr, $r0, $r1, $r2, $r7		; CHECK: liveins: $lr, $r0, $r1, $r2, $r7
; CHECK: frame-setup tPUSH 14 /* CC::al */, $noreg, killed $r7, killed $lr, implicit-def $sp, implicit $sp		; CHECK: frame-setup tPUSH 14 /* CC::al */, $noreg, killed $r7, killed $lr, implicit-def $sp, implicit $sp
; CHECK: frame-setup CFI_INSTRUCTION def_cfa_offset 8		; CHECK: frame-setup CFI_INSTRUCTION def_cfa_offset 8
; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4		; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4
; CHECK: frame-setup CFI_INSTRUCTION offset $r7, -8		; CHECK: frame-setup CFI_INSTRUCTION offset $r7, -8
; CHECK: renamable $r3, dead $cpsr = tADDi3 renamable $r2, 3, 14 /* CC::al */, $noreg
; CHECK: renamable $q0 = MVE_VMOVimmi32 0, 0, $noreg, undef renamable $q0		; CHECK: renamable $q0 = MVE_VMOVimmi32 0, 0, $noreg, undef renamable $q0
; CHECK: renamable $r3 = t2BICri killed renamable $r3, 3, 14 /* CC::al */, $noreg, $noreg		; CHECK: $lr = MVE_DLSTP_32 killed renamable $r2
; CHECK: renamable $r12 = t2SUBri killed renamable $r3, 4, 14 /* CC::al */, $noreg, $noreg
; CHECK: renamable $r3, dead $cpsr = tMOVi8 1, 14 /* CC::al */, $noreg
; CHECK: renamable $r12 = nuw nsw t2ADDrs killed renamable $r3, killed renamable $r12, 19, 14 /* CC::al */, $noreg, $noreg
; CHECK: dead $lr = t2DLS renamable $r12
; CHECK: $r3 = tMOVr killed $r12, 14 /* CC::al */, $noreg
; CHECK: bb.2.vector.body:		; CHECK: bb.2.vector.body:
; CHECK: successors: %bb.2(0x7c000000), %bb.3(0x04000000)		; CHECK: successors: %bb.2(0x7c000000), %bb.3(0x04000000)
; CHECK: liveins: $q0, $r0, $r1, $r2, $r3		; CHECK: liveins: $lr, $q0, $r0, $r1
; CHECK: renamable $vpr = MVE_VCTP32 renamable $r2, 0, $noreg		; CHECK: renamable $r0, renamable $q1 = MVE_VLDRHS32_post killed renamable $r0, 8, 0, $noreg :: (load 8 from %ir.lsr.iv17, align 2)
; CHECK: MVE_VPST 4, implicit $vpr		; CHECK: renamable $r1, renamable $q2 = MVE_VLDRHS32_post killed renamable $r1, 8, 0, killed $noreg :: (load 8 from %ir.lsr.iv1820, align 2)
; CHECK: renamable $r0, renamable $q1 = MVE_VLDRHS32_post killed renamable $r0, 8, 1, renamable $vpr :: (load 8 from %ir.lsr.iv17, align 2)
; CHECK: renamable $r1, renamable $q2 = MVE_VLDRHS32_post killed renamable $r1, 8, 1, killed renamable $vpr :: (load 8 from %ir.lsr.iv1820, align 2)
; CHECK: $lr = tMOVr $r3, 14 /* CC::al */, $noreg
; CHECK: renamable $q1 = nsw MVE_VMULi32 killed renamable $q2, killed renamable $q1, 0, $noreg, undef renamable $q1		; CHECK: renamable $q1 = nsw MVE_VMULi32 killed renamable $q2, killed renamable $q1, 0, $noreg, undef renamable $q1
; CHECK: renamable $r3, dead $cpsr = nsw tSUBi8 killed $r3, 1, 14 /* CC::al */, $noreg
; CHECK: renamable $r2, dead $cpsr = tSUBi8 killed renamable $r2, 4, 14 /* CC::al */, $noreg
; CHECK: renamable $q0 = MVE_VADDi32 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0		; CHECK: renamable $q0 = MVE_VADDi32 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0
; CHECK: dead $lr = t2LEUpdate killed renamable $lr, %bb.2		; CHECK: $lr = MVE_LETP killed renamable $lr, %bb.2
; CHECK: bb.3.middle.block:		; CHECK: bb.3.middle.block:
; CHECK: liveins: $q0		; CHECK: liveins: $q0
; CHECK: $r0 = VMOVRS killed $s3, 14 /* CC::al */, $noreg, implicit killed $q0		; CHECK: $r0 = VMOVRS killed $s3, 14 /* CC::al */, $noreg, implicit killed $q0
; CHECK: tPOP_RET 14 /* CC::al */, $noreg, def $r7, def $pc, implicit killed $r0		; CHECK: tPOP_RET 14 /* CC::al */, $noreg, def $r7, def $pc, implicit killed $r0
bb.0.entry:		bb.0.entry:
successors: %bb.1(0x80000000)		successors: %bb.1(0x80000000)
liveins: $r0, $r1, $r2, $lr, $r7		liveins: $r0, $r1, $r2, $lr, $r7

▲ Show 20 Lines • Show All 46 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/LowOverheadLoops/no-vpsel-liveout.mir

Show First 20 Lines • Show All 109 Lines • ▼ Show 20 Lines	body: \|
; CHECK: tBX_RET 0 /* CC::eq */, killed $cpsr, implicit $r0, implicit killed $itstate		; CHECK: tBX_RET 0 /* CC::eq */, killed $cpsr, implicit $r0, implicit killed $itstate
; CHECK: bb.1.vector.ph:		; CHECK: bb.1.vector.ph:
; CHECK: successors: %bb.2(0x80000000)		; CHECK: successors: %bb.2(0x80000000)
; CHECK: liveins: $lr, $r0, $r1, $r2, $r7		; CHECK: liveins: $lr, $r0, $r1, $r2, $r7
; CHECK: frame-setup tPUSH 14 /* CC::al */, $noreg, killed $r7, killed $lr, implicit-def $sp, implicit $sp		; CHECK: frame-setup tPUSH 14 /* CC::al */, $noreg, killed $r7, killed $lr, implicit-def $sp, implicit $sp
; CHECK: frame-setup CFI_INSTRUCTION def_cfa_offset 8		; CHECK: frame-setup CFI_INSTRUCTION def_cfa_offset 8
; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4		; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4
; CHECK: frame-setup CFI_INSTRUCTION offset $r7, -8		; CHECK: frame-setup CFI_INSTRUCTION offset $r7, -8
; CHECK: renamable $r3, dead $cpsr = tADDi3 renamable $r2, 3, 14 /* CC::al */, $noreg
; CHECK: renamable $q0 = MVE_VMOVimmi32 0, 0, $noreg, undef renamable $q0		; CHECK: renamable $q0 = MVE_VMOVimmi32 0, 0, $noreg, undef renamable $q0
; CHECK: renamable $r3 = t2BICri killed renamable $r3, 3, 14 /* CC::al */, $noreg, $noreg		; CHECK: $lr = MVE_DLSTP_32 killed renamable $r2
; CHECK: renamable $r12 = t2SUBri killed renamable $r3, 4, 14 /* CC::al */, $noreg, $noreg
; CHECK: renamable $r3, dead $cpsr = tMOVi8 1, 14 /* CC::al */, $noreg
; CHECK: renamable $r12 = nuw nsw t2ADDrs killed renamable $r3, killed renamable $r12, 19, 14 /* CC::al */, $noreg, $noreg
; CHECK: dead $lr = t2DLS renamable $r12
; CHECK: $r3 = tMOVr killed $r12, 14 /* CC::al */, $noreg
; CHECK: bb.2.vector.body:		; CHECK: bb.2.vector.body:
; CHECK: successors: %bb.2(0x7c000000), %bb.3(0x04000000)		; CHECK: successors: %bb.2(0x7c000000), %bb.3(0x04000000)
; CHECK: liveins: $q0, $r0, $r1, $r2, $r3		; CHECK: liveins: $lr, $q0, $r0, $r1
; CHECK: renamable $vpr = MVE_VCTP32 renamable $r2, 0, $noreg		; CHECK: renamable $r0, renamable $q1 = MVE_VLDRHS32_post killed renamable $r0, 8, 0, $noreg :: (load 8 from %ir.lsr.iv17, align 2)
; CHECK: MVE_VPST 4, implicit $vpr		; CHECK: renamable $r1, renamable $q2 = MVE_VLDRHS32_post killed renamable $r1, 8, 0, killed $noreg :: (load 8 from %ir.lsr.iv1820, align 2)
; CHECK: renamable $r0, renamable $q1 = MVE_VLDRHS32_post killed renamable $r0, 8, 1, renamable $vpr :: (load 8 from %ir.lsr.iv17, align 2)
; CHECK: renamable $r1, renamable $q2 = MVE_VLDRHS32_post killed renamable $r1, 8, 1, killed renamable $vpr :: (load 8 from %ir.lsr.iv1820, align 2)
; CHECK: $lr = tMOVr $r3, 14 /* CC::al */, $noreg
; CHECK: renamable $q1 = nsw MVE_VMULi32 killed renamable $q2, killed renamable $q1, 0, $noreg, undef renamable $q1		; CHECK: renamable $q1 = nsw MVE_VMULi32 killed renamable $q2, killed renamable $q1, 0, $noreg, undef renamable $q1
; CHECK: renamable $r3, dead $cpsr = nsw tSUBi8 killed $r3, 1, 14 /* CC::al */, $noreg
; CHECK: renamable $r2, dead $cpsr = tSUBi8 killed renamable $r2, 4, 14 /* CC::al */, $noreg
; CHECK: renamable $q0 = MVE_VADDi32 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0		; CHECK: renamable $q0 = MVE_VADDi32 killed renamable $q1, killed renamable $q0, 0, $noreg, undef renamable $q0
; CHECK: dead $lr = t2LEUpdate killed renamable $lr, %bb.2		; CHECK: $lr = MVE_LETP killed renamable $lr, %bb.2
; CHECK: bb.3.middle.block:		; CHECK: bb.3.middle.block:
; CHECK: liveins: $q0		; CHECK: liveins: $q0
; CHECK: renamable $r0 = MVE_VADDVu32no_acc killed renamable $q0, 0, $noreg		; CHECK: renamable $r0 = MVE_VADDVu32no_acc killed renamable $q0, 0, $noreg
; CHECK: tPOP_RET 14 /* CC::al */, $noreg, def $r7, def $pc, implicit killed $r0		; CHECK: tPOP_RET 14 /* CC::al */, $noreg, def $r7, def $pc, implicit killed $r0
bb.0.entry:		bb.0.entry:
successors: %bb.1(0x80000000)		successors: %bb.1(0x80000000)
liveins: $r0, $r1, $r2, $lr, $r7		liveins: $r0, $r1, $r2, $lr, $r7

▲ Show 20 Lines • Show All 46 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/LowOverheadLoops/reductions.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple=thumbv8.1m.main -mattr=+mve -tail-predication=enabled %s -o - \| FileCheck %s			; RUN: llc -mtriple=thumbv8.1m.main -mattr=+mve -tail-predication=enabled %s -o - \| FileCheck %s

	define dso_local arm_aapcs_vfpcc zeroext i8 @one_loop_add_add_v16i8(i8* nocapture readonly %a, i8* nocapture readonly %b, i32 %N) local_unnamed_addr {			define dso_local arm_aapcs_vfpcc zeroext i8 @one_loop_add_add_v16i8(i8* nocapture readonly %a, i8* nocapture readonly %b, i32 %N) local_unnamed_addr {
	; CHECK-LABEL: one_loop_add_add_v16i8:			; CHECK-LABEL: one_loop_add_add_v16i8:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: cmp r2, #0
	; CHECK-NEXT: ittt eq
	; CHECK-NEXT: moveq r0, #0
	; CHECK-NEXT: uxtbeq r0, r0
	; CHECK-NEXT: bxeq lr
	; CHECK-NEXT: .LBB0_1: @ %vector.ph
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: add.w r3, r2, #15			; CHECK-NEXT: cbz r2, .LBB0_4
	; CHECK-NEXT: vmov.i32 q1, #0x0			; CHECK-NEXT: @ %bb.1: @ %vector.ph
	; CHECK-NEXT: bic r3, r3, #15			; CHECK-NEXT: vmov.i32 q0, #0x0
	; CHECK-NEXT: sub.w r12, r3, #16			; CHECK-NEXT: dlstp.8 lr, r2
	; CHECK-NEXT: movs r3, #1			; CHECK: .LBB0_2: @ %vector.body
	; CHECK-NEXT: add.w lr, r3, r12, lsr #4
	; CHECK-NEXT: dls lr, lr
	; CHECK-NEXT: .LBB0_2: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vctp.8 r2			; CHECK-NEXT: vldrb.u8 q1, [r1], #16
	; CHECK-NEXT: vmov q0, q1			; CHECK-NEXT: vldrb.u8 q2, [r0], #16
	; CHECK-NEXT: vpst			; CHECK-NEXT: vadd.i8 q0, q2, q1
	; CHECK-NEXT: vldrbt.u8 q1, [r0], #16			; CHECK-NEXT: vaddv.u8 r12, q0
	; CHECK-NEXT: subs r2, #16			; CHECK-NEXT: letp lr, .LBB0_2
	; CHECK-NEXT: vadd.i8 q1, q1, q0			; CHECK-NEXT: @ %bb.3: @ %for.cond.cleanup
	; CHECK-NEXT: vpst			; CHECK-NEXT: uxtb.w r0, r12
	; CHECK-NEXT: vldrbt.u8 q2, [r1], #16			; CHECK-NEXT: pop {r7, pc}
	; CHECK-NEXT: vadd.i8 q1, q1, q2			; CHECK-NEXT: .LBB0_4:
	; CHECK-NEXT: le lr, .LBB0_2			; CHECK-NEXT: mov.w r12, #0
	; CHECK-NEXT: @ %bb.3: @ %middle.block			; CHECK-NEXT: uxtb.w r0, r12
	; CHECK-NEXT: vpsel q0, q1, q0			; CHECK-NEXT: pop {r7, pc}
	; CHECK-NEXT: vaddv.u8 r0, q0
	; CHECK-NEXT: pop.w {r7, lr}
	; CHECK-NEXT: uxtb r0, r0
	; CHECK-NEXT: bx lr
	entry:			entry:
	%cmp11 = icmp eq i32 %N, 0			%cmp11 = icmp eq i32 %N, 0
	br i1 %cmp11, label %for.cond.cleanup, label %vector.ph			br i1 %cmp11, label %for.cond.cleanup, label %vector.ph

	vector.ph: ; preds = %entry			vector.ph: ; preds = %entry
	%n.rnd.up = add i32 %N, 15			%n.rnd.up = add i32 %N, 15
	%n.vec = and i32 %n.rnd.up, -16			%n.vec = and i32 %n.rnd.up, -16
	%trip.count.minus.1 = add i32 %N, -1			%trip.count.minus.1 = add i32 %N, -1
	br label %vector.body			br label %vector.body

	vector.body: ; preds = %vector.body, %vector.ph			vector.body: ; preds = %vector.body, %vector.ph
	%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]			%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
	%vec.phi = phi <16 x i8> [ zeroinitializer, %vector.ph ], [ %i5, %vector.body ]			%vec.phi = phi <16 x i8> [ zeroinitializer, %vector.ph ], [ %i5, %vector.body ]
	%i = getelementptr inbounds i8, i8* %a, i32 %index			%i = getelementptr inbounds i8, i8* %a, i32 %index
	%active.lane.mask = call <16 x i1> @llvm.get.active.lane.mask.v16i1.i32(i32 %index, i32 %N)			%active.lane.mask = call <16 x i1> @llvm.get.active.lane.mask.v16i1.i32(i32 %index, i32 %N)
	%i1 = bitcast i8* %i to <16 x i8>*			%i1 = bitcast i8* %i to <16 x i8>*
	%wide.masked.load = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %i1, i32 1, <16 x i1> %active.lane.mask, <16 x i8> undef)			%wide.masked.load = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %i1, i32 1, <16 x i1> %active.lane.mask, <16 x i8> undef)
	%i2 = getelementptr inbounds i8, i8* %b, i32 %index			%i2 = getelementptr inbounds i8, i8* %b, i32 %index
	%i3 = bitcast i8* %i2 to <16 x i8>*			%i3 = bitcast i8* %i2 to <16 x i8>*
	%wide.masked.load16 = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %i3, i32 1, <16 x i1> %active.lane.mask, <16 x i8> undef)			%wide.masked.load16 = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %i3, i32 1, <16 x i1> %active.lane.mask, <16 x i8> undef)
	%i4 = add <16 x i8> %wide.masked.load, %vec.phi			%i4 = add <16 x i8> %wide.masked.load, %wide.masked.load16
	%i5 = add <16 x i8> %i4, %wide.masked.load16			%i5 = select <16 x i1> %active.lane.mask, <16 x i8> %i4, <16 x i8> %vec.phi
				%i6 = call i8 @llvm.experimental.vector.reduce.add.v16i8(<16 x i8> %i5)
	%index.next = add i32 %index, 16			%index.next = add i32 %index, 16
	%i6 = icmp eq i32 %index.next, %n.vec			%i7 = icmp eq i32 %index.next, %n.vec
	br i1 %i6, label %middle.block, label %vector.body			br i1 %i7, label %middle.block, label %vector.body

	middle.block: ; preds = %vector.body			middle.block: ; preds = %vector.body
	%i7 = select <16 x i1> %active.lane.mask, <16 x i8> %i5, <16 x i8> %vec.phi
	%i8 = call i8 @llvm.experimental.vector.reduce.add.v16i8(<16 x i8> %i7)
	br label %for.cond.cleanup			br label %for.cond.cleanup

	for.cond.cleanup: ; preds = %middle.block, %entry			for.cond.cleanup: ; preds = %middle.block, %entry
	%res.0.lcssa = phi i8 [ 0, %entry ], [ %i8, %middle.block ]			%res.0.lcssa = phi i8 [ 0, %entry ], [ %i6, %middle.block ]
	ret i8 %res.0.lcssa			ret i8 %res.0.lcssa
	}			}

	define dso_local arm_aapcs_vfpcc signext i16 @one_loop_add_add_v8i16(i8* nocapture readonly %a, i8* nocapture readonly %b, i32 %N) local_unnamed_addr {			define dso_local arm_aapcs_vfpcc signext i16 @one_loop_add_add_v8i16(i8* nocapture readonly %a, i8* nocapture readonly %b, i32 %N) local_unnamed_addr {
	; CHECK-LABEL: one_loop_add_add_v8i16:			; CHECK-LABEL: one_loop_add_add_v8i16:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: cmp r2, #0			; CHECK-NEXT: cmp r2, #0
	; CHECK-NEXT: ittt eq			; CHECK-NEXT: ittt eq
	; CHECK-NEXT: moveq r0, #0			; CHECK-NEXT: moveq r0, #0
	; CHECK-NEXT: sxtheq r0, r0			; CHECK-NEXT: sxtheq r0, r0
	; CHECK-NEXT: bxeq lr			; CHECK-NEXT: bxeq lr
	; CHECK-NEXT: .LBB1_1: @ %vector.ph			; CHECK-NEXT: .LBB1_1: @ %vector.ph
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: adds r3, r2, #7			; CHECK-NEXT: adds r3, r2, #7
	; CHECK-NEXT: vmov.i32 q1, #0x0			; CHECK-NEXT: vmov.i32 q1, #0x0
	; CHECK-NEXT: bic r3, r3, #7			; CHECK-NEXT: bic r3, r3, #7
	; CHECK-NEXT: sub.w r12, r3, #8			; CHECK-NEXT: sub.w r12, r3, #8
	; CHECK-NEXT: movs r3, #1			; CHECK-NEXT: movs r3, #1
	; CHECK-NEXT: add.w lr, r3, r12, lsr #3			; CHECK-NEXT: add.w lr, r3, r12, lsr #3
	; CHECK-NEXT: dls lr, lr			; CHECK-NEXT: dls lr, lr
	; CHECK-NEXT: .LBB1_2: @ %vector.body			; CHECK: .LBB1_2: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vctp.16 r2			; CHECK-NEXT: vctp.16 r2
	; CHECK-NEXT: vmov q0, q1			; CHECK-NEXT: vmov q0, q1
	; CHECK-NEXT: vpst			; CHECK-NEXT: vpst
	; CHECK-NEXT: vldrbt.u16 q1, [r0], #8			; CHECK-NEXT: vldrbt.u16 q1, [r0], #8
	; CHECK-NEXT: subs r2, #8			; CHECK-NEXT: subs r2, #8
	; CHECK-NEXT: vadd.i16 q1, q0, q1			; CHECK-NEXT: vadd.i16 q1, q0, q1
	; CHECK-NEXT: vpst			; CHECK-NEXT: vpst
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: cmp r2, #0			; CHECK-NEXT: cmp r2, #0
	; CHECK-NEXT: ittt eq			; CHECK-NEXT: ittt eq
	; CHECK-NEXT: moveq r0, #0			; CHECK-NEXT: moveq r0, #0
	; CHECK-NEXT: uxtbeq r0, r0			; CHECK-NEXT: uxtbeq r0, r0
	; CHECK-NEXT: bxeq lr			; CHECK-NEXT: bxeq lr
	; CHECK-NEXT: .LBB2_1: @ %vector.ph			; CHECK-NEXT: .LBB2_1: @ %vector.ph
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: vmov.i32 q0, #0x0			; CHECK-NEXT: add.w r3, r2, #15
	; CHECK-NEXT: dlstp.8 lr, r2			; CHECK-NEXT: vmov.i32 q1, #0x0
	; CHECK-NEXT: .LBB2_2: @ %vector.body			; CHECK-NEXT: bic r3, r3, #15
				; CHECK-NEXT: sub.w r12, r3, #16
				; CHECK-NEXT: movs r3, #1
				; CHECK-NEXT: add.w lr, r3, r12, lsr #4
				; CHECK-NEXT: dls lr, lr
				; CHECK: .LBB2_2: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrb.u8 q1, [r1], #16			; CHECK-NEXT: vctp.8 r2
	; CHECK-NEXT: vldrb.u8 q2, [r0], #16			; CHECK-NEXT: vmov q0, q1
				; CHECK-NEXT: vpstt
				; CHECK-NEXT: vldrbt.u8 q1, [r1], #16
				; CHECK-NEXT: vldrbt.u8 q2, [r0], #16
				; CHECK-NEXT: subs r2, #16
	; CHECK-NEXT: vsub.i8 q1, q2, q1			; CHECK-NEXT: vsub.i8 q1, q2, q1
	; CHECK-NEXT: vadd.i8 q0, q1, q0			; CHECK-NEXT: vadd.i8 q1, q1, q0
	; CHECK-NEXT: letp lr, .LBB2_2			; CHECK-NEXT: le lr, .LBB2_2
	; CHECK-NEXT: @ %bb.3: @ %middle.block			; CHECK-NEXT: @ %bb.3: @ %middle.block
				; CHECK-NEXT: vpsel q0, q1, q0
	; CHECK-NEXT: vaddv.u8 r0, q0			; CHECK-NEXT: vaddv.u8 r0, q0
	; CHECK-NEXT: pop.w {r7, lr}			; CHECK-NEXT: pop.w {r7, lr}
	; CHECK-NEXT: uxtb r0, r0			; CHECK-NEXT: uxtb r0, r0
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%cmp11 = icmp eq i32 %N, 0			%cmp11 = icmp eq i32 %N, 0
	br i1 %cmp11, label %for.cond.cleanup, label %vector.ph			br i1 %cmp11, label %for.cond.cleanup, label %vector.ph

	Show All 34 Lines
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: cmp r2, #0			; CHECK-NEXT: cmp r2, #0
	; CHECK-NEXT: ittt eq			; CHECK-NEXT: ittt eq
	; CHECK-NEXT: moveq r0, #0			; CHECK-NEXT: moveq r0, #0
	; CHECK-NEXT: sxtheq r0, r0			; CHECK-NEXT: sxtheq r0, r0
	; CHECK-NEXT: bxeq lr			; CHECK-NEXT: bxeq lr
	; CHECK-NEXT: .LBB3_1: @ %vector.ph			; CHECK-NEXT: .LBB3_1: @ %vector.ph
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: vmov.i32 q0, #0x0			; CHECK-NEXT: adds r3, r2, #7
	; CHECK-NEXT: dlstp.16 lr, r2			; CHECK-NEXT: vmov.i32 q1, #0x0
	; CHECK-NEXT: .LBB3_2: @ %vector.body			; CHECK-NEXT: bic r3, r3, #7
				; CHECK-NEXT: sub.w r12, r3, #8
				; CHECK-NEXT: movs r3, #1
				; CHECK-NEXT: add.w lr, r3, r12, lsr #3
				; CHECK-NEXT: dls lr, lr
				; CHECK: .LBB3_2: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrb.u16 q1, [r0], #8			; CHECK-NEXT: vctp.16 r2
	; CHECK-NEXT: vldrb.u16 q2, [r1], #8			; CHECK-NEXT: vmov q0, q1
				; CHECK-NEXT: vpstt
				; CHECK-NEXT: vldrbt.u16 q1, [r0], #8
				; CHECK-NEXT: vldrbt.u16 q2, [r1], #8
				; CHECK-NEXT: subs r2, #8
	; CHECK-NEXT: vsub.i16 q1, q2, q1			; CHECK-NEXT: vsub.i16 q1, q2, q1
	; CHECK-NEXT: vadd.i16 q0, q1, q0			; CHECK-NEXT: vadd.i16 q1, q1, q0
	; CHECK-NEXT: letp lr, .LBB3_2			; CHECK-NEXT: le lr, .LBB3_2
	; CHECK-NEXT: @ %bb.3: @ %middle.block			; CHECK-NEXT: @ %bb.3: @ %middle.block
				; CHECK-NEXT: vpsel q0, q1, q0
	; CHECK-NEXT: vaddv.u16 r0, q0			; CHECK-NEXT: vaddv.u16 r0, q0
	; CHECK-NEXT: pop.w {r7, lr}			; CHECK-NEXT: pop.w {r7, lr}
	; CHECK-NEXT: sxth r0, r0			; CHECK-NEXT: sxth r0, r0
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%cmp12 = icmp eq i32 %N, 0			%cmp12 = icmp eq i32 %N, 0
	br i1 %cmp12, label %for.cond.cleanup, label %vector.ph			br i1 %cmp12, label %for.cond.cleanup, label %vector.ph

	Show All 36 Lines
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: cmp r2, #0			; CHECK-NEXT: cmp r2, #0
	; CHECK-NEXT: ittt eq			; CHECK-NEXT: ittt eq
	; CHECK-NEXT: moveq r0, #0			; CHECK-NEXT: moveq r0, #0
	; CHECK-NEXT: uxtbeq r0, r0			; CHECK-NEXT: uxtbeq r0, r0
	; CHECK-NEXT: bxeq lr			; CHECK-NEXT: bxeq lr
	; CHECK-NEXT: .LBB4_1: @ %vector.ph			; CHECK-NEXT: .LBB4_1: @ %vector.ph
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: vmov.i32 q0, #0x0			; CHECK-NEXT: add.w r3, r2, #15
	; CHECK-NEXT: dlstp.8 lr, r2			; CHECK-NEXT: vmov.i32 q1, #0x0
	; CHECK-NEXT: .LBB4_2: @ %vector.body			; CHECK-NEXT: bic r3, r3, #15
				; CHECK-NEXT: sub.w r12, r3, #16
				; CHECK-NEXT: movs r3, #1
				; CHECK-NEXT: add.w lr, r3, r12, lsr #4
				; CHECK-NEXT: dls lr, lr
				; CHECK: .LBB4_2: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrb.u8 q1, [r0], #16			; CHECK-NEXT: vctp.8 r2
	; CHECK-NEXT: vldrb.u8 q2, [r1], #16			; CHECK-NEXT: vmov q0, q1
				; CHECK-NEXT: vpstt
				; CHECK-NEXT: vldrbt.u8 q1, [r0], #16
				; CHECK-NEXT: vldrbt.u8 q2, [r1], #16
				; CHECK-NEXT: subs r2, #16
	; CHECK-NEXT: vmul.i8 q1, q2, q1			; CHECK-NEXT: vmul.i8 q1, q2, q1
	; CHECK-NEXT: vadd.i8 q0, q1, q0			; CHECK-NEXT: vadd.i8 q1, q1, q0
	; CHECK-NEXT: letp lr, .LBB4_2			; CHECK-NEXT: le lr, .LBB4_2
	; CHECK-NEXT: @ %bb.3: @ %middle.block			; CHECK-NEXT: @ %bb.3: @ %middle.block
				; CHECK-NEXT: vpsel q0, q1, q0
	; CHECK-NEXT: vaddv.u8 r0, q0			; CHECK-NEXT: vaddv.u8 r0, q0
	; CHECK-NEXT: pop.w {r7, lr}			; CHECK-NEXT: pop.w {r7, lr}
	; CHECK-NEXT: uxtb r0, r0			; CHECK-NEXT: uxtb r0, r0
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%cmp10 = icmp eq i32 %N, 0			%cmp10 = icmp eq i32 %N, 0
	br i1 %cmp10, label %for.cond.cleanup, label %vector.ph			br i1 %cmp10, label %for.cond.cleanup, label %vector.ph

	Show All 34 Lines
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: cmp r2, #0			; CHECK-NEXT: cmp r2, #0
	; CHECK-NEXT: ittt eq			; CHECK-NEXT: ittt eq
	; CHECK-NEXT: moveq r0, #0			; CHECK-NEXT: moveq r0, #0
	; CHECK-NEXT: sxtheq r0, r0			; CHECK-NEXT: sxtheq r0, r0
	; CHECK-NEXT: bxeq lr			; CHECK-NEXT: bxeq lr
	; CHECK-NEXT: .LBB5_1: @ %vector.ph			; CHECK-NEXT: .LBB5_1: @ %vector.ph
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: vmov.i32 q0, #0x0			; CHECK-NEXT: adds r3, r2, #7
	; CHECK-NEXT: dlstp.16 lr, r2			; CHECK-NEXT: vmov.i32 q1, #0x0
	; CHECK-NEXT: .LBB5_2: @ %vector.body			; CHECK-NEXT: bic r3, r3, #7
				; CHECK-NEXT: sub.w r12, r3, #8
				; CHECK-NEXT: movs r3, #1
				; CHECK-NEXT: add.w lr, r3, r12, lsr #3
				; CHECK-NEXT: dls lr, lr
				; CHECK: .LBB5_2: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrb.u16 q1, [r0], #8			; CHECK-NEXT: vctp.16 r2
	; CHECK-NEXT: vldrb.u16 q2, [r1], #8			; CHECK-NEXT: vmov q0, q1
				; CHECK-NEXT: vpstt
				; CHECK-NEXT: vldrbt.u16 q1, [r0], #8
				; CHECK-NEXT: vldrbt.u16 q2, [r1], #8
				; CHECK-NEXT: subs r2, #8
	; CHECK-NEXT: vmul.i16 q1, q2, q1			; CHECK-NEXT: vmul.i16 q1, q2, q1
	; CHECK-NEXT: vadd.i16 q0, q1, q0			; CHECK-NEXT: vadd.i16 q1, q1, q0
	; CHECK-NEXT: letp lr, .LBB5_2			; CHECK-NEXT: le lr, .LBB5_2
	; CHECK-NEXT: @ %bb.3: @ %middle.block			; CHECK-NEXT: @ %bb.3: @ %middle.block
				; CHECK-NEXT: vpsel q0, q1, q0
	; CHECK-NEXT: vaddv.u16 r0, q0			; CHECK-NEXT: vaddv.u16 r0, q0
	; CHECK-NEXT: pop.w {r7, lr}			; CHECK-NEXT: pop.w {r7, lr}
	; CHECK-NEXT: sxth r0, r0			; CHECK-NEXT: sxth r0, r0
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	entry:			entry:
	%cmp12 = icmp eq i32 %N, 0			%cmp12 = icmp eq i32 %N, 0
	br i1 %cmp12, label %for.cond.cleanup, label %vector.ph			br i1 %cmp12, label %for.cond.cleanup, label %vector.ph

	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: bic r3, r3, #3			; CHECK-NEXT: bic r3, r3, #3
	; CHECK-NEXT: mov r4, r0			; CHECK-NEXT: mov r4, r0
	; CHECK-NEXT: subs r6, r3, #4			; CHECK-NEXT: subs r6, r3, #4
	; CHECK-NEXT: movs r3, #1			; CHECK-NEXT: movs r3, #1
	; CHECK-NEXT: mov r5, r1			; CHECK-NEXT: mov r5, r1
	; CHECK-NEXT: add.w lr, r3, r6, lsr #2			; CHECK-NEXT: add.w lr, r3, r6, lsr #2
	; CHECK-NEXT: mov r3, r2			; CHECK-NEXT: mov r3, r2
	; CHECK-NEXT: dls lr, lr			; CHECK-NEXT: dls lr, lr
	; CHECK-NEXT: .LBB6_2: @ %vector.body			; CHECK: .LBB6_2: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vctp.32 r3			; CHECK-NEXT: vctp.32 r3
	; CHECK-NEXT: vmov q0, q1			; CHECK-NEXT: vmov q0, q1
	; CHECK-NEXT: vpstt			; CHECK-NEXT: vpstt
	; CHECK-NEXT: vldrbt.u32 q1, [r4], #4			; CHECK-NEXT: vldrbt.u32 q1, [r4], #4
	; CHECK-NEXT: vldrbt.u32 q2, [r5], #4			; CHECK-NEXT: vldrbt.u32 q2, [r5], #4
	; CHECK-NEXT: subs r3, #4			; CHECK-NEXT: subs r3, #4
	; CHECK-NEXT: vmul.i32 q1, q2, q1			; CHECK-NEXT: vmul.i32 q1, q2, q1
	; CHECK-NEXT: vadd.i32 q1, q1, q0			; CHECK-NEXT: vadd.i32 q1, q1, q0
	; CHECK-NEXT: le lr, .LBB6_2			; CHECK-NEXT: le lr, .LBB6_2
	; CHECK-NEXT: @ %bb.3: @ %middle.block			; CHECK-NEXT: @ %bb.3: @ %middle.block
	; CHECK-NEXT: vpsel q0, q1, q0			; CHECK-NEXT: vpsel q0, q1, q0
	; CHECK-NEXT: vaddv.u32 r12, q0			; CHECK-NEXT: vaddv.u32 r12, q0
	; CHECK-NEXT: cbz r2, .LBB6_7			; CHECK-NEXT: cbz r2, .LBB6_7
	; CHECK-NEXT: @ %bb.4: @ %vector.ph47			; CHECK-NEXT: @ %bb.4: @ %vector.ph47
				; CHECK-NEXT: movs r3, #1
				; CHECK-NEXT: add.w lr, r3, r6, lsr #2
	; CHECK-NEXT: movs r3, #0			; CHECK-NEXT: movs r3, #0
	; CHECK-NEXT: dlstp.32 lr, r2			; CHECK-NEXT: dls lr, lr
	; CHECK-NEXT: vdup.32 q0, r3			; CHECK-NEXT: vdup.32 q0, r3
	; CHECK-NEXT: vmov.32 q1[0], r12			; CHECK-NEXT: vmov.32 q0[0], r12
	; CHECK-NEXT: .LBB6_5: @ %vector.body46			; CHECK: .LBB6_5: @ %vector.body46
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrb.u32 q0, [r0], #4			; CHECK-NEXT: vctp.32 r2
	; CHECK-NEXT: vldrb.u32 q2, [r1], #4			; CHECK-NEXT: vmov q1, q0
				; CHECK-NEXT: vpstt
				; CHECK-NEXT: vldrbt.u32 q0, [r0], #4
				; CHECK-NEXT: vldrbt.u32 q2, [r1], #4
				; CHECK-NEXT: subs r2, #4
	; CHECK-NEXT: vmul.i32 q0, q2, q0			; CHECK-NEXT: vmul.i32 q0, q2, q0
	; CHECK-NEXT: vadd.i32 q1, q0, q1			; CHECK-NEXT: vadd.i32 q0, q0, q1
	; CHECK-NEXT: letp lr, .LBB6_5			; CHECK-NEXT: le lr, .LBB6_5
	; CHECK-NEXT: @ %bb.6: @ %middle.block44			; CHECK-NEXT: @ %bb.6: @ %middle.block44
	; CHECK-NEXT: vmov q0, q1			; CHECK-NEXT: vpsel q0, q0, q1
	; CHECK-NEXT: vaddv.u32 r12, q0			; CHECK-NEXT: vaddv.u32 r12, q0
	; CHECK-NEXT: .LBB6_7: @ %for.cond.cleanup7			; CHECK-NEXT: .LBB6_7: @ %for.cond.cleanup7
	; CHECK-NEXT: mov r0, r12			; CHECK-NEXT: mov r0, r12
	; CHECK-NEXT: pop {r4, r5, r6, pc}			; CHECK-NEXT: pop {r4, r5, r6, pc}
	; CHECK-NEXT: .LBB6_8:			; CHECK-NEXT: .LBB6_8:
	; CHECK-NEXT: movs r0, #0			; CHECK-NEXT: movs r0, #0
	; CHECK-NEXT: pop {r4, r5, r6, pc}			; CHECK-NEXT: pop {r4, r5, r6, pc}
	entry:			entry:
	▲ Show 20 Lines • Show All 76 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: bic r3, r3, #7			; CHECK-NEXT: bic r3, r3, #7
	; CHECK-NEXT: movs r4, #1			; CHECK-NEXT: movs r4, #1
	; CHECK-NEXT: subs r3, #8			; CHECK-NEXT: subs r3, #8
	; CHECK-NEXT: vmov q3, q1			; CHECK-NEXT: vmov q3, q1
	; CHECK-NEXT: add.w lr, r4, r3, lsr #3			; CHECK-NEXT: add.w lr, r4, r3, lsr #3
	; CHECK-NEXT: mov r3, r0			; CHECK-NEXT: mov r3, r0
	; CHECK-NEXT: mov r4, r1			; CHECK-NEXT: mov r4, r1
	; CHECK-NEXT: dls lr, lr			; CHECK-NEXT: dls lr, lr
	; CHECK-NEXT: .LBB7_2: @ %vector.body			; CHECK: .LBB7_2: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vctp.16 r2			; CHECK-NEXT: vctp.16 r2
	; CHECK-NEXT: vmov q0, q1			; CHECK-NEXT: vmov q0, q1
	; CHECK-NEXT: vpstt			; CHECK-NEXT: vpstt
	; CHECK-NEXT: vldrbt.u16 q1, [r3], #8			; CHECK-NEXT: vldrbt.u16 q1, [r3], #8
	; CHECK-NEXT: vldrbt.u16 q4, [r4], #8			; CHECK-NEXT: vldrbt.u16 q4, [r4], #8
	; CHECK-NEXT: vmov q2, q3			; CHECK-NEXT: vmov q2, q3
	; CHECK-NEXT: vsub.i16 q3, q4, q1			; CHECK-NEXT: vsub.i16 q3, q4, q1
	▲ Show 20 Lines • Show All 99 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: cmp r1, r2			; CHECK-NEXT: cmp r1, r2
	; CHECK-NEXT: cset r4, lo			; CHECK-NEXT: cset r4, lo
	; CHECK-NEXT: .LBB8_4: @ %lor.end			; CHECK-NEXT: .LBB8_4: @ %lor.end
	; CHECK-NEXT: ldr.w r3, [r12, #4]			; CHECK-NEXT: ldr.w r3, [r12, #4]
	; CHECK-NEXT: cmp r3, #1			; CHECK-NEXT: cmp r3, #1
	; CHECK-NEXT: it lt			; CHECK-NEXT: it lt
	; CHECK-NEXT: poplt {r4, pc}			; CHECK-NEXT: poplt {r4, pc}
	; CHECK-NEXT: .LBB8_5: @ %vector.ph			; CHECK-NEXT: .LBB8_5: @ %vector.ph
				; CHECK-NEXT: adds r1, r3, #3
				; CHECK-NEXT: movs r2, #1
				; CHECK-NEXT: bic r1, r1, #3
				; CHECK-NEXT: subs r1, #4
				; CHECK-NEXT: add.w lr, r2, r1, lsr #2
	; CHECK-NEXT: movw r1, :lower16:days			; CHECK-NEXT: movw r1, :lower16:days
	; CHECK-NEXT: movt r1, :upper16:days			; CHECK-NEXT: movt r1, :upper16:days
	; CHECK-NEXT: movs r2, #52			; CHECK-NEXT: movs r2, #52
	; CHECK-NEXT: mla r1, r4, r2, r1			; CHECK-NEXT: mla r1, r4, r2, r1
	; CHECK-NEXT: movs r2, #0			; CHECK-NEXT: movs r2, #0
	; CHECK-NEXT: vdup.32 q0, r2			; CHECK-NEXT: vdup.32 q0, r2
	; CHECK-NEXT: vmov.32 q1[0], r0			; CHECK-NEXT: dls lr, lr
				; CHECK-NEXT: vmov.32 q0[0], r0
	; CHECK-NEXT: subs r0, r3, #1			; CHECK-NEXT: subs r0, r3, #1
	; CHECK-NEXT: dlstp.32 lr, r0			; CHECK: .LBB8_6: @ %vector.body
	; CHECK-NEXT: .LBB8_6: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrw.u32 q0, [r1], #16			; CHECK-NEXT: vctp.32 r0
	; CHECK-NEXT: vadd.i32 q1, q0, q1			; CHECK-NEXT: vmov q1, q0
	; CHECK-NEXT: letp lr, .LBB8_6			; CHECK-NEXT: vpst
				; CHECK-NEXT: vldrwt.u32 q0, [r1], #16
				; CHECK-NEXT: subs r0, #4
				; CHECK-NEXT: vadd.i32 q0, q0, q1
				; CHECK-NEXT: le lr, .LBB8_6
	; CHECK-NEXT: @ %bb.7: @ %middle.block			; CHECK-NEXT: @ %bb.7: @ %middle.block
	; CHECK-NEXT: vmov q0, q1			; CHECK-NEXT: vpsel q0, q0, q1
	; CHECK-NEXT: vaddv.u32 r0, q0			; CHECK-NEXT: vaddv.u32 r0, q0
	; CHECK-NEXT: pop {r4, pc}			; CHECK-NEXT: pop {r4, pc}
	entry:			entry:
	%day1 = getelementptr inbounds %struct.date, %struct.date* %pd, i32 0, i32 0			%day1 = getelementptr inbounds %struct.date, %struct.date* %pd, i32 0, i32 0
	%0 = load i32, i32* %day1, align 4			%0 = load i32, i32* %day1, align 4
	%year = getelementptr inbounds %struct.date, %struct.date* %pd, i32 0, i32 2			%year = getelementptr inbounds %struct.date, %struct.date* %pd, i32 0, i32 2
	%1 = load i32, i32* %year, align 4			%1 = load i32, i32* %year, align 4
	%2 = and i32 %1, 3			%2 = and i32 %1, 3
	▲ Show 20 Lines • Show All 58 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/LowOverheadLoops/varying-outer-2d-reduction.ll

	Show First 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
	; ENABLED-NEXT: cmp r2, r6			; ENABLED-NEXT: cmp r2, r6
	; ENABLED-NEXT: ble .LBB0_2			; ENABLED-NEXT: ble .LBB0_2
	; ENABLED-NEXT: @ %bb.5: @ %vector.ph			; ENABLED-NEXT: @ %bb.5: @ %vector.ph
	; ENABLED-NEXT: @ in Loop: Header=BB0_4 Depth=1			; ENABLED-NEXT: @ in Loop: Header=BB0_4 Depth=1
	; ENABLED-NEXT: bic r0, r9, #3			; ENABLED-NEXT: bic r0, r9, #3
	; ENABLED-NEXT: movs r7, #1			; ENABLED-NEXT: movs r7, #1
	; ENABLED-NEXT: subs r0, #4			; ENABLED-NEXT: subs r0, #4
	; ENABLED-NEXT: subs r4, r2, r6			; ENABLED-NEXT: subs r4, r2, r6
	; ENABLED-NEXT: vmov.i32 q0, #0x0			; ENABLED-NEXT: vmov.i32 q1, #0x0
	; ENABLED-NEXT: add.w r8, r7, r0, lsr #2			; ENABLED-NEXT: add.w r8, r7, r0, lsr #2
				; ENABLED-NEXT: sub.w r0, r12, r6
				; ENABLED-NEXT: bic r0, r0, #3
				; ENABLED-NEXT: subs r0, #4
				; ENABLED-NEXT: add.w r0, r7, r0, lsr #2
	; ENABLED-NEXT: mov r7, r10			; ENABLED-NEXT: mov r7, r10
	; ENABLED-NEXT: dlstp.32 lr, r4			; ENABLED-NEXT: dls lr, r0
	; ENABLED-NEXT: ldr r0, [sp] @ 4-byte Reload			; ENABLED-NEXT: ldr r0, [sp] @ 4-byte Reload
	; ENABLED-NEXT: .LBB0_6: @ %vector.body			; ENABLED: .LBB0_6: @ %vector.body
	; ENABLED-NEXT: @ Parent Loop BB0_4 Depth=1			; ENABLED-NEXT: @ Parent Loop BB0_4 Depth=1
	; ENABLED-NEXT: @ => This Inner Loop Header: Depth=2			; ENABLED-NEXT: @ => This Inner Loop Header: Depth=2
	; ENABLED-NEXT: vldrh.s32 q1, [r0], #8			; ENABLED-NEXT: vctp.32 r4
	; ENABLED-NEXT: vldrh.s32 q2, [r7], #8			; ENABLED-NEXT: vmov q0, q1
				; ENABLED-NEXT: vpstt
				; ENABLED-NEXT: vldrht.s32 q1, [r0], #8
				; ENABLED-NEXT: vldrht.s32 q2, [r7], #8
	; ENABLED-NEXT: mov lr, r8			; ENABLED-NEXT: mov lr, r8
	; ENABLED-NEXT: vmul.i32 q1, q2, q1			; ENABLED-NEXT: vmul.i32 q1, q2, q1
	; ENABLED-NEXT: sub.w r8, r8, #1			; ENABLED-NEXT: sub.w r8, r8, #1
	; ENABLED-NEXT: vshl.s32 q1, r5			; ENABLED-NEXT: vshl.s32 q1, r5
	; ENABLED-NEXT: vadd.i32 q0, q1, q0			; ENABLED-NEXT: subs r4, #4
	; ENABLED-NEXT: letp lr, .LBB0_6			; ENABLED-NEXT: vadd.i32 q1, q1, q0
				; ENABLED-NEXT: le lr, .LBB0_6
	; ENABLED-NEXT: @ %bb.7: @ %middle.block			; ENABLED-NEXT: @ %bb.7: @ %middle.block
	; ENABLED-NEXT: @ in Loop: Header=BB0_4 Depth=1			; ENABLED-NEXT: @ in Loop: Header=BB0_4 Depth=1
				; ENABLED-NEXT: vpsel q0, q1, q0
	; ENABLED-NEXT: vaddv.u32 r0, q0			; ENABLED-NEXT: vaddv.u32 r0, q0
	; ENABLED-NEXT: b .LBB0_3			; ENABLED-NEXT: b .LBB0_3
	; ENABLED-NEXT: .LBB0_8: @ %for.end17			; ENABLED-NEXT: .LBB0_8: @ %for.end17
	; ENABLED-NEXT: add sp, #4			; ENABLED-NEXT: add sp, #4
	; ENABLED-NEXT: pop.w {r4, r5, r6, r7, r8, r9, r10, pc}			; ENABLED-NEXT: pop.w {r4, r5, r6, r7, r8, r9, r10, pc}
	;			;
	; NOREDUCTIONS-LABEL: varying_outer_2d_reduction:			; NOREDUCTIONS-LABEL: varying_outer_2d_reduction:
	; NOREDUCTIONS: @ %bb.0: @ %entry			; NOREDUCTIONS: @ %bb.0: @ %entry
	Show All 16 Lines
	; NOREDUCTIONS-NEXT: .LBB0_3: @ %for.end			; NOREDUCTIONS-NEXT: .LBB0_3: @ %for.end
	; NOREDUCTIONS-NEXT: @ in Loop: Header=BB0_4 Depth=1			; NOREDUCTIONS-NEXT: @ in Loop: Header=BB0_4 Depth=1
	; NOREDUCTIONS-NEXT: lsrs r0, r0, #16			; NOREDUCTIONS-NEXT: lsrs r0, r0, #16
	; NOREDUCTIONS-NEXT: sub.w r9, r9, #1			; NOREDUCTIONS-NEXT: sub.w r9, r9, #1
	; NOREDUCTIONS-NEXT: strh.w r0, [r1, r6, lsl #1]			; NOREDUCTIONS-NEXT: strh.w r0, [r1, r6, lsl #1]
	; NOREDUCTIONS-NEXT: adds r6, #1			; NOREDUCTIONS-NEXT: adds r6, #1
	; NOREDUCTIONS-NEXT: add.w r10, r10, #2			; NOREDUCTIONS-NEXT: add.w r10, r10, #2
	; NOREDUCTIONS-NEXT: cmp r6, r3			; NOREDUCTIONS-NEXT: cmp r6, r3
	; NOREDUCTIONS-NEXT: beq .LBB0_8			; NOREDUCTIONS: beq .LBB0_8
	; NOREDUCTIONS-NEXT: .LBB0_4: @ %for.body			; NOREDUCTIONS-NEXT: .LBB0_4: @ %for.body
	; NOREDUCTIONS-NEXT: @ =>This Loop Header: Depth=1			; NOREDUCTIONS-NEXT: @ =>This Loop Header: Depth=1
	; NOREDUCTIONS-NEXT: @ Child Loop BB0_6 Depth 2			; NOREDUCTIONS-NEXT: @ Child Loop BB0_6 Depth 2
	; NOREDUCTIONS-NEXT: cmp r2, r6			; NOREDUCTIONS-NEXT: cmp r2, r6
	; NOREDUCTIONS-NEXT: ble .LBB0_2			; NOREDUCTIONS-NEXT: ble .LBB0_2
	; NOREDUCTIONS-NEXT: @ %bb.5: @ %vector.ph			; NOREDUCTIONS-NEXT: @ %bb.5: @ %vector.ph
	; NOREDUCTIONS-NEXT: @ in Loop: Header=BB0_4 Depth=1			; NOREDUCTIONS-NEXT: @ in Loop: Header=BB0_4 Depth=1
	; NOREDUCTIONS-NEXT: bic r0, r9, #3			; NOREDUCTIONS-NEXT: bic r0, r9, #3
	; NOREDUCTIONS-NEXT: movs r7, #1			; NOREDUCTIONS-NEXT: movs r7, #1
	; NOREDUCTIONS-NEXT: subs r0, #4			; NOREDUCTIONS-NEXT: subs r0, #4
	; NOREDUCTIONS-NEXT: subs r4, r2, r6			; NOREDUCTIONS-NEXT: subs r4, r2, r6
	; NOREDUCTIONS-NEXT: vmov.i32 q0, #0x0			; NOREDUCTIONS-NEXT: vmov.i32 q1, #0x0
	; NOREDUCTIONS-NEXT: add.w r8, r7, r0, lsr #2			; NOREDUCTIONS-NEXT: add.w r8, r7, r0, lsr #2
				; NOREDUCTIONS-NEXT: sub.w r0, r12, r6
				; NOREDUCTIONS-NEXT: bic r0, r0, #3
				; NOREDUCTIONS-NEXT: subs r0, #4
				; NOREDUCTIONS-NEXT: add.w r0, r7, r0, lsr #2
	; NOREDUCTIONS-NEXT: mov r7, r10			; NOREDUCTIONS-NEXT: mov r7, r10
	; NOREDUCTIONS-NEXT: dlstp.32 lr, r4			; NOREDUCTIONS-NEXT: dls lr, r0
	; NOREDUCTIONS-NEXT: ldr r0, [sp] @ 4-byte Reload			; NOREDUCTIONS: ldr r0, [sp] @ 4-byte Reload
	; NOREDUCTIONS-NEXT: .LBB0_6: @ %vector.body			; NOREDUCTIONS-NEXT: .LBB0_6: @ %vector.body
	; NOREDUCTIONS-NEXT: @ Parent Loop BB0_4 Depth=1			; NOREDUCTIONS-NEXT: @ Parent Loop BB0_4 Depth=1
	; NOREDUCTIONS-NEXT: @ => This Inner Loop Header: Depth=2			; NOREDUCTIONS-NEXT: @ => This Inner Loop Header: Depth=2
	; NOREDUCTIONS-NEXT: vldrh.s32 q1, [r0], #8			; NOREDUCTIONS-NEXT: vctp.32 r4
	; NOREDUCTIONS-NEXT: vldrh.s32 q2, [r7], #8			; NOREDUCTIONS-NEXT: vmov q0, q1
				; NOREDUCTIONS-NEXT: vpstt
				; NOREDUCTIONS-NEXT: vldrht.s32 q1, [r0], #8
				; NOREDUCTIONS-NEXT: vldrht.s32 q2, [r7], #8
	; NOREDUCTIONS-NEXT: mov lr, r8			; NOREDUCTIONS-NEXT: mov lr, r8
	; NOREDUCTIONS-NEXT: vmul.i32 q1, q2, q1			; NOREDUCTIONS-NEXT: vmul.i32 q1, q2, q1
	; NOREDUCTIONS-NEXT: sub.w r8, r8, #1			; NOREDUCTIONS-NEXT: sub.w r8, r8, #1
	; NOREDUCTIONS-NEXT: vshl.s32 q1, r5			; NOREDUCTIONS-NEXT: vshl.s32 q1, r5
	; NOREDUCTIONS-NEXT: vadd.i32 q0, q1, q0			; NOREDUCTIONS-NEXT: subs r4, #4
	; NOREDUCTIONS-NEXT: letp lr, .LBB0_6			; NOREDUCTIONS-NEXT: vadd.i32 q1, q1, q0
				; NOREDUCTIONS-NEXT: le lr, .LBB0_6
	; NOREDUCTIONS-NEXT: @ %bb.7: @ %middle.block			; NOREDUCTIONS-NEXT: @ %bb.7: @ %middle.block
	; NOREDUCTIONS-NEXT: @ in Loop: Header=BB0_4 Depth=1			; NOREDUCTIONS-NEXT: @ in Loop: Header=BB0_4 Depth=1
				; NOREDUCTIONS-NEXT: vpsel q0, q1, q0
	; NOREDUCTIONS-NEXT: vaddv.u32 r0, q0			; NOREDUCTIONS-NEXT: vaddv.u32 r0, q0
	; NOREDUCTIONS-NEXT: b .LBB0_3			; NOREDUCTIONS-NEXT: b .LBB0_3
	; NOREDUCTIONS-NEXT: .LBB0_8: @ %for.end17			; NOREDUCTIONS-NEXT: .LBB0_8: @ %for.end17
	; NOREDUCTIONS-NEXT: add sp, #4			; NOREDUCTIONS-NEXT: add sp, #4
	; NOREDUCTIONS-NEXT: pop.w {r4, r5, r6, r7, r8, r9, r10, pc}			; NOREDUCTIONS-NEXT: pop.w {r4, r5, r6, r7, r8, r9, r10, pc}
	entry:			entry:
	%conv = sext i16 %N to i32			%conv = sext i16 %N to i32
	%cmp36 = icmp sgt i16 %N, 0			%cmp36 = icmp sgt i16 %N, 0
	▲ Show 20 Lines • Show All 79 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/LowOverheadLoops/vctp-add-operand-liveout.mir

Show First 20 Lines • Show All 116 Lines • ▼ Show 20 Lines	body: \|
; CHECK: tBX_RET 0 /* CC::eq */, killed $cpsr, implicit $r0, implicit killed $itstate		; CHECK: tBX_RET 0 /* CC::eq */, killed $cpsr, implicit $r0, implicit killed $itstate
; CHECK: bb.1.vector.ph:		; CHECK: bb.1.vector.ph:
; CHECK: successors: %bb.2(0x80000000)		; CHECK: successors: %bb.2(0x80000000)
; CHECK: liveins: $lr, $r0, $r1, $r2, $r7		; CHECK: liveins: $lr, $r0, $r1, $r2, $r7
; CHECK: frame-setup tPUSH 14 /* CC::al */, $noreg, killed $r7, killed $lr, implicit-def $sp, implicit $sp		; CHECK: frame-setup tPUSH 14 /* CC::al */, $noreg, killed $r7, killed $lr, implicit-def $sp, implicit $sp
; CHECK: frame-setup CFI_INSTRUCTION def_cfa_offset 8		; CHECK: frame-setup CFI_INSTRUCTION def_cfa_offset 8
; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4		; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4
; CHECK: frame-setup CFI_INSTRUCTION offset $r7, -8		; CHECK: frame-setup CFI_INSTRUCTION offset $r7, -8
; CHECK: renamable $r3, dead $cpsr = tADDi3 renamable $r2, 3, 14 /* CC::al */, $noreg
; CHECK: renamable $q1 = MVE_VMOVimmi32 0, 0, $noreg, undef renamable $q1		; CHECK: renamable $q1 = MVE_VMOVimmi32 0, 0, $noreg, undef renamable $q1
; CHECK: renamable $r3 = t2BICri killed renamable $r3, 3, 14 /* CC::al */, $noreg, $noreg		; CHECK: $lr = MVE_DLSTP_32 renamable $r2
; CHECK: renamable $r12 = t2SUBri killed renamable $r3, 4, 14 /* CC::al */, $noreg, $noreg
; CHECK: renamable $r3, dead $cpsr = tMOVi8 1, 14 /* CC::al */, $noreg
; CHECK: renamable $r12 = nuw nsw t2ADDrs killed renamable $r3, killed renamable $r12, 19, 14 /* CC::al */, $noreg, $noreg
; CHECK: dead $lr = t2DLS renamable $r12
; CHECK: $r3 = tMOVr killed $r12, 14 /* CC::al */, $noreg
; CHECK: bb.2.vector.body:		; CHECK: bb.2.vector.body:
; CHECK: successors: %bb.2(0x7c000000), %bb.3(0x04000000)		; CHECK: successors: %bb.2(0x7c000000), %bb.3(0x04000000)
; CHECK: liveins: $q1, $r0, $r1, $r2, $r3		; CHECK: liveins: $lr, $q1, $r0, $r1, $r2
; CHECK: renamable $vpr = MVE_VCTP32 renamable $r2, 0, $noreg
; CHECK: $q0 = MVE_VORR killed $q1, killed $q1, 0, $noreg, undef $q0		; CHECK: $q0 = MVE_VORR killed $q1, killed $q1, 0, $noreg, undef $q0
; CHECK: MVE_VPST 4, implicit $vpr		; CHECK: renamable $r0, renamable $q1 = MVE_VLDRHS32_post killed renamable $r0, 8, 0, $noreg :: (load 8 from %ir.lsr.iv17, align 2)
; CHECK: renamable $r0, renamable $q1 = MVE_VLDRHS32_post killed renamable $r0, 8, 1, renamable $vpr :: (load 8 from %ir.lsr.iv17, align 2)		; CHECK: renamable $r1, renamable $q2 = MVE_VLDRHS32_post killed renamable $r1, 8, 0, killed $noreg :: (load 8 from %ir.lsr.iv1820, align 2)
; CHECK: renamable $r1, renamable $q2 = MVE_VLDRHS32_post killed renamable $r1, 8, 1, killed renamable $vpr :: (load 8 from %ir.lsr.iv1820, align 2)
; CHECK: $lr = tMOVr $r3, 14 /* CC::al */, $noreg
; CHECK: renamable $q1 = nsw MVE_VMULi32 killed renamable $q2, killed renamable $q1, 0, $noreg, undef renamable $q1		; CHECK: renamable $q1 = nsw MVE_VMULi32 killed renamable $q2, killed renamable $q1, 0, $noreg, undef renamable $q1
; CHECK: renamable $r3, dead $cpsr = nsw tSUBi8 killed $r3, 1, 14 /* CC::al */, $noreg
; CHECK: renamable $r2, dead $cpsr = tSUBi8 killed renamable $r2, 4, 14 /* CC::al */, $noreg		; CHECK: renamable $r2, dead $cpsr = tSUBi8 killed renamable $r2, 4, 14 /* CC::al */, $noreg
; CHECK: renamable $q1 = MVE_VADDi32 killed renamable $q1, renamable $q0, 0, $noreg, undef renamable $q1		; CHECK: renamable $q1 = MVE_VADDi32 killed renamable $q1, renamable $q0, 0, $noreg, undef renamable $q1
; CHECK: dead $lr = t2LEUpdate killed renamable $lr, %bb.2		; CHECK: $lr = MVE_LETP killed renamable $lr, %bb.2
; CHECK: bb.3.middle.block:		; CHECK: bb.3.middle.block:
; CHECK: liveins: $q0, $q1, $r2		; CHECK: liveins: $q0, $q1, $r2
; CHECK: renamable $r0, dead $cpsr = tADDi3 killed renamable $r2, 4, 14 /* CC::al */, $noreg		; CHECK: renamable $r0, dead $cpsr = tADDi3 killed renamable $r2, 4, 14 /* CC::al */, $noreg
; CHECK: renamable $vpr = MVE_VCTP32 killed renamable $r0, 0, $noreg		; CHECK: renamable $vpr = MVE_VCTP32 killed renamable $r0, 0, $noreg
; CHECK: renamable $q0 = MVE_VPSEL killed renamable $q1, killed renamable $q0, 0, killed renamable $vpr		; CHECK: renamable $q0 = MVE_VPSEL killed renamable $q1, killed renamable $q0, 0, killed renamable $vpr
; CHECK: renamable $r0 = MVE_VADDVu32no_acc killed renamable $q0, 0, $noreg		; CHECK: renamable $r0 = MVE_VADDVu32no_acc killed renamable $q0, 0, $noreg
; CHECK: tPOP_RET 14 /* CC::al */, $noreg, def $r7, def $pc, implicit killed $r0		; CHECK: tPOP_RET 14 /* CC::al */, $noreg, def $r7, def $pc, implicit killed $r0
bb.0.entry:		bb.0.entry:
▲ Show 20 Lines • Show All 53 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/LowOverheadLoops/vector-arith-codegen.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple=armv8.1m.main -mattr=+mve -tail-predication=enabled --verify-machineinstrs %s -o - \| FileCheck %s			; RUN: llc -mtriple=armv8.1m.main -mattr=+mve -tail-predication=enabled --verify-machineinstrs %s -o - \| FileCheck %s

	define dso_local i32 @mul_reduce_add(i32* noalias nocapture readonly %a, i32* noalias nocapture readonly %b, i32 %N) {			define dso_local i32 @mul_reduce_add(i32* noalias nocapture readonly %a, i32* noalias nocapture readonly %b, i32 %N) {
	; CHECK-LABEL: mul_reduce_add:			; CHECK-LABEL: mul_reduce_add:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: cmp r2, #0			; CHECK-NEXT: cmp r2, #0
	; CHECK-NEXT: itt eq			; CHECK-NEXT: itt eq
	; CHECK-NEXT: moveq r0, #0			; CHECK-NEXT: moveq r0, #0
	; CHECK-NEXT: bxeq lr			; CHECK-NEXT: bxeq lr
	; CHECK-NEXT: .LBB0_1: @ %vector.ph			; CHECK-NEXT: .LBB0_1: @ %vector.ph
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: vmov.i32 q1, #0x0			; CHECK-NEXT: adds r3, r2, #3
				; CHECK-NEXT: vmov.i32 q0, #0x0
				; CHECK-NEXT: bic r3, r3, #3
				; CHECK-NEXT: sub.w r12, r3, #4
				; CHECK-NEXT: movs r3, #1
				; CHECK-NEXT: add.w lr, r3, r12, lsr #2
	; CHECK-NEXT: movs r3, #0			; CHECK-NEXT: movs r3, #0
	; CHECK-NEXT: dlstp.32 lr, r2			; CHECK-NEXT: dls lr, lr
	; CHECK-NEXT: .LBB0_2: @ %vector.body			; CHECK: .LBB0_2: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrw.u32 q0, [r0], #16			; CHECK-NEXT: vctp.32 r2
	; CHECK-NEXT: vldrw.u32 q2, [r1], #16			; CHECK-NEXT: vmov q1, q0
				; CHECK-NEXT: vpstt
				; CHECK-NEXT: vldrwt.u32 q0, [r0], #16
				; CHECK-NEXT: vldrwt.u32 q2, [r1], #16
	; CHECK-NEXT: adds r3, #4			; CHECK-NEXT: adds r3, #4
	; CHECK-NEXT: vmul.i32 q0, q2, q0			; CHECK-NEXT: vmul.i32 q0, q2, q0
	; CHECK-NEXT: vadd.i32 q1, q0, q1			; CHECK-NEXT: subs r2, #4
	; CHECK-NEXT: letp lr, .LBB0_2			; CHECK-NEXT: vadd.i32 q0, q0, q1
				; CHECK-NEXT: le lr, .LBB0_2
	; CHECK-NEXT: @ %bb.3: @ %middle.block			; CHECK-NEXT: @ %bb.3: @ %middle.block
	; CHECK-NEXT: vmov q0, q1			; CHECK-NEXT: vpsel q0, q0, q1
	; CHECK-NEXT: vaddv.u32 r0, q0			; CHECK-NEXT: vaddv.u32 r0, q0
	; CHECK-NEXT: pop {r7, pc}			; CHECK-NEXT: pop {r7, pc}
	entry:			entry:
	%cmp8 = icmp eq i32 %N, 0			%cmp8 = icmp eq i32 %N, 0
	br i1 %cmp8, label %for.cond.cleanup, label %vector.ph			br i1 %cmp8, label %for.cond.cleanup, label %vector.ph

	vector.ph: ; preds = %entry			vector.ph: ; preds = %entry
	%n.rnd.up = add i32 %N, 3			%n.rnd.up = add i32 %N, 3
	Show All 39 Lines
	; CHECK-LABEL: mul_reduce_add_const:			; CHECK-LABEL: mul_reduce_add_const:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: cmp r2, #0			; CHECK-NEXT: cmp r2, #0
	; CHECK-NEXT: itt eq			; CHECK-NEXT: itt eq
	; CHECK-NEXT: moveq r0, #0			; CHECK-NEXT: moveq r0, #0
	; CHECK-NEXT: bxeq lr			; CHECK-NEXT: bxeq lr
	; CHECK-NEXT: .LBB1_1: @ %vector.ph			; CHECK-NEXT: .LBB1_1: @ %vector.ph
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: vmov.i32 q1, #0x0			; CHECK-NEXT: adds r1, r2, #3
				; CHECK-NEXT: movs r3, #1
				; CHECK-NEXT: bic r1, r1, #3
				; CHECK-NEXT: vmov.i32 q0, #0x0
				; CHECK-NEXT: subs r1, #4
				; CHECK-NEXT: add.w lr, r3, r1, lsr #2
	; CHECK-NEXT: movs r1, #0			; CHECK-NEXT: movs r1, #0
	; CHECK-NEXT: dlstp.32 lr, r2			; CHECK-NEXT: dls lr, lr
	; CHECK-NEXT: .LBB1_2: @ %vector.body			; CHECK: .LBB1_2: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrw.u32 q0, [r0], #16			; CHECK-NEXT: vctp.32 r2
				; CHECK-NEXT: vmov q1, q0
				; CHECK-NEXT: vpst
				; CHECK-NEXT: vldrwt.u32 q0, [r0], #16
	; CHECK-NEXT: adds r1, #4			; CHECK-NEXT: adds r1, #4
	; CHECK-NEXT: vadd.i32 q1, q0, q1			; CHECK-NEXT: subs r2, #4
	; CHECK-NEXT: letp lr, .LBB1_2			; CHECK-NEXT: vadd.i32 q0, q0, q1
				; CHECK-NEXT: le lr, .LBB1_2
	; CHECK-NEXT: @ %bb.3: @ %middle.block			; CHECK-NEXT: @ %bb.3: @ %middle.block
	; CHECK-NEXT: vmov q0, q1			; CHECK-NEXT: vpsel q0, q0, q1
	; CHECK-NEXT: vaddv.u32 r0, q0			; CHECK-NEXT: vaddv.u32 r0, q0
	; CHECK-NEXT: pop {r7, pc}			; CHECK-NEXT: pop {r7, pc}
	entry:			entry:
	%cmp6 = icmp eq i32 %N, 0			%cmp6 = icmp eq i32 %N, 0
	br i1 %cmp6, label %for.cond.cleanup, label %vector.ph			br i1 %cmp6, label %for.cond.cleanup, label %vector.ph

	vector.ph: ; preds = %entry			vector.ph: ; preds = %entry
	%n.rnd.up = add i32 %N, 3			%n.rnd.up = add i32 %N, 3
	Show All 35 Lines
	; CHECK-LABEL: add_reduce_add_const:			; CHECK-LABEL: add_reduce_add_const:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: cmp r2, #0			; CHECK-NEXT: cmp r2, #0
	; CHECK-NEXT: itt eq			; CHECK-NEXT: itt eq
	; CHECK-NEXT: moveq r0, #0			; CHECK-NEXT: moveq r0, #0
	; CHECK-NEXT: bxeq lr			; CHECK-NEXT: bxeq lr
	; CHECK-NEXT: .LBB2_1: @ %vector.ph			; CHECK-NEXT: .LBB2_1: @ %vector.ph
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: vmov.i32 q1, #0x0			; CHECK-NEXT: adds r1, r2, #3
				; CHECK-NEXT: movs r3, #1
				; CHECK-NEXT: bic r1, r1, #3
				; CHECK-NEXT: vmov.i32 q0, #0x0
				; CHECK-NEXT: subs r1, #4
				; CHECK-NEXT: add.w lr, r3, r1, lsr #2
	; CHECK-NEXT: movs r1, #0			; CHECK-NEXT: movs r1, #0
	; CHECK-NEXT: dlstp.32 lr, r2			; CHECK-NEXT: dls lr, lr
	; CHECK-NEXT: .LBB2_2: @ %vector.body			; CHECK: .LBB2_2: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrw.u32 q0, [r0], #16			; CHECK-NEXT: vctp.32 r2
				; CHECK-NEXT: vmov q1, q0
				; CHECK-NEXT: vpst
				; CHECK-NEXT: vldrwt.u32 q0, [r0], #16
	; CHECK-NEXT: adds r1, #4			; CHECK-NEXT: adds r1, #4
	; CHECK-NEXT: vadd.i32 q1, q0, q1			; CHECK-NEXT: subs r2, #4
	; CHECK-NEXT: letp lr, .LBB2_2			; CHECK-NEXT: vadd.i32 q0, q0, q1
				; CHECK-NEXT: le lr, .LBB2_2
	; CHECK-NEXT: @ %bb.3: @ %middle.block			; CHECK-NEXT: @ %bb.3: @ %middle.block
	; CHECK-NEXT: vmov q0, q1			; CHECK-NEXT: vpsel q0, q0, q1
	; CHECK-NEXT: vaddv.u32 r0, q0			; CHECK-NEXT: vaddv.u32 r0, q0
	; CHECK-NEXT: pop {r7, pc}			; CHECK-NEXT: pop {r7, pc}
	entry:			entry:
	%cmp6 = icmp eq i32 %N, 0			%cmp6 = icmp eq i32 %N, 0
	br i1 %cmp6, label %for.cond.cleanup, label %vector.ph			br i1 %cmp6, label %for.cond.cleanup, label %vector.ph

	vector.ph: ; preds = %entry			vector.ph: ; preds = %entry
	%n.rnd.up = add i32 %N, 3			%n.rnd.up = add i32 %N, 3
	Show All 36 Lines
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: cmp r3, #0			; CHECK-NEXT: cmp r3, #0
	; CHECK-NEXT: it eq			; CHECK-NEXT: it eq
	; CHECK-NEXT: popeq {r7, pc}			; CHECK-NEXT: popeq {r7, pc}
	; CHECK-NEXT: .LBB3_1: @ %vector.ph			; CHECK-NEXT: .LBB3_1: @ %vector.ph
	; CHECK-NEXT: mov.w r12, #0			; CHECK-NEXT: mov.w r12, #0
	; CHECK-NEXT: dlstp.32 lr, r3			; CHECK-NEXT: dlstp.32 lr, r3
	; CHECK-NEXT: .LBB3_2: @ %vector.body			; CHECK: .LBB3_2: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: add.w r12, r12, #4			; CHECK-NEXT: add.w r12, r12, #4
	; CHECK-NEXT: vldrw.u32 q0, [r1], #16			; CHECK-NEXT: vldrw.u32 q0, [r1], #16
	; CHECK-NEXT: vmul.i32 q0, q0, r2			; CHECK-NEXT: vmul.i32 q0, q0, r2
	; CHECK-NEXT: vstrw.32 q0, [r0], #16			; CHECK-NEXT: vstrw.32 q0, [r0], #16
	; CHECK-NEXT: letp lr, .LBB3_2			; CHECK-NEXT: letp lr, .LBB3_2
	; CHECK-NEXT: @ %bb.3: @ %for.cond.cleanup			; CHECK-NEXT: @ %bb.3: @ %for.cond.cleanup
	; CHECK-NEXT: pop {r7, pc}			; CHECK-NEXT: pop {r7, pc}
	Show All 40 Lines
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: cmp r3, #0			; CHECK-NEXT: cmp r3, #0
	; CHECK-NEXT: it eq			; CHECK-NEXT: it eq
	; CHECK-NEXT: popeq {r7, pc}			; CHECK-NEXT: popeq {r7, pc}
	; CHECK-NEXT: .LBB4_1: @ %vector.ph			; CHECK-NEXT: .LBB4_1: @ %vector.ph
	; CHECK-NEXT: mov.w r12, #0			; CHECK-NEXT: mov.w r12, #0
	; CHECK-NEXT: dlstp.32 lr, r3			; CHECK-NEXT: dlstp.32 lr, r3
	; CHECK-NEXT: .LBB4_2: @ %vector.body			; CHECK: .LBB4_2: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: add.w r12, r12, #4			; CHECK-NEXT: add.w r12, r12, #4
	; CHECK-NEXT: vldrw.u32 q0, [r1], #16			; CHECK-NEXT: vldrw.u32 q0, [r1], #16
	; CHECK-NEXT: vadd.i32 q0, q0, r2			; CHECK-NEXT: vadd.i32 q0, q0, r2
	; CHECK-NEXT: vstrw.32 q0, [r0], #16			; CHECK-NEXT: vstrw.32 q0, [r0], #16
	; CHECK-NEXT: letp lr, .LBB4_2			; CHECK-NEXT: letp lr, .LBB4_2
	; CHECK-NEXT: @ %bb.3: @ %for.cond.cleanup			; CHECK-NEXT: @ %bb.3: @ %for.cond.cleanup
	; CHECK-NEXT: pop {r7, pc}			; CHECK-NEXT: pop {r7, pc}
	Show All 40 Lines
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: cmp r3, #0			; CHECK-NEXT: cmp r3, #0
	; CHECK-NEXT: it eq			; CHECK-NEXT: it eq
	; CHECK-NEXT: popeq {r7, pc}			; CHECK-NEXT: popeq {r7, pc}
	; CHECK-NEXT: .LBB5_1: @ %vector.ph			; CHECK-NEXT: .LBB5_1: @ %vector.ph
	; CHECK-NEXT: mov.w r12, #0			; CHECK-NEXT: mov.w r12, #0
	; CHECK-NEXT: dlstp.8 lr, r3			; CHECK-NEXT: dlstp.8 lr, r3
	; CHECK-NEXT: .LBB5_2: @ %vector.body			; CHECK: .LBB5_2: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: add.w r12, r12, #16			; CHECK-NEXT: add.w r12, r12, #16
	; CHECK-NEXT: vldrb.u8 q0, [r1], #16			; CHECK-NEXT: vldrb.u8 q0, [r1], #16
	; CHECK-NEXT: vldrb.u8 q1, [r2], #16			; CHECK-NEXT: vldrb.u8 q1, [r2], #16
	; CHECK-NEXT: vmul.i8 q0, q1, q0			; CHECK-NEXT: vmul.i8 q0, q1, q0
	; CHECK-NEXT: vstrb.8 q0, [r0], #16			; CHECK-NEXT: vstrb.8 q0, [r0], #16
	; CHECK-NEXT: letp lr, .LBB5_2			; CHECK-NEXT: letp lr, .LBB5_2
	; CHECK-NEXT: @ %bb.3: @ %for.cond.cleanup			; CHECK-NEXT: @ %bb.3: @ %for.cond.cleanup
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: cmp r3, #0			; CHECK-NEXT: cmp r3, #0
	; CHECK-NEXT: it eq			; CHECK-NEXT: it eq
	; CHECK-NEXT: popeq {r7, pc}			; CHECK-NEXT: popeq {r7, pc}
	; CHECK-NEXT: .LBB6_1: @ %vector.ph			; CHECK-NEXT: .LBB6_1: @ %vector.ph
	; CHECK-NEXT: mov.w r12, #0			; CHECK-NEXT: mov.w r12, #0
	; CHECK-NEXT: dlstp.16 lr, r3			; CHECK-NEXT: dlstp.16 lr, r3
	; CHECK-NEXT: .LBB6_2: @ %vector.body			; CHECK: .LBB6_2: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: add.w r12, r12, #8			; CHECK-NEXT: add.w r12, r12, #8
	; CHECK-NEXT: vldrh.u16 q0, [r1], #16			; CHECK-NEXT: vldrh.u16 q0, [r1], #16
	; CHECK-NEXT: vldrh.u16 q1, [r2], #16			; CHECK-NEXT: vldrh.u16 q1, [r2], #16
	; CHECK-NEXT: vmul.i16 q0, q1, q0			; CHECK-NEXT: vmul.i16 q0, q1, q0
	; CHECK-NEXT: vstrh.16 q0, [r0], #16			; CHECK-NEXT: vstrh.16 q0, [r0], #16
	; CHECK-NEXT: letp lr, .LBB6_2			; CHECK-NEXT: letp lr, .LBB6_2
	; CHECK-NEXT: @ %bb.3: @ %for.cond.cleanup			; CHECK-NEXT: @ %bb.3: @ %for.cond.cleanup
	▲ Show 20 Lines • Show All 50 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/LowOverheadLoops/wlstp.mir

Show First 20 Lines • Show All 419 Lines • ▼ Show 20 Lines	body: \|
; CHECK-LABEL: name: test_wlstp32		; CHECK-LABEL: name: test_wlstp32
; CHECK: bb.0.entry:		; CHECK: bb.0.entry:
; CHECK: successors: %bb.4(0x40000000), %bb.1(0x40000000)		; CHECK: successors: %bb.4(0x40000000), %bb.1(0x40000000)
; CHECK: liveins: $lr, $r0, $r1, $r2, $r7		; CHECK: liveins: $lr, $r0, $r1, $r2, $r7
; CHECK: frame-setup tPUSH 14 /* CC::al */, $noreg, killed $r7, killed $lr, implicit-def $sp, implicit $sp		; CHECK: frame-setup tPUSH 14 /* CC::al */, $noreg, killed $r7, killed $lr, implicit-def $sp, implicit $sp
; CHECK: frame-setup CFI_INSTRUCTION def_cfa_offset 8		; CHECK: frame-setup CFI_INSTRUCTION def_cfa_offset 8
; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4		; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4
; CHECK: frame-setup CFI_INSTRUCTION offset $r7, -8		; CHECK: frame-setup CFI_INSTRUCTION offset $r7, -8
; CHECK: renamable $r3, dead $cpsr = tADDi3 renamable $r2, 3, 14 /* CC::al */, $noreg
; CHECK: renamable $r3 = t2BICri killed renamable $r3, 3, 14 /* CC::al */, $noreg, $noreg
; CHECK: renamable $r12 = t2SUBri killed renamable $r3, 4, 14 /* CC::al */, $noreg, $noreg
; CHECK: renamable $r3, dead $cpsr = tMOVi8 1, 14 /* CC::al */, $noreg
; CHECK: renamable $lr = nuw nsw t2ADDrs killed renamable $r3, killed renamable $r12, 19, 14 /* CC::al */, $noreg, $noreg
; CHECK: renamable $r12 = t2MOVi 0, 14 /* CC::al */, $noreg, $noreg		; CHECK: renamable $r12 = t2MOVi 0, 14 /* CC::al */, $noreg, $noreg
; CHECK: $lr = t2WLS killed renamable $lr, %bb.1		; CHECK: $lr = MVE_WLSTP_32 $r2, %bb.1
; CHECK: tB %bb.4, 14 /* CC::al */, $noreg		; CHECK: tB %bb.4, 14 /* CC::al */, $noreg
; CHECK: bb.1.vector.ph:		; CHECK: bb.1.vector.ph:
; CHECK: successors: %bb.2(0x80000000)		; CHECK: successors: %bb.2(0x80000000)
; CHECK: liveins: $lr, $r0, $r1, $r2		; CHECK: liveins: $lr, $r0, $r1, $r2
; CHECK: renamable $q1 = MVE_VMOVimmi32 0, 0, $noreg, undef renamable $q1		; CHECK: renamable $q1 = MVE_VMOVimmi32 0, 0, $noreg, undef renamable $q1
; CHECK: bb.2.vector.body:		; CHECK: bb.2.vector.body:
; CHECK: successors: %bb.3(0x04000000), %bb.2(0x7c000000)		; CHECK: successors: %bb.3(0x04000000), %bb.2(0x7c000000)
; CHECK: liveins: $lr, $q1, $r0, $r1, $r2		; CHECK: liveins: $lr, $q1, $r0, $r1, $r2
; CHECK: $q0 = MVE_VORR killed $q1, killed $q1, 0, $noreg, undef $q0		; CHECK: $q0 = MVE_VORR killed $q1, killed $q1, 0, $noreg, undef $q0
; CHECK: renamable $vpr = MVE_VCTP32 $r2, 0, $noreg		; CHECK: renamable $q1 = MVE_VLDRWU32 renamable $r0, 0, 0, $noreg :: (load 16 from %ir.lsr.iv24, align 4)
; CHECK: MVE_VPST 4, implicit $vpr		; CHECK: renamable $q2 = MVE_VLDRWU32 renamable $r1, 0, 0, $noreg :: (load 16 from %ir.lsr.iv1, align 4)
; CHECK: renamable $q1 = MVE_VLDRWU32 renamable $r0, 0, 1, renamable $vpr :: (load 16 from %ir.lsr.iv24, align 4)
; CHECK: renamable $q2 = MVE_VLDRWU32 renamable $r1, 0, 1, renamable $vpr :: (load 16 from %ir.lsr.iv1, align 4)
; CHECK: $r3 = tMOVr $r2, 14 /* CC::al */, $noreg		; CHECK: $r3 = tMOVr $r2, 14 /* CC::al */, $noreg
; CHECK: renamable $q1 = nsw MVE_VMULi32 killed renamable $q2, killed renamable $q1, 0, $noreg, undef renamable $q1		; CHECK: renamable $q1 = nsw MVE_VMULi32 killed renamable $q2, killed renamable $q1, 0, $noreg, undef renamable $q1
; CHECK: renamable $r0, dead $cpsr = tADDi8 killed renamable $r0, 16, 14 /* CC::al */, $noreg		; CHECK: renamable $r0, dead $cpsr = tADDi8 killed renamable $r0, 16, 14 /* CC::al */, $noreg
; CHECK: renamable $r1, dead $cpsr = tADDi8 killed renamable $r1, 16, 14 /* CC::al */, $noreg		; CHECK: renamable $r1, dead $cpsr = tADDi8 killed renamable $r1, 16, 14 /* CC::al */, $noreg
; CHECK: renamable $r2, dead $cpsr = tSUBi8 killed $r2, 4, 14 /* CC::al */, $noreg		; CHECK: renamable $r2, dead $cpsr = tSUBi8 killed $r2, 4, 14 /* CC::al */, $noreg
; CHECK: MVE_VPST 8, implicit $vpr		; CHECK: renamable $q1 = nsw MVE_VADDi32 killed renamable $q1, renamable $q0, 0, $noreg, undef renamable $q1
; CHECK: renamable $q1 = nsw MVE_VADDi32 killed renamable $q1, renamable $q0, 0, killed renamable $vpr, undef renamable $q1		; CHECK: $lr = MVE_LETP killed renamable $lr, %bb.2
; CHECK: $lr = t2LEUpdate killed renamable $lr, %bb.2
; CHECK: bb.3.middle.block:		; CHECK: bb.3.middle.block:
; CHECK: successors: %bb.4(0x80000000)		; CHECK: successors: %bb.4(0x80000000)
; CHECK: liveins: $q0, $q1, $r3		; CHECK: liveins: $q0, $q1, $r3
; CHECK: renamable $vpr = MVE_VCTP32 killed renamable $r3, 0, $noreg		; CHECK: renamable $vpr = MVE_VCTP32 killed renamable $r3, 0, $noreg
; CHECK: renamable $q0 = MVE_VPSEL killed renamable $q1, killed renamable $q0, 0, killed renamable $vpr		; CHECK: renamable $q0 = MVE_VPSEL killed renamable $q1, killed renamable $q0, 0, killed renamable $vpr
; CHECK: renamable $r12 = MVE_VADDVu32no_acc killed renamable $q0, 0, $noreg		; CHECK: renamable $r12 = MVE_VADDVu32no_acc killed renamable $q0, 0, $noreg
; CHECK: bb.4.for.cond.cleanup:		; CHECK: bb.4.for.cond.cleanup:
; CHECK: liveins: $r12		; CHECK: liveins: $r12
Show All 32 Lines	bb.2.vector.body:
renamable $q1 = MVE_VLDRWU32 renamable $r0, 0, 1, renamable $vpr :: (load 16 from %ir.lsr.iv24, align 4)		renamable $q1 = MVE_VLDRWU32 renamable $r0, 0, 1, renamable $vpr :: (load 16 from %ir.lsr.iv24, align 4)
renamable $q2 = MVE_VLDRWU32 renamable $r1, 0, 1, renamable $vpr :: (load 16 from %ir.lsr.iv1, align 4)		renamable $q2 = MVE_VLDRWU32 renamable $r1, 0, 1, renamable $vpr :: (load 16 from %ir.lsr.iv1, align 4)
$r3 = tMOVr $r2, 14, $noreg		$r3 = tMOVr $r2, 14, $noreg
renamable $q1 = nsw MVE_VMULi32 killed renamable $q2, killed renamable $q1, 0, $noreg, undef renamable $q1		renamable $q1 = nsw MVE_VMULi32 killed renamable $q2, killed renamable $q1, 0, $noreg, undef renamable $q1
renamable $r0, dead $cpsr = tADDi8 killed renamable $r0, 16, 14, $noreg		renamable $r0, dead $cpsr = tADDi8 killed renamable $r0, 16, 14, $noreg
renamable $r1, dead $cpsr = tADDi8 killed renamable $r1, 16, 14, $noreg		renamable $r1, dead $cpsr = tADDi8 killed renamable $r1, 16, 14, $noreg
renamable $r2, dead $cpsr = tSUBi8 killed $r2, 4, 14, $noreg		renamable $r2, dead $cpsr = tSUBi8 killed $r2, 4, 14, $noreg
MVE_VPST 8, implicit $vpr		MVE_VPST 8, implicit $vpr
renamable $q1 = nsw MVE_VADDi32 killed renamable $q1, renamable $q0, 0, renamable $vpr, undef renamable $q1		renamable $q1 = nsw MVE_VADDi32 killed renamable $q1, renamable $q0, 1, renamable $vpr, undef renamable $q1
renamable $lr = t2LoopDec killed renamable $lr, 1		renamable $lr = t2LoopDec killed renamable $lr, 1
t2LoopEnd renamable $lr, %bb.2, implicit-def dead $cpsr		t2LoopEnd renamable $lr, %bb.2, implicit-def dead $cpsr
tB %bb.3, 14, $noreg		tB %bb.3, 14, $noreg

bb.3.middle.block:		bb.3.middle.block:
successors: %bb.4(0x80000000)		successors: %bb.4(0x80000000)
liveins: $q0, $q1, $r3		liveins: $q0, $q1, $r3

Show All 11 Lines

llvm/test/CodeGen/Thumb2/LowOverheadLoops/wrong-vctp-opcode-liveout.mir

Show First 20 Lines • Show All 127 Lines • ▼ Show 20 Lines	body: \|
; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4		; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4
; CHECK: frame-setup CFI_INSTRUCTION offset $r7, -8		; CHECK: frame-setup CFI_INSTRUCTION offset $r7, -8
; CHECK: renamable $r3, dead $cpsr = tADDi3 renamable $r2, 3, 14 /* CC::al */, $noreg		; CHECK: renamable $r3, dead $cpsr = tADDi3 renamable $r2, 3, 14 /* CC::al */, $noreg
; CHECK: renamable $q1 = MVE_VMOVimmi32 0, 0, $noreg, undef renamable $q1		; CHECK: renamable $q1 = MVE_VMOVimmi32 0, 0, $noreg, undef renamable $q1
; CHECK: renamable $r3 = t2BICri killed renamable $r3, 3, 14 /* CC::al */, $noreg, $noreg		; CHECK: renamable $r3 = t2BICri killed renamable $r3, 3, 14 /* CC::al */, $noreg, $noreg
; CHECK: renamable $r12 = t2SUBri killed renamable $r3, 4, 14 /* CC::al */, $noreg, $noreg		; CHECK: renamable $r12 = t2SUBri killed renamable $r3, 4, 14 /* CC::al */, $noreg, $noreg
; CHECK: renamable $r3, dead $cpsr = tMOVi8 1, 14 /* CC::al */, $noreg		; CHECK: renamable $r3, dead $cpsr = tMOVi8 1, 14 /* CC::al */, $noreg
; CHECK: renamable $r3 = nuw nsw t2ADDrs killed renamable $r3, killed renamable $r12, 19, 14 /* CC::al */, $noreg, $noreg		; CHECK: renamable $r3 = nuw nsw t2ADDrs killed renamable $r3, killed renamable $r12, 19, 14 /* CC::al */, $noreg, $noreg
; CHECK: dead $lr = t2DLS renamable $r3
; CHECK: $r12 = tMOVr killed $r3, 14 /* CC::al */, $noreg		; CHECK: $r12 = tMOVr killed $r3, 14 /* CC::al */, $noreg
; CHECK: $r3 = tMOVr $r2, 14 /* CC::al */, $noreg		; CHECK: $r3 = tMOVr $r2, 14 /* CC::al */, $noreg
		; CHECK: dead $lr = MVE_DLSTP_32 renamable $r3
; CHECK: bb.2.vector.body:		; CHECK: bb.2.vector.body:
; CHECK: successors: %bb.2(0x7c000000), %bb.3(0x04000000)		; CHECK: successors: %bb.2(0x7c000000), %bb.3(0x04000000)
; CHECK: liveins: $q1, $r0, $r1, $r2, $r3, $r12		; CHECK: liveins: $q1, $r0, $r1, $r2, $r3, $r12
; CHECK: renamable $vpr = MVE_VCTP32 renamable $r3, 0, $noreg
; CHECK: $q0 = MVE_VORR killed $q1, killed $q1, 0, $noreg, undef $q0		; CHECK: $q0 = MVE_VORR killed $q1, killed $q1, 0, $noreg, undef $q0
; CHECK: MVE_VPST 4, implicit $vpr		; CHECK: renamable $r0, renamable $q1 = MVE_VLDRHS32_post killed renamable $r0, 8, 0, $noreg :: (load 8 from %ir.lsr.iv17, align 2)
; CHECK: renamable $r0, renamable $q1 = MVE_VLDRHS32_post killed renamable $r0, 8, 1, renamable $vpr :: (load 8 from %ir.lsr.iv17, align 2)		; CHECK: renamable $r1, renamable $q2 = MVE_VLDRHS32_post killed renamable $r1, 8, 0, killed $noreg :: (load 8 from %ir.lsr.iv1820, align 2)
; CHECK: renamable $r1, renamable $q2 = MVE_VLDRHS32_post killed renamable $r1, 8, 1, killed renamable $vpr :: (load 8 from %ir.lsr.iv1820, align 2)
; CHECK: $lr = tMOVr $r12, 14 /* CC::al */, $noreg		; CHECK: $lr = tMOVr $r12, 14 /* CC::al */, $noreg
; CHECK: renamable $q1 = nsw MVE_VMULi32 killed renamable $q2, killed renamable $q1, 0, $noreg, undef renamable $q1		; CHECK: renamable $q1 = nsw MVE_VMULi32 killed renamable $q2, killed renamable $q1, 0, $noreg, undef renamable $q1
; CHECK: renamable $r12 = nsw t2SUBri killed $r12, 1, 14 /* CC::al */, $noreg, $noreg		; CHECK: renamable $r12 = nsw t2SUBri killed $r12, 1, 14 /* CC::al */, $noreg, $noreg
; CHECK: renamable $r3, dead $cpsr = tSUBi8 killed renamable $r3, 4, 14 /* CC::al */, $noreg		; CHECK: renamable $r3, dead $cpsr = tSUBi8 killed renamable $r3, 4, 14 /* CC::al */, $noreg
; CHECK: renamable $q1 = MVE_VADDi32 killed renamable $q1, renamable $q0, 0, $noreg, undef renamable $q1		; CHECK: renamable $q1 = MVE_VADDi32 killed renamable $q1, renamable $q0, 0, $noreg, undef renamable $q1
; CHECK: dead $lr = t2LEUpdate killed renamable $lr, %bb.2		; CHECK: dead $lr = MVE_LETP killed renamable $lr, %bb.2
; CHECK: bb.3.middle.block:		; CHECK: bb.3.middle.block:
; CHECK: liveins: $q0, $q1, $r2, $r3		; CHECK: liveins: $q0, $q1, $r2, $r3
; CHECK: renamable $r0, dead $cpsr = tSUBi3 killed renamable $r2, 1, 14 /* CC::al */, $noreg		; CHECK: renamable $r0, dead $cpsr = tSUBi3 killed renamable $r2, 1, 14 /* CC::al */, $noreg
; CHECK: renamable $q2 = MVE_VDUP32 killed renamable $r0, 0, $noreg, undef renamable $q2		; CHECK: renamable $q2 = MVE_VDUP32 killed renamable $r0, 0, $noreg, undef renamable $q2
; CHECK: renamable $r0, dead $cpsr = tADDi3 killed renamable $r3, 4, 14 /* CC::al */, $noreg		; CHECK: renamable $r0, dead $cpsr = tADDi3 killed renamable $r3, 4, 14 /* CC::al */, $noreg
; CHECK: renamable $vpr = MVE_VCMPu32r killed renamable $q2, killed renamable $r0, 8, 0, $noreg		; CHECK: renamable $vpr = MVE_VCMPu32r killed renamable $q2, killed renamable $r0, 8, 0, $noreg
; CHECK: renamable $q0 = MVE_VPSEL killed renamable $q1, killed renamable $q0, 0, killed renamable $vpr		; CHECK: renamable $q0 = MVE_VPSEL killed renamable $q1, killed renamable $q0, 0, killed renamable $vpr
; CHECK: renamable $r0 = MVE_VADDVu32no_acc killed renamable $q0, 0, $noreg		; CHECK: renamable $r0 = MVE_VADDVu32no_acc killed renamable $q0, 0, $noreg
▲ Show 20 Lines • Show All 58 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/LowOverheadLoops/wrong-vctp-operand-liveout.mir

Show First 20 Lines • Show All 113 Lines • ▼ Show 20 Lines	body: \|
; CHECK: tBX_RET 0 /* CC::eq */, killed $cpsr, implicit $r0, implicit killed $itstate		; CHECK: tBX_RET 0 /* CC::eq */, killed $cpsr, implicit $r0, implicit killed $itstate
; CHECK: bb.1.vector.ph:		; CHECK: bb.1.vector.ph:
; CHECK: successors: %bb.2(0x80000000)		; CHECK: successors: %bb.2(0x80000000)
; CHECK: liveins: $lr, $r0, $r1, $r2, $r7		; CHECK: liveins: $lr, $r0, $r1, $r2, $r7
; CHECK: frame-setup tPUSH 14 /* CC::al */, $noreg, killed $r7, killed $lr, implicit-def $sp, implicit $sp		; CHECK: frame-setup tPUSH 14 /* CC::al */, $noreg, killed $r7, killed $lr, implicit-def $sp, implicit $sp
; CHECK: frame-setup CFI_INSTRUCTION def_cfa_offset 8		; CHECK: frame-setup CFI_INSTRUCTION def_cfa_offset 8
; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4		; CHECK: frame-setup CFI_INSTRUCTION offset $lr, -4
; CHECK: frame-setup CFI_INSTRUCTION offset $r7, -8		; CHECK: frame-setup CFI_INSTRUCTION offset $r7, -8
; CHECK: renamable $r3, dead $cpsr = tADDi3 renamable $r2, 3, 14 /* CC::al */, $noreg
; CHECK: renamable $q1 = MVE_VMOVimmi32 0, 0, $noreg, undef renamable $q1		; CHECK: renamable $q1 = MVE_VMOVimmi32 0, 0, $noreg, undef renamable $q1
; CHECK: renamable $r3 = t2BICri killed renamable $r3, 3, 14 /* CC::al */, $noreg, $noreg		; CHECK: $lr = MVE_DLSTP_32 renamable $r2
; CHECK: renamable $r12 = t2SUBri killed renamable $r3, 4, 14 /* CC::al */, $noreg, $noreg
; CHECK: renamable $r3, dead $cpsr = tMOVi8 1, 14 /* CC::al */, $noreg
; CHECK: renamable $r12 = nuw nsw t2ADDrs killed renamable $r3, killed renamable $r12, 19, 14 /* CC::al */, $noreg, $noreg
; CHECK: dead $lr = t2DLS renamable $r12
; CHECK: $r3 = tMOVr killed $r12, 14 /* CC::al */, $noreg
; CHECK: bb.2.vector.body:		; CHECK: bb.2.vector.body:
; CHECK: successors: %bb.2(0x7c000000), %bb.3(0x04000000)		; CHECK: successors: %bb.2(0x7c000000), %bb.3(0x04000000)
; CHECK: liveins: $q1, $r0, $r1, $r2, $r3		; CHECK: liveins: $lr, $q1, $r0, $r1, $r2
; CHECK: renamable $vpr = MVE_VCTP32 renamable $r2, 0, $noreg
; CHECK: $q0 = MVE_VORR killed $q1, killed $q1, 0, $noreg, undef $q0		; CHECK: $q0 = MVE_VORR killed $q1, killed $q1, 0, $noreg, undef $q0
; CHECK: MVE_VPST 4, implicit $vpr		; CHECK: renamable $r0, renamable $q1 = MVE_VLDRHS32_post killed renamable $r0, 8, 0, $noreg :: (load 8 from %ir.lsr.iv17, align 2)
; CHECK: renamable $r0, renamable $q1 = MVE_VLDRHS32_post killed renamable $r0, 8, 1, renamable $vpr :: (load 8 from %ir.lsr.iv17, align 2)		; CHECK: renamable $r1, renamable $q2 = MVE_VLDRHS32_post killed renamable $r1, 8, 0, killed $noreg :: (load 8 from %ir.lsr.iv1820, align 2)
; CHECK: renamable $r1, renamable $q2 = MVE_VLDRHS32_post killed renamable $r1, 8, 1, killed renamable $vpr :: (load 8 from %ir.lsr.iv1820, align 2)
; CHECK: $lr = tMOVr $r3, 14 /* CC::al */, $noreg
; CHECK: renamable $q1 = nsw MVE_VMULi32 killed renamable $q2, killed renamable $q1, 0, $noreg, undef renamable $q1		; CHECK: renamable $q1 = nsw MVE_VMULi32 killed renamable $q2, killed renamable $q1, 0, $noreg, undef renamable $q1
; CHECK: renamable $r3, dead $cpsr = nsw tSUBi8 killed $r3, 1, 14 /* CC::al */, $noreg
; CHECK: renamable $r2, dead $cpsr = tSUBi8 killed renamable $r2, 4, 14 /* CC::al */, $noreg		; CHECK: renamable $r2, dead $cpsr = tSUBi8 killed renamable $r2, 4, 14 /* CC::al */, $noreg
; CHECK: renamable $q1 = MVE_VADDi32 killed renamable $q1, renamable $q0, 0, $noreg, undef renamable $q1		; CHECK: renamable $q1 = MVE_VADDi32 killed renamable $q1, renamable $q0, 0, $noreg, undef renamable $q1
; CHECK: dead $lr = t2LEUpdate killed renamable $lr, %bb.2		; CHECK: $lr = MVE_LETP killed renamable $lr, %bb.2
; CHECK: bb.3.middle.block:		; CHECK: bb.3.middle.block:
; CHECK: liveins: $q0, $q1, $r2		; CHECK: liveins: $q0, $q1, $r2
; CHECK: renamable $vpr = MVE_VCTP32 killed renamable $r2, 0, $noreg		; CHECK: renamable $vpr = MVE_VCTP32 killed renamable $r2, 0, $noreg
; CHECK: renamable $q0 = MVE_VPSEL killed renamable $q1, killed renamable $q0, 0, killed renamable $vpr		; CHECK: renamable $q0 = MVE_VPSEL killed renamable $q1, killed renamable $q0, 0, killed renamable $vpr
; CHECK: renamable $r0 = MVE_VADDVu32no_acc killed renamable $q0, 0, $noreg		; CHECK: renamable $r0 = MVE_VADDVu32no_acc killed renamable $q0, 0, $noreg
; CHECK: tPOP_RET 14 /* CC::al */, $noreg, def $r7, def $pc, implicit killed $r0		; CHECK: tPOP_RET 14 /* CC::al */, $noreg, def $r7, def $pc, implicit killed $r0
bb.0.entry:		bb.0.entry:
successors: %bb.1(0x80000000)		successors: %bb.1(0x80000000)
▲ Show 20 Lines • Show All 51 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-gather-scatter-tailpred.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp -enable-arm-maskedldst -enable-mem-access-versioning=false -enable-arm-maskedgatscat -tail-predication=force-enabled %s -o - \| FileCheck %s			; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp -enable-arm-maskedldst -enable-mem-access-versioning=false -enable-arm-maskedgatscat -tail-predication=force-enabled %s -o - \| FileCheck %s

	define dso_local void @mve_gather_qi_wb(i32* noalias nocapture readonly %A, i32* noalias nocapture readonly %B, i32* noalias nocapture %C, i32 %n, i32 %m, i32 %l) {			define dso_local void @mve_gather_qi_wb(i32* noalias nocapture readonly %A, i32* noalias nocapture readonly %B, i32* noalias nocapture %C, i32 %n, i32 %m, i32 %l) {
	; CHECK-LABEL: mve_gather_qi_wb:			; CHECK-LABEL: mve_gather_qi_wb:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r7, lr}			; CHECK-NEXT: .save {r7, lr}
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: add.w r12, r0, r3, lsl #2			; CHECK-NEXT: add.w r12, r0, r3, lsl #2
	; CHECK-NEXT: adr r0, .LCPI0_0			; CHECK-NEXT: adr r0, .LCPI0_0
	; CHECK-NEXT: vldrw.u32 q0, [r0]			; CHECK-NEXT: vldrw.u32 q0, [r0]
	; CHECK-NEXT: vmov.i32 q2, #0x0			; CHECK-NEXT: movw lr, #1250
	; CHECK-NEXT: dlstp.32 lr, r3			; CHECK-NEXT: vmov.i32 q1, #0x0
				; CHECK-NEXT: dls lr, lr
	; CHECK-NEXT: vadd.i32 q0, q0, r1			; CHECK-NEXT: vadd.i32 q0, q0, r1
	; CHECK-NEXT: adds r1, r3, #4			; CHECK-NEXT: adds r1, r3, #4
	; CHECK-NEXT: .LBB0_1: @ %vector.body			; CHECK: .LBB0_1: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrw.u32 q1, [r12], #16			; CHECK-NEXT: vctp.32 r3
	; CHECK-NEXT: vldrw.u32 q3, [q0, #80]!			; CHECK-NEXT: vmov q2, q1
				; CHECK-NEXT: vpstt
				; CHECK-NEXT: vldrwt.u32 q1, [r12], #16
				; CHECK-NEXT: vldrwt.u32 q3, [q0, #80]!
				; CHECK-NEXT: subs r3, #4
	; CHECK-NEXT: vmul.i32 q1, q3, q1			; CHECK-NEXT: vmul.i32 q1, q3, q1
	; CHECK-NEXT: vadd.i32 q2, q2, q1			; CHECK-NEXT: vadd.i32 q1, q2, q1
	; CHECK-NEXT: letp lr, .LBB0_1			; CHECK-NEXT: le lr, .LBB0_1
	; CHECK-NEXT: @ %bb.2: @ %middle.block			; CHECK-NEXT: @ %bb.2: @ %middle.block
	; CHECK-NEXT: vmov q0, q2			; CHECK-NEXT: vpsel q0, q1, q2
	; CHECK-NEXT: vaddv.u32 r0, q0			; CHECK-NEXT: vaddv.u32 r0, q0
	; CHECK-NEXT: str.w r0, [r2, r1, lsl #2]			; CHECK-NEXT: str.w r0, [r2, r1, lsl #2]
	; CHECK-NEXT: pop {r7, pc}			; CHECK-NEXT: pop {r7, pc}
	; CHECK-NEXT: .p2align 4
	; CHECK-NEXT: @ %bb.3:
	; CHECK-NEXT: .LCPI0_0:
	; CHECK-NEXT: .long 4294967228 @ 0xffffffbc
	; CHECK-NEXT: .long 4294967248 @ 0xffffffd0
	; CHECK-NEXT: .long 4294967268 @ 0xffffffe4
	; CHECK-NEXT: .long 4294967288 @ 0xfffffff8
	entry: ; preds = %middle.			entry: ; preds = %middle.
	%add.us.us = add i32 4, %n			%add.us.us = add i32 4, %n
	%arrayidx.us.us = getelementptr inbounds i32, i32* %C, i32 %add.us.us			%arrayidx.us.us = getelementptr inbounds i32, i32* %C, i32 %add.us.us
	br label %vector.body			br label %vector.body
	vector.body: ; preds = %vector.body, %entry			vector.body: ; preds = %vector.body, %entry
	%index = phi i32 [ 0, %entry ], [ %index.next, %vector.body ]			%index = phi i32 [ 0, %entry ], [ %index.next, %vector.body ]
	%vec.phi = phi <4 x i32> [ zeroinitializer, %entry ], [ %7, %vector.body ]			%vec.phi = phi <4 x i32> [ zeroinitializer, %entry ], [ %7, %vector.body ]
	%vec.ind = phi <4 x i32> [ <i32 0, i32 1, i32 2, i32 3>, %entry ], [ %vec.ind.next, %vector.body ]			%vec.ind = phi <4 x i32> [ <i32 0, i32 1, i32 2, i32 3>, %entry ], [ %vec.ind.next, %vector.body ]
	Show All 29 Lines
	; CHECK-NEXT: .save {r4, lr}			; CHECK-NEXT: .save {r4, lr}
	; CHECK-NEXT: push {r4, lr}			; CHECK-NEXT: push {r4, lr}
	; CHECK-NEXT: .vsave {d8, d9}			; CHECK-NEXT: .vsave {d8, d9}
	; CHECK-NEXT: vpush {d8, d9}			; CHECK-NEXT: vpush {d8, d9}
	; CHECK-NEXT: add.w r4, r0, r3, lsl #2			; CHECK-NEXT: add.w r4, r0, r3, lsl #2
	; CHECK-NEXT: adr r0, .LCPI1_0			; CHECK-NEXT: adr r0, .LCPI1_0
	; CHECK-NEXT: vldrw.u32 q1, [r0]			; CHECK-NEXT: vldrw.u32 q1, [r0]
	; CHECK-NEXT: add.w r12, r3, #4			; CHECK-NEXT: add.w r12, r3, #4
	; CHECK-NEXT: vmov.i32 q3, #0x0			; CHECK-NEXT: movw lr, #1250
				; CHECK-NEXT: vmov.i32 q2, #0x0
	; CHECK-NEXT: vmov.i32 q0, #0x14			; CHECK-NEXT: vmov.i32 q0, #0x14
	; CHECK-NEXT: dlstp.32 lr, r3			; CHECK-NEXT: dls lr, lr
	; CHECK-NEXT: .LBB1_1: @ %vector.body			; CHECK: .LBB1_1: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrw.u32 q2, [r1, q1, uxtw #2]			; CHECK-NEXT: vctp.32 r3
	; CHECK-NEXT: vldrw.u32 q4, [r4], #16			; CHECK-NEXT: vmov q3, q2
				; CHECK-NEXT: vpstt
				; CHECK-NEXT: vldrwt.u32 q2, [r1, q1, uxtw #2]
				; CHECK-NEXT: vldrwt.u32 q4, [r4], #16
				; CHECK-NEXT: subs r3, #4
	; CHECK-NEXT: vmul.i32 q2, q2, q4			; CHECK-NEXT: vmul.i32 q2, q2, q4
	; CHECK-NEXT: vstrw.32 q2, [r1, q1, uxtw #2]			; CHECK-NEXT: vpst
				; CHECK-NEXT: vstrwt.32 q2, [r1, q1, uxtw #2]
	; CHECK-NEXT: vadd.i32 q1, q1, q0			; CHECK-NEXT: vadd.i32 q1, q1, q0
	; CHECK-NEXT: vadd.i32 q3, q3, q2			; CHECK-NEXT: vadd.i32 q2, q3, q2
	; CHECK-NEXT: letp lr, .LBB1_1			; CHECK-NEXT: le lr, .LBB1_1
	; CHECK-NEXT: @ %bb.2: @ %middle.block			; CHECK-NEXT: @ %bb.2: @ %middle.block
	; CHECK-NEXT: vmov q0, q3			; CHECK-NEXT: vpsel q0, q2, q3
	; CHECK-NEXT: vaddv.u32 r0, q0			; CHECK-NEXT: vaddv.u32 r0, q0
	; CHECK-NEXT: str.w r0, [r2, r12, lsl #2]			; CHECK-NEXT: str.w r0, [r2, r12, lsl #2]
	; CHECK-NEXT: vpop {d8, d9}			; CHECK-NEXT: vpop {d8, d9}
	; CHECK-NEXT: pop {r4, pc}			; CHECK-NEXT: pop {r4, pc}
	; CHECK-NEXT: .p2align 4			; CHECK-NEXT: .p2align 4
	; CHECK-NEXT: @ %bb.3:			; CHECK-NEXT: @ %bb.3:
	; CHECK-NEXT: .LCPI1_0:			; CHECK-NEXT: .LCPI1_0:
	; CHECK-NEXT: .long 3 @ 0x3			; CHECK-NEXT: .long 3 @ 0x3
	Show All 37 Lines
	define dso_local void @mve_scatter_qi(i32* noalias nocapture readonly %A, i32* noalias nocapture readonly %B, i32* noalias nocapture %C, i32 %n, i32 %m, i32 %l) {			define dso_local void @mve_scatter_qi(i32* noalias nocapture readonly %A, i32* noalias nocapture readonly %B, i32* noalias nocapture %C, i32 %n, i32 %m, i32 %l) {
	; CHECK-LABEL: mve_scatter_qi:			; CHECK-LABEL: mve_scatter_qi:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r7, lr}			; CHECK-NEXT: .save {r7, lr}
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: add.w r12, r0, r3, lsl #2			; CHECK-NEXT: add.w r12, r0, r3, lsl #2
	; CHECK-NEXT: adr r0, .LCPI2_0			; CHECK-NEXT: adr r0, .LCPI2_0
	; CHECK-NEXT: vldrw.u32 q0, [r0]			; CHECK-NEXT: vldrw.u32 q0, [r0]
	; CHECK-NEXT: vmov.i32 q3, #0x0			; CHECK-NEXT: movw lr, #1250
				; CHECK-NEXT: vmov.i32 q1, #0x0
	; CHECK-NEXT: vmov.i32 q2, #0x3			; CHECK-NEXT: vmov.i32 q2, #0x3
	; CHECK-NEXT: vadd.i32 q0, q0, r1			; CHECK-NEXT: vadd.i32 q0, q0, r1
	; CHECK-NEXT: adds r1, r3, #4			; CHECK-NEXT: adds r1, r3, #4
	; CHECK-NEXT: dlstp.32 lr, r3			; CHECK-NEXT: dls lr, lr
	; CHECK-NEXT: .LBB2_1: @ %vector.body			; CHECK: .LBB2_1: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrw.u32 q1, [r12], #16			; CHECK-NEXT: vctp.32 r3
				; CHECK-NEXT: vmov q3, q1
				; CHECK-NEXT: vpst
				; CHECK-NEXT: vldrwt.u32 q1, [r12], #16
				; CHECK-NEXT: subs r3, #4
	; CHECK-NEXT: vmul.i32 q1, q1, q2			; CHECK-NEXT: vmul.i32 q1, q1, q2
	; CHECK-NEXT: vstrw.32 q1, [q0, #80]!			; CHECK-NEXT: vpst
	; CHECK-NEXT: vadd.i32 q3, q3, q1			; CHECK-NEXT: vstrwt.32 q1, [q0, #80]!
	; CHECK-NEXT: letp lr, .LBB2_1			; CHECK-NEXT: vadd.i32 q1, q3, q1
				; CHECK-NEXT: le lr, .LBB2_1
	; CHECK-NEXT: @ %bb.2: @ %middle.block			; CHECK-NEXT: @ %bb.2: @ %middle.block
	; CHECK-NEXT: vmov q0, q3			; CHECK-NEXT: vpsel q0, q1, q3
	; CHECK-NEXT: vaddv.u32 r0, q0			; CHECK-NEXT: vaddv.u32 r0, q0
	; CHECK-NEXT: str.w r0, [r2, r1, lsl #2]			; CHECK-NEXT: str.w r0, [r2, r1, lsl #2]
	; CHECK-NEXT: pop {r7, pc}			; CHECK-NEXT: pop {r7, pc}
	; CHECK-NEXT: .p2align 4			; CHECK-NEXT: .p2align 4
	; CHECK-NEXT: @ %bb.3:			; CHECK-NEXT: @ %bb.3:
	; CHECK-NEXT: .LCPI2_0:			; CHECK-NEXT: .LCPI2_0:
	; CHECK-NEXT: .long 4294967228 @ 0xffffffbc			; CHECK-NEXT: .long 4294967228 @ 0xffffffbc
	; CHECK-NEXT: .long 4294967248 @ 0xffffffd0			; CHECK-NEXT: .long 4294967248 @ 0xffffffd0
	▲ Show 20 Lines • Show All 41 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-pred-vctpvpsel.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp %s -verify-machineinstrs -o - \| FileCheck %s			; RUN: llc -mtriple=thumbv8.1m.main-none-none-eabi -mattr=+mve.fp %s -verify-machineinstrs -o - \| FileCheck %s

	define void @arm_min_helium_f32(float* %pSrc, i32 %blockSize, float* nocapture %pResult, i32* nocapture %pIndex) {			define void @arm_min_helium_f32(float* %pSrc, i32 %blockSize, float* nocapture %pResult, i32* nocapture %pIndex) {
	; CHECK-LABEL: arm_min_helium_f32:			; CHECK-LABEL: arm_min_helium_f32:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: .save {r4, r6, r7, lr}			; CHECK-NEXT: .save {r4, r6, r7, lr}
	; CHECK-NEXT: push {r4, r6, r7, lr}			; CHECK-NEXT: push {r4, r6, r7, lr}
	; CHECK-NEXT: .vsave {d8, d9}			; CHECK-NEXT: .vsave {d8, d9}
	; CHECK-NEXT: vpush {d8, d9}			; CHECK-NEXT: vpush {d8, d9}
	; CHECK-NEXT: movs r6, #0			; CHECK-NEXT: movs r6, #0
				; CHECK-NEXT: mov r12, r1
	; CHECK-NEXT: vidup.u32 q2, r6, #1			; CHECK-NEXT: vidup.u32 q2, r6, #1
				; CHECK-NEXT: cmp r1, #4
				; CHECK-NEXT: it ge
				; CHECK-NEXT: movge.w r12, #4
				; CHECK-NEXT: sub.w r6, r1, r12
				; CHECK-NEXT: adds r6, #3
				; CHECK-NEXT: mov.w lr, #1
	; CHECK-NEXT: adr r4, .LCPI0_0			; CHECK-NEXT: adr r4, .LCPI0_0
	; CHECK-NEXT: vmov.i32 q0, #0x0			; CHECK-NEXT: vmov.i32 q0, #0x0
				; CHECK-NEXT: add.w lr, lr, r6, lsr #2
	; CHECK-NEXT: vldrw.u32 q1, [r4]			; CHECK-NEXT: vldrw.u32 q1, [r4]
	; CHECK-NEXT: vmov.i32 q3, #0x4			; CHECK-NEXT: vmov.i32 q3, #0x4
	; CHECK-NEXT: mov r12, r1			; CHECK-NEXT: mov r12, r1
	; CHECK-NEXT: dlstp.32 lr, r12			; CHECK-NEXT: dls lr, lr
	; CHECK-NEXT: .LBB0_1: @ %do.body			; CHECK: .LBB0_1: @ %do.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrw.u32 q4, [r0], #16			; CHECK-NEXT: vctp.32 r12
	; CHECK-NEXT: vcmp.f32 ge, q1, q4			; CHECK-NEXT: sub.w r12, r12, #4
	; CHECK-NEXT: vpstt			; CHECK-NEXT: vpstttt
				; CHECK-NEXT: vldrwt.u32 q4, [r0], #16
				; CHECK-NEXT: vcmpt.f32 ge, q1, q4
	; CHECK-NEXT: vmovt q1, q4			; CHECK-NEXT: vmovt q1, q4
	; CHECK-NEXT: vmovt q0, q2			; CHECK-NEXT: vmovt q0, q2
	; CHECK-NEXT: vadd.i32 q2, q2, q3			; CHECK-NEXT: vadd.i32 q2, q2, q3
	; CHECK-NEXT: letp lr, .LBB0_1			; CHECK-NEXT: le lr, .LBB0_1
	; CHECK-NEXT: @ %bb.2: @ %do.end			; CHECK-NEXT: @ %bb.2: @ %do.end
	; CHECK-NEXT: vldr s8, .LCPI0_1			; CHECK-NEXT: vldr s8, .LCPI0_1
	; CHECK-NEXT: vdup.32 q3, r1			; CHECK-NEXT: vdup.32 q3, r1
	; CHECK-NEXT: vmov r0, s8			; CHECK-NEXT: vmov r0, s8
	; CHECK-NEXT: vminnmv.f32 r0, q1			; CHECK-NEXT: vminnmv.f32 r0, q1
	; CHECK-NEXT: vcmp.f32 le, q1, r0			; CHECK-NEXT: vcmp.f32 le, q1, r0
	; CHECK-NEXT: vmov s8, r0			; CHECK-NEXT: vmov s8, r0
	; CHECK-NEXT: vpsel q0, q0, q3			; CHECK-NEXT: vpsel q0, q0, q3
	; CHECK-NEXT: vminv.u32 r1, q0			; CHECK-NEXT: vminv.u32 r1, q0
	; CHECK-NEXT: str r1, [r3]			; CHECK-NEXT: str r1, [r3]
	; CHECK-NEXT: vstr s8, [r2]			; CHECK-NEXT: vstr s8, [r2]
	; CHECK-NEXT: vpop {d8, d9}			; CHECK-NEXT: vpop {d8, d9}
	; CHECK-NEXT: pop {r4, r6, r7, pc}			; CHECK-NEXT: pop {r4, r6, r7, pc}
	; CHECK-NEXT: .p2align 4
	; CHECK-NEXT: @ %bb.3:
	; CHECK-NEXT: .LCPI0_0:
	; CHECK-NEXT: .long 0x5368d4a5 @ float 9.99999995E+11
	; CHECK-NEXT: .long 0x5368d4a5 @ float 9.99999995E+11
	; CHECK-NEXT: .long 0x5368d4a5 @ float 9.99999995E+11
	; CHECK-NEXT: .long 0x5368d4a5 @ float 9.99999995E+11
	; CHECK-NEXT: .LCPI0_1:
	; CHECK-NEXT: .long 0x5368d4a5 @ float 9.99999995E+11
	entry:			entry:
	%0 = tail call { <4 x i32>, i32 } @llvm.arm.mve.vidup.v4i32(i32 0, i32 1)			%0 = tail call { <4 x i32>, i32 } @llvm.arm.mve.vidup.v4i32(i32 0, i32 1)
	%1 = extractvalue { <4 x i32>, i32 } %0, 0			%1 = extractvalue { <4 x i32>, i32 } %0, 0
	br label %do.body			br label %do.body

	do.body: ; preds = %do.body, %entry			do.body: ; preds = %do.body, %entry
	%curExtremValVec.0 = phi <4 x float> [ <float 0x426D1A94A0000000, float 0x426D1A94A0000000, float 0x426D1A94A0000000, float 0x426D1A94A0000000>, %entry ], [ %8, %do.body ]			%curExtremValVec.0 = phi <4 x float> [ <float 0x426D1A94A0000000, float 0x426D1A94A0000000, float 0x426D1A94A0000000, float 0x426D1A94A0000000>, %entry ], [ %8, %do.body ]
	%indexVec.0 = phi <4 x i32> [ %1, %entry ], [ %11, %do.body ]			%indexVec.0 = phi <4 x i32> [ %1, %entry ], [ %11, %do.body ]
	Show All 37 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[ARM][LowOverheadLoops] Liveouts and reductionsClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 288589

llvm/include/llvm/CodeGen/ReachingDefAnalysis.h

llvm/lib/CodeGen/ReachingDefAnalysis.cpp

llvm/lib/Target/ARM/ARMLowOverheadLoops.cpp

llvm/test/CodeGen/Thumb2/LowOverheadLoops/disjoint-vcmp.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/extract-element.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/no-vpsel-liveout.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/reductions.ll

llvm/test/CodeGen/Thumb2/LowOverheadLoops/varying-outer-2d-reduction.ll

llvm/test/CodeGen/Thumb2/LowOverheadLoops/vctp-add-operand-liveout.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/vector-arith-codegen.ll

llvm/test/CodeGen/Thumb2/LowOverheadLoops/wlstp.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/wrong-vctp-opcode-liveout.mir

llvm/test/CodeGen/Thumb2/LowOverheadLoops/wrong-vctp-operand-liveout.mir

llvm/test/CodeGen/Thumb2/mve-gather-scatter-tailpred.ll

llvm/test/CodeGen/Thumb2/mve-pred-vctpvpsel.ll

[ARM][LowOverheadLoops] Liveouts and reductions
ClosedPublic