Diff 210724

llvm/lib/CodeGen/MachineCSE.cpp

Show All 15 Lines
#include "llvm/ADT/ScopedHashTable.h"		#include "llvm/ADT/ScopedHashTable.h"
#include "llvm/ADT/SmallPtrSet.h"		#include "llvm/ADT/SmallPtrSet.h"
#include "llvm/ADT/SmallSet.h"		#include "llvm/ADT/SmallSet.h"
#include "llvm/ADT/SmallVector.h"		#include "llvm/ADT/SmallVector.h"
#include "llvm/ADT/Statistic.h"		#include "llvm/ADT/Statistic.h"
#include "llvm/Analysis/AliasAnalysis.h"		#include "llvm/Analysis/AliasAnalysis.h"
#include "llvm/Analysis/CFG.h"		#include "llvm/Analysis/CFG.h"
#include "llvm/CodeGen/MachineBasicBlock.h"		#include "llvm/CodeGen/MachineBasicBlock.h"
		#include "llvm/CodeGen/MachineBlockFrequencyInfo.h"
#include "llvm/CodeGen/MachineDominators.h"		#include "llvm/CodeGen/MachineDominators.h"
#include "llvm/CodeGen/MachineFunction.h"		#include "llvm/CodeGen/MachineFunction.h"
#include "llvm/CodeGen/MachineFunctionPass.h"		#include "llvm/CodeGen/MachineFunctionPass.h"
#include "llvm/CodeGen/MachineInstr.h"		#include "llvm/CodeGen/MachineInstr.h"
#include "llvm/CodeGen/MachineOperand.h"		#include "llvm/CodeGen/MachineOperand.h"
#include "llvm/CodeGen/MachineRegisterInfo.h"		#include "llvm/CodeGen/MachineRegisterInfo.h"
#include "llvm/CodeGen/Passes.h"		#include "llvm/CodeGen/Passes.h"
#include "llvm/CodeGen/TargetInstrInfo.h"		#include "llvm/CodeGen/TargetInstrInfo.h"
Show All 29 Lines
namespace {		namespace {

class MachineCSE : public MachineFunctionPass {		class MachineCSE : public MachineFunctionPass {
const TargetInstrInfo *TII;		const TargetInstrInfo *TII;
const TargetRegisterInfo *TRI;		const TargetRegisterInfo *TRI;
AliasAnalysis *AA;		AliasAnalysis *AA;
MachineDominatorTree *DT;		MachineDominatorTree *DT;
MachineRegisterInfo *MRI;		MachineRegisterInfo *MRI;
		MachineBlockFrequencyInfo *MBFI;

public:		public:
static char ID; // Pass identification		static char ID; // Pass identification

MachineCSE() : MachineFunctionPass(ID) {		MachineCSE() : MachineFunctionPass(ID) {
initializeMachineCSEPass(*PassRegistry::getPassRegistry());		initializeMachineCSEPass(*PassRegistry::getPassRegistry());
}		}

bool runOnMachineFunction(MachineFunction &MF) override;		bool runOnMachineFunction(MachineFunction &MF) override;

void getAnalysisUsage(AnalysisUsage &AU) const override {		void getAnalysisUsage(AnalysisUsage &AU) const override {
AU.setPreservesCFG();		AU.setPreservesCFG();
MachineFunctionPass::getAnalysisUsage(AU);		MachineFunctionPass::getAnalysisUsage(AU);
AU.addRequired<AAResultsWrapperPass>();		AU.addRequired<AAResultsWrapperPass>();
AU.addPreservedID(MachineLoopInfoID);		AU.addPreservedID(MachineLoopInfoID);
AU.addRequired<MachineDominatorTree>();		AU.addRequired<MachineDominatorTree>();
AU.addPreserved<MachineDominatorTree>();		AU.addPreserved<MachineDominatorTree>();
		AU.addRequired<MachineBlockFrequencyInfo>();
		AU.addPreserved<MachineBlockFrequencyInfo>();
}		}

void releaseMemory() override {		void releaseMemory() override {
ScopeMap.clear();		ScopeMap.clear();
PREMap.clear();		PREMap.clear();
Exps.clear();		Exps.clear();
}		}

Show All 34 Lines	private:
bool ProcessBlockCSE(MachineBasicBlock *MBB);		bool ProcessBlockCSE(MachineBasicBlock *MBB);
void ExitScopeIfDone(MachineDomTreeNode *Node,		void ExitScopeIfDone(MachineDomTreeNode *Node,
DenseMap<MachineDomTreeNode*, unsigned> &OpenChildren);		DenseMap<MachineDomTreeNode*, unsigned> &OpenChildren);
bool PerformCSE(MachineDomTreeNode *Node);		bool PerformCSE(MachineDomTreeNode *Node);

bool isPRECandidate(MachineInstr *MI);		bool isPRECandidate(MachineInstr *MI);
bool ProcessBlockPRE(MachineDominatorTree MDT, MachineBasicBlock MBB);		bool ProcessBlockPRE(MachineDominatorTree MDT, MachineBasicBlock MBB);
bool PerformSimplePRE(MachineDominatorTree *DT);		bool PerformSimplePRE(MachineDominatorTree *DT);
		/// Heuristics to see if it's beneficial to move common computations of MBB
		/// and MBB1 to CandidateBB.
		bool isBeneficalToHoistInto(MachineBasicBlock *CandidateBB,
		MachineBasicBlock *MBB,
		MachineBasicBlock *MBB1);
};		};

} // end anonymous namespace		} // end anonymous namespace

char MachineCSE::ID = 0;		char MachineCSE::ID = 0;

char &llvm::MachineCSEID = MachineCSE::ID;		char &llvm::MachineCSEID = MachineCSE::ID;

▲ Show 20 Lines • Show All 653 Lines • ▼ Show 20 Lines	for (MachineBasicBlock::iterator I = MBB->begin(), E = MBB->end(); I != E;) {
auto MBB1 = PREMap[MI];		auto MBB1 = PREMap[MI];
assert(		assert(
!DT->properlyDominates(MBB, MBB1) &&		!DT->properlyDominates(MBB, MBB1) &&
"MBB cannot properly dominate MBB1 while DFS through dominators tree!");		"MBB cannot properly dominate MBB1 while DFS through dominators tree!");
auto CMBB = DT->findNearestCommonDominator(MBB, MBB1);		auto CMBB = DT->findNearestCommonDominator(MBB, MBB1);
if (!CMBB->isLegalToHoistInto())		if (!CMBB->isLegalToHoistInto())
continue;		continue;

		if (!isBeneficalToHoistInto(CMBB, MBB, MBB1))
		continue;

// Two instrs are partial redundant if their basic blocks are reachable		// Two instrs are partial redundant if their basic blocks are reachable
// from one to another but one doesn't dominate another.		// from one to another but one doesn't dominate another.
if (CMBB != MBB1) {		if (CMBB != MBB1) {
auto BB = MBB->getBasicBlock(), BB1 = MBB1->getBasicBlock();		auto BB = MBB->getBasicBlock(), BB1 = MBB1->getBasicBlock();
if (BB != nullptr && BB1 != nullptr &&		if (BB != nullptr && BB1 != nullptr &&
(isPotentiallyReachable(BB1, BB) \|\|		(isPotentiallyReachable(BB1, BB) \|\|
isPotentiallyReachable(BB, BB1))) {		isPotentiallyReachable(BB, BB1))) {

Show All 36 Lines	do {
MachineBasicBlock *MBB = Node->getBlock();		MachineBasicBlock *MBB = Node->getBlock();
Changed \|= ProcessBlockPRE(DT, MBB);		Changed \|= ProcessBlockPRE(DT, MBB);

} while (!BBs.empty());		} while (!BBs.empty());

return Changed;		return Changed;
}		}

		bool MachineCSE::isBeneficalToHoistInto(MachineBasicBlock *CandidateBB,
		MachineBasicBlock *MBB,
		MachineBasicBlock *MBB1) {
		if (CandidateBB->getParent()->getFunction().hasMinSize())
		dmgreenUnsubmitted Not Done Reply Inline Actions I think you can use hasMinSize, which is the truly size-paranoid option. Os (hasOptSize) is probably fine with your new block frequency check, if it's expected to speed up some code (and the codesize changes are fairly minimal). dmgreen: I think you can use hasMinSize, which is the truly size-paranoid option. Os (hasOptSize) is…
		return true;
		assert(DT->dominates(CandidateBB, MBB) && "CandidateBB should dominate MBB");
		assert(DT->dominates(CandidateBB, MBB1) &&
		dmgreenUnsubmitted Not Done Reply Inline Actions Should this also say something like "if OptForMinSize then return true"? Under the assumption that pre will reduce the codesize. dmgreen: Should this also say something like "if OptForMinSize then return true"? Under the assumption…
		lkailAuthorUnsubmitted Done Reply Inline Actions Hi @dmgreen , your concern makes sense, since CSE won't eliminate all common computations considering what `isProfitableToCSE` does. As a result, it might increase size after PRE. I think we can enhance it in following patches. lkail: Hi @dmgreen , your concern makes sense, since CSE won't eliminate all common computations…
		dmgreenUnsubmitted Not Done Reply Inline Actions Hello. Sorry. I meant more that - to my understanding - CSE is expected to decrease codesize. PRE can help perform more CSE so is expected to decrease codesize more. At Minsize (Oz) we don't really care which block is hot and which isn't, we just want to decrease codesize as much as possible. Hence this function, when optimising for minsize should just return true. Feel free to correct me if any of that sounds wrong. It probably doesn't make a large difference either way, but we might as well do it whilst we are here. dmgreen: Hello. Sorry. I meant more that - to my understanding - CSE is expected to decrease codesize.
		"CandidateBB should dominate MBB1");
		return MBFI->getBlockFreq(CandidateBB) <=
		anton-afanasyevUnsubmitted Not Done Reply Inline Actions I would suggest more conservative `<` instead of `<=` here. This essentially makes sense for the cases when all `BlockFreq`s are unknown (so they are equal to `0`). anton-afanasyev: I would suggest more conservative `<` instead of `<=` here. This essentially makes sense for…
		MBFI->getBlockFreq(MBB) + MBFI->getBlockFreq(MBB1);
		}

bool MachineCSE::runOnMachineFunction(MachineFunction &MF) {		bool MachineCSE::runOnMachineFunction(MachineFunction &MF) {
if (skipFunction(MF.getFunction()))		if (skipFunction(MF.getFunction()))
return false;		return false;

TII = MF.getSubtarget().getInstrInfo();		TII = MF.getSubtarget().getInstrInfo();
TRI = MF.getSubtarget().getRegisterInfo();		TRI = MF.getSubtarget().getRegisterInfo();
MRI = &MF.getRegInfo();		MRI = &MF.getRegInfo();
AA = &getAnalysis<AAResultsWrapperPass>().getAAResults();		AA = &getAnalysis<AAResultsWrapperPass>().getAAResults();
DT = &getAnalysis<MachineDominatorTree>();		DT = &getAnalysis<MachineDominatorTree>();
		MBFI = &getAnalysis<MachineBlockFrequencyInfo>();
LookAheadLimit = TII->getMachineCSELookAheadLimit();		LookAheadLimit = TII->getMachineCSELookAheadLimit();
bool ChangedPRE, ChangedCSE;		bool ChangedPRE, ChangedCSE;
ChangedPRE = PerformSimplePRE(DT);		ChangedPRE = PerformSimplePRE(DT);
ChangedCSE = PerformCSE(DT->getRootNode());		ChangedCSE = PerformCSE(DT->getRootNode());
return ChangedPRE \|\| ChangedCSE;		return ChangedPRE \|\| ChangedCSE;
}		}

llvm/test/CodeGen/AArch64/O3-pipeline.ll

	Show All 27 Lines
	; CHECK-NEXT: Falkor HW Prefetch Fix			; CHECK-NEXT: Falkor HW Prefetch Fix
	; CHECK-NEXT: Basic Alias Analysis (stateless AA impl)			; CHECK-NEXT: Basic Alias Analysis (stateless AA impl)
	; CHECK-NEXT: Module Verifier			; CHECK-NEXT: Module Verifier
	; CHECK-NEXT: Canonicalize natural loops			; CHECK-NEXT: Canonicalize natural loops
	; CHECK-NEXT: Loop Pass Manager			; CHECK-NEXT: Loop Pass Manager
	; CHECK-NEXT: Induction Variable Users			; CHECK-NEXT: Induction Variable Users
	; CHECK-NEXT: Loop Strength Reduction			; CHECK-NEXT: Loop Strength Reduction
	; CHECK-NEXT: Basic Alias Analysis (stateless AA impl)			; CHECK-NEXT: Basic Alias Analysis (stateless AA impl)
	; CHECK-NEXT: Function Alias Analysis Results			; CHECK-NEXT: Function Alias Analysis Results
				jsjiUnsubmitted Not Done Reply Inline Actions irrelevant jsji: irrelevant
	; CHECK-NEXT: Merge contiguous icmps into a memcmp			; CHECK-NEXT: Merge contiguous icmps into a memcmp
	; CHECK-NEXT: Expand memcmp() to load/stores			; CHECK-NEXT: Expand memcmp() to load/stores
	; CHECK-NEXT: Lower Garbage Collection Instructions			; CHECK-NEXT: Lower Garbage Collection Instructions
	; CHECK-NEXT: Shadow Stack GC Lowering			; CHECK-NEXT: Shadow Stack GC Lowering
	; CHECK-NEXT: Remove unreachable blocks from the CFG			; CHECK-NEXT: Remove unreachable blocks from the CFG
	; CHECK-NEXT: Dominator Tree Construction			; CHECK-NEXT: Dominator Tree Construction
	; CHECK-NEXT: Natural Loop Information			; CHECK-NEXT: Natural Loop Information
	; CHECK-NEXT: Branch Probability Analysis			; CHECK-NEXT: Branch Probability Analysis
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: AArch64 Conditional Branch Tuning			; CHECK-NEXT: AArch64 Conditional Branch Tuning
	; CHECK-NEXT: Machine Trace Metrics			; CHECK-NEXT: Machine Trace Metrics
	; CHECK-NEXT: Early If-Conversion			; CHECK-NEXT: Early If-Conversion
	; CHECK-NEXT: AArch64 Store Pair Suppression			; CHECK-NEXT: AArch64 Store Pair Suppression
	; CHECK-NEXT: AArch64 SIMD instructions optimization pass			; CHECK-NEXT: AArch64 SIMD instructions optimization pass
	; CHECK-NEXT: MachineDominator Tree Construction			; CHECK-NEXT: MachineDominator Tree Construction
	; CHECK-NEXT: Machine Natural Loop Construction			; CHECK-NEXT: Machine Natural Loop Construction
	; CHECK-NEXT: Early Machine Loop Invariant Code Motion			; CHECK-NEXT: Early Machine Loop Invariant Code Motion
				; CHECK-NEXT: Machine Block Frequency Analysis
	; CHECK-NEXT: Machine Common Subexpression Elimination			; CHECK-NEXT: Machine Common Subexpression Elimination
	; CHECK-NEXT: MachinePostDominator Tree Construction			; CHECK-NEXT: MachinePostDominator Tree Construction
	; CHECK-NEXT: Machine Block Frequency Analysis
	; CHECK-NEXT: Machine code sinking			; CHECK-NEXT: Machine code sinking
	; CHECK-NEXT: Peephole Optimizations			; CHECK-NEXT: Peephole Optimizations
	; CHECK-NEXT: Remove dead machine instructions			; CHECK-NEXT: Remove dead machine instructions
	; CHECK-NEXT: AArch64 Dead register definitions			; CHECK-NEXT: AArch64 Dead register definitions
	; CHECK-NEXT: Detect Dead Lanes			; CHECK-NEXT: Detect Dead Lanes
	; CHECK-NEXT: Process Implicit Definitions			; CHECK-NEXT: Process Implicit Definitions
	; CHECK-NEXT: Remove unreachable machine basic blocks			; CHECK-NEXT: Remove unreachable machine basic blocks
	; CHECK-NEXT: Live Variable Analysis			; CHECK-NEXT: Live Variable Analysis
	▲ Show 20 Lines • Show All 70 Lines • Show Last 20 Lines

llvm/test/CodeGen/ARM/O3-pipeline.ll

	Show First 20 Lines • Show All 66 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: Optimize machine instruction PHIs			; CHECK-NEXT: Optimize machine instruction PHIs
	; CHECK-NEXT: Slot index numbering			; CHECK-NEXT: Slot index numbering
	; CHECK-NEXT: Merge disjoint stack slots			; CHECK-NEXT: Merge disjoint stack slots
	; CHECK-NEXT: Local Stack Slot Allocation			; CHECK-NEXT: Local Stack Slot Allocation
	; CHECK-NEXT: Remove dead machine instructions			; CHECK-NEXT: Remove dead machine instructions
	; CHECK-NEXT: MachineDominator Tree Construction			; CHECK-NEXT: MachineDominator Tree Construction
	; CHECK-NEXT: Machine Natural Loop Construction			; CHECK-NEXT: Machine Natural Loop Construction
	; CHECK-NEXT: Early Machine Loop Invariant Code Motion			; CHECK-NEXT: Early Machine Loop Invariant Code Motion
				; CHECK-NEXT: Machine Block Frequency Analysis
	; CHECK-NEXT: Machine Common Subexpression Elimination			; CHECK-NEXT: Machine Common Subexpression Elimination
	; CHECK-NEXT: MachinePostDominator Tree Construction			; CHECK-NEXT: MachinePostDominator Tree Construction
	; CHECK-NEXT: Machine Block Frequency Analysis
	; CHECK-NEXT: Machine code sinking			; CHECK-NEXT: Machine code sinking
	; CHECK-NEXT: Peephole Optimizations			; CHECK-NEXT: Peephole Optimizations
	; CHECK-NEXT: Remove dead machine instructions			; CHECK-NEXT: Remove dead machine instructions
	; CHECK-NEXT: ARM MLA / MLS expansion pass			; CHECK-NEXT: ARM MLA / MLS expansion pass
	; CHECK-NEXT: ARM pre- register allocation load / store optimization pass			; CHECK-NEXT: ARM pre- register allocation load / store optimization pass
	; CHECK-NEXT: ARM A15 S->D optimizer			; CHECK-NEXT: ARM A15 S->D optimizer
	; CHECK-NEXT: Detect Dead Lanes			; CHECK-NEXT: Detect Dead Lanes
	; CHECK-NEXT: Process Implicit Definitions			; CHECK-NEXT: Process Implicit Definitions
	▲ Show 20 Lines • Show All 72 Lines • Show Last 20 Lines

llvm/test/CodeGen/PowerPC/machine-pre.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mcpu=pwr9 -mtriple=powerpc64le-unknown-unknown \			; RUN: llc -mcpu=pwr9 -mtriple=powerpc64le-unknown-unknown \
	; RUN: -ppc-asm-full-reg-names -verify-machineinstrs -O2 < %s \| FileCheck %s \			; RUN: -ppc-asm-full-reg-names -verify-machineinstrs -O2 < %s \| FileCheck %s \
	; RUN: --check-prefix=CHECK-P9			; RUN: --check-prefix=CHECK-P9

	define i32 @t(i32 %n, i32 %delta, i32 %a) {			define i32 @t(i32 %n, i32 %delta, i32 %a) {
	; CHECK-P9-LABEL: t:			; CHECK-P9-LABEL: t:
	; CHECK-P9: # %bb.0: # %entry			; CHECK-P9: # %bb.0: # %entry
	; CHECK-P9-NEXT: lis r7, 0			; CHECK-P9-NEXT: lis r7, 0
	; CHECK-P9-NEXT: li r6, 0			; CHECK-P9-NEXT: li r6, 0
				; CHECK-P9-NEXT: li r8, 0
	; CHECK-P9-NEXT: li r9, 0			; CHECK-P9-NEXT: li r9, 0
	; CHECK-P9-NEXT: li r10, 0
	; CHECK-P9-NEXT: ori r7, r7, 65535			; CHECK-P9-NEXT: ori r7, r7, 65535
	; CHECK-P9-NEXT: .p2align 5			; CHECK-P9-NEXT: .p2align 5
	; CHECK-P9-NEXT: .LBB0_1: # %header			; CHECK-P9-NEXT: .LBB0_1: # %header
	; CHECK-P9-NEXT: #			; CHECK-P9-NEXT: #
	; CHECK-P9-NEXT: addi r10, r10, 1			; CHECK-P9-NEXT: addi r9, r9, 1
	; CHECK-P9-NEXT: cmpw r10, r3			; CHECK-P9-NEXT: cmpw r9, r3
	; CHECK-P9-NEXT: addi r8, r5, 1024
	; CHECK-P9-NEXT: blt cr0, .LBB0_4			; CHECK-P9-NEXT: blt cr0, .LBB0_4
	; CHECK-P9-NEXT: # %bb.2: # %cont			; CHECK-P9-NEXT: # %bb.2: # %cont
	; CHECK-P9-NEXT: #			; CHECK-P9-NEXT: #
	; CHECK-P9-NEXT: add r9, r9, r4			; CHECK-P9-NEXT: add r8, r8, r4
	; CHECK-P9-NEXT: cmpw r9, r7			; CHECK-P9-NEXT: cmpw r8, r7
	; CHECK-P9-NEXT: bgt cr0, .LBB0_1			; CHECK-P9-NEXT: bgt cr0, .LBB0_1
	; CHECK-P9-NEXT: # %bb.3: # %cont.1			; CHECK-P9-NEXT: # %bb.3: # %cont.1
	; CHECK-P9-NEXT: mr r6, r8			; CHECK-P9-NEXT: addi r6, r5, 1024
	; CHECK-P9-NEXT: .LBB0_4: # %return			; CHECK-P9-NEXT: .LBB0_4: # %return
	; CHECK-P9-NEXT: mullw r3, r6, r8			; CHECK-P9-NEXT: addi r3, r5, 1024
				; CHECK-P9-NEXT: mullw r3, r6, r3
	; CHECK-P9-NEXT: blr			; CHECK-P9-NEXT: blr
	entry:			entry:
	br label %header			br label %header

	header:			header:
	%sum = phi i32 [ 0, %entry ], [ %sum.1, %cont ]			%sum = phi i32 [ 0, %entry ], [ %sum.1, %cont ]
	%i = phi i32 [ 0, %entry ], [ %i.1, %cont ]			%i = phi i32 [ 0, %entry ], [ %i.1, %cont ]
	%i.1 = add nsw i32 %i, 1			%i.1 = add nsw i32 %i, 1
	Show All 32 Lines
	; CHECK-P9-NEXT: std r30, -16(r1) # 8-byte Folded Spill			; CHECK-P9-NEXT: std r30, -16(r1) # 8-byte Folded Spill
	; CHECK-P9-NEXT: std r0, 16(r1)			; CHECK-P9-NEXT: std r0, 16(r1)
	; CHECK-P9-NEXT: stdu r1, -80(r1)			; CHECK-P9-NEXT: stdu r1, -80(r1)
	; CHECK-P9-NEXT: mr r30, r4			; CHECK-P9-NEXT: mr r30, r4
	; CHECK-P9-NEXT: mr r29, r3			; CHECK-P9-NEXT: mr r29, r3
	; CHECK-P9-NEXT: lis r3, 21845			; CHECK-P9-NEXT: lis r3, 21845
	; CHECK-P9-NEXT: add r28, r30, r29			; CHECK-P9-NEXT: add r28, r30, r29
	; CHECK-P9-NEXT: ori r27, r3, 21846			; CHECK-P9-NEXT: ori r27, r3, 21846
	; CHECK-P9-NEXT: b .LBB1_3			; CHECK-P9-NEXT: b .LBB1_4
	; CHECK-P9-NEXT: .p2align 4			; CHECK-P9-NEXT: .p2align 4
	; CHECK-P9-NEXT: .LBB1_1: # %sw.bb3			; CHECK-P9-NEXT: .LBB1_1: # %sw.bb3
	; CHECK-P9-NEXT: #			; CHECK-P9-NEXT: #
	; CHECK-P9-NEXT: add r28, r3, r28			; CHECK-P9-NEXT: mulli r3, r30, 23
	; CHECK-P9-NEXT: .LBB1_2: # %sw.epilog			; CHECK-P9-NEXT: .LBB1_2: # %sw.epilog
	; CHECK-P9-NEXT: #			; CHECK-P9-NEXT: #
				; CHECK-P9-NEXT: add r28, r3, r28
				; CHECK-P9-NEXT: .LBB1_3: # %sw.epilog
				; CHECK-P9-NEXT: #
	; CHECK-P9-NEXT: cmpwi r28, 1025			; CHECK-P9-NEXT: cmpwi r28, 1025
	; CHECK-P9-NEXT: bge cr0, .LBB1_6			; CHECK-P9-NEXT: bge cr0, .LBB1_7
	; CHECK-P9-NEXT: .LBB1_3: # %while.cond			; CHECK-P9-NEXT: .LBB1_4: # %while.cond
	; CHECK-P9-NEXT: #			; CHECK-P9-NEXT: #
	; CHECK-P9-NEXT: extsw r3, r29			; CHECK-P9-NEXT: extsw r3, r29
	; CHECK-P9-NEXT: bl bar			; CHECK-P9-NEXT: bl bar
	; CHECK-P9-NEXT: nop			; CHECK-P9-NEXT: nop
	; CHECK-P9-NEXT: mr r29, r3			; CHECK-P9-NEXT: mr r29, r3
	; CHECK-P9-NEXT: extsw r3, r30			; CHECK-P9-NEXT: extsw r3, r30
	; CHECK-P9-NEXT: bl bar			; CHECK-P9-NEXT: bl bar
	; CHECK-P9-NEXT: nop			; CHECK-P9-NEXT: nop
	; CHECK-P9-NEXT: mr r30, r3			; CHECK-P9-NEXT: mr r30, r3
	; CHECK-P9-NEXT: extsw r3, r28			; CHECK-P9-NEXT: extsw r3, r28
	; CHECK-P9-NEXT: mulld r4, r3, r27			; CHECK-P9-NEXT: mulld r4, r3, r27
	; CHECK-P9-NEXT: rldicl r5, r4, 1, 63			; CHECK-P9-NEXT: rldicl r5, r4, 1, 63
	; CHECK-P9-NEXT: rldicl r4, r4, 32, 32			; CHECK-P9-NEXT: rldicl r4, r4, 32, 32
	; CHECK-P9-NEXT: add r4, r4, r5			; CHECK-P9-NEXT: add r4, r4, r5
	; CHECK-P9-NEXT: slwi r5, r4, 1			; CHECK-P9-NEXT: slwi r5, r4, 1
	; CHECK-P9-NEXT: add r4, r4, r5			; CHECK-P9-NEXT: add r4, r4, r5
	; CHECK-P9-NEXT: subf r5, r4, r3			; CHECK-P9-NEXT: subf r3, r4, r3
	; CHECK-P9-NEXT: mulli r4, r29, 13			; CHECK-P9-NEXT: cmplwi r3, 1
	; CHECK-P9-NEXT: mulli r3, r30, 23
	; CHECK-P9-NEXT: cmplwi r5, 1
	; CHECK-P9-NEXT: beq cr0, .LBB1_1			; CHECK-P9-NEXT: beq cr0, .LBB1_1
	; CHECK-P9-NEXT: # %bb.4: # %while.cond			; CHECK-P9-NEXT: # %bb.5: # %while.cond
	; CHECK-P9-NEXT: #
	; CHECK-P9-NEXT: cmplwi r5, 0
	; CHECK-P9-NEXT: bne cr0, .LBB1_2
	; CHECK-P9-NEXT: # %bb.5: # %sw.bb
	; CHECK-P9-NEXT: #			; CHECK-P9-NEXT: #
	; CHECK-P9-NEXT: add r28, r4, r28			; CHECK-P9-NEXT: cmplwi r3, 0
	; CHECK-P9-NEXT: cmpwi r28, 1025			; CHECK-P9-NEXT: bne cr0, .LBB1_3
	; CHECK-P9-NEXT: blt cr0, .LBB1_3			; CHECK-P9-NEXT: # %bb.6: # %sw.bb
	; CHECK-P9-NEXT: .LBB1_6: # %while.end			; CHECK-P9-NEXT: #
	; CHECK-P9-NEXT: lis r5, -13108			; CHECK-P9-NEXT: mulli r3, r29, 13
	; CHECK-P9-NEXT: ori r5, r5, 52429			; CHECK-P9-NEXT: b .LBB1_2
	; CHECK-P9-NEXT: mullw r5, r28, r5			; CHECK-P9-NEXT: .LBB1_7: # %while.end
	; CHECK-P9-NEXT: lis r6, 13107			; CHECK-P9-NEXT: lis r3, -13108
	; CHECK-P9-NEXT: ori r6, r6, 13108			; CHECK-P9-NEXT: ori r3, r3, 52429
	; CHECK-P9-NEXT: cmplw r5, r6			; CHECK-P9-NEXT: mullw r3, r28, r3
	; CHECK-P9-NEXT: blt cr0, .LBB1_8			; CHECK-P9-NEXT: lis r4, 13107
	; CHECK-P9-NEXT: # %bb.7: # %if.then8			; CHECK-P9-NEXT: ori r4, r4, 13108
	; CHECK-P9-NEXT: extsw r4, r4			; CHECK-P9-NEXT: cmplw r3, r4
	; CHECK-P9-NEXT: extsw r5, r28			; CHECK-P9-NEXT: blt cr0, .LBB1_9
				; CHECK-P9-NEXT: # %bb.8: # %if.then8
				; CHECK-P9-NEXT: mulli r3, r29, 13
				; CHECK-P9-NEXT: mulli r5, r30, 23
				; CHECK-P9-NEXT: extsw r4, r28
	; CHECK-P9-NEXT: extsw r3, r3			; CHECK-P9-NEXT: extsw r3, r3
				; CHECK-P9-NEXT: extsw r5, r5
				; CHECK-P9-NEXT: sub r3, r4, r3
	; CHECK-P9-NEXT: sub r4, r5, r4			; CHECK-P9-NEXT: sub r4, r5, r4
	; CHECK-P9-NEXT: sub r3, r3, r5
	; CHECK-P9-NEXT: rldicl r4, r4, 1, 63
	; CHECK-P9-NEXT: rldicl r3, r3, 1, 63			; CHECK-P9-NEXT: rldicl r3, r3, 1, 63
	; CHECK-P9-NEXT: or r3, r4, r3			; CHECK-P9-NEXT: rldicl r4, r4, 1, 63
	; CHECK-P9-NEXT: b .LBB1_9			; CHECK-P9-NEXT: or r3, r3, r4
	; CHECK-P9-NEXT: .LBB1_8: # %cleanup20			; CHECK-P9-NEXT: b .LBB1_10
	; CHECK-P9-NEXT: li r3, 0
	; CHECK-P9-NEXT: .LBB1_9: # %cleanup20			; CHECK-P9-NEXT: .LBB1_9: # %cleanup20
				; CHECK-P9-NEXT: li r3, 0
				; CHECK-P9-NEXT: .LBB1_10: # %cleanup20
	; CHECK-P9-NEXT: addi r1, r1, 80			; CHECK-P9-NEXT: addi r1, r1, 80
	; CHECK-P9-NEXT: ld r0, 16(r1)			; CHECK-P9-NEXT: ld r0, 16(r1)
	; CHECK-P9-NEXT: mtlr r0			; CHECK-P9-NEXT: mtlr r0
	; CHECK-P9-NEXT: ld r30, -16(r1) # 8-byte Folded Reload			; CHECK-P9-NEXT: ld r30, -16(r1) # 8-byte Folded Reload
	; CHECK-P9-NEXT: ld r29, -24(r1) # 8-byte Folded Reload			; CHECK-P9-NEXT: ld r29, -24(r1) # 8-byte Folded Reload
	; CHECK-P9-NEXT: ld r28, -32(r1) # 8-byte Folded Reload			; CHECK-P9-NEXT: ld r28, -32(r1) # 8-byte Folded Reload
	; CHECK-P9-NEXT: ld r27, -40(r1) # 8-byte Folded Reload			; CHECK-P9-NEXT: ld r27, -40(r1) # 8-byte Folded Reload
	; CHECK-P9-NEXT: blr			; CHECK-P9-NEXT: blr
	▲ Show 20 Lines • Show All 50 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/O3-pipeline.ll

	Show All 24 Lines
	; CHECK-NEXT: Module Verifier			; CHECK-NEXT: Module Verifier
	; CHECK-NEXT: Natural Loop Information			; CHECK-NEXT: Natural Loop Information
	; CHECK-NEXT: Canonicalize natural loops			; CHECK-NEXT: Canonicalize natural loops
	; CHECK-NEXT: Scalar Evolution Analysis			; CHECK-NEXT: Scalar Evolution Analysis
	; CHECK-NEXT: Loop Pass Manager			; CHECK-NEXT: Loop Pass Manager
	; CHECK-NEXT: Induction Variable Users			; CHECK-NEXT: Induction Variable Users
	; CHECK-NEXT: Loop Strength Reduction			; CHECK-NEXT: Loop Strength Reduction
	; CHECK-NEXT: Basic Alias Analysis (stateless AA impl)			; CHECK-NEXT: Basic Alias Analysis (stateless AA impl)
	; CHECK-NEXT: Function Alias Analysis Results			; CHECK-NEXT: Function Alias Analysis Results
				jsjiUnsubmitted Not Done Reply Inline Actions Please avoid irrelevant changes, commit them in another NFC patch if you would like to change them. jsji: Please avoid irrelevant changes, commit them in another NFC patch if you would like to change…
	; CHECK-NEXT: Merge contiguous icmps into a memcmp			; CHECK-NEXT: Merge contiguous icmps into a memcmp
	; CHECK-NEXT: Expand memcmp() to load/stores			; CHECK-NEXT: Expand memcmp() to load/stores
	; CHECK-NEXT: Lower Garbage Collection Instructions			; CHECK-NEXT: Lower Garbage Collection Instructions
	; CHECK-NEXT: Shadow Stack GC Lowering			; CHECK-NEXT: Shadow Stack GC Lowering
	; CHECK-NEXT: Remove unreachable blocks from the CFG			; CHECK-NEXT: Remove unreachable blocks from the CFG
	; CHECK-NEXT: Dominator Tree Construction			; CHECK-NEXT: Dominator Tree Construction
	; CHECK-NEXT: Natural Loop Information			; CHECK-NEXT: Natural Loop Information
	; CHECK-NEXT: Branch Probability Analysis			; CHECK-NEXT: Branch Probability Analysis
	Show All 20 Lines
	; CHECK-NEXT: Basic Alias Analysis (stateless AA impl)			; CHECK-NEXT: Basic Alias Analysis (stateless AA impl)
	; CHECK-NEXT: Function Alias Analysis Results			; CHECK-NEXT: Function Alias Analysis Results
	; CHECK-NEXT: Natural Loop Information			; CHECK-NEXT: Natural Loop Information
	; CHECK-NEXT: Branch Probability Analysis			; CHECK-NEXT: Branch Probability Analysis
	; CHECK-NEXT: X86 DAG->DAG Instruction Selection			; CHECK-NEXT: X86 DAG->DAG Instruction Selection
	; CHECK-NEXT: MachineDominator Tree Construction			; CHECK-NEXT: MachineDominator Tree Construction
	; CHECK-NEXT: Local Dynamic TLS Access Clean-up			; CHECK-NEXT: Local Dynamic TLS Access Clean-up
	; CHECK-NEXT: X86 PIC Global Base Reg Initialization			; CHECK-NEXT: X86 PIC Global Base Reg Initialization
	; CHECK-NEXT: Finalize ISel and expand pseudo-instructions			; CHECK-NEXT: Finalize ISel and expand pseudo-instructions
				jsjiUnsubmitted Not Done Reply Inline Actions irrelevant jsji: irrelevant
	; CHECK-NEXT: X86 Domain Reassignment Pass			; CHECK-NEXT: X86 Domain Reassignment Pass
	; CHECK-NEXT: Early Tail Duplication			; CHECK-NEXT: Early Tail Duplication
	; CHECK-NEXT: Optimize machine instruction PHIs			; CHECK-NEXT: Optimize machine instruction PHIs
	; CHECK-NEXT: Slot index numbering			; CHECK-NEXT: Slot index numbering
	; CHECK-NEXT: Merge disjoint stack slots			; CHECK-NEXT: Merge disjoint stack slots
	; CHECK-NEXT: Local Stack Slot Allocation			; CHECK-NEXT: Local Stack Slot Allocation
	; CHECK-NEXT: Remove dead machine instructions			; CHECK-NEXT: Remove dead machine instructions
	; CHECK-NEXT: MachineDominator Tree Construction			; CHECK-NEXT: MachineDominator Tree Construction
	; CHECK-NEXT: Machine Natural Loop Construction			; CHECK-NEXT: Machine Natural Loop Construction
	; CHECK-NEXT: Machine Trace Metrics			; CHECK-NEXT: Machine Trace Metrics
	; CHECK-NEXT: Early If-Conversion			; CHECK-NEXT: Early If-Conversion
	; CHECK-NEXT: Machine InstCombiner			; CHECK-NEXT: Machine InstCombiner
	; CHECK-NEXT: X86 cmov Conversion			; CHECK-NEXT: X86 cmov Conversion
	; CHECK-NEXT: MachineDominator Tree Construction			; CHECK-NEXT: MachineDominator Tree Construction
	; CHECK-NEXT: Machine Natural Loop Construction			; CHECK-NEXT: Machine Natural Loop Construction
	; CHECK-NEXT: Early Machine Loop Invariant Code Motion			; CHECK-NEXT: Early Machine Loop Invariant Code Motion
				; CHECK-NEXT: Machine Block Frequency Analysis
	; CHECK-NEXT: Machine Common Subexpression Elimination			; CHECK-NEXT: Machine Common Subexpression Elimination
	; CHECK-NEXT: MachinePostDominator Tree Construction			; CHECK-NEXT: MachinePostDominator Tree Construction
	; CHECK-NEXT: Machine Block Frequency Analysis
	; CHECK-NEXT: Machine code sinking			; CHECK-NEXT: Machine code sinking
	; CHECK-NEXT: Peephole Optimizations			; CHECK-NEXT: Peephole Optimizations
	; CHECK-NEXT: Remove dead machine instructions			; CHECK-NEXT: Remove dead machine instructions
	; CHECK-NEXT: Live Range Shrink			; CHECK-NEXT: Live Range Shrink
	; CHECK-NEXT: X86 Fixup SetCC			; CHECK-NEXT: X86 Fixup SetCC
	; CHECK-NEXT: X86 LEA Optimize			; CHECK-NEXT: X86 LEA Optimize
	; CHECK-NEXT: X86 Optimize Call Frame			; CHECK-NEXT: X86 Optimize Call Frame
	; CHECK-NEXT: X86 Avoid Store Forwarding Block			; CHECK-NEXT: X86 Avoid Store Forwarding Block
				jsjiUnsubmitted Not Done Reply Inline Actions irrelevant changes. jsji: irrelevant changes.
	; CHECK-NEXT: X86 speculative load hardening			; CHECK-NEXT: X86 speculative load hardening
	; CHECK-NEXT: MachineDominator Tree Construction			; CHECK-NEXT: MachineDominator Tree Construction
	; CHECK-NEXT: X86 EFLAGS copy lowering			; CHECK-NEXT: X86 EFLAGS copy lowering
	; CHECK-NEXT: X86 WinAlloca Expander			; CHECK-NEXT: X86 WinAlloca Expander
	; CHECK-NEXT: Detect Dead Lanes			; CHECK-NEXT: Detect Dead Lanes
	; CHECK-NEXT: Process Implicit Definitions			; CHECK-NEXT: Process Implicit Definitions
	; CHECK-NEXT: Remove unreachable machine basic blocks			; CHECK-NEXT: Remove unreachable machine basic blocks
	; CHECK-NEXT: Live Variable Analysis			; CHECK-NEXT: Live Variable Analysis
	▲ Show 20 Lines • Show All 64 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: Check CFA info and insert CFI instructions if needed			; CHECK-NEXT: Check CFA info and insert CFI instructions if needed
	; CHECK-NEXT: Lazy Machine Block Frequency Analysis			; CHECK-NEXT: Lazy Machine Block Frequency Analysis
	; CHECK-NEXT: Machine Optimization Remark Emitter			; CHECK-NEXT: Machine Optimization Remark Emitter
	; CHECK-NEXT: X86 Assembly Printer			; CHECK-NEXT: X86 Assembly Printer
	; CHECK-NEXT: Free MachineFunction			; CHECK-NEXT: Free MachineFunction

	define void @f() {			define void @f() {
	ret void			ret void
	}			}
				jsjiUnsubmitted Not Done Reply Inline Actions extra line? irrelevant jsji: extra line? irrelevant

This is an archive of the discontinued LLVM Phabricator instance.

[MachineCSE][MachinePRE] Do not hoist common computations into hot BBs
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 210724

llvm/lib/CodeGen/MachineCSE.cpp

llvm/test/CodeGen/AArch64/O3-pipeline.ll

llvm/test/CodeGen/ARM/O3-pipeline.ll

llvm/test/CodeGen/PowerPC/machine-pre.ll

llvm/test/CodeGen/X86/O3-pipeline.ll

This is an archive of the discontinued LLVM Phabricator instance.

[MachineCSE][MachinePRE] Do not hoist common computations into hot BBsClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 210724

llvm/lib/CodeGen/MachineCSE.cpp

llvm/test/CodeGen/AArch64/O3-pipeline.ll

llvm/test/CodeGen/ARM/O3-pipeline.ll

llvm/test/CodeGen/PowerPC/machine-pre.ll

llvm/test/CodeGen/X86/O3-pipeline.ll

[MachineCSE][MachinePRE] Do not hoist common computations into hot BBs
ClosedPublic