Download Raw Diff

Details

Reviewers

hfinkel
jsji
steven.zhang
Jiangning
anton-afanasyev
ab
rtereshin
greened
mzolotukhin
nemanjai
anil9
courbet
SjoerdMeijer
dmgreen

Commits

rG19e5da4edc96: Merging r366570: --------------------------------------------------------------…
rL366729: Merging r366570:
rGdec624682e06: [MachineCSE][MachinePRE] Avoid hoisting code from code regions into hot BBs.
rL366570: [MachineCSE][MachinePRE] Avoid hoisting code from code regions into hot BBs.

Summary

Current PRE hoists common computations into
CMBB = DT->findNearestCommonDominator(MBB, MBB1).
However, if CMBB is in a hot loop body, we might get performance
degradation.

Diff Detail

Repository: rL LLVM

Event Timeline

lkail created this revision.Jul 9 2019, 2:25 AM

Herald added a project: Restricted Project. · View Herald TranscriptJul 9 2019, 2:25 AM

Herald added subscribers: llvm-commits, MaskRay, hiraditya, nemanjai. · View Herald Transcript

lkail added reviewers: rtereshin, greened, mzolotukhin.Jul 9 2019, 2:40 AM

Herald added a subscriber: • wuzish. · View Herald TranscriptJul 9 2019, 2:40 AM

lkail added a reviewer: nemanjai.Jul 9 2019, 2:42 AM

However, if CMBB is in a loop body, we might get performance degradation.

But we might also get a performance improvement, because the performance of the inner loop is more significant than that of the outer loop. This latter case seems more likely to me, but do you have performance results from the test suite, or something else, showing otherwise?

Is the problem hoisting out of a cold inner region into a hot loop? Would profiling data help? Is this really a rematerialization problem?

@hfinkel , thanks for review.

do you have performance results from the test suite, or something else, showing otherwise?

Yes. We have observed ~7% degs in one of benchmark due to this.

However, if CMBB is in a loop body, we might get performance degradation.

This conclusion comes from the observation of the test suite code, I'm to paste a reduced case to tests soon, similar to current test, except for its branches are switchs.

But we might also get a performance improvement, because the performance of the inner loop is more significant than that of the outer loop.

I do miss this point you have mentioned. @nemanjai has already suggested me to take a look at MachineBlockFrequency.

Is the problem hoisting out of a cold inner region into a hot loop?

I agree with it. This patch should consider more about hotness of loops.

lkail added a reviewer: anil9.Jul 9 2019, 6:56 PM

Updated the patch, using MachineBlockFrequency as metric to check if CMBB is appropriate to hoist into.

Herald added a subscriber: javed.absar. · View Herald TranscriptJul 9 2019, 11:47 PM

lkail retitled this revision from [MachineCSE][MachinePRE] Do not hoist common computations into loop bodies to [MachineCSE][MachinePRE] Do not hoist common computations into hot BBs.Jul 9 2019, 11:58 PM

lkail updated this revision to Diff 208891.Jul 10 2019, 1:25 AM

jsji added inline comments.Jul 10 2019, 11:29 AM

llvm/test/CodeGen/AArch64/O3-pipeline.ll
36 ↗	(On Diff #208891)	irrelevant
llvm/test/CodeGen/X86/O3-pipeline.ll
33 ↗	(On Diff #208891)	Please avoid irrelevant changes, commit them in another NFC patch if you would like to change them.
70 ↗	(On Diff #208891)	irrelevant
97 ↗	(On Diff #208891)	irrelevant changes.
179 ↗	(On Diff #208891)	extra line? irrelevant

Address @jsji 's comments and added new test.

dmgreen added a subscriber: dmgreen.Jul 14 2019, 5:55 AM

dmgreen added inline comments.

llvm/lib/CodeGen/MachineCSE.cpp
875 ↗	(On Diff #209440)	Should this also say something like "if OptForMinSize then return true"? Under the assumption that pre will reduce the codesize.

lkail marked an inline comment as done.Jul 15 2019, 6:31 PM

lkail added inline comments.

llvm/lib/CodeGen/MachineCSE.cpp
875 ↗	(On Diff #209440)	Hi @dmgreen , your concern makes sense, since CSE won't eliminate all common computations considering what `isProfitableToCSE` does. As a result, it might increase size after PRE. I think we can enhance it in following patches.

Ping

dmgreen added inline comments.Jul 17 2019, 10:56 AM

llvm/lib/CodeGen/MachineCSE.cpp
875 ↗	(On Diff #209440)	Hello. Sorry. I meant more that - to my understanding - CSE is expected to decrease codesize. PRE can help perform more CSE so is expected to decrease codesize more. At Minsize (Oz) we don't really care which block is hot and which isn't, we just want to decrease codesize as much as possible. Hence this function, when optimising for minsize should just return true. Feel free to correct me if any of that sounds wrong. It probably doesn't make a large difference either way, but we might as well do it whilst we are here.

lkail added a reviewer: dmgreen.Jul 17 2019, 6:32 PM

Updated patch following @dmgreen 's suggestion.

Thanks. Looks like a nice change to me, other than one minor modification

llvm/lib/CodeGen/MachineCSE.cpp
872 ↗	(On Diff #210478)	I think you can use hasMinSize, which is the truly size-paranoid option. Os (hasOptSize) is probably fine with your new block frequency check, if it's expected to speed up some code (and the codesize changes are fairly minimal).

This revision is now accepted and ready to land.Jul 18 2019, 3:40 AM

anton-afanasyev added inline comments.Jul 18 2019, 3:20 PM

llvm/lib/CodeGen/MachineCSE.cpp
877 ↗	(On Diff #210478)	I would suggest more conservative `<` instead of `<=` here. This essentially makes sense for the cases when all `BlockFreq`s are unknown (so they are equal to `0`).

Btw, this change breaks multiple (more than two) hoisting to common dominator. I've tested this patch for the original test case taken from here: https://bugs.llvm.org/show_bug.cgi?id=38917. There are several comparisons giving 96 > 40 + 10, 96 > 29 + 10, 96 > 18 + 10 (so no hoisting at all), meanwhile 96 < 97 = 40 + 29 + 18 + 10.
However I do not see easy solution for this issue.

In D64394#1592621, @anton-afanasyev wrote:

Btw, this change breaks multiple (more than two) hoisting to common dominator. I've tested this patch for the original test case taken from here: https://bugs.llvm.org/show_bug.cgi?id=38917. There are several comparisons giving 96 > 40 + 10, 96 > 29 + 10, 96 > 18 + 10 (so no hoisting at all), meanwhile 96 < 97 = 40 + 29 + 18 + 10.
However I do not see easy solution for this issue.

Good point! I think it would be an opportunity for our benchmark. I think I can enhance it in following patches. Maybe we also have to take register pressure into consideration.

Use hasMinSize to check if optimized for size.

Closed by commit rL366570: [MachineCSE][MachinePRE] Avoid hoisting code from code regions into hot BBs. (authored by lkail). · Explain WhyJul 19 2019, 5:58 AM

This revision was automatically updated to reflect the committed changes.

Diff 210811

llvm/trunk/lib/CodeGen/MachineCSE.cpp

Show All 15 Lines
#include "llvm/ADT/ScopedHashTable.h"		#include "llvm/ADT/ScopedHashTable.h"
#include "llvm/ADT/SmallPtrSet.h"		#include "llvm/ADT/SmallPtrSet.h"
#include "llvm/ADT/SmallSet.h"		#include "llvm/ADT/SmallSet.h"
#include "llvm/ADT/SmallVector.h"		#include "llvm/ADT/SmallVector.h"
#include "llvm/ADT/Statistic.h"		#include "llvm/ADT/Statistic.h"
#include "llvm/Analysis/AliasAnalysis.h"		#include "llvm/Analysis/AliasAnalysis.h"
#include "llvm/Analysis/CFG.h"		#include "llvm/Analysis/CFG.h"
#include "llvm/CodeGen/MachineBasicBlock.h"		#include "llvm/CodeGen/MachineBasicBlock.h"
		#include "llvm/CodeGen/MachineBlockFrequencyInfo.h"
#include "llvm/CodeGen/MachineDominators.h"		#include "llvm/CodeGen/MachineDominators.h"
#include "llvm/CodeGen/MachineFunction.h"		#include "llvm/CodeGen/MachineFunction.h"
#include "llvm/CodeGen/MachineFunctionPass.h"		#include "llvm/CodeGen/MachineFunctionPass.h"
#include "llvm/CodeGen/MachineInstr.h"		#include "llvm/CodeGen/MachineInstr.h"
#include "llvm/CodeGen/MachineOperand.h"		#include "llvm/CodeGen/MachineOperand.h"
#include "llvm/CodeGen/MachineRegisterInfo.h"		#include "llvm/CodeGen/MachineRegisterInfo.h"
#include "llvm/CodeGen/Passes.h"		#include "llvm/CodeGen/Passes.h"
#include "llvm/CodeGen/TargetInstrInfo.h"		#include "llvm/CodeGen/TargetInstrInfo.h"
Show All 29 Lines
namespace {		namespace {

class MachineCSE : public MachineFunctionPass {		class MachineCSE : public MachineFunctionPass {
const TargetInstrInfo *TII;		const TargetInstrInfo *TII;
const TargetRegisterInfo *TRI;		const TargetRegisterInfo *TRI;
AliasAnalysis *AA;		AliasAnalysis *AA;
MachineDominatorTree *DT;		MachineDominatorTree *DT;
MachineRegisterInfo *MRI;		MachineRegisterInfo *MRI;
		MachineBlockFrequencyInfo *MBFI;

public:		public:
static char ID; // Pass identification		static char ID; // Pass identification

MachineCSE() : MachineFunctionPass(ID) {		MachineCSE() : MachineFunctionPass(ID) {
initializeMachineCSEPass(*PassRegistry::getPassRegistry());		initializeMachineCSEPass(*PassRegistry::getPassRegistry());
}		}

bool runOnMachineFunction(MachineFunction &MF) override;		bool runOnMachineFunction(MachineFunction &MF) override;

void getAnalysisUsage(AnalysisUsage &AU) const override {		void getAnalysisUsage(AnalysisUsage &AU) const override {
AU.setPreservesCFG();		AU.setPreservesCFG();
MachineFunctionPass::getAnalysisUsage(AU);		MachineFunctionPass::getAnalysisUsage(AU);
AU.addRequired<AAResultsWrapperPass>();		AU.addRequired<AAResultsWrapperPass>();
AU.addPreservedID(MachineLoopInfoID);		AU.addPreservedID(MachineLoopInfoID);
AU.addRequired<MachineDominatorTree>();		AU.addRequired<MachineDominatorTree>();
AU.addPreserved<MachineDominatorTree>();		AU.addPreserved<MachineDominatorTree>();
		AU.addRequired<MachineBlockFrequencyInfo>();
		AU.addPreserved<MachineBlockFrequencyInfo>();
}		}

void releaseMemory() override {		void releaseMemory() override {
ScopeMap.clear();		ScopeMap.clear();
PREMap.clear();		PREMap.clear();
Exps.clear();		Exps.clear();
}		}

Show All 34 Lines	private:
bool ProcessBlockCSE(MachineBasicBlock *MBB);		bool ProcessBlockCSE(MachineBasicBlock *MBB);
void ExitScopeIfDone(MachineDomTreeNode *Node,		void ExitScopeIfDone(MachineDomTreeNode *Node,
DenseMap<MachineDomTreeNode*, unsigned> &OpenChildren);		DenseMap<MachineDomTreeNode*, unsigned> &OpenChildren);
bool PerformCSE(MachineDomTreeNode *Node);		bool PerformCSE(MachineDomTreeNode *Node);

bool isPRECandidate(MachineInstr *MI);		bool isPRECandidate(MachineInstr *MI);
bool ProcessBlockPRE(MachineDominatorTree MDT, MachineBasicBlock MBB);		bool ProcessBlockPRE(MachineDominatorTree MDT, MachineBasicBlock MBB);
bool PerformSimplePRE(MachineDominatorTree *DT);		bool PerformSimplePRE(MachineDominatorTree *DT);
		/// Heuristics to see if it's beneficial to move common computations of MBB
		/// and MBB1 to CandidateBB.
		bool isBeneficalToHoistInto(MachineBasicBlock *CandidateBB,
		MachineBasicBlock *MBB,
		MachineBasicBlock *MBB1);
};		};

} // end anonymous namespace		} // end anonymous namespace

char MachineCSE::ID = 0;		char MachineCSE::ID = 0;

char &llvm::MachineCSEID = MachineCSE::ID;		char &llvm::MachineCSEID = MachineCSE::ID;

▲ Show 20 Lines • Show All 653 Lines • ▼ Show 20 Lines	for (MachineBasicBlock::iterator I = MBB->begin(), E = MBB->end(); I != E;) {
auto MBB1 = PREMap[MI];		auto MBB1 = PREMap[MI];
assert(		assert(
!DT->properlyDominates(MBB, MBB1) &&		!DT->properlyDominates(MBB, MBB1) &&
"MBB cannot properly dominate MBB1 while DFS through dominators tree!");		"MBB cannot properly dominate MBB1 while DFS through dominators tree!");
auto CMBB = DT->findNearestCommonDominator(MBB, MBB1);		auto CMBB = DT->findNearestCommonDominator(MBB, MBB1);
if (!CMBB->isLegalToHoistInto())		if (!CMBB->isLegalToHoistInto())
continue;		continue;

		if (!isBeneficalToHoistInto(CMBB, MBB, MBB1))
		continue;

// Two instrs are partial redundant if their basic blocks are reachable		// Two instrs are partial redundant if their basic blocks are reachable
// from one to another but one doesn't dominate another.		// from one to another but one doesn't dominate another.
if (CMBB != MBB1) {		if (CMBB != MBB1) {
auto BB = MBB->getBasicBlock(), BB1 = MBB1->getBasicBlock();		auto BB = MBB->getBasicBlock(), BB1 = MBB1->getBasicBlock();
if (BB != nullptr && BB1 != nullptr &&		if (BB != nullptr && BB1 != nullptr &&
(isPotentiallyReachable(BB1, BB) \|\|		(isPotentiallyReachable(BB1, BB) \|\|
isPotentiallyReachable(BB, BB1))) {		isPotentiallyReachable(BB, BB1))) {

Show All 36 Lines	do {
MachineBasicBlock *MBB = Node->getBlock();		MachineBasicBlock *MBB = Node->getBlock();
Changed \|= ProcessBlockPRE(DT, MBB);		Changed \|= ProcessBlockPRE(DT, MBB);

} while (!BBs.empty());		} while (!BBs.empty());

return Changed;		return Changed;
}		}

		bool MachineCSE::isBeneficalToHoistInto(MachineBasicBlock *CandidateBB,
		MachineBasicBlock *MBB,
		MachineBasicBlock *MBB1) {
		if (CandidateBB->getParent()->getFunction().hasMinSize())
		return true;
		assert(DT->dominates(CandidateBB, MBB) && "CandidateBB should dominate MBB");
		assert(DT->dominates(CandidateBB, MBB1) &&
		"CandidateBB should dominate MBB1");
		return MBFI->getBlockFreq(CandidateBB) <=
		MBFI->getBlockFreq(MBB) + MBFI->getBlockFreq(MBB1);
		}

bool MachineCSE::runOnMachineFunction(MachineFunction &MF) {		bool MachineCSE::runOnMachineFunction(MachineFunction &MF) {
if (skipFunction(MF.getFunction()))		if (skipFunction(MF.getFunction()))
return false;		return false;

TII = MF.getSubtarget().getInstrInfo();		TII = MF.getSubtarget().getInstrInfo();
TRI = MF.getSubtarget().getRegisterInfo();		TRI = MF.getSubtarget().getRegisterInfo();
MRI = &MF.getRegInfo();		MRI = &MF.getRegInfo();
AA = &getAnalysis<AAResultsWrapperPass>().getAAResults();		AA = &getAnalysis<AAResultsWrapperPass>().getAAResults();
DT = &getAnalysis<MachineDominatorTree>();		DT = &getAnalysis<MachineDominatorTree>();
		MBFI = &getAnalysis<MachineBlockFrequencyInfo>();
LookAheadLimit = TII->getMachineCSELookAheadLimit();		LookAheadLimit = TII->getMachineCSELookAheadLimit();
bool ChangedPRE, ChangedCSE;		bool ChangedPRE, ChangedCSE;
ChangedPRE = PerformSimplePRE(DT);		ChangedPRE = PerformSimplePRE(DT);
ChangedCSE = PerformCSE(DT->getRootNode());		ChangedCSE = PerformCSE(DT->getRootNode());
return ChangedPRE \|\| ChangedCSE;		return ChangedPRE \|\| ChangedCSE;
}		}

llvm/trunk/test/CodeGen/AArch64/O3-pipeline.ll

	Show First 20 Lines • Show All 92 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: AArch64 Conditional Branch Tuning			; CHECK-NEXT: AArch64 Conditional Branch Tuning
	; CHECK-NEXT: Machine Trace Metrics			; CHECK-NEXT: Machine Trace Metrics
	; CHECK-NEXT: Early If-Conversion			; CHECK-NEXT: Early If-Conversion
	; CHECK-NEXT: AArch64 Store Pair Suppression			; CHECK-NEXT: AArch64 Store Pair Suppression
	; CHECK-NEXT: AArch64 SIMD instructions optimization pass			; CHECK-NEXT: AArch64 SIMD instructions optimization pass
	; CHECK-NEXT: MachineDominator Tree Construction			; CHECK-NEXT: MachineDominator Tree Construction
	; CHECK-NEXT: Machine Natural Loop Construction			; CHECK-NEXT: Machine Natural Loop Construction
	; CHECK-NEXT: Early Machine Loop Invariant Code Motion			; CHECK-NEXT: Early Machine Loop Invariant Code Motion
				; CHECK-NEXT: Machine Block Frequency Analysis
	; CHECK-NEXT: Machine Common Subexpression Elimination			; CHECK-NEXT: Machine Common Subexpression Elimination
	; CHECK-NEXT: MachinePostDominator Tree Construction			; CHECK-NEXT: MachinePostDominator Tree Construction
	; CHECK-NEXT: Machine Block Frequency Analysis
	; CHECK-NEXT: Machine code sinking			; CHECK-NEXT: Machine code sinking
	; CHECK-NEXT: Peephole Optimizations			; CHECK-NEXT: Peephole Optimizations
	; CHECK-NEXT: Remove dead machine instructions			; CHECK-NEXT: Remove dead machine instructions
	; CHECK-NEXT: AArch64 Dead register definitions			; CHECK-NEXT: AArch64 Dead register definitions
	; CHECK-NEXT: Detect Dead Lanes			; CHECK-NEXT: Detect Dead Lanes
	; CHECK-NEXT: Process Implicit Definitions			; CHECK-NEXT: Process Implicit Definitions
	; CHECK-NEXT: Remove unreachable machine basic blocks			; CHECK-NEXT: Remove unreachable machine basic blocks
	; CHECK-NEXT: Live Variable Analysis			; CHECK-NEXT: Live Variable Analysis
	▲ Show 20 Lines • Show All 70 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/ARM/O3-pipeline.ll

	Show First 20 Lines • Show All 66 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: Optimize machine instruction PHIs			; CHECK-NEXT: Optimize machine instruction PHIs
	; CHECK-NEXT: Slot index numbering			; CHECK-NEXT: Slot index numbering
	; CHECK-NEXT: Merge disjoint stack slots			; CHECK-NEXT: Merge disjoint stack slots
	; CHECK-NEXT: Local Stack Slot Allocation			; CHECK-NEXT: Local Stack Slot Allocation
	; CHECK-NEXT: Remove dead machine instructions			; CHECK-NEXT: Remove dead machine instructions
	; CHECK-NEXT: MachineDominator Tree Construction			; CHECK-NEXT: MachineDominator Tree Construction
	; CHECK-NEXT: Machine Natural Loop Construction			; CHECK-NEXT: Machine Natural Loop Construction
	; CHECK-NEXT: Early Machine Loop Invariant Code Motion			; CHECK-NEXT: Early Machine Loop Invariant Code Motion
				; CHECK-NEXT: Machine Block Frequency Analysis
	; CHECK-NEXT: Machine Common Subexpression Elimination			; CHECK-NEXT: Machine Common Subexpression Elimination
	; CHECK-NEXT: MachinePostDominator Tree Construction			; CHECK-NEXT: MachinePostDominator Tree Construction
	; CHECK-NEXT: Machine Block Frequency Analysis
	; CHECK-NEXT: Machine code sinking			; CHECK-NEXT: Machine code sinking
	; CHECK-NEXT: Peephole Optimizations			; CHECK-NEXT: Peephole Optimizations
	; CHECK-NEXT: Remove dead machine instructions			; CHECK-NEXT: Remove dead machine instructions
	; CHECK-NEXT: ARM MLA / MLS expansion pass			; CHECK-NEXT: ARM MLA / MLS expansion pass
	; CHECK-NEXT: ARM pre- register allocation load / store optimization pass			; CHECK-NEXT: ARM pre- register allocation load / store optimization pass
	; CHECK-NEXT: ARM A15 S->D optimizer			; CHECK-NEXT: ARM A15 S->D optimizer
	; CHECK-NEXT: Detect Dead Lanes			; CHECK-NEXT: Detect Dead Lanes
	; CHECK-NEXT: Process Implicit Definitions			; CHECK-NEXT: Process Implicit Definitions
	▲ Show 20 Lines • Show All 72 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/PowerPC/machine-pre.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mcpu=pwr9 -mtriple=powerpc64le-unknown-unknown \			; RUN: llc -mcpu=pwr9 -mtriple=powerpc64le-unknown-unknown \
	; RUN: -ppc-asm-full-reg-names -verify-machineinstrs -O2 < %s \| FileCheck %s \			; RUN: -ppc-asm-full-reg-names -verify-machineinstrs -O2 < %s \| FileCheck %s \
	; RUN: --check-prefix=CHECK-P9			; RUN: --check-prefix=CHECK-P9

	define i32 @t(i32 %n, i32 %delta, i32 %a) {			define i32 @t(i32 %n, i32 %delta, i32 %a) {
	; CHECK-P9-LABEL: t:			; CHECK-P9-LABEL: t:
	; CHECK-P9: # %bb.0: # %entry			; CHECK-P9: # %bb.0: # %entry
	; CHECK-P9-NEXT: lis r7, 0			; CHECK-P9-NEXT: lis r7, 0
	; CHECK-P9-NEXT: li r6, 0			; CHECK-P9-NEXT: li r6, 0
				; CHECK-P9-NEXT: li r8, 0
	; CHECK-P9-NEXT: li r9, 0			; CHECK-P9-NEXT: li r9, 0
	; CHECK-P9-NEXT: li r10, 0
	; CHECK-P9-NEXT: ori r7, r7, 65535			; CHECK-P9-NEXT: ori r7, r7, 65535
	; CHECK-P9-NEXT: .p2align 5			; CHECK-P9-NEXT: .p2align 5
	; CHECK-P9-NEXT: .LBB0_1: # %header			; CHECK-P9-NEXT: .LBB0_1: # %header
	; CHECK-P9-NEXT: #			; CHECK-P9-NEXT: #
	; CHECK-P9-NEXT: addi r10, r10, 1			; CHECK-P9-NEXT: addi r9, r9, 1
	; CHECK-P9-NEXT: cmpw r10, r3			; CHECK-P9-NEXT: cmpw r9, r3
	; CHECK-P9-NEXT: addi r8, r5, 1024
	; CHECK-P9-NEXT: blt cr0, .LBB0_4			; CHECK-P9-NEXT: blt cr0, .LBB0_4
	; CHECK-P9-NEXT: # %bb.2: # %cont			; CHECK-P9-NEXT: # %bb.2: # %cont
	; CHECK-P9-NEXT: #			; CHECK-P9-NEXT: #
	; CHECK-P9-NEXT: add r9, r9, r4			; CHECK-P9-NEXT: add r8, r8, r4
	; CHECK-P9-NEXT: cmpw r9, r7			; CHECK-P9-NEXT: cmpw r8, r7
	; CHECK-P9-NEXT: bgt cr0, .LBB0_1			; CHECK-P9-NEXT: bgt cr0, .LBB0_1
	; CHECK-P9-NEXT: # %bb.3: # %cont.1			; CHECK-P9-NEXT: # %bb.3: # %cont.1
	; CHECK-P9-NEXT: mr r6, r8			; CHECK-P9-NEXT: addi r6, r5, 1024
	; CHECK-P9-NEXT: .LBB0_4: # %return			; CHECK-P9-NEXT: .LBB0_4: # %return
	; CHECK-P9-NEXT: mullw r3, r6, r8			; CHECK-P9-NEXT: addi r3, r5, 1024
				; CHECK-P9-NEXT: mullw r3, r6, r3
	; CHECK-P9-NEXT: blr			; CHECK-P9-NEXT: blr
	entry:			entry:
	br label %header			br label %header

	header:			header:
	%sum = phi i32 [ 0, %entry ], [ %sum.1, %cont ]			%sum = phi i32 [ 0, %entry ], [ %sum.1, %cont ]
	%i = phi i32 [ 0, %entry ], [ %i.1, %cont ]			%i = phi i32 [ 0, %entry ], [ %i.1, %cont ]
	%i.1 = add nsw i32 %i, 1			%i.1 = add nsw i32 %i, 1
	Show All 32 Lines
	; CHECK-P9-NEXT: std r30, -16(r1) # 8-byte Folded Spill			; CHECK-P9-NEXT: std r30, -16(r1) # 8-byte Folded Spill
	; CHECK-P9-NEXT: std r0, 16(r1)			; CHECK-P9-NEXT: std r0, 16(r1)
	; CHECK-P9-NEXT: stdu r1, -80(r1)			; CHECK-P9-NEXT: stdu r1, -80(r1)
	; CHECK-P9-NEXT: mr r30, r4			; CHECK-P9-NEXT: mr r30, r4
	; CHECK-P9-NEXT: mr r29, r3			; CHECK-P9-NEXT: mr r29, r3
	; CHECK-P9-NEXT: lis r3, 21845			; CHECK-P9-NEXT: lis r3, 21845
	; CHECK-P9-NEXT: add r28, r30, r29			; CHECK-P9-NEXT: add r28, r30, r29
	; CHECK-P9-NEXT: ori r27, r3, 21846			; CHECK-P9-NEXT: ori r27, r3, 21846
	; CHECK-P9-NEXT: b .LBB1_3			; CHECK-P9-NEXT: b .LBB1_4
	; CHECK-P9-NEXT: .p2align 4			; CHECK-P9-NEXT: .p2align 4
	; CHECK-P9-NEXT: .LBB1_1: # %sw.bb3			; CHECK-P9-NEXT: .LBB1_1: # %sw.bb3
	; CHECK-P9-NEXT: #			; CHECK-P9-NEXT: #
	; CHECK-P9-NEXT: add r28, r3, r28			; CHECK-P9-NEXT: mulli r3, r30, 23
	; CHECK-P9-NEXT: .LBB1_2: # %sw.epilog			; CHECK-P9-NEXT: .LBB1_2: # %sw.epilog
	; CHECK-P9-NEXT: #			; CHECK-P9-NEXT: #
				; CHECK-P9-NEXT: add r28, r3, r28
				; CHECK-P9-NEXT: .LBB1_3: # %sw.epilog
				; CHECK-P9-NEXT: #
	; CHECK-P9-NEXT: cmpwi r28, 1025			; CHECK-P9-NEXT: cmpwi r28, 1025
	; CHECK-P9-NEXT: bge cr0, .LBB1_6			; CHECK-P9-NEXT: bge cr0, .LBB1_7
	; CHECK-P9-NEXT: .LBB1_3: # %while.cond			; CHECK-P9-NEXT: .LBB1_4: # %while.cond
	; CHECK-P9-NEXT: #			; CHECK-P9-NEXT: #
	; CHECK-P9-NEXT: extsw r3, r29			; CHECK-P9-NEXT: extsw r3, r29
	; CHECK-P9-NEXT: bl bar			; CHECK-P9-NEXT: bl bar
	; CHECK-P9-NEXT: nop			; CHECK-P9-NEXT: nop
	; CHECK-P9-NEXT: mr r29, r3			; CHECK-P9-NEXT: mr r29, r3
	; CHECK-P9-NEXT: extsw r3, r30			; CHECK-P9-NEXT: extsw r3, r30
	; CHECK-P9-NEXT: bl bar			; CHECK-P9-NEXT: bl bar
	; CHECK-P9-NEXT: nop			; CHECK-P9-NEXT: nop
	; CHECK-P9-NEXT: mr r30, r3			; CHECK-P9-NEXT: mr r30, r3
	; CHECK-P9-NEXT: extsw r3, r28			; CHECK-P9-NEXT: extsw r3, r28
	; CHECK-P9-NEXT: mulld r4, r3, r27			; CHECK-P9-NEXT: mulld r4, r3, r27
	; CHECK-P9-NEXT: rldicl r5, r4, 1, 63			; CHECK-P9-NEXT: rldicl r5, r4, 1, 63
	; CHECK-P9-NEXT: rldicl r4, r4, 32, 32			; CHECK-P9-NEXT: rldicl r4, r4, 32, 32
	; CHECK-P9-NEXT: add r4, r4, r5			; CHECK-P9-NEXT: add r4, r4, r5
	; CHECK-P9-NEXT: slwi r5, r4, 1			; CHECK-P9-NEXT: slwi r5, r4, 1
	; CHECK-P9-NEXT: add r4, r4, r5			; CHECK-P9-NEXT: add r4, r4, r5
	; CHECK-P9-NEXT: subf r5, r4, r3			; CHECK-P9-NEXT: subf r3, r4, r3
	; CHECK-P9-NEXT: mulli r4, r29, 13			; CHECK-P9-NEXT: cmplwi r3, 1
	; CHECK-P9-NEXT: mulli r3, r30, 23
	; CHECK-P9-NEXT: cmplwi r5, 1
	; CHECK-P9-NEXT: beq cr0, .LBB1_1			; CHECK-P9-NEXT: beq cr0, .LBB1_1
	; CHECK-P9-NEXT: # %bb.4: # %while.cond			; CHECK-P9-NEXT: # %bb.5: # %while.cond
	; CHECK-P9-NEXT: #
	; CHECK-P9-NEXT: cmplwi r5, 0
	; CHECK-P9-NEXT: bne cr0, .LBB1_2
	; CHECK-P9-NEXT: # %bb.5: # %sw.bb
	; CHECK-P9-NEXT: #			; CHECK-P9-NEXT: #
	; CHECK-P9-NEXT: add r28, r4, r28			; CHECK-P9-NEXT: cmplwi r3, 0
	; CHECK-P9-NEXT: cmpwi r28, 1025			; CHECK-P9-NEXT: bne cr0, .LBB1_3
	; CHECK-P9-NEXT: blt cr0, .LBB1_3			; CHECK-P9-NEXT: # %bb.6: # %sw.bb
	; CHECK-P9-NEXT: .LBB1_6: # %while.end			; CHECK-P9-NEXT: #
	; CHECK-P9-NEXT: lis r5, -13108			; CHECK-P9-NEXT: mulli r3, r29, 13
	; CHECK-P9-NEXT: ori r5, r5, 52429			; CHECK-P9-NEXT: b .LBB1_2
	; CHECK-P9-NEXT: mullw r5, r28, r5			; CHECK-P9-NEXT: .LBB1_7: # %while.end
	; CHECK-P9-NEXT: lis r6, 13107			; CHECK-P9-NEXT: lis r3, -13108
	; CHECK-P9-NEXT: ori r6, r6, 13108			; CHECK-P9-NEXT: ori r3, r3, 52429
	; CHECK-P9-NEXT: cmplw r5, r6			; CHECK-P9-NEXT: mullw r3, r28, r3
	; CHECK-P9-NEXT: blt cr0, .LBB1_8			; CHECK-P9-NEXT: lis r4, 13107
	; CHECK-P9-NEXT: # %bb.7: # %if.then8			; CHECK-P9-NEXT: ori r4, r4, 13108
	; CHECK-P9-NEXT: extsw r4, r4			; CHECK-P9-NEXT: cmplw r3, r4
	; CHECK-P9-NEXT: extsw r5, r28			; CHECK-P9-NEXT: blt cr0, .LBB1_9
				; CHECK-P9-NEXT: # %bb.8: # %if.then8
				; CHECK-P9-NEXT: mulli r3, r29, 13
				; CHECK-P9-NEXT: mulli r5, r30, 23
				; CHECK-P9-NEXT: extsw r4, r28
	; CHECK-P9-NEXT: extsw r3, r3			; CHECK-P9-NEXT: extsw r3, r3
				; CHECK-P9-NEXT: extsw r5, r5
				; CHECK-P9-NEXT: sub r3, r4, r3
	; CHECK-P9-NEXT: sub r4, r5, r4			; CHECK-P9-NEXT: sub r4, r5, r4
	; CHECK-P9-NEXT: sub r3, r3, r5
	; CHECK-P9-NEXT: rldicl r4, r4, 1, 63
	; CHECK-P9-NEXT: rldicl r3, r3, 1, 63			; CHECK-P9-NEXT: rldicl r3, r3, 1, 63
	; CHECK-P9-NEXT: or r3, r4, r3			; CHECK-P9-NEXT: rldicl r4, r4, 1, 63
	; CHECK-P9-NEXT: b .LBB1_9			; CHECK-P9-NEXT: or r3, r3, r4
	; CHECK-P9-NEXT: .LBB1_8: # %cleanup20			; CHECK-P9-NEXT: b .LBB1_10
	; CHECK-P9-NEXT: li r3, 0
	; CHECK-P9-NEXT: .LBB1_9: # %cleanup20			; CHECK-P9-NEXT: .LBB1_9: # %cleanup20
				; CHECK-P9-NEXT: li r3, 0
				; CHECK-P9-NEXT: .LBB1_10: # %cleanup20
	; CHECK-P9-NEXT: addi r1, r1, 80			; CHECK-P9-NEXT: addi r1, r1, 80
	; CHECK-P9-NEXT: ld r0, 16(r1)			; CHECK-P9-NEXT: ld r0, 16(r1)
	; CHECK-P9-NEXT: mtlr r0			; CHECK-P9-NEXT: mtlr r0
	; CHECK-P9-NEXT: ld r30, -16(r1) # 8-byte Folded Reload			; CHECK-P9-NEXT: ld r30, -16(r1) # 8-byte Folded Reload
	; CHECK-P9-NEXT: ld r29, -24(r1) # 8-byte Folded Reload			; CHECK-P9-NEXT: ld r29, -24(r1) # 8-byte Folded Reload
	; CHECK-P9-NEXT: ld r28, -32(r1) # 8-byte Folded Reload			; CHECK-P9-NEXT: ld r28, -32(r1) # 8-byte Folded Reload
	; CHECK-P9-NEXT: ld r27, -40(r1) # 8-byte Folded Reload			; CHECK-P9-NEXT: ld r27, -40(r1) # 8-byte Folded Reload
	; CHECK-P9-NEXT: blr			; CHECK-P9-NEXT: blr
	▲ Show 20 Lines • Show All 50 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/O3-pipeline.ll

	Show First 20 Lines • Show All 78 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: Machine Natural Loop Construction			; CHECK-NEXT: Machine Natural Loop Construction
	; CHECK-NEXT: Machine Trace Metrics			; CHECK-NEXT: Machine Trace Metrics
	; CHECK-NEXT: Early If-Conversion			; CHECK-NEXT: Early If-Conversion
	; CHECK-NEXT: Machine InstCombiner			; CHECK-NEXT: Machine InstCombiner
	; CHECK-NEXT: X86 cmov Conversion			; CHECK-NEXT: X86 cmov Conversion
	; CHECK-NEXT: MachineDominator Tree Construction			; CHECK-NEXT: MachineDominator Tree Construction
	; CHECK-NEXT: Machine Natural Loop Construction			; CHECK-NEXT: Machine Natural Loop Construction
	; CHECK-NEXT: Early Machine Loop Invariant Code Motion			; CHECK-NEXT: Early Machine Loop Invariant Code Motion
				; CHECK-NEXT: Machine Block Frequency Analysis
	; CHECK-NEXT: Machine Common Subexpression Elimination			; CHECK-NEXT: Machine Common Subexpression Elimination
	; CHECK-NEXT: MachinePostDominator Tree Construction			; CHECK-NEXT: MachinePostDominator Tree Construction
	; CHECK-NEXT: Machine Block Frequency Analysis
	; CHECK-NEXT: Machine code sinking			; CHECK-NEXT: Machine code sinking
	; CHECK-NEXT: Peephole Optimizations			; CHECK-NEXT: Peephole Optimizations
	; CHECK-NEXT: Remove dead machine instructions			; CHECK-NEXT: Remove dead machine instructions
	; CHECK-NEXT: Live Range Shrink			; CHECK-NEXT: Live Range Shrink
	; CHECK-NEXT: X86 Fixup SetCC			; CHECK-NEXT: X86 Fixup SetCC
	; CHECK-NEXT: X86 LEA Optimize			; CHECK-NEXT: X86 LEA Optimize
	; CHECK-NEXT: X86 Optimize Call Frame			; CHECK-NEXT: X86 Optimize Call Frame
	; CHECK-NEXT: X86 Avoid Store Forwarding Block			; CHECK-NEXT: X86 Avoid Store Forwarding Block
	▲ Show 20 Lines • Show All 81 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[MachineCSE][MachinePRE] Do not hoist common computations into hot BBs
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 210811

llvm/trunk/lib/CodeGen/MachineCSE.cpp

llvm/trunk/test/CodeGen/AArch64/O3-pipeline.ll

llvm/trunk/test/CodeGen/ARM/O3-pipeline.ll

llvm/trunk/test/CodeGen/PowerPC/machine-pre.ll

llvm/trunk/test/CodeGen/X86/O3-pipeline.ll

This is an archive of the discontinued LLVM Phabricator instance.

[MachineCSE][MachinePRE] Do not hoist common computations into hot BBsClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 210811

llvm/trunk/lib/CodeGen/MachineCSE.cpp

llvm/trunk/test/CodeGen/AArch64/O3-pipeline.ll

llvm/trunk/test/CodeGen/ARM/O3-pipeline.ll

llvm/trunk/test/CodeGen/PowerPC/machine-pre.ll

llvm/trunk/test/CodeGen/X86/O3-pipeline.ll

[MachineCSE][MachinePRE] Do not hoist common computations into hot BBs
ClosedPublic