This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Fix scalar operand folding bug that causes SHOC performance regression
ClosedPublic

Authored by alex-t on Dec 30 2018, 11:17 AM.

Download Raw Diff

Details

Reviewers

rampitec
ronlieb

Commits

rG993e2798fd13: [AMDGPU] Fix scalar operand folding bug that causes SHOC performance regression.
rL350350: [AMDGPU] Fix scalar operand folding bug that causes SHOC performance regression.

Summary

SIFoldOperands::foldInstOperand iterates over the
operand uses calling the function that changes def-use iteratorson the
way. As a result loop exits immediately when def-use iterator is
changed. Hence, the operand is folded to the very first use instruction
only. This makes VGPR live along the whole basic block and increases
register pressure significantly. The performance drop observed in SHOC
DeviceMemory test is caused by this bug.

Proposed fix: collect uses to separate container for further processing
in another loop.

Tests: CodeGen/AMDGPU
SHOC performance testing.

Diff Detail

Repository: rL LLVM

Event Timeline

alex-t created this revision.Dec 30 2018, 11:17 AM

Herald added subscribers: t-tye, tpr, dstuttard and 6 others. · View Herald TranscriptDec 30 2018, 11:17 AM

generally seems fine to me.
Would it be reasonable/useful to have a lit test that somewhat represents what we observed in the DeviceMemory test ?
if you think the fdiv32-to-rcp-folding.ll adequately covers it, then thats fine by me.

LGTM, pending what you decide about adding another lit test.

This revision is now accepted and ready to land.Dec 31 2018, 9:16 AM

LGTM

alex-t retitled this revision from [AMDGPU] Fix scalar operand folding. to [AMDGPU] Fix scalar operand folding bug that causes SHOC performance regression.Jan 3 2019, 10:06 AM

alex-t edited the summary of this revision. (Show Details)

alex-t edited the summary of this revision. (Show Details)Jan 3 2019, 10:49 AM

Closed by commit rL350350: [AMDGPU] Fix scalar operand folding bug that causes SHOC performance regression. (authored by alex-t). · Explain WhyJan 3 2019, 11:59 AM

This revision was automatically updated to reflect the committed changes.

You can avoid the separate container by incrementing the iterator before the transform as is done in other places

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

AMDGPU/

SIFoldOperands.cpp

10 lines

test/

CodeGen/

AMDGPU/

fdiv32-to-rcp-folding.ll

20 lines

Diff 180118

llvm/trunk/lib/Target/AMDGPU/SIFoldOperands.cpp

Show First 20 Lines • Show All 848 Lines • ▼ Show 20 Lines	if (FoldingImm) {
}		}

if (NumLiteralUses == 1) {		if (NumLiteralUses == 1) {
MachineInstr *UseMI = NonInlineUse->getParent();		MachineInstr *UseMI = NonInlineUse->getParent();
foldOperand(OpToFold, UseMI, NonInlineUseOpNo, FoldList, CopiesToReplace);		foldOperand(OpToFold, UseMI, NonInlineUseOpNo, FoldList, CopiesToReplace);
}		}
} else {		} else {
// Folding register.		// Folding register.
		SmallVector <MachineRegisterInfo::use_iterator, 4> UsesToProcess;
for (MachineRegisterInfo::use_iterator		for (MachineRegisterInfo::use_iterator
Use = MRI->use_begin(Dst.getReg()), E = MRI->use_end();		Use = MRI->use_begin(Dst.getReg()), E = MRI->use_end();
Use != E; ++Use) {		Use != E; ++Use) {
MachineInstr *UseMI = Use->getParent();		UsesToProcess.push_back(Use);
		}
		for (auto U : UsesToProcess) {
		MachineInstr *UseMI = U->getParent();

foldOperand(OpToFold, UseMI, Use.getOperandNo(),		foldOperand(OpToFold, UseMI, U.getOperandNo(),
FoldList, CopiesToReplace);		FoldList, CopiesToReplace);
}		}
}		}

MachineFunction *MF = MI.getParent()->getParent();		MachineFunction *MF = MI.getParent()->getParent();
// Make sure we add EXEC uses to any new v_mov instructions created.		// Make sure we add EXEC uses to any new v_mov instructions created.
for (MachineInstr *Copy : CopiesToReplace)		for (MachineInstr *Copy : CopiesToReplace)
Copy->addImplicitDefUseOperands(*MF);		Copy->addImplicitDefUseOperands(*MF);

▲ Show 20 Lines • Show All 285 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/AMDGPU/fdiv32-to-rcp-folding.ll

	Show First 20 Lines • Show All 125 Lines • ▼ Show 20 Lines
	; GCN-DENORM-DAG: v_cmp_gt_f32_e64 vcc, \|v{{[0-9]+}}\|, [[L]]			; GCN-DENORM-DAG: v_cmp_gt_f32_e64 vcc, \|v{{[0-9]+}}\|, [[L]]
	; GCN-DENORM-DAG: v_cndmask_b32_e32 v{{[0-9]+}}, 1.0, [[S]], vcc			; GCN-DENORM-DAG: v_cndmask_b32_e32 v{{[0-9]+}}, 1.0, [[S]], vcc
	; GCN-DENORM-DAG: v_cmp_gt_f32_e64 vcc, \|v{{[0-9]+}}\|, [[L]]			; GCN-DENORM-DAG: v_cmp_gt_f32_e64 vcc, \|v{{[0-9]+}}\|, [[L]]
	; GCN-DENORM-DAG: v_cndmask_b32_e32 v{{[0-9]+}}, 1.0, [[S]], vcc			; GCN-DENORM-DAG: v_cndmask_b32_e32 v{{[0-9]+}}, 1.0, [[S]], vcc
	; GCN-DENORM-DAG: v_cmp_gt_f32_e64 vcc, \|v{{[0-9]+}}\|, [[L]]			; GCN-DENORM-DAG: v_cmp_gt_f32_e64 vcc, \|v{{[0-9]+}}\|, [[L]]
	; GCN-DENORM-DAG: v_cndmask_b32_e32 v{{[0-9]+}}, 1.0, [[S]], vcc			; GCN-DENORM-DAG: v_cndmask_b32_e32 v{{[0-9]+}}, 1.0, [[S]], vcc
	; GCN-DENORM-DAG: v_cmp_gt_f32_e64 vcc, \|v{{[0-9]+}}\|, [[L]]			; GCN-DENORM-DAG: v_cmp_gt_f32_e64 vcc, \|v{{[0-9]+}}\|, [[L]]
	; GCN-DENORM-DAG: v_cndmask_b32_e32 v{{[0-9]+}}, 1.0, [[S]], vcc			; GCN-DENORM-DAG: v_cndmask_b32_e32 v{{[0-9]+}}, 1.0, [[S]], vcc
	; GCN-DENORM-DAG: v_mul_f32_e64 v{{[0-9]+}}, v{{[0-9]+}}, -v{{[0-9]+}}			; GCN-DENORM-DAG: v_mul_f32_e64 v{{[0-9]+}}, s{{[0-9]+}}, -v{{[0-9]+}}
	; GCN-DENORM-DAG: v_mul_f32_e64 v{{[0-9]+}}, v{{[0-9]+}}, -v{{[0-9]+}}			; GCN-DENORM-DAG: v_mul_f32_e64 v{{[0-9]+}}, s{{[0-9]+}}, -v{{[0-9]+}}
	; GCN-DENORM-DAG: v_mul_f32_e64 v{{[0-9]+}}, v{{[0-9]+}}, -v{{[0-9]+}}			; GCN-DENORM-DAG: v_mul_f32_e64 v{{[0-9]+}}, s{{[0-9]+}}, -v{{[0-9]+}}
	; GCN-DENORM-DAG: v_mul_f32_e64 v{{[0-9]+}}, v{{[0-9]+}}, -v{{[0-9]+}}			; GCN-DENORM-DAG: v_mul_f32_e64 v{{[0-9]+}}, s{{[0-9]+}}, -v{{[0-9]+}}
	; GCN-DENORM-DAG: v_rcp_f32_e32			; GCN-DENORM-DAG: v_rcp_f32_e32
	; GCN-DENORM-DAG: v_rcp_f32_e32			; GCN-DENORM-DAG: v_rcp_f32_e32
	; GCN-DENORM-DAG: v_rcp_f32_e32			; GCN-DENORM-DAG: v_rcp_f32_e32
	; GCN-DENORM-DAG: v_rcp_f32_e32			; GCN-DENORM-DAG: v_rcp_f32_e32
	; GCN-DENORM-DAG: v_mul_f32_e32			; GCN-DENORM-DAG: v_mul_f32_e32
	; GCN-DENORM-DAG: v_mul_f32_e32			; GCN-DENORM-DAG: v_mul_f32_e32
	; GCN-DENORM-DAG: v_mul_f32_e32			; GCN-DENORM-DAG: v_mul_f32_e32
	; GCN-DENORM-DAG: v_mul_f32_e32			; GCN-DENORM-DAG: v_mul_f32_e32
	Show All 15 Lines
	; GCN-DENORM-DAG: v_cmp_gt_f32_e64 vcc, \|v{{[0-9]+}}\|, [[L]]			; GCN-DENORM-DAG: v_cmp_gt_f32_e64 vcc, \|v{{[0-9]+}}\|, [[L]]
	; GCN-DENORM-DAG: v_cndmask_b32_e32 v{{[0-9]+}}, 1.0, [[S]], vcc			; GCN-DENORM-DAG: v_cndmask_b32_e32 v{{[0-9]+}}, 1.0, [[S]], vcc
	; GCN-DENORM-DAG: v_cmp_gt_f32_e64 vcc, \|v{{[0-9]+}}\|, [[L]]			; GCN-DENORM-DAG: v_cmp_gt_f32_e64 vcc, \|v{{[0-9]+}}\|, [[L]]
	; GCN-DENORM-DAG: v_cndmask_b32_e32 v{{[0-9]+}}, 1.0, [[S]], vcc			; GCN-DENORM-DAG: v_cndmask_b32_e32 v{{[0-9]+}}, 1.0, [[S]], vcc
	; GCN-DENORM-DAG: v_cmp_gt_f32_e64 vcc, \|v{{[0-9]+}}\|, [[L]]			; GCN-DENORM-DAG: v_cmp_gt_f32_e64 vcc, \|v{{[0-9]+}}\|, [[L]]
	; GCN-DENORM-DAG: v_cndmask_b32_e32 v{{[0-9]+}}, 1.0, [[S]], vcc			; GCN-DENORM-DAG: v_cndmask_b32_e32 v{{[0-9]+}}, 1.0, [[S]], vcc
	; GCN-DENORM-DAG: v_cmp_gt_f32_e64 vcc, \|v{{[0-9]+}}\|, [[L]]			; GCN-DENORM-DAG: v_cmp_gt_f32_e64 vcc, \|v{{[0-9]+}}\|, [[L]]
	; GCN-DENORM-DAG: v_cndmask_b32_e32 v{{[0-9]+}}, 1.0, [[S]], vcc			; GCN-DENORM-DAG: v_cndmask_b32_e32 v{{[0-9]+}}, 1.0, [[S]], vcc
	; GCN-DENORM-DAG: v_mul_f32_e64 v{{[0-9]+}}, -v{{[0-9]+}}, v{{[0-9]+}}			; GCN-DENORM-DAG: v_mul_f32_e64 v{{[0-9]+}}, -s{{[0-9]+}}, v{{[0-9]+}}
	; GCN-DENORM-DAG: v_mul_f32_e64 v{{[0-9]+}}, -v{{[0-9]+}}, v{{[0-9]+}}			; GCN-DENORM-DAG: v_mul_f32_e64 v{{[0-9]+}}, -s{{[0-9]+}}, v{{[0-9]+}}
	; GCN-DENORM-DAG: v_mul_f32_e64 v{{[0-9]+}}, -v{{[0-9]+}}, v{{[0-9]+}}			; GCN-DENORM-DAG: v_mul_f32_e64 v{{[0-9]+}}, -s{{[0-9]+}}, v{{[0-9]+}}
	; GCN-DENORM-DAG: v_mul_f32_e64 v{{[0-9]+}}, -v{{[0-9]+}}, v{{[0-9]+}}			; GCN-DENORM-DAG: v_mul_f32_e64 v{{[0-9]+}}, -s{{[0-9]+}}, v{{[0-9]+}}
	; GCN-DENORM-DAG: v_rcp_f32_e32			; GCN-DENORM-DAG: v_rcp_f32_e32
	; GCN-DENORM-DAG: v_rcp_f32_e32			; GCN-DENORM-DAG: v_rcp_f32_e32
	; GCN-DENORM-DAG: v_rcp_f32_e32			; GCN-DENORM-DAG: v_rcp_f32_e32
	; GCN-DENORM-DAG: v_rcp_f32_e32			; GCN-DENORM-DAG: v_rcp_f32_e32
	; GCN-DENORM-DAG: v_mul_f32_e32			; GCN-DENORM-DAG: v_mul_f32_e32
	; GCN-DENORM-DAG: v_mul_f32_e32			; GCN-DENORM-DAG: v_mul_f32_e32
	; GCN-DENORM-DAG: v_mul_f32_e32			; GCN-DENORM-DAG: v_mul_f32_e32
	; GCN-DENORM-DAG: v_mul_f32_e32			; GCN-DENORM-DAG: v_mul_f32_e32
	▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	; GCN-DENORM-DAG: v_rcp_f32_e32			; GCN-DENORM-DAG: v_rcp_f32_e32

	; GCN-DAG: v_cmp_gt_f32_e64 vcc, \|v{{[0-9]+}}\|, [[L]]			; GCN-DAG: v_cmp_gt_f32_e64 vcc, \|v{{[0-9]+}}\|, [[L]]
	; GCN-DAG: v_cndmask_b32_e32 v{{[0-9]+}}, 1.0, [[S]], vcc			; GCN-DAG: v_cndmask_b32_e32 v{{[0-9]+}}, 1.0, [[S]], vcc
	; GCN-DAG: v_cmp_gt_f32_e64 vcc, \|v{{[0-9]+}}\|, [[L]]			; GCN-DAG: v_cmp_gt_f32_e64 vcc, \|v{{[0-9]+}}\|, [[L]]
	; GCN-DAG: v_cndmask_b32_e32 v{{[0-9]+}}, 1.0, [[S]], vcc			; GCN-DAG: v_cndmask_b32_e32 v{{[0-9]+}}, 1.0, [[S]], vcc

	; GCN-DENORM-DAG: v_mul_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}			; GCN-DENORM-DAG: v_mul_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
	; GCN-DENORM-DAG: v_mul_f32_e64 v{{[0-9]+}}, v{{[0-9]+}}, -v{{[0-9]+}}			; GCN-DENORM-DAG: v_mul_f32_e64 v{{[0-9]+}}, s{{[0-9]+}}, -v{{[0-9]+}}
	; GCN-DENORM-DAG: v_rcp_f32_e32 [[RCP1:v[0-9]+]], v{{[0-9]+}}			; GCN-DENORM-DAG: v_rcp_f32_e32 [[RCP1:v[0-9]+]], v{{[0-9]+}}
	; GCN-DENORM-DAG: v_mul_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}, [[RCP1]]			; GCN-DENORM-DAG: v_mul_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}, [[RCP1]]
	; GCN-DENORM-DAG: v_rcp_f32_e32 [[RCP2:v[0-9]+]], v{{[0-9]+}}			; GCN-DENORM-DAG: v_rcp_f32_e32 [[RCP2:v[0-9]+]], v{{[0-9]+}}
	; GCN-DENORM-DAG: v_mul_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}, [[RCP2]]			; GCN-DENORM-DAG: v_mul_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}, [[RCP2]]

	; GCN-DENORM-DAG: v_div_fmas_f32			; GCN-DENORM-DAG: v_div_fmas_f32
	; GCN-DENORM-DAG: v_div_fmas_f32			; GCN-DENORM-DAG: v_div_fmas_f32
	; GCN-DENORM-DAG: v_div_fixup_f32 {{.*}}, 2.0{{$}}			; GCN-DENORM-DAG: v_div_fixup_f32 {{.*}}, 2.0{{$}}
	Show All 25 Lines
	; GCN-DENORM-DAG: v_rcp_f32_e32			; GCN-DENORM-DAG: v_rcp_f32_e32

	; GCN-DAG: v_cmp_gt_f32_e64 vcc, \|v{{[0-9]+}}\|, [[L]]			; GCN-DAG: v_cmp_gt_f32_e64 vcc, \|v{{[0-9]+}}\|, [[L]]
	; GCN-DAG: v_cndmask_b32_e32 v{{[0-9]+}}, 1.0, [[S]], vcc			; GCN-DAG: v_cndmask_b32_e32 v{{[0-9]+}}, 1.0, [[S]], vcc
	; GCN-DAG: v_cmp_gt_f32_e64 vcc, \|v{{[0-9]+}}\|, [[L]]			; GCN-DAG: v_cmp_gt_f32_e64 vcc, \|v{{[0-9]+}}\|, [[L]]
	; GCN-DAG: v_cndmask_b32_e32 v{{[0-9]+}}, 1.0, [[S]], vcc			; GCN-DAG: v_cndmask_b32_e32 v{{[0-9]+}}, 1.0, [[S]], vcc

	; GCN-DENORM-DAG: v_mul_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}			; GCN-DENORM-DAG: v_mul_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
	; GCN-DENORM-DAG: v_mul_f32_e64 v{{[0-9]+}}, -v{{[0-9]+}}, v{{[0-9]+}}			; GCN-DENORM-DAG: v_mul_f32_e64 v{{[0-9]+}}, -s{{[0-9]+}}, v{{[0-9]+}}
	; GCN-DENORM-DAG: v_rcp_f32_e32 [[RCP1:v[0-9]+]], v{{[0-9]+}}			; GCN-DENORM-DAG: v_rcp_f32_e32 [[RCP1:v[0-9]+]], v{{[0-9]+}}
	; GCN-DENORM-DAG: v_mul_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}, [[RCP1]]			; GCN-DENORM-DAG: v_mul_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}, [[RCP1]]
	; GCN-DENORM-DAG: v_rcp_f32_e32 [[RCP2:v[0-9]+]], v{{[0-9]+}}			; GCN-DENORM-DAG: v_rcp_f32_e32 [[RCP2:v[0-9]+]], v{{[0-9]+}}
	; GCN-DENORM-DAG: v_mul_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}, [[RCP2]]			; GCN-DENORM-DAG: v_mul_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}, [[RCP2]]

	; GCN-DENORM-DAG: v_div_fmas_f32			; GCN-DENORM-DAG: v_div_fmas_f32
	; GCN-DENORM-DAG: v_div_fmas_f32			; GCN-DENORM-DAG: v_div_fmas_f32
	; GCN-DENORM-DAG: v_div_fixup_f32 {{.*}}, -2.0{{$}}			; GCN-DENORM-DAG: v_div_fixup_f32 {{.*}}, -2.0{{$}}
	▲ Show 20 Lines • Show All 160 Lines • Show Last 20 Lines