This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
clang/test/
-
test/
-
CodeGen/
-
aarch64-ls64-inline-asm.c
-
aarch64-neon-vcmla.c
-
aarch64-sve-acle-__ARM_FEATURE_SVE_VECTOR_OPERATORS.c
-
aarch64-sve-acle-__ARM_FEATURE_SVE_VECTOR_OPERATORS.cpp
-
aarch64-sve-intrinsics/
-
acle_sve_abd.c
-
acle_sve_abs.c
-
acle_sve_acge.c
-
acle_sve_acgt.c
-
acle_sve_acle.c
-
acle_sve_aclt.c
-
acle_sve_add.c
-
acle_sve_adda.c
-
acle_sve_addv.c
-
acle_sve_adrb.c
-
acle_sve_adrd.c
-
acle_sve_adrh.c
-
acle_sve_adrw.c
-
acle_sve_and.c
-
acle_sve_andv.c
-
acle_sve_asr.c
-
acle_sve_asrd.c
-
acle_sve_bfdot.c
-
acle_sve_bfmlalb.c
-
acle_sve_bfmlalt.c
-
acle_sve_bfmmla.c
-
acle_sve_bic.c
-
acle_sve_brka.c
-
acle_sve_brkb.c
-
acle_sve_brkn.c
-
acle_sve_brkpa.c
-
acle_sve_brkpb.c
-
acle_sve_cadd.c
-
acle_sve_clasta-bfloat.c
-
acle_sve_clasta.c
-
acle_sve_clastb-bfloat.c
-
acle_sve_clastb.c
-
acle_sve_cls.c
-
acle_sve_clz.c
-
acle_sve_cmla.c
-
acle_sve_cmpeq.c
-
acle_sve_cmpge.c
-
acle_sve_cmpgt.c
-
acle_sve_cmple.c
-
acle_sve_cmplt.c
-
acle_sve_cmpne.c
-
acle_sve_cmpuo.c
-
acle_sve_cnot.c
-
acle_sve_cnt-bfloat.c
-
acle_sve_cnt.c
-
acle_sve_cntb.c
-
acle_sve_cntd.c
-
acle_sve_cnth.c
-
acle_sve_cntp.c
-
acle_sve_cntw.c
-
acle_sve_compact.c
-
acle_sve_create2-bfloat.c
-
acle_sve_create2.c
-
acle_sve_create3-bfloat.c
-
acle_sve_create3.c
-
acle_sve_create4-bfloat.c
-
acle_sve_create4.c
-
acle_sve_cvt-bfloat.c
-
acle_sve_cvt.c
-
acle_sve_cvtnt.c
-
acle_sve_div.c
-
acle_sve_divr.c
-
acle_sve_dot.c
-
acle_sve_dup-bfloat.c
-
acle_sve_dup.c
-
acle_sve_dupq-bfloat.c
-
acle_sve_dupq.c
-
acle_sve_eor.c
-
acle_sve_eorv.c
-
acle_sve_expa.c
-
acle_sve_ext-bfloat.c
-
acle_sve_ext.c
-
acle_sve_extb.c
-
acle_sve_exth.c
-
acle_sve_extw.c
-
acle_sve_get2-bfloat.c
-
acle_sve_get2.c
-
acle_sve_get3-bfloat.c
-
acle_sve_get3.c
-
acle_sve_get4-bfloat.c
-
acle_sve_get4.c
-
acle_sve_index.c
-
acle_sve_insr-bfloat.c
-
acle_sve_insr.c
-
acle_sve_lasta-bfloat.c
-
acle_sve_lasta.c
-
acle_sve_lastb-bfloat.c
-
acle_sve_lastb.c
-
acle_sve_ld1-bfloat.c
-
acle_sve_ld1.c
-
acle_sve_ld1ro-bfloat.c
-
acle_sve_ld1ro.c
-
acle_sve_ld1rq-bfloat.c
-
acle_sve_ld1rq.c
-
acle_sve_ld1sb.c
-
acle_sve_ld1sh.c
-
acle_sve_ld1sw.c
-
acle_sve_ld1ub.c
-
acle_sve_ld1uh.c
-
acle_sve_ld1uw.c
-
acle_sve_ld2-bfloat.c
-
acle_sve_ld2.c
-
acle_sve_ld3-bfloat.c
-
acle_sve_ld3.c
-
acle_sve_ld4-bfloat.c
-
acle_sve_ld4.c
-
acle_sve_ldff1-bfloat.c
-
acle_sve_ldff1.c
-
acle_sve_ldff1sb.c
-
acle_sve_ldff1sh.c
-
acle_sve_ldff1sw.c
-
acle_sve_ldff1ub.c
-
acle_sve_ldff1uh.c
-
acle_sve_ldff1uw.c
-
acle_sve_ldnf1-bfloat.c
-
acle_sve_ldnf1.c
-
acle_sve_ldnf1sb.c
-
acle_sve_ldnf1sh.c
-
acle_sve_ldnf1sw.c
-
acle_sve_ldnf1ub.c
-
acle_sve_ldnf1uh.c
-
acle_sve_ldnf1uw.c
-
acle_sve_ldnt1-bfloat.c
-
acle_sve_ldnt1.c
-
acle_sve_len-bfloat.c
-
acle_sve_len.c
-
acle_sve_lsl.c
-
acle_sve_lsr.c
-
acle_sve_mad.c
-
acle_sve_matmul_fp32.c
-
acle_sve_matmul_fp64.c
-
acle_sve_max.c
-
acle_sve_maxnm.c
-
acle_sve_maxnmv.c
-
acle_sve_maxv.c
-
acle_sve_min.c
-
acle_sve_minnm.c
-
acle_sve_minnmv.c
-
acle_sve_minv.c
-
acle_sve_mla.c
-
acle_sve_mls.c
-
acle_sve_mmla.c
-
acle_sve_mov.c
-
acle_sve_msb.c
-
acle_sve_mul.c
-
acle_sve_mulh.c
-
acle_sve_mulx.c
-
acle_sve_nand.c
-
acle_sve_neg.c
-
acle_sve_nmad.c
-
acle_sve_nmla.c
-
acle_sve_nmls.c
-
acle_sve_nmsb.c
-
acle_sve_nor.c
-
acle_sve_not.c
-
acle_sve_orn.c
-
acle_sve_orr.c
-
acle_sve_orv.c
-
acle_sve_pfirst.c
-
acle_sve_pnext.c
-
acle_sve_prfb.c
-
acle_sve_prfd.c
-
acle_sve_prfh.c
-
acle_sve_prfw.c
-
acle_sve_ptest.c
-
acle_sve_ptrue.c
-
acle_sve_qadd.c
-
acle_sve_qdecb.c
-
acle_sve_qdecd.c
-
acle_sve_qdech.c
-
acle_sve_qdecp.c
-
acle_sve_qdecw.c
-
acle_sve_qincb.c
-
acle_sve_qincd.c
-
acle_sve_qinch.c
-
acle_sve_qincp.c
-
acle_sve_qincw.c
-
acle_sve_qsub.c
-
acle_sve_rbit.c
-
acle_sve_rdffr.c
-
acle_sve_recpe.c
-
acle_sve_recps.c
-
acle_sve_recpx.c
-
acle_sve_reinterpret.c
-
acle_sve_rev-bfloat.c
-
acle_sve_rev.c
-
acle_sve_revb.c
-
acle_sve_revh.c
-
acle_sve_revw.c
-
acle_sve_rinta.c
-
acle_sve_rinti.c
-
acle_sve_rintm.c
-
acle_sve_rintn.c
-
acle_sve_rintp.c
-
acle_sve_rintx.c
-
acle_sve_rintz.c
-
acle_sve_rsqrte.c
-
acle_sve_rsqrts.c
-
acle_sve_scale.c
-
acle_sve_sel-bfloat.c
-
acle_sve_sel.c
-
acle_sve_set2-bfloat.c
-
acle_sve_set2.c
-
acle_sve_set3-bfloat.c
-
acle_sve_set3.c
-
acle_sve_set4-bfloat.c
-
acle_sve_set4.c
-
acle_sve_setffr.c
-
acle_sve_splice-bfloat.c
-
acle_sve_splice.c
-
acle_sve_sqrt.c
-
acle_sve_st1-bfloat.c
-
acle_sve_st1.c
-
acle_sve_st1b.c
-
acle_sve_st1h.c
-
acle_sve_st1w.c
-
acle_sve_st2-bfloat.c
-
acle_sve_st2.c
-
acle_sve_st3-bfloat.c
-
acle_sve_st3.c
-
acle_sve_st4-bfloat.c
-
acle_sve_st4.c
-
acle_sve_stnt1-bfloat.c
-
acle_sve_stnt1.c
-
acle_sve_sub.c
-
acle_sve_subr.c
-
acle_sve_sudot.c
-
acle_sve_tbl-bfloat.c
-
acle_sve_tbl.c
-
acle_sve_tmad.c
-
acle_sve_trn1-bfloat.c
-
acle_sve_trn1-fp64-bfloat.c
-
acle_sve_trn1-fp64.c
-
acle_sve_trn1.c
-
acle_sve_trn2-bfloat.c
-
acle_sve_trn2-fp64-bfloat.c
-
acle_sve_trn2-fp64.c
-
acle_sve_trn2.c
-
acle_sve_tsmul.c
-
acle_sve_tssel.c
-
acle_sve_unpkhi.c
-
acle_sve_unpklo.c
-
acle_sve_usdot.c
-
acle_sve_uzp1-bfloat.c
-
acle_sve_uzp1-fp64-bfloat.c
-
acle_sve_uzp1-fp64.c
-
acle_sve_uzp1.c
-
acle_sve_uzp2-bfloat.c
-
acle_sve_uzp2-fp64-bfloat.c
-
acle_sve_uzp2-fp64.c
-
acle_sve_uzp2.c
-
acle_sve_whilele.c
-
acle_sve_whilelt.c
-
acle_sve_wrffr.c
-
acle_sve_zip1-bfloat.c
-
acle_sve_zip1-fp64-bfloat.c
-
acle_sve_zip1-fp64.c
-
acle_sve_zip1.c
-
acle_sve_zip2-bfloat.c
-
acle_sve_zip2-fp64-bfloat.c
-
acle_sve_zip2-fp64.c
-
acle_sve_zip2.c
-
aarch64-sve2-intrinsics/
-
acle_sve2_aba.c
-
acle_sve2_abalb.c
-
acle_sve2_abalt.c
-
acle_sve2_abdlb.c
-
acle_sve2_abdlt.c
-
acle_sve2_adalp.c
-
acle_sve2_adclb.c
-
acle_sve2_adclt.c
-
acle_sve2_addhnb.c
-
acle_sve2_addhnt.c
-
acle_sve2_addlb.c
-
acle_sve2_addlbt.c
-
acle_sve2_addlt.c
-
acle_sve2_addp.c
-
acle_sve2_addwb.c
-
acle_sve2_addwt.c
-
acle_sve2_aesd.c
-
acle_sve2_aese.c
-
acle_sve2_aesimc.c
-
acle_sve2_aesmc.c
-
acle_sve2_bcax.c
-
acle_sve2_bdep.c
-
acle_sve2_bext.c
-
acle_sve2_bgrp.c
-
acle_sve2_bsl.c
-
acle_sve2_bsl1n.c
-
acle_sve2_bsl2n.c
-
acle_sve2_cadd.c
-
acle_sve2_cdot.c
-
acle_sve2_cmla.c
-
acle_sve2_cvtlt.c
-
acle_sve2_cvtnt.c
-
acle_sve2_cvtx.c
-
acle_sve2_cvtxnt.c
-
acle_sve2_eor3.c
-
acle_sve2_eorbt.c
-
acle_sve2_eortb.c
-
acle_sve2_hadd.c
-
acle_sve2_histcnt.c
-
acle_sve2_histseg.c
-
acle_sve2_hsub.c
-
acle_sve2_hsubr.c
-
acle_sve2_ldnt1.c
-
acle_sve2_ldnt1sb.c
-
acle_sve2_ldnt1sh.c
-
acle_sve2_ldnt1sw.c
-
acle_sve2_ldnt1ub.c
-
acle_sve2_ldnt1uh.c
-
acle_sve2_ldnt1uw.c
-
acle_sve2_logb.c
-
acle_sve2_match.c
-
acle_sve2_maxnmp.c
-
acle_sve2_maxp.c
-
acle_sve2_minnmp.c
-
acle_sve2_minp.c
-
acle_sve2_mla.c
-
acle_sve2_mlalb.c
-
acle_sve2_mlalt.c
-
acle_sve2_mls.c
-
acle_sve2_mlslb.c
-
acle_sve2_mlslt.c
-
acle_sve2_movlb.c
-
acle_sve2_movlt.c
-
acle_sve2_mul.c
-
acle_sve2_mullb.c
-
acle_sve2_mullt.c
-
acle_sve2_nbsl.c
-
acle_sve2_nmatch.c
-
acle_sve2_pmul.c
-
acle_sve2_pmullb.c
-
acle_sve2_pmullb_128.c
-
acle_sve2_pmullt.c
-
acle_sve2_pmullt_128.c
-
acle_sve2_qabs.c
-
acle_sve2_qadd.c
-
acle_sve2_qcadd.c
-
acle_sve2_qdmlalb.c
-
acle_sve2_qdmlalbt.c
-
acle_sve2_qdmlalt.c
-
acle_sve2_qdmlslb.c
-
acle_sve2_qdmlslbt.c
-
acle_sve2_qdmlslt.c
-
acle_sve2_qdmulh.c
-
acle_sve2_qdmullb.c
-
acle_sve2_qdmullt.c
-
acle_sve2_qneg.c
-
acle_sve2_qrdcmlah.c
-
acle_sve2_qrdmlah.c
-
acle_sve2_qrdmlsh.c
-
acle_sve2_qrdmulh.c
-
acle_sve2_qrshl.c
-
acle_sve2_qrshrnb.c
-
acle_sve2_qrshrnt.c
-
acle_sve2_qrshrunb.c
-
acle_sve2_qrshrunt.c
-
acle_sve2_qshl.c
-
acle_sve2_qshlu.c
-
acle_sve2_qshrnb.c
-
acle_sve2_qshrnt.c
-
acle_sve2_qshrunb.c
-
acle_sve2_qshrunt.c
-
acle_sve2_qsub.c
-
acle_sve2_qsubr.c
-
acle_sve2_qxtnb.c
-
acle_sve2_qxtnt.c
-
acle_sve2_qxtunb.c
-
acle_sve2_qxtunt.c
-
acle_sve2_raddhnb.c
-
acle_sve2_raddhnt.c
-
acle_sve2_rax1.c
-
acle_sve2_recpe.c
-
acle_sve2_rhadd.c
-
acle_sve2_rshl.c
-
acle_sve2_rshr.c
-
acle_sve2_rshrnb.c
-
acle_sve2_rshrnt.c
-
acle_sve2_rsqrte.c
-
acle_sve2_rsra.c
-
acle_sve2_rsubhnb.c
-
acle_sve2_rsubhnt.c
-
acle_sve2_sbclb.c
-
acle_sve2_sbclt.c
-
acle_sve2_shllb.c
-
acle_sve2_shllt.c
-
acle_sve2_shrnb.c
-
acle_sve2_shrnt.c
-
acle_sve2_sli.c
-
acle_sve2_sm4e.c
-
acle_sve2_sm4ekey.c
-
acle_sve2_sqadd.c
-
acle_sve2_sra.c
-
acle_sve2_sri.c
-
acle_sve2_stnt1.c
-
acle_sve2_stnt1b.c
-
acle_sve2_stnt1h.c
-
acle_sve2_stnt1w.c
-
acle_sve2_subhnb.c
-
acle_sve2_subhnt.c
-
acle_sve2_sublb.c
-
acle_sve2_sublbt.c
-
acle_sve2_sublt.c
-
acle_sve2_subltb.c
-
acle_sve2_subwb.c
-
acle_sve2_subwt.c
-
acle_sve2_tbl2-bfloat.c
-
acle_sve2_tbl2.c
-
acle_sve2_tbx-bfloat.c
-
acle_sve2_tbx.c
-
acle_sve2_uqadd.c
-
acle_sve2_whilege.c
-
acle_sve2_whilegt.c
-
acle_sve2_whilerw-bfloat.c
-
acle_sve2_whilerw.c
-
acle_sve2_whilewr-bfloat.c
-
acle_sve2_whilewr.c
-
acle_sve2_xar.c
-
aarch64_neon_sve_bridge_intrinsics/
-
acle_neon_sve_bridge_dup_neonq.c
-
acle_neon_sve_bridge_get_neonq.c
-
acle_neon_sve_bridge_set_neonq.c
-
atomic-ops-libcall.c
-
attr-arm-sve-vector-bits-bitcast.c
-
attr-arm-sve-vector-bits-call.c
-
attr-arm-sve-vector-bits-cast.c
-
attr-arm-sve-vector-bits-globals.c
-
CodeGenCXX/
-
RelativeVTablesABI/
-
diamond-virtual-inheritance.cpp
-
multiple-inheritance.cpp
-
microsoft-abi-dynamic-cast.cpp
-
microsoft-abi-typeid.cpp
-
wasm-args-returns.cpp
-
llvm/
-
lib/Passes/
-
Passes/
-
PassBuilderPipelines.cpp
-
test/
-
CodeGen/AMDGPU/
-
AMDGPU/
-
simplify-libcalls.ll
-
Other/
-
new-pm-defaults.ll
-
new-pm-thinlto-defaults.ll
-
new-pm-thinlto-postlink-pgo-defaults.ll
-
new-pm-thinlto-postlink-samplepgo-defaults.ll
-
Transforms/
-
Coroutines/
-
coro-retcon-once-value.ll
-
LoopVectorize/
-
PowerPC/
-
widened-massv-call.ll
-
X86/
-
float-induction-x86.ll
-
PhaseOrdering/
-
AArch64/
-
peel-multiple-unreachable-exits-for-vectorization.ll
-
ARM/
-
arm_add_q7.ll
-
arm_mult_q15.ll
-
X86/
-
ctlz-loop.ll
-
loop-idiom-vs-indvars.ll
-
vector-reduction-known-first-value.ll
-
vector-reductions.ll
-
memset-tail.ll
-
min-max-abs-cse.ll
-
minmax.ll
-
single-iteration-loop-sroa.ll

Differential D130374

[Passes] add a tail-call-elim pass near the end of the opt pipeline
ClosedPublic

Authored by spatel on Jul 22 2022, 11:21 AM.

Download Raw Diff

Details

Reviewers

nikic
efriedma
hiraditya
xbolva00

Commits

rGbfb9b8e075ee: [Passes] add a tail-call-elim pass near the end of the opt pipeline

Summary

We call tail-call-elim near the beginning of the pipeline, but that is too early to annotate calls that get added later.

In the motivating case from issue #47852, the missing 'tail' on memset leads to sub-optimal codegen.

I experimented with removing the early instance of tail-call-elim instead of just adding another pass, but that appears to be slightly worse for compile-time: +0.15% vs. +0.08% time.
"tailcall" shows adding the pass; "tailcall2" shows moving the pass to later, then adding the original early pass back (so 1596886802 is functionally equivalent to 180b0439dc ):
https://llvm-compile-time-tracker.com/index.php?config=NewPM-O3&stat=instructions&remote=rotateright

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

spatel created this revision.Jul 22 2022, 11:21 AM

Herald added a project: Restricted Project. · View Herald TranscriptJul 22 2022, 11:21 AM

Herald added subscribers: ormris, wenlei, steven_wu, mcrosier. · View Herald Transcript

spatel requested review of this revision.Jul 22 2022, 11:21 AM

Herald added a project: Restricted Project. · View Herald TranscriptJul 22 2022, 11:21 AM

Herald added a subscriber: llvm-commits. · View Herald Transcript

Harbormaster completed remote builds in B177057: Diff 446907.Jul 22 2022, 11:22 AM

I experimented with removing the early instance of tail-call-elim instead of just adding another pass, but that appears to be slightly worse for compile-time: +0.15% vs. +0.08% time.
"tailcall" shows adding the pass; "tailcall2" shows moving the pass to later, then adding the original early pass back (so 1596886802 is functionally equivalent to 180b0439dc ):
https://llvm-compile-time-tracker.com/index.php?config=NewPM-O3&stat=instructions&remote=rotateright

This is probably because tail calls short-circuit some AA modref queries, so we probably end up saving time there.

I'm fine with adding an extra TailCallElim pass -- I guess my main uncertainty here is where exactly it should be positioned. Might it make more sense to move it to the optimization rather than simplification pipeline? As our interest here is in tail markers rather than actual TCE, this seems like a typical late optimization pass. (On that note, we could also run only the markTails portion of TCE, but given the overall small compile-time impact, doing the split is probably not worth the effort?)

In D130374#3672840, @nikic wrote:

I experimented with removing the early instance of tail-call-elim instead of just adding another pass, but that appears to be slightly worse for compile-time: +0.15% vs. +0.08% time.
"tailcall" shows adding the pass; "tailcall2" shows moving the pass to later, then adding the original early pass back (so 1596886802 is functionally equivalent to 180b0439dc ):
https://llvm-compile-time-tracker.com/index.php?config=NewPM-O3&stat=instructions&remote=rotateright

This is probably because tail calls short-circuit some AA modref queries, so we probably end up saving time there.

I'm fine with adding an extra TailCallElim pass -- I guess my main uncertainty here is where exactly it should be positioned. Might it make more sense to move it to the optimization rather than simplification pipeline? As our interest here is in tail markers rather than actual TCE, this seems like a typical late optimization pass. (On that note, we could also run only the markTails portion of TCE, but given the overall small compile-time impact, doing the split is probably not worth the effort?)

Yes, this should be run later. I saw MemCpyOpt and figured that was the last place we'd create memset/memcpy calls like in the bug reports, but there's no reason to run TailCallElim that early.

Patch updated:
Changed to invoke TailCallElim much later. I put it just before the last SimplifyCFG and some late passes that I'm not familiar with - just in case they could benefit.
This mostly picks up vectorizer-related intrinsics in test diffs and doesn't seem to have any downside. The time cost even looks slightly better (not sure where the noise level is in these results, but we're probably not far off):
https://llvm-compile-time-tracker.com/index.php?config=NewPM-O3&stat=instructions&remote=rotateright

Herald added subscribers: kosarev, kerbowa, jvesely, nemanjai. · View Herald TranscriptJul 24 2022, 5:38 PM

spatel retitled this revision from [Passes] add a tail-call-elim pass near the end of the function simplification pipeline to [Passes] add a tail-call-elim pass near the end of the opt pipeline.Jul 24 2022, 5:40 PM

Harbormaster completed remote builds in B177249: Diff 447156.Jul 24 2022, 7:24 PM

LGTM

This revision is now accepted and ready to land.Jul 25 2022, 3:31 AM

JFYI @spatel As I see this is quite similar to issue 53482. I remember some efforts to move out marking tail calls to a separate pass so this should be cheaper to do marking once again (not sure to what extent). It was not landed earlier, but it was ready to land as I understand :)

In D130374#3675634, @vdsered wrote:

JFYI @spatel As I see this is quite similar to issue 53482. I remember some efforts to move out marking tail calls to a separate pass so this should be cheaper to do marking once again (not sure to what extent). It was not landed earlier, but it was ready to land as I understand :)

Looks like not worth it? Seems that a second instance of this pass is really cheap to run.

Just JFYI :)
Yes, probably not worth it

In D130374#3675634, @vdsered wrote:

JFYI @spatel As I see this is quite similar to issue 53482. I remember some efforts to move out marking tail calls to a separate pass so this should be cheaper to do marking once again (not sure to what extent). It was not landed earlier, but it was ready to land as I understand :)

Thanks for the pointer! I didn't know about that patch. I'll add a note about that to the commit message, so we can revive it if we decide it is worth saving some compile-time for a little extra code/specialization.

LG as well

In D130374#3676323, @xbolva00 wrote:

LG as well

Thanks.
I wasn't running 'check-clang' with this applied, and now I see that hundreds of those test files are affected (because they are wrongly running the entire opt), so I have to see what it takes to update those.

In D130374#3676437, @spatel wrote:

In D130374#3676323, @xbolva00 wrote:

LG as well

Thanks.
I wasn't running 'check-clang' with this applied, and now I see that hundreds of those test files are affected (because they are wrongly running the entire opt), so I have to see what it takes to update those.

The patch with clang test diffs took forever to update (even with most tests using scripted check lines), and it is too big to post on Phab. The vast majority of changes are with AArch64's sve tests. It might have been better to just rule out target-specific intrinsics...

AArch64's sve tests

Why they use -OX at all?

In D130374#3676973, @xbolva00 wrote:

AArch64's sve tests

Why they use -OX at all?

The original argument that I remember from a few years ago was that unoptimized IR or even -mem2reg only was too large + noisy to be feasible on some files, but it seems to have exploded from there. I think every file in these dirs needed updating:
https://github.com/llvm/llvm-project/tree/main/clang/test/CodeGen/aarch64-sve-intrinsics
https://github.com/llvm/llvm-project/tree/main/clang/test/CodeGen/aarch64-sve2-intrinsics

This revision was landed with ongoing or failed builds.Jul 25 2022, 12:26 PM

Closed by commit rGbfb9b8e075ee: [Passes] add a tail-call-elim pass near the end of the opt pipeline (authored by spatel). · Explain Why

This revision was automatically updated to reflect the committed changes.

spatel added a commit: rGbfb9b8e075ee: [Passes] add a tail-call-elim pass near the end of the opt pipeline.

Herald added a project: Restricted Project. · View Herald TranscriptJul 25 2022, 12:26 PM

Herald added subscribers: cfe-commits, pmatos, asb and 3 others. · View Herald Transcript

Thanks a lot for fixing this!

In D130374#3675677, @vdsered wrote:

Just JFYI :)
Yes, probably not worth it

that is interesting. do we know why?

In D130374#3679550, @hiraditya wrote:

In D130374#3675677, @vdsered wrote:

Just JFYI :)
Yes, probably not worth it

that is interesting. do we know why?

Based on this data:
https://llvm-compile-time-tracker.com/compare.php?from=95f4ca7f5db623bacc2e34548d39fe5b28d47bad&to=bfb9b8e075ee32197157ccaf0c301122ca9b81af&stat=instructions

This patch (adding a late round of TCE) caused a ~0.06% compile-time regression for a -O3 build (less for the LTO variants). So the value of splitting the pass as proposed in D60031 depends on whether we think it's worth trying to save some (unknown?) fraction of the 0.06%.
We decided to push this for the known codegen wins, but someone can still revive the pass-splitting patch if it seems worthwhile.

One more note that I failed to mention while updating all of those clang tests: the reason those tests did not show "tail" before is because we only ran TCE with -O{2/3/s/z}, not -O1. This patch enabled TCE for all -O levels. I don't know the history/motivation for not including TCE at -O1 before, but it did not seem worth excluding based on compile-time cost. If there's another reason, we can add that limitation to the late invocation too (and it should cause most/all of the clang test diffs to revert).

Thanks for clarifying!

aeubanks mentioned this in D131980: [Passes] Don't run tail-call-elim in -O1.Aug 16 2022, 10:33 AM

aeubanks mentioned this in D132623: [CodeGen] Disable tail calls at -O0/-O1.Aug 24 2022, 4:41 PM

Large Diff

This large diff affects 455 files. Files without inline comments have been collapsed. Expand All Files

Revision Contents

Path

Size

clang/

test/

CodeGen/

aarch64-ls64-inline-asm.c

6 lines

aarch64-neon-vcmla.c

104 lines

aarch64-sve-acle-__ARM_FEATURE_SVE_VECTOR_OPERATORS.c

20 lines

aarch64-sve-acle-__ARM_FEATURE_SVE_VECTOR_OPERATORS.cpp

10 lines

aarch64-sve-intrinsics/

480 lines

156 lines

60 lines

60 lines

60 lines

60 lines

480 lines

24 lines

80 lines

16 lines

16 lines

16 lines

16 lines

340 lines

56 lines

288 lines

112 lines

16 lines

16 lines

16 lines

4 lines

340 lines

8 lines

8 lines

4 lines

4 lines

4 lines

80 lines

acle_sve_clasta-bfloat.c

16 lines

acle_sve_clasta.c

160 lines

acle_sve_clastb-bfloat.c

16 lines

160 lines

84 lines

168 lines

112 lines

288 lines

344 lines

344 lines

344 lines

344 lines

288 lines

72 lines

168 lines

acle_sve_cnt-bfloat.c

24 lines

240 lines

36 lines

64 lines

40 lines

40 lines

56 lines

48 lines

acle_sve_create2-bfloat.c

4 lines

acle_sve_create2.c

44 lines

acle_sve_create3-bfloat.c

4 lines

acle_sve_create3.c

44 lines

acle_sve_create4-bfloat.c

4 lines

acle_sve_create4.c

44 lines

acle_sve_cvt-bfloat.c

24 lines

768 lines

16 lines

336 lines

336 lines

56 lines

acle_sve_dup-bfloat.c

28 lines

acle_sve_dup.c

296 lines

acle_sve_dupq-bfloat.c

12 lines

208 lines

340 lines

56 lines

12 lines

acle_sve_ext-bfloat.c

4 lines

60 lines

144 lines

96 lines

48 lines

acle_sve_get2-bfloat.c

8 lines

acle_sve_get2.c

44 lines

acle_sve_get3-bfloat.c

12 lines

acle_sve_get3.c

44 lines

acle_sve_get4-bfloat.c

16 lines

acle_sve_get4.c

44 lines

acle_sve_index.c

32 lines

acle_sve_insr-bfloat.c

4 lines

acle_sve_insr.c

44 lines

acle_sve_lasta-bfloat.c

8 lines

acle_sve_lasta.c

80 lines

acle_sve_lastb-bfloat.c

8 lines

acle_sve_lastb.c

80 lines

acle_sve_ld1-bfloat.c

16 lines

acle_sve_ld1.c

510 lines

acle_sve_ld1ro-bfloat.c

8 lines

acle_sve_ld1ro.c

80 lines

acle_sve_ld1rq-bfloat.c

8 lines

80 lines

224 lines

288 lines

144 lines

224 lines

288 lines

144 lines

acle_sve_ld2-bfloat.c

16 lines

acle_sve_ld2.c

160 lines

acle_sve_ld3-bfloat.c

16 lines

acle_sve_ld3.c

160 lines

acle_sve_ld4-bfloat.c

16 lines

acle_sve_ld4.c

160 lines

acle_sve_ldff1-bfloat.c

16 lines

496 lines

224 lines

288 lines

144 lines

224 lines

288 lines

144 lines

acle_sve_ldnf1-bfloat.c

16 lines

160 lines

96 lines

64 lines

32 lines

96 lines

64 lines

32 lines

acle_sve_ldnt1-bfloat.c

16 lines

acle_sve_ldnt1.c

160 lines

acle_sve_len-bfloat.c

4 lines

44 lines

348 lines

204 lines

480 lines

acle_sve_matmul_fp32.c

4 lines

acle_sve_matmul_fp64.c

4 lines

480 lines

144 lines

24 lines

80 lines

480 lines

144 lines

24 lines

80 lines

504 lines

504 lines

12 lines

4 lines

480 lines

504 lines

336 lines

144 lines

4 lines

156 lines

144 lines

144 lines

144 lines

144 lines

4 lines

172 lines

4 lines

340 lines

56 lines

4 lines

52 lines

116 lines

168 lines

168 lines

168 lines

12 lines

120 lines

64 lines

36 lines

52 lines

52 lines

160 lines

52 lines

36 lines

52 lines

52 lines

160 lines

52 lines

64 lines

168 lines

12 lines

12 lines

12 lines

72 lines

acle_sve_reinterpret.c

8 lines

acle_sve_rev-bfloat.c

4 lines

84 lines

144 lines

96 lines

48 lines

72 lines

72 lines

72 lines

72 lines

72 lines

72 lines

72 lines

12 lines

12 lines

144 lines

acle_sve_sel-bfloat.c

4 lines

acle_sve_sel.c

36 lines

acle_sve_set2-bfloat.c

8 lines

acle_sve_set2.c

44 lines

acle_sve_set3-bfloat.c

12 lines

acle_sve_set3.c

44 lines

acle_sve_set4-bfloat.c

16 lines

acle_sve_set4.c

44 lines

acle_sve_setffr.c

4 lines

acle_sve_splice-bfloat.c

8 lines

acle_sve_splice.c

80 lines

acle_sve_sqrt.c

72 lines

acle_sve_st1-bfloat.c

16 lines

496 lines

56 lines

72 lines

72 lines

acle_sve_st2-bfloat.c

32 lines

acle_sve_st2.c

336 lines

acle_sve_st3-bfloat.c

40 lines

acle_sve_st3.c

424 lines

acle_sve_st4-bfloat.c

48 lines

acle_sve_st4.c

512 lines

acle_sve_stnt1-bfloat.c

16 lines

160 lines

480 lines

480 lines

24 lines

acle_sve_tbl-bfloat.c

4 lines

acle_sve_tbl.c

44 lines

acle_sve_tmad.c

16 lines

acle_sve_trn1-bfloat.c

4 lines

acle_sve_trn1-fp64-bfloat.c

4 lines

acle_sve_trn1-fp64.c

44 lines

acle_sve_trn1.c

96 lines

acle_sve_trn2-bfloat.c

4 lines

acle_sve_trn2-fp64-bfloat.c

4 lines

44 lines

96 lines

12 lines

12 lines

32 lines

32 lines

24 lines

acle_sve_uzp1-bfloat.c

4 lines

acle_sve_uzp1-fp64-bfloat.c

4 lines

acle_sve_uzp1-fp64.c

44 lines

acle_sve_uzp1.c

96 lines

acle_sve_uzp2-bfloat.c

4 lines

acle_sve_uzp2-fp64-bfloat.c

4 lines

44 lines

96 lines

112 lines

112 lines

4 lines

acle_sve_zip1-bfloat.c

4 lines

acle_sve_zip1-fp64-bfloat.c

4 lines

acle_sve_zip1-fp64.c

44 lines

acle_sve_zip1.c

96 lines

acle_sve_zip2-bfloat.c

4 lines

acle_sve_zip2-fp64-bfloat.c

4 lines

acle_sve_zip2-fp64.c

44 lines

acle_sve_zip2.c

96 lines

aarch64-sve2-intrinsics/

64 lines

48 lines

48 lines

48 lines

48 lines

144 lines

16 lines

16 lines

48 lines

48 lines

48 lines

24 lines

48 lines

160 lines

48 lines

48 lines

4 lines

4 lines

4 lines

4 lines

64 lines

32 lines

32 lines

32 lines

64 lines

64 lines

64 lines

64 lines

44 lines

160 lines

32 lines

32 lines

24 lines

16 lines

64 lines

64 lines

64 lines

336 lines

32 lines

8 lines

336 lines

336 lines

264 lines

112 lines

176 lines

112 lines

112 lines

176 lines

112 lines

72 lines

32 lines

48 lines

160 lines

48 lines

160 lines

44 lines

96 lines

96 lines

48 lines

96 lines

96 lines

24 lines

24 lines

48 lines

80 lines

80 lines

64 lines

32 lines

8 lines

32 lines

acle_sve2_pmullb_128.c

8 lines

acle_sve2_pmullt.c

32 lines

acle_sve2_pmullt_128.c

8 lines

84 lines

336 lines

32 lines

40 lines

24 lines

40 lines

40 lines

24 lines

40 lines

56 lines

40 lines

40 lines

84 lines

80 lines

56 lines

56 lines

56 lines

336 lines

48 lines

48 lines

24 lines

24 lines

336 lines

168 lines

48 lines

48 lines

24 lines

24 lines

336 lines

336 lines

24 lines

24 lines

12 lines

12 lines

48 lines

48 lines

8 lines

24 lines

336 lines

336 lines

336 lines

48 lines

48 lines

24 lines

64 lines

48 lines

48 lines

16 lines

16 lines

48 lines

48 lines

48 lines

48 lines

64 lines

4 lines

4 lines

168 lines

64 lines

64 lines

264 lines

112 lines

176 lines

112 lines

48 lines

48 lines

48 lines

24 lines

48 lines

24 lines

48 lines

48 lines

acle_sve2_tbl2-bfloat.c

12 lines

acle_sve2_tbl2.c

132 lines

acle_sve2_tbx-bfloat.c

4 lines

44 lines

168 lines

112 lines

112 lines

acle_sve2_whilerw-bfloat.c

8 lines

acle_sve2_whilerw.c

80 lines

acle_sve2_whilewr-bfloat.c

8 lines

acle_sve2_whilewr.c

80 lines

acle_sve2_xar.c

64 lines

aarch64_neon_sve_bridge_intrinsics/

acle_neon_sve_bridge_dup_neonq.c

96 lines

acle_neon_sve_bridge_get_neonq.c

50 lines

acle_neon_sve_bridge_set_neonq.c

48 lines

atomic-ops-libcall.c

34 lines

attr-arm-sve-vector-bits-bitcast.c

60 lines

attr-arm-sve-vector-bits-call.c

14 lines

attr-arm-sve-vector-bits-cast.c

24 lines

attr-arm-sve-vector-bits-globals.c

30 lines

CodeGenCXX/

RelativeVTablesABI/

diamond-virtual-inheritance.cpp

2 lines

multiple-inheritance.cpp

4 lines

microsoft-abi-dynamic-cast.cpp

18 lines

microsoft-abi-typeid.cpp

4 lines

wasm-args-returns.cpp

4 lines

llvm/

lib/

Passes/

PassBuilderPipelines.cpp

3 lines

test/

CodeGen/

AMDGPU/

simplify-libcalls.ll

34 lines

Other/

new-pm-defaults.ll

1 line

new-pm-thinlto-defaults.ll

1 line

new-pm-thinlto-postlink-pgo-defaults.ll

1 line

new-pm-thinlto-postlink-samplepgo-defaults.ll

1 line

Transforms/

Coroutines/

coro-retcon-once-value.ll

4 lines

LoopVectorize/

PowerPC/

widened-massv-call.ll

4 lines

X86/

float-induction-x86.ll

4 lines

PhaseOrdering/

AArch64/

peel-multiple-unreachable-exits-for-vectorization.ll

14 lines

ARM/

arm_add_q7.ll

10 lines

arm_mult_q15.ll

2 lines

X86/

ctlz-loop.ll

2 lines

loop-idiom-vs-indvars.ll

2 lines

vector-reduction-known-first-value.ll

2 lines

16 lines

2 lines

6 lines

6 lines

single-iteration-loop-sroa.ll

2 lines

This is an archive of the discontinued LLVM Phabricator instance.

[Passes] add a tail-call-elim pass near the end of the opt pipelineClosedPublic

Details

Diff Detail

Event Timeline

Large Diff

Revision Contents

Diff 447431

clang/test/CodeGen/aarch64-ls64-inline-asm.c

clang/test/CodeGen/aarch64-neon-vcmla.c

clang/test/CodeGen/aarch64-sve-acle-__ARM_FEATURE_SVE_VECTOR_OPERATORS.c

clang/test/CodeGen/aarch64-sve-acle-__ARM_FEATURE_SVE_VECTOR_OPERATORS.cpp

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_abd.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_abs.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_acge.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_acgt.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_acle.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_aclt.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_add.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_adda.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_addv.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_adrb.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_adrd.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_adrh.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_adrw.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_and.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_andv.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_asr.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_asrd.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_bfdot.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_bfmlalb.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_bfmlalt.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_bfmmla.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_bic.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_brka.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_brkb.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_brkn.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_brkpa.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_brkpb.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_cadd.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_clasta-bfloat.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_clasta.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_clastb-bfloat.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_clastb.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_cls.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_clz.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_cmla.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_cmpeq.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_cmpge.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_cmpgt.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_cmple.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_cmplt.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_cmpne.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_cmpuo.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_cnot.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_cnt-bfloat.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_cnt.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_cntb.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_cntd.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_cnth.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_cntp.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_cntw.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_compact.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_create2-bfloat.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_create2.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_create3-bfloat.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_create3.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_create4-bfloat.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_create4.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_cvt-bfloat.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_cvt.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_cvtnt.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_div.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_divr.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_dot.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_dup-bfloat.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_dup.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_dupq-bfloat.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_dupq.c

clang/test/CodeGen/aarch64-sve-intrinsics/acle_sve_eor.c

[Passes] add a tail-call-elim pass near the end of the opt pipeline
ClosedPublic