死磕论文前,不如先找齐一套好用的工具

选自 Medium,做者:Eddie Smolyansky,机器之心编译,参与:刘晓坤、王淑婷。git

还在机器学习论文的海洋里忘我沉沦?先花几分钟学些新工具,不亏,论文阅读、评论、社交、管理、搜索、复现、写做全不误。github

做为像深度学习这样高产领域的研究人员,咱们常常会发现本身被论文的汪洋所淹没。这些论文是如此之多,想所有读完并跟踪最新研究彷佛很难很难。我以为造成这种局面的一个重要缘由是,咱们没有充分利用现有工具和服务来让工做变得更加简单。另外一个缘由是缺乏可以在一个界面下知足咱们全部需求的真正好产品,不过说到这个就得另写一篇博客了。web

最近,我开始了解 ML 的一个子领域,对该子领域相关文献的优先排序、阅读和管理让我感到很是沮丧……最后我选择找些工具来帮忙处理这项任务,我想把这些好用的产品和服务分享给大家。但愿可以帮那些须要和科学论文打交道的人改善工做流程。算法

我主要关注的是论文阅读和展现的问题(而非写做):浏览器

  1. Reference Manager(也叫论文库)机器学习

  2. 用社交平台来分享知识编辑器

  3. 运用自动论文分析算法来获取额外的元数据(关键词、相关数据集、重要引用等)工具

Reference Manager(也叫论文库)学习

你能够在这些平台上建立和管理全部之前和将来的阅读清单,添加我的笔记并和小组分享。这些库会被同步到云端,也就是说你在任何地方都能打开论文。看书能够用 goodreads,不过看论文的话,最好从下列工具中选择:网站

  1. Mendeley:这款产品虽然颜值不咋地,但它有免费的商业模式,支持 web、PC、Mac 和移动手机等多个平台。除了通常的论文笔记,你还能够直接注释和高亮显示 PDF。它的云存储是有限额的,超过几百篇论文以后就得付费。

  2. Paperpile:它须要付费订阅(没有免费版本,能够用谷歌帐号免费试用 30 天),但看起来很潮,用起来也感受不错。你能够很是轻松地把论文库从其它服务平台上导入到这款产品中。你还能够把库同步到本身的谷歌云,这算是它的一个优点。目前它只能在谷歌浏览器上使用。

  3. Zotero:这是一个免费和开源的实现,你只需为超额的云存储付费。相似 Mendeley,不过功能没它多。

  • Mendeley:https://www.mendeley.com/

  • Paperpile:https://paperpile.com/

  • Zotero:https://www.zotero.org/

固然,你还有不少选择,不过这几个是我用过而且感受还不错的。若是让我选的话我会选 Mendeley,由于它支持不少平台并且还免费。

Mendeley 的界面

Zotero 的界面

arXiv 进化版

arXiv 于 1991 发布,并在近十年内鲜有变化,尽管论文发表数大幅增加(到 2016 年 10 月提交论文数已经达到了每个月超过 10000 篇)。固然,咱们如今对论文资源库提供的功能已经有不少新的需求。咱们想要能执行论文分析的算法,想找到实现论文结果的代码,但愿有能共享信息的社交平台,咱们还可能对双列格式的 pdf 文档感到厌烦。

在网上搜索现有解决办法以后,我找到不少此类工具。


社交平台

  1. Shortscience:这是一个能共享论文概述的平台,目前有超过 1000 篇论文概述,并仍在持续增加;

  2. OpenReview:这是一个能提供公开论文评审过程的平台,全部提交的论文会公开做者姓名等信息,同时接受同行的评价及提问,能够匿名或实名地对论文进行评价。公开评审结束后,论文做者也可以调整和修改论文。Openreview 目前仅对特定学术会议提供评审功能,例如 ICLR,而且因为受到普遍质疑,ICLR 在 Openreview 上的评审也被改为了双盲评审。除了官方评审以外,近期不少论文的评论区也能看到读者和做者之间的积极交流。

  3. Scirate:能看到热度较高的 arXiv 论文,并按学科分门别类,还能浏览相关论文的评论。但其热度排序基于该网站内的点赞数,而这个网站的活跃度并不高。

  • Shortscience:http://www.shortscience.org/

  • OpenReview:https://openreview.net/

  • Scirate:https://scirate.com/


Shortscience 的论文概述示例

Openreview 上的 ICLR 2019 论文及评审示例

找到论文的代码实现

  1. Papers With Code:自动把论文链接到实现代码的 GitHub 资源库和数据集,并根据 GitHub 的收藏量排序。每篇论文可能有多个合并的条目。

  2. Github pwc:以至关简洁的列表关联论文和代码实现,包含最新的 NIPS 论文。

  3. GitXiv:每一个项目能够方便地展现为 arXiv+GitHub+连接+讨论,惋惜的是这个项目再也不维护了。

  • Papers With Code:https://paperswithcode.com/

  • Github pwc:https://github.com/zziz/pwc

  • GitXiv:http://www.gitxiv.com/

Papers With Code 界面。

GitHub pwc 页面上的一些连接。

其它工具

  1. arXiv-sanity:相比于 arXiv 有很大的改进,包括在浏览中显示摘要、评论和很是基本的社交、库功能。这个整合了不少便捷功能的网站,是 Andrej Karpathy 在空闲时开发的。

  2. arXiv-vanity:能够未来自 arXiv 的论文渲染成响应式网页,从而让人们不用再看 pdf 文档。

  • arXiv-sanity:http://arxiv-sanity.com/

  • arXiv-vanity:http://arxiv-vanity/

arXiv-sanity 界面

arXiv-vanity 转换论文示例

论文搜索和分析

  1. Google scholar:现在搜索论文的首选,能够在这里查看论文统计和引用参考文献,还能经过关注做者或者论文得到新论文更新提醒,以及利用自动化推荐来提供一个基本库。

  2. Semantic scholar:能够结合外部材料整合进行论文的语义分析。功能包括:展现引用和参考文献、度量论文影响力、展现论文图表、自动生成关键词(根据标题)、分析做者、在互联网寻找额外资源(例如,相关 youtube 视频),以及推荐论文。

  • Google scholar:https://scholar.google.co.il/

  • Semantic scholar:https://www.semanticscholar.org/

  • Semantic Scholar: author profile page


Semantic Scholar:做者简介界面

适用于做者的工具

  1. Overleaf:支持多人协做的在线 LaTeX 编辑器,比如用谷歌文档写论文,很好实现。

  2. Authorea:一种支持多人协做在线撰写论文的方法,旨在减小 LaTeX 的使用,支持现代 WYSIWYG 编辑器。支持内联代码和数据,促进可复现性,支持内联公共评论和其它合理功能。

  3. Code ocean:基于云计算的再现性平台。个人理解是你将本身的研究做为 Jupyter 环境代码上传,而后在线运行,并复现做者曾取得的相同图表/输出。

  • Overleaf:https://www.overleaf.com/

  • Authorea:https://www.authorea.com/

  • Code ocean:https://codeocean.com/

[若是你以为前文太长,能够选择……不看]

个人建议

  • 管理阅读库:Mendeley

  • 阅读和写论文评论:shortscience 和 openreview

  • 将论文和 GitHub 资源库匹配:paperswithcode 和 pwc

  • 论文和做者分析:Semantic scholar

  • 写论文:Overleaf

顺便提一下,谷歌最近发布的 Dataset Search 也是搜索数据集的神器哦。

最后,但愿这篇博客里推荐的服务平台中至少有一个能让你改善工做流程。嘻嘻~


arXiv 上不一样主题的提交量,数据来自其统计页面。

原文地址:towardsdatascience.com/finding-and…

相关文章
相关标签/搜索