arXiv 是当前最流行的预印本库。自 1991 年创办以来,arXiv 为研究者提供了一个在正式同行评议以前分享预印本文章的平台。新技术使文档建立和分发更加便捷,文化实践推进合做和数据共享,这使得 arXiv 快速发展,日渐流行。arXiv 在研究交流和 Web 历史上占据独特的位置,可是它自建立以来几乎不多改变。在此文章中,咱们看一下 arXiv 的优点和缺点,进而探讨新技术能够给 arXiv 带来怎样的改变。
日前,在最新的 Google Scholar h5-index 排名中,咱们能够看到在计算机视觉领域下,arXiv 以 137 分位列第二,仅次于业内顶会 CVPR。除了计算机视觉领域,在「机器学习」下,arXiv Machine Learning 一样位列第二,略低于 ICML。所以,能够到论文预印网站 arXiv 在人工智能、机器学习领域的重要性。
虽然 arXiv 愈来愈受欢迎,但围绕 arXiv 的争议也愈来愈多:学术论文是否应该引用 arXiv 文章等等。在这篇文章中,做者对 arXiv 的优缺点作了总结,同时给出了将来变革的建议,好比引入评论与同行评议机制。
引言
arXiv 是当前最流行的预印本库。该网站于 1991 年由物理学家 Paul Ginsparg 创立,为研究者提供了一个在正式同行评议以前分享预印本文章的平台。今天,arXiv 每月发布文章超过 10000 篇,涉及高能物理学、计算机科学、定量生物学、统计学、计量金融等领域(见图 1)。arXiv 早期的成功来自于新技术的发展和合做共享文化的完善。的确,在 arXiv 以前,物理学家经过信件的方式分享近期完成的文章手稿,后来是经过邮件传递……
图 1. 1991 年到 2017 年发表在天然科学(arXiv)和 Life Sciences 上的预印本文章数量。这个时间段中,在 arXiv 和 Life sciences 上提交的预印本数量为别为 1,263,26五、32,284。小图显示近期提交到 Life sciences 上的预印本数量(包括提交到『arXiv q-bio』, 『Nature Preceedings』, 『F1000Research』, 『PeerJ Preprints』, 『bioRxiv』, 『The Winnower』, 『preprints.org』 和『Wellcome Open Research』上的预印本)快速增加。
arXiv 的优点
arXiv 自创立以来,就提供最便捷和最强大的方式,使研究者可以共享研究成果。做者能够免费、快速、直接地与研究社区共享研究成果,同时也使公众能够免费地获取研究成果。arXiv 是一些世界上最重要研究的「故乡」,好比「庞加莱猜测的证实」(Perelman, 2002; Perelman, 2003; Perelman, 2003a)和「希格斯玻色子的发现」。1991 年以后的差很少 20 年内,大多数其余领域并未得到一样的信息自由交流待遇,直到近期大量 arXiv 的仿制品出如今新的领域(见图 1)。易用和实用偏偏贴合了 arXiv 所服务的研究社区(技术先进且具有长期分享和合做传统的研究者)的需求,还有网站的简洁性。下面咱们列举了几项推进 arXiv 成功的关键技术和文化影响因素。下一章咱们将介绍阻止新型、更优质的实践的局限性因素。
arXiv 上大部分论文都使用 LaTeX 进行排版。LaTeX 容许研究者轻松排版和分享文档。从一开始,这样的解决方案就对全部研究者可用,可是只有它服务的社区采用了该方案,即物理学家和数学家,他们的文档中包含大量公式。LaTeX 对早期预印本和同行共享的成功很是关键。今天,它仍然被物理学家、数学家、计算机科学家等研究者使用,由于它提供了表达复杂的数学符号的最佳解决方案。
从一开始,一个既知道如何重新技术中获益又愿意从中获益的社区(物理学)帮助 arXiv 迅速崛起。而化学、生物医学等其余领域具备更多的协做性质(Fanelli 2016),这些领域可能缺乏使用 LaTeX 写做、建立和运行电子邮件和网络服务器的知识和兴趣,而这正是建立 arXiv 的两个必要基础。
arXiv 的劣势
自创办以来,arXiv 迅速且持续的成功源于它乐于利用新技术(LaTex、电子邮件、网页服务器),且它本就是服务于协做、开放、共享的技术社区。然而,随着时间变化,arXiv 并未改进、反思自我,未能追随科学领域技术与社区实践的变化。阻碍 arXiv 迅速创新的最主要因素是什么?咱们认为是 LaTex。LaTex 促使 arXiv 迅速发展,难以置信,它居然成为 arXiv 最大的短板。事实上,arXiv 对 LaTex 的过度依赖致使了下列劣势:
物理学领域以外的大部分研究人员(也所以不了解 arXiv),用 Microsoft Word 或其余 WYSIWYG 编辑器写草稿。使用 LaTex 渗透进了大部分研究领域(数学、统计学、物理学、天文、计算机科学),据统计,用 LaTex 编写的学术文章比例大约为 18%(2016,Pepe)。LaTex 不只学习曲线陡峭,它的界面、语言、使用方式对不会编程或者只用过 WYSIWYG 编辑器的人来讲都是陌生的。
当你上传一个 LaTex 文件时,arXiv 会压缩它并建立一个 PDF 文档。这是标准的程序。在学术界,数十年来都是用 PDF 或 Postscript 格式交换、阅读文章的。PDF 是印刷手稿的一种有效、简单的方式,但它并不适合在网页上阅读、讨论和共享。PDF 文档(大多数)是静态、二维且不可编辑的,甚至能够说 PDF 只是纸质论文的数字图片。
arXiv 支持的研究成果均为 PDF 格式。做者提交论文时提供的题目、摘要和做者名单是元数据,PDF 文档中包含这些内容,同时 HTML 文件中也有这些内容,以提升文章的可发现性。搜索引擎在 PDF 文本挖掘中的效果愈来愈好,但如今或之后的搜索引擎从稠密的两列论文中抽取和理解文本的可能性仍然很低。重点是,逆向工程对于 PDF 文档是无效的。那么咱们为何要把内容锁在机器不可读的格式中呢?
数据共享已经成为全部学科的基础惯例了。简单来讲,若是公开的研究论文创建在数据之上,做者须要提供他们的研究所基于的资源(数据和代码)最小集。但这在 arXiv 的「LaTex to PDF」机制下不可能实现。从 2010 年到 2013 年,arXiv 尝试过在论文侧边处放置数据,但失败了。虽然该项目遇到了政府支持中断的状况,但咱们认为失败的部分缘由在于论文和数据独立存在。
如今人们如何共享数据呢?使用 kludgy 策略。例如天文和物理学领域的一种增加趋势是在发表或预印论文中添加数据集连接。这种作法使得数据更可见、更可信,由于数据集是连接到论文的。但最近的调查显示,加连接容易过时。
将来的 arXiv
若是可以重建 arXiv 以展望 arXiv 将来的样子,那么以上所列出来的与其说是挑战,不如说是机会,为了构建更好的 arXiv,咱们将给出几个建议。
学术交流圈中愈来愈多的人一致认为学术出版须要超越 PDF 格式的限制,并且咱们都相信将来的论文将是网页原生性的(web-native)(Goodman 2016)。照此,将来的 arXiv 将不得不容许以 HTML 的格式接收做品和论文。将学术论文转化为 HTML 是为将来的学术知识库铺平道路的第一步。你阅读的论文,不管是 PDF 仍是 HTML 的格式,都将是网页优先的(web-first)。将来的 arXiv 将以网页原生性的原稿为主。
ArXiv 过度依赖于 LaTeX。你正在看的这篇文章是由三个做者使用 LaTeX 和 Rich Text 的组合在 Authrea 上写的。LaTeX 只不过是用来插入数学符号、公式、表格的一种格式,而不能用来排版和格式化整篇原稿。用 LaTeX 排版原稿是很费时的 (Brischoux 2009),最重要的是它将文件锁定在一个格式上从而不能使用灵活的现代技术(好比,语义分析并嵌入知识网络促进论文的可发现性,提高影响力)。将来的 arXiv 将是格式中性的,而且能够按不一样的内容使用不一样的格式。
数字对象标识符(digital object identifier,DOI)是专用于学术出版的标识符,用以识别和追踪其它的著做。不少杂志都强制规定必须对引文使用 DOIs,以指定对应的数据集、预印本、研究文献、网站以及其它的学术著做。因为预印本的出版率上升很快(Berg 2016),而且基金机构也终于意识到了预印本的重要性 (https://grants.nih.gov/grants/guide/notice-files/NOT-OD-17-050.html%EF%BC%89),所以使用可靠的标准识别预印本是很关键的,即 DOI。你正在阅读的这篇文章是在 Authorea 上写的,而且使用 DOI 标注,作了预印本。将来的 arXiv 将是以 DOI 标识的预印本数据库。
将来的 arXiv 不只是带有文本和图像的 PDF 文档的集合,而是整合了数据、代码和全部重现研究结果所需资源的论文数据库。解决重现性危机的惟一方式就是使论文变成数据驱动性的。这篇文章有一幅图,咱们已经设置,使全部读者能够获取这幅图背后的数据。若是你在线阅读本文,你将可以点击图 1 中数据中的 Data 标记,查看、下载和研读该图表中的数据;点击 Code 标记,查看咱们用来分析和可视化该图表的代码(Jupyter Notebook 格式)。将来的 arXiv 将在论文中同时容纳数据和代码。
arXiv 目前不支持读者和做者评论。其理念在于 arXiv 不是同行评议性质的,同行评议发生在其余地方,好比期刊级别。所以,评论和评议系统较难维护和运营,并且未必有用。而预印本提供了一个史无前例的机会来开放评论和评议系统,并借此提升手稿接受的评议和评论数量。咱们不提倡替代传统的同行评议,而是用预印本开放的评议对其进行补充。咱们认为(1)更多的学者应该参与同行评议中,(2)同行评议应该开放进行,这样评议才能成为发表(预印)研究的关键组成部分。鉴于论文发表数量的不断增长和每篇论文的平均做者人数,这看起来不只天然而然,并且必要。这也代表当前的同行评议制度不可持续。将来的 arXiv 将在传统的同行评议以外支持开放的评论和评议。
学术界目前用来评估研究论文影响力的惟一权威指标是引用(或其余基于引用的指标)。arXiv 不公开替代指标(替代引用)的信息,如论文的下载量、tweet 转发量,或者博客转发量。不公开替代指标的一个重要但可疑的缘由是这些指标易于操纵。若是这些指标成为肯定研究者地位的权威系统,那么咱们面临的是一个易于操纵的系统。咱们认为这些指标对评估研究的影响力有重要的价值,做为传统的指标的添加,而不是取代。重要的是,有研究显示论文的下载量和转推量与引用次数有很强的相关。将来的 arXiv 将变得透明,并公开可以反映研究论文真实影响力的替代指标。
用于一个基于 web 的知识库而不是 PDF 文档的最后一个重要优点是可发现性(discoverability)。论文的所有文本(不仅是标题和摘要)能够经过搜索引擎和学术资料库进行检索,提高了内容的可见性。此外,基于 web 的文章具有更明确的语义结构,使之可以彻底被机器阅读。将来的 arXiv 将从新思考,将论文做为访问语义结构化内容的 API。
结论
从 arXiv 的历史来看,咱们发现了其成为最流行的在线预印本知识库的一系列决定性因素。咱们认为 arXiv 兴盛的缘由之一在于它迎合了技术从业人员长久以来共享与合做的传统。该网站的简单性与 LaTex 中心的提交流程,保证了它在社区内的快速增加,被用于彻底把控排字流程、编写含有大量公式的文档。
咱们认为虽然 arXiv 很早就适应了科技行业,但从发布以来变化极小。这种不情愿或者没能力发展新技术和实用方式的态度,对社区更好的交流实践来讲是种障碍。
咱们建议将来的 arXiv 应该是纯网页或者以网页为主的,多格式或者格式中性的,以便于适应整个研究社区。为了发展其透明性与可重现性,它要创建在开放数据与开放研究之上,也要容许评论、开放同行审议。将来的 arXiv 将会成为一个由数字对象标识符(DOI)工具标识的预印论文的数据库,有极好的语义结构,便于机器读取,易于发现。将来,arXiv 也会是透明的,会公布关于某项研究的全部信息,包含决定该研究影响力的全部参数。
咱们认为 arXiv 若是继续保持不变,将会被其余服务所取代,就像 arXiv 曾取代过其余服务同样。咱们鼓励研究人员对该平台有更多的需求,且相信在网页时代,经过 PDF 共享研究的时代必将终结。将来,让咱们创造更好的共享研究的新方式。
原文连接:https://www.authorea.com/users/3/articles/173764-the-arxiv-of-the-future-will-not-look-like-the-arxiv