2017机器学习与天然语言处理学术全景图:多产的做者与机构

选自marekrei算法

机器之心编译网络

参与:黄小天、刘晓坤、蒋思源机器学习

在这篇文章中,做者统计了来自 ACL、EMNLP、NAACL、EACL 等学术会议的信息,用可视化的方式展示了 2017 年机器学习与天然语言处理领域的学术状况,例如最高产的做者、机构、主题等。机器之心在展示这些以 NLP 为主的会议后,还增长了如计算机视觉等会议的状况。值得一提的是,该做者在 2017 年初也统计了 2016 年的信息,感兴趣的读者可查看 《2016 机器学习与天然语言处理学术全景图:卡耐基梅隆大学排名第一》

2017 年是天然语言处理(NLP)和机器学习(ML)很是高产的一年。两个领域持续增加,会议论文数量纷纷打破记录。本文中我将根据我的做者和组织进行更详细的细分。统计信息来自如下会议:ACL、EMNLP、NAACL、EACL、COLING、TACL、CL、CoNLL、Sem+SemEval、NIPS、ICML、ICLR。与上年不一样,此次把 ICLR 包含了进来,它在过去两年飞速发展为一个颇有竞争力的会议。此外,机器之心也将咱们统计的会议结果添加到该报告中,并做必定的分析。学习

MAREK REI 的分析是经过爬虫自动抓取会议官网和 ACL 选集的发表信息而完成的,所以分析主要集中在天然语言处理。MAREK REI 表示做者姓名通常列在议程之中,所以可轻松提取;可是机构名称相对麻烦,须要从 PDF 直接抓取。而咱们添加的信息主要来源于 2017 年报道过的人工智能方面的顶会,所以它正好能够补充原做者提供的信息。人工智能


会议翻译

首先,让咱们看看 2012-2017 年间的公开会议。NIPS 当仁不让,今年共发表 677 篇论文,排名第一。其余多数会议也快速增加,是 ICML、ICLR、EMNLP、EACL 和 CoNLL 规模最大的一年。相比之下,TACL 和 CL 的论文发表数量彷佛每一年保持不变。NAACL 和 COLING 的论文数量则为零,指望其在 2018 年有更好表现。3d

其实从接收论文的状况咱们就能看出一些趋势,由于自 2015 年来 NIPS 的接收论文就有很大的提高,这与机器学习和深度学习的崛起有很大的关系。神经信息处理系统大会(Neural Information Processing Systems,NIPS)是机器学习与计算神经科学方面的顶会,本届 NIPS(31st)大会注册人数超过 8000 人;共收到 3240 篇提交论文。其中有 20.9% 被组委会接收;议程包括 679 个 Poster 演讲,40 个长演讲(Oral), 112 个短演讲(Spotlight)。若根据 NIPS 2017 提交论文数量进行分析,最热门的三个子领域为算法、深度学习和应用,因为深度学习目前并无一种给咱们美感的完总体系,因此极可能这一领域的研究在 2018 年将会继续进行下去。orm

NIPS 2017 的热门子领域。cdn


MAREK REI 更多关注的是天然语言处理与 ML 会议,而其它如 CVPR、ICCV 和 KDD 等计算机视觉顶会与数据挖掘顶会都没有涉及到。所以咱们能够补充一些 2017 年的论文提交与接收状况,以下展现了 11 项顶会的论文提交与接收状况。其中除了上述的 NIPS,AAAI 和 CVPR 等大会也很是值得咱们关注。blog

AAAI、CVPR、IJCAI、ICCV、NIPS 今年的投稿数量均超过 2000,接收的论文数量均超过 600。ICLR 2017 是举办以来的第五届,去年的论文录用率接近 30%,今年达到了 40%。KDD 论文录用率 18.9%,是上图九大会议中论文录用率最低的会议。


做者

2017 年最多产的我的做者是 Iryna Gurevych(达姆施塔特工业大学),共发表论文 18 篇。Lawrence Carin (杜克大学) 发表论文 16 篇,其中 10 篇被 NIPS 收录。紧随其后的是 Yue Zhang(新加坡大学)、Yoshua Bengio(蒙特利尔大学)和 Hinrich Schütze(慕尼黑大学)。

值得注意的是,曾撰文批评了蒙特利尔大学的新论文《Adversarial Generation of Natural Language》的 Yoav Goldberg 也有 10 篇论文被这些会议接收。他曾代表:「尽管我赞成 arXiv 上短期的发布周期比如今长时间的同行评议流程更好,但如今人们在使用 arXiv 树旗帜、占山头,规避同行评议过程,并且这个趋势已愈来愈显著。这种状况对于那些「强」研究组而言更是显著。目前来讲,将你的成果(一般是初步的和不完整的)发在 arXiv 上没有什么实质的坏处,只有潜在的好处。」

其实目前不少做者都将论文预先发表在 arXiv 上,以上 MAREK REI 统计的接收论文状况很大程度上反映了这些学者的学术水平,只不过因为原做者重点关注天然语言处理,因此还有不少 2017 年优秀的学者与论文没有展现在统计中。

看一下 2012-2017 年的累积统计结果,Chris Dyer(DeepMind)遥遥领先,紧随以后的是 Iryna Gurevych(达姆施塔特工业大学)和 Noah A. Smith(华盛顿大学)。Lawrence Carin(杜克大学)、Zoubin Ghahramani(剑桥大学)和 Pradeep K. Ravikumar(卡内基梅隆大学)发表的论文主要在机器学习会议,而其余人则在 NLP 和机器学习之间平衡。

按年份将发表论文数分开代表 Chris Dyer 在今年的发表论文数有所降低,而 Iryna Gurevych 的发表论文数有很强的上升趋势。


第一做者

咱们来看看第一做者的状况,第一做者一般是实现代码和运行实验的人。Ivan Vulić(剑桥大学)、Ryan Cotterell(约翰霍普金斯大学)和 Zeyuan Allen-Zhu(微软研究院)都在 2017 年以第一做者的身份发表了 6 篇论文。紧随其后的是 Henning Wachsmuth(魏玛大学)、 Tsendsuren Munkhdalai(微软 Maluuba)、李纪为(斯坦福大学)和 Simon S. Du(卡内基梅隆大学)。


如上所示,斯坦福博士李纪为在 2017 年也有很是多的接收论文,他主要的研究方向是天然语言处理(NLP)。在三年的博士生涯中,他的多篇论文被各种顶级会议接收。在四月底结束的 ICLR 2017 上,李纪为有三篇论文被大会接收,其中两篇为第一做者;而在即将于 9 月份举行的 EMNLP 2017 上,他有两篇论文被大会接收,均为第一做者(参见:如何生物转CS,并在斯坦福大学三年拿到PhD:独家专访李纪为博士)。

此外,因为 ICCV 等计算机视觉领域的会议没有获得统计,所以何恺明等人并无在以上统计中展示。在 ICCV 2017 中,Facebook AI 研究员何恺明得到最佳论文奖,同时是最佳学生论文的做者之一。算上此前在 CVPR 200九、CVPR 2016 上的两篇「最佳论文」,何恺明如今已得到了四个最佳论文称号(参见:ICCV 2017奖项公布:最大赢家何恺明获最佳论文,参与最佳学生论文)。


机构组织

看一下 2017 年的不一样机构组织的发表模式,卡内基梅隆发表了 126 篇论文,处于领先地位,而微软、谷歌和斯坦福紧随其后。包括 MIT、哥伦比亚、牛津、哈佛、多伦多、普林斯顿和苏黎世在内的大学发表的论文中,相比 NLP,机器学习占比例更大。相比之下,包括爱丁堡、IBM、北京、华盛顿、约翰霍普金斯、宾州、中科院、达姆施塔特、卡塔尔在内的大学和机构更关注 NLP 会议。

如上在 2017 年的大会接收论文中,清华大学和北京大学分别以 3八、37 篇接收论文取得了很是好的成绩,中国科学院在 2017 在这些大会中也有 22 篇接收论文。

看一下 2012-2017 年的整段时期,卡内基梅隆依然是其中的佼佼者,而微软、谷歌和斯坦福紧随其后。

在这些会议历年的累积接收论文中,北京大学、清华大学、中国科学院和哈尔滨工业大学都有很是好的排名。但这这些会议偏重于天然语言处理,所以国内还有其余一些很是优秀的学府没有统计并展现在内。

看看下方的时间序列,卡内基梅隆、斯坦福和 MIT 在发表论文数上呈上升趋势。相比之下,行业领袖谷歌、微软和 IBM 的发表论文数略微有所降低。

主题聚类

最后,我对全部发表过 9 篇或以上论文的做者的论文文本进行了 LDA 分析,并用 tsne 将结果可视化。图中间是机器学习、神经网络和对抗学习的主题。最密集的聚类涵盖了强化学习和不一样的学习策略。图左的聚类包含 NLP 应用、语言建模、文本解析和机器翻译。图底的聚类包含信息建模和特征空间。





原文连接:www.marekrei.com/blog/ml-nlp…

相关文章
相关标签/搜索