剑桥大学数据科学家Marek Rei在个人博客上发布了2018年国际顶尖学术会议上发表的机器学习和NLP相关论文的数据统计。数据显示,无论是顶会论文发表数量还是会议出席人数,都表明AI领域仍处于快速的增长期,“AI寒冬”并未到来。
2018年已过经去,各类盘点还在继续。
近日,剑桥大学数据科学家Marek Rei在个人博客上更新了2018年国际顶尖学术会议上发表的机器学习和NLP相关论文的数据统计。
虽然2018年“AI寒冬”的警告不绝于耳,但Marek Rei的这份数据显示,去年在AI相关领域,无论是顶会论文发表数量还是会议出席人数,都表明AI领域仍处于快速的增长期,2018年的统计数据打破了此前的多项纪录。
最值得注意的是,今年的NeurIPS会议的门票在开票后仅11分38秒即告售罄,堪比春运火车票,令无数准备参会或围观大牛的热心观众唏嘘不已。
本文提供了关于这些统计数字的更精细的分类数据信息,一起来看看哪些作者和机构在特定的学术会议上发表的论文数最多。
今年的统计信息中涵盖了下列会议/期刊:
ACL、EMNLP、NAACL、EACL、COLING、TACL、CL,CoNLL、NeurIPS、ICML、ICLR和AAAI。
上述会议/期刊基本涵盖了全球最知名、级别最高的机器学习自然语言语言技术成果出处。与2017年的数据相比去掉了SemEval,因为该会议主要关注共享作者的论文,本次统计也没有将合作成果的数据收录在其他会议中。
今年的统计数据中新收录了AAAI,这是一个规模较大的会议,之前的统计中未收录。 NeurIPS(前NIPS)去年进行了更名,但为了保持一致性,在之前年份的数据内容中一律统一使用新名称。
统计数据的抓取和分析是通过一系列脚本自动完成的,多年来,这些自动脚本一直在不断改进。论文列表是通过在线程序抓取的,通常也附带有作者信息。组织机构名称需要直接从PDF中提取,这可能会导致一些错误。为此我已经采取各种方法来检测和映射不同类型的机构名,来尽量避免这些错误。
这篇文章重点介绍了近年来发表论文数量最多的作者和机构,但这里要指出,不能将发表论文的数量作为研究领域中一味追求或奖励的目标,而且论文数量的快速增长,并不代表研究质量的快速提高。
写出一篇具有开创性意义的论文,要比发表10篇很快就被人遗忘的论文更了不起。此文的目的是为了给相关领域的人员提供一个更广的视角,也可能为心怀优秀创意的新研究人员提供一些灵感。
关注每位作者在不同年份发表的论文数量,按照两年为单位,Chris Dyer仍然显得一枝独秀,Yue Zhang和 Ming Zhou紧随其后。
2012-2018年全球会议/期刊论文数量变化情况
先来看看2012-2018年间统计收录的会议上的会议论文。大多数机器学习会议上发表的论文数量都呈现持续增长态势,其中发表在AAAI和NeurIPS上的论文超过1000篇。 EMNLP和NAACL也逐年连创新高。ACL和COLING则变化不是很大。 EACL今年休会,TACL和CL的论文数量多年来保持相对平稳。
作者情况统计
接下来,看看2018年在这些会议上发表过论文的作者情况。有三位研究人员分别发表了22篇论文,论文数量排名并列第一,分别是:周明(微软),格雷厄姆·纽比格(卡内基梅隆大学)和谢尔盖·莱文(加州大学伯克利分校) 。紧随其后的是张潼(曾供职腾讯AI,最近离职),孙茂松(清华大学)和Iryna Gurevych(达姆施塔特工业大学)。
再来看看2012-2018之间的发表论文总数,Chris Dyer(DeepMind)以97篇排名榜首。紧随其后的是周明(微软)、Yoshua Bengio(蒙特利尔大学),张岳(西湖大学)和Noah A.Smith(华盛顿大学)。大多数作者明显更倾向于在自然语言处理或机器学习的核心会议,Percy Liang可能是个例外,在期刊和会议上发表的论文数量基本差不多。
还可以查看不同年份每位作者的论文数量。可以看到,Chris Dyer在2015-2016年间发表的论文数量增长惊人。
一作情况统计
接下来是关于论文第一作者的统计数据。论文的第一作者通常是那些实际操作、实验并撰写论文的大部分内容的人,是反映作者对论文成果贡献度的重要指标之一。
在这项统计中,位列榜首的是Yi Tay(南洋理工大学),他是一名三年级博士生,在2018年的学术会议上共发表了10篇一作论文,令人印象深刻。第二名为朱泽园(Zeyuan Allen-Zhu),去年共发表6篇一作论文。排在之后的分别是Mikel Artetxe,Jiatao Gu(香港大学),Dinghan Shen(杜克大学)和Nathan Kallus(康奈尔大学)去年共发表5篇一作论文。
再来看看发表论文总数,李纪为(香侬科技)发表了 22 篇一作论文。其后是朱泽园(微软)、Young-Bum Kim(亚马逊)、Ryan Cotterell(剑桥大学)和 Ivan Vulić(剑桥大学)。
组织机构发表论文情况
接下来是企业和研究机构发表论文的统计数据。与前两年一样,CMU在2018年发文数仍然位居第一,自然语言处理和机器学习主题之间的论文数量差距相对均匀。从企业方面来看,谷歌和微软仍然是行业的领导者,清华大学、斯坦福大学、北京大学、麻省理工学院和加州大学伯克利分校都位列顶级机构之列。
从2012年至2018年的整个时段来看,排名实际上没有太多变化。CMU仍然处高居第一,微软和谷歌得而排名则换了个位置。普林斯顿大学、INRIA和杜克大学似乎专注于机器学习领域,几乎没有在NLP领域发表文章。相比之下,北京大学、中科院和爱丁堡大学似乎更重视NLP方向,没有在NeurIPS /ICML上发表什么文章。
从时间分布来看,CMU在过去几年内一直保持高产,并且仍在继续增长。谷歌和微软一直在争夺企业界的榜首位置,但目前谷歌似乎取得了领先地位。清华、北大等中国大学目前的论文发表数量正在迅猛上涨。
论文研究话题的分布
最后是关于论文作者和组织机构发表论文主题的一些分类。我收集了与指定作者/组织机构相关的所有论文,全部小写处理,加上标记,然后传递给LDA,再用t-SNE进行可视化,显示出了他们的论文内容与图中其他人内容的相似关系。结果如下:
-
机器学习
+关注
关注
66文章
8413浏览量
132601 -
自然语言处理
+关注
关注
1文章
618浏览量
13554 -
nlp
+关注
关注
1文章
488浏览量
22034
原文标题:机器学习和NLP顶会论文大王:周明、张潼、孙茂松等上榜
文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论