根据关键词了解机器学习的趋势窥探-电子发烧友网

编者按：“趋势”表现了事物发展的动向，它的目标可以是模糊的，但这种持续的前进反映到数据上是明确的。去年4月，特斯拉 AI总监Andrej Karpathy发表了一篇A Peek at Trends in Machine Learning，揭示了机器学习论文总数（arxiv）、深度学习框架、CNN模型、优化算法及研究人员的发展趋势。而就在几天前，他又更新了一波数据，并从中看到了一种非常有趣的变化。

注：本文已更新论文总数与流行框架排名，其余内容仍为2017年4月数据。

好像少了点啥

不知道各位读者有没有用过Google Trends，这是一个很cool的工具——输入关键词，你就能查看相应Google搜索结果随时间发生的变化。而现在，我们也已经有了一个机器学习论文库arxiv-sanity，它在过去6年内积累了43108篇（arxiv）相关论文，所以我们为什么不落落俗套，也来看看6年来机器学习研究的演变情况呢？

注：该论文库由Andrej Karpathy创建，由于机器学习涉及内容过广，文中很大一部分都围绕深度学习展开，尤其是Andrej Karpathy熟悉的领域。

arxiv奇点

首先我们先来看看arxiv-sanity上的论文总数（cs.AI，cs.LG，cs.CV，cs.CL，cs.NE，stat.ML）。截至去年4月，arxiv-sanity共收录28303篇机器学习论文，其中仅在2017年3月，数据库就突增近2000份新论文，机器学习学术成果迎来爆发期。

根据关键词了解机器学习的趋势窥探

arxiv上ML论文提交量变化

而就在短短一年后，arxiv-sanity上的论文总数已经突破43000篇，考虑到近年来机器学习国际顶会的热门程度，我们先来看看几个主要会议（去年4月后）的“吸金”能力：

根据关键词了解机器学习的趋势窥探

虽然参与会议投稿的论文未必都会提交给arxiv，但可以看出，2017年以前，arxiv-sanity上收录的论文总量尚不足3万篇，而去年光这几个会议就吸引了近2万篇投稿，另外还有其他的顶会数据未计入其中，机器学习的热度可见一斑。

当然，这也带来了一个问题，就是学者需要通过阅读大量论文才能从中筛选出真正有价值的内容，这也是许多人开始诟病顶会“灌水”严重的一个要因。但本文只关注发展趋势，因此这些论文总数将作为分母，用来分析一些有趣的关键词“现象”。

深度学习框架

谈及机器学习，一个不可避免的热门关键词是深度学习框架，那么学术界更偏好哪种框架呢？我们汇总了去年和今年的统计结果，请结合表格对比感受：

根据关键词了解机器学习的趋势窥探

需要注意的是，这里我们的分母是统计的论文总数，以2017年3月为例，TensorFlow（9.1%）指在去年3月投到arxiv的机器学习论文中，有将近10%提到了TensorFlow，当然这也意味着该月的大多数论文并没有介绍自己使用的框架。但如果我们假设论文指出使用框架的现象遵循某种固定的随机概率，那么经过粗略估计，我们可以猜测大约有40％的实验室正在使用TensorFlow。而今年2月TensorFlow的比例提升到了14.3%，再算上把TF作为后端的各类框架，毫无疑问，TensorFlow确实是大多数学术界人士的首选框架。

而Caffe和Theano由于“历史悠久”，已经积累了数量可观的老用户和论文基础，因此它们的占比仍然很突出。

根据关键词了解机器学习的趋势窥探

2017年4月前各框架发展情况

为了更直观地感受各框架的发展趋势，我们来看看去年和今年的这两幅图。上图中紫色的Caffe和深蓝色的Theano在很长一段时间内深受学界欢迎，而绿色的TensorFlow在2016年异军突起，只用一年时间就超越了“前辈”，增长势头显著。当时Andrej Karpathy曾预测Caffe和Theano的市场占有率会缓慢下降，同时TensorFlow的增长也会减缓，他更看好当时几乎没有存在感的PyTorch。

根据关键词了解机器学习的趋势窥探

2018年3月前各框架发展情况

果不其然，最近的这幅统计图显示，粉色的TensorFlow经历了两年增长，至2017年年末开始趋向平稳，而Caffe和Theano的曲线几乎同步下降，后者的占有率已跌至第五位，还在第二位苦苦挣扎的Caffe也被“后起之秀”Keras和PyTorch赶上。其中最亮眼的是PyTorch，这个在2017年3月不足0.2%的框架到2018年2月已经达到4.7%，考虑到近年来论文的爆炸式增长，PyTorch前景可期，拿原twitter下的留言来说，就是：

PyTorch is on fire! （ PyTorch要火！）

CNN模型

CNN最初是为解决图像识别等问题设计的，当然其现在的应用不仅限于图像和视频，也可用于时间序列信号，比如音频信号、文本数据等。在处理上述这些问题时，除了特殊情况，通常我们不会从头新建一个CNN，而是在已有模型的基础上调整参数。那么，哪个是最受欢迎的CNN模型呢？Andrej Karpathy没有更新模型的相关数据，所以我们仍以去年的数据为准。

根据关键词了解机器学习的趋势窥探

CNN有四大经典模型：AlexNet、VGGNet、Google Inception Net和ResNet。从上图我们可以看到，在关于AlexNet的论文开始大量出现前，Inception在较长时间内一枝独秀，2014年年末，AlexNet迎来快速增长，并长期稳定在高水平位置。而就在一年后，ResNet也迎来爆发期，到2017年3月占比9%，跃升至第一位。

优化算法

就优化算法而言，Adam是毫无疑问的“掌门人”。截至去年4月，约23%的机器学习论文都提到了它。当然我们很难估计它的实际使用占比：它可能高于23%，因为一些论文没有介绍使用的优化算法，其中的大部分甚至根本没有提及神经网络优化；它也可能需要在23%的基础上减去5%，因为这个关键词不是手动提取的，所以不排除论文里的Adam其实是个人名，而且作为一个优化算法，Adam的提出时间是2014年12月。

根据关键词了解机器学习的趋势窥探

研究人员

虽然现在大家对Deep Learning热情高涨，业界也有大量被追捧的专家偶像，但这些偶像真的适合每个人吗？你追的偶像是不是真正的专家？从论文实际引用情况来看，哪些人的论文“含金量”更高？Andrej Karpathy也用数据给了我们一点启示。

根据关键词了解机器学习的趋势窥探

上文中由上往下的四个人分别是Bengio、Lecun、Hinton、Schmidhuber，他们是业内公认的对深度学习贡献最大的四名活跃学者。可以发现，Bengio在论文中的出现次数和Hinton齐头并进，以35%位列首位，而Hinton则以30%排名第二。但考虑到Yoshua Bengio的弟弟Samy同样在机器学习领域有不错的成就，35%这个占比含有一定水分。

另外需要提的一位是LSTM之父Jürgen Schmidhuber，他的论文引用量也颇为可观。Schmidhuber现任瑞士人工智能实验室主管，因为喜欢自己独立研究，可能国内对他的关注度不高，但这不妨碍业界对他的肯定。这里介绍一篇他的新作One Big Net For Everything，除了标题看得让人害怕，引用的文献都有将近一半是他参与写的，感兴趣的读者可以参考着体会下大神的脑回路。

科普：12大关键词让你了解机器学习

随着人工智能（AI）技术对各行各业有越来越深入的影响，我们也更多地在新闻或报告中听到“机器学习”、“深度学习”、“增强学习”、“神经网络”等词汇，对于非专业人士来说略为玄幻。这篇文章为

发表于 05-30 14:39 •1874次阅读

[讨论]提高网站关键词排名的28个SEO小技巧

提高网站关键词排名的28个SEO小技巧关键词位置、密度、处理 URL中出现关键词（英文）网页标题中出现关键词（1-3个） 关键词标签中出现

发表于 12-01 17:08

TF-IDF测量文章的关键词相关性研究

停用词的移除、大小写字母转化和词干提取。4)获取查询。获取单词权重，对于可疑文档利用TF-IDF获得关键词，并排序得到相应的关键词列表。排在前n个的关键词组成一个查询，以此类推，本试验中n=5。5)检索

发表于 01-26 10:38

亚马逊代运营 amazon Search term 关键词填写的“神技”

、转化率，且与自己产品相关的关键词，单独拿出来放进 search term 里面进行优化 listing 的操作。2.自己利用一些工具去筛选出一些买家搜索词，然后根据自己对产品的理解，买家的搜索习惯，适当

发表于 06-05 15:41

HanLP关键词提取算法分析详解

，也受窗口大小的影响。虽然说代码是大致看懂了，但是还是有一些疑问的：比如，为什么用上面那个公式计算，得分高的词语就是关键词了？根据TextRank求关键词与Term Frequency求关键词

发表于 11-05 10:41

关键词优化有哪些实用的方法

是做文章更新，交换友情链接，但是他们对于这里的意义却比较陌生还有对于其它的一些优化的手段是不了解的，那么我们在做seo排名的时候应该怎么拥有一套实用的方法来优化我们的关键词呢？接下来东莞seo博客

发表于 08-11 01:19

百度关键词排名掉完了怎么办

一夜之间关键词排名掉完了，没有被K，也没有出现违规操作，这是怎么回事呢？

发表于 01-27 11:01

#2023，你的 FPGA 年度关键词是什么? #

FPGA 年度关键词，我的想法是“标准化”；今年的工作中遇到了不少同事的issues，本身都是小问题或者很细节的东西但是却反复出现问题，目前想到的最好的办法是做好设计规则的标准化才能避免，不知道大家有没有更好的建议？

发表于 12-06 20:31

IT产业2012热点趋势：智能化成关键词

　　3月25日下午消息，2012年深圳IT峰会今日召开，数字中国常务理事、金沙江创投董事总经理丁健受组委会委托发布2012年IT产业热点和趋势，其中智能化成为关键词。

发表于 03-26 09:12 •993次阅读

基于强度熵解决中文关键词识别

文本的关键词识别是文本挖掘中的基本问题之一。在研究现有基于复杂网络的关键词识别方法的基础上，从整个复杂网络拓扑结构特征的信息缺失角度来考察各节点的重要程度。提出强度熵测度来量化评估各节点重要程度，用于解决中文关键词识别问题。实验

发表于 11-24 09:54 •7次下载

基于关键词的最优路径查询算法

为改进基于关键词的最优路径查询算法，在大规模图以及多查询关键词下复杂度过高与可扩展性不足的缺陷，依据查询关键词序列构建候选路径的策略提出一种高效查询算法。该算法在路径构建过程中优先满足查询关键

发表于 12-06 11:28 •0次下载

基于自动关键词抽取方法

自动关键词抽取是从文本或文本集合中自动抽取主题性或重要性的词或短语，是文本检索、文本摘要等许多文本挖掘任务的基础性和必要性的工作．探讨了关键词和自动关键词抽取的内涵，从语言学、认知科学

发表于 12-26 16:47 •2次下载

三大“关键词”来了解AI

面对人工智能即将开启的新疆域，正在建设具有全球影响力科创中心的上海雄心勃勃，立志在人工智能领域形成世界级新兴产业集群。那么，上海创新该如何玩转“AI”呢？业内专家学者不约而同建言三大“关键词”。

发表于 01-21 11:16 •4503次阅读

2020年云计算发展六大关键词，以及六大关键词背后的重要趋势

中国信通院云计算与大数据研究所副所长栗蔚在会上正式发布并解读白皮书，披露了中国信通院基于对云计算市场的长期观察和研究，总结出的2020年云计算发展六大关键词，以及六大关键词背后的重要趋势。

发表于 08-24 11:02 •1w次阅读

融合BERT词向量与TextRank的关键词抽取方法

结合文档本身的结构信息与外部词语的语义信息，提出一种融合BERT词向量与 Textrank的关键词抽取方法。在基于网络图的 Textrank方法基础上，引入语义差异性并利用BERT词向量加权方式优化

发表于 03-21 09:55 •18次下载