2018人工智能技术总结与2019趋势预测报告-电子发烧友网

2018，仍是AI领域激动人心的一年。这一年成为NLP研究的分水岭，各种突破接连不断；CV领域同样精彩纷呈，与四年前相比GAN生成的假脸逼真到让人不敢相信；新工具、新框架的出现，也让这个领域的明天特别让人期待。

近日，Analytics Vidhya发布了一份2018人工智能技术总结与2019趋势预测报告，原文作者PRANAV DAR。量子位在保留这个报告架构的基础上，对内容进行了重新编辑和补充。

这份报告总结和梳理了全年主要AI技术领域的重大进展，同时也给出了相关的资源地址，以便大家更好的使用、查询。

报告共涉及了五个主要部分：

自然语言处理（NLP）

计算机视觉

工具和库

强化学习

AI道德

下面，我们就逐一来盘点和展望，嘿喂狗~

自然语言处理（NLP）

2018年在NLP历史上的特殊地位，已经毋庸置疑。

这份报告认为，这一年正是NLP的分水岭。2018年里，NLP领域的突破接连不断：ULMFiT、ELMo、最近大热的BERT……

迁移学习成了NLP进展的重要推动力。从一个预训练模型开始，不断去适应新的数据，带来了无尽的潜力，甚至有“NLP领域的ImageNet时代已经到来”一说。

■ ULMFiT

这个缩写，代表“通用语言模型的微调”，出自ACL 2018论文：Universal Language Model Fine-tuning for Text Classification。

正是这篇论文，打响了今年NLP迁移学习狂欢的第一枪。

论文两名作者一是Fast.ai创始人Jeremy Howard，在迁移学习上经验丰富；一是自然语言处理方向的博士生Sebastian Ruder，他的NLP博客几乎所有同行都在读。

两个人的专长综合起来，就有了ULMFiT。想要搞定一项NLP任务，不再需要从0开始训练模型，拿来ULMFiT，用少量数据微调一下，它就可以在新任务上实现更好的性能。

他们的方法，在六项文本分类任务上超越了之前最先进的模型。

详细的说明可以读他们的论文：

https://arxiv.org/abs/1801.06146

Fast.ai网站上放出了训练脚本、模型等：

http://nlp.fast.ai/category/classification.html

■ ELMo

这个名字，当然不是指《芝麻街》里那个角色，而是“语言模型的词嵌入”，出自艾伦人工智能研究院和华盛顿大学的论文Deep contextualized word representations，NLP顶会NAACL HLT 2018的优秀论文之一。

ELMo用语言模型（language model）来获取词嵌入，同时也把词语所处句、段的语境考虑进来。

这种语境化的词语表示，能够体现一个词在语法语义用法上的复杂特征，也能体现它在不同语境下如何变化。

当然，ELMo也在试验中展示出了强大功效。把ELMo用到已有的NLP模型上，能够带来各种任务上的性能提升。比如在机器问答数据集SQuAD上，用ELMo能让此前最厉害的模型成绩在提高4.7个百分点。

这里有ELMo的更多介绍和资源：

https://allennlp.org/elmo

■ BERT

说BERT是2018年最火的NLP模型，一点也不为过，它甚至被称为NLP新时代的开端。

它由Google推出，全称是BidirectionalEncoderRepresentations fromTransformers，意思是来自Transformer的双向编码器表示，也是一种预训练语言表示的方法。

从性能上来看，没有哪个模型能与BERT一战。它在11项NLP任务上都取得了最顶尖成绩，到现在，SQuAD 2.0前10名只有一个不是BERT变体：

如果你还没有读过BERT的论文，真的应该在2018年结束前补完这一课：

https://arxiv.org/abs/1810.04805

另外，Google官方开源了训练代码和预训练模型：

https://github.com/google-research/bert

如果你是PyTorch党，也不怕。这里还有官方推荐的PyTorch重实现和转换脚本：

https://github.com/huggingface/pytorch-pretrained-BERT

■ PyText

BERT之后，NLP圈在2018年还能收获什么惊喜？答案是，一款新工具。

就在上周末，Facebook开源了自家工程师们一直在用的NLP建模框架PyText。这个框架，每天要为Facebook旗下各种应用处理超过10亿次NLP任务，是一个工业级的工具包。

（Facebook开源新NLP框架：简化部署流程，大规模应用也OK）

PyText基于PyTorch，能够加速从研究到应用的进度，从模型的研究到完整实施只需要几天时间。框架里还包含了一些预训练模型，可以直接拿来处理文本分类、序列标注等任务。

想试试？开源地址在此：

https://github.com/facebookresearch/pytext

■Duplex

如果前面这些研究对你来说都太抽象的话，Duplex则是NLP进展的最生动例证。

名字有点陌生？不过这个产品你一定听说过，它就是Google在2018年I/O开发者大会上展示的“打电话AI”。

它能主动打电话给美发店、餐馆预约服务，全程流畅交流，简直以假乱真。Google董事长John Hennessy后来称之为“非凡的突破”，还说：“在预约领域，这个AI已经通过了图灵测试。”

Duplex在多轮对话中表现出的理解能力、合成语音的自然程度，都是NLP目前水平的体现。

如果你还没看过它的视频……

■2019年展望

NLP在2019年会怎么样？我们借用一下ULMFiT作者Sebastian Ruder的展望：

预训练语言模型嵌入将无处不在：不用预训练模型，从头开始训练达到顶尖水平的模型，将十分罕见。

能编码专业信息的预训练表示将会出现，这是语言模型嵌入的一种补充。到时候，我们就能根据任务需要，把不同类型的预训练表示结合起来。

在多语言应用、跨语言模型上，将有更多研究。特别是在跨语言词嵌入的基础上，深度预训练跨语言表示将会出现。

计算机视觉

今年，无论是图像还是视频方向都有大量新研究问世，有三大研究曾在CV圈掀起了集体波澜。

■ BigGAN

今年9月，当搭载BigGAN的双盲评审中的ICLR 2019论文现身，行家们就沸腾了：简直看不出这是GAN自己生成的。

在计算机图像研究史上，BigGAN的效果比前人进步了一大截。比如在ImageNet上进行128×128分辨率的训练后，它的Inception Score（IS）得分166.3，是之前最佳得分52.52分3倍。

除了搞定128×128小图之外，BigGAN还能直接在256×256、512×512的ImageNet数据上训练，生成更让人信服的样本。

在论文中研究人员揭秘，BigGAN的惊人效果背后，真的付出了金钱的代价，最多要用512个TPU训练，费用可达11万美元，合人民币76万元。

不止是模型参数多，训练规模也是有GAN以来最大的。它的参数是前人的2-4倍，批次大小是前人的8倍。

相关地址

研究论文：https://openreview.net/pdf?id=B1xsqj09Fm

■ Fast.ai 18分钟训练整个ImageNet

在完整的ImageNet上训练一个模型需要多久？各大公司不断下血本刷新着记录。

不过，也有不那么烧计算资源的平民版。

今年8月，在线深度学习课程Fast.ai的创始人Jeremy Howard和自己的学生，用租来的亚马逊AWS的云计算资源，18分钟在ImageNet上将图像分类模型训练到了93%的准确率。

前前后后，Fast.ai团队只用了16个AWS云实例，每个实例搭载8块英伟达V100 GPU，结果比Google用TPU Pod在斯坦福DAWNBench测试上达到的速度还要快40%。

这样拔群的成绩，成本价只需要40美元，Fast.ai在博客中将其称作人人可实现。

相关地址

研究论文：https://tcwang0509.github.io/vid2vid/paper_vid2vid.pdf

GitHub地址https://github.com/NVIDIA/vid2vid

■2019趋势展望

Analytics Vidhya预计，明年在计算机视觉领域，对现有方法的改进和增强的研究可能多于创造新方法。

在美国，政府对无人机的限令可能会稍微“松绑”，开放程度可能增加。而今年大火的自监督学习明年可能会应用到更多研究中。

Analytics Vidhya对视觉领域也有一些期待，目前来看，在CVPR和ICML等国际顶会上公布最新研究成果，在工业界的应用情况还不乐观。他希望在2019年，能看到更多的研究在实际场景中落地。

Analytics Vidhya预计，视觉问答（Visual Question Answering，VQA）技术和视觉对话系统可能会在各种实际应用中首次亮相。

工具和框架

哪种工具最好？哪个框架代表了未来？这都是一个个能永远争论下去的话题。

没有异议的是，不管争辩的结果是什么，我们都需要掌握和了解最新的工具，否则就有可能被行业所抛弃。

今年，机器学习领域的工具和框架仍在快速的发展，下面就是这方面的总结和展望。

■ PyTorch 1.0

根据10月GitHub发布的2018年度报告，PyTorch在增长最快的开源项目排行上，名列第二。也是唯一入围的深度学习框架。

作为谷歌TensorFlow最大的“劲敌”，PyTorch其实是一个新兵，2017年1月19日才正式发布。2018年5月，PyTorch和Caffe2整合，成为新一代PyTorch 1.0，竞争力更进一步。

相较而言，PyTorch速度快而且非常灵活，在GitHub上有越来越多的开码都采用了PyTorch框架。可以预见，明年PyTorch会更加普及。

至于PyTorch和TensorFlow怎么选择？在我们之前发过的一篇报道里，不少大佬站PyTorch。

实际上，两个框架越来越像。前Google Brain深度学习研究员，Denny Britz认为，大多数情况下，选择哪一个深度学习框架，其实影响没那么大。

相关地址

PyTorch官网：https://pytorch.org/

■ AutoML

很多人将AutoML称为深度学习的新方式，认为它改变了整个系统。有了AutoML，我们就不再需要设计复杂的深度学习网络。

今年1月17日，谷歌推出Cloud AutoML服务，把自家的AutoML技术通过云平台对外发布，即便你不懂机器学习，也能训练出一个定制化的机器学习模型。

不过AutoML并不是谷歌的专利。过去几年，很多公司都在涉足这个领域，比方国外有RapidMiner、KNIME、DataRobot和H2O.ai等等。

除了这些公司的产品，还有一个开源库要介绍给大家：

Auto Keras！

这是一个用于执行AutoML任务的开源库，意在让更多人即便没有人工智能的专家背景，也能搞定机器学习这件事。

这个库的作者是美国德州农工大学（Texas A&M University）助理教授胡侠和他的两名博士生：金海峰、Qingquan Song。Auto Keras直击谷歌AutoML的三大缺陷：

第一，还得付钱。

第二，因为在云上，还得配置Docker容器和Kubernetes。

第三，服务商(Google)保证不了你数据安全和隐私。

相关地址

官网：https://autokeras.com/

GitHub：https://github.com/jhfjhfj1/autokeras

■ TensorFlow.js

今年3月底的TensorFlow开发者会峰会2018上，TensorFlow.js正式发布。

这是一个面向JavaScript开发者的机器学习框架，可以完全在浏览器中定义和训练模型，也能导入离线训练的TensorFlow和Keras模型进行预测，还对WebGL实现无缝支持。

在浏览器中使用TensorFlow.js可以扩展更多的应用场景，包括展开交互式的机器学习、所有数据都保存在客户端的情况等。

实际上，这个新发布的TensorFlow.js，就是基于之前的deeplearn.js，只不过被整合进TensorFlow之中。

谷歌还给了几个TensorFlow.js的应用案例。比如借用你的摄像头，来玩经典游戏：吃豆人（Pac-Man）。

相关地址

官网：https://js.tensorflow.org/

■2019趋势展望

在工具这个主题中，最受关注的就是AutoML。因为这是一个真正会改变游戏规则的核心技术。在此，引用H2O.ai的大神Marios Michailidis（KazAnova）对明年AutoML领域的展望。

以智能可视化、提供洞见等方式，帮助描述和理解数据

为数据集发现、构建、提取更好的特征

快速构建更强大、更智能的预测模型

通过机器学习可解释性，弥补黑盒建模带来的差距

推动这些模型的产生

强化学习

强化学习还有很长的路要走。

除了偶尔成为头条新闻之外，目前强化学习领域还缺乏真正的突破。强化学习的研究非常依赖数学，而且还没有形成真正的行业应用。

希望明年可以看到更多RL的实际用例。现在我每个月都会特别关注一下强化学习的进展，以期看到未来可能会有什么大事发生。

■ OpenAI的强化学习入门教程

全无机器学习基础的人类，现在也可以迅速上手强化学习。

11月初，OpenAI发布了强化学习 (RL) 入门教程：Spinning Up。从一套重要概念，到一系列关键算法实现代码，再到热身练习，每一步都以清晰简明为上，全程站在初学者视角。

团队表示，目前还没有一套比较通用的强化学习教材，RL领域只有一小撮人进得去。这样的状态要改变啊，因为强化学习真的很有用。

相关地址

教程入口：https://spinningup.openai.com/en/latest/index.html

GitHub传送门：https://github.com/openai/spinningup

■ 谷歌的强化学习新框架「多巴胺」

Dopamine（多巴胺），这是谷歌今年8月发布的强化学习开源框架，基于TensorFlow。

新框架在设计时就秉承着清晰简洁的理念，所以代码相对紧凑，大约是15个Python文件，基于Arcade Learning Environment (ALE)基准，整合了DQN、C51、 Rainbow agent精简版和ICML 2018上的Implicit Quantile Networks。

为了让研究人员能快速比较自己的想法和已有的方法，该框架提供了DQN、C51、 Rainbow agent精简版和Implicit Quantile Networks的玩ALE基准下的那60个雅达利游戏的完整训练数据。

另外，还有一组Dopamine的教学colab。

相关地址

Dopamine谷歌博客：https://ai.googleblog.com/2018/08/introducing-new-framework-for-flexible.html

Dopamine github下载：https://github.com/google/dopamine/tree/master/docs#downloads

colabs：https://github.com/google/dopamine/blob/master/dopamine/colab/README.md

游戏训练可视化网页：https://google.github.io/dopamine/baselines/plots.html

■2019趋势展望

DataHack Summit 2018发言人、ArxivInsights创始人Xander Steenbrugge，也是一名强化学习专家，以下是来自他的总结和展望。

1、由于辅助学习任务越来越多，增加了稀疏的外在奖励，样本的复杂性将继续提高。在非常稀疏的奖励环境中，效果非常好。

2、正因如此，直接在物理世界训练将越来越可行，替代当前大多先在虚拟环境中训练的方法。我预测2019年，会出现第一个只由深度学习训练，没有人工参与而且表现出色的机器人demo出现。

3、在DeepMind把AlphaGo的故事延续到生物领域之后（AlphaFold），我相信强化学习将逐步在学术领域外创造实际的商业价值。例如新药探索、电子芯片架构优化、车辆等等……

4、强化学习会有一个明显的转变，以前在训练数据上测试智能体的行为将不再视为“允许”。泛化指标将成为核心，就像监督学习一样。

AI道德

AI被滥用事故在2018年被频频爆出：Facebook AI助特朗普当选美国总统、Goggle与美国军方联手开发AI武器、微软为移民和海关执法局（ICE）提供云计算和人脸识别服务……

每一次事故都会重新掀起一波对AI道德准则的讨论高潮，一些硅谷科技公司也再次期间制定了企业AI准则。

Analytics Vidhya认为，AI道德现在还是一个灰色地带，目前还没有所有人可以遵循的框架，2019年将有更多企业和政府制定相关条例。

AI道德规范的制定，现在才刚刚起步。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1792

文章
47395

浏览量
238902
nlp

nlp

+关注

关注
1

文章
489

浏览量
22052

原文标题：一文看尽2018全年AI技术大突破

文章出处：【微信号：AItists，微信公众号：人工智能学家】欢迎添加关注！文章转载请注明出处。

嵌入式和人工智能究竟是什么关系?

了重要作用。在未来，随着嵌入式系统和人工智能技术的不断进步，我们可以预见更多创新应用的出现，为社会发展和生活品质的提升带来更多可能性。

发表于 11-14 16:39

未来智慧建筑：人工智能技术的无限可能

随着科技的不断发展，人工智能技术正逐渐渗透到各行各业，其中，在智能建筑领域的应用备受瞩目。智能建筑结合了传统建筑与先进科技的完美融合，在提高建筑效率、节能环保、增强安全性等方面发挥着重要作用。古河云

发表于 10-17 14:07 •254次阅读

《AI for Science：人工智能驱动科学创新》第6章人AI与能源科学读后感

探讨了人工智能如何通过技术创新推动能源科学的进步，为未来的可持续发展提供了强大的支持。首先，书中通过深入浅出的语言，介绍了人工智能在能源领域的基本概念和技术原理。这使得我对

发表于 10-14 09:27

AI for Science：人工智能驱动科学创新》第4章-AI与生命科学读后感

研究的进程。从蛋白质结构预测到基因测序与编辑，再到药物研发，人工智能技术在生命科学的各个层面都发挥着重要作用。特别是像AlphaFold这样的工具，成功解决了困扰生物学界半个多世纪的蛋白质折叠问题，将

发表于 10-14 09:21

《AI for Science：人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

，无疑为读者铺设了一条探索人工智能（AI）如何深刻影响并推动科学创新的道路。在阅读这一章后，我深刻感受到了人工智能技术在科学领域的广泛应用潜力以及其带来的革命性变化，以下是我个人的学习心得： 1.

发表于 10-14 09:12

risc-v在人工智能图像处理应用前景分析

RISC-V和Arm内核及其定制的机器学习和浮点运算单元，用于处理复杂的人工智能图像处理任务。四、未来发展趋势随着人工智能技术的不断发展和普及，RISC-V在人工智能图像处理领域的

发表于 09-28 11:00

名单公布！【书籍评测活动NO.44】AI for Science：人工智能驱动科学创新

每个交叉领域，本书通过案例进行了详尽的介绍，梳理了产业地图，并给出了相关政策启示。《AI for Science：人工智能驱动科学创新》适合所有关注人工智能技术和产业发展的读者阅读，特别适合材料科学

发表于 09-09 13:54

报名开启！深圳（国际）通用人工智能大会将启幕，国内外大咖齐聚话AI

呈现、产业展览、技术交流、学术论坛于一体的世界级人工智能合作交流平台。本次大会暨博览会由工业和信息化部政府采购中心、广东省工商联、前海合作区管理局、深圳市工信局等单位指导，深圳市人工智能

发表于 08-22 15:00

FPGA在人工智能中的应用有哪些？

定制化的硬件设计，提高了硬件的灵活性和适应性。综上所述，FPGA在人工智能领域的应用前景广阔，不仅可以用于深度学习的加速和云计算的加速，还可以针对特定应用场景进行定制化计算，为人工智能技术的发展提供有力支持。

发表于 07-29 17:05

人工智能技术在集成电路中的应用

随着科技的飞速发展，人工智能（AI）与集成电路技术已成为推动现代电子工业进步的重要力量。两者相辅相成，共同推动着电子产品的智能化、高效化和可靠化。本文将从多个角度详细探讨人工智能技术在

发表于 07-15 09:43 •3223次阅读

2030 年2030 年关于人工智能的五点预测

本文由半导体产业纵横（ID：ICVIEWS）编译自semiengineering以下是关于2030年人工智能世界将会呈现出的五个大胆预测。2030年，人工智能领域将会有怎样的变化

发表于 03-28 08:26 •712次阅读

2024 人工智能安全报告

近日，奇安信集团对外发布《2024人工智能安全报告》（以下简称《报告》）。据悉，这是我国首份人工智能安全报告。《

发表于 03-15 08:26 •624次阅读

人工智能技术的优势有哪些

人工智能技术的优势

发表于 01-19 15:58 •3165次阅读

福布斯公布关于2024年人工智能发展的十大预见

近日，福布斯公布了他们对2024年人工智能发展的十大预见，这些预测简洁而又充满洞察力。

发表于 01-12 10:18 •1058次阅读

2024年人工智能十大趋势预测

ChatGPT爆火已经一年有余，GPT版本已经从最初的3.5升级到了4.0。随着AI的持续升温，全球的生成式AI投资也带来了激增。IDC预测，到2027年，全球在人工智能解决方案上的支出将超过

发表于 01-10 08:27 •905次阅读

搜索历史

2018人工智能技术总结与2019趋势预测报告

评论

嵌入式和人工智能究竟是什么关系?

未来智慧建筑：人工智能技术的无限可能

《AI for Science：人工智能驱动科学创新》第6章人AI与能源科学读后感

AI for Science：人工智能驱动科学创新》第4章-AI与生命科学读后感

《AI for Science：人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

risc-v在人工智能图像处理应用前景分析

名单公布！【书籍评测活动NO.44】AI for Science：人工智能驱动科学创新

报名开启！深圳（国际）通用人工智能大会将启幕，国内外大咖齐聚话AI

FPGA在人工智能中的应用有哪些？

人工智能技术在集成电路中的应用

2030 年2030 年关于人工智能的五点预测

2024 人工智能安全报告

人工智能技术的优势有哪些

福布斯公布关于2024年人工智能发展的十大预见

2024年人工智能十大趋势预测