盘点2018年计算机视觉大突破-电子发烧友网

2018，仍是AI领域激动人心的一年。

计算机视觉领域同样精彩纷呈，与四年前相比GAN生成的假脸逼真到让人不敢相信；新工具、新框架的出现，也让这个领域的明天特别让人期待……

近日，Analytics Vidhya发布了一份2018人工智能技术总结与2019趋势预测报告，原文作者PRANAV DAR。这份报告总结和梳理了全年主要AI技术领域的重大进展，同时也给出了相关的资源地址，以便大家更好的使用、查询。

重点为大家介绍这份报告中的两个部分：

计算机视觉

工具和库

下面，我们就逐一来盘点和展望。

计算机视觉

今年，无论是图像还是视频方向都有大量新研究问世，有三大研究曾在CV圈掀起了集体波澜。

BigGAN

今年9月，当搭载BigGAN的双盲评审中的ICLR 2019论文现身，行家们就沸腾了：简直看不出这是GAN自己生成的。

在计算机图像研究史上，BigGAN的效果比前人进步了一大截。比如在ImageNet上进行128×128分辨率的训练后，它的Inception Score（IS）得分166.3，是之前最佳得分52.52分3倍。

除了搞定128×128小图之外，BigGAN还能直接在256×256、512×512的ImageNet数据上训练，生成更让人信服的样本。

在论文中研究人员揭秘，BigGAN的惊人效果背后，真的付出了金钱的代价，最多要用512个TPU训练，费用可达11万美元，合人民币76万元。

不止是模型参数多，训练规模也是有GAN以来最大的。它的参数是前人的2-4倍，批次大小是前人的8倍。

研究论文：https://openreview.net/pdf?id=B1xsqj09Fm

Fast.ai 18分钟训练整个ImageNet

在完整的ImageNet上训练一个模型需要多久？各大公司不断下血本刷新着记录。

不过，也有不那么烧计算资源的平民版。

今年8月，在线深度学习课程Fast.ai的创始人Jeremy Howard和自己的学生，用租来的亚马逊AWS的云计算资源，18分钟在ImageNet上将图像分类模型训练到了93%的准确率。

前前后后，Fast.ai团队只用了16个AWS云实例，每个实例搭载8块英伟达V100 GPU，结果比Google用TPU Pod在斯坦福DAWNBench测试上达到的速度还要快40%。

这样拔群的成绩，成本价只需要40美元，Fast.ai在博客中将其称作人人可实现。

Fast.ai博客介绍：https://www.fast.ai/2018/08/10/fastai-diu-imagenet/

vid2vid技术

今年8月，英伟达和MIT的研究团队高出一个超逼真高清视频生成AI。

只要一幅动态的语义地图，就可获得和真实世界几乎一模一样的视频。换句话说，只要把你心中的场景勾勒出来，无需实拍，电影级的视频就可以自动P出来：

除了街景，人脸也可生成：

这背后的vid2vid技术，是一种在生成对抗性学习框架下的新方法：精心设计的生成器和鉴别器架构，再加上时空对抗目标。

这种方法可以在分割蒙版、素描草图、人体姿势等多种输入格式上，实现高分辨率、逼真、时间相干的视频效果。

好消息，vid2vid现已被英伟达开源。

研究论文：https://tcwang0509.github.io/vid2vid/paper_vid2vid.pdf

GitHub地址：https://github.com/NVIDIA/vid2vid

2019趋势展望

Analytics Vidhya预计，明年在计算机视觉领域，对现有方法的改进和增强的研究可能多于创造新方法。

在美国，政府对无人机的限令可能会稍微“松绑”，开放程度可能增加。而今年大火的自监督学习明年可能会应用到更多研究中。

Analytics Vidhya对视觉领域也有一些期待，目前来看，在CVPR和ICML等国际顶会上公布最新研究成果，在工业界的应用情况还不乐观。他希望在2019年，能看到更多的研究在实际场景中落地。

Analytics Vidhya预计，视觉问答（Visual Question Answering，VQA）技术和视觉对话系统可能会在各种实际应用中首次亮相。

工具和框架

哪种工具最好？哪个框架代表了未来？这都是一个个能永远争论下去的话题。

没有异议的是，不管争辩的结果是什么，我们都需要掌握和了解最新的工具，否则就有可能被行业所抛弃。

今年，机器学习领域的工具和框架仍在快速的发展，下面就是这方面的总结和展望。

PyTorch 1.0

根据10月GitHub发布的2018年度报告，PyTorch在增长最快的开源项目排行上，名列第二。也是唯一入围的深度学习框架。

作为谷歌TensorFlow最大的“劲敌”，PyTorch其实是一个新兵，2017年1月19日才正式发布。2018年5月，PyTorch和Caffe2整合，成为新一代PyTorch 1.0，竞争力更进一步。

相较而言，PyTorch速度快而且非常灵活，在GitHub上有越来越多的开码都采用了PyTorch框架。可以预见，明年PyTorch会更加普及。

至于PyTorch和TensorFlow怎么选择？在我们之前发过的一篇报道里，不少大佬站PyTorch。

实际上，两个框架越来越像。前Google Brain深度学习研究员，Denny Britz认为，大多数情况下，选择哪一个深度学习框架，其实影响没那么大。

PyTorch官网：https://pytorch.org/

AutoML

很多人将AutoML称为深度学习的新方式，认为它改变了整个系统。有了AutoML，我们就不再需要设计复杂的深度学习网络。

今年1月17日，谷歌推出Cloud AutoML服务，把自家的AutoML技术通过云平台对外发布，即便你不懂机器学习，也能训练出一个定制化的机器学习模型。

不过AutoML并不是谷歌的专利。过去几年，很多公司都在涉足这个领域，比方国外有RapidMiner、KNIME、DataRobot和H2O.ai等等。

除了这些公司的产品，还有一个开源库要介绍给大家：

Auto Keras！

这是一个用于执行AutoML任务的开源库，意在让更多人即便没有人工智能的专家背景，也能搞定机器学习这件事。

这个库的作者是美国德州农工大学（Texas A&M University）助理教授胡侠和他的两名博士生：金海峰、Qingquan Song。Auto Keras直击谷歌AutoML的三大缺陷：

第一，还得付钱。

第二，因为在云上，还得配置Docker容器和Kubernetes。

第三，服务商(Google)保证不了你数据安全和隐私。

官网：https://autokeras.com/

GitHub：https://github.com/jhfjhfj1/autokeras

TensorFlow.js

今年3月底的TensorFlow开发者会峰会2018上，TensorFlow.js正式发布。

这是一个面向JavaScript开发者的机器学习框架，可以完全在浏览器中定义和训练模型，也能导入离线训练的TensorFlow和Keras模型进行预测，还对WebGL实现无缝支持。

在浏览器中使用TensorFlow.js可以扩展更多的应用场景，包括展开交互式的机器学习、所有数据都保存在客户端的情况等。

实际上，这个新发布的TensorFlow.js，就是基于之前的deeplearn.js，只不过被整合进TensorFlow之中。

谷歌还给了几个TensorFlow.js的应用案例。比如借用你的摄像头，来玩经典游戏：吃豆人（Pac-Man）。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1797

文章
47909

浏览量
240950
计算机视觉

计算机视觉

+关注

关注
8

文章
1701

浏览量
46180

原文标题：一文看尽2018全年计算机视觉大突破

文章出处：【微信号：AItists，微信公众号：人工智能学家】欢迎添加关注！文章转载请注明出处。

计算机视觉有哪些优缺点

计算机视觉作为人工智能领域的一个重要分支，旨在使计算机能够像人类一样理解和解释图像和视频中的信息。这一技术的发展不仅推动了多个行业的变革，也带来了诸多优势，但同时也伴随着一些挑战和局限性。以下是对

发表于 08-14 09:49 •1199次阅读

地平线科研论文入选国际计算机视觉顶会ECCV 2024

近日，地平线两篇论文入选国际计算机视觉顶会ECCV 2024，自动驾驶算法技术再有新突破。

发表于 07-27 11:10 •1024次阅读

地平线科研论文入选国际<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>顶会ECCV 2024

计算机视觉技术的AI算法模型

计算机视觉技术作为人工智能领域的一个重要分支，旨在使计算机能够像人类一样理解和解释图像及视频中的信息。为了实现这一目标，计算机视觉技术依赖于

发表于 07-24 12:46 •1141次阅读

机器视觉和计算机视觉有什么区别

机器视觉和计算机视觉是两个密切相关但又有所区别的概念。一、定义机器视觉机器视觉，又称为计算机

发表于 07-16 10:23 •662次阅读

计算机视觉的五大技术

计算机视觉作为深度学习领域最热门的研究方向之一，其技术涵盖了多个方面，为人工智能的发展开拓了广阔的道路。以下是对计算机视觉五大技术的详细解析，包括图像分类、对象检测、目标跟踪、语义分割

发表于 07-10 18:26 •1649次阅读

计算机视觉的工作原理和应用

图像和视频中提取有用信息，进而进行决策和行动。自1960年代第一批学术论文问世以来，计算机视觉技术已经取得了长足的发展，并在多个领域展现出巨大的应用潜力和价值。

发表于 07-10 18:24 •2381次阅读

机器人视觉与计算机视觉的区别与联系

机器人视觉与计算机视觉是两个密切相关但又有所区别的领域。 1. 引言在当今科技迅猛发展的时代，机器人和计算机视觉技术在各个领域发挥着越来越

发表于 07-09 09:27 •780次阅读

计算机视觉与人工智能的关系是什么

引言 计算机视觉是一门研究如何使计算机能够理解和解释视觉信息的学科。它涉及到图像处理、模式识别、机器学习等多个领域的知识。人工智能则是研究如何使计算

发表于 07-09 09:25 •797次阅读

计算机视觉与智能感知是干嘛的

引言 计算机视觉（Computer Vision）是一门研究如何使计算机能够理解和解释视觉信息的学科。它涉及到图像处理、模式识别、机器学习等多个领域，是人工智能的重要组成部分。智能

发表于 07-09 09:23 •1152次阅读

计算机视觉和机器视觉区别在哪

计算机视觉和机器视觉是两个密切相关但又有明显区别的领域。一、定义 计算机视觉 计算机

发表于 07-09 09:22 •553次阅读

计算机视觉和图像处理的区别和联系

计算机视觉和图像处理是两个密切相关但又有明显区别的领域。 1. 基本概念 1.1 计算机视觉 计算机视觉

发表于 07-09 09:16 •1526次阅读

计算机视觉属于人工智能吗

属于，计算机视觉是人工智能领域的一个重要分支。引言 计算机视觉是一门研究如何使计算机具有视觉能

发表于 07-09 09:11 •1465次阅读

深度学习在计算机视觉领域的应用

随着人工智能技术的飞速发展，深度学习作为其中的核心技术之一，已经在计算机视觉领域取得了显著的成果。计算机视觉，作为计算机科学的一个重要分支，

发表于 07-01 11:38 •1039次阅读

机器视觉与计算机视觉的区别

在人工智能和自动化技术的快速发展中，机器视觉（Machine Vision, MV）和计算机视觉（Computer Vision, CV）作为两个重要的分支领域，都扮演着至关重要的角色。尽管它们在

发表于 06-06 17:24 •1503次阅读

计算机视觉的主要研究方向

计算机视觉（Computer Vision, CV）作为人工智能领域的一个重要分支，致力于使计算机能够像人眼一样理解和解释图像和视频中的信息。随着深度学习、大数据等技术的快速发展，计算机

发表于 06-06 17:17 •1199次阅读

搜索历史

盘点2018年计算机视觉大突破

评论

计算机视觉有哪些优缺点

地平线科研论文入选国际计算机视觉顶会ECCV 2024

计算机视觉技术的AI算法模型

机器视觉和计算机视觉有什么区别

计算机视觉的五大技术

计算机视觉的工作原理和应用

机器人视觉与计算机视觉的区别与联系

计算机视觉与人工智能的关系是什么

计算机视觉与智能感知是干嘛的

计算机视觉和机器视觉区别在哪

计算机视觉和图像处理的区别和联系

计算机视觉属于人工智能吗

深度学习在计算机视觉领域的应用

机器视觉与计算机视觉的区别

计算机视觉的主要研究方向