深度学习术可以由一而多的图像翻译-电子发烧友网

我们都知道变色龙可以改变皮肤的颜色纹理，而如今深度学习技术甚至可以做到将一只猫的图像同时转变为狗、甚至狮子和老虎的图像。这种可以将一张图片转换为多种不同目标的算法不仅为电影和游戏场景制作提供了丰富的素材，更能为自动驾驶迅速和便捷地生成不同路况下丰富的训练数据，以不断提高面对不同路况的能力。

由一而多的图像翻译

早先研究人员发现可以利用非监督的方法进行图像翻译，将一幅图像和视频转换为另一个。它通过利用来自独立域中边缘分布的图像来学习处于不同域之中的联合概率分布。研究人员通过建立共享隐含空间的假设，提出了一个图像对图像的非监督翻译框架，并利用对偶GANs实现了高效的图像翻译。在实验中进行了街道场景、动物图像以及人脸的图像翻译过程。

而随着研究的深入，研究人员们研发出了新的网络结构。这种多模态的网络结构将可以同时将一张图片转换为多张不同的图像输出。类似于早先的图像翻译研究，多模态图形翻译使用了两种深度学习技术：非监督学习和生成对抗网络（GANs）,其目的在于为机器赋予更强的想象力，可以让机器将阳光灿烂的街道照片变成狂风暴雨或者茫茫冬日的不同景色。这种技术对于无人驾驶有着极大的促进作用。与之前的技术不同，研究人员们通过转换不止能得到一个冬天的实例，而可以同时得到一系列不同降雪量的的冬日场景。这意味着单一的数据可以生成一系列丰富的、覆盖更广泛情况的数据集。

为了实现这一非监督图像的翻译任务，研究人员们提出了多模态非监督图像翻译架构（Multimodal Unsupervised Image-to-image Translation ，MUNIT），首先假设图像的表示可以被分解成与域无关的编码，同时可以采集到与域相关的风格编码。为了实现不同域间的图像翻译，作者将内容编码与目标域中采样的风格编码结合在一起，实现了多个目标样本的输出。这种多模态非监督图像翻译技术将图像内容和风格分离开来。例如对于图像中的一只猫来说，它的姿势是图像的内容而猫的种类则是图像的风格。在实际翻译过程中，姿势是固定的，而风格则随着目标的不同而不同。可以是狗狗或者豹子。动物的姿势是保持不变的，而它的风格则可以覆盖从柯基到美洲豹各色不同的品种。

同样的技术还能用于生成一天中不同时间的场景图像、不同天气条件下或者光照条件下的场景。这样的技术对于需要大量数据训练的深度神经网络大有裨益。

除了自动驾驶和深度学习领域外，多模态图像翻译技术还能为游戏公司提供一种迅速创造新角色和新世界的有力工具。同样艺术家们也可以生成复杂或者丰富场景的工作交给机器去处理，将更多的精力投入到创作的核心上来。

没数据？没问题！

这一研究主要建立在一种善于生成视觉数据的深度学习方法——GANs上。一个典型的GANs包含两个互相竞争的神经网络：一个用于生成图像而另一个用于判断生成的图像是否看起来像真的，或者是假的。GANs在数据短缺的时候会显示出更强大的能力。

一般的图像翻译需要两个互相关联的数据集：如果需要将猫转换为狗或者其他动物的话，需要收集同样姿势猫和狗的照片。而这样的数据十分稀缺，有些时候甚至是不可能收集的。而本文中提出的MUNIT方法则突破了这个限制，使得图像翻译的使用范围大大增加。它无需使用一一对应的数据即可实现多模态的转化。

MUNIT同时还可以在无需抓取同一视点记录的情况下为自动驾驶生成大量的训练数据，可以再同一视角同一地点的精确位置下生成各种交通情况和细节的数据。除此之外、GANs还免去了对于图像或者视频冗长的人工标注，节约了大量的时间和金钱。

论文的作者表示希望给机器赋予人类一样的想象力。就像人类在看风景时，无论庭前花开花落，总能想象出春夏秋冬四季变迁的模样。在眺望风景时候，朝晖夕阴、气象万千、四季轮回都了然于胸。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4772

浏览量
100804
自动驾驶

自动驾驶

+关注

关注
784

文章
13826

浏览量
166495
深度学习

深度学习

+关注

关注
73

文章
5503

浏览量
121204

原文标题：因吹斯汀！看深度学习如何将一只猫的图像同时转变为狗、狮子和老虎

文章出处：【微信号：thejiangmen，微信公众号：将门创投】欢迎添加关注！文章转载请注明出处。

深度学习DeepLearning实战

测试)三、主讲内容1:课程一、强化学习简介课程二、强化学习基础课程三、深度强化学习基础课程四、多

发表于 01-09 17:01

什么是深度学习？使用FPGA进行深度学习的好处？

什么是深度学习为了解释深度学习，有必要了解神经网络。神经网络是一种模拟人脑的神经元和神经网络的计算模型。作为具体示例，让我们考虑

发表于 02-17 16:56

专栏 | 深度学习在NLP中的运用？从分词、词性到机器翻译、对话系统

从分词、词性等基础模块，到机器翻译、知识问答等领域，本文列举并分析一些深度学习在 NLP 领域的具体运用，希望对大家研究深度

发表于 08-18 17:06 •7559次阅读

专栏 | <b class='flag-5'>深度</b><b class='flag-5'>学习</b>在NLP中的运用？从分词、词性到机器<b class='flag-5'>翻译</b>、对话系统

深度学习在图像超清化的应用

深度学习的出现使得算法对图像的语义级操作成为可能。本文即是介绍深度学习技术在图像超清化问题上的最

发表于 09-30 11:15 •1次下载

<b class='flag-5'>深度</b><b class='flag-5'>学习</b>在<b class='flag-5'>图像</b>超清化的应用

基于深度学习的多尺幅深度网络监督模型

针对场景标注中如何产生良好的内部视觉信息表达和有效利用上下文语义信息两个至关重要的问题，提出一种基于深度学习的多尺度深度网络监督模型。与传统

发表于 11-28 14:22 •0次下载

基于<b class='flag-5'>深度</b><b class='flag-5'>学习</b>的<b class='flag-5'>多</b>尺幅<b class='flag-5'>深度</b>网络监督模型

当机器翻译遇见深度学习

据VentureBeat报道，谷歌利用被称为深度学习的人工智能改进了多项产品，例如谷歌地图、谷歌照片和Gmail。下一个可能利用这种技术的服务将是谷歌翻译。

发表于 05-18 22:15 •2721次阅读

图像识别中的深度学习

现阶段比较受欢迎的图像识别基础算法为深度学习法，深度学习模型属于神经网络，而神经网络的历史可追溯

发表于 05-25 15:59 •5006次阅读

深度学习怎么实现图像到图像的翻译

图像到图像的翻译是一类视觉和图形问题，其目标是学习输入图像和输出

发表于 05-04 18:12 •4194次阅读

深度学习中图像分割的方法和应用

介绍使图像分割的方法，包括传统方法和深度学习方法，以及应用场景。基于人工智能和深度学习方法的现代计算机视觉技术在过去10年里取得了显著进展

发表于 11-27 10:29 •3184次阅读

基于深度学习的图像修复模型及实验对比

图像修复是计算机视觉领域中极具挑战性的硏究课题。近年来，深度学习技术的发展推动了图像修复性能的显著提升，使得图像修复这

发表于 04-08 09:38 •20次下载

基于<b class='flag-5'>深度</b><b class='flag-5'>学习</b>的<b class='flag-5'>图像</b>修复模型及实验对比

简述文本与图像领域的多模态学习有关问题

模型中的几个分支角度，简述文本与图像领域的多模态学习有关问题。 1. 引言近年来，计算机视觉和自然语言处理方向均取得了很大进展。而融合二者的多

发表于 08-26 16:29 •6871次阅读

什么是深度学习（Deep Learning）？深度学习的工作原理详解

本文将带您了解深度学习的工作原理与相关案例。什么是深度学习？深度学习是机器

发表于 04-01 10:34 •1.1w次阅读

深度学习中的图像分割

深度学习可以学习视觉输入的模式，以预测组成图像的对象类。用于图像处理的主要

发表于 05-05 11:35 •1265次阅读

深度学习框架tensorflow介绍

。TensorFlow可以用于各种不同的任务，包括图像和语音识别、自然语言处理和推荐系统等。 TensorFlow提供了一个灵活和强大的平台，可以用于构建和训练各种

发表于 08-17 16:11 •2532次阅读

GPU深度学习应用案例

能力，可以显著提高图像识别模型的训练速度和准确性。例如，在人脸识别、自动驾驶等领域，GPU被广泛应用于加速深度学习模型的训练和推理过程。二、自然语言处理自然语言处理（NLP）是

发表于 10-27 11:13 •399次阅读

搜索历史

深度学习术可以由一而多的图像翻译

评论