0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英伟达面目生成器升级至2.0 计算机视觉或许可以再突破

张康康 2019-07-29 18:27 次阅读

近期,由英伟达AI团队为GAN创造了一种新的生成器,连GAN之父Goodfellow也忍不住发出称赞。从下图我们可以看到很多的清晰的人像,但这些并不是照片,而是一组完全由计算机生成的图片。


这个结构不需要人类监督,可以自动分离图像中的各种属性。这样,在或粗糙或精细的不同尺度上,人类便能自如地控制GAN的生成。

英伟达研究人员在论文中写道,他们提出的新架构可以完成自动学习,无监督地分离搞基属性以及生成图像中的随机变化,并且可以合成进行更直观且特定于比例的控制。也就是说,这种新的生成器在生成和混合图像,特别是人脸图像时,可以更好地感知图像之间有意义的变化,并且在各种尺度上针对这些变化做出引导。

研究人员使用的旧系统可能产生两个“不同”的面部,这两个面部其实大致相同,只是一个人的耳朵被抹去了,两个人的衬衫是不同的颜色,而这些并不是真正的面部特异性特征,不过系统并不知道这些是无需重点关注的变化,而当成了两个人来处理。

e033db547ce1402596bf22191c576f97


1.Generation

什么是生成(generation)?就是模型通过学习一些数据,然后生成类似的数据。让机器看一些动物图片,然后自己来产生动物的图片,这就是生成。

以前就有很多可以用来生成的技术了,比如 auto-encoder(自编码器),结构如下图:

632121f7539f43419bb660feee4f64c3


你训练一个 encoder,把 input 转换成 code,然后训练一个 decoder,把 code 转换成一个 image,然后计算得到的 image 和 input 之间的 MSE(mean square error),训练完这个 model 之后,取出后半部分 NN Decoder,输入一个随机的 code,就能 generate 一个 image。

但是 auto-encoder 生成 image 的效果,当然看着很别扭啦,一眼就能看出真假。所以后来还提出了比如VAE这样的生成模型,我对此也不是很了解,在这就不细说。

上述的这些生成模型,其实有一个非常严重的弊端。比如 VAE,它生成的 image 是希望和 input 越相似越好,但是 model 是如何来衡量这个相似呢?model 会计算一个 loss,采用的大多是 MSE,即每一个像素上的均方差。

df6d3266c90749f6a6c018df889b5ec4


第一张,我们认为是好的生成图片,第二张是差的生成图片,但是对于上述的人来说,这两张图片计算出来的 loss 是一样大的,所以会认为是一样好的图片。

这就是上述生成模型的弊端,用来衡量生成图片好坏的标准并不能很好的完成想要实现的目的。于是就有了下面要讲的 GAN。

2.GAN

GAN 是如何生成图片的呢?首先大家都知道 GAN 有两个网络,一个是 generator,一个是 discriminator,从二人零和博弈中受启发,通过两个网络互相对抗来达到最好的生成效果。流程如下:

6c03437adbfe4e138c2defd290029f21


主要流程类似上面这个图。首先,有一个一代的 generator,它能生成一些很差的图片,然后有一个一代的 discriminator,它能准确的把生成的图片,和真实的图片分类,简而言之,这个 discriminator 就是一个二分类器,对生成的图片输出 0,对真实的图片输出 1。

接着,开始训练出二代的 generator,它能生成稍好一点的图片,能够让一代的 discriminator 认为这些生成的图片是真实的图片。然后会训练出一个二代的 discriminator,它能准确的识别出真实的图片,和二代 generator 生成的图片。以此类推,会有三代,四代。。。n 代的 generator 和 discriminator,最后 discriminator 无法分辨生成的图片和真实图片,这个网络就拟合了。

3.GAN2.0到GAN3.0

使用基于风格的生成器的GAN2.0,在各个方面都优于传统的GAN。英特尔团队相信,对高阶属性与随机效应分离的研究,以及中间隐空间(intermediate latent space)的线性,将会对提高GAN合成的理解和可控性有很大的帮助。平均路径长度度量可以很容易地用作训练中的正则化器,也许线性可分度量的某些变体也可以作为一个正则化器。

除了人像,GAN 2.0还可以生成房间、汽车等各种场景。有了这样的技术,未来再也不用发愁图像数据集。毕竟这些计算机生成的“人”,已经如此的真实。总的来说,在训练期间直接塑造中间隐空间(intermediate latent space)的方法将为未来的工作提供有趣的途径。而未来,GAN3.0将会突破瓶颈,达到更令人瞩目的视觉成就。

4.结语

目前国内做计算机视觉的以旷视科技Face++、商汤科技、极链科技Video++为代表的AI头部企业为代表,以算法为核心竞争力的AI初创企业,扎根于技术,都在计算机视觉上做出了卓越的成就。计算机视觉的研究和发展具有极其重要的意义,不但满足人工智能应用的需要,如在计算机实现人工的视觉系统的需要。其次这些成果可以安装在计算机和各种机器上,使计算机和机器人能够具有“看”和创作图像的能力。视觉计算模型的研究结果反过来对于我们进一步认识和研究人类视觉系统本身的机理,甚至人脑的机理,也同样具有相当大的参考意义。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机视觉
    +关注

    关注

    8

    文章

    1698

    浏览量

    46023
  • 英伟达
    +关注

    关注

    22

    文章

    3780

    浏览量

    91219
收藏 人收藏

    评论

    相关推荐

    Freepik携手Magnific AI推出AI图像生成器

    近日,设计资源巨头Freepik携手Magnific AI,共同推出了革命性的AI图像生成器——Freepik Mystic,这一里程碑式的发布标志着AI图像创作领域迈入了一个全新的高度
    的头像 发表于 08-30 16:23 1145次阅读

    计算机视觉有哪些优缺点

    计算机视觉作为人工智能领域的一个重要分支,旨在使计算机能够像人类一样理解和解释图像和视频中的信息。这一技术的发展不仅推动了多个行业的变革,也带来了诸多优势,但同时也伴随着一些挑战和局限性。以下是对
    的头像 发表于 08-14 09:49 1006次阅读

    机器视觉计算机视觉有什么区别

    机器视觉计算机视觉是两个密切相关但又有所区别的概念。 一、定义 机器视觉 机器视觉,又称为计算机
    的头像 发表于 07-16 10:23 556次阅读

    计算机视觉的工作原理和应用

    计算机视觉(Computer Vision,简称CV)是一门跨学科的研究领域,它利用计算机和数学算法来模拟人类视觉系统对图像和视频进行识别、理解、分析和处理。其核心目标在于使
    的头像 发表于 07-10 18:24 2056次阅读

    计算机视觉与人工智能的关系是什么

    引言 计算机视觉是一门研究如何使计算机能够理解和解释视觉信息的学科。它涉及到图像处理、模式识别、机器学习等多个领域的知识。人工智能则是研究如何使计算
    的头像 发表于 07-09 09:25 674次阅读

    计算机视觉和机器视觉区别在哪

    计算机视觉和机器视觉是两个密切相关但又有明显区别的领域。 一、定义 计算机视觉 计算机
    的头像 发表于 07-09 09:22 466次阅读

    计算机视觉属于人工智能吗

    属于,计算机视觉是人工智能领域的一个重要分支。 引言 计算机视觉是一门研究如何使计算机具有视觉
    的头像 发表于 07-09 09:11 1333次阅读

    《科技日报》头版报道国产超导量子计算机“卡脖子”关键设备技术升级

    《科技日报》头版报道国产超导量子计算机“卡脖子”关键设备技术升级
    的头像 发表于 06-13 08:22 390次阅读
    《科技日报》头版报道国产超导量子<b class='flag-5'>计算机</b>“卡脖子”关键设备技术<b class='flag-5'>再</b><b class='flag-5'>升级</b>

    计算机视觉的主要研究方向

    计算机视觉(Computer Vision, CV)作为人工智能领域的一个重要分支,致力于使计算机能够像人眼一样理解和解释图像和视频中的信息。随着深度学习、大数据等技术的快速发展,计算机
    的头像 发表于 06-06 17:17 997次阅读

    英伟帮助日本建造混合量子超级计算机

    英伟正在帮助日本建造混合量子超级计算机,这是日本国家量子计算计划的一部分。
    的头像 发表于 04-23 14:54 549次阅读

    Minitab 交互式表格生成器

    生成器
    MinitabUG
    发布于 :2024年04月03日 15:58:54

    诺和诺德基金会将联手英伟打造丹麦AI超级计算机

    诺和诺德基金会携手英伟,共同宣布在丹麦打造一台领先的AI超级计算机。这台超级计算机将致力于推动医疗保健、生命科学以及绿色转型等领域的科研与创新,为丹麦乃至全球的诺和诺德基金会携手
    的头像 发表于 03-21 13:43 621次阅读

    计算机视觉的十大算法

    随着科技的不断发展,计算机视觉领域也取得了长足的进步。本文将介绍计算机视觉领域的十大算法,包括它们的基本原理、应用场景和优缺点。这些算法在图像处理、目标检测、人脸识别等领域有着广泛的应
    的头像 发表于 02-19 13:26 1256次阅读
    <b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>的十大算法

    RL78的代码生成器发布说明

    电子发烧友网站提供《RL78的代码生成器发布说明.pdf》资料免费下载
    发表于 01-30 09:48 0次下载
    RL78的代码<b class='flag-5'>生成器</b>发布说明

    英伟与Equinix合作为企业客户提供超级计算机系统

    近日,数据中心运营商Equinix与芯片巨头英伟宣布达成一项重要合作。双方将共同为企业客户提供英伟的超级计算机系统,使企业能够更轻松地拥
    的头像 发表于 01-29 11:20 744次阅读