0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

图像生成领域的一个巨大进展,BigGAN的效果真的有那么好吗?

zhKF_jqr_AI 来源:未知 作者:李倩 2018-11-21 09:05 次阅读

编者按:今年国庆期间,论智介绍了当时正处于ICLR 2019盲审阶段的一篇论文:BigGAN。这是赫瑞-瓦特大学和DeepMind研究人员的合作成果,根据实验结果,他们把模型IS提高了一百多分——从52.52提升到了166.3——堪称图像生成领域的一个巨大进展。但大家都知道,通常论文里呈现的图像都是精品中的精品,媒体在宣传时也会尽量美化甚至“神化”结果。那么BigGAN的效果真的有那么好吗?

当我第一次看到这些图像时,说实话我很惊讶。不是因为图像本身潜藏着什么内容,而是它们都是一个叫BigGAN的神经网络生成的,都是假的,我还从来没见过这样宛若照片的生成图像。

上面这8幅图截自BigGAN的论文:Large Scale GAN Training for High Fidelity Natural Image Synthesis(arXiv:1809.11096),感兴趣的读者可以去读一读。几个月前,这篇论文在机器学习社区引起了巨大轰动,它不仅能生成512x512的高分辨率图像,还在Inception标准基准测试中取得了历史性的高分。人们在惊异于论文团队能支撑起的庞大处理能力(512 TPUv3)的同时,也不由心生怀疑:BigGAN是不是作弊了?它是不是直接照搬的训练集图像?

为此,不少研究人员去原始ImageNet检验了自己的想法,然而他们最终得出的结论是:这些图像确实都是BigGAN自己生成的。

虽然前人的做法已经证实BigGAN是“诚实”的,但如果我们再“杠”一下,一个合理的怀疑是论文结果之所以令人印象深刻,一个原因是这都是精选后的图像。就在几天前,BigGAN放出了自己的TF Hub Demo,相信不少人已经去体验过了,也发现这个问题。模型在一些常见物品上的表现非常好,比如狗和简单风景,因为它们往往画面单一、结构简单,但在生成更复杂、更多样的的人群上却很糟糕。

那么BigGAN不完美的一面是什么样的呢?下面是研究人员发布的一些生成图像:

毫无疑问,这三幅图展示的都是时钟,但区别于现实中的实物,这些钟更像人梦里的场景:诡异的字母、多余的指针。负责任的说,这些是BigGAN生成图像中的常见问题,它不能学习数据集里的各种字母和字符,再加上GAN本身不提供计数功能,所以我们经常能在里面发现有很多条腿的蜘蛛和眼睛长太多的青蛙,有时还可以看到有两个火车头的火车。

至于人类……相比其他能生成多样性图像的GAN,BigGAN在生成人类图像上其实已经很不错了。但我们是人,很擅长在这个物种的脸上、躯体上发现“丢失”部分,所以下面这些结果还是很令人头疼。

因此,如果快速浏览BigGAN生成的一系列图像,我们能从中发现不少图具有诡异的美感。比如模型在生成下面几幅景观图时都遵循了从数据集中学到的构图和光影,但当这些来自不同样本的素材杂糅到一起后,它们给人的感觉就成了既熟悉又奇怪。

当它试图“复制”各种人造设备(洗衣机?熔炉?)时,图像呈现的画面又极具艺术气息,仿佛电影中的一些夸张而富有韵味的过场镜头。

更有甚者,BigGAN还能模仿宏观上的软焦点,即一种通过有意识降低镜头的清晰度,得到柔和的表现效果的摄影技巧。如下图所示,我们看不清图中的对象是什么,但它们都表现出了极强的绘画感。

即便是最普通的东西,BigGAN仿佛成了一面滤镜,把它们渲染得极具美感,令人难以忘怀。

这是艺术吗?对于计算机视觉任务而言,这些充满“想象力”的扭曲恰好是BigGAN的不足,毕竟它的目标是生成极其逼真,同时尽可能多样化的图像。它并不是在创作,而只是在模型它看到的数据——ImageNet,一个巨大的用于训练各种图像处理算法的通用数据集。

但是,我们也必需认识到,研究人员在BigGAN的输出里精挑细选的过程其实也是一种艺术行为,包括这篇文章本身。你可以用这种方法讲述一个故事,或是制作一部令人难忘的美丽电影,这一切都取决于你收集的数据集以及选择的输出。未来,像BigGAN这样的算法将改变人类艺术——不是取代人类艺术家,而是成为一个强大的新协作工具。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4772

    浏览量

    100838
  • 数据集
    +关注

    关注

    4

    文章

    1208

    浏览量

    24719

原文标题:拆台BigGan:“失败”图像生成集锦

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    低质量图像生成与增强的区别 图像生成领域中存在的难点

    1. 论文信息   2. 引言   这篇论文的研究背景是图像生成领域中存在的难点 - 如何从低质量的
    的头像 发表于 08-03 15:36 1657次阅读
    低质量<b class='flag-5'>图像</b>的<b class='flag-5'>生成</b>与增强的区别 <b class='flag-5'>图像</b><b class='flag-5'>生成</b><b class='flag-5'>领域</b>中存在的难点

    在AD中,我的原理图里面有三反向器,我想用74LS04封装来表示,但是生成pcb时总是74ls04,如果真的制作电路板,岂不是很浪费材料,我想问会用AD的大神们,如何把原理图中的三反相器用74ls04封装在pcb里面表示。谢谢了。

    在AD中,我的原理图里面有三反向器,我想用74LS04封装来表示,但是生成pcb时总是
    发表于 05-22 21:40

    智能音响,智能WIFI,智能窗帘等智能的东西越来越多,然而我发现现在智能锁也出来了,智能锁真的那么好吗

    锁也出来了,真的是世界那么大,无奇不啊?智能锁算是新的说明词把,智能锁真的
    发表于 05-21 10:41

    低电流损耗真的好吗

    用电流损耗更低的RS-485收发器替代旧器件,结果却发生故障,是什么原因呢?低电流损耗真的好吗
    发表于 08-07 08:29

    异步信号的处理真的那么神秘吗

    说到异步时钟域的信号处理,想必是FPGA设计中很关键的技术,也是令很多工程师对FPGA望 而却步的原因。但是异步信号的处理真的那么神秘
    发表于 11-04 08:03

    美图手机,iphoneSE真的想象中的那么好吗

    些手机由于市场的炒作,导致被高估了。部分入手的用户,表示这些手机拿到手并没有想象中的那么好。
    发表于 03-09 09:54 4658次阅读

    华为P10的徕卡双摄水平如何?看完样张你来告诉我

    华为P10   如果你徕卡信仰,那么你听到徕卡第二代双摄定会心动不已。   但是效果真的
    发表于 03-09 15:23 4010次阅读

    图像生成领域巨大进展:SAGAN

    近年来,生成图像建模领域出现了不少成果,其中最前沿的是GAN,它能直接从数据中学习,生成高保真、多样化的图像。虽然GAN的训练是动态的,而且
    的头像 发表于 10-08 09:11 1.3w次阅读

    名为Metaverse的工具来帮助人们快速生成真的训练数据

    有的算法需要使用者具有定的编程能力,而有的算法生成的结果却又不是那么逼真。我们真正需要的是能够方便高效地
    的头像 发表于 10-08 15:20 5845次阅读

    还记得前些日子轰动时的BigGAN模型吗?

    为方便开发者练习和使用,DeepMind 今天又公开了 BigGAN 的 TensorFlow Hub,顺带还提供了在 Colab 上的 demo,开发者可以在 Colab 上运行图像生成和插值任务。
    的头像 发表于 11-14 09:31 7593次阅读

    当前生成图像最逼真的BigGAN被谷歌超越!造假效果更为逼真

    当前生成图像最逼真的BigGAN被超越了!
    的头像 发表于 03-11 15:28 4122次阅读

    基于生成式对抗网络的图像补全方法

    图像补全是数字图像处理领域的重要研究方向,具有广阔的应用前景。提出了种基于生成式对抗网络(GAN)的
    发表于 05-19 14:38 14次下载

    智能锁真的那么好吗,智能锁的优势是什么

    为什么要换智能锁、智能锁真的那么好吗?相信部分的人会有这样子的疑问,但是我想说的是,就算你
    的头像 发表于 06-29 17:43 2536次阅读

    差分对紧耦合真的比松耦合好吗

    差分对紧耦合真的比松耦合好吗
    的头像 发表于 11-30 15:24 987次阅读
    差分对紧耦合<b class='flag-5'>真的</b>比松耦合<b class='flag-5'>好吗</b>?

    借助谷歌Gemini和Imagen模型生成高质量图像

    以获得卓越的视觉效果。这个过程并不止于此;图像生成,Imagen 2 可以进步优化以满足特定需求,从而创建
    的头像 发表于 01-03 10:38 158次阅读
    借助谷歌Gemini和Imagen模型<b class='flag-5'>生成</b>高质量<b class='flag-5'>图像</b>