0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种用机器学习进行3D实时渲染的新方法:用paGAN实现3D实时渲染

zhKF_jqr_AI 来源:未知 作者:李倩 2018-08-11 09:27 次阅读

编者按:近日,影视后期特效网站FXGuide在文章中介绍了一种用机器学习进行3D实时渲染的新方法,在手机中安装相关软件后,用户可以实现脸部即时卡通化,或是把自己的动态表情转移到别人的脸上。这项技术来自AI创企Pinscreen,但不久前,它的首席执行官/联合创始人却陷入了一场颇为轰动的学术丑闻……

SIGGRAPH是计算图形学的年度顶级会议,发展至今,它已经成为全球最负盛名的的CG展示、学术研讨会——除了论文展示环节,以电影、游戏为代表的工业界也会争相展示最新技术,比如今年与会的暴雪娱乐和皮克斯,可想而知,它的热闹程度完全不亚于任何大型博览会。

今年的SIGGRAPH将在8月12日召开,为期5天。作为计算图形学最重要的会议,随着近年来AI热度的不断上升,和计算机视觉一样,SIGGRAPH的机器学习论文占比也屡破新高,这片图形学的圣域大有“沦陷”趋势。

而Pinscreen将在Real Time Live活动中展示的正是一项机器学习成果:paGAN。

学术造假丑闻

说到这家公司,就不得不提它的首席执行官/联合创始人——黎颢。这是个在南加州大学任教的华人教授,他是SIGGRAPH的常客,也曾被微软学术搜索评为“过去5年计算机图形学领域十大影响力学者”,在业内有相当的知名度和威望。

黎颢

但二十几天前,他的前雇员Iman Sadeghi博士却向他发起指控。在递交给法院的报告中,Iman Sadeghi列出了黎颢的几大罪状:1)用人工绘制图像假冒AI作品,并在SIGGRAPH上展示“成果”;2)用技术“成果”欺骗投资人;3)恶意解雇并殴打Sadeghi博士。

这个消息立即在学界引起轩然大波,毕竟如此恶劣的学术不端行为还是很少见的。但随着舆论持续发酵,一些关于Sadeghi博士的负面消息也出现了:1)入职后基本不工作,老是不见人影;2)试图抢夺公司财产,删除重要数据;3)殴打劝阻的女员工。

当然,以上只是他们的一面之词,最终结果还是要交给加州法院定夺。作为旁观者,我们无需也无法作出判断。综观此次Pinscreen的展示内容预告,我们发现它和诉讼报告中提到的很不一样,所以觉得有介绍的必要。至于这个成果是不是“造假”得来的,还有待时间检验。

用paGAN实现3D实时渲染

在介绍技术前,我们先来看看paGAN的具体效果。

下图的左侧是FXGuide编辑Mike Seymour用iPhone拍摄的源视频,右侧是实时渲染CGI。可以发现,Pinscreen的成果确实可以在同一源视频上进行数字化构图,为真实人脸生成3D数字掩模。除了混合边缘上的小调整,整个过程已经基本实现自动化。

在渲染过程中,皱纹等细节的处理通常比较困难。如上图所示,虽然软件没能准确重现每一条皱纹及其深浅程度,但右图中的皱纹还是非常连贯,没有出现参差错落的情况。根据Pinscreen的说法,这些都是自动生成的。

上图是Sadeghi博士在诉讼报告中展示的学术造假示例。据网友实验,Pinscreen当前版本的APP在处理肩部以下头发时效果很差,对比Haley Dunphy那一头金发(这是2017年提交给SIGGRAPH的成果),因此很多人认为他提出的“头发为人工制作”的说法是可信的。

但去年这个效果似乎和Mike Seymour的最新实验有很大差距,具体我们可以等新版软件发布再去验证。

1. 用单张jpeg构建面部

如果要生成卡通化的3D人脸,首先我们要构建3D模型。Pinscreen现在使用的技术是基于单张Jpeg图像构建3D脸部模型,具体方法是靠“猜”,也就是先制作合理的3D网格,然后对输入图像和3D形状执行形状匹配和角度变换。

事实上,除了Pinscreen,其他公司也用机器学习实现了这一技术,它们的商业模式也基于这种创新。但Pinscreen的优势是处理效果更好,目标更长远——开发直接面向用户的端到端解决方案。

2. 每秒1000帧的脸部跟踪

获得模型后,下一步就是追踪人脸位置和细节状态,保证模型的实时更新。据介绍,目前Pinscreen开发的最强大的脸部追踪器是VGPT(Veli Goodo Pace Tracka),这也是他们即将在SIGGRAPH上实时演示的重要内容。

VGPY是一个基于深度学习的轻量级网络,本身只有5M。不同于传统追踪器,它既不追踪特征,也不追踪标记,而是基于直接推断。具体而言,人类的脸部大同小异,以往我们使用的方法是在上面标记一些关键特征点,然后在统计的基础上利用特征点来定位对齐。但根据黎颢介绍,VGPY使用的是3D高精度头部模型、微表情测量工具FACS等工具,速度比AAM算法快很多。

这个追踪器的速度也十分惊人。如果是在显卡为1080P的PC上,VGPY的帧数高达1000;如果是在手机上,它的速度也有60到90 fps。虽然是快速无标记追踪,但VGPY可以始终保持高性能和高稳健性。当追踪对象经过遮挡物时,它会在短时间内重新获取面部并继续工作。

3D人脸是左侧图像的,但脸部的动态是黎颢的(6个月前的成果)

3. paGAN

paGAN的全称是Photoreal Avatar Generative Adversarial Network,它充当整个系统中的“渲染器”。

渲染通常是绘图的最后一步。就目前的传统方法来看,如果我们要对头像或人进行建模、添加纹理、调节明暗和图像渲染,大量高质量数据是必须的。这通常意味着准备多幅图像,测量各个角度,进行高质量扫描,等到一切都准备好,我们才能在3D网格上添加各种纹理、凹凸贴图,镜面反射贴图等。除了着色器,我们还需要一个高质量渲染算法。

虽然进程安排存在先后,但上述内容都息息相关,而现实中承担这些工作的通常是经验丰富的工作人员和艺术家。这也意味着谁投入资源多,谁就做得好,这种由技术门槛带来的不公平给电影、游戏工业带去了不少困扰。

为了解决这个问题,Pinscreen团队跳过传统方法,他们采取的第一种做法是不使用建模/纹理/照明和渲染管道,而是如下图所示,直接将面部采样点重新上色、复原、旋转并放置在模拟的3D环境中,就像3D CGI头一样。

但这种方法失败了,因为复原的头像无法正确定位,也不能完全动画化。由于实际上只是把照片投影在匹配的几何体上,它只能在静态时实现高保真。

经历了失败后,Pinscreen把目光转向最先进的深度生成模型——GAN。这是一种非常特殊的深度学习网络,它已经被证明能生成逼真的2D图像。黎颢和他的团队希望能用GAN代替传统做法,实现正确角度“渲染”。

GAN是Ian Goofellow于2014年提出的一种神经网络,它包含一个生成器G和一个判定器D。其中G从潜在空间随机采样,把采样得到的样本作为输入,目标是输出类似真实数据的数据;而D的输入是G的输出,它负责鉴定这个生成的伪数据和真实数据像不像,然后把分类结果馈送给G,让它积累“作假”经验。

当用于面部时,原始GAN的问题在于输出的是个2D图像,而且非常难控制。最后,Pinscreen团队做出了取舍,他们为paGAN制定的目标是生成高度逼真的眼部和嘴部渲染。而根据最终结果,GAN确实在嘴部运动和舌头运动上表现出色。

4. 重新定位

之前提到了,Pinscreen的3D脸部模型来自单张jepg,而它的表情则完全来自另一人,所以最后生成的表情动画不会和jepg有什么外观上的出入,十分自然,十分逼真。

如上图所示,第一行是建模的图像,第一列是表情来源,中间生成的表情都很自然。这里需要注意一点,Pinscreen的人脸追踪器VGPY只检测了图中亚洲男子的微表情,它没有对静态图像jepg做任何扫描,这意味着这些富有表现力的表情都是直接从表情源直接转移到目标人脸上的。

其他细节

除了上文提到的内容,黎颢也用自己积累的经验做了不少优化工作,比如paGAN面不仅能够从任何角度“渲染”,也能根据所需的环境明暗条件进行渲染。

提起诉讼的Sadeghi博士是毛发渲染领域的专家,但如果本文演示图片属实,那么在他离职后,Pinscreen确实在头发上也进步明显。而根据黎颢的说法,他的团队这次使用的是一个端到端的神经网络新系统,可以始终根据训练数据生成合理的头发模型。

看到这里,相信很多人已经开始期待他们的新版APP。但大家请注意,以上图像都是在PC上生成的,如果是手机,效果会差那么一点儿。

这是软件在手机上的效果,考虑到硬件差距,这个效果其实完全可以接受。

生成3D手机视频聊天头像

具体效果

而开发了这项技术后,Pinscreen首先瞄准的目标是实现3D视频通讯。黎颢认为,现如今3D游戏越来越多,而人们在其中扮演的也都是3D的角色,这说明3D是发展趋势。未来,当技术发展得足够成熟后,也许打开手机,我们面对不再是一个2D小人,而是一个立体化的真人形象。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 自动化
    +关注

    关注

    29

    文章

    5562

    浏览量

    79239
  • 计算机视觉
    +关注

    关注

    8

    文章

    1698

    浏览量

    45970
  • 机器学习
    +关注

    关注

    66

    文章

    8406

    浏览量

    132557

原文标题:深陷官司丑闻,这个华人创业者要在SIGGRAPH上展示什么?

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    为何PCB设计需要3D功能?

    (具有3个维度)创造产品,因此最佳的解决方法就是使用一种具有先进的3D功能的设计工具。它可让设计者在生产之前就能够查看设计真实的3D图像,不
    发表于 11-01 17:28

    3D扫描的结构光

    耐用性。由于尺寸、冷却和电池要求,系统设计将光通量和能效视为重中之重。 目前有很多对3D结构光图形进行优化的技术。其中个特别有效的方法就是自适应图形集。算法确定了图形与波长的最佳组合
    发表于 08-30 14:51

    HDC2021技术分论坛:酷炫3D效果在瘦设备上也能实现

    过多的内存和功耗。以3D壁纸为例,如果使用现在流行的商业渲染引擎来实现,其内存占用和功耗都很大。下面的图1展示了款典型的2D静态壁纸与其
    发表于 12-21 10:40

    京东方推出裸眼3D产品 可实时转换2D3D画面

    京东方联合Stream TV推出来款8K裸眼3D产品,可实现电影,电视,游戏之间的裸眼3D转化,有300档的实时调节
    发表于 01-11 14:59 2922次阅读

    开发以3D打印随选制药的新方法

    研究团队,开发出化学数码代码和3D打印机制造药物的新方法,该团队认为,这种新方法将重新定义便携式工厂模式。
    发表于 02-07 13:11 793次阅读

    2D3D视频自动转换系统

    研究和实现个基于OMAP3530的2D3D视频自动转换系统,重点研究深度图获取和深度信息渲染等主要核心技术及其
    发表于 03-06 14:20 1次下载
    2<b class='flag-5'>D</b>到<b class='flag-5'>3D</b>视频自动转换系统

    科学家正在研发3D打印人造器官的新方法

    哈佛大学的研究人员发明了一种3D打印人体组织的新方法,有朝日,这种方法可能会产生3D打印的人造
    的头像 发表于 05-09 16:14 2323次阅读

    AMD与Pixelary合作,创造了3D渲染照片

    今日 AMD 公布了组由最新的 Radeon ProRender 2.0 渲染渲染的梅赛德斯 F1 赛车的照片,展现了最新渲染器的效果。AMD 与设计公司 Pixelary 深入合
    的头像 发表于 12-19 10:24 1723次阅读

    HarmonyOS 3D渲染引擎介绍

    随着3D技术的应用普及,越来越多的场景都能看到3D的身影,比如充电动效、3D壁纸、游戏等等,给用户带来了更有趣、更丰富的体验。要满足用户的3D体验需求,离不开
    的头像 发表于 12-23 09:49 4353次阅读
    HarmonyOS <b class='flag-5'>3D</b><b class='flag-5'>渲染</b>引擎介绍

    NeuralLift-360:将野外的2D照片提升为3D物体

    3D点云中生成可渲染3D网格:使用个基于深度学习方法来将点云转换为可
    的头像 发表于 04-16 10:02 2169次阅读

    3D渲染——光栅化渲染原理解析

    渲染进行介绍,描述了简单场景下3D渲染过程,主要帮助读者了解基于光栅化的 3D 渲染原理及过程。
    的头像 发表于 05-18 17:29 2250次阅读
    <b class='flag-5'>3D</b><b class='flag-5'>渲染</b>——光栅化<b class='flag-5'>渲染</b>原理解析

    英伟达提出了同时对未知物体进行6D追踪和3D重建的方法

    一种用于新颖未知动态物体的因果 6 自由度姿态跟踪和 3D 重建的新方法。该方法利用了并发跟踪和神经重建过程的新颖共同设计,能够在几乎实时
    的头像 发表于 07-03 10:49 481次阅读
    英伟达提出了同时对未知物体<b class='flag-5'>进行</b>6<b class='flag-5'>D</b>追踪和<b class='flag-5'>3D</b>重建的<b class='flag-5'>方法</b>

    揭秘:实时渲染、离线渲染、云渲染和混合渲染的区别

    遇到这些概念,或者3D渲染引擎产品的时候,可以按照这些渲染分类,去快速的进行定位和分析,更好的帮助我们理解和
    的头像 发表于 12-26 08:27 808次阅读
    揭秘:<b class='flag-5'>实时</b><b class='flag-5'>渲染</b>、离线<b class='flag-5'>渲染</b>、云<b class='flag-5'>渲染</b>和混合<b class='flag-5'>渲染</b>的区别

    介绍一种使用2D材料进行3D集成的新方法

    美国宾夕法尼亚州立大学的研究人员展示了一种使用2D材料进行3D集成的新颖方法
    的头像 发表于 01-13 11:37 1058次阅读

    VIVERSE 推行实时3D渲染: 探索Polygon Streaming技术力量与应用

    在商业领域和娱乐行业中,3D渲染技术直是推动视觉体验革新的关键力量。随着技术的进步,实时3D渲染
    的头像 发表于 05-31 15:49 2332次阅读
    VIVERSE 推行<b class='flag-5'>实时</b><b class='flag-5'>3D</b><b class='flag-5'>渲染</b>: 探索Polygon Streaming技术力量与应用