0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一张照片生成3D头像!苹果新模型击败StyleGAN2

OpenCV学堂 来源:量子位 2023-05-06 10:38 次阅读

随便一张照片,就可生成3D头像。而且光线真实,任意角度可调。

这是苹果的最新科技生成框架FaceLit。

fd9facbe-eb53-11ed-90ce-dac502259ad0.gif

正如其名,FaceLit的特色就是可以将人脸“点亮”。

“自带光环”的FaceLit在易用性上也不输同类,甚至更胜一筹——

进行3D建模时,需要的照片素材无需专门选择角度,数量上也只需一张。

甚至对表情、发型、眼镜等元素进行调节时,也不需要额外素材。

而传统的头像合成工具或者需要多张图片才能工作,或者对照片角度有刁钻的要求。

正是凭借这一创新,FaceLit获得了3.5的FID评分,较同类产品直接高出了25%。

改进式EG3D合成人像,光线信息单独处理

下面就来看一下FaceLit具体是如何实现头像合成的。

总的来说,苹果采用了将人物本体与光线分别处理再进行叠加的策略。

早期的三维人像合成工具在转换过程中可能产生形变。

而爆火的NeRF通过将场景拆分成具体因素,提高了3D图像合成效果,改善了这一问题。

但苹果团队认为,在可控性方面,NeRF仍存有不足之处。

于是,在EG3D框架的基础上,苹果创造了FaceLit的合成模型。

EG3D通过三平面解码器,赋予了二维卷积神经网络生成渲染3D模型所需深度参数的能力。

苹果团队对标准的EG3D训练方式进行了扩展,并将之转化成了FaceLit框架。

00bb8828-eb54-11ed-90ce-dac502259ad0.png

△FaceLit与传统EG3D渲染流程对比图

标准的ED3G使用相机位置p参数作为基本输入参数。

在建立GAN2操作时,苹果在EG3D的基础上加入了光照参数l。

00e63d20-eb54-11ed-90ce-dac502259ad0.png

△不同p(左→右)与l(上→下)值下的初始图像

苹果选择了经过球形谐波方式简化后的Phong反射模型作为处理光源的物理基础。

光照参数l就是在这一基础之上独立处理得到的。

在自然界中,反射包括镜面反射和漫反射两种形式。

014e408c-eb54-11ed-90ce-dac502259ad0.png

△不同镜面反射率条件下的效果对比

因此,苹果在ED3G模型中加入了镜面反射解码器和漫反射解码器。

它们替代了可以直接得到颜色c、密度σ数据的三平面解码器。

017c55c6-eb54-11ed-90ce-dac502259ad0.png

△反射解码器流程示意图

通过对GAN2产生的数据进行再次解码,可以得到镜面反射率ks和漫反射率kd。

然后再通过两种反射着色器得到颜色c,密度σ则由漫反射解码器计算得出。

最终,FaceLit以与三平面解码器相同的参数(c,w,σ)渲染图像,并进行分辨率优化。

有的放矢设计训练策略,数据无需人工标注

生成框架已有,那就来到训练阶段,其特点在于训练过程中无需人工标注。

方法论层面,在训练时,团队使用了FFHQ、MetFaces和CelebA-HQ数据集。

对于不同的数据集,苹果使用了不同的训练方式。

FFHQ包含了7万余条人脸数据,其训练分为两个阶段:先在较低的分辨率下训练,再提高分辨率再次进行。

对于包含2万数据量的CelebA-HQ,训练不需要分阶段进行。

而对于更小的MetFAces,则只需要通过ADA扩容的方式,使用预训练的FFHQ进行优化调整即可。

定性地看,训练结果在机位、光源和反射高光等方面都有出色的表现,图中的细节也有所增强。

01901eb2-eb54-11ed-90ce-dac502259ad0.png

△FaceLit生成的头像(左侧四列)唇齿部位的细节进行了明显重构

定量结果同样表明,FaceLit在FID、KID等指标上均优于包括标准EG3D在内的传统生成方式。

在使用FFHQ作为训练集的条件下,各生成方式的表现如下表,不难看出FaceLit拥有最低的FID和KID值。

01f9d1c2-eb54-11ed-90ce-dac502259ad0.png

而相比于英伟达的StyleGAN2,FaceLit的表现依旧出色:

021608d8-eb54-11ed-90ce-dac502259ad0.png

光线准确度方面,FaceLit在使用三种不同训练数据集的情况下,与人工设定的标准值平均均方误差均低于0.01。

023169e8-eb54-11ed-90ce-dac502259ad0.png

网友:人们低估了苹果AI

消息发出后,便有网友认为“这是对更重磅产品的预热”。

更有网友直接推测,FaceLit的出现标示着人工智能将进军AR和VR领域,苹果的混合现实将最终实现商用……

0246e052-eb54-11ed-90ce-dac502259ad0.png

也有网友认为,FaceLit不会商用,否则苹果才不会以论文的形式发表。

0264b2e4-eb54-11ed-90ce-dac502259ad0.png

针对FaceLit本身,也有网友表示,除了LLM,其他都是浮云,他们(苹果)如果不开发LLM,就没有未来。

0288f942-eb54-11ed-90ce-dac502259ad0.png

但这位网友同时也说,苹果可能已经在做(LLM)了。

相应的,也有网友称人们“低估了苹果在AI领域的深度”。

02a894fa-eb54-11ed-90ce-dac502259ad0.png

所以各位网友对苹果在AI领域还有什么样的期待呢?

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1129

    浏览量

    40656
  • 模型
    +关注

    关注

    1

    文章

    3140

    浏览量

    48672
  • 3D图像
    +关注

    关注

    0

    文章

    38

    浏览量

    10714

原文标题:一张照片生成3D头像!苹果新模型击败StyleGAN2,表情光线都能调,网友:要用于MR?

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    中国传动网:全球首3D打印唱片发布 歌声也可3D打印

    KeleOkereke宣布,他将采用Ghassaei的方法为定于下周发布的首新歌3D打印一张唱片。得知Autodesk的创客空间Pier9新进了套Stratasys公司顶级的
    发表于 12-17 16:36

    Labview中如何导入3D模型

    Labview中如何导入3D模型,例如3Dmax生成模型。尝试过用.STL格式导入Labview。但是
    发表于 01-26 13:13

    关于利用2D图片利用投影的方法创建3D模型

    例如摄影机拍摄3图,利用第一张和第三构建出3D结构,测试第二图中的特征距离该
    发表于 10-08 22:21

    Altium画好的PCB文件,怎么删除3D模型

    一张画好的PCB文件,元件库自带了3D模型,请问下,如果要把整个PCB文件的3D模型都删除的话,要怎么删除?
    发表于 01-16 11:02

    浩辰3D软件入门教程:如何比较3D模型

    。浩辰3D软件不仅提供了完备的零件、装配、仿真、工程图、钣金、焊接等数十种设计模块,还提供了「比较模型」和「比较图纸」功能,让这过程高效且精确。01「比较模型」在
    发表于 12-15 13:45

    AD的3D模型绘制功能介绍

    共提供了4种类型,类型1常规型,类型2时圆柱体模型,类型3是外部模型,类型4是球体模型。我们根
    发表于 01-14 16:48

    【PHYTEC开发板试用体验】3 通过开发板拍一张照片

    还是挺全的,可以看的出来我们的摄影头驱动已经装好了。3. 应用程序3.1 简介嗯,接下来我们就可以写个上层应用程序,来验证下这个驱动是不是好的?功能很简单,我们按照我们的想法来拍一张照片
    发表于 06-12 14:43

    视觉处理,2d照片3d模型

    首先,太阳高度是恒定的。 照片每像素的亮度可求。我们只需要求出太阳与眼睛到物体的夹角就能求出3d模型。 最多就是各种物质的反射率。 英伟达的oir芯片就是做汽车视觉的,大家去取取经。 有时,2
    发表于 05-21 17:13

    一张照片就可识别用户身份准确率达99.5%

    有研究表明利用一张照片就可以轻松识别用户的身份和用户使用的智能手机型号,类似于种PRNU指纹。据悉测试的准确率达到了99.5%,这种识别技术将会被用于身份验证。
    发表于 12-18 10:58 1.3w次阅读

    一张照片进行AI“换脸”之后,可以突破刷脸支付的安全系统吗?

    对于引起广泛争议的用户个人隐私和支付安全等问题,“ZAO”运营团队称,“ZAO”所呈现的“换脸”效果,是根据用户提交的头像照片,通过后期技术叠加所实现的虚构图像,并没有采集任何个人生物识别特征;刷脸支付安全门槛极高,仅通过一张照片
    的头像 发表于 09-12 14:20 5211次阅读

    一张照片揭示了即将推出的Realme X9的纤薄外形

    今天,该品牌在印度和欧洲的首席执行官Madhav Sheth在其Twitter上分享了一张照片。它揭示了即将推出的Realme X9的纤薄外形。根据图片,新的智能手机将厚达六信用卡,并堆叠在起。
    的头像 发表于 01-27 15:02 2425次阅读

    首个能根据单图像生成较高分辨率3D人脸模型的系统

    分辨率的3D人脸模型。 AvatarMe是首个能根据单图像生成较高分辨率3D人脸模型的系统。在
    的头像 发表于 01-27 17:02 3583次阅读
    首个能根据单<b class='flag-5'>一</b>图像<b class='flag-5'>生成</b>较高分辨率<b class='flag-5'>3D</b>人脸<b class='flag-5'>模型</b>的系统

    一张照片定制自己的3D数字化身?

    。仅需一张图片甚至句文字描述,RODIN 扩散模型就能秒级生成 3D 化身,让低成本定制 3D
    的头像 发表于 03-22 00:15 476次阅读

    3D人体生成模型HumanGaussian实现原理

    3D 生成领域,根据文本提示创建高质量的 3D 人体外观和几何形状对虚拟试穿、沉浸式远程呈现等应用有深远的意义。传统方法需要经历系列人工制作的过程,如
    的头像 发表于 12-20 16:37 1485次阅读
    <b class='flag-5'>3D</b>人体<b class='flag-5'>生成</b><b class='flag-5'>模型</b>HumanGaussian实现原理

    欢创播报 腾讯元宝首发3D生成应用

    1 腾讯元宝首发3D生成应用 只需一张照片,便能迅速打造独无二的3D角色。7月16日,腾讯旗下大模型
    的头像 发表于 07-18 11:39 708次阅读
    欢创播报 腾讯元宝首发<b class='flag-5'>3D</b><b class='flag-5'>生成</b>应用