0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

研究人员开发出一个端到端的机器学习系统Audio2Face

DPVg_AI_era 来源:lq 2019-06-15 11:14 次阅读

浙江大学和网易伏羲AI实验室的研究人员开发出一个端到端的机器学习系统Audio2Face,可以从音频中单独生成实时面部动画,同时考虑到音高和说话风格。

我们都知道动画里的人物说话声音都是由后期配音演员合成的。

但即使利用CrazyTalk这样的软件,也很难将电脑生成的嘴唇、嘴型等与配音演员进行很好地匹配,尤其是当对话时长在数十甚至数百小时的情况下。

但不要气馁,动画师的福音来了——Audio2Face问世!

Audio2Face是一款端到端的机器学习系统,由浙江大学与网易伏羲AI实验室共同打造。

它可以从音频中单独生成实时的面部动画,更厉害的是,它还能调节音调和说话风格。该成果已经发布至arXiv:

arXiv地址:

https://arxiv.org/pdf/1905.11142.pdf

团队试图构建一个系统,既要逼真又要低延迟

“我们的方法完全是基于音轨设计的,没有任何其他辅助输入(例如图像),这就使得当我们试图从声音序列中回归视觉空间的过程将会越来越具有挑战。”论文共同作者解释道,“另一个挑战是面部活动涉及脸部几何表面上相关区域的多重激活,这使得很难产生逼真且一致的面部变形。”

该团队试图构建一个同时满足“逼真”(生成的动画必须反映可见语音运动中的说话模式)和低延迟(系统必须能够进行近乎实时的动画)要求的系统。他们还尝试将其推广,以便可以将生成的动画重新定位到其他3D角色。

他们的方法包括从原始输入音频中提取手工制作的高级声学特征,特别是梅尔频率倒谱系数(MFC),或声音的短期功率谱的表示。然后深度相机与mocap工具Faceshift一起,捕捉配音演员的面部动作并编制训练集。

深度相机示意图

之后研究人员构建了带有51个参数的3D卡通人脸模型,控制了脸部的不同部位(例如,眉毛,眼睛,嘴唇和下巴)。最后,他们利用上述AI系统将音频上下文映射到参数,产生唇部和面部动作。

1470个音频样本加持,机器学习模型的输出“相当可以”

团队使用一个训练语料库,其中包含两个60分钟、每秒30帧的女性和男性演员逐行阅读剧本中台词的视频,以及每个相应视频帧的1470个音频样本(每帧总共2496个维度)。

团队报告说,与ground truth相比,机器学习模型的输出“相当可以”。它设法在测试音频上重现准确的面部形状,并且它一直“很好地”重新定位到不同的角色。此外,AI系统平均只需0.68毫秒即可从给定的音频窗口中提取特征。

该团队指出,AI无法跟随演员的眨眼模式,主要是因为眨眼与言语的相关性非常弱。不过从广义上讲,该框架可能为适应性强、可扩展的音频到面部动画技术奠定基础,这些技术几乎适用于所有说话人和语言。

“评估结果显示,我们的方法不仅可以从音频中产生准确的唇部运动,还可以成功地消除说话人随时间变化的面部动作,”他们写道。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 3D
    3D
    +关注

    关注

    9

    文章

    2894

    浏览量

    107640
  • 音频
    +关注

    关注

    29

    文章

    2884

    浏览量

    81657
  • 机器学习
    +关注

    关注

    66

    文章

    8424

    浏览量

    132765

原文标题:浙大研发AudioFace:随心录语音就能实时生成3D面部动画

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    【「具身智能机器系统」阅读体验】+初品的体验

    《具身智能机器系统书由甘鸣、俞波、万梓燊、刘少山老师共同编写,其封面如图1所示。 本书共由5部分组成,其结构和内容如图2所示。 该
    发表于 12-20 19:17

    自动驾驶技术研究与分析

    编者语:「智驾最前沿」微信公众号后台回复:C-0450,获取本文参考报告:《自动驾驶行业研究报告》pdf下载方式。 自动驾驶进入2024年,
    的头像 发表于 12-19 13:07 228次阅读

    在自动泊车的应用

    要做到15Hz以上。这样就对存储和算力需求降低很多。 上海交通大学的五位学生发表了自动泊车的论文:《ParkingE2E: Cam
    的头像 发表于 12-18 11:38 403次阅读
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>在自动泊车的应用

    已来,智驾仿真测试该怎么做?

    智驾方案因强泛化能力、可持续学习与升级等优势备受瞩目,但这对仿真测试带来了巨大挑战。康谋探索了种有效的
    的头像 发表于 12-04 09:59 2645次阅读
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>已来,智驾仿真测试该怎么做?

    爆火的如何加速智驾落地?

    编者语:「智驾最前沿」微信公众号后台回复:C-0551,获取本文参考报告:《智能汽车技术研究报告》pdf下载方式。 “
    的头像 发表于 11-26 13:17 318次阅读
    爆火的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>如何加速智驾落地?

    智己汽车“”智驾方案推出,老司机真的会被取代吗?

    随着智能驾驶技术的发展,行业已经从早期基于简单规则和模块化逻辑的自动驾驶,逐步迈向依托深度学习的高复杂度智能驾驶解决方案,各车企也紧跟潮流,先后宣布了自己的智驾方案。就在近期,智
    的头像 发表于 10-30 09:47 306次阅读
    智己汽车“<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”智驾方案推出,老司机真的会被取代吗?

    让智驾强者愈强时代来临?

    到来,智能驾驶技术也成为众多车企研究的重点方向。而在这个过程中,架构(End-to-End, E2E)作为核心技术,逐渐崭露头角,成为
    的头像 发表于 10-24 09:25 534次阅读
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>让智驾强者愈强时代来临?

    Mobileye自动驾驶解决方案的深度解析

    强大的技术优势。 Mobileye的解决方案概述 1.1 什么是自动驾驶?
    的头像 发表于 10-17 09:35 383次阅读
    Mobileye<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自动驾驶解决方案的深度解析

    测试用例怎么写

    编写测试用例是确保软件系统从头到尾能够正常工作的关键步骤。以下是详细的指南,介绍如何编
    的头像 发表于 09-20 10:29 489次阅读

    实现自动驾驶,唯有

    ,去年行业主流方案还是轻高精地图城区智驾,今年大家的目标都瞄到了(End-to-End, E2E)。
    的头像 发表于 08-12 09:14 758次阅读
    实现自动驾驶,唯有<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>?

    saas模式的套智慧工地云平台源码,支持多端展示:PC、大屏、手机、平板

    、公司级、集团级多级权限划分,可根据企业的组织架构进行项目权限、功能权限、数据权限设定。 智慧工地云平台功能介绍: 、PC监管 1、数据统计分析 工地数据分析、项目人员分析、危大工程分析、环境监测分析、安全隐患分析
    的头像 发表于 08-06 16:41 367次阅读
    saas模式的<b class='flag-5'>一</b>套智慧工地云平台源码,支持多端展示:PC<b class='flag-5'>端</b>、大屏<b class='flag-5'>端</b>、手机<b class='flag-5'>端</b>、平板<b class='flag-5'>端</b>

    智行者联合清华完成国内首套全栈式自动驾驶系统的开放道路测试

    近日,智行者与清华大学车辆学院李克强院士、李升波教授领导的研究团队,完成了国内首套全栈式自动驾驶系统的开放道路测试。
    的头像 发表于 04-22 09:24 800次阅读
    智行者联合清华完成国内首套全栈式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自动驾驶<b class='flag-5'>系统</b>的开放道路测试

    佐思汽研发布《2024年自动驾驶研究报告》

    自动驾驶是直接从传感器信息输入(如摄像头图像、LiDAR等)控制命令输出(如转向、加减速等)映射的
    的头像 发表于 04-20 11:21 3382次阅读
    佐思汽研发布《2024年<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自动驾驶<b class='flag-5'>研究</b>报告》

    移动协作机器人的RGB-D感知的处理方案

    本文提出了种用于具有双目视觉的自主机器人的三维语义场景感知的流程。该流程包括实例分割、特征匹配和点集配准。首先,利用RGB图像进行单
    发表于 02-21 15:55 714次阅读
    移动协作<b class='flag-5'>机器</b>人的RGB-D感知的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>处理方案

    Sparse4D-v3:稀疏感知的性能优化及拓展

    极致的感知性能与极简的感知pipeline直是牵引我们持续向前的目标。为了实现该目标,打造性能优异的
    的头像 发表于 01-23 10:20 1436次阅读
    Sparse4D-v3:稀疏感知的性能优化及<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>拓展