研究人员开发出一个端到端的机器学习系统Audio2Face-电子发烧友网

浙江大学和网易伏羲AI实验室的研究人员开发出一个端到端的机器学习系统Audio2Face，可以从音频中单独生成实时面部动画，同时考虑到音高和说话风格。

我们都知道动画里的人物说话声音都是由后期配音演员合成的。

但即使利用CrazyTalk这样的软件，也很难将电脑生成的嘴唇、嘴型等与配音演员进行很好地匹配，尤其是当对话时长在数十甚至数百小时的情况下。

但不要气馁，动画师的福音来了——Audio2Face问世！

Audio2Face是一款端到端的机器学习系统，由浙江大学与网易伏羲AI实验室共同打造。

它可以从音频中单独生成实时的面部动画，更厉害的是，它还能调节音调和说话风格。该成果已经发布至arXiv：

arXiv地址：

https://arxiv.org/pdf/1905.11142.pdf

团队试图构建一个系统，既要逼真又要低延迟

“我们的方法完全是基于音轨设计的，没有任何其他辅助输入（例如图像），这就使得当我们试图从声音序列中回归视觉空间的过程将会越来越具有挑战。”论文共同作者解释道，“另一个挑战是面部活动涉及脸部几何表面上相关区域的多重激活，这使得很难产生逼真且一致的面部变形。”

该团队试图构建一个同时满足“逼真”（生成的动画必须反映可见语音运动中的说话模式）和低延迟（系统必须能够进行近乎实时的动画）要求的系统。他们还尝试将其推广，以便可以将生成的动画重新定位到其他3D角色。

他们的方法包括从原始输入音频中提取手工制作的高级声学特征，特别是梅尔频率倒谱系数（MFC），或声音的短期功率谱的表示。然后深度相机与mocap工具Faceshift一起，捕捉配音演员的面部动作并编制训练集。

深度相机示意图

之后研究人员构建了带有51个参数的3D卡通人脸模型，控制了脸部的不同部位（例如，眉毛，眼睛，嘴唇和下巴）。最后，他们利用上述AI系统将音频上下文映射到参数，产生唇部和面部动作。

1470个音频样本加持，机器学习模型的输出“相当可以”

团队使用一个训练语料库，其中包含两个60分钟、每秒30帧的女性和男性演员逐行阅读剧本中台词的视频，以及每个相应视频帧的1470个音频样本（每帧总共2496个维度）。

团队报告说，与ground truth相比，机器学习模型的输出“相当可以”。它设法在测试音频上重现准确的面部形状，并且它一直“很好地”重新定位到不同的角色。此外，AI系统平均只需0.68毫秒即可从给定的音频窗口中提取特征。

该团队指出，AI无法跟随演员的眨眼模式，主要是因为眨眼与言语的相关性非常弱。不过从广义上讲，该框架可能为适应性强、可扩展的音频到面部动画技术奠定基础，这些技术几乎适用于所有说话人和语言。

“评估结果显示，我们的方法不仅可以从音频中产生准确的唇部运动，还可以成功地消除说话人随时间变化的面部动作，”他们写道。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

3D

3D

+关注

关注
9

文章
2894

浏览量
107640
音频

音频

+关注

关注
29

文章
2884

浏览量
81657
机器学习

机器学习

+关注

关注
66

文章
8424

浏览量
132765

原文标题：浙大研发AudioFace：随心录语音就能实时生成3D面部动画

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

【「具身智能机器人系统」阅读体验】+初品的体验

《具身智能机器人系统》一书由甘一鸣、俞波、万梓燊、刘少山老师共同编写，其封面如图1所示。本书共由5部分组成，其结构和内容如图2所示。该

发表于 12-20 19:17

端到端自动驾驶技术研究与分析

编者语：「智驾最前沿」微信公众号后台回复：C-0450，获取本文参考报告：《端到端自动驾驶行业研究报告》pdf下载方式。自动驾驶进入2024年，端

发表于 12-19 13:07 •228次阅读

端到端在自动泊车的应用

要做到15Hz以上。这样就对存储和算力需求降低很多。上海交通大学的五位学生发表了一篇端到端自动泊车的论文：《ParkingE2E: Cam

发表于 12-18 11:38 •403次阅读

端到端已来，智驾仿真测试该怎么做？

端到端智驾方案因强泛化能力、可持续学习与升级等优势备受瞩目，但这对仿真测试带来了巨大挑战。康谋探索了一种有效的

发表于 12-04 09:59 •2645次阅读

爆火的端到端如何加速智驾落地？

编者语：「智驾最前沿」微信公众号后台回复：C-0551，获取本文参考报告：《智能汽车端到端技术研究报告》pdf下载方式。 “端

发表于 11-26 13:17 •318次阅读

智己汽车“端到端”智驾方案推出，老司机真的会被取代吗？

随着智能驾驶技术的发展，行业已经从早期基于简单规则和模块化逻辑的自动驾驶，逐步迈向依托深度学习的高复杂度智能驾驶解决方案，各车企也紧跟潮流，先后宣布了自己的端到端智驾方案。就在近期，智

发表于 10-30 09:47 •306次阅读

端到端让智驾强者愈强时代来临？

到来，智能驾驶技术也成为众多车企研究的重点方向。而在这个过程中，端到端架构（End-to-End, E2E）作为核心技术，逐渐崭露头角，成为

发表于 10-24 09:25 •534次阅读

Mobileye端到端自动驾驶解决方案的深度解析

强大的技术优势。 Mobileye的端到端解决方案概述 1.1 什么是端到端自动驾驶？

发表于 10-17 09:35 •383次阅读

端到端测试用例怎么写

编写端到端测试用例是确保软件系统从头到尾能够正常工作的关键步骤。以下是一个详细的指南，介绍如何编

发表于 09-20 10:29 •489次阅读

实现自动驾驶，唯有端到端？

，去年行业主流方案还是轻高精地图城区智驾，今年大家的目标都瞄到了端到端（End-to-End, E2E）。端

发表于 08-12 09:14 •758次阅读

saas模式的一套智慧工地云平台源码，支持多端展示：PC端、大屏端、手机端、平板端

、公司级、集团级多级权限划分，可根据企业的组织架构进行项目权限、功能权限、数据权限设定。智慧工地云平台功能介绍: 一、PC监管端 1、数据统计分析工地数据分析、项目人员分析、危大工程分析、环境监测分析、安全隐患分析

发表于 08-06 16:41 •367次阅读

智行者联合清华完成国内首套全栈式端到端自动驾驶系统的开放道路测试

近日，智行者与清华大学车辆学院李克强院士、李升波教授领导的研究团队，完成了国内首套全栈式端到端自动驾驶系统的开放道路测试。

发表于 04-22 09:24 •800次阅读

佐思汽研发布《2024年端到端自动驾驶研究报告》

端到端自动驾驶是直接从传感器信息输入（如摄像头图像、LiDAR等）到控制命令输出（如转向、加减速等）映射的一套

发表于 04-20 11:21 •3382次阅读

移动协作机器人的RGB-D感知的端到端处理方案

本文提出了一种用于具有双目视觉的自主机器人的三维语义场景感知的端到端流程。该流程包括实例分割、特征匹配和点集配准。首先，利用RGB图像进行单

发表于 02-21 15:55 •714次阅读

Sparse4D-v3：稀疏感知的性能优化及端到端拓展

极致的感知性能与极简的感知pipeline一直是牵引我们持续向前的目标。为了实现该目标，打造一个性能优异的端到

发表于 01-23 10:20 •1436次阅读