关于语音驱动3D虚拟人性能介绍-电子发烧友网

Speech2Video 是一种从语音音频输入合成人体全身运动（包括头、口、臂等）视频的任务，其产生的视频应该在视觉上是自然的，并且与给定的语音一致。传统的 Speech2Video 方法一般会使用专用设备和专业操作员进行性能捕获，且大多数语音和渲染任务是由动画师完成的，定制使用的成本通常比较昂贵。

近年来，随着深度神经网络的成功应用，数据驱动的方法已经成为现实。例如，SythesisObama 或 MouthEditing 通过使用 RNN 通过语音驱动嘴部运动来合成说话的嘴部。泰勒提出使用音频来驱动高保真图形模型，该模型不仅可以将嘴部动画化，而且还可以对面部的其他部分进行动画处理以获得更丰富的语音表达。

然而，嘴部运动的合成大部分是确定性的：给定发音，在不同的人和环境中嘴部的运动或形状是相似的。但现实生活中，相同情况下的全身手势运动具有更高的生成力和更多的变异性，这些手势高度依赖于当前的上下文和正在执行语音的人类。传递重要信息时，个性化的手势会在特定时刻出现。因此，有用的信息仅稀疏地存在于视频中，这为简单的端到端学习算法有限的录制视频中捕获这种多样性带来了困难。

近日，百度提出了一种新的方法，将给定文字或音频转换为具有同步、逼真、富表现力的肢体语言的实感视频。该方法首先使用递归神经网络（recursive neural network，RNN）从音频序列生成 3D 骨骼运动，然后通过条件生成对抗网络（GAN）合成输出视频。

为了使骨骼运动逼真并富有表现力，研究者将关节 3D 人体骨骼的知识和学习过的个性化语音手势字典嵌入到学习和测试过程中。前者可以防止产生不合理的身体变形，而后者通过一些有意义的身体运动视频帮助模型快速学习。为了制作富有运动细节的逼真高分辨率视频，研究者提出一种有条件的 GAN，其中每个细节部分，例如头和手，是自动放大过的以拥有自己的判别器。该方法与以前处理类似任务的 SOTA 方法相比效果更好。

方法

图 1：Speech2Video 系统 pipeline

如图 1 所示，根据用于训练 LSTM 网络的内容，系统的输入是音频或文本。考虑到文本到语音（TTS）和语音到文本（STT）技术都已经成熟并且可商用，此处假定音频和 text 是可互换的。即使从最先进的 STT 引擎中得到一些错误识别的单词 / 字符，系统也可以容忍这些错误，LSTM 网络的主要目的是将文本 / 音频映射到身体形状。错误的 STT 输出通常是与真实发音相似的单词，这意味着它们的拼写也很可能是相似的。因此，它们最终将映射的身体形状或多或少相似。

LSTM 的输出是由 SMPL-X 参数化的一系列人体姿势。SMPL-X 是一个人体、面部和手部的 3D 联合模型，这一动态关节 3D 模型是由一个 2D 彩色骨架图像序列可视化的。这些 2D 图像被进一步输入到 vid2vid 生成网络中，以生成最终的现实人物图像。

在成功同步语音和动作的同时，LSTM 大部分时间只能学习重复的人类动作，这会使视频看起来很无聊。为了使人体动作更具表现力和变化性，研究者在一些关键词出现时将特定姿势加入 LSTM 的输出动作中，例如，巨大、微小、高、低等。研究者建立了一个字典，将这些关键词映射到它们相应的姿势。

模特站在相机和屏幕的前面，当他 / 她在屏幕上阅读脚本时，研究者会捕获这些视频。最后再要求模特摆一些关键词的动作，例如巨大、微小、向上、向下、我、你等等。

人体模型拟合

研究者首先将这些 2D 关键点作为人体模型的表示，并训练了 LSTM 网络，但结果不能令人满意。

最后采用了 SMPL-X，这是一种关节式 3D 人体模型。SMPL-X 使用运动学骨架模型对人体动力学进行建模，具有 54 个关节，包括脖子、手指、手臂、腿和脚。

词典构建和关键姿势插入

研究者从录制的视频中手动选择关键姿势，并建立一个单词 - 姿势查询字典。同样，该姿势表示为 106 个 SMPL-X 参数。关键姿势可以是静止的单帧姿势或多帧运动，可以通过相同的方法将两者插入到现有的人体骨骼视频中。

训练视频生成网络

研究者采用 vid2vid 提出的生成网络，将骨架图像转换为真实的人像。

用于训练 vid2vid 的示例图像对。双手均带有特殊的色环标记。

运行时间和硬件方面，系统中最耗时和最耗内存的阶段是训练 vid2vid 网络。在 8 个 NVIDIA Tesla M40 24G GPU 集群上完成 20 个时期的训练大约需要一周；测试阶段要快得多，在单个 GPU 上生成一帧仅需约 0.5 秒。

结果

评估与分析

研究者将使用用户研究的结果与 4 种 SOTA 方法进行比较，结果显示，本文方法获得了最佳的总体质量得分。

此外，研究者使用 Inception 分数评估图像生成结果，包括两个方面：图像质量和图像多样性。

为了评估最终输出的视频，研究者在 Amazon Mechanical Turk（AMT）上进行了人类主观测试，共有 112 名参与者。研究者向参与者展示了总共五个视频，其中四个是合成视频，两个由真实人的音频生成，两个由 TTS 音频生成；剩下的是一个真实人物的短片。参与者以李克特量表（从 1（强烈不同意）到 5（强烈同意））对这些视频的质量进行评分。其中包括：1）人体的完整性（没有遗漏的身体部位或手指）；2）视频中人脸清晰；3）视频中的人体动作（手臂，手，身体手势）看起来自然流畅。4）身体的动作和手势与声音同步；5）视频的整体视觉质量。

总结

Speech2Video 是一种新颖的框架，可以使用 3D 驱动的方法生成逼真的语音视频，同时避免构建 3D 网格模型。作者在框架内建立了个性化关键手势表，以处理数据稀疏性和多样性的问题。更重要的是，作者利用 3D 骨骼约束来生成身体动力学，从而保证其姿势在物理上是合理的。
责任编辑:pj

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

3D

3D

+关注

关注
9

文章
2926

浏览量
108364
神经网络

神经网络

+关注

关注
42

文章
4789

浏览量
101530
数据驱动

数据驱动

+关注

关注
0

文章
131

浏览量
12424

3D IC背后的驱动因素有哪些？

3D多芯片设计背后的驱动因素以及3D封装的关键芯片到芯片和接口IP要求。3D多芯片设计的市场预测显示，硅片的设计和交付方式将发生前所未有的变化。IDTechEx预测到2028年Chip

发表于 03-04 14:34 •100次阅读

<b class='flag-5'>3D</b> IC背后的<b class='flag-5'>驱动</b>因素有哪些？

DAD1000驱动芯片有3D功能吗？

DAD1000驱动芯片有3D功能吗

发表于 02-21 13:59

SciChart 3D for WPF图表库

SciChart 3D for WPF 是一个实时、高性能的 WPF 3D 图表库，专为金融、医疗和科学应用程序而设计。非常适合需要极致性能和丰富的交互式

发表于 01-23 13:49 •199次阅读

SciChart <b class='flag-5'>3D</b> for WPF图表库

2.5D和3D封装技术介绍

整合更多功能和提高性能是推动先进封装技术的驱动，如2.5D和3D封装。 2.5D/3D封装允许I

发表于 01-14 10:41 •627次阅读

2.5<b class='flag-5'>D</b>和<b class='flag-5'>3D</b>封装技术<b class='flag-5'>介绍</b>

科大讯飞AI虚拟人交互平台荣获行业最高评级

近日，科大讯飞的AI虚拟人交互平台顺利完成中国信通院人工智能研究所组织的大模型数字人基础能力分级测试，并获得最高等级L5认证，系国内首批。

发表于 12-13 11:39 •467次阅读

数字王国与AWS达成合作，推动自主虚拟人技术云端发展

近日，数字王国与Amazon Web Services（AWS）达成了一项重要合作，双方将携手推动自主虚拟人及其技术向云端迁移。

发表于 10-09 16:38 •510次阅读

发掘3D文件格式的无限潜力：打造沉浸式虚拟世界

在当今数字化时代，3D技术的应用范围日益广泛，涵盖电影后期制作、产品原型设计、虚拟现实（VR）、增强现实（AR）、游戏等众多领域。而3D文件格式作为3D技术的核心组成部分，对于实现

发表于 09-26 18:14 •1679次阅读

发掘<b class='flag-5'>3D</b>文件格式的无限潜力：打造沉浸式<b class='flag-5'>虚拟</b>世界

微软Azure AI语音服务革新:引入虚拟人形象,文本一键转生动视频

微软于8月23日宣布，在其领先的Azure AI语音服务中融入了一项革命性创新——虚拟人形象功能，此功能彻底颠覆了传统交互方式，让文本转视频的过程变得前所未有的直观与生动。

发表于 08-23 16:25 •817次阅读

使用NVIDIA Edify助力的服务创建3D资产和虚拟环境照明

使用 NVIDIA Edify 助力的服务创建 3D 资产和虚拟环境照明，或是减半生成图像时间。

发表于 08-02 15:22 •692次阅读

3D建模的重要内容和应用

3D建模是一种技术，通过计算机软件创建虚拟三维模型，模拟现实世界中的物体或场景。这项技术广泛应用于建筑设计、电影制作、游戏开发、工程仿真等领域。下面古河云科技将介绍一些与3D建模相关的

发表于 06-21 14:48 •889次阅读

英伦科技10.1寸裸眼3D平板电脑的五大特点

选择英伦科技的裸眼3D平板电脑，就是选择了一种全新的视觉体验。它的裸眼3D视频观看功能、光场裸眼3D技术、卓越的硬件配置、丰富的软件支持以及人性化的设计理念，都是您不容错过的选择。现在

发表于 06-12 15:15 •548次阅读

英伦科技10.1寸裸眼<b class='flag-5'>3D</b>平板电脑的五大特点

什么是光场裸眼3D？

光场裸眼3D技术，是一种无需任何辅助设备（如3D眼镜或头显）即可产生真实三维效果的技术。它通过特殊的显示设备，精确控制光线的方向和强度，使观察者在不同的角度都能看到清晰、连续的立体图像。这种技术的核心在于模拟人眼对真实世界的观察

发表于 05-27 14:21 •1489次阅读

3D建模的特点和优势都有哪些？

3D建模是一种用于创建三维对象的过程，它在许多领域都有着广泛的应用，包括动画、游戏开发、建筑设计、工程以及制造业等。下面古河云科技将介绍一些关于3D建模的内容详情，包括它的特点、优势以

发表于 05-13 16:41 •2983次阅读

VR虚拟空间中的3D 技术

随着科技的飞速发展，虚拟空间已成为元宇宙的重要呈现方式。从游戏到工业设计，从电子商务到文旅体验，3D相关技术在虚拟空间中发挥着举足轻重的作用，决定着用户们能否真正能体会到VR的沉浸式体验。虚

发表于 04-29 09:36 •1633次阅读

抖音严打不当虚拟人物AI生成行为，优化平台生态环境

据悉，去年8月抖音发布了《人工智能生成内容的平台规范及行业倡议》，强调禁止利用AI技术制作虚拟人物进行低质量创作。今年3月27日，抖音安全中心又发布公告表示，发现少数账号依然存在使用AI技术生成虚拟人物的违规行为。

发表于 03-27 14:54 •880次阅读

搜索历史

关于语音驱动3D虚拟人性能介绍

评论