0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

关于语音驱动3D虚拟人性能介绍

lhl545545 来源:与非网 作者:与非网 2020-11-25 16:26 次阅读

Speech2Video 是一种从语音音频输入合成人体全身运动(包括头、口、臂等)视频的任务,其产生的视频应该在视觉上是自然的,并且与给定的语音一致。传统的 Speech2Video 方法一般会使用专用设备和专业操作员进行性能捕获,且大多数语音和渲染任务是由动画师完成的,定制使用的成本通常比较昂贵。

近年来,随着深度神经网络的成功应用,数据驱动的方法已经成为现实。例如,SythesisObama 或 MouthEditing 通过使用 RNN 通过语音驱动嘴部运动来合成说话的嘴部。泰勒 提出使用音频来驱动高保真图形模型,该模型不仅可以将嘴部动画化,而且还可以对面部的其他部分进行动画处理以获得更丰富的语音表达。

然而,嘴部运动的合成大部分是确定性的:给定发音,在不同的人和环境中嘴部的运动或形状是相似的。但现实生活中,相同情况下的全身手势运动具有更高的生成力和更多的变异性,这些手势高度依赖于当前的上下文和正在执行语音的人类。传递重要信息时,个性化的手势会在特定时刻出现。因此,有用的信息仅稀疏地存在于视频中,这为简单的端到端学习算法 有限的录制视频中捕获这种多样性带来了困难。

近日,百度提出了一种新的方法,将给定文字或音频转换为具有同步、逼真、富表现力的肢体语言的实感视频。该方法首先使用递归神经网络(recursive neural network,RNN)从音频序列生成 3D 骨骼运动,然后通过条件生成对抗网络(GAN)合成输出视频。

为了使骨骼运动逼真并富有表现力,研究者将关节 3D 人体骨骼的知识和学习过的个性化语音手势字典嵌入到学习和测试过程中。前者可以防止产生不合理的身体变形,而后者通过一些有意义的身体运动视频帮助模型快速学习。为了制作富有运动细节的逼真高分辨率视频,研究者提出一种有条件的 GAN,其中每个细节部分,例如头和手,是自动放大过的以拥有自己的判别器。该方法与以前处理类似任务的 SOTA 方法相比效果更好。

方法

图 1:Speech2Video 系统 pipeline

如图 1 所示,根据用于训练 LSTM 网络的内容,系统的输入是音频或文本。考虑到文本到语音(TTS)和语音到文本(STT)技术都已经成熟并且可商用,此处假定音频和 text 是可互换的。即使从最先进的 STT 引擎中得到一些错误识别的单词 / 字符,系统也可以容忍这些错误,LSTM 网络的主要目的是将文本 / 音频映射到身体形状。错误的 STT 输出通常是与真实发音相似的单词,这意味着它们的拼写也很可能是相似的。因此,它们最终将映射的身体形状或多或少相似。

LSTM 的输出是由 SMPL-X 参数化的一系列人体姿势。SMPL-X 是一个人体、面部和手部的 3D 联合模型,这一动态关节 3D 模型是由一个 2D 彩色骨架图像序列可视化的。这些 2D 图像被进一步输入到 vid2vid 生成网络中,以生成最终的现实人物图像。

在成功同步语音和动作的同时,LSTM 大部分时间只能学习重复的人类动作,这会使视频看起来很无聊。为了使人体动作更具表现力和变化性,研究者在一些关键词出现时将特定姿势加入 LSTM 的输出动作中,例如,巨大、微小、高、低等。研究者建立了一个字典,将这些关键词映射到它们相应的姿势。

模特站在相机和屏幕的前面,当他 / 她在屏幕上阅读脚本时,研究者会捕获这些视频。最后再要求模特摆一些关键词的动作,例如巨大、微小、向上、向下、我、你等等。

人体模型拟合

研究者首先将这些 2D 关键点作为人体模型的表示,并训练了 LSTM 网络,但结果不能令人满意。

最后采用了 SMPL-X,这是一种关节式 3D 人体模型。SMPL-X 使用运动学骨架模型对人体动力学进行建模,具有 54 个关节,包括脖子、手指、手臂、腿和脚。

词典构建和关键姿势插入

研究者从录制的视频中手动选择关键姿势,并建立一个单词 - 姿势查询字典。同样,该姿势表示为 106 个 SMPL-X 参数。关键姿势可以是静止的单帧姿势或多帧运动,可以通过相同的方法将两者插入到现有的人体骨骼视频中。

训练视频生成网络

研究者采用 vid2vid 提出的生成网络,将骨架图像转换为真实的人像。

用于训练 vid2vid 的示例图像对。双手均带有特殊的色环标记。

运行时间和硬件方面,系统中最耗时和最耗内存的阶段是训练 vid2vid 网络。在 8 个 NVIDIA Tesla M40 24G GPU 集群上完成 20 个时期的训练大约需要一周;测试阶段要快得多,在单个 GPU 上生成一帧仅需约 0.5 秒。

结果

评估与分析

研究者将使用用户研究的结果与 4 种 SOTA 方法进行比较,结果显示,本文方法获得了最佳的总体质量得分。

此外,研究者使用 Inception 分数评估图像生成结果,包括两个方面:图像质量和图像多样性。

为了评估最终输出的视频,研究者在 Amazon Mechanical Turk(AMT)上进行了人类主观测试,共有 112 名参与者。研究者向参与者展示了总共五个视频,其中四个是合成视频,两个由真实人的音频生成,两个由 TTS 音频生成;剩下的是一个真实人物的短片。参与者以李克特量表(从 1(强烈不同意)到 5(强烈同意))对这些视频的质量进行评分。其中包括:1)人体的完整性(没有遗漏的身体部位或手指);2)视频中人脸清晰;3)视频中的人体动作(手臂,手,身体手势)看起来自然流畅。4)身体的动作和手势与声音同步;5)视频的整体视觉质量。

总结

Speech2Video 是一种新颖的框架,可以使用 3D 驱动的方法生成逼真的语音视频,同时避免构建 3D 网格模型。作者在框架内建立了个性化关键手势表,以处理数据稀疏性和多样性的问题。更重要的是,作者利用 3D 骨骼约束来生成身体动力学,从而保证其姿势在物理上是合理的。
责任编辑:pj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 3D
    3D
    +关注

    关注

    9

    文章

    2847

    浏览量

    107236
  • 神经网络
    +关注

    关注

    42

    文章

    4732

    浏览量

    100373
  • 数据驱动
    +关注

    关注

    0

    文章

    124

    浏览量

    12311
收藏 人收藏

    评论

    相关推荐

    数字王国与AWS达成合作,推动自主虚拟人技术云端发展

    近日,数字王国与Amazon Web Services(AWS)达成了一项重要合作,双方将携手推动自主虚拟人及其技术向云端迁移。
    的头像 发表于 10-09 16:38 301次阅读

    发掘3D文件格式的无限潜力:打造沉浸式虚拟世界

    在当今数字化时代,3D技术的应用范围日益广泛,涵盖电影后期制作、产品原型设计、虚拟现实(VR)、增强现实(AR)、游戏等众多领域。而3D文件格式作为3D技术的核心组成部分,对于实现
    的头像 发表于 09-26 18:14 1419次阅读
    发掘<b class='flag-5'>3D</b>文件格式的无限潜力:打造沉浸式<b class='flag-5'>虚拟</b>世界

    微软Azure AI语音服务革新:引入虚拟人形象,文本一键转生动视频

    微软于8月23日宣布,在其领先的Azure AI语音服务中融入了一项革命性创新——虚拟人形象功能,此功能彻底颠覆了传统交互方式,让文本转视频的过程变得前所未有的直观与生动。
    的头像 发表于 08-23 16:25 637次阅读

    使用NVIDIA Edify助力的服务创建3D资产和虚拟环境照明

    使用 NVIDIA Edify 助力的服务创建 3D 资产和虚拟环境照明,或是减半生成图像时间。
    的头像 发表于 08-02 15:22 385次阅读

    英伦科技10.1寸裸眼3D平板电脑的五大特点

    选择英伦科技的裸眼3D平板电脑,就是选择了一种全新的视觉体验。它的裸眼3D视频观看功能、光场裸眼3D技术、卓越的硬件配置、丰富的软件支持以及人性化的设计理念,都是您不容错过的选择。现在
    的头像 发表于 06-12 15:15 326次阅读
    英伦科技10.1寸裸眼<b class='flag-5'>3D</b>平板电脑的五大特点

    什么是光场裸眼3D

    光场裸眼3D技术,是一种无需任何辅助设备(如3D眼镜或头显)即可产生真实三维效果的技术。它通过特殊的显示设备,精确控制光线的方向和强度,使观察者在不同的角度都能看到清晰、连续的立体图像。这种技术的核心在于模拟人眼对真实世界的观察
    的头像 发表于 05-27 14:21 874次阅读
    什么是光场裸眼<b class='flag-5'>3D</b>?

    3D建模的特点和优势都有哪些?

    3D建模是一种用于创建三维对象的过程,它在许多领域都有着广泛的应用,包括动画、游戏开发、建筑设计、工程以及制造业等。下面古河云科技将介绍一些关于3D建模的内容详情,包括它的特点、优势以
    的头像 发表于 05-13 16:41 2142次阅读

    VR虚拟空间中的3D 技术

    随着科技的飞速发展,虚拟空间已成为元宇宙的重要呈现方式。从游戏到工业设计,从电子商务到文旅体验,3D相关技术在虚拟空间中发挥着举足轻重的作用,决定着用户们能否真正能体会到VR的沉浸式体验。
    的头像 发表于 04-29 09:36 1480次阅读
    VR<b class='flag-5'>虚拟</b>空间中的<b class='flag-5'>3D</b> 技术

    抖音严打不当虚拟人物AI生成行为,优化平台生态环境

    据悉,去年8月抖音发布了《人工智能生成内容的平台规范及行业倡议》,强调禁止利用AI技术制作虚拟人物进行低质量创作。今年3月27日,抖音安全中心又发布公告表示,发现少数账号依然存在使用AI技术生成虚拟人物的违规行为。
    的头像 发表于 03-27 14:54 569次阅读

    抢滩赛道先机走出科创新路,布局AI+虚拟人驱动微美全息(WIMI.US)快速抢占市场新空间

    自从,随着元宇宙概念的火热,市场对于虚拟人的需求日益高涨。同时,随着AI大模型的突破,虚拟人被赋予多种角色,如AI虚拟人主播、AI虚拟人员工等,各行各业都在经历一场由
    的头像 发表于 02-02 11:06 324次阅读
    抢滩赛道先机走出科创新路,布局AI+<b class='flag-5'>虚拟人</b><b class='flag-5'>驱动</b>微美全息(WIMI.US)快速抢占市场新空间

    AI克隆技术可用于创建虚拟人物形象!它的技术原理和发展趋势

    电子发烧友网报道(文/李弯弯)AI克隆技术主要指的是人工智能技术用于复制或克隆人类的行为、声音、形象等方面的技术。这种技术可以用于生成虚拟人物、虚拟角色、虚拟明星等,以及为其创建独特的语音
    的头像 发表于 01-08 08:28 2485次阅读
    AI克隆技术可用于创建<b class='flag-5'>虚拟人</b>物形象!它的技术原理和发展趋势

    子曰教育大模型加速落地应用:推出虚拟人AI产品,新增口语定级等功能

    最新推出的 Hi Echo 2.0 版本进行了四大能力创新升级——新增口语难度分级;更丰富的虚拟人形象;更多元的对话场景及更具个性化的对话评价报告。即便是零基础的英语学习者,也可以毫无压力地开口说英文,在不同语境中快速提升口语能力,实现真正的英语对话自由。
    的头像 发表于 12-21 16:57 974次阅读

    提供3D打印材料与解决方案,助力3D打印产业发展

    提供3D打印材料与解决方案,助力3D打印产业发展
    的头像 发表于 12-12 11:12 486次阅读

    虚拟人产业链及市场前景报告

    电子发烧友网站提供《虚拟人产业链及市场前景报告.pdf》资料免费下载
    发表于 12-08 10:47 20次下载
    <b class='flag-5'>虚拟人</b>产业链及市场前景报告

    积木易搭推出消费级市场首款精度为0.01mm,重量仅200g的便携式3D扫描仪Seal

    达到了257.1亿元人民币。从全球来看,北美地区占有全球3D内容市场的37.04%的份额,欧洲紧随其后,占有31.17%的份额。而中国作为第三大市场,占有13.56%的市场份额。从应用领域来看,仿真虚拟人是其中最主要的一部分,占到3D
    的头像 发表于 11-12 10:13 471次阅读