0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种AI算法,可以根据说话声音来预测说话人将作出怎样的肢体动作

DPVg_AI_era 来源:lq 2019-06-23 09:27 次阅读

来自UC Berkeley和MIT的研究人员开发了一种AI算法,可以根据说话声音来预测说话人将作出怎样的肢体动作。所预测的动作十分自然、流畅,本文带来技术解读。

人在说话的时候,常常伴随着身体动作,不管是像睁大眼睛这样细微的动作,还是像手舞足蹈这样夸张的动作。

最近,来自UC Berkeley和MIT的研究人员开发了一种AI算法,可以根据说话声音来预测说话人将作出怎样的肢体动作。

研究人员称,只需要音频语音输入,AI就能生成与声音一致的手势。具体来说,他们进行的是人的独白到手势和手臂动作的“跨模态转换”(cross-modal translation)。相关论文发表在CVPR 2019上。

研究人员收集了10个人144小时的演讲视频,其中包括一名修女、一名化学教师和5名电视节目主持人(Conan O’Brien, Ellen DeGeneres, John Oliver, Jon Stewart, 以及Seth Meyers)。

演讲视频数据集

他们使用现有的算法生成代表说话者手臂和手位置的骨架图形。然后他们用这些数据训练了自己的算法,这样AI就可以根据说话者的新音频来预测手势。

图1:从语音到手势的转换的示例结果。由下往上:输入音频、由我们的模型预测的手臂和手的姿态,以及由Caroline Chan等人在“Everybody Dance Now”论文中提出的方法合成的视频片段。

研究人员表示,在定量比较中,生成的手势比从同一说话者者随机选择的手势更接近现实,也比从一种不同类型的算法预测的手势更接近现实。

图2:特定于说话者的手势数据集

说话者的手势也是独特的,对一个人进行训练并预测另一个人的手势并不奏效。将预测到的手势输入到现有的图像生成算法中,可以生成半真实的视频。

研究团队表示,他们的下一步是不仅根据声音,还根据文字稿来预测手势。该研究潜在的应用包括创建动画角色、动作自如的机器人,或者识别假视频中人的动作。

为了支持对手势和语音之间关系的计算理解的研究,他们还发布了一个大型的个人特定手势视频数据集。

方法详解:两阶段从语音预测视频

给定原始语音,我们的目标是生成说话者相应的手臂和手势动作。

我们分两个阶段来完成这项任务——首先,由于我们用于训练的唯一信号是相应的音频和姿势检测序列,因此我们使用L1回归到2D关键点的序列堆栈来学习从语音到手势的映射。

其次,为了避免回归到所有可能的手势模式的平均值,我们使用了一个对抗性鉴别器,以确保产生的动作相对于说话者的典型动作是可信的。

任何逼真的手势动作都必须在时间上连贯流畅。我们通过学习表示整个话语的音频编码来实现流畅性,该编码考虑了输入语音的完整时间范围s,并一次性(而不是递归地)预测相应姿势的整个时间序列p。

我们的完全卷积网络由一个音频编码器和一个1D UNet转换架构组成的,如图3所示。

图3:语音到手势的翻译模型。

一个 convolutional audio encoder对2D谱图进行采样并将其转换为1D信号。然后,平移模型G预测相应的2D姿势序列堆栈。对真实数据姿势的L1回归提供了一个训练信号,而一个对抗性辨别器D则确保预测的动作既具有时间一致性,又符合说话者的风格。

我们使用UNet架构进行转换,因为它的bottleneck为网络提供了过去和未来的时间上下文,而skip connections允许高频时间信息通过,从而能够预测快速移动。

定量和定性结果

图4:我们训练过的模型是特定于人的。对于每个说话者的音频输入(行),我们应用所有其他单独训练的说话者模型(列)。颜色饱和度对应于待测集上的L1损耗值(越低越好)。对于每一行,对角线上的项都是颜色最浅的,因为模型使用训练对象的输入语音效果最好。

表1:在测试集上使用L1损失的语音到手势转换任务的定量结果(越低越好)

图5:语音到手势转换的定性结果。我们展示了Dr. Kubinec(讲师)和Conan O’Brien(节目主持人)的输入音频频谱图和预测手势。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语音
    +关注

    关注

    3

    文章

    385

    浏览量

    38038
  • 鉴别器
    +关注

    关注

    0

    文章

    8

    浏览量

    8758
  • AI算法
    +关注

    关注

    0

    文章

    251

    浏览量

    12261

原文标题:你说话时的肢体动作,AI仅凭声音就能预测 | CVPR 2019

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    中国移动与南京大学合作研发高保真2D数字说话系统

    近日,中国移动宣布了项重要合作成果——联合南京大学团队成功研发出高保真2D数字说话驱动系统。 作为全球用户规模最大的通信运营商,中国移动每年的客户服务运营成本居高不下。尽管智能语音客服已得到
    的头像 发表于 12-13 11:32 328次阅读

    将AIC33的DIN和DOUT脚用短路的方式实现自环时,说话声音稍微大点的时候,会在声音上叠加个“噼啪”声,为什么?

    我将AIC33的DIN和DOUT脚用短路的方式实现自环时,说话声音稍微大点的时候,会在声音上叠加个“噼啪”声,或则用嘴向MIC连续吹气,自环后听到的
    发表于 11-07 07:42

    将TPA31102D2板的音频输入与SPEAKER芯片连接时,说话声很小失真很厉害,为什么?

    直接将TPA31102D2板的音频输入与PC机耳机口连接,音质很好,听不出什么失真,但是我将TPA31102D2板的音频输入与SPEAKER芯片连接时发现背景音乐声音很清晰如振铃还有就是歌曲的乐器声,但是说话声很小失真很厉害,想问下这个是不是他的speaker输出滤波了导
    发表于 11-07 06:01

    一种创新的动态轨迹预测方法

    本文提出了一种动态轨迹预测方法,通过结合历史帧和历史预测结果提高预测的稳定性和准确性。它引入了历史预测
    的头像 发表于 10-28 14:34 411次阅读
    <b class='flag-5'>一种</b>创新的动态轨迹<b class='flag-5'>预测</b>方法

    可以个TLV320AIC3101的输入与输出端口的左右声道分开使用吗?

    ,然后同时说话,想分别获取这两组声音数据。 2.音频回放也分开左右声道,两个应用程序分别播放不同的内容。 请问能否实现?在哪作出改动更好?如何解决ALSA设备独占的问题? 感谢!
    发表于 10-24 07:47

    TLV3254能不能收听到半径8到10米的人说话声音

    能不能收听到半径8到10米的人说话声音,信噪比实在太低了,远处的听不清,增益缩小了又听不到的远处的声音?
    发表于 10-24 06:34

    BitEnergy AI公司开发出一种AI处理方法

    BitEnergy AI公司,家专注于人工智能(AI)推理技术的企业,其工程师团队创新性地开发了一种名为线性复杂度乘法(L-Mul)的AI
    的头像 发表于 10-22 15:15 390次阅读

    2024年芯片行业有多难?用数据说话

    2024年芯片行业有多难?用数据说话
    的头像 发表于 08-10 18:20 4163次阅读

    云知声说话识别引擎获得HUAWEI COMPATIBLE证书及认证徽标的使用权

    继山海大模型获得两项华为昇腾技术认证后,近日,经华为综合评测,云知声说话识别引擎成功通过与华为Atlas 800 推理服务器(型号:3000)、Atlas 300I Pro推理卡的相互兼容性测试,正式获得HUAWEI COMPATIBLE证书及认证徽标的使用权。
    的头像 发表于 05-27 18:12 770次阅读
    云知声<b class='flag-5'>说话</b><b class='flag-5'>人</b>识别引擎获得HUAWEI COMPATIBLE证书及认证徽标的使用权

    智慧场馆解决方案,让场馆“会说话”!

    在十四五规划文件和数字经济发展报告中,都有明确指出加快建设数字城市,数字中国,旨在深化改革,持续推进我国场馆事业高质量发展。从传统场馆管理到智慧场馆,数字化的发展让我们实现了场馆“会说话”的完美转型
    的头像 发表于 04-25 15:34 349次阅读

    未来之声 | 人形机器说话篇:无声!

    随着个个有关人形机器的“核弹式”新闻的出现,机器技术肉眼可见地快速发展。或许,与人们预想的“像
    的头像 发表于 04-13 08:00 291次阅读
    未来之声 | 人形机器<b class='flag-5'>人</b><b class='flag-5'>说话</b>篇:无声!

    NanoEdge AI的技术原理、应用场景及优势

    NanoEdge AI一种基于边缘计算的人工智能技术,旨在将人工智能算法应用于物联网(IoT)设备和传感器。这种技术的核心思想是将数据处理和分析从云端转移到设备本身,从而减少数据传输延迟、降低
    发表于 03-12 08:09

    使用NVIDIA Triton推理服务器加速AI预测

    这家云计算巨头的计算机视觉和数据科学服务使用 NVIDIA Triton 推理服务器加速 AI 预测
    的头像 发表于 02-29 14:04 585次阅读

    继电器是一种根据什么控制电路的

    继电器是一种电气开关设备,其工作原理是通过控制个较小电流或电压的信号开关个较大电流或电压的电路。它基于电磁感应的原理,利用电磁力使
    的头像 发表于 02-05 11:01 1993次阅读

    让“聋人”看到声音 行空板 —“AI助听器”

    世界上有各种各样的残障人士,这些或不能说话,或听不见声音。聋人,是听力因先天遗传或后天人为因素而受损的残疾,也叫听力障碍者,简称听障
    的头像 发表于 01-12 13:12 442次阅读