一种AI算法，可以根据说话声音来预测说话人将作出怎样的肢体动作-电子发烧友网

来自UC Berkeley和MIT的研究人员开发了一种AI 算法，可以根据说话声音来预测说话人将作出怎样的肢体动作。所预测的动作十分自然、流畅，本文带来技术解读。

人在说话的时候，常常伴随着身体动作，不管是像睁大眼睛这样细微的动作，还是像手舞足蹈这样夸张的动作。

最近，来自UC Berkeley和MIT的研究人员开发了一种AI算法，可以根据说话声音来预测说话人将作出怎样的肢体动作。

研究人员称，只需要音频语音输入，AI就能生成与声音一致的手势。具体来说，他们进行的是人的独白到手势和手臂动作的“跨模态转换”(cross-modal translation)。相关论文发表在CVPR 2019上。

研究人员收集了10个人144小时的演讲视频，其中包括一名修女、一名化学教师和5名电视节目主持人(Conan O’Brien, Ellen DeGeneres, John Oliver, Jon Stewart, 以及Seth Meyers)。

演讲视频数据集

他们使用现有的算法生成代表说话者手臂和手位置的骨架图形。然后他们用这些数据训练了自己的算法，这样AI就可以根据说话者的新音频来预测手势。

图1：从语音到手势的转换的示例结果。由下往上：输入音频、由我们的模型预测的手臂和手的姿态，以及由Caroline Chan等人在“Everybody Dance Now”论文中提出的方法合成的视频片段。

研究人员表示，在定量比较中，生成的手势比从同一说话者者随机选择的手势更接近现实，也比从一种不同类型的算法预测的手势更接近现实。

图2：特定于说话者的手势数据集

说话者的手势也是独特的，对一个人进行训练并预测另一个人的手势并不奏效。将预测到的手势输入到现有的图像生成算法中，可以生成半真实的视频。

研究团队表示，他们的下一步是不仅根据声音，还根据文字稿来预测手势。该研究潜在的应用包括创建动画角色、动作自如的机器人，或者识别假视频中人的动作。

为了支持对手势和语音之间关系的计算理解的研究，他们还发布了一个大型的个人特定手势视频数据集。

方法详解：两阶段从语音预测视频

给定原始语音，我们的目标是生成说话者相应的手臂和手势动作。

我们分两个阶段来完成这项任务——首先，由于我们用于训练的唯一信号是相应的音频和姿势检测序列，因此我们使用L1回归到2D关键点的序列堆栈来学习从语音到手势的映射。

其次，为了避免回归到所有可能的手势模式的平均值，我们使用了一个对抗性鉴别器，以确保产生的动作相对于说话者的典型动作是可信的。

任何逼真的手势动作都必须在时间上连贯流畅。我们通过学习表示整个话语的音频编码来实现流畅性，该编码考虑了输入语音的完整时间范围s，并一次性(而不是递归地)预测相应姿势的整个时间序列p。

我们的完全卷积网络由一个音频编码器和一个1D UNet转换架构组成的，如图3所示。

图3：语音到手势的翻译模型。

一个 convolutional audio encoder对2D谱图进行采样并将其转换为1D信号。然后，平移模型G预测相应的2D姿势序列堆栈。对真实数据姿势的L1回归提供了一个训练信号，而一个对抗性辨别器D则确保预测的动作既具有时间一致性，又符合说话者的风格。

我们使用UNet架构进行转换，因为它的bottleneck为网络提供了过去和未来的时间上下文，而skip connections允许高频时间信息通过，从而能够预测快速移动。

定量和定性结果

图4：我们训练过的模型是特定于人的。对于每个说话者的音频输入(行)，我们应用所有其他单独训练的说话者模型(列)。颜色饱和度对应于待测集上的L1损耗值(越低越好)。对于每一行，对角线上的项都是颜色最浅的，因为模型使用训练对象的输入语音效果最好。

表1：在测试集上使用L1损失的语音到手势转换任务的定量结果(越低越好)

图5：语音到手势转换的定性结果。我们展示了Dr. Kubinec(讲师)和Conan O’Brien(节目主持人)的输入音频频谱图和预测手势。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

语音

语音

+关注

关注
3

文章
388

浏览量
38202
鉴别器

鉴别器

+关注

关注
0

文章
8

浏览量
8786
AI算法

AI算法

+关注

关注
0

文章
253

浏览量
12387

原文标题：你说话时的肢体动作，AI仅凭声音就能预测 | CVPR 2019

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

【书籍评测活动NO.55】AI Agent应用与项目实战

是一种不需要人类持续干预的AI系统，它可以根据当前的环境和背景信息，去自主分析各种遇到的问题并做出合理的决策，比如几年前打败人类棋手李昌镐的AlphaGo，它就是

发表于 01-13 11:04

中国移动与南京大学合作研发高保真2D数字人说话系统

近日，中国移动宣布了一项重要合作成果——联合南京大学团队成功研发出高保真2D数字人说话驱动系统。作为全球用户规模最大的通信运营商，中国移动每年的客户服务运营成本居高不下。尽管智能语音客服已得到

发表于 12-13 11:32 •501次阅读

将AIC33的DIN和DOUT脚用短路的方式实现自环时，说话的声音稍微大点的时候，会在声音上叠加一个“噼啪”声，为什么？

我将AIC33的DIN和DOUT脚用短路的方式实现自环时，说话的声音稍微大点的时候，会在声音上叠加一个“噼啪”声，或则用嘴向MIC连续吹气，自环后听到的

发表于 11-07 07:42

将TPA31102D2板的音频输入与SPEAKER芯片连接时，说话声很小失真很厉害，为什么？

直接将TPA31102D2板的音频输入与PC机耳机口连接，音质很好，听不出什么失真，但是我将TPA31102D2板的音频输入与SPEAKER芯片连接时发现背景音乐声音很清晰如振铃还有就是歌曲的乐器声，但是说话声很小失真很厉害，想问下这个是不是他的speaker输出滤波了导

发表于 11-07 06:01

一种创新的动态轨迹预测方法

本文提出了一种动态轨迹预测方法，通过结合历史帧和历史预测结果来提高预测的稳定性和准确性。它引入了历史预测

发表于 10-28 14:34 •569次阅读

可以将一个TLV320AIC3101的输入与输出端口的左右声道分开使用吗？

，然后同时说话，想分别获取这两组声音数据。 2.音频回放也分开左右声道，两个应用程序分别播放不同的内容。请问能否实现？在哪一层作出改动更好？如何解决ALSA设备独占的问题？感谢！

发表于 10-24 07:47

TLV3254能不能收听到半径8到10米的人说话的声音？

能不能收听到半径8到10米的人说话的声音，信噪比实在太低了，远处的听不清，增益缩小了又听不到的远处的声音?

发表于 10-24 06:34

BitEnergy AI公司开发出一种新AI处理方法

BitEnergy AI公司，一家专注于人工智能（AI）推理技术的企业，其工程师团队创新性地开发了一种名为线性复杂度乘法（L-Mul）的AI

发表于 10-22 15:15 •486次阅读

2024年芯片行业有多难？用数据说话

2024年芯片行业有多难？用数据说话

发表于 08-10 18:20 •4963次阅读

ai大模型和算法有什么区别

复杂的问题。这些模型通常需要大量的数据和计算资源来训练和优化。例如，深度学习中的神经网络就是一种典型的AI大模型。算法则是一系列解决问题的

发表于 07-16 10:09 •2737次阅读

基于神经网络的呼吸音分类算法

的数据的高度抽象表示。由于这一事实，DL模型在一系列任务上达到了最先进的性能，包括图像识别[8]、语音识别[9]、时间序列预测[10]。在这项工作中，我们提出了一种称为NMRNN的递归

发表于 05-31 12:05

云知声说话人识别引擎获得HUAWEI COMPATIBLE证书及认证徽标的使用权

继山海大模型获得两项华为昇腾技术认证后，近日，经华为综合评测，云知声说话人识别引擎成功通过与华为Atlas 800 推理服务器（型号：3000）、Atlas 300I Pro推理卡的相互兼容性测试，正式获得HUAWEI COMPATIBLE证书及认证徽标的使用权。

发表于 05-27 18:12 •863次阅读

智慧场馆解决方案，让场馆“会说话”！

在十四五规划文件和数字经济发展报告中，都有明确指出加快建设数字城市，数字中国，旨在深化改革，持续推进我国场馆事业高质量发展。从传统场馆管理到智慧场馆，数字化的发展让我们实现了场馆“会说话”的完美转型

发表于 04-25 15:34 •452次阅读

未来之声 | 人形机器人说话篇：无声！

随着一个个有关人形机器人的“核弹式”新闻的出现，机器人技术肉眼可见地快速发展。或许，与人们预想的“像人一样

发表于 04-13 08:00 •420次阅读

NanoEdge AI的技术原理、应用场景及优势

NanoEdge AI 是一种基于边缘计算的人工智能技术，旨在将人工智能算法应用于物联网（IoT）设备和传感器。这种技术的核心思想是将数据处理和分析从云端转移到设备本身，从而减少数据传输延迟、降低

发表于 03-12 08:09

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

一种AI算法，可以根据说话声音来预测说话人将作出怎样的肢体动作

评论

【书籍评测活动NO.55】AI Agent应用与项目实战

中国移动与南京大学合作研发高保真2D数字人说话系统

将AIC33的DIN和DOUT脚用短路的方式实现自环时，说话的声音稍微大点的时候，会在声音上叠加一个“噼啪”声，为什么？

将TPA31102D2板的音频输入与SPEAKER芯片连接时，说话声很小失真很厉害，为什么？

一种创新的动态轨迹预测方法

可以将一个TLV320AIC3101的输入与输出端口的左右声道分开使用吗？

TLV3254能不能收听到半径8到10米的人说话的声音？

BitEnergy AI公司开发出一种新AI处理方法

2024年芯片行业有多难？用数据说话

ai大模型和算法有什么区别

基于神经网络的呼吸音分类算法

云知声说话人识别引擎获得HUAWEI COMPATIBLE证书及认证徽标的使用权

智慧场馆解决方案，让场馆“会说话”！

未来之声 | 人形机器人说话篇：无声！

NanoEdge AI的技术原理、应用场景及优势