身体的运动可以通过音乐信号进行计算预测吗？-电子发烧友网

根据音乐信号预测身体的运动是一个极具挑战性的计算问题。来自Facebook、斯坦福大学和华盛顿大学的研究人员开发了一种基于深度学习的方法，该方法可以将乐器的声音转换成对骨骼关键点的预测，并可以用于制作动画角色。

钢琴家在弹奏钢琴曲时，他们的身体会对音乐产生反应。他们的手指在琴键上敲击，他们挥动手臂在不同的八度音阶上演奏。小提琴演奏者用一只手在琴弦上拉弓，另一只手的手指轻触或拨动琴弦。弓法越快，产生音乐节奏也越快。

一个有趣的问题是：身体的运动可以通过音乐信号进行计算预测吗？这是一个极具挑战性的计算问题。我们需要有一套很好的训练视频，需要能够准确地预测这些视频中的身体姿势，然后建立一个能够找到音乐和身体之间的相关性的算法，以进一步预测运动。

来自Facebook、斯坦福大学和华盛顿大学的研究人员开发了一种基于深度学习的方法，该方法可以将乐器的声音转换成对骨骼关键点的预测，并可以用于制作动画角色。

受唇语预测和视频对象检测启发

人体动力学是很复杂的，尤其是考虑到学习音频相关性所需要的质量。传统上，通过视频序列（而不是音频）来预测人体自然运动的最优方法是采用实验室状态下拍摄的动作捕捉序列。在我们的场景中，我们需要带一位钢琴家到实验室，在他们的手指和身体关节处安装传感器，然后请他们演奏几个小时。

这种方法在实践中很难执行，也不容易推广。如果我们能够利用优秀钢琴家演奏的公开视频，我们就有可能在数据上实现更高程度的多样性。但直到最近，从视频中准确地估计身体姿势才成为可能。今年出现了几种方法，可以让我们从“自然状态下”的数据中学习。

此外，有一些方法显示出预测唇语的显著结果。也就是说，给定一个人说话的音频，他们可以预测出这个人说话时嘴唇的运动。

这两个方向取得的进步启发了我们，我们试图去解决仅仅从音乐中预测身体和手指运动的挑战。这篇论文的目标是探索是否有可能，以及我们是否能从音频中创造出自然和符合逻辑的身体运动。注意，我们没有使用MIDI文件之类的信息，而是试图了解钢琴琴键和音乐之间的关系。我们专注于创造一个能像钢琴家那样运动他的手和手指的角色（avatar）。

我们考虑了两组数据，钢琴和小提琴独奏(如图3)。我们分别收集了这两类音乐的视频，通过视频每一帧里的上半身和手指来处理视频。每一帧共50个关键点，其中21个点表示每只手的手指，8个点表示上半身。

图3：训练数据

除了预测点之外，我们的另一个目标是通过动画形象的方式来可视化这些点，让动画人物根据给定的音频输入自主活动。为了解决这个问题，我们提出两个步骤。首先，构建一个长短期记忆(LSTM)网络，学习音频特征和身体骨架界标（body skeleton landmarks）之间的相关性。其次，我们使用预测的landmark自动给一个动画形象赋予生命。最后的输出是能根据音频输入活动的动画人物。

关键点估计

我们对两种关键点感兴趣：身体和手指。通常情况下，由于相机、灯光和快速运动产生的巨大变化，在自然的视频中估计关键点的估计是具有挑战性的。不过，最近出现了许多方法可以更好地处理自然的视频。

我们获取相对精确的关键点的过程如下：

我们首先通过三个库来运行视频：提供脸部、身体和手的关键点的OpenPose，MaskRCNN，以及人脸识别算法DeepFace。这三个库在基准测试上表现很好，但是在我们的视频中，它们在某些帧上会失败。

图4：在预处理步骤中自动删除的关键点检测器的失败案例

从音频到身体关键点的预测

我们的目标是学习音频特征和身体运动之间的关联性。为此，我们构建了一个LSTM（长短期记忆）网络。架构如图5所示：

图5：关键点预测LSTM的架构。表示音频特征，表示相应的关键点。

我们选择使用具有时间延迟的单向的单层LSTM。表示在特定时间i的音频MFCC，表示身体关键点的PCA系数，m表示memory。我们还添加了一个完全连接层“fc”，发现它可以提高性能。

我们进行了300 epochs的训练。该网络在Caffe2上实现，并使用ADAM优化器。输入和输出都是通过减去平均值并除以方差而归一化的。

图6：第一个PCA mode（piano）

从身体关键点到动画形象

当身体的关键点预估出来后，我们用一个动画形象来使用这些点。我们使用ARkit构建了一个增强现实应用程序，它可以在手机上实时运行。给定一系列2D预测点和身体的动画化身，动作便被应用到化身上。我们使用的化身是带有人体骨骼装置的3D人体模型。

实验

评估：

我们在网络中尝试了不同的参数选择，并在表1和表2中提供了比较。为了找到最优参数，我们进行了超参数搜索。表中的误差以像素表示，越低越好。

为了获得好的结果，过滤掉训练数据中的所有糟糕的帧（错误的骨架、错误的人体检测、错误的人体识别）是很重要的。可以看到，只要过滤掉坏数据，误差就会显著减少。

通过使用较少的PCA系数，可以更好地适应训练数据，但测试误差大于使用较多的系数。在我们的案例中，使用dropout并不能改善结果。时间延迟有助于改善结果。

结果：

图8和图9给出了有代表性的结果。我们展示了不同身体姿势的预测关键点，以及上下文的原始框架。对于关键点，我们将它们叠加在groud truth点上进行视觉对比。注意，我们并不期望这些点能完全一致，但是手指和手可以产生类似的令人满意的运动，这是本文的目标。

图8

图9

在我们的案例中，groud truth是2D身体姿势检测器的结果，这可能是错误的。最后，我们在图12中展示了失败案例，第一行是钢琴的，第二行是小提琴的。这些失败案例表明我们的系统有局限性：目前我们的系统是训练2D的姿势，而训练视频中的实际姿势是3D的。因此，被遮挡和看不见的点不能很好地预测。在视频的高速度和高频率部分，身体姿态检测器可能会产生错误，运动模糊也是如此。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人脸识别

人脸识别

+关注

关注
76

文章
4005

浏览量
81764
增强现实

增强现实

+关注

关注
1

文章
712

浏览量
44925
深度学习

深度学习

+关注

关注
73

文章
5492

浏览量
120975

原文标题：神“乐”马良：AI直接将音频转换成动画

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

Xsens携手ST展示3D身体运动跟踪系统

计算连接技术的可穿戴式体育、健身、医疗和智能手机游戏传感器配件市场上掀起一波创新浪潮。Xsens首席技术官及创始人Per Slycke表示：“实时 3D 身体运动数据可识别复杂的动作（如运动

发表于 12-13 10:38

支持 BLE 连接的接触式身体成分测量仪参考设计

`描述该参考设计适用于采用 TI 信号链、电源和连接组件的整套手持式身体成分或减肥监控终端设备。借助 TI 的 AFE4300 身体成分 AFE，可以加快

发表于 04-03 15:26

夏天运动不孤单，我有三星iconx运动私教

`夏天，一个充满阳光、雨水、活力的季节。而在夏天运动，既可以展示身体的肌肉线条的美，又出汗排毒兼减肥。根据度娘搜索，中国热门运动排行，第四名往后排名是自行车、健身、跑步和瑜伽（前三名是

发表于 05-17 23:44

智能手环是如何收集身体数据的和相关工作原理

，除去被皮肤、肌肉、血液等吸收外，剩下部分的光线透射被光敏接收器感知，通过测量血管里的血液体积随心脏泵血的变化，血液体积的周期性变化构成了一切利用PPG信号来进行心率估计的基础，通过

发表于 09-07 15:09

身体运动传感器技术需求

传感器工艺需求：肌肉骨骼疾病患者只需要在家中备有运动传感器，然后连接到身体的适当位置，并结合AI驱动的用户界面，平台便可以获取运动数据并提供即时反馈，请教老师目前哪些传感器技术方便实现

发表于 03-07 12:47

身体运动传感器

传感器工艺需求：肌肉骨骼疾病患者只需要在家中备有运动传感器，然后连接到身体的适当位置，并结合AI驱动的用户界面，平台便可以获取运动数据并提供即时反馈，请教老师目前哪些传感器技术方便实现

发表于 03-09 13:17

【HarmonyOS HiSpark AI Camera】运动身体姿态分析

项目名称：运动身体姿态分析试用计划：项目计划通过摄像头或传感器捕获人体在运动器械中运动中的姿态，通过AI分析

发表于 11-19 20:48

如何通过计算来预测电路的固有噪声大小？

如何通过计算来预测电路的固有噪声大小？如何采用SPICE模拟技术？

发表于 04-22 06:43

运动员身体形态轮廓自动检测软件设计

像进行图像建立，结合运动员身体形态轮廓特征提取方法进行三维模型的绘制，利用运动员身体轮廓误差补偿

发表于 11-22 16:06 •10次下载

荣耀智能体脂秤2评测什么是身体运动智能

电子秤想必是每个家庭都必不可少的一件物品，以前我们家中的电子秤仅仅是用来测体重的，想要了解更多身体数据也只能简单通过身高、体重计算出一个BMI数值来进行参考。不过这些并不能真实反映出一

发表于 12-02 16:05 •3553次阅读

跑步可以戴耳机听音乐吗，运动听歌选对蓝牙耳机是关键！

作为一个运动爱好者来说，运动蓝牙耳机不仅可以提升运动的乐趣，减少运动过程带来的枯燥，让运动更加有

发表于 12-30 16:11 •796次阅读

运动听音乐用什么耳机、适合运动听歌使用的运动耳机推荐

经常运动的朋友都知道，合适的音乐能让运动事半功倍。特别是跑步时，伴随着音乐的节奏，可以更好的调整配速。累的时候

发表于 03-24 19:30 •1031次阅读

通过生物信号采集处理系统来分析胃肠运动

物信号进行放大、模/数（A/D）转换，然后用计算机对其进行显示，存储、处理及打印，本实验应用 ZL-620观察胃肠运动的各种形式以及神经

发表于 05-28 16:59 •1369次阅读

plc可以进行运动控制吗

可以，PLC（Programmable Logic Controller，可编程逻辑控制器）是一种广泛应用于工业自动化领域的控制设备。它不仅可以实现逻辑控制、顺序控制等功能，还可以进行运动

发表于 06-12 10:41 •649次阅读

如何使用神经网络进行建模和预测

神经网络是一种强大的机器学习技术，可以用于建模和预测变量之间的关系。神经网络的基本概念神经网络是一种受人脑启发的计算模型，由大量的节点（神经元）组成，这些节点通过权重连接在一起。每

发表于 07-03 10:23 •674次阅读

搜索历史

身体的运动可以通过音乐信号进行计算预测吗？

评论

Xsens携手ST展示3D身体运动跟踪系统

支持 BLE 连接的接触式身体成分测量仪参考设计

夏天运动不孤单，我有三星iconx运动私教

智能手环是如何收集身体数据的和相关工作原理

身体运动传感器技术需求

身体运动传感器

【HarmonyOS HiSpark AI Camera】运动身体姿态分析

如何通过计算来预测电路的固有噪声大小？

运动员身体形态轮廓自动检测软件设计

荣耀智能体脂秤2评测什么是身体运动智能

跑步可以戴耳机听音乐吗，运动听歌选对蓝牙耳机是关键！

运动听音乐用什么耳机、适合运动听歌使用的运动耳机推荐

通过生物信号采集处理系统来分析胃肠运动

plc可以进行运动控制吗

如何使用神经网络进行建模和预测