研发全新多模态感知AI框架 AI能同时模拟人眼和手预测物体运动-电子发烧友网

据外媒VentureBeat报道，来自三星、麦吉尔大学和约克大学的研究人员，近日研发出一个全新的生成式多模态感知AI框架，能够根据物体初始状态的视觉和触觉数据，来预测出物体的运动趋势。

据悉，这是第一个利用视觉和触觉感知来学习多模态动力学模型的研究。

运动预测是自动化领域的一大关键技术，通过预判物体和环境的交互方式，自动化系统得以作出更加智能的决策。该团队的这项研究，似乎又将这一技术的应用向前推进了一步。

这篇论文名为《基于多模态的生成模型指导的直观物理研究（Learning Intuitive Physics with Multimodal Generative Models）》，已发表于arXiv平台。

论文链接：

https://arxiv.org/pdf/2101.04454.pdf

一、运动预测有挑战：摩擦力、压力难确定

假如你要接住一个掉落的物体，你会迅速判断它的运动走向，然后准确接住它。

但对于一个机器人来说，要准确预测出物体还未发生的运动趋势，可不是一件容易的事。

近期，不少运动预测方面的AI研究，都指出了触觉和视觉之间的协同作用。

其中，触觉数据可以反映物体和环境间的作用力、由此产生的物体运动和环境接触等关键信息，提供一种展现物体与环境交互过程的整体视角；视觉数据则可以直观反映了立体形状、位置等物体属性。

在本文研究人员看来，视觉、触觉信号的组合，或有助于推测出物体运动后的最终稳定状态。

研究人员在论文写道：“先前的研究表明，由于摩擦力、几何特性、压力分布存在不确定性，预测运动对象的轨迹具有挑战性。”

比如推一个瓶子，如何准确预测这个动作的结果，接下来这个瓶子是会向前移动，还是会翻倒？

▲《基于多模态的生成模型指导的直观物理研究（Learning Intuitive Physics with Multimodal Generative Models）》论文插图

为了减少这种不确定性，研究团队设计并实现了一个由软硬件组成的高质量AI感知系统，经训练后，该系统能捕获到运动轨迹中最关键、最稳定的元素，从而准确测量和预测物体落在表面上的最终静止状态。

二、开发新型视觉触觉传感器，打造多模态感知系统

动态预测常被表述为一个高分辨率的时间问题，但在此项研究中，研究人员关注的是物体运动后的最终结果，而不是预测细粒度的物体运动轨迹。

研究人员认为，关注未来关键时间的结果，有助于大大提高模型预测的准确度和可靠性。

该研究团队开发了一款名为“透视肌肤（STS，See-Through-Your-Skin）”的新型视觉-触觉多模态传感器，可以同时捕捉物体的视觉和触觉特征数据，并重建在1640×1232的高分辨率图像中。

由于光学触觉传感器通常使用不透明和反光的涂料涂层，研究人员开发了一种具有可控透明度的薄膜，使得传感器能同时采集关于物理交互的触觉信息和传感器外部世界的视觉信息。

具体而言，研究人员通过改变STS传感器的内部照明条件，来控制传感器的触觉和视觉测量的占空比，从而设置了反光涂料层的透明度。

如上图左上角所示，利用内部照明可将传感器表面变成透明，从而使得传感器内置摄像头能直接采集传感器外部世界的图像；上图的左下角显示，传感器也可以保持内外一致的亮度，通过感知膜形变来采集物理交互触觉信息。

借助STS传感器和PyBullet模拟器，研究人员在动态场景中快速生成大量物体交互的视觉触觉数据集，用于验证其感知系统的性能。

受多模态变分自编码器（MVAE）启发，研究团队设计了一个生成式多模态感知系统，在一个统一的MVAE框架内集成了视觉、触觉和3D Pose反馈。

MVAE可以解读STS传感器采集的视觉、触觉数据，将所有模态的物体关键信息映射到一个共享的嵌入空间，用于推断物体在运动后最终的稳定状态。

实验结果表明，MVAE架构可以被训练用于预测多模态运动轨迹中最稳定和信息最丰富的元素。

三、不惧单一模态信息缺失，准确预测物体未来状态

该研究团队生成的视觉触觉数据库主要包含三种动态模拟场景，分别是物体在平面上自由落体、物体在斜面上下滑、物体在静止状态下收到外力扰动。

下图显示了模拟三种动态场景的示例集，顶部一行显示3D Pose视图，中间一行、底部一行分别显示STS传感器采集的视觉和触觉结果。

研究人员在三种模拟动态场景和使用STS传感器的真实实验场景中，分别验证了其动力学模型的预测能力。

如下方图表显示，在三种模拟场景中的固定步和最终步预测中，相比仅依赖视觉（VAE-visual only）或仅依赖触觉（VAE-tactile only）的单模态感知模型，多模态感知模型（MVAE）在验证集中的二进制交叉熵误差（BCE）均值更小，即预测结果的准确性更高。

研究人员还用基于高时间分辨率的模型进行对比实验，发现这一模型在预测物体最终静止状态时，准确性要高于动态模型。这是由于不确定性和错误会随着时间前向传播，导致模糊和不精确的预测。

结果表明，在对中间状态不感兴趣的动态场景中，该AI框架能以更高的准确度来预测最终结果，而无需明确推理中间步骤。

此外，由于该研究方法破译了触觉、视觉、物体姿态之间的映射关系，因此即便某一模态信息缺失，比如缺乏触觉信息时，该框架仍然可以从视觉信息推测出视觉信息，从而预测物体运动后的最终落点。

结语：制造业自动化将是运动预测的一大应用场景

该研究团队的这项新成果能够基于触觉、视觉的双模态数据对物体的运动轨迹进行预判，并推测出物体的最终静止状态。

相较于以往的运动预测技术，该研究团队实现了触觉和视觉数据的双向推测，为制造业的自动化场景提供了更多的可能性。

比如，拣货机器人能够更准确地判断货物的运动状态，从而提高拾取精度；货架机器人能够提前预判货物的运动轨迹，从而防止货物跌落破损，减少损失。

不过，这项成果能够预测的运动状态还相对有限，我们期待研究团队对复杂的运动模式、多样的物体形态进行更多的模拟和技术攻关。

责任编辑：PSY

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
31845

浏览量
270676
自动化

自动化

+关注

关注
29

文章
5654

浏览量
79796
智能感知

智能感知

+关注

关注
2

文章
98

浏览量
17833
运动物体

运动物体

+关注

关注
0

文章
4

浏览量
6748

AI赋能边缘网关：开启智能时代的新蓝海

，准确率达到99.9%。这一技术革新正在创造巨大的商业价值。在智慧城市领域，AI边缘网关可以实现交通流量实时分析、违章行为智能识别；在工业互联网中，能够实现设备预测性维护、生产工艺优化；在智慧能源领域

发表于 02-15 11:41

字节跳动发布OmniHuman 多模态框架

2 月 6 日消息，字节跳动近日发布了一项重大成果 ——OmniHuman 多模态框架，其优势在于其强大的视频生成能力。用户只需提供一张任意尺寸和人物占比的单张图片，再结合一段输入音频，就能生成

发表于 02-07 17:50 •407次阅读

【书籍评测活动NO.55】AI Agent应用与项目实战

的一些日程预测性地调整了今天的工作安排。在近日的Agent OpenDay上，智谱AI展示了在AI Agent（智能体）方面最新成果，发布了用AI替代人类执行任务的三款智能体，分别是

发表于 01-13 11:04

超越人类视觉！昱感微“多维像素”多模态超级摄像头方案产品赋能超凡感知力

视觉——人眼只能感知所见目标大概的距离/位置/速度以及外观信息，并且受到天气、光线等因素影响较大；昱感微“多维像素”多模态感知方案的超级摄像

发表于 12-12 17:17 •357次阅读

超越人类视觉！昱感微“多维像素”<b class='flag-5'>多</b><b class='flag-5'>模态</b>超级摄像头方案产品赋<b class='flag-5'>能</b>超凡<b class='flag-5'>感知</b>力

苹果发布300亿参数多模态AI大模型MM1.5

苹果近日推出了全新的多模态AI大模型MM1.5，该模型拥有高达300亿的参数规模，是在前代MM1架构的基础上进一步发展而来的。

发表于 10-14 15:50 •342次阅读

AI for Science：人工智能驱动科学创新》第4章-AI与生命科学读后感

研究的进程。从蛋白质结构预测到基因测序与编辑，再到药物研发，人工智能技术在生命科学的各个层面都发挥着重要作用。特别是像AlphaFold这样的工具，成功解决了困扰生物学界半个多世纪的蛋白质折叠问题，将

发表于 10-14 09:21

智谱AI发布全新多模态开源模型GLM-4-9B

近日，智谱AI在人工智能领域取得重大突破，成功推出全新开源模型GLM-4-9B。这款模型以其卓越的多模态能力，再次刷新了业界对于大型语言模型的认识。

发表于 06-07 09:17 •847次阅读

Build 2024发布多项Azure AI Speech全新多模态功能

客户们持续使用 Azure OpenAI 和 Azure AI Speech 进行创新，为企业引入新的效率，并构建新的多模态体验。

发表于 05-28 09:08 •649次阅读

Build 2024发布多项Azure <b class='flag-5'>AI</b> Speech<b class='flag-5'>全新</b><b class='flag-5'>多</b><b class='flag-5'>模态</b>功能

谷歌发布多模态AI新品，加剧AI巨头竞争

在全球AI竞技场上，谷歌与OpenAI一直稳居领先地位。近日，谷歌在I/O开发者大会上掀起了一股新的技术浪潮，发布了多款全新升级的多模态AI

发表于 05-16 09:28 •499次阅读

李未可科技正式推出WAKE-AI多模态AI大模型

文本生成、语言理解、图像识别及视频生成等多模态交互能力。该大模型围绕 GPS 轨迹+视觉+语音打造新一代 LLM-Based的自然交互，同时多

发表于 04-18 17:01 •673次阅读

未来已来，多传感器融合感知是自动驾驶破局的关键

驾驶的关键的是具备人类的感知能力，多传感器融合感知正是自动驾驶破局的关键。昱感微的雷视一体多传感器融合方案就好像一双比人眼更敏锐的眼睛，可以

发表于 04-11 10:26

NVIDIA Edify为视觉内容提供商带来3D生成式AI和全新图像控件

用于视觉生成式 AI 的多模态架构 NVIDIA Edify 正在迈入全新维度。

发表于 03-26 09:49 •925次阅读

谷歌推出多模态VLOGGER AI

谷歌最新推出的VLOGGER AI技术引起了广泛关注，这项创新的多模态模型能够让静态肖像图“活”起来并“说话”。用户只需提供一张人物肖像照片和一段音频内容，VLOGGER AI就能让图

发表于 03-22 10:45 •937次阅读

字节跳动被曝正秘密研发多个AI产品

据多位知情人士透露，科技巨头字节跳动正在人工智能（AI）大模型领域秘密研发多个创新产品。其中，多模态数字人产品备受瞩目，该产品将结合先进的AI

发表于 03-05 11:22 •1126次阅读

MWC2024：高通推出全新AI Hub及前沿多模态大模型

2024年世界移动通信大会（MWC）上，高通再次展现其技术领导力，通过发布全新的高通AI Hub和展示前沿的多模态大模型技术，推动了5G和AI

发表于 02-26 16:59 •1374次阅读

搜索历史

研发全新多模态感知AI框架 AI能同时模拟人眼和手预测物体运动

评论

AI赋能边缘网关：开启智能时代的新蓝海

字节跳动发布OmniHuman 多模态框架

【书籍评测活动NO.55】AI Agent应用与项目实战

超越人类视觉！昱感微“多维像素”多模态超级摄像头方案产品赋能超凡感知力

苹果发布300亿参数多模态AI大模型MM1.5

AI for Science：人工智能驱动科学创新》第4章-AI与生命科学读后感

智谱AI发布全新多模态开源模型GLM-4-9B

Build 2024发布多项Azure AI Speech全新多模态功能

谷歌发布多模态AI新品，加剧AI巨头竞争

李未可科技正式推出WAKE-AI多模态AI大模型

未来已来，多传感器融合感知是自动驾驶破局的关键

NVIDIA Edify为视觉内容提供商带来3D生成式AI和全新图像控件

谷歌推出多模态VLOGGER AI

字节跳动被曝正秘密研发多个AI产品

MWC2024：高通推出全新AI Hub及前沿多模态大模型