0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

研发全新多模态感知AI框架 AI能同时模拟人眼和手预测物体运动

工程师邓生 来源:VentureBeat 作者:VentureBeat 2021-02-12 09:12 次阅读

据外媒VentureBeat报道,来自三星、麦吉尔大学和约克大学的研究人员,近日研发出一个全新的生成式多模态感知AI框架,能够根据物体初始状态的视觉和触觉数据,来预测出物体的运动趋势。

据悉,这是第一个利用视觉和触觉感知来学习多模态动力学模型的研究。

运动预测是自动化领域的一大关键技术,通过预判物体和环境的交互方式,自动化系统得以作出更加智能的决策。该团队的这项研究,似乎又将这一技术的应用向前推进了一步。

这篇论文名为《基于多模态的生成模型指导的直观物理研究(Learning Intuitive Physics with Multimodal Generative Models)》,已发表于arXiv平台。

论文链接:

https://arxiv.org/pdf/2101.04454.pdf

一、运动预测有挑战:摩擦力、压力难确定

假如你要接住一个掉落的物体,你会迅速判断它的运动走向,然后准确接住它。

但对于一个机器人来说,要准确预测出物体还未发生的运动趋势,可不是一件容易的事。

近期,不少运动预测方面的AI研究,都指出了触觉和视觉之间的协同作用。

其中,触觉数据可以反映物体和环境间的作用力、由此产生的物体运动和环境接触等关键信息,提供一种展现物体与环境交互过程的整体视角;视觉数据则可以直观反映了立体形状、位置等物体属性。

在本文研究人员看来,视觉、触觉信号的组合,或有助于推测出物体运动后的最终稳定状态。

研究人员在论文写道:“先前的研究表明,由于摩擦力、几何特性、压力分布存在不确定性,预测运动对象的轨迹具有挑战性。”

比如推一个瓶子,如何准确预测这个动作的结果,接下来这个瓶子是会向前移动,还是会翻倒?

▲《基于多模态的生成模型指导的直观物理研究(Learning Intuitive Physics with Multimodal Generative Models)》论文插图

为了减少这种不确定性,研究团队设计并实现了一个由软硬件组成的高质量AI感知系统,经训练后,该系统能捕获到运动轨迹中最关键、最稳定的元素,从而准确测量和预测物体落在表面上的最终静止状态。

二、开发新型视觉触觉传感器,打造多模态感知系统

动态预测常被表述为一个高分辨率的时间问题,但在此项研究中,研究人员关注的是物体运动后的最终结果,而不是预测细粒度的物体运动轨迹。

研究人员认为,关注未来关键时间的结果,有助于大大提高模型预测的准确度和可靠性。

该研究团队开发了一款名为“透视肌肤(STS,See-Through-Your-Skin)”的新型视觉-触觉多模态传感器,可以同时捕捉物体的视觉和触觉特征数据,并重建在1640×1232的高分辨率图像中。

由于光学触觉传感器通常使用不透明和反光的涂料涂层,研究人员开发了一种具有可控透明度的薄膜,使得传感器能同时采集关于物理交互的触觉信息和传感器外部世界的视觉信息。

具体而言,研究人员通过改变STS传感器的内部照明条件,来控制传感器的触觉和视觉测量的占空比,从而设置了反光涂料层的透明度。

如上图左上角所示,利用内部照明可将传感器表面变成透明,从而使得传感器内置摄像头能直接采集传感器外部世界的图像;上图的左下角显示,传感器也可以保持内外一致的亮度,通过感知膜形变来采集物理交互触觉信息。

借助STS传感器和PyBullet模拟器,研究人员在动态场景中快速生成大量物体交互的视觉触觉数据集,用于验证其感知系统的性能。

受多模态变分自编码器(MVAE)启发,研究团队设计了一个生成式多模态感知系统,在一个统一的MVAE框架内集成了视觉、触觉和3D Pose反馈。

MVAE可以解读STS传感器采集的视觉、触觉数据,将所有模态的物体关键信息映射到一个共享的嵌入空间,用于推断物体在运动后最终的稳定状态。

实验结果表明,MVAE架构可以被训练用于预测多模态运动轨迹中最稳定和信息最丰富的元素。

三、不惧单一模态信息缺失,准确预测物体未来状态

该研究团队生成的视觉触觉数据库主要包含三种动态模拟场景,分别是物体在平面上自由落体、物体在斜面上下滑、物体在静止状态下收到外力扰动。

下图显示了模拟三种动态场景的示例集,顶部一行显示3D Pose视图,中间一行、底部一行分别显示STS传感器采集的视觉和触觉结果。

bf4c4d28780e42c1bb1fa5e5e9bb9665.png

研究人员在三种模拟动态场景和使用STS传感器的真实实验场景中,分别验证了其动力学模型的预测能力。

如下方图表显示,在三种模拟场景中的固定步和最终步预测中,相比仅依赖视觉(VAE-visual only)或仅依赖触觉(VAE-tactile only)的单模态感知模型,多模态感知模型(MVAE)在验证集中的二进制交叉熵误差(BCE)均值更小,即预测结果的准确性更高。

a8d1bf13e33c4f2d8ab42254125e4be3.png

研究人员还用基于高时间分辨率的模型进行对比实验,发现这一模型在预测物体最终静止状态时,准确性要高于动态模型。这是由于不确定性和错误会随着时间前向传播,导致模糊和不精确的预测。

结果表明,在对中间状态不感兴趣的动态场景中,该AI框架能以更高的准确度来预测最终结果,而无需明确推理中间步骤。

此外,由于该研究方法破译了触觉、视觉、物体姿态之间的映射关系,因此即便某一模态信息缺失,比如缺乏触觉信息时,该框架仍然可以从视觉信息推测出视觉信息,从而预测物体运动后的最终落点。

135dbc0e477d4786b31a1c0ce71f9121.png

结语:制造业自动化将是运动预测的一大应用场景

该研究团队的这项新成果能够基于触觉、视觉的双模态数据对物体的运动轨迹进行预判,并推测出物体的最终静止状态。

相较于以往的运动预测技术,该研究团队实现了触觉和视觉数据的双向推测,为制造业的自动化场景提供了更多的可能性。

比如,拣货机器人能够更准确地判断货物的运动状态,从而提高拾取精度;货架机器人能够提前预判货物的运动轨迹,从而防止货物跌落破损,减少损失。

不过,这项成果能够预测的运动状态还相对有限,我们期待研究团队对复杂的运动模式、多样的物体形态进行更多的模拟和技术攻关。

责任编辑:PSY

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    31097

    浏览量

    269431
  • 自动化
    +关注

    关注

    29

    文章

    5593

    浏览量

    79401
  • 智能感知
    +关注

    关注

    2

    文章

    98

    浏览量

    17803
  • 运动物体
    +关注

    关注

    0

    文章

    4

    浏览量

    6742
收藏 人收藏

    评论

    相关推荐

    超越人类视觉!昱感微“多维像素”模态超级摄像头方案产品赋超凡感知

    视觉——人只能感知所见目标大概的距离/位置/速度以及外观信息,并且受到天气、光线等因素影响较大;昱感微“多维像素”模态感知方案的超级摄像
    的头像 发表于 12-12 17:17 217次阅读
    超越人类视觉!昱感微“多维像素”<b class='flag-5'>多</b><b class='flag-5'>模态</b>超级摄像头方案产品赋<b class='flag-5'>能</b>超凡<b class='flag-5'>感知</b>力

    苹果发布300亿参数模态AI大模型MM1.5

    苹果近日推出了全新模态AI大模型MM1.5,该模型拥有高达300亿的参数规模,是在前代MM1架构的基础上进一步发展而来的。
    的头像 发表于 10-14 15:50 281次阅读

    AI for Science:人工智能驱动科学创新》第4章-AI与生命科学读后感

    研究的进程。从蛋白质结构预测到基因测序与编辑,再到药物研发,人工智能技术在生命科学的各个层面都发挥着重要作用。特别是像AlphaFold这样的工具,成功解决了困扰生物学界半个世纪的蛋白质折叠问题,将
    发表于 10-14 09:21

    智谱AI发布全新模态开源模型GLM-4-9B

    近日,智谱AI在人工智能领域取得重大突破,成功推出全新开源模型GLM-4-9B。这款模型以其卓越的模态能力,再次刷新了业界对于大型语言模型的认识。
    的头像 发表于 06-07 09:17 773次阅读

    Build 2024发布多项Azure AI Speech全新模态功能

    客户们持续使用 Azure OpenAI 和 Azure AI Speech 进行创新,为企业引入新的效率,并构建新的模态体验。
    的头像 发表于 05-28 09:08 585次阅读
    Build 2024发布多项Azure <b class='flag-5'>AI</b> Speech<b class='flag-5'>全新</b><b class='flag-5'>多</b><b class='flag-5'>模态</b>功能

    谷歌发布模态AI新品,加剧AI巨头竞争

    在全球AI竞技场上,谷歌与OpenAI一直稳居领先地位。近日,谷歌在I/O开发者大会上掀起了一股新的技术浪潮,发布了多款全新升级的模态AI
    的头像 发表于 05-16 09:28 459次阅读

    李未可科技正式推出WAKE-AI模态AI大模型

    文本生成、语言理解、图像识别及视频生成等模态交互能力。   该大模型围绕 GPS 轨迹+视觉+语音打造新一代 LLM-Based的自然交互,同时
    发表于 04-18 17:01 621次阅读
    李未可科技正式推出WAKE-<b class='flag-5'>AI</b><b class='flag-5'>多</b><b class='flag-5'>模态</b><b class='flag-5'>AI</b>大模型

    开发者手机 AI - 目标识别 demo

    应用的demo。 应用程序通过相机进行预览,对预览画面中的物体进行目标识别,目前该应用程序支持识别100种物体。 系统架构 下图为demo应用以及Openharmony AI子系统的架构图。 目标
    发表于 04-11 16:14

    未来已来,传感器融合感知是自动驾驶破局的关键

    驾驶的关键的是具备人类的感知能力,传感器融合感知正是自动驾驶破局的关键。昱感微的雷视一体传感器融合方案就好像一双比人更敏锐的眼睛,可以
    发表于 04-11 10:26

    NVIDIA Edify为视觉内容提供商带来3D生成式AI全新图像控件

    用于视觉生成式 AI模态架构 NVIDIA Edify 正在迈入全新维度。
    的头像 发表于 03-26 09:49 821次阅读

    谷歌推出模态VLOGGER AI

    谷歌最新推出的VLOGGER AI技术引起了广泛关注,这项创新的模态模型能够让静态肖像图“活”起来并“说话”。用户只需提供一张人物肖像照片和一段音频内容,VLOGGER AI就能让图
    的头像 发表于 03-22 10:45 861次阅读

    字节跳动被曝正秘密研发多个AI产品

    据多位知情人士透露,科技巨头字节跳动正在人工智能(AI)大模型领域秘密研发多个创新产品。其中,模态数字人产品备受瞩目,该产品将结合先进的AI
    的头像 发表于 03-05 11:22 1007次阅读

    MWC2024:高通推出全新AI Hub及前沿模态大模型

    2024年世界移动通信大会(MWC)上,高通再次展现其技术领导力,通过发布全新的高通AI Hub和展示前沿的模态大模型技术,推动了5G和AI
    的头像 发表于 02-26 16:59 1293次阅读

    阿里巴巴推出自主模态AI代理MobileAgent

    阿里巴巴最近推出了一款名为MobileAgent的自主模态AI代理,这款产品模拟人类操作手机,并采用纯视觉解决方案,无需任何系统代码。
    的头像 发表于 02-04 10:34 1072次阅读

    洲明科技发布AI+显示终端技术,推动LED行业数字化、智能化升级

    AI技术快速崛起,引领着数字产业新的场景、应用及生态,同时也为LED行业带来巨大商业机遇。为此,洲明科技提出“LED+AI”战略,在技术层面,推出数字虚拟人UniAvatar、垂直
    的头像 发表于 02-03 14:43 1064次阅读