0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

场景视频景深学习领域,谷歌AI公布三项最新研究突破

ml8z_IV_Technol 来源:YXQ 2019-04-29 15:38 次阅读

视频中估计3D结构和相机运动是计算机视觉中的一个关键问题,这个技术在自动驾驶领域有着广阔的工业应用前景。目前自动驾驶的核心技术是LiDAR(激光雷达),一种运用雷达原理,采用光和激光作为主要传感器的汽车视觉系统。LiDAR传感器赋予了自动驾驶汽车能够看到周边环境的“双眼”,激光雷达技术越先进,视觉感知的精准程度越高,这是自动驾驶得以实现的底层技术基础。但是最近几年,放在摄像头上的深度学习研究,发展很蓬勃。相比之下, 虽然激光雷达 (LiDAR)的数据有诸多优点,但相关学术进展并不太多。相机+数据+神经网络的组合,正在迅速缩小与LiDAR的能力差距。

无需相机参数、单目、以无监督学习的方式从未标记场景视频中搞定深度图

什么是深度图?

深度图像(depth image)也被称为距离影像(range image),由相机拍摄,是指将从图像采集器到场景中各点的距离(深度)作为像素值的图像,它直接反映了景物可见表面的几何形状。单位为mm,效果参考下图:

在场景视频景深学习领域,谷歌AI机器人实验室联合公布了三项最新研究突破:

第一,证明了可以以一种无监督的方式训练深度网络这个深度网络可以从视频本身预测相机的内在参数,包括镜头失真(见图1)。

第二,在这种情况下,他们是第一个以几何方式从预测深度直接解决遮挡的问题

第三,大大减少了处理场景中移动元素所需的语义理解量只需要一个覆盖可能属于移动对象的像素的单个掩码,而不是分割移动对象的每个实例并跨帧跟踪它。

图1:从未知来源的视频中学习深度的方法的定性结果,通过同时学习相机的外在和内在参数来实现。 由于该方法不需要知道相机参数,因此它可以应用于任何视频集。 所有深度图(在右侧可视化,作为差异)都是从原始视频中学习而不使用任何相机内在函数。 从上到下:来自YouTube8M的帧,来自EuRoC MAV数据集,来自Cityscapes和来自KITTI的帧。

推特网友对此不吝赞美:“这是我见过的最令人印象深刻的无监督结果之一。来自未标记视频的深度图对于自动驾驶非常有用:)“

以下是论文具体内容:

从视频中估计3D结构和相机运动是计算机视觉中的一个关键问题,这个技术在自动驾驶领域有着广阔的工业应用前景。

解决该问题的传统方法依赖于在多个连续帧中识别场景中的相同点,并求解在这些帧上最大程度一致的3D结构和相机运动。

但是,帧之间的这种对应关系只能针对所有像素的子集建立,这导致了深度估计不确定的问题。与通常处理逆问题一样,这些缺口是由连续性和平面性等假设填充的。

深度学习能够从数据中获得这些假设,而不是手工指定这些假设。信息不足以解决模糊性的地方,深度网络可以通过对先前示例进行归纳,以生成深度图和流场。

无监督方法允许单独从原始视频中学习,使用与传统方法类似的一致性损失,但在训练期间对其进行优化。在推论中,经过训练的网络能够预测来自单个图像的深度以及来自成对或更长图像序列的运动。

随着对这个方向的研究越来越有吸引力,很明显,物体运动是一个主要障碍,因为它违反了场景是静态的假设。已经提出了几个方向来解决该问题,包括通过实例分割利用对场景的语义理解。

遮挡是另一个限制因素,最后,在此方向的所有先前工作中,必须给出相机的内在参数。这项工作解决了这些问题,因此减少了监督,提高了未标记视频的深度和运动预测质量。

首先,我们证明了可以以一种无监督的方式训练深度网络,这个深度网络从视频本身预测相机的内在参数,包括镜头失真(见图1)。

其次,在这种情况下,我们是第一个以几何方式从预测深度直接解决遮挡的问题。

最后,我们大大减少了处理场景中移动元素所需的语义理解量:我们需要一个覆盖可能属于移动对象的像素的单个掩码,而不是分割移动对象的每个实例并跨帧跟踪它。

这个掩模可能非常粗糙,实际上可以是矩形边界框的组合。获得这样的粗糙掩模是一个简单得多的问题,而且与实例分割相比,使用现有的模型可以更可靠地解决这个问题。

除了这些定性进展之外,我们还对我们的方法进行了广泛的定量评估,并发现它在多个广泛使用的基准数据集上建立了新的技术水平。将数据集汇集在一起,这种能力通过我们的方法得到了极大的提升,证明可以提高质量。

表1:总结了在KITTI上训练的模型和评估结果,使用给定相机内建和学习相机内建两种方式来评估我们方法的深度估计,结果显而易见,我们获得了当前最佳SOTA。

表2:总结了在Cityscapes上训练和测试的模型的评估结果,我们的方法优于以前的方法,并从学习的内建中获益。

表3:深度估计的消融实验。 在所有实验中,训练集是Cityscapes(CS)和KITTI组合,我们分别在Cityscapes(CS)和KITTI(Eigen partition)上测试模型。 每行代表一个实验,其中与主方法相比进行了一次更改,如“实验”行中所述。 数字越小越好。

除了这些定性的进步,我们对我们的方法进行了广泛的定量评估,发现它在多个广泛使用的基准数据集上建立了一个新的技术状态。将数据集集中在一起,这种方法大大提高了数据集的质量。

最后,我们首次演示了可以在YouTube视频上学习深度和相机内在预测,这些视频是使用多个不同的相机拍摄的,每个相机的内建都是未知的,而且通常是不同的。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6128

    浏览量

    105021
  • LIDAR
    +关注

    关注

    10

    文章

    322

    浏览量

    29340

原文标题:谷歌AI:根据视频生成深度图,效果堪比激光雷达

文章出处:【微信号:IV_Technology,微信公众号:智车科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    苹果iOS 18.2将推三项备忘录AI功能,提升创作效率

    11月6日,据外媒报道,苹果公司正筹备推出第二波Apple Intelligence(苹果智能)功能,并计划在下个月发布的iOS 18.2更新中,为备忘录应用带来三项关键的人工智能改进,旨在提升用户的创作效率和日常记录体验。
    的头像 发表于 11-06 14:58 332次阅读

    AI for Science:人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

    偏见、伦理道德等问题。此外,如何更好地将AI与科学研究人员的传统工作模式相融合,也是一个亟待解决的问题。未来,随着技术的不断进步和应用场景的拓展,AI for Science有望在更多
    发表于 10-14 09:16

    3D ToF场景距离(景深)测量系统简介

    电子发烧友网站提供《3D ToF场景距离(景深)测量系统简介.pdf》资料免费下载
    发表于 09-29 10:55 0次下载
    3D ToF<b class='flag-5'>三</b>维<b class='flag-5'>场景</b>距离(<b class='flag-5'>景深</b>)测量系统简介

    谷歌Pixel 9系列AI功能抢眼,苹果被指AI领域落后

    8月15日,谷歌意外提前揭晓了其新品发布会,借助Pixel 9系列手机搭载的Gemini AI技术,在苹果iPhone 16系列发布前夕抢占了科技头条。此举不仅展示了谷歌在人工智能领域
    的头像 发表于 08-15 15:31 535次阅读

    谷歌Chrome浏览器新增AI功能,提升用户体验

    谷歌近日宣布,在其广受欢迎的Chrome浏览器中引入了三项前沿的AI技术功能,旨在为用户提供更加智能、便捷的浏览体验。这些新功能由Gemini技术强力驱动,目前已在Chrome桌面版上线,标志着
    的头像 发表于 08-05 11:26 628次阅读

    谷歌AI突破:为无声视频智能配音

    近日,谷歌DeepMind团队公布了一革命性的技术——利用AI为无声视频生成背景音乐的“video-to-audio”技术。这一技术的出现
    的头像 发表于 06-21 10:50 457次阅读

    NVIDIA和谷歌云宣布开展一新的合作,加速AI开发

    NVIDIA 和谷歌云宣布开展一新的合作,以帮助全球初创企业加速创建生成式 AI 应用和服务。
    的头像 发表于 04-11 14:03 454次阅读

    谷歌推出能制作旅行攻略的AI工具

    谷歌近日发布了一令人瞩目的新功能,它是一款能够借助自然语言对话帮助用户生成旅行行程和出游建议的AI工具。这款工具的推出,标志着谷歌在人工智能领域
    的头像 发表于 03-29 11:08 612次阅读

    维信诺主导三项柔性显示器件团体标准发布

    近日,维信诺昆山公司凭借其深厚的技术积累和行业影响力,主导制定并发布了三项团体标准:T/SOECC 014-2024《柔性显示器件 折痕测试方法》、T/SOECC 015-2024《柔性显示器
    的头像 发表于 03-13 10:37 859次阅读

    NanoEdge AI的技术原理、应用场景及优势

    领域。以下是一些具体的应用场景: 1 . 智能家居:通过将 NanoEdge AI 集成到智能家居设备中,可以实现对家庭环境的实时监控和智能控制,如温度调节、照明控制、安防监控等。 2.工业自动化
    发表于 03-12 08:09

    中兴通讯荣获GTI Awards 2024三项大奖,展现5G领域硬核实力

    近日,在备受瞩目的MWC24巴塞罗那大会上,中兴通讯凭借其卓越的技术创新和应用实力,荣获了三项GTI Awards 2024大奖。这些奖项不仅是对中兴通讯在5G领域的突出贡献的认可,更是对其持续引领行业发展的肯定。
    的头像 发表于 03-03 15:40 906次阅读

    高通在2024 MWC展示AI领域突破

    在2024年巴塞罗那世界移动通信大会(2024 MWC)上,高通技术公司展现了其在AI领域的最新成果,从全新的高通®AI Hub到前沿研究突破
    的头像 发表于 02-27 10:57 931次阅读

    谷歌推出AI扩散模型Lumiere

    近日,谷歌研究院重磅推出全新AI扩散模型Lumiere,这款模型基于谷歌自主研发的“Space-Time U-Net”基础架构,旨在实现视频
    的头像 发表于 02-04 13:49 964次阅读

    三项交流电主轴电机启动后转子无法转动却左右剧烈摆动是什么原因呀?

    一台数控齿轮磨床三项交流电主轴砂轮主轴电机主轴带编码器,启动后转子无法转动却左右剧烈摆动。什么原因呀?编码器和主轴电机驱动器均已更换,电机绕组已检查无短路断路三项绕阻平衡。请版主帮帮忙呀!
    发表于 12-12 06:07

    安富利荣获Nordic三项大奖!

    11月6日,安富利荣获全球先进的集成电路硬件及软件供应商Nordic颁发的三项大奖——授予安富利中国团队中表现突出的“Nordic大使”、“最佳分销FAE”奖,以及授予安富利亚洲团队的“年度分销商”奖项。
    的头像 发表于 11-28 17:07 536次阅读