谷歌AI发布3D物体数据集，附带标记边界框、相机位姿、稀疏点云-电子发烧友网

见过3D物体数据集，见过会动的3D物体数据集吗？

每段动态视频都以目标为中心拍摄，不仅自带标注整体的边界框，每个视频还附带相机位姿和稀疏点云。

这是谷歌的开源3D物体数据集 Objectron，包含 15000份短视频样本，以及从五个大洲、十个国家里收集来的 400多万张带注释的图像。

谷歌认为，3D目标理解领域，缺少像2D中的ImageNet这样的大型数据集，而Objectron数据集能在一定程度上解决这个问题。

数据集一经推出， 1.6k网友点赞。

有网友调侃，谷歌恰好在自己想“谷歌”这类数据集的时候，把它发了出来。

也有团队前成员表示，很高兴看到这样的数据集和模型，给AR带来进步的可能。

除此之外，谷歌还公布了用Objectron数据集训练的针对鞋子、椅子、杯子和相机4种类别的3D目标检测模型。

来看看这个数据集包含什么，以及谷歌提供的3D目标检测方案吧~ （项目地址见文末）

9类物体，对AR挺友好

目前，这个数据集中包含的3D物体样本，包括自行车，书籍，瓶子，照相机，麦片盒子，椅子，杯子，笔记本电脑和鞋子。

当然，这个数据集，绝不仅仅只是一些以物体为中心拍摄的视频和图像，它具有如下特性：

注释标签（3D目标立体边界框）

用于AR数据的数据（相机位姿、稀疏点云、二维表面）

数据预处理（图像格式为tf.example，视频格式为SequenceExample）

支持通过脚本运行3D IoU指标的评估

支持通过脚本实现Tensorflow、PyTorch、JAX的数据加载及可视化，包含“Hello World”样例

支持Apache Beam，用于处理谷歌云（Google Cloud）基础架构上的数据集

所有可用样本的索引，包括训练/测试部分，便于下载

图像部分的画风，基本是这样的，也标注得非常详细：

而在视频中，不仅有从各个角度拍摄的、以目标为中心的片段（从左到右、从下到上）：

也有不同数量的视频类型（一个目标、或者两个以上的目标）：

谷歌希望通过发布这个数据集，让研究界能够进一步突破3D目标理解领域，以及相关的如无监督学习等方向的研究应用。

怎么用？谷歌“以身示范”

拿到数据集的第一刻，并不知道它是否好用，而且总感觉有点无从下手？

别担心，这个数据集的训练效果，谷歌已经替我们试过了。

看起来还不错：

此外，谷歌将训练好的3D目标检测模型，也一并给了出来。（传送见文末）

算法主要包括两部分，第一部分是Tensorflow的2D目标检测模型，用来“发现物体的位置”；

第二部分则进行图像裁剪，来估计3D物体的边界框（同时计算目标下一帧的2D裁剪，因此不需要运行每个帧），整体结构如下图：

在模型的评估上，谷歌采用了 Sutherland-Hodgman多边形裁剪算法，来计算两个立体边界框的交点，并计算出两个立方体的相交体积，最终计算出3D目标检测模型的 IoU。

简单来说，两个立方体重叠体积越大，3D目标检测模型效果就越好。

这个模型是谷歌推出的MediaPipe中的一个部分，后者是一个开源的跨平台框架，用于构建pipeline，以处理不同形式的感知数据。

它推出的MediaPipe Objectron实时3D目标检测模型，用移动设备（手机）就能进行目标实时检测。

看，（他们玩得多欢快）实时目标检测的效果还不错：

其他部分3D数据集

除了谷歌推出的数据集以外，此前视觉3D目标领域，也有许多类型不同的数据集，每个数据集都有自己的特点。

例如斯坦福大学等提出的 ScanNetV2，是个室内场景数据集，而ScanNet则是个RGB-D视频数据集，一共有21个目标类，一共1513个采集场景数据，可做语义分割和目标检测任务。

而目前在自动驾驶领域非常热门的 KITTI数据集，也是一个3D数据集，是目前最大的自动驾驶场景下计算机视觉的算法评测数据集，包含市区、乡村和高速公路等场景采集的真实图像数据。

此外，还有Waymo、SemanticKITTI、H3D等等数据集，也都用在不同的场景中。（例如SemanticKITTI，通常被专门用于自动驾驶的3D语义分割）

无论是视频还是图像，这些数据集的单个样本基本包含多个目标，使用场景上也与谷歌的Objectron有所不同。

感兴趣的小伙伴们，可以通过下方传送门，浏览谷歌最新的3D目标检测数据集，以及相关模型~

Objectron数据集传送门：

https://github.com/google-research-datasets/Objectron/

针对4种物体的3D目标检测模型：

https://google.github.io/mediapipe/solutions/objectron

参考链接：

https://ai.googleblog.com/2020/11/announcing-objectron-dataset.html

https://ai.googleblog.com/2020/03/real-time-3d-object-detection-on-mobile.html

责任编辑：PSY

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

3D

3D

+关注

关注
9

文章
2923

浏览量
108200
谷歌

谷歌

+关注

关注
27

文章
6210

浏览量
106231
AI

AI

+关注

关注
87

文章
32007

浏览量
270832
大数据

大数据

+关注

关注
64

文章
8918

浏览量
137948

腾讯混元3D AI创作引擎正式发布

近日，腾讯公司宣布其自主研发的混元3D AI创作引擎已正式上线。这一创新性的创作工具将为用户带来前所未有的3D内容创作体验，标志着腾讯在AI技术领域的又一重大突破。混元

发表于 01-23 10:33 •216次阅读

腾讯混元3D AI创作引擎正式上线

近日，腾讯公司宣布其自主研发的混元3D AI创作引擎已正式上线。这一创新性的创作工具，标志着腾讯在3D内容生成领域迈出了重要一步。混元3D AI

发表于 01-22 10:26 •196次阅读

C#通过Halcon实现3D点云重绘

C# 通过 Halcon 实现 3D 点云重绘

发表于 01-05 09:16 •0次下载

NEO推出3D X-AI芯片，AI性能飙升百倍

近日，半导体行业的创新先锋NEO Semiconductor震撼发布了一项革命性技术——3D X-AI芯片，这项技术旨在彻底颠覆人工智能处理领域的能效与性能边界。

发表于 08-21 15:45 •730次阅读

深视智能3D轮廓线扫相机对射测量纽扣电池厚度#传感器 #3D相机 #视觉传感器 #粗糙度轮廓测量

3D相机

深视智能科技
发布于 :2024年08月09日 11:57:08

深视智能3D相机2.5D模式高度差测量SOP流程

深视智能3D相机2.5D模式高度差测量SOP流程

发表于 07-27 08:41 •680次阅读

深视智能3D相机在轴承内径检测的应用

3D相机

深视智能科技
发布于 :2024年07月23日 10:33:54

紫光展锐助力全球首款AI裸眼3D手机发布

1.4亿台，展示了该技术巨大的市场潜力和增长空间。近日，全球首款AI裸眼3D手机——中兴远航3D重磅上市。凭借微米级3D光栅技术、Neovision

发表于 07-15 16:00 •777次阅读

中兴通讯与中国移动发布全球首创AI裸眼3D新品，引领3D科技新浪潮

在科技飞速发展的今天，裸眼3D技术以其独特的沉浸式体验，正逐渐成为科技领域的新宠。近日，全球领先的通讯科技企业中兴通讯携手中国移动，在备受瞩目的2024MWC上海展上，发布了两款全球首创的AI裸眼

发表于 06-28 15:32 •1118次阅读

浪潮云洲发布云洲烛龙双目结构光3D相机

在科技日新月异的今天，智能制造正逐步成为推动社会发展的重要力量。近日，备受瞩目的2024世界智能产业博览会在天津盛大开幕。本次博览会不仅汇聚了全球智能产业的精英，更见证了一项创新技术的诞生——浪潮云洲旗下国器智眸公司研发的“云洲烛龙双目结构光

发表于 06-25 18:00 •1265次阅读

复合机器人3D结构光相机 #复合机器人#工业机器人 #机器人上下料 #3D结构光相机

3D相机

fuweizn
发布于 :2024年06月20日 17:36:26

奥比中光正式发布全新Gemini 330系列双目3D相机

4月29日，奥比中光正式发布全新Gemini 330系列双目3D相机，首发产品包括Gemini 335、Gemini 335L两款通用型高性能双目3D

发表于 04-30 10:41 •798次阅读

机器人3D视觉引导系统框架介绍

通过自主开发的3D扫描仪可获准确并且快速地获取场景的点云图像，通过3D识别算法，可实现在对点云图中的多种目标物体进行识别和位

发表于 04-29 09:31 •393次阅读

Stability AI推出Stable Video 3D模型，可制作多视角3D视频

SV3D_u是Stable Video 3D的一个版本，仅需单幅图片即可生成运动轨迹视频，无须进行相机调整。扩充版本的SV3D_p加入了轨道视图的特性，使其可以根据预设的

发表于 03-21 14:57 •1141次阅读

基于深度学习的方法在处理3D点云进行缺陷分类应用

背景部分介绍了3D点云应用领域中公开可访问的数据集的重要性，这些数据

发表于 02-22 16:16 •1387次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

谷歌AI发布3D物体数据集，附带标记边界框、相机位姿、稀疏点云

评论

腾讯混元3D AI创作引擎正式发布

腾讯混元3D AI创作引擎正式上线

C#通过Halcon实现3D点云重绘

NEO推出3D X-AI芯片，AI性能飙升百倍

深视智能3D轮廓线扫相机对射测量纽扣电池厚度#传感器 #3D相机 #视觉传感器 #粗糙度轮廓测量

深视智能3D相机2.5D模式高度差测量SOP流程

深视智能3D相机在轴承内径检测的应用

紫光展锐助力全球首款AI裸眼3D手机发布

中兴通讯与中国移动发布全球首创AI裸眼3D新品，引领3D科技新浪潮

浪潮云洲发布云洲烛龙双目结构光3D相机

复合机器人3D结构光相机 #复合机器人#工业机器人 #机器人上下料 #3D结构光相机

奥比中光正式发布全新Gemini 330系列双目3D相机

机器人3D视觉引导系统框架介绍

Stability AI推出Stable Video 3D模型，可制作多视角3D视频

基于深度学习的方法在处理3D点云进行缺陷分类应用