0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

高分工作!Uni3D:3D基础大模型,刷新多个SOTA!

CVer 来源:CVer 2024-01-30 15:56 次阅读

我们近期的工作:3D视觉大模型Uni3D在ICLR 2024的评审中获得了688分,被选为Spotlight Presentation

02be4964-b8ed-11ee-8b88-92fbcf53809c.jpg

在本文中,我们第一次将3D基础模型成功scale up到了十亿(1B)级别参数量,并使用一个模型在诸多3D下游应用中取得SoTA结果。代码和各个scale的模型(从6M-1B)均已开源,欢迎大家关注和使用:

论文:https://https://arxiv.org/pdf/2310.06773

代码:https://https://github.com/baaivision/Uni3D

02cb5d02-b8ed-11ee-8b88-92fbcf53809c.jpg

我们主要探索了3D视觉中scale up模型参数量和统一模型架构的可能性。在NLP / 2D vision领域,scale up大模型(GPT-4,SAM,EVA等)已经取得了很impressive的结果,但是在3D视觉中模型的scale up始终没有成功。我们旨在将NLP/2D中scale up的成功复现到3D表征模型上。

02d03426-b8ed-11ee-8b88-92fbcf53809c.jpg

在这项工作中,我们提出了一个3D基础大模型Uni3D,直接将3D backbone统一为ViT(Vision Transformer),以此利用丰富和强大的2D预训练大模型作为初始化。Uni3D使用CLIP模型中的文本/图像表征作为训练目标,通过学习三个模态的表征对齐(点云-图像-文本)实现3D点云对图像和文本的感知。同时,通过使用ViT中成功的scale up策略,我们将Uni3D逐步 scale up,训练了从Tiny到giant的5个不同scale的Uni3D模型,成功地将Uni3D扩展到10亿级别参数。

02df8750-b8ed-11ee-8b88-92fbcf53809c.jpg

Uni3D模型不同scale下的参数量和zero-shot分类结果

Uni3D在多个3D任务上达到SoTA,如:zero-shot classification, few-shot classification,open-world understanding, open-world part segmentation.

02f5e8f6-b8ed-11ee-8b88-92fbcf53809c.jpg

Zero-shot classification

030673b0-b8ed-11ee-8b88-92fbcf53809c.jpg

Real-world zero-shot recognition

由于学到了强大的多模态表征能力,Uni3D还能够做一些有意思的应用,如point cloud painting(点云绘画),text/image-based 3D shape retrieval(基于图像/文本的3D模型检索),point cloud captioning(点云描述):

030d818c-b8ed-11ee-8b88-92fbcf53809c.jpg

Point cloud painting

03126e90-b8ed-11ee-8b88-92fbcf53809c.jpg

Image-based 3D shape retrieval

032b3eca-b8ed-11ee-8b88-92fbcf53809c.jpg

Text-based 3D shape retrieval

03421aaa-b8ed-11ee-8b88-92fbcf53809c.jpg

Point cloud captioning.

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 3D视觉
    +关注

    关注

    4

    文章

    437

    浏览量

    27685
  • 大模型
    +关注

    关注

    2

    文章

    2711

    浏览量

    3318

原文标题:ICLR 2024 | 高分工作!Uni3D:3D基础大模型,刷新多个SOTA!

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    相关推荐

    SciChart 3D for WPF图表库

    DirectX 支持的 WPF 3D 图表和广泛的 API 完成工作。 WPF 3D 图表性能 我们传奇的 WPF 3D 图表性能由广泛的端到端性能优化、不安全代码、C++ 互操作、
    的头像 发表于 01-23 13:49 165次阅读
    SciChart <b class='flag-5'>3D</b> for WPF图表库

    腾讯混元3D AI创作引擎正式发布

    的AI技术,能够根据用户提供的提示词或图片,直接生成高质量的3D模型。这一功能极大地降低了3D内容创作的门槛,使得即使是缺乏专业3D建模技能的用户也能轻松创作出令人惊叹的
    的头像 发表于 01-23 10:33 227次阅读

    高分子微纳米功能复合材料3D打印加工介绍

    四川大学科学技术发展研究院最近公布了该校科研团队的一项3D打印成果:高分子微纳米功能复合材料实现规模化制备。据悉,功能复合材料3D打印成果由王琪、陈宁完成,目前处于实验室阶段,已授权发明专利12件
    的头像 发表于 01-22 11:13 183次阅读
    <b class='flag-5'>高分</b>子微纳米功能复合材料<b class='flag-5'>3D</b>打印加工介绍

    腾讯混元3D AI创作引擎正式上线

    或上传一张图片,该引擎便能迅速生成与之对应的3D模型。这一功能极大地降低了3D内容创作的门槛,使得更多用户能够轻松涉足这一领域。 除了基础的3D模型
    的头像 发表于 01-22 10:26 206次阅读

    uvled光固化3d打印技术

    说到UVLED光固化3D打印技术,那可是当下3D打印领域的一股清流啊!这项技术利用紫外线和光固化树脂来制造3D打印模型,原理简单又高效。UVLED光固化
    的头像 发表于 12-24 13:13 297次阅读
    uvled光固化<b class='flag-5'>3d</b>打印技术

    安宝特产品 安宝特3D Analyzer:智能的3D CAD高级分析工具

    安宝特3D Analyzer包含多种实用的3D CAD高级分析工具,包括自动比对模型、碰撞检测、间隙检查、壁厚检查,以及拔模和底切分析,能够有效提升3D CAD
    的头像 发表于 08-07 10:13 470次阅读
    安宝特产品  安宝特<b class='flag-5'>3D</b> Analyzer:智能的<b class='flag-5'>3D</b> CAD高级分析工具

    安宝特产品 3D Evolution : 基于特征实现无损CAD格式转换

    安宝特3D Evolution具有强大的3D CAD模型转换功能,可在保留模型特征参数、注释、约束的前提下,完成不同格式3D CAD
    的头像 发表于 08-06 17:26 412次阅读
    安宝特产品   <b class='flag-5'>3D</b> Evolution : 基于特征实现无损CAD格式转换

    欢创播报 腾讯元宝首发3D生成应用

    App。 腾讯元宝APP发布时,就围绕工作效率场景、日常生活等场景提供了丰富的应用,并有创建个人智能体等个性化体验,“3D角色梦工厂”则将大模型生成技术和3D应用结合,进一步创新了元宝
    的头像 发表于 07-18 11:39 873次阅读
    欢创播报 腾讯元宝首发<b class='flag-5'>3D</b>生成应用

    裸眼3D笔记本电脑——先进的光场裸眼3D技术

    随着科技的不断进步,裸眼3D技术已经不再是科幻电影中的幻想。如今,英伦科技裸眼3D笔记本电脑将这一前沿科技带到了我们的日常生活中。无论你是专业的3D模型设计师,还是希望在视频播放和
    的头像 发表于 07-16 10:04 701次阅读

    奥比中光3D相机打造高质量、低成本的3D动作捕捉与3D动画内容生成方案

      在过去几十年里,动作捕捉(MoCap)技术经历了显著的发展,广泛被应用于电影、游戏、虚拟现实、医疗等多个领域。近期,奥比中光合作客户Moverse使用Orbbec Femto系列3D相机,打造出
    的头像 发表于 06-25 16:37 1191次阅读

    ad19中3d模型不显示?

    封装库导入3d模型不显示,但导入3d模型后的封装库生成pcb文件时显示3d模型,这是什么原因导致
    发表于 04-24 13:41

    包含具有多种类型信息的3D模型

    Desktop是一个3D建模CAD程序,用于多种绘图和设计,涵盖建筑、土木和机械工程,以及室内设计、产品设计、景观建筑甚至游戏开发。它通常用于创建和编辑3D模型,同时提供与BIM工作
    发表于 03-28 17:18

    Stability AI推出全新Stable Video 3D模型

    近日,Stability AI 推出了全新的 Stable Video 3D 模型,该模型以其独特的功能吸引了众多关注。此模型具备从单张图像中生成多视图
    的头像 发表于 03-22 10:30 982次阅读

    Stability AI推出Stable Video 3D模型,可制作多视角3D视频

    SV3D_u是Stable Video 3D的一个版本,仅需单幅图片即可生成运动轨迹视频,无须进行相机调整。扩充版本的SV3D_p加入了轨道视图的特性,使其可以根据预设的相机路径创建3D
    的头像 发表于 03-21 14:57 1142次阅读

    3D动画原理:电阻

    电阻3D
    深圳崧皓电子
    发布于 :2024年03月19日 06:49:19