0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

LERF:当CLIP遇见NeRF!让自然语言与3D场景交互更直观

CVer 来源:机器之心 2023-03-24 10:45 次阅读

NeRF 大家都很熟悉了,但是你听说过 LERF 吗?本文中,来自 UC 伯克利的研究者将语言嵌入到 NeRF 中,并在 3D 场景中实现灵活的自然语言查询。

NeRF(Neural Radiance Fields)又称神经辐射场,自从被提出以来,火速成为最为热门的研究领域之一,效果非常惊艳。然而,NeRF 的直接输出只是一个彩色的密度场,对研究者来说可用信息很少,缺乏上下文就是需要面对的问题之一,其效果是直接影响了与 3D 场景交互界面的构建。

但自然语言不同,自然语言与 3D 场景交互非常直观。我们可以用图 1 中的厨房场景来解释,通过询问餐具在哪,或者询问用来搅拌的工具在哪,以这种方式就可以在厨房里找到物体。不过完成这项任务不仅需要模型的查询能力,还需要能够在多个尺度上合并语义等。

本文中,来自 UC 伯克利的研究者提出了一种新颖的方法,并命名为 LERF(Language Embedded Radiance Fields),该方法将 CLIP(Contrastive Language-Image Pre-training)等模型中的语言嵌入到 NeRF 中,从而使得这些类型的 3D 开放式语言查询成为可能。LERF 直接使用 CLIP,无需通过 COCO 等数据集进行微调,也不需要依赖掩码区域建议。LERF 在多个尺度上保留了 CLIP 嵌入的完整性,还能够处理各种语言查询,包括视觉属性(如黄色)、抽象概念(如电流)、文本等,如图 1 所示。

c55d8934-c9bb-11ed-bfe3-dac502259ad0.png

论文地址:https://arxiv.org/abs/2303.09553

项目主页:https://www.lerf.io/

LERF 可以实时交互地为语言提示提取 3D 相关示图。例如在一张有小羊和水杯的桌子上,输入提示小羊、或者水杯,LERF 就可以给出相关 3D 图:

c5761ea4-c9bb-11ed-bfe3-dac502259ad0.gif

对于复杂的花束,LERF 也可以精准定位:

ca7c1ab6-c9bb-11ed-bfe3-dac502259ad0.gif

厨房中的不同物体:

cc7bae12-c9bb-11ed-bfe3-dac502259ad0.gif

方法

该研究通过与 NeRF 联合优化语言场构建了新方法 LERF。LERF 将位置和物理尺度作为输入并输出单个 CLIP 向量。在训练期间,场(field)使用多尺度特征金字塔(pyramid)进行监督,该金字塔包含从训练视图的图像裁剪(crop)生成的 CLIP 嵌入。这允许 CLIP 编码器捕获不同尺度的图像语境,从而将相同的 3D 位置与不同尺度的语言嵌入相关联。LERF 可以在测试期间以任意尺度查询语言场以获得 3D 相关性映射。

cccbcece-c9bb-11ed-bfe3-dac502259ad0.png

由于从多尺度的多个视图中提取 CLIP 嵌入,因此通过 LERF 的 3D CLIP 嵌入获得的文本查询的相关性映射与通过 2D CLIP 嵌入获得的相比更加本地化(localized),并且是 3D 一致的,可以直接在 3D 场中进行查询,而无需渲染多个视图。

cd1bc924-c9bb-11ed-bfe3-dac502259ad0.png

LERF 需要在以样本点为中心的体积上学习语言嵌入场。具体来说,该场的输出是包含指定体积的图像裁剪的所有训练视图的平均 CLIP 嵌入。通过将查询从点重构为体积,LERF 可以有效地从输入图像的粗略裁剪中监督密集场,这些图像可以通过在给定的体积尺度上进行调节以像素对齐的方式呈现。

cd9929be-c9bb-11ed-bfe3-dac502259ad0.png

LERF 本身会产生连贯的结果,但生成的相关性映射有时可能是不完整的,并且包含一些异常值,如下图 5 所示。

cdda20c2-c9bb-11ed-bfe3-dac502259ad0.png

为了规范优化的语言场,该研究通过共享瓶颈引入了自监督的 DINO。

在架构方面,优化 3D 中的语言嵌入不应该影响底层场景表征中的密度分布,因此该研究通过训练两个独立的网络来捕获 LERF 中的归纳偏置(inductive bias):一个用于特征向量(DINO、CLIP),另一个用于标准 NeRF 输出(颜色、密度)。

实验

为了展示 LERF 处理真实世界数据的能力,该研究收集了 13 个场景,其中包括杂货店、厨房、书店、小雕像等场景。图 3 选择了 5 个具有代表性的场景,展示了 LERF 处理自然语言的能力。

ce2de8ba-c9bb-11ed-bfe3-dac502259ad0.png

图 3。

图 7 为 LERF 与 LSeg 的 3D 视觉对比,在标定碗里的鸡蛋中,LSeg 不如 LERF:

cec8faee-c9bb-11ed-bfe3-dac502259ad0.png

图 8 表明,在有限的分割数据集上训练的 LSeg 缺乏有效表示自然语言的能力。相反,它仅在训练集分布范围内的常见对象上表现良好,如图 7 所示。

cefc862a-c9bb-11ed-bfe3-dac502259ad0.png

不过 LERF 方法还不算完美,下面为失败案例,例如在标定西葫芦蔬菜时,会出现其他蔬菜:

cf207756-c9bb-11ed-bfe3-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3160

    浏览量

    48703
  • Clip
    +关注

    关注

    0

    文章

    31

    浏览量

    6649
  • 自然语言
    +关注

    关注

    1

    文章

    287

    浏览量

    13329

原文标题:LERF:当CLIP遇见NeRF!让自然语言与3D场景交互更直观

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    python自然语言

    最近,python自然语言是越来越火了,那么什么是自然语言自然语言(Natural Language )广纳了众多技术,对自然或人类语言
    发表于 05-02 13:50

    自然语言处理怎么最快入门?

    问答等等。我们日常场景中比较常见到的类似Siri、微软小冰之类的,这些的基础都是自然语言处理,另外还有一些语音处理,这就暂且不表了。总之,你看到的机器与人利用语言交互,用机器模拟人脑阅
    发表于 11-28 10:02

    语义理解和研究资源是自然语言处理的两大难题

    科技改变生活,智能化设备在我们生活中的应用范围增加,智能设备对于语言交互,人机交互的技术需求也在增加,这些需求也在促进现在的技术研究进步。从现在的自然语言发展现状来看,
    发表于 09-19 14:10

    【推荐体验】腾讯云自然语言处理

    `相信大家对NLP自然语言处理的技术都不陌生,它是计算机科学领域和AI领域中的一个分支,它与计算机和人类之间使用自然语言进行交互密切相关,而NLP的最终目标是使计算机能够像人类一样理解语言
    发表于 10-09 15:28

    自然语言处理的语言模型

    自然语言处理——53 语言模型(数据平滑)
    发表于 04-16 11:11

    自然语言处理的词性标注方法

    自然语言处理——78 词性标注方法
    发表于 04-21 11:38

    自然语言处理笔记

    自然语言处理笔记9-哈工大 关毅
    发表于 06-04 16:34

    自然语言处理——总结、习题

    自然语言处理——79 总结、习题
    发表于 06-19 11:22

    什么是自然语言处理

    什么是自然语言处理?自然语言处理任务有哪些?自然语言处理的方法是什么?
    发表于 09-08 06:51

    自然语言处理怎么最快入门_自然语言处理知识了解

    自然语言处理就是实现人机间自然语言通信,实现自然语言理解和自然语言生成是十分困难的,造成困难的根本原因是自然语言文本和对话的各个层次上广泛存
    发表于 12-28 17:10 5283次阅读

    自然语言处理(NLP)的学习方向

    科学、数学等于一体的科学。旨在从文本数据中提取信息。目的是计算机处理或“理解”自然语言,以执行自动翻译、文本分类和情感分析等。自然语言处理是人工智能中最为困难的问题之一。
    的头像 发表于 07-06 16:30 1.3w次阅读

    自然语言融入NeRF,给点文字就生成3D图的LERF来了

    自然语言不同,自然语言3D 场景交互非常直观。我们可以用图 1 中的厨房
    的头像 发表于 03-22 10:10 534次阅读

    自然语言处理的概念和应用 自然语言处理属于人工智能吗

      自然语言处理(Natural Language Processing)是一种人工智能技术,它是研究自然语言与计算机之间的交互和通信的一门学科。自然语言处理旨在研究机器如何理解人类
    发表于 08-23 17:31 1302次阅读

    如何利用CLIP 的2D 图像-文本预习知识进行3D场景理解

    自我监督学习的目的是获得有利于下游任务的良好表现。主流的方法是使用对比学习来与训练网络。受CLIP成功的启发,利用CLIP的预训练模型来完成下游任务引起了广泛的关注。本文利用图像文本预先训练的CLIP知识来帮助理解
    的头像 发表于 10-29 16:54 1393次阅读
    如何利用<b class='flag-5'>CLIP</b> 的2<b class='flag-5'>D</b> 图像-文本预习知识进行<b class='flag-5'>3D</b><b class='flag-5'>场景</b>理解

    自然语言处理包括哪些内容

    自然语言处理(Natural Language Processing,简称NLP)是人工智能领域的一个重要分支,它涉及到计算机与人类语言之间的交互。NLP的目标是计算机能够理解、生成
    的头像 发表于 07-03 14:15 720次阅读