深度解析CLIP在视觉语言理解与定位任务上的无监督迁移研究

　　CLIP-VG： Self-paced Curriculum Adapting of CLIP for Visual Grounding

　　论文题目：CLIP-VG： Self-paced Curriculum Adapting of CLIP for Visual Grounding

　　发表期刊：IEEE Transactions on Multimedia 一区顶刊

　　工作内容：基于自步课程学习实现多模态大模型CLIP在多模态视觉语言理解与定位任务上的无监督迁移研究

第一作者：肖麟慧（中科院自动化所博士）通讯作者：徐常胜作者单位：中国科学院自动化所-多模态人工智能系统全国重点实验室；鹏城实验室；中国科学院大学人工智能学院

图1。我们提出的CLIP-VG的主要思想，它在自步课程自适应的范式中使用伪语言标签来自适应CLIP，从而实现在视觉定位的任务上得迁移学习。

论文摘要：

视觉定位(VG)是视觉和语言领域的一个重要课题，它涉及到在图像中定位由表达句子所描述的特定区域。为了减少对人工标记数据的依赖，无监督的方法使用伪标签进行学习区域定位。然而，现有的无监督方法的性能高度依赖于伪标签的质量，并且这些方法总是遇到多样性有限的问题。为了利用视觉和语言预训练模型来解决定位问题，并合理利用伪标签，我们提出了一种新颖的方法CLIP-VG，它可以使用伪语言标签对CLIP进行自步式地课程自适应。我们提出了一个简单而高效的端到端网络架构来实现CLIP到视觉定位的迁移。在以CLIP为基础的架构的基础上，我们进一步提出了单源和多源课程自适应算法，这些算法可以逐步找到更可靠的伪语言标签来学习最优模型，从而实现伪语言标签的可靠性和多样性之间的平衡。我们的方法在单源和多源场景下的RefCOCO/+/g数据集上都明显优于当前最先进的无监督方法，提升幅度分别为从6.78%至10.67%和11.39%至14.87%。此外，我们的方法甚至优于现有的弱监督方法。代码和模型可在https://github.com/linhuixiao/CLIP-VG上获得。

论文引言：

视觉定位(Visual Grounding，VG)，又称指代表达理解（Referring Expression Comprehension，REC)，或短语定位（Phrase Grounding, PG)，是指在特定图像中定位文本表达句子所描述的边界框(bounding box，即bbox)区域，这一技术已成为视觉问答[6]、视觉语言导航[7]等视觉语言(Vision-Language, V-L)领域的关键技术之一。

由于其跨模态的特性，定位需要同时理解语言表达和图像的语义，这一直是一项具有挑战性的任务。考虑到其任务复杂性，现有的方法大多侧重于全监督设置(即，使用手工三元组数据作为监督信号)。然而，有监督的定位要求需要高质量的手工标注信息。具体来说，表达句子需要与bbox配对，同时在指代上是唯一的，并且需要具有丰富的语义信息。为了减少对手工劳动密集的标记数据的依赖，弱监督(即，仅给定图像和查询对，没有配对的bbox)和无监督定位(即，不使用任何与任务相关的标注信息去学习定位图像区域)最近受到越来越多的关注。现有的无监督定位方法主要是利用预训练的检测器和额外的大规模语料库实现对未配对数据的指代定位。最先进的(SOTA)无监督方法提出使用人工设计的模板和空间关系先验知识来匹配目标和属性检测器获得的结果，以及相应的目标bbox。这将生成表达式和bbox伪对，它们被用作为伪标签，进而以监督的方式学习定位模型。然而，这些现有方法中的伪标注信息的有效性严重依赖于总是在特定数据集上预训练的目标或属性检测器。这可能会限制语言分类和匹配模式的多样性，以及上下文语义的丰富度，最终损害模型泛化能力。

在过去的几年里，视觉语言预训练(Vision-Language Pre-trained, VLP)基础模型(如CLIP)通过使用少量任务相关数据来进行迁移或提示的范式，在许多下游任务上取得了令人振奋的结果。这些基础模型的主要优点是，它们可以通过自监督约束从现成的web数据和各种下游任务数据(例如，BeiT3)中学习一般通用的知识。这启发我们考虑转移VLP模型(即，本工作中使用CLIP)，以无监督的方式解决下游定位任务。然而由于缺乏与任务相关的标记数据，因此，这是一项具有挑战性的任务。一个直接的解决方案是利用以前的无监督定位方法中生成的伪标签来微调预训练的模型。然而，这将影响预训练模型的泛化能力，因为特定的伪标签和真实特定任务的标签之间存在差距。

在本文中，我们提出了CLIP-VG，如图1所示，这是一种新颖的方法，可以通过利用伪语言标签来解决视觉定位问题，对CLIP进行自步地课程自适应。首先，我们提出了一个简单而高效的端到端纯Transformer的仅编码器的网络架构。我们为了实现CLIP向视觉定位的任务迁移，只需要调整少量的参数，花费最少的训练资源。其次，为了通过寻找可靠的伪标签来实现对基于CLIP的网络架构的更稳定的自适应迁移，我们提出了一种评估实例级标签质量的方案和一种基于自步课程学习(SPL)的渐进自适应算法，即可靠性评估(III-C部分)和单源自步自适应(SSA)算法(III-D部分)。实例级可靠性被定义为通过特定标签源学习的评估器模型正确预测的可能性。具体而言，我们学习了一个初步的定位模型作为可靠性评估器，以CLIP为伪标签的主干，然后对样本的可靠性进行评分，构建可靠性直方图(RH)。接下来，根据构建的RH，以自步的方式执行SSA算法，逐步采样更可靠的伪标签，以提高定位的性能。为了有效地选择伪配对的数据子集，我们设计了一种基于改进的二叉搜索的贪心样本选择策略，以实现可靠性和多样性之间的最优平衡。

我们所提出的CLIP-VG的一个主要优点是其渐进式自适应框架不依赖于伪标签的特定形式或质量。因此，CLIP-VG可以灵活扩展，访问多个伪标签源。在多源场景中，我们首先独立学习每个伪标签源的特定源的定位模型。然后，我们提出了源级复杂度的评估标准。具体而言，在SPL的不同步骤中，我们根据每个表达式中实体的平均数量，从简单到复杂逐步选择伪标签源。在SSA的基础上，我们进一步提出了特定源可靠性(SR)和跨源可靠性(CR)，以及多源自适应(MSA)算法(第3 - e节)。特定源的可靠性定义为使用当前标签源学习的定位模型正确预测当前伪标签的可能性近似。相应的，交叉源可靠性的定义是通过与其他标签源学习的定位模型正确预测当前源伪标签的可能性近似。因此，整个方法可以渐进式地利用伪标签来学习易难课程范式中的定位模型，最大限度地利用不同源的伪标签，保证基础模型的泛化能力。

在RefCOCO/+/g、RefitGame和Flickr30K Entities这五个主流测试基准中，我们的模型在单源和多源场景下的性能都明显优于SOTA无监督定位方法Pseudo-Q，分别达到6.78% ~ 10.67% 和11.39% ~ 14.87%。所提出的SSA算法和MSA算法的性能增益为3%以上。此外，我们的方法甚至优于现有的弱监督方法。与全监督SOTA模型QRNet相比，我们仅使用其更新参数的7.7% 就获得了相当的结果，同时在训练和推理方面都获得了显著的加速，分别高达26.84倍和7.41倍。与最新报道的结果相比，我们的模型在速度和能效方面也达到了SOTA。综上所述，本文的贡献有四个方面:

据我们所知，我们是第一个使CLIP实现无监督视觉定位的。我们的方法可以将CLIP的跨模态学习能力转移到视觉定位上，而且训练成本很小。
我们是第一个在无监督视觉定位中引入自步课程学习的方法。我们提出的可靠性评估和单源自步自适应的方法可以通过在由易到难的学习范式中使用伪标签逐步增强基于CLIP的视觉定位模型。
我们首先提出了多源自步自适应算法来扩展了我们的方法，同时可以获取多个伪标签源的信息，可以灵活地提高语言分类的多样性。
我们进行了大量的实验来评估我们方法的有效性。结果表明，我们的方法在无监督环境下取得了显著的改进，同样，我们的模型在全监督环境下也具有一定的竞争力。

图2. 我们的CLIP-VG模型架构(III-B部分)作为视觉语言定位模型来实现CLIP的自步度课程自适应。

图3。利用伪语言标签和自步课程学习实现无监督视觉定位。(a)伪语言标签的例子(不同伪语言标签的来源在第IV-A节中进行了描述)。(b)单源自步自适应(Single-source self-paced Adapting, SSA)利用视觉语言定位模型(VLGM)对伪模板标签进行可靠性评估和贪婪样本选择，通过寻找可靠的伪标签实现对CLIP更稳定的自适应迁移。(c)多源自适应(Multi-source Self-paced Adapting, MSA)在SSA的基础上进一步提出了特定源可靠性(SR)和跨源可靠性(CR)。它依次进行伪标签源选择、可靠性评估器选择和贪婪样本选择，从而达到可靠性和多样性的最佳平衡。

表1. 在RefCOCO/+/g三个数据集上基于top-1精度的SOTA方法对比结果

表1. 在Rferit Game和Flickr两个数据集上基于top-1精度的SOTA方法对比结果

表3. 模型的能效、推理训练速度优势对比

编辑：黄飞

阅读全文

spl(16234) spl(16234)
网络架构(12410) 网络架构(12410)
Clip(6566) Clip(6566)
大模型(810) 大模型(810)

基于将 CLIP 用于下游few-shot图像分类的方案

对比性图像语言预训练模型（CLIP）在近期展现出了强大的视觉领域迁移能力，可以在一个全新的下游数据集上进行 zero-shot 图像识别。

2022-09-27 09:46:17

3518

一种在视觉语言导航任务中提出的新方法，来探索未知环境

视觉语言导航（vision-language navigation, VLN）任务指的是引导智能体或机器人在真实三维场景中能理解自然语言命令并准确执行。结合下面这张图再形象、通俗一点解释：假如智能

2019-03-05 09:38:44

4089

2017全国深度学习技术应用大会

数据驱动为核心的深度学习通过逐层抽象方式形成原始数据区别性表达，在自然语言、语音和计算机视觉等领域取得了显著进展。但是，这一任务式、刺激式的学习机制依赖于大量标注数据，如何形成解释性强、数据依赖灵活

2017-03-22 17:16:00

在National仪器上对CLIP进行了更改得到一个错误

大家好，我在National仪器上对CLIP（NI6587连接器Serdes）进行了更改，我得到一个错误编译如下：LabVIEW FPGA：La compilationaéchouéàinssed

2018-10-19 14:36:19

定位技术原理解析

【追踪嫌犯的利器】定位技术原理解析（4）

2020-05-04 12:20:20

深度无盘多配置一些经验心得

`深度无盘多配置一些经验心得在论坛上看到有不少兄弟在讨论说做无盘的多配置问题，看到有不少兄弟说喜欢做成单包多配置，也有说做成多包的比较好。总之大家都有自己的看法，也蛮有道理的。我今天就是谈下自

2011-07-19 09:22:08

深度学习与传统计算机视觉简介

文章目录1 简介1.1 深度学习与传统计算机视觉1.2 性能考量1.3 社区支持2 结论3 参考在计算机视觉领域中，不同的场景不同的应用程序需要不同的解决方案。在本文中，我们将快速回顾可用于在

2021-12-23 06:17:19

深度学习中的机器视觉（网络压缩、视觉问答、可视化等）

得初学者经常卡在一些概念的理解上，读论文似懂非懂，十分吃力。另一方面，即使有了简单易用的深度学习框架，如果对深度学习常见概念和基本思路不了解，面对现实任务时不知道如何设计、诊断、及调试网络，最终仍会

2019-07-21 13:00:00

深度搜索Linux操作系统：系统构建和原理解析

深度搜索Linux操作系统：系统构建和原理解析！比较好的一本Linux内核书籍，从另一个角度去解释！

2014-09-16 16:40:10

视觉定位方案求助，谢

功能：视觉定位玻璃的位置和角度，给平面4轴机器人抓取1.附件是我自己用视觉助手做的验证，很不稳定2.相机是1200W，视野范围是350*200，玻璃规格大小有很多，图片是其中一款3.定位精度可以+1mm，吸盘抓取后放进输送带有经验的老师麻烦试下，有偿帮助，谢

2021-10-05 17:15:58

解析深度学习：卷积神经网络原理与视觉实践

2020-06-14 22:21:12

解析GPS模块串口发送的数据

/ NMEA0183-C 的库我把它迁移到我的码云里了,方便大家下载迁移到码云的NMEA0183-C我在KEIL C51中实现了GPS数据解析:...

2021-07-16 06:45:37

迁移学习

PDA、Source-Free DA上的应用。六、迁移学习前沿应用迁移学习在语义分割中的应用迁移学习在目标检测中的应用迁移学习在行人重识别中的应用图片与视频风格迁移章节目标：掌握深度迁移学习在语义分割

2022-04-21 15:15:11

AUTOSAR架构深度解析精选资料分享

AUTOSAR架构深度解析本文转载于：AUTOSAR架构深度解析AUTOSAR的分层式设计，用于支持完整的软件和硬件模块的独立性(Independence)，中间RTE(Runtime Environment)作为虚拟功能...

2021-07-28 07:02:13

AUTOSAR架构深度解析精选资料推荐

AUTOSAR架构深度解析本文转载于：AUTOSAR架构深度解析目录AUTOSAR架构深度解析AUTOSAR分层结构及应用软件层功能应用软件层虚拟功能总线VFB及运行环境RTE基础软件层(BSW)层

2021-07-28 07:40:15

ArkTS语言基础类库-解析

ArkTS语言基础类库是HarmonyOS系统上为应用开发者提供的常用基础能力，主要包含能力如下图所示。图1 ArkTS语言基础类库能力示意图提供[异步并发和多线程并发]的能力。支持

2024-02-20 16:44:11

C语言深度解析

C语言深度解析，本资料来源于网络，对C语言的学习有很大的帮助，有着较为深刻的解析，可能会对读者有一定的帮助。

2023-09-28 07:00:01

C语言深度剖析

C语言深度剖析[完整版].pdfC语言深度剖析[完整版].pdf (919.58 KB )

2019-03-19 05:11:41

C语言要点解析PDF下载

C语言要点解析(含便于理解的备注)C语言要点解析(含便于理解的备注).pdf 2016-10-27 17:59 上传点击文件名下载附件 1.08 MB, 下载次数: 8

2018-07-19 09:15:26

CCD视觉定位系统在紫外激光打标机上的应用

CCD视觉紫外激光打标机，紫外激光打标机有了CCD视觉定位系统的加持在标记加工领域更是如虎添翼，能够将紫外激光打标机的加工效率提升数倍，而且标记的位置更加精准。讲到这里可能很多人还是不能理解什么是视觉

2022-03-08 14:20:33

LabVIEW 的Tripod 机器人视觉处理和定位研究

为对几何体的识别和抓放过程ꎮ利用边缘提取、滤波去噪、圆心检测等算法采用ＬａｂＶＩＥＷ视觉模块及其库函数进行了图像的预处理、特征提取以及中心点定位ꎮ研究结果表明基于ＬａｂＶＩＥＷ的Ｔｒｉｐｏｄ机器人系统能够准确识别平台几何体的颜色和形状可较为精确地定位几何体中心满足后续控制的要求

2019-06-01 06:00:00

NLPIR-Parser大数据技术实现深度文本语义理解

、可计算的基础;在确定了特征表示方式的基础上，从文本大数据中学习能够精确表达文本语义的特征是实现内容理解的关键。　　近年来，表示学习(representation learning)或非监督的特征学习

2018-12-18 11:58:56

NLPIR语义分析是对自然语言处理的完美理解

,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。包括大数据完整的技术链条：网络采集、正文提取、中英文分词、词性标注、实体抽取、词频统计

2018-10-19 11:34:47

Zstack中串口操作的深度解析(一)

本帖最后由 eehome 于 2013-1-5 10:06 编辑 Zstack中串口操作的深度解析(一)欢迎研究ZigBee的朋友和我交流。。。

2012-08-12 21:11:29

java经典面试题深度解析

教程，需要的朋友可以看看，作为参考！课程简介：精选多年来名企在各地的Java笔试真题、面试经验课程目录：第一节 String Stringbuffer Stringbuilder 深度解析第二节完美

2017-06-20 15:16:08

labview+yolov4+tensorflow+openvion深度学习

的网络结构。当然，深度学习的方法用来检测，也有自己的很多缺点。例如：数据量要求大，工业数据收集成本高。但是随着数据增强技术，无监督学习的不断进步，在某些应用场景上，这些缺点渐渐被隐藏了。例如学术界正在研究

2021-05-10 22:33:46

【TL6748 DSP申请】无人机光流视觉定位

申请理由：无人机光流视觉定位算法验证，开发。项目描述：无人机光流视觉定位，采集CMOS图像，通过光流法分析图像运动来获得当前的位置信息！现在已经在STM32上初步运行了光流算法，但有些吃力！想找一个好的图像处理同台来流畅的完成图像的解析！

2015-10-09 15:10:01

【TL6748 DSP申请】飞行器视觉图像处理

全球定位系统（GPS）来说很难精确定位，需要有新的信息来辅助精确定位。视觉图像感知是一种很好的技术途径。图像处理除了需要对算法研究外，算法实现也很重要。公司正着力准备将国

2015-09-10 11:10:13

【书籍评测活动NO.30】大规模语言模型：从理论到实践

更多的自然语言处理研究人员和对大语言模型感兴趣的读者能够快速了解大模型的理论基础，并开展大模型实践，复旦大学张奇教授团队结合他们在自然语言处理领域的研究经验，以及分布式系统和并行计算的教学经验，在

2024-03-11 15:16:39

【瑞芯微RK1808计算棒试用申请】基于机器学习的视觉机械臂研究与设计

项目名称：基于机器学习的视觉机械臂研究与设计试用计划：申请理由本人在深度学习领域有四年开发经验，申请理由：基于视觉的机械臂伺服控制系统，并根据计算机视觉相关的理论知识，构建了一个完整的对于机械臂

2019-09-23 15:39:37

人工智能AI-深度学习C#&LabVIEW视觉控制演示效果

不断变化的，因此深度学习是人工智能AI的重要组成部分。可以说人脑视觉系统和神经网络。2、目标检测、目标跟踪、图像增强、强化学习、模型压缩、视频理解、人脸技术、三维视觉、SLAM、GAN、GNN等。

2020-11-27 11:54:42

什么是深度学习？使用FPGA进行深度学习的好处？

FPGA实现。易于适应新的神经网络结构深度学习是一个非常活跃的研究领域，每天都在设计新的 DNN。其中许多结合了现有的标准计算，但有些需要全新的计算方法。特别是在具有特殊结构的网络难以在 GPU 上

2023-02-17 16:56:59

什么是人工智能、机器学习、深度学习和自然语言处理？

领域，包括机器学习、深度学习、数据挖掘、计算机视觉、自然语言处理和其他几个学科。首先，人工智能涉及使计算机具有自我意识，利用计算机视觉、自然语言理解和模仿其他感官。其次，人工智能涉及模仿人类的认知功能

2022-03-22 11:19:16

全网唯一一套labview深度学习教程：tensorflow+目标检测：龙哥教你学视觉—LabVIEW深度学习教程

缺点。例如：数据量要求大，工业数据收集成本高。但是随着数据增强技术，无监督学习的不断进步，在某些应用场景上，这些缺点渐渐被隐藏了。例如学术界正在研究的，自动网络结构设计，自动数据标注等等。所以作者认为

2020-08-10 10:38:12

前百度深度学习研究院科学家分享：机器视觉开发实战经验

其实就是计算机科学的一个分支，将来也是会成为人类社会基础设施的一部分。现在我们邀请来百度深度学习研究院科学家，为大家分享人工智能视觉开发的经验。点击报名直播观看：http

2018-07-20 11:06:52

四元数数控：机器视觉在农业行业的应用有哪些？

基于机器视觉的穴孔位置的定位研究是目前的研究热点。2.机器视觉在棉花氮素营养诊断中的应用农作物生长发育进程和产量形成受肥料影响很大，基于机器视觉的作物生长监测与诊断技术是近地面遥感监测的方法之一，其优质

2020-10-12 11:03:03

四元数数控：深圳机器视觉引导定位是什么？

过来的实际物品进行比较。机器视觉引导在许多任务中都能够实现比人工定位高得多的速度和精度，比如将元件放入货盘或从货盘中拾取元件，对输送带上的元件进行包装，对元件进行定位和对位，以便将其与其他部件装配

2021-11-24 11:32:58

基于深度学习的异常检测的研究方法

ABSTRACT1.基于深度学习的异常检测的研究方法进行结构化和全面的概述2.回顾这些方法在各个领域这个中的应用情况，并评估他们的有效性。3.根据基本假设和采用的方法将最先进的深度异常检测技术分为

2021-07-12 06:36:22

基于深度学习的异常检测的研究方法

异常检测的深度学习研究综述原文：arXiv:1901.03407摘要异常检测是一个重要的问题，在不同的研究领域和应用领域都得到了很好的研究。本文的研究目的有两个：首先，我们对基于深度学习的异常检测

2021-07-12 07:10:19

基于labview机器视觉的图像定位

大家好，毕业设计做基于labview机器视觉的图像定位系统，打算调用笔记本的摄像头进行图像采集，再进行图像处理，视觉模块和采集模块已经下载了，可是不知道怎么采集图像，求大家支招.

2017-03-31 14:54:31

基于稀疏编码的迁移学习及其在行人检测中的应用

方法迁移到行人分类中.在MIT行人数据库上的实验结果表明:该方法能有效地刻画出行人的特征,提高行人分类的性能,在标记样本少的情况下仍具有良好的分类效果,因此可应用于行人检测中【关键词】：行人检测

2010-04-24 09:48:05

基于赛灵思FPGA的卷积神经网络实现设计

FPGA 上实现卷积神经网络 (CNN)。CNN 是一类深度神经网络，在处理大规模图像识别任务以及与机器学习类似的其他问题方面已大获成功。在当前案例中,针对在 FPGA 上实现 CNN 做一个可行性研究

2019-06-19 07:24:41

学习机器视觉要学习哪一门语言？

马上要进行机械视觉的学习。想问一下大佬们关于机械视觉，我要学习哪一门语言？c 还是Python 还是Java或者说是嵌入式。选哪一个？对以后机械视觉的课题研究帮助更大？在线等，很急

2019-04-15 15:30:38

室内无线定位算法解析

可以在1米之内。LED定位需要改造LED灯具，增加芯片，增加成本，红外线只能视距传播，穿透性极差也极易受灯光、烟雾等环境因素影响明显。定位效果有限。　　6、地磁和计算机视觉定位　　目前这两类产品大多

2020-08-11 08:00:28

想设计炫酷的移动机器人？视觉定位设计方案分享给你！

针对移动机器人的局部视觉定位问题进行了研究。首先通过移动机器人视觉定位与目标跟踪系统求出目标质心特征点的位置时间序列，然后在分析二次成像法获取目标深度信息的缺陷的基础上，提出了一种获取目标的空间

2019-06-01 08:00:00

智能轮椅导航定位的研究现状及趋势

电动轮椅,融合多种领域的研究,包括机器视觉,机器人导航和定位.模式识别,多传感器融合及用户接口等。目前美国、德国.日本、及中国等多个国家都在进行这方面的研究。轮椅的安全导航,是智能轮椅要解决的中心

2023-09-25 07:13:35

机器学习简介与经典机器学习算法人才培养

、Source-Free DA上的应用。六、迁移学习前沿应用迁移学习在语义分割中的应用迁移学习在目标检测中的应用迁移学习在行人重识别中的应用图片与视频风格迁移章节目标：掌握深度迁移学习在语义分割、目标检测

2022-04-28 18:56:07

求视觉定位-------旋转中心的最佳算法

求视觉定位-------旋转中心的最佳算法，

2021-06-11 09:44:31

求labview视觉定位坐标建立教程

想要学习labview视觉定位，怎么建立坐标系，通过坐标系来定位抓取和放置功能

2019-04-11 13:22:58

百度深度学习研究院科学家深度讲解人工智能

的研发经验。在过去的工作中，他发表过论文十余篇，申请中国专利超过100项，其中已经授权的有95项。他曾任职百度深度学习研究院，负责人脸识别方向，曾经多次带领团队在主流的人脸检测、人脸识别竞赛上取得

2018-07-19 10:01:11

经典算法大全（51个C语言算法+单片机常用算法+机器学十大算法）

　　十、从头到尾彻底理解傅里叶变换算法、上　　十、从头到尾彻底理解傅里叶变换算法、下　　十一、从头到尾彻底解析Hash表算法　　十二、快速排序算法之所有版本的c/c++实现　　十三、通过浙大上机复试

2018-10-23 14:31:12

自动驾驶系统要完成哪些计算机视觉任务？

Geiger 的研究主要集中在用于自动驾驶系统的三维视觉理解、分割、重建、材质与动作估计等方面。他主导了自动驾驶领域著名数据集 KITTI 及多项自动驾驶计算机视觉任务的基准体系建设，KITTI 是目前最大的用于自动驾驶的计算机视觉公开数据集。

2020-07-30 06:49:20

视频教程：Java常见面试题目深度解析！

视频教程：Java常见面试题目深度解析！Java作为目前比较火的计算机语言之一，连续几年蝉联最受程序员欢迎的计算机语言榜首，因此每年新入职Java程序员也数不胜数。很多java程序员在学成之后，会面

2017-07-11 10:55:04

计算机视觉/深度学习领域常用数据集汇总

、定位、检测等研究工作大多基于此数据集展开。Imagenet数据集文档详细，有专门的团队维护，使用非常方便，在计算机视觉领域研究论文中应用非常广，几乎成为了目前深度学习图像领域算法性能检验的“标准

2018-08-29 10:36:45

计算机视觉必读：区分目标跟踪、网络压缩、图像分类、人脸识别

深度学习目前已成为发展最快、最令人兴奋的机器学习领域之一。本文以计算机视觉的重要概念为线索，介绍深度学习在计算机视觉任务中的应用，包括网络压缩、细粒度图像分类、看图说话、视觉问答、图像理解、纹理生成

2019-06-08 08:00:00

计算机视觉论文速览

AI视野·今日CS.CV 计算机视觉论文速览transformer、新模型、视觉语言模型、多模态、clip、视角合成

2021-08-31 08:46:46

语义理解和研究资源是自然语言处理的两大难题

，怎样把我们的常识“灌”到AI系统中，是我们需要不断细化来解决的问题途径。资源则是针对现在的研究对象资源的问题。无监督学习、Zero-shot学习、Few-shot学习、元学习、迁移学习等方式，其实

2019-09-19 14:10:38

谈谈深度无盘缓存工具设置技巧

了无盘缓存软件，而刚推出的深度无盘网吧系统，以惊人的速度研发出了深度无盘缓存工具以及服务端自带的IO读缓存。而本人一直对深度情有独钟，做为一名网吧维护员，深度出无盘后，一直在深入研究深度无盘网吧系统

2011-07-15 13:24:41

通过HarmonyOS分布式能力实现任务的跨设备迁移设计资料分享

HarmonyOS页面的分布式迁移和分布式文件的读取当前，在不同的设备上迁移一个任务的操作通常十分复杂，比如路上在手机里写了一半的邮件，回到家想切换到平板电脑更方便的处理；或者有时需要调用不同设备中

2022-03-25 16:59:38

无监督训练加微小调整，只用一个模型即可解决多种NLP

基于一个可伸缩的、任务无关的系统，OpenAI在一组包含不同的语言任务中获得了最优的实验结果，方法是两种现有理念的结合：迁移学习和无监督的预训练。

2018-06-13 18:00:32

5705

一个深度学习模型能完成几项NLP任务？

对于机器翻译、文本摘要、Q&A、文本分类等自然语言处理任务来说，深度学习的出现一遍遍刷新了state-of-the-art的模型性能记录，给研究带来诸多惊喜。但这些任务一般都有各自的度量基准，性能也只在一组标准数据集上测试。

2018-06-26 15:19:09

4233

基于深度学习的任务图像理解：人脸识别与人物解析”

新加坡国立大学在读博士生赵健分享了“基于深度学习的任务图像理解：人脸识别与人物解析”，介绍了他博士期间在这个领域的多个代表工作—DA-GAN、PIM和3D-PIM，ICCV 2017

2018-09-02 10:27:12

6003

面向自然语言处理的神经网络迁移学习的答辩PPT

现实中的自然语言处理面临着多领域、多语种上的多种类型的任务，为每个任务都单独进行数据标注是不大可行的，而迁移学习可以将学习的知识迁移到相关的场景下

2019-03-02 09:16:24

2885

嵌入式Linux与物联网软件开发C语言内核深度解析书籍的介绍

嵌入式Linux与物联网软件开发——C语言内核深度解析 C语言是嵌入式Linux领域的主要开发语言。对于学习嵌入式、单片机、Linux驱动开发等技术来说，C语言是必须要过的一关。C语言学习的特点是入门容易、深入理解难、精通更是难上加难。

2019-05-15 18:10:00

谷歌TensorFlow Graphics:为3D图像任务打造的深度学习利器

TensorFlow重磅推出一个全新的图形工具TensorFlow Graphics，结合计算机图形学和计算机视觉技术，以无监督的方式解决复杂3D视觉任务。

2019-05-14 08:35:43

2309

机器视觉技术原理解析

机器视觉应用的照明的最重要的任务就是使需要被观察的特征与需要被忽略的图像特征之间产生最大的对比度，从而易于特征的区分。

2019-07-05 14:11:33

6145

桥接视觉与语言的研究综述

近年来，由于深度学习、计算机视觉和自然语言处理等多学科领域的兴趣激增，视觉和语言任务的桥接得到了显著的发展。

2019-08-09 18:32:01

2380

人工智能之深度强化学习DRL的解析

深度学习DL是机器学习中一种基于对数据进行表征学习的方法。深度学习DL有监督和非监督之分，都已经得到广泛的研究和应用。

2020-01-24 10:46:00

4734

3D 点云的无监督胶囊网络多任务上实现SOTA

这是一种为 3D 点云提出的无监督胶囊架构，并且在 3D 点云重构、配准和无监督分类方面优于 SOTA 方法。理解对象是计算机视觉的核心问题之一。传统方法而言，理解对象任务可以依赖于大型带注释

2021-01-02 09:39:00

1863

半监督学习，无监督学习，迁移学习，表征学习以及小样本学习

在大规模标注的数据集上训练深度模型不仅可以使手头的任务表现良好，还可以使模型学习对于下游任务的有用特征形式。但是，我们是否可以在不使用如此昂贵且细粒度的标注数据的情况下获得类似的特征表达能力呢？本文研究了使用噪声标注（在这种情况下为图像标题）的弱监督预训练。

2021-01-18 17:08:56

7582

研究者们在人工神经网络 CLIP 上发现了「真」神经元

今年 1 月初，OpenAI 提出了一种通用视觉系统 CLIP，其性能媲美 ResNet-50，并在一些有挑战性的数据集上超过现有的视觉系统。给出一组以语言形式表述的类别，CLIP 能够立即将一张图像与其中某个类别进行匹配，而且它不像标准神经网络那样需要针对这些类别的特定数据进行微调。

2021-03-22 17:13:48

2751

口语语言理解在任务型对话系统中的探讨

1.1 研究背景与任务定义口语语言理解在任务型对话系统中扮演了一个非常重要的角色，其目的是识别出用户的输入文本中蕴含的意图和提及到的槽位，一般被分为意图识别和槽位填充两个子任务[1]。以句子

2021-03-31 17:48:12

2145

关于3D视觉定位技术详细解析

3D视觉定位指的是根据事先构建的3D模型及相关信息，计算取得某张图像在拍摄时相机的位置和姿态。这是3D视觉的一项十分重要的技术，可以用来帮助实现人员定位与导航。

2021-04-03 14:39:00

8898

深度剖析3D视觉定位技术

引言所谓3D视觉定位指的是根据事先构建的3D模型及相关信息，计算取得某张图像在拍摄时相机的位置和姿态。这是3D视觉的一项十分重要的技术，可以用来帮助实现人员定位与导航。本博文将基于2019

2021-04-01 14:46:04

3857

视觉问答与对话任务研究综述

视觉问答与对话是人工智能领堿的重要硏究任务，是计算机视觉与自然语言处理交叉领域的代表性问题之一。视觉问答与对话任务要求机器根据指定的视觉图像内容，对单轮或多轮的自然语言问题进行作答。视觉问答与对话

2021-04-08 10:33:56

迁移学习的意图识别在口语理解中的应用

口语理解（SLU是人机对话系统的重要部分，意图识别作为口语理解的一个子任务，因其可以为限定领域的对话扩展领域而处于非常重要的地位。由于实际应用领域的对话系统需求増加，而需要开发的新领堿短时间内又无法

2021-04-12 11:18:34

基于深度特征迁移与融合的两阶段船牌定位算法

获取运河过往船只的身份信息具有重要意义，快速、准确地定位船牌是实现船只身份自动化识别的首要任务。为提升对小尺度船牌的检测性能，提岀一种结合深度特征迁移与融合的两阶段船牌定位算法。首先在船只检测阶段

2021-04-27 14:32:02

基于特征和实例迁移的加权多任务聚类算法

2021-06-07 15:18:35

ACL2021的跨视觉语言模态论文之跨视觉语言模态任务与方法

来自：复旦DISC 引言本次分享我们将介绍三篇来自ACL2021的跨视觉语言模态的论文。这三篇文章分别介绍了如何在图像描述任务中生成契合用户意图的图像描述、端对端的视觉语言预训练模型和如何生成包含

2021-10-13 10:48:27

2230

用于语言和视觉处理的高效 Transformer能在多种语言和视觉任务中带来优异效果

白皮书《Transformer-LS：用于语言和视觉处理的高效 Transformer》中提出了“长-短 Transformer” （Transformer-LS），这是一种高效的 Transformer 架构，用于为语言和视觉任务模拟中具有线性复杂度的长序列。

2021-12-28 10:42:18

1309

一种有效的无监督深度表示器(Mix2Vec)

本文由深兰科学院撰写，文章将为大家细致讲解一种有效的无监督深度表示器（Mix2Vec），该方法可将异构数据映射到统一的低维向量空间，避免混合异构数据相似度度量偏差问题。同时，该方法基于深度异构

2022-03-24 17:22:11

1270

利用深度学习在工业图像无监督异常定位方面的最新成果

目前，基于深度学习的视觉检测在监督学习方法的帮助下取得了很大的成功。然而，在实际工业场景中，缺陷样本的稀缺性、注释成本以及缺陷先验知识的缺乏可能会导致基于监督的方法失效。

2022-07-31 11:00:52

2303

视觉语言导航领域任务、方法和未来方向的综述

视觉语言导航（VLN）是一个新兴的研究领域，旨在构建一种可以用自然语言与人类交流并在真实的3D环境中导航的具身代理，与计算机视觉、自然语言处理和机器人等研究领域紧密关联。

2022-09-20 14:30:30

2612

多语言任务在内的多种NLP任务实现

WeLM是一个百亿级别的中文模型，能够在零样本以及少样本的情境下完成包括对话-采访、阅读理解、翻译、改写、续写、多语言阅读理解在内的多种NLP任务，并具备记忆能力、自我纠正和检查能力。

2022-10-13 11:52:43

436

深度解析2023年机器视觉行业的十大预测

高工机器人产业研究所（GGII）通过对机器视觉产业的梳理，结合宏观数据和调研数据信息，秉承不悲观、不乐观，力求客观的态度，深度解析2023年机器视觉行业的十大预测：

2022-11-29 11:18:35

2152

什么是晶振晶振工作原理解析

什么是晶振晶振工作原理解析

2022-12-30 17:13:57

3727

谷歌提出PaLI：一种多模态大模型，刷新多个任务SOTA！

PaLI 使用单独 “Image-and-text to text” 接口执行很多图像、语言以及 "图像 + 语言" 任务。PaLI 的关键结构之一是重复使用大型单模态 backbone 进行语言和视觉建模，以迁移现有能力并降低训练成本。

2023-01-29 11:25:57

665

利用视觉+语言数据增强视觉特征

传统的多模态预训练方法通常需要"大数据"+"大模型"的组合来同时学习视觉+语言的联合特征。但是关注如何利用视觉+语言数据提升视觉任务（多模态->单模态）上性能的工作并不多。本文旨在针对上述问题提出一种简单高效的方法。

2023-02-13 13:44:05

727

多维度剖析视觉-语言训练的技术路线

（如BERT\GPT等）的启发，视觉-语言预训练 (Vision-Language Pre-training, VLP) 逐渐受到关注，成为如今 VL 任务的核心训练范式。本文对 VLP 领域近期的综述文章进行整理，回顾其最新的研究进展，旨在提供一份 VLP 入门指南。

2023-02-23 11:15:54

608

工业机器人抓取时如何去定位呢？

从机器视觉的角度，由简入繁从相机标定，平面物体检测、有纹理物体、无纹理物体、深度学习、与任务/运动规划结合等6个方面深度解析文章的标题。

2023-02-28 09:45:15

530

深度学习研究之PEFT技术解析

，实现高效的迁移学习。因此，PEFT 技术可以在提高模型效果的同时，大大缩短模型训练时间和计算成本，让更多人能够参与到深度学习研究中来。

2023-06-02 12:41:45

449

深度视觉系统解决方案|多相机检测|高速视觉检测|视觉引导定位

，本次展位号：W1馆1368。此次参展，维视智造将围绕深度视觉系统解决方案、多相机并行检测、超高速视觉检测、视觉引导定位、超高精密测量、线扫高速检测6大应用

2021-03-09 10:26:24

1073

基础模型自监督预训练的数据之谜：大量数据究竟是福还是祸？

大型语言模型如 ChatGPT 的成功彰显了海量数据在捕捉语言模式和知识方面的巨大潜力，这也推动了基于大量数据的视觉模型研究。在计算视觉领域，标注数据通常难以获取，自监督学习成为预训练的主流方法

2023-07-24 16:55:03

272

视觉深度学习迁移学习训练框架Torchvision介绍

Torchvision是基于Pytorch的视觉深度学习迁移学习训练框架，当前支持的图像分类、对象检测、实例分割、语义分割、姿态评估模型的迁移学习训练与评估。支持对数据集的合成、变换、增强等，此外还支持预训练模型库下载相关的模型，直接预测推理。

2023-09-22 09:49:51

391

NeurIPS 2023 | 全新的自监督视觉预训练代理任务：DropPos

://arxiv.org/pdf/2309.03576 代码链接: https://github.com/Haochen-Wang409/DropPos 今天介绍我们在自监督视觉预训练领域的一篇原创

2023-10-15 20:25:02

301

谷歌重磅新作PaLI-3：视觉语言新模型！更小、更快、更强

效果怎么样呢？PaLI-3 在需要视觉定位文本理解和目标定位的任务上实现了新的 SOTA，包括 RefCOCO 数据集上的 8 个视觉定位文本理解任务和参考表达分割任务。PaLI-3 也在一系列分类视觉任务上有出色的表现。

2023-10-20 16:21:21

397

如何利用CLIP 的2D 图像-文本预习知识进行3D场景理解

自我监督学习的目的是获得有利于下游任务的良好表现。主流的方法是使用对比学习来与训练网络。受CLIP成功的启发，利用CLIP的预训练模型来完成下游任务引起了广泛的关注。本文利用图像文本预先训练的CLIP知识来帮助理解3D场景。

2023-10-29 16:54:09

664

已全部加载完成

搜索历史

深度解析CLIP在视觉语言理解与定位任务上的无监督迁移研究

评论