如何利用Transformers了解视觉语言模型

人类学习本质上是多模态 (multi-modal) 的，因为联合利用多种感官有助于我们更好地理解和分析新信息。理所当然地，多模态学习的最新进展即是从这一人类学习过程的有效性中汲取灵感，创建可以利用图像、视频、文本、音频、肢体语言、面部表情和生理信号等各种模态信息来处理和链接信息的模型。

自 2021 年以来，我们看到大家对结合视觉和语言模态的模型 (也称为联合视觉语言模型) 的兴趣越来越浓，一个例子就是 OpenAI 的 CLIP。联合视觉语言模型在非常具有挑战性的任务中表现出了让人眼前一亮的能力，诸如图像标题生成、文本引导图像生成、文本引导图像操作以及视觉问答等。这个领域在不断发展，其零样本泛化能力也在不断改进，从而产生了各种实际应用。

本文，我们将介绍联合视觉语言模型，重点关注它们的训练方式。我们还将展示如何利用 Transformers 对该领域的最新进展进行实验。

简介

将模型称为 “视觉语言” 模型是什么意思？一个结合了视觉和语言模态的模型？但这到底是什么意思呢？

有助于定义此类模型的一个特性是它们处理图像 (视觉) 和自然语言文本 (语言) 的能力。而这个过程体现在输入、输出以及要求这些模型执行的任务上。

以零样本图像分类任务为例。我们将传给模型如下一张图像和一些候选提示 (prompt)，以获得与输入图像最匹配的提示。

小动物图片出自:
https://www.istockphoto.com/photos/dog-cat-love

为了预测类似的东西，模型需要理解输入图像和文本提示。它将使用单独或融合的视觉和语言编码器来达到理解的目的。

输入和输出可以有多种形式。下面仅举几例:

用自然语言文本来检索图像。

短语关联 (Phrase grounding)，即在输入图像中检测出文本中提到的短语 (例如: 一个年轻人挥动球拍)。

视觉问答，即在输入图像中找到自然语言问题的答案。

为给定图像生成标题。该任务还有一个形式就是条件文本生成，此时输入变成了两个，即自然语言提示和图像。

从包含图像和文本模态的社交媒体内容中检测仇恨言论。

学习策略

视觉语言模型通常由 3 个关键元素组成: 图像编码器、文本编码器以及融合两个编码器的信息的策略。这些关键元素紧密耦合在一起，因为损失函数是围绕模型架构和学习策略设计的。虽然视觉语言模型研究算不上是一个新的研究领域，但此类模型的设计随着时间的变迁发生了巨大变化。早期的研究采用手工设计的图像描述子、预训练词向量或基于频率的 TF-IDF 特征，而最新的研究主要采用 Transformer 架构的图像和文本编码器来单独或联合学习图像和文本特征。我们使用战略性的预训练目标来训练这些模型，从而使之可用于各种下游任务。

关于 Transformers 注意力理论的论文:
https://arxiv.org/abs/1706.03762

在本节中，我们将讨论视觉语言模型的一些典型预训练目标和策略，这些模型已被证明有良好的迁移性能。我们还将讨论其他有趣的东西，它们要么特定于某些预训练目标，要么可以用作预训练的通用组件。

我们将在预训练目标中涵盖以下主题:

对比学习: 以对比方式将图像和文本对齐到联合特征空间

PrefixLM: 通过将图像视作语言模型的前缀来联合学习图像和文本嵌入

基于交叉注意力的多模态融合: 将视觉信息融合到具有交叉注意力机制的语言模型的各层中

MLM / ITM: 使用掩码语言建模 (Masked-Language Modeling，MLM) 和图像文本匹配 (Image-Text Matching，ITM) 目标将图像的各部分与文本对齐

无训练: 通过迭代优化来利用独立视觉和语言模型

请注意，本节并未详尽陈述所有方法，还有各种其他方法以及混合策略，例如 Unified-IO。如需更全面地了解多模态模型，请参阅此项工作:

Unified-IO 论文地址:
https://arxiv.org/abs/2206.08916 多模态模型参考论文地址:
https://arxiv.org/abs/2210.09263

1) 对比学习

对比预训练和零样本图像分类

上图出处:
https://openai.com/blog/clip

对比学习是视觉模型常用的预训练目标，也已被证明同时是视觉语言模型的高效预训练目标。近期的工作如 CLIP、CLOOB、ALIGN 和 DeCLIP 在 {图像，标题} 对组成的大型数据集上，通过使用对比损失函数联合训练文本编码器和图像编码器，从而桥接视觉和语言两个模态。对比学习旨在将输入图像和文本映射到相同的特征空间，使得图像 - 文本对的嵌入之间的距离在两者匹配时最小化，而在不匹配时最大化。

CLIP 论文地址:
https://arxiv.org/abs/2103.00020 CLOOB 论文地址:
https://arxiv.org/abs/2110.11316 ALIGN 论文地址:
https://arxiv.org/abs/2102.05918 DeCLIP 论文地址:
https://arxiv.org/abs/2110.05208

CLIP 仅采用文本和图像嵌入之间的余弦距离作为距离度量。而 ALIGN 和 DeCLIP 等模型则设计了自己的距离度量，这些距离在设计时考虑了数据集是有噪声的。

另一项工作 LiT 引入了一种冻结图像编码器而仅使用 CLIP 预训练目标来微调文本编码器的简单方法。作者将这个想法解释为 一种教文本编码器更好地读懂图像编码器生成的图像嵌入的方法。这种方法已被证明是有效的，并且比 CLIP 的样本效率更高。FLAVA 等其他工作将对比学习和其他预训练策略相结合来对齐视觉和语言嵌入。

LiT 论文地址:
https://arxiv.org/abs/2111.07991 FLAVA 论文地址:
https://arxiv.org/abs/2112.04482

2) PrefixLM

PrefixLM 预训练策略框图

上图出处:
https://ai.googleblog.com/2021/10/simvlm-simple-visual-language-model-pre.html

另一种训练视觉语言模型的方法是使用 PrefixLM 目标。SimVLM 和 VirTex 等模型使用该预训练目标并使用一个统一的由 transformer 编码器和 transformer 解码器组成的多模态架构，有点类似于自回归语言模型。

SimVLM 论文地址:
https://arxiv.org/abs/2108.10904 VirTex 论文地址:
https://arxiv.org/abs/2006.06666v3

让我们拆解一下，看看它是如何工作的。具有前缀目标的语言模型在给定输入文本作为前缀的情况下预测下一个词。例如，给定序列 “一个男人站在墙角”，我们可以使用” 一个男人站在” 作为前缀并训练模型以预测下一个词: 可以是 “墙角” 或另一个合理的补全词。

Visual transformers (ViT) 通过将每个图像划分为多个块 (patch) 并将这些块按顺序输入给模型，从而将相同的前缀概念应用于图像。利用这个想法，SimVLM 实现了这样一种架构，将图像块序列和前缀文本序列串接起来作为最终的前缀，输入给编码器，然后由解码器来预测该文本序列的接续文本。上图描述了该思想。SimVLM 模型首先在前缀中没有图像块的文本数据集上进行预训练，然后在对齐的图像文本数据集上进行预训练。这些模型用于图生文 / 图像标题生成和 VQA 任务。

利用统一的多模态架构将视觉信息融合到语言模型 (Language Model，LM) 中，最终生成的模型在图像引导类任务中显示出令人印象深刻的能力。然而，仅使用 PrefixLM 策略的模型在应用领域上可能会受到限制，因为它们主要为图像标题生成或视觉问答这两个下游任务而设计。例如，给定一组包含人的图像，我们通过图像的描述来查询符合描述的图像 (例如，“一群人站在一起微笑着站在建筑物前”) 或使用以下视觉推理问题来查询: “有多少人穿着红色 T 恤？” 图像。另一方面，学习多模态表示或采用混合方法的模型可以适用于各种其他下游任务，例如目标检测和图像分割。

冻结 PrefixLM

冻结 PrefixLM 预训练策略

上图出处:
https://lilianweng.github.io/posts/2022-06-09-vlm

虽然将视觉信息融合到语言模型中非常有效，但能够使用预训练语言模型 (LM) 而无需微调会更有效。因此，视觉语言模型的另一个预训练目标是学习与冻结语言模型对齐的图像嵌入。

Frozen、MAPL 和 ClipCap 使用了冻结 PrefixLM 预训练目标。它们在训练时仅更新图像编码器的参数以生成图像嵌入，这些图像嵌入可以用作预训练的冻结语言模型的前缀，其方式与上面讨论的 PrefixLM 目标类似。Frozen 和 ClipCap 都在对齐的图像文本 (标题) 数据集上进行训练，目的是在给定图像嵌入和前缀文本的情况下生成标题中的下一个词。

Frozen 论文地址:
https://arxiv.org/abs/2106.13884 MAPL 论文地址:
https://arxiv.org/abs/2210.07179 ClipCap 论文地址:
https://arxiv.org/abs/2111.09734

最后，Flamingo 索性把预训练视觉编码器和语言模型都冻结了，并在一系列广泛的开放式视觉和语言任务上刷新了少样本学习的最高水平。Flamingo 通过在预训练的冻结视觉模型之上添加一个感知器重采样器 (Perceiver Resampler) 模块并在冻结的预训练 LM 层之间插入新的交叉注意层以根据视觉数据调节 LM 来达到这个性能。

Flamingo 论文地址:
https://arxiv.org/abs/2204.14198

冻结 PrefixLM 预训练目标的一个很好的优势是它可以使用有限的对齐图像文本数据进行训练，这对于那些没有对齐多模态数据集的领域特别有用。

3) 多模态融合与交叉注意力

使用交叉注意力机制将视觉信息直接融合到语言模型中

上图出处:
https://www.semanticscholar.org/paper/VisualGPT%3A-Data-efficient-Adaptation-of-Pretrained-Chen-Guo/616e0ed02ca024a8c1d4b86167f7486ea92a13d9

将预训练语言模型用于多模态任务的另一种方法是使用交叉注意机制将视觉信息直接融合到语言模型解码器的层中，而不是使用图像作为语言模型的附加前缀。VisualGPT、VC-GPT 和 Flamingo 使用此预训练策略并在图像标题任务和视觉问答任务上进行训练。此类模型的主要目标是在把视觉信息融入文本生成能力时在这两者间取得高效的平衡，这在没有大型多模态数据集的情况下非常重要。

VisualGPT 论文地址:
https://arxiv.org/abs/2102.10407 VC-GPT 论文地址:
https://arxiv.org/abs/2201.12723

VisualGPT 等模型使用视觉编码器来生成图像嵌入，并将视觉嵌入提供给预训练语言解码器模块的交叉注意层，以生成合理的标题。最近的一项工作 FIBER 将具有门控机制的交叉注意力层插入到视觉和语言的主干模型中，以实现更高效的多模态融合，并使能各种其他下游任务，如图文互搜、开放域 (open-vocabulary) 目标检测等。

FIBER 论文地址:
http://arxiv.org/abs/2206.07643

4) 掩膜语言建模及图文匹配

另一派视觉语言模型把掩码语言建模 (MLM) 和图文匹配 (ITM) 目标组合起来使用，将图像的特定部分与文本对齐，并使能各种下游任务，例如视觉问答、视觉常识推理、文搜图以及文本引导的目标检测。遵循这种预训练设置的模型包括 VisualBERT、FLAVA、ViLBERT、LXMERT 和 BridgeTower。

VisualBERT 论文地址:
https://arxiv.org/abs/1908.03557 FLAVA 论文地址:
https://arxiv.org/abs/2112.04482 ViLBERT 论文地址:
https://arxiv.org/abs/1908.02265 LXMERT 论文地址:
https://arxiv.org/abs/1908.07490 BridgeTower 论文地址:
https://arxiv.org/abs/2206.08657

将图像与文本按部分相应对齐

上图出处:
https://arxiv.org/abs/1908.02265

让我们解释一下 MLM 和 ITM 目标。给定一个部分遮盖的标题，MLM 的目标是根据相应的图像预测遮盖的单词。请注意，MLM 目标需要使用带有边界框的标注丰富的多模态数据集，或者使用目标检测模型为部分输入文本生成候选目标区域。

对于 ITM 目标，给定图像和标题对，任务是预测标题是否与图像匹配。负样本通常是从数据集中随机抽取的。MLM 和 ITM 目标通常在多模态模型的预训练期间结合使用。例如，VisualBERT 提出了一种类似 BERT 的架构，它使用预训练的目标检测模型 Faster-RCNN 来检测目标。VisualBERT 在预训练期间结合了 MLM 和 ITM 目标，通过自注意力机制隐式对齐输入文本的元素和相应输入图像中的区域。

Faster-RCNN 论文地址:
https://arxiv.org/abs/1506.01497

另一项工作 FLAVA 由一个图像编码器、一个文本编码器和一个多模态编码器组成，用于融合和对齐图像和文本表示以进行多模态推理，所有这些都基于 transformers。为了实现这一点，FLAVA 使用了多种预训练目标: MLM、ITM，以及掩膜图像建模 (Masked-Image Modeling，MIM) 和对比学习。

5) 无训练

最后，各种优化策略旨在使用预训练的图像和文本模型来桥接图像和文本表示，或者使预训练的多模态模型能够在无需额外训练的情况下适应新的下游任务。

例如，MaGiC 提出通过预训练的自回归语言模型进行迭代优化，为输入图像生成标题。为此，MaGiC 使用生成的词的 CLIP 嵌入和输入图像的 CLIP 嵌入来计算基于 CLIP 的 “魔法分数 (magic score) ”。

用预训练的冻结的单模态图像和文本编码器创建一个相似性搜索空间

ASIF 提出了一种简单的方法，可以使用相对较小的多模态数据集将预训练的单模态图像和文本模型转换为多模态模型来用于图像标题生成，无需附加训练。ASIF 背后的关键直觉是相似图像的标题也彼此相似。因此，我们可以通过使用小型数据集里的真实多模态对的来构建一个相对表示空间，然后在该空间执行基于相似性的搜索。

MaGic 论文地址:
https://arxiv.org/abs/2205.02655 ASIF 论文地址:
https://arxiv.org/abs/2210.01738

数据集

视觉语言模型通常根据预训练目标在结构各异的大型图像和文本数据集上进行训练。在对它们进行预训练后，再使用特定于任务的数据集进一步针对各种下游任务进行微调。本节概述了一些用于训练和评估视觉语言模型的流行的预训练和下游数据集。

预训练数据集

一般来讲，我们从网上收集大量的多模态数据并将它们组织成图像 / 视频 - 文本对数据集。这些数据集中的文本数据可以是人工生成的标题、自动生成的标题、图像元数据或简单的目标类别标签。此类大型数据集有 PMD 和 LAION-5B 等。PMD 数据集结合了多个较小的数据集，例如 Flickr30K、COCO 和 Conceptual Captions 数据集。COCO 检测和图像标题 (>330K 图像) 数据集分别由图像实例和其所含目标的文本标签及描述对组成。Conceptual Captions (> 3.3M images) 和 Flickr30K (> 31K images) 数据集中的图像以及它们的对应的用自然语言描述图像的标题都是从网上爬取的。

即使是那些人工生成标题的图像文本数据集 (例如 Flickr30K) 也存在固有的噪声，因为用户并不总是为其图像编写描述性或反应图像内容的标题。为了克服这个问题，LAION-5B 等数据集利用 CLIP 或其他预训练的多模态模型来过滤噪声数据并创建高质量的多模态数据集。此外，一些视觉语言模型，如 ALIGN，提出了进一步的预处理步骤并创建了自己的高质量数据集。还有些视觉语言数据集包含了视频和文本双模态，例如 LSVTD 和 WebVid 数据集，虽然它们规模较小。

上文提到的数据集链接:

PMD:
https://hf.co/datasets/facebook/pmd LAION-5B:
https://laion.ai/blog/laion-5b/ Flickr30K:
https://www.kaggle.com/datasets/hsankesara/flickr-image-dataset COCO:
https://cocodataset.org/ Conceptual Captions:
https://ai.google.com/research/ConceptualCaptions/ LSVTD:
https://davar-lab.github.io/dataset/lsvtd.html WebVid:
https://github.com/m-bain/webvid

下游数据集

预训练视觉语言模型通常还会针对各种下游任务进行训练，例如视觉问答、文本引导目标检测、文本引导图像修复、多模态分类以及各种独立的 NLP 和计算机视觉任务。

针对问答类下游任务进行微调的模型，例如 ViLT 和 GLIP，一般使用 VQA (视觉问答) 、VQA v2、NLVR2、OKVQA、TextVQA、TextCaps 和 VizWiz 数据集。这些数据集的图像通常都配有多个开放式问题和答案。此外，VizWiz 和 TextCaps 等数据集也可用于图像分割和目标定位这些下游任务。其他一些有趣的多模态下游数据集有，用于多模态分类的 Hateful Memes，用于视觉蕴含预测的 SNLI-VE，以及用于视觉语言组合推理的 Winoground。

请注意，视觉语言模型也可用于各种经典的 NLP 和计算机视觉任务，例如文本或图像分类。此时，通常使用单模态数据集如 SST2、ImageNet-1k 来完成此类下游任务。此外，COCO 和 Conceptual Captions 等数据集也常用于预训练模型以及标题生成等下游任务。

拆解大语言模型RLHF中的PPO算法

由于本文以大语言模型 RLHF 的 PPO 算法为主，所以希望你在阅读前先弄明白大语言模型 RLHF 的前两步，即 SFT Model 和 Reward Model 的训练过程。另外因为本文不是纯讲强化学习的文章，所以我在叙述的时候不会假设你已经非常了解强化学习了。

2023-12-11 18:30:49

1151

一文详解知识增强的语言预训练模型

等，在实际应用场景中效果不好。为了解决这个问题，将知识注入到PLMs中已经成为一个非常活跃的研究领域。本次分享将介绍三篇知识增强的预训练语言模型论文，分别通过基于知识向量、知识检索以及知识监督的知识注入方法来增强语言预训练模型。

2022-04-02 17:21:43

8765

使用基于Transformers的API在CPU上实现LLM高效推理

英特尔 Extension for Transformers是英特尔推出的一个创新工具包，可基于英特尔架构平台，尤其是第四代英特尔至强可扩展处理器（代号 SapphireRapids，SPR）显著加速基于Transformers的大语言模型( LargeLanguageModel,LLM)。

2024-01-22 11:11:06

1823

大语言模型背后的Transformer，与CNN和RNN有何不同

电子发烧友网报道（文/李弯弯）近年来，随着大语言模型的不断出圈，Transformer这一概念也走进了大众视野。Transformer是一种非常流行的深度学习模型，最早于2017年由谷歌

2023-12-25 08:36:00

1282

2023年科技圈热词“大语言模型”，与自然语言处理有何关系

电子发烧友网报道（文/李弯弯）大语言模型（LLM）是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本，还能够深入理解文本含义，处理各种自然语言任务，如文本摘要、问答、翻译

2024-01-02 09:28:33

1267

了解AI人工智能背后的科学?

√情绪分析例如，自驾驾驶汽车需要计算机具有视觉感知能力，另外像Siri这样的应用程序需要具有语音识别能力。AI背后的大脑包括机器学习，深度学习和自然语言处理等建模技术。那我们从机器学习开始学习吧！机器

2017-09-25 10:03:05

利用MATLAB的simulink建立仿真模型

利用MATLAB的simulink建立仿真模型，与stm32cubemx搭建数据链，通过simulink搭建的模型生成工程！（基本不用修改底层代码）【转载自】

2021-08-17 07:11:27

利用simulink设计四则运算仿真模型

整体思路利用simulink设计四则运算仿真模型，借助simulink的代码生成工具生成c语言代码。同时介绍STM32扩展工具的安装，使用。所需工具MATLAB 2018bSTM32硬件支持工具下载连接：（用于配置STM32资源）

2021-08-17 09:33:39

利用轴对称的锥型喇叭天线模型

我们在之前的博客中已经介绍了怎么利用对称、反对称，以及周期性边界条件来节省电磁模型的建模时间。今天，我们将为您展示一个利用轴对称建立的模型 — 锥型喇叭天线模型。利用二维轴对称节省建模时间尽管

2019-06-13 07:34:50

LabVIEW进行癌症预测模型研究

，然后将得到的特征向量输入到SVM中进行分类。 LabVIEW是一种视觉编程语言，与传统的文本编程语言不同，更适合于进行复杂数据分析和预测模型的开发。 LabVIEW使用数据流模型，可以并行处理多个过程

2023-12-13 19:04:23

【书籍评测活动NO.30】大规模语言模型：从理论到实践

更多的自然语言处理研究人员和对大语言模型感兴趣的读者能够快速了解大模型的理论基础，并开展大模型实践，复旦大学张奇教授团队结合他们在自然语言处理领域的研究经验，以及分布式系统和并行计算的教学经验，在

2024-03-11 15:16:39

关于自然语言处理之54 语言模型(自适应)

自然语言处理——54 语言模型(自适应)

2020-04-09 08:20:30

如何利用MATLAB的simulink建立仿真模型呢

如何利用MATLAB的simulink建立仿真模型呢？并与stm32cubemx搭建数据链呢？

2021-11-18 07:17:46

如何利用Python语言来控制电机

如何利用Python语言来控制电机？如何利用L298N驱动板来控制电机？

2021-09-22 08:32:48

如何利用基于模型的设计开发软件定义无线电？

2021-05-20 06:04:31

学习机器视觉要学习哪一门语言？

马上要进行机械视觉的学习。想问一下大佬们关于机械视觉，我要学习哪一门语言？c 还是Python 还是Java或者说是嵌入式。选哪一个？对以后机械视觉的课题研究帮助更大？在线等，很急

2019-04-15 15:30:38

实战视觉图像处理：LabVIEW二值化结果显示与对比

labview中如何调用tensorflow进行深度学习模型的训练和调用，推出一整套完整的简易学的视频课程，使学员能在没有任何深度学习理论基础，不懂python编程语言的前提下，使用labview训练

2020-12-09 14:53:37

自然语言处理的语言模型

自然语言处理——53 语言模型（数据平滑）

2020-04-16 11:11:25

计算机视觉论文速览

AI视野·今日CS.CV 计算机视觉论文速览transformer、新模型、视觉语言模型、多模态、clip、视角合成

2021-08-31 08:46:46

请问怎样利用在线机器视觉技术来预防pcb缺陷？

怎样利用在线机器视觉技术来预防pcb缺陷？

2021-04-25 08:46:25

通过Cortex来非常方便的部署PyTorch模型

到软件中。如何从“跨语言语言模型”转换为谷歌翻译？在这篇博客文章中，我们将了解在生产环境中使用 PyTorch 模型意味着什么，然后介绍一种允许部署任何 PyTorch 模型以便在软件中使用的方法。在生

2022-11-01 15:25:02

龙哥手把手教你学视觉-深度学习YOLOV5篇

利用labview部署yolov5导出的模型，能利用摄像头动态检测输出目标检测结果。根据工业视觉外观检测的速度和准确性要求，龙哥视觉结合labview编程平台推出了labview+yolov5训练和模型

2021-09-03 09:39:28

基于视觉模型的抗合谋数字指纹

本文提出了一种基于视觉系统模型的抗合谋指纹算法，并对各种合谋攻击的有效性进行了讨论与分析。所提出的算法充分利用了双正交小波多分辨率的优

2009-09-05 09:50:48

目标跟踪的视觉注意计算模型

目标跟踪的视觉注意计算模型：借鉴心理学中有关视觉注意的研究成果，提出一种应用于视频图像序列的注意焦点计算模型。针对Itti 模型算法计算复杂度高、运算速度慢等缺点，通

2010-01-04 12:20:04

BJDEEN PULSE TRANSFORMERS

aboutthe need for versatile pulse transformers that meet all the electricalrequirements of Manchester II serial biphas

2010-06-11 08:40:18

利用LINGO开发高级模型选讲

2010-11-13 16:17:13

唇语识别中的话题相关语言模型研究_王渊

2017-03-19 11:28:16

自然语言处理常用模型解析

自然语言处理常用模型使用方法一、N元模型二、马尔可夫模型以及隐马尔可夫模型及目前常用的自然语言处理开源项目/开发包有哪些？

2017-12-28 15:42:30

5382

视觉词袋模型生成方法

构建视觉词典是视觉词袋模型中的关键步骤，目前大多数视觉词典是基于k-means及其改进算法聚类生成。但由于k-means聚类的局限性以及样本空间结构的复杂性与高维性，该方式构建的视觉词典存在区分

2018-03-20 15:09:54

桥接视觉与语言的研究综述

近年来，由于深度学习、计算机视觉和自然语言处理等多学科领域的兴趣激增，视觉和语言任务的桥接得到了显著的发展。

2019-08-09 18:32:01

2380

机器视觉用什么语言开发_机器视觉用什么硬件

　目前可以开发机器视觉的相关计算机语言有C++，C#，JAVA，PYTHON等，甚至简单的PHP和JAVASCRIPT也可以开发相关的功能。

2020-03-26 09:29:42

8551

视觉信号辅助的自然语言文法学习

学习中视觉信号不足的问题。我们提出在语言模型（Language Modeling）上对概率文法模型进行额外优化。我们通过实

2021-01-05 14:14:34

1816

微软视觉语言模型有显著超越人类的表现

视觉语言（Vision-Language，VL）系统允许为文本查询搜索相关图像（或反之），并使用自然语言描述图像的内容。一般来说，一个VL系统使用一个图像编码模块和一个视觉语言融合模块。微软研究部门

2021-01-19 14:32:09

1476

从浅入深学习Transformer的资料汇总

Transformers 加速了自然语言处理(NLP)任务的新技术和模型的发展。虽然它主要用于NLP任务，但现在它被大量应用于处理计算机视觉任务。这使它成为一个非常重要的技术。

2021-03-05 15:56:18

1915

基于计算机视觉和NLP的跨媒体问答与推理

基于视觉和语言的跨媒体问答与推理是人工智能领域的研究热点其目的是基于给定的视觉内容和相关问题，模型能够返回正确的答案。随着深度学习的飞速发展及其在计算杋视觉和自然语言处理领域的广泛应用，基于视觉

2021-04-08 10:25:33

如何在3D机器视觉应用中利用DLP？

TI为机器视觉摄影镜头提供了一些非常不错的参考设计。TI为3D机器视觉提供的一种独特的解决方案，利用了其数字光源处理器（DLP）技术。透过图5中的例子可以看到，如何可在3D机器视觉应用中利用DLP。

2021-05-01 09:28:00

2763

基于预训练视觉-语言模型的跨模态Prompt-Tuning

、新加坡国立大学链接：https://arxiv.org/pdf/2109.11797.pdf 提取摘要预训练的视觉语言模型（VL-PTMs）在将自然语言融入图像数据中显示出有前景的能力，促进

2021-10-09 15:10:42

2926

ACL2021的跨视觉语言模态论文之跨视觉语言模态任务与方法

来自：复旦DISC 引言本次分享我们将介绍三篇来自ACL2021的跨视觉语言模态的论文。这三篇文章分别介绍了如何在图像描述任务中生成契合用户意图的图像描述、端对端的视觉语言预训练模型和如何生成包含

2021-10-13 10:48:27

2230

用于语言和视觉处理的高效 Transformer能在多种语言和视觉任务中带来优异效果

白皮书《Transformer-LS：用于语言和视觉处理的高效 Transformer》中提出了“长-短 Transformer” （Transformer-LS），这是一种高效的 Transformer 架构，用于为语言和视觉任务模拟中具有线性复杂度的长序列。

2021-12-28 10:42:18

1309

Transformers研究方向

要说 BERT 为什么性能卓越，主要是它改变了 NLP 模型的训练方式。先在大规模语料上训练出一个语言模型，然后将这个模型用在阅读理解/情感分析/命名实体识别等下游任务上

2022-03-30 16:50:35

1209

一种基于乱序语言模型的预训练模型-PERT

由于乱序语言模型不使用[MASK]标记，减轻了预训练任务与微调任务之间的gap，并由于预测空间大小为输入序列长度，使得计算效率高于掩码语言模型。PERT模型结构与BERT模型一致，因此在下游预训练时，不需要修改原始BERT模型的任何代码与脚本。

2022-05-10 15:01:27

1173

OpenCV中支持的非分类与检测视觉模型

前面给大家分别汇总了OpenCV中支持的图像分类与对象检测模型，视觉视觉任务除了分类与检测还有很多其他任务，这里我们就来OpenCV中支持的非分类与检测的视觉模型汇总一下。

2022-08-19 09:10:03

890

视觉语言导航领域任务、方法和未来方向的综述

视觉语言导航（VLN）是一个新兴的研究领域，旨在构建一种可以用自然语言与人类交流并在真实的3D环境中导航的具身代理，与计算机视觉、自然语言处理和机器人等研究领域紧密关联。

2022-09-20 14:30:30

2612

NVIDIA NeMo最新语言模型服务帮助开发者定制大规模语言模型

NVIDIA NeMo 大型语言模型（LLM）服务帮助开发者定制大规模语言模型；NVIDIA BioNeMo 服务帮助研究人员生成和预测分子、蛋白质及 DNA

2022-09-22 10:42:29

742

KT利用NVIDIA AI平台训练大型语言模型

韩国先进的移动运营商构建包含数百亿个参数的大型语言模型，并使用 NVIDIA DGX SuperPOD 平台和 NeMo Megatron 框架训练该模型。

2022-09-27 09:24:30

915

借助机器翻译来生成伪视觉-目标语言对进行跨语言迁移

然而之前的基于机器翻译的CCR工作大多忽略了这个问题，它们通常使用大规模的预训练模型在通过机器翻译得到的大规模多语言视觉-语言语料库上进行大规模预训练，并且只关注于视觉-目标语言数据对之间的对齐。

2022-10-14 14:59:04

608

深度学习：transformers的近期工作成果综述

transformers的近期工作成果综述基于 transformer 的双向编码器表示(BERT)和微软的图灵自然语言生成(T-NLG)等模型已经在机器学习世界中广泛的用于自然语言处理(NLP

2022-10-19 10:04:21

418

如何充分挖掘预训练视觉-语言基础大模型的更好零样本学习能力

因此，合适的prompt对于模型的效果至关重要。大量研究表明，prompt的微小差别，可能会造成效果的巨大差异。研究者们就如何设计prompt做出了各种各样的努力——自然语言背景知识的融合、自动生成prompt的搜索、不再拘泥于语言形式的prompt探索等等。

2022-10-19 14:39:36

1066

一种新的基于视觉语言模型的零镜头分类框架

人们很容易用文字来描述类别的视觉特征，并利用这些文字描述来辅助感知，用于分类检测等各种感知任务。

2022-10-20 09:56:24

697

CogBERT：脑认知指导的预训练语言模型

另一方面，从语言处理的角度来看，认知神经科学研究人类大脑中语言处理的生物和认知过程。研究人员专门设计了预训练的模型来捕捉大脑如何表示语言的意义。之前的工作主要是通过明确微调预训练的模型来预测语言诱导的大脑记录，从而纳入认知信号。

2022-11-03 15:07:08

707

基于视频语言模型LiteVL的无参的特征池化方法

我们提出了LiteVL，这是一种视频语言模型，它无需大量的视频语言预训练或目标检测器。LiteVL从预先训练的图像语言模型BLIP中继承了空间视觉信息和文本信息之间已经学习的对齐。然后，我们提出

2022-12-05 10:54:49

413

介绍几篇EMNLP'22的语言模型训练方法优化工作

——RetroMAE: Pre-training Retrieval-oriented Transformers via Masked Auto-Encoder；针对事实知识提取优化语言模型：在语言模型

2022-12-22 16:14:56

679

支持Python和Java的BigCode开源轻量级语言模型

BigCode 是一个开放的科学合作组织，致力于开发大型语言模型。近日他们开源了一个名为 SantaCoder 的语言模型，该模型拥有 11 亿个参数

2023-01-17 14:29:53

692

视觉-语言预训练入门指南

视觉-语言 (Vision-Language, VL) 是计算机视觉和自然语言处理这两个研究领域之间形成的交叉领域，旨在赋予 AI 系统从多模态数据中学习有效信息的能力。

2023-02-06 10:18:50

544

利用视觉+语言数据增强视觉特征

传统的多模态预训练方法通常需要"大数据"+"大模型"的组合来同时学习视觉+语言的联合特征。但是关注如何利用视觉+语言数据提升视觉任务（多模态->单模态）上性能的工作并不多。本文旨在针对上述问题提出一种简单高效的方法。

2023-02-13 13:44:05

727

多维度剖析视觉-语言训练的技术路线

视觉-语言 (Vision-Language, VL) 是计算机视觉和自然语言处理这两个研究领域之间形成的交叉领域，旨在赋予 AI 系统从多模态数据中学习有效信息的能力。受 NLP 预训练语言模型

2023-02-23 11:15:54

608

大型语言模型有哪些用途？

大型语言模型能识别、总结、翻译、预测和生成文本及其他内容。 AI 应用在大型语言模型的帮助下，可用于解决总结文章、编写故事和参与长对话等多种繁重工作。大型语言模型（LLM）是一种深度学习算法，可以

2023-02-23 19:50:04

3887

大型语言模型有哪些用途？大型语言模型如何运作呢？

大型语言模型能识别、总结、翻译、预测和生成文本及其他内容。

2023-03-08 13:57:00

6989

在视觉语言表示学习中建立编码器间的桥梁

提出了一个简单有效的视觉语言模型架构，BridgeTower，通过在顶层单模态层和每个跨模态层之间建立桥梁，成功地引入了不同语义层次的视觉和文本表示，从而提高了跨模态编码器中注意力头的多样性，并在各种任务上实现了突出的性能改进。

2023-04-14 17:33:46

415

各种大语言模型是彻底被解封了

基础 LLM 基本信息表，GPT-style 表示 decoder-only 的自回归语言模型，T5-style 表示 encoder-decoder 的语言模型，GLM-style 表示 GLM 特殊的模型结构，Multi-task 是指 ERNIE 3.0 的模型结构

2023-04-20 11:25:44

1071

AI大语言模型的原理、演进及算力测算专题报告

GPT是基于Transformer架构的大语言模型，近年迭代演进迅速。构建语言模型是自然语言处理中最基本和最重要的任务之一。GPT是基于Transformer架构衍生出的生成式预训练的单向语言模型，通过对大量语料数据进行无监督学习

2023-04-28 10:01:59

585

利用大语言模型做多模态任务

大型语言模型LLM（Large Language Model）具有很强的通用知识理解以及较强的逻辑推理能力，但其只能处理文本数据。

2023-05-10 16:53:15

701

PyTorch教程9.3.之语言模型

电子发烧友网站提供《PyTorch教程9.3.之语言模型.pdf》资料免费下载

2023-06-05 09:59:00

PyTorch教程-9.3. 语言模型

9.3. 语言模型¶ Colab [火炬]在 Colab 中打开笔记本 Colab [mxnet] Open the notebook in Colab Colab [jax

2023-06-05 15:44:24

268

基于预训练模型和语言增强的零样本视觉学习

在一些非自然图像中要比传统模型表现更好 CoOp 增加一些 prompt 会让模型能力进一步提升怎么让能力更好？可以引入其他知识，即其他的预训练模型，包括大语言模型、多模态模型也包括

2023-06-15 16:36:11

277

一文读懂大语言模型

本文旨在让没有计算机科学背景的人对ChatGPT和类似的人工智能系统(GPT-3、GPT-4、Bing Chat、Bard等)的工作原理有一些了解。ChatGPT是一种基于*大语言模型(Large Language Model)* 的对话式AI聊天机器人。

2023-06-16 09:59:04

1036

在线研讨会 | 释放 Vision Transformers、NVIDIA TAO 和最新一代 NVIDIA GPU 的潜力

研讨会时间： 2023 年 6 月 29 日（周四）上午 11:00 （北京时间） Vision Transformers（ViTs）正在彻底改变视觉 AI 应用。与卷积神经网络（ CNN

2023-06-16 11:45:02

321

基于 Transformers 的编码器-解码器模型

基于 transformer 的编码器-解码器模型是表征学习和模型架构这两个领域多年研究成果的结晶。本文简要介绍了神经编码器-解码器模型的历史，更多背景知识，建议读者阅读

2023-06-16 16:53:21

432

基于Transformer的大型语言模型（LLM）的内部机制

本文旨在更好地理解基于 Transformer 的大型语言模型（LLM）的内部机制，以提高它们的可靠性和可解释性。随着大型语言模型（LLM）在使用和部署方面的不断增加，打开黑箱并了解它们的内部

2023-06-25 15:08:49

991

「悟道·视界」视觉大模型系列，6项领先成果技术详解

日前，智源「悟道·视界」通用视觉大模型系列，带来计算机视觉多任务处理能力方面的6项国际领先技术，迎接通用视觉智能曙光降临，包括：在多模态序列中补全一切的多模态大模型 Emu 最强十亿级视觉基础模型

2023-06-27 16:40:25

416

2D Transformer 可以帮助3D表示学习吗？

预训练的2D图像或语言Transformer：作为基础Transformer模型，具有丰富的特征表示能力。作者选择了先进的2D Transformer模型作为基础模型，例如Vision Transformers (ViTs) 或者语言模型（如BERT）。

2023-07-03 10:59:43

387

大型语言模型的应用

大型语言模型（LLM）是一种深度学习算法，可以通过大规模数据集训练来学习识别、总结、翻译、预测和生成文本及其他内容。大语言模型（LLM）代表着 AI 领域的重大进步，并有望通过习得的知识改变

2023-07-05 10:27:35

1463

语言模型的发展历程基于神经网络的语言模型解析

简单来说，语言模型能够以某种方式生成文本。它的应用十分广泛，例如，可以用语言模型进行情感分析、标记有害内容、回答问题、概述文档等等。但理论上，语言模型的潜力远超以上常见任务。

2023-07-14 11:45:40

454

语言模型做先验，统一强化学习智能体，DeepMind选择走这条通用AI之路

在智能体的开发中，强化学习与大语言模型、视觉语言模型等基础模型的进一步融合究竟能擦出怎样的火花？谷歌 DeepMind 给了我们新的答案。一直以来，DeepMind 引领了强化学习（RL）智能

2023-07-24 16:55:02

296

清华大学大语言模型综合性能评估报告发布！哪个模型更优秀？

近日，清华大学新闻与传播学院发布了《大语言模型综合性能评估报告》，该报告对目前市场上的7个大型语言模型进行了全面的综合评估。近年，大语言模型以其强大的自然语言处理能力，成为AI领域的一大热点。它们

2023-08-10 08:32:01

607

检索增强的语言模型方法的详细剖析

本篇内容是对于ACL‘23会议上陈丹琦团队带来的Tutorial所进行的学习记录，以此从问题设置、架构、应用、挑战等角度全面了解检索增强的语言模型，作为对后续工作的准备与入门，也希望能给大家带来

2023-08-21 09:58:01

1234

Transformers是什么意思？人工智能transformer怎么翻译？

Transformers是什么意思？transformer怎么翻译？人工智能transformer怎么翻译？ Transformers是一个包含自然语言处理中的基础技术的深度神经网络。它可以将源语言

2023-08-22 15:59:24

1945

大语言模型“书生·浦语”多项专业评测拔头筹

最近，AI大模型测评火热，尤其在大语言模型领域，“聪明”的上限被不断刷新。商汤与上海AI实验室等联合打造的大语言模型“书生·浦语”（InternLM）也表现出色，分别在智源FlagEval

2023-08-25 13:00:02

315

阿里云开源视觉语言大模型Qwen-VL ，支持图文双模态输入

据介绍，Qwen-VL 是支持中英文等多种语言的视觉语言（Vision Language，VL）模型。相较于此前的 VL 模型，Qwen-VL 除了具备基本的图文识别、描述、问答及对话能力之外，还新增了视觉定位、图像中文字理解等能力。

2023-08-25 15:12:10

634

OpenVINO赋能BLIP实现视觉语言AI边缘部署

人类通过视觉和语言感知世界。人工智能的一个长期目标是构建智能体，通过视觉和语言输入来理解世界，并通过自然语言与人类交流。比如，在《几行代码加速 Stable Diffusion

2023-09-01 10:26:16

2160

训练大语言模型带来的硬件挑战

生成式AI和大语言模型（LLM）正在以难以置信的方式吸引全世界的目光，本文简要介绍了大语言模型，训练这些模型带来的硬件挑战，以及GPU和网络行业如何针对训练的工作负载不断优化硬件。

2023-09-01 17:14:56

1046

OpenVIN赋能BLIP实现视觉语言AI边缘部署

2023-09-04 10:54:24

9940

OpenVINO™ 赋能 BLIP 实现视觉语言 AI 边缘部署

图》中，我们介绍了利用OpenVINO运行StableDiffusion模型，快速实现文生图应用。让人人可以成为绘画大师，利用AI随心作画。随着计算机视觉和自然语

2023-09-04 16:21:36

368

腾讯发布混元大语言模型

腾讯发布混元大语言模型腾讯全球数字生态大会上腾讯正式发布了混元大语言模型，参数规模超千亿，预训练语料超2万亿tokens。作为腾讯自研的通用大语言模型，混元大语言模型具有中文创作能力、任务执行

2023-09-07 10:23:54

815

虹科分享 | 谷歌Vertex AI平台使用Redis搭建大语言模型

基础模型和高性能数据层这两个基本组件始终是创建高效、可扩展语言模型应用的关键，利用Redis搭建大语言模型，能够实现高效可扩展的语义搜索、检索增强生成、LLM 缓存机制、LLM记忆和持久

2023-09-18 11:26:49

316

揭秘编码器与解码器语言模型

Transformer 架构的问世标志着现代语言大模型时代的开启。自 2018 年以来，各类语言大模型层出不穷。

2023-10-24 11:42:05

337

在线研讨会 | 利用生成式 AI 改变视觉 AI 应用

研讨会时间： 2023 年 11 月 3 日（周五）上午 11:00 （北京时间）生成式 AI、大语言模型（LLM）和视觉 Transformer 提供了前所未有的功能，世界各地的开发者们都在

2023-11-01 20:25:03

298

基于检索的大语言模型简介

简介章节讲的是比较基础的，主要介绍了本次要介绍的概念，即检索（Retrieval）和大语言模型（LLM）

2023-11-15 14:50:36

282

如何给OriginBot安装大语言模型

安装 ①安装 transformers pip3 install transformers -i https://mirrors.aliyun.com/pypi/simple/ 安装的时候会提示部分依赖

2023-11-20 15:46:32

164

哈工大提出Myriad：利用视觉专家进行工业异常检测的大型多模态模型

最近，大型多模态（即视觉和语言）模型（LMM）在图像描述、视觉理解、视觉推理等多种视觉任务上表现出了卓越的感知能力，使其成为更易于理解的异常检测的有竞争力的潜在选择。然而，现有的通用 LMM 中缺乏有关异常检测的知识，而训练特定的 LMM 进行异常检测需要大量的注释数据和大量的计算资源。

2023-11-21 16:08:12

560

大语言模型简介：基于大语言模型模型全家桶Amazon Bedrock

本文基于亚马逊云科技推出的大语言模型与生成式AI的全家桶：Bedrock对大语言模型进行介绍。大语言模型指的是具有数十亿参数（B+）的预训练语言模型（例如：GPT-3, Bloom, LLaMA)。这种模型可以用于各种自然语言处理任务，如文本生成、机器翻译和自然语言理解等。

2023-12-04 15:51:46

356

大语言模型概述

在科技飞速发展的当今时代，人工智能技术成为社会进步的关键推动力之一。在广泛关注的人工智能领域中，大语言模型以其引人注目的特性备受瞩目。大语言模型的定义及发展历史大语言模型是一类基于深度学习技术

2023-12-21 17:53:59

555

一文了解3D视觉和2D视觉的区别

一文了解3D视觉和2D视觉的区别 3D视觉和2D视觉是两种不同的视觉模式，其区别主要体现在立体感、深度感和逼真度上。本文将详细阐述这些区别，并解释为什么3D视觉相比2D视觉更具吸引力和影响力。首先

2023-12-25 11:15:10

366

大语言模型使用指南

在信息爆炸的时代，我们渴望更智能、更高效的语言处理工具。GPT-3.5等大语言模型的崛起为我们提供了前所未有的机会。这不仅是技术的进步，更是人与机器共舞的一幕。本篇文章将带你走进这个奇妙的语言王国

2023-12-29 14:18:59

276

2023年大语言模型(LLM)全面调研：原理、进展、领跑者、挑战、趋势

大型语言模型(LLM)是基于人工智能的先进模型，经过训练，它可以密切反映人类自然交流的方式处理和生成人类语言。这些模型利用深度学习技术和大量训练数据来全面理解语言结构、语法、上下文和语义。

2024-01-03 16:05:25

441

机器人基于开源的多模态语言视觉大模型

ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型，只用单机就可以训练。

2024-01-19 11:43:08

106

Transformers的功能概述

近年来，我们听说了很多关于Transformers的事情，并且在过去的几年里，它们已经在NLP领域取得了巨大成功。Transformers是一种使用注意力机制(Attention)显著改进深度学习

2024-01-23 10:15:25

165

字节发布机器人领域首个开源视觉-语言操作大模型，激发开源VLMs更大潜能

对此，ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型，只用单机就可以训练。使用简单、少量的微调就可以把 VLM 变成 Robotics VLM，从而适用于语言交互的机器人操作任务。

2024-01-23 16:02:17

169

大语言模型中的语言与知识：一种神秘的分离现象

自然语言处理领域存在着一个非常有趣的现象：在多语言模型中，不同的语言之间似乎存在着一种隐含的对齐关系。

2024-02-20 14:53:06

已全部加载完成

搜索历史

如何利用Transformers了解视觉语言模型

评论