一文理解多模态大语言模型—

作者：Sebastian Raschka 博士，

翻译：张晶，Linux Fundation APAC Open Source Evangelist

编者按：本文并不是逐字逐句翻译，而是以更有利于中文读者理解的目标，做了删减、重构和意译，并替换了多张不适合中文读者的示意图。

原文地址：https://magazine.sebastianraschka.com/p/understanding-multimodal-llms

在过去几个月中，OpenVINO™架构师 Yury阅读了众多有关多模态大语言模型的论文和博客，在此基础上，推荐了一篇解读多模态大语言模型的最佳文章《Understand Multimodal LLMs》--- 能让读者很好的理解大语言模型(LLMs)是如何演进为视觉语言模型(VLMs)的。

阅读本文之前，可以先在自己的电脑上运行当前最新的视觉大语言模型Llama 3.2 Vision模型，感受一下视觉语言模型能干什么！

一，什么是多模态大语言模型

多模态大语言模型是能够处理多种“模态”类型输入的大语言模型，其中每个“模态”指的是特定类型的数据，例如：文本、声音、图像、视频等，处理结果以文本类型输出。

多模态大语言模型的一个经典而直观的应用是解读图片：输入图像和提示词，模型生成该图像的描述(文本)，如下图所示。

当然，还有许多其他应用，例如：从图片中提取信息并将其转换为 LaTeX 或 Markdown。

二，构建多模态大语言模型的常见方式

构建多模态 LLM 有两种主要方式：

方法 A：统一嵌入解码器架构(Unified Embedding Decoder Architecture)；

方法 B：跨模态注意架构(Cross-modality Attention Architecture approach)。

（顺便说一句，Sebastian认为这些技术目前还没有正式的术语，但如果您遇到过，请告诉他。例如，更简短的描述可能是“仅解码器(Decoder-Only)”和“基于交叉注意(Cross-Attention-Based)”）

如上图所示，统一嵌入解码器架构使用单个解码器模型，与仅解码器(Decoder-Only)的 LLM 架构（如 GPT-2 或 Llama 3.2）非常相似。在这种方法中，图像被转换为与原始文本分词(本文将大语言模型语境下的Token，统一翻译为分词)具有相同嵌入大小的分词，从而允许 LLM 在连接后同时处理文本和图像输入分词。

跨模态注意架构采用交叉注意机制，将图像和文本嵌入直接集成到注意层中。

三，统一嵌入解码器架构

统一嵌入解码器架构是一种将图像向量和文本向量组合成嵌入向量后输入给大语言模型的架构，其优点是：无需修改原有的大语言模型架构。

在统一嵌入解码器架构中，图像跟文本一样，先被转换为分词(Token)，然后被转换为嵌入向量，最后跟文本嵌入向量一起，送入原来的大语言模型进行训练或推理。

1，文本向量化

自然语言本文在输入大语言模型前，会先经过分词器(Tokenizer)变成分词，然后经过嵌入层变成向量。

自然语言是非常高维的数据，因为每个可能的单词都被视为一个特征。通过分词化，可以将文本映射到一个固定大小的向量空间中(例如，GPT2模型用的分词器算法是BPE，词汇表大小是50,257)，这有助于减少数据的维度，使得模型训练更加高效。

分词数据经过嵌入层(Embedding Layer)转换成向量数据后，方便模型进行特征提取、捕捉丰富的语义信息和上下文关系，并提高模型的性能和计算效率。

将自然语言文本分词化和向量化已经成为Transformer架构模型的标准数据预处理步骤。

2，图像向量化

类似于文本的分词化和向量化，图像的向量化是通过图像编码器模块（而不是分词器）实现的。原始图像首先会被分割成更小的块(patches)，这与分词器(Tokenizer)将自然语言的单词(Word)拆成分词(Token)类似。

随后，图像编码器会把这些块由线性投影(Linear Projection)模块和预训练视觉转换器（Vision Transformer）进行编码，最终转换成向量，其大小与文本向量相同。

上图中的“线性投影”由一个单一的线性层（即全连接层）组成，这个层的目的是将被展平为向量的图像块投影到与变换器编码器兼容的嵌入尺寸。

当前普遍使用的视觉变换器是CLIP或OpenCLIP等，负责把展平的图像块变换为图像向量。由于图像块向量具有与文本分词向量相同的向量维度，我们可以简单地将它们串联起来作为大语言模型的输入，如本节开头的图片所示。

到此，统一嵌入解码器架构(Unified Embedding Decoder Architecture)介绍完毕。

下一篇文章，我们将继续介绍：跨模态注意架构(Cross-modality Attention Architecture approach)。

如果你有更好的文章，欢迎投稿！

稿件接收邮箱：nami.liu@pasuntech.com

更多精彩内容请关注“算力魔方®”！

审核编辑黄宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

语言模型

语言模型

+关注

关注
0

文章
514

浏览量
10252

【《大语言模型应用指南》阅读体验】+ 基础知识学习

能够关注到输入文本中的重要部分，从而提高预测的准确性和效率。这种机制允许模型在处理文本时同时考虑多个位置的信息，并根据重要性进行加权处理。一些关键技术 1. 上下文理解 大语言

发表于 08-02 11:03

利用大语言模型做多模态任务

大型语言模型LLM（Large Language Model）具有很强的通用知识理解以及较强的逻辑推理能力，但其只能处理文本数据。

发表于 05-10 16:53 •1024次阅读

利用大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>做<b class='flag-5'>多</b><b class='flag-5'>模态</b>任务

如何利用LLM做多模态任务？

大型语言模型LLM（Large Language Model）具有很强的通用知识理解以及较强的逻辑推理能力，但其只能处理文本数据。虽然已经发布的GPT4具备图片理解能力，但目前还未开放

发表于 05-11 17:09 •888次阅读

如何利用LLM做<b class='flag-5'>多</b><b class='flag-5'>模态</b>任务？

邱锡鹏团队提出具有内生跨模态能力的SpeechGPT，为多模态LLM指明方向

大型语言模型（LLM）在各种自然语言处理任务上表现出惊人的能力。与此同时，多模态大型语言

发表于 05-22 14:38 •659次阅读

邱锡鹏团队提出具有内生跨<b class='flag-5'>模态</b>能力的SpeechGPT，为<b class='flag-5'>多</b><b class='flag-5'>模态</b>LLM指明方向

VisCPM：迈向多语言多模态大模型时代

随着 GPT-4 和 Stable Diffusion 等模型多模态能力的突飞猛进，多模态大模型

发表于 07-10 10:05 •695次阅读

VisCPM：迈向多<b class='flag-5'>语言</b><b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>时代

更强更通用：智源「悟道3.0」Emu多模态大模型开源，在多模态序列中「补全一切」

当前学界和工业界都对多模态大模型研究热情高涨。去年，谷歌的 Deepmind 发布了多模态视觉语言

发表于 07-16 20:45 •701次阅读

中科大&字节提出UniDoc：统一的面向文字场景的多模态大模型

如上图所示，UniDoc基于预训练的视觉大模型及大语言模型，将文字的检测、识别、spotting(图中未画出)、多模态

发表于 08-31 15:29 •1483次阅读

DreamLLM：多功能多模态大型语言模型，你的DreamLLM~

由于固有的模态缺口，如CLIP语义主要关注模态共享信息，往往忽略了可以增强多模态理解的模态特定知识。因此，这些研究并没有充分认识到

发表于 09-25 17:26 •710次阅读

探究编辑多模态大语言模型的可行性

不同于单模态模型编辑，多模态模型编辑需要考虑更多的模态信息。文章出发点依然从单

发表于 11-09 14:53 •488次阅读

自动驾驶和多模态大语言模型的发展历程

多模态大语言模型(MLLM) 最近引起了广泛的关注，其将 LLM 的推理能力与图像、视频和音频数据相结合，通过多模态对齐使它们能够更高效地执

发表于 12-28 11:45 •499次阅读

机器人基于开源的多模态语言视觉大模型

ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作

发表于 01-19 11:43 •370次阅读

韩国Kakao宣布开发多模态大语言模型“蜜蜂”

韩国互联网巨头Kakao最近宣布开发了一种名为“蜜蜂”(Honeybee)的多模态大型语言模型。这种创新

发表于 01-19 16:11 •656次阅读

李未可科技正式推出WAKE-AI多模态AI大模型

文本生成、语言理解、图像识别及视频生成等多模态交互能力。该大模型围绕 GPS 轨迹+视觉+语音打造新

发表于 04-18 17:01 •570次阅读

利用OpenVINO部署Qwen2多模态模型

多模态大模型的核心思想是将不同媒体数据（如文本、图像、音频和视频等）进行融合，通过学习不同模态之间的关联，实现更加智能化的信息处理。简单来说，多

发表于 10-18 09:39 •352次阅读

一文理解多模态大语言模型——下

/understanding-multimodal-llms 《一文理解多模态大语言模型 -

发表于 12-03 15:18 •48次阅读