0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一文理解多模态大语言模型——上

jf_23871869 来源:Sebastian Raschka 博士 作者:Sebastian Raschka 博士 2024-12-02 18:29 次阅读

作者:Sebastian Raschka 博士,

翻译:张晶,Linux Fundation APAC Open Source Evangelist

编者按:本文并不是逐字逐句翻译,而是以更有利于中文读者理解的目标,做了删减、重构和意译,并替换了多张不适合中文读者的示意图。

原文地址:https://magazine.sebastianraschka.com/p/understanding-multimodal-llms

在过去几个月中,OpenVINO™架构师 Yury阅读了众多有关多模态大语言模型的论文和博客,在此基础上,推荐了一篇解读多模态大语言模型的最佳文章《Understand Multimodal LLMs》--- 能让读者很好的理解大语言模型(LLMs)是如何演进为视觉语言模型(VLMs)的。

wKgaoWdD-e-ATu-MAAG9WSDq_VU336.png

阅读本文之前,可以先在自己的电脑上运行当前最新视觉大语言模型Llama 3.2 Vision模型,感受一下视觉语言模型能干什么!

一,什么是多模态大语言模型

多模态大语言模型是能够处理多种“模态”类型输入的大语言模型,其中每个“模态”指的是特定类型的数据,例如:文本、声音、图像、视频等,处理结果以文本类型输出。

wKgZoWdD-fCAVnxiAADAr_jptRk907.png


多模态大语言模型的一个经典而直观的应用是解读图片:输入图像和提示词,模型生成该图像的描述(文本),如下图所示。

wKgaoWdD-fCAUDWaAAXMMpv5kdk153.png

当然,还有许多其他应用,例如:从图片中提取信息并将其转换为 LaTeX 或 Markdown。

wKgZoWdD-fCAXDNIAAKgO2sq_As332.png

二,构建多模态大语言模型的常见方式

构建多模态 LLM 有两种主要方式:

方法 A:统一嵌入解码器架构(Unified Embedding Decoder Architecture);

方法 B:跨模态注意架构(Cross-modality Attention Architecture approach)。

(顺便说一句,Sebastian认为这些技术目前还没有正式的术语,但如果您遇到过,请告诉他。例如,更简短的描述可能是“仅解码器(Decoder-Only)”和“基于交叉注意(Cross-Attention-Based)”)

wKgaoWdD-fGAbaF5AAOi-7emHU0404.png

如上图所示,统一嵌入解码器架构使用单个解码器模型,与仅解码器(Decoder-Only)的 LLM 架构(如 GPT-2 或 Llama 3.2)非常相似。在这种方法中,图像被转换为与原始文本分词(本文将大语言模型语境下的Token,统一翻译为分词)具有相同嵌入大小的分词,从而允许 LLM 在连接后同时处理文本和图像输入分词。

跨模态注意架构采用交叉注意机制,将图像和文本嵌入直接集成到注意层中。

三,统一嵌入解码器架构

统一嵌入解码器架构是一种将图像向量和文本向量组合成嵌入向量后输入给大语言模型的架构,其优点是:无需修改原有的大语言模型架构。

在统一嵌入解码器架构中,图像跟文本一样,先被转换为分词(Token),然后被转换为嵌入向量,最后跟文本嵌入向量一起,送入原来的大语言模型进行训练或推理。

wKgZoWdD-fGAIEbvAADhxhNqEIo722.png

1,文本向量化

自然语言本文在输入大语言模型前,会先经过分词器(Tokenizer)变成分词,然后经过嵌入层变成向量。

wKgaoWdD-fGAZhxRAACKqjT-4OE599.png

自然语言是非常高维的数据,因为每个可能的单词都被视为一个特征。通过分词化,可以将文本映射到一个固定大小的向量空间中(例如,GPT2模型用的分词器算法是BPE,词汇表大小是50,257),这有助于减少数据的维度,使得模型训练更加高效。

分词数据经过嵌入层(Embedding Layer)转换成向量数据后,方便模型进行特征提取、捕捉丰富的语义信息和上下文关系,并提高模型的性能和计算效率。

将自然语言文本分词化和向量化已经成为Transformer架构模型的标准数据预处理步骤。

2,图像向量化

类似于文本的分词化和向量化,图像的向量化是通过图像编码器模块(而不是分词器)实现的。原始图像首先会被分割成更小的块(patches),这与分词器(Tokenizer)将自然语言的单词(Word)拆成分词(Token)类似。

随后,图像编码器会把这些块由线性投影(Linear Projection)模块和预训练视觉转换器(Vision Transformer)进行编码,最终转换成向量,其大小与文本向量相同。

wKgZO2dNjCKASw6FAAG_4qeOP7g896.png

上图中的“线性投影”由一个单一的线性层(即全连接层)组成,这个层的目的是将被展平为向量的图像块投影到与变换器编码器兼容的嵌入尺寸。

当前普遍使用的视觉变换器是CLIP或OpenCLIP等,负责把展平的图像块变换为图像向量。由于图像块向量具有与文本分词向量相同的向量维度,我们可以简单地将它们串联起来作为大语言模型的输入,如本节开头的图片所示。

到此,统一嵌入解码器架构(Unified Embedding Decoder Architecture)介绍完毕。

下一篇文章,我们将继续介绍:跨模态注意架构(Cross-modality Attention Architecture approach)。

如果你有更好的文章,欢迎投稿!

稿件接收邮箱:nami.liu@pasuntech.com

更多精彩内容请关注“算力魔方®”!

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语言模型
    +关注

    关注

    0

    文章

    514

    浏览量

    10252
收藏 人收藏

    评论

    相关推荐

    【《大语言模型应用指南》阅读体验】+ 基础知识学习

    能够关注到输入文本中的重要部分,从而提高预测的准确性和效率。这种机制允许模型在处理文本时同时考虑多个位置的信息,并根据重要性进行加权处理。 些关键技术 1. 上下文理解语言
    发表于 08-02 11:03

    利用大语言模型模态任务

    大型语言模型LLM(Large Language Model)具有很强的通用知识理解以及较强的逻辑推理能力,但其只能处理文本数据。
    的头像 发表于 05-10 16:53 1024次阅读
    利用大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>做<b class='flag-5'>多</b><b class='flag-5'>模态</b>任务

    如何利用LLM做模态任务?

    大型语言模型LLM(Large Language Model)具有很强的通用知识理解以及较强的逻辑推理能力,但其只能处理文本数据。虽然已经发布的GPT4具备图片理解能力,但目前还未开放
    的头像 发表于 05-11 17:09 888次阅读
    如何利用LLM做<b class='flag-5'>多</b><b class='flag-5'>模态</b>任务?

    邱锡鹏团队提出具有内生跨模态能力的SpeechGPT,为模态LLM指明方向

    大型语言模型(LLM)在各种自然语言处理任务上表现出惊人的能力。与此同时,模态大型语言
    的头像 发表于 05-22 14:38 659次阅读
    邱锡鹏团队提出具有内生跨<b class='flag-5'>模态</b>能力的SpeechGPT,为<b class='flag-5'>多</b><b class='flag-5'>模态</b>LLM指明方向

    VisCPM:迈向多语言模态模型时代

    随着 GPT-4 和 Stable Diffusion 等模型模态能力的突飞猛进,模态模型
    的头像 发表于 07-10 10:05 695次阅读
    VisCPM:迈向多<b class='flag-5'>语言</b><b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>时代

    更强更通用:智源「悟道3.0」Emu模态模型开源,在模态序列中「补全切」

    当前学界和工业界都对模态模型研究热情高涨。去年,谷歌的 Deepmind 发布了模态视觉语言
    的头像 发表于 07-16 20:45 701次阅读
    更强更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>开源,在<b class='flag-5'>多</b><b class='flag-5'>模态</b>序列中「补全<b class='flag-5'>一</b>切」

    中科大&amp;字节提出UniDoc:统的面向文字场景的模态模型

    如上图所示,UniDoc基于预训练的视觉大模型及大语言模型,将文字的检测、识别、spotting(图中未画出)、模态
    的头像 发表于 08-31 15:29 1483次阅读
    中科大&amp;字节提出UniDoc:统<b class='flag-5'>一</b>的面向文字场景的<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>

    DreamLLM:多功能模态大型语言模型,你的DreamLLM~

    由于固有的模态缺口,如CLIP语义主要关注模态共享信息,往往忽略了可以增强多模态理解模态特定知识。因此,这些研究并没有充分认识到
    的头像 发表于 09-25 17:26 710次阅读
    DreamLLM:多功能<b class='flag-5'>多</b><b class='flag-5'>模态</b>大型<b class='flag-5'>语言</b><b class='flag-5'>模型</b>,你的DreamLLM~

    探究编辑模态语言模型的可行性

    不同于单模态模型编辑,模态模型编辑需要考虑更多的模态信息。文章出发点依然从单
    发表于 11-09 14:53 488次阅读
    探究编辑<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>的可行性

    自动驾驶和模态语言模型的发展历程

    模态语言模型(MLLM) 最近引起了广泛的关注,其将 LLM 的推理能力与图像、视频和音频数据相结合,通过多模态对齐使它们能够更高效地执
    发表于 12-28 11:45 499次阅读
    自动驾驶和<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>的发展历程

    机器人基于开源的模态语言视觉大模型

    ByteDance Research 基于开源的模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作
    发表于 01-19 11:43 370次阅读
    机器人基于开源的<b class='flag-5'>多</b><b class='flag-5'>模态</b><b class='flag-5'>语言</b>视觉大<b class='flag-5'>模型</b>

    韩国Kakao宣布开发模态语言模型“蜜蜂”

    韩国互联网巨头Kakao最近宣布开发了种名为“蜜蜂”(Honeybee)的模态大型语言模型。这种创新
    的头像 发表于 01-19 16:11 656次阅读

    李未可科技正式推出WAKE-AI模态AI大模型

    文本生成、语言理解、图像识别及视频生成等模态交互能力。   该大模型围绕 GPS 轨迹+视觉+语音打造新
    发表于 04-18 17:01 570次阅读
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模态</b>AI大<b class='flag-5'>模型</b>

    利用OpenVINO部署Qwen2模态模型

    模态模型的核心思想是将不同媒体数据(如文本、图像、音频和视频等)进行融合,通过学习不同模态之间的关联,实现更加智能化的信息处理。简单来说,
    的头像 发表于 10-18 09:39 352次阅读

    文理解模态语言模型——下

    /understanding-multimodal-llms   《文理解模态语言模型 -
    的头像 发表于 12-03 15:18 48次阅读
    <b class='flag-5'>一</b><b class='flag-5'>文理解</b><b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>——下