0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一文理解多模态大语言模型——下

jf_23871869 来源:Sebastian Raschka 博士 作者:Sebastian Raschka 博士 2024-12-03 15:18 次阅读

作者:Sebastian Raschka 博士,

翻译:张晶,Linux Fundation APAC Open Source Evangelist

编者按:本文并不是逐字逐句翻译,而是以更有利于中文读者理解的目标,做了删减、重构和意译,并替换了多张不适合中文读者的示意图。

原文地址:https://magazine.sebastianraschka.com/p/understanding-multimodal-llms

《一文理解多模态大语言模型 - 上》介绍了什么是多模态大语言模型,以及构建多模态 LLM 有两种主要方式之一:统一嵌入解码器架构(Unified Embedding Decoder Architecture)。本文将接着介绍第二种构建多模态 LLM 的方式:跨模态注意架构(Cross-modality Attention Architecture approach)。

一,跨模态注意架构

《一文理解多模态大语言模型 - 上》讨论了通过统一嵌入解码器架构来构建多模态大语言模型(LLM)的方法,并且理解了图像编码背后的基本概念,下面介绍另一种通过交叉注意力机制实现多模态LLM的方式,如下图所示:

wKgZO2dOtyiACm8SAAQZToNs9ng951.png

在上图所示的跨模态注意力架构方法中,我们仍然使用之前介绍的图像向量化方式。然而,与直接将图像向量作为LLM的输入不同,我们通过交叉注意力机制在多头注意力层中连接输入的图像向量。

这个想法与2017年《Attention Is All You Need》论文中提出的原始Transformer架构相似,在原始《Attention Is All You Need》论文中的Transformer最初是为语言翻译开发的。因此,它由一个文本编码器(下图的左部分)组成,该编码器接收要翻译的句子,并通过一个文本解码器(图的右部分)生成翻译结果。在多模态大语言模型的背景下,图的右部分的编码器由之前的文本编码器,更换为图像编码器(图像编码后的向量)。

文本和图像在进入大语言模型前都编码为嵌入维度和尺寸(embedding dimensions and size)一致的向量。

“我们可以把多模态大语言模型看成“翻译”文本和图像,或文本和其它模态数据 --- 译者。”

wKgZPGdOtymAWrlVAAZyVdmo3go015.png

二,统一解码器和交叉注意力模型训练

与传统仅文本的大语言模型(LLM)的开发类似,多模态大语言模型的训练也包含两个阶段:预训练和指令微调。然而,与从零开始不同,多模态大语言模型的训练通常以一个预训练过且已经过指令微调的大语言模型作为基础模型。

对于图像编码器,通常使用CLIP,并且在整个训练过程中往往保持不变,尽管也存在例外,我们稍后会探讨这一点。在预训练阶段,保持大语言模型部分冻结也是常见的做法,只专注于训练投影器(Projector)——一个线性层或小型多层感知器。鉴于投影器的学习能力有限,通常只包含一两层,因此在多模态指令微调(第二阶段)期间,大语言模型通常会被解冻,以允许进行更全面的更新。然而,需要注意的是,在基于交叉注意力机制的模型(方法B)中,交叉注意力层在整个训练过程中都是解冻的。

在介绍了两种主要方法(方法A:统一嵌入解码器架构和方法B:跨模态注意力架构)之后,你可能会好奇哪种方法更有效。答案取决于具体的权衡:

统一嵌入解码器架构(方法A)通常更容易实现,因为它不需要对LLM架构本身进行任何修改。

跨模态注意力架构(方法B)通常被认为在计算上更高效,因为它不会通过额外的图像分词(Token)来过载输入上下文,而是在后续的交叉注意力层中引入这些标记。此外,如果在训练过程中保持大语言模型参数冻结,这种方法还能保持原始大语言模型的仅文本性能。

下图总结了常见多模态大语言模型使用的组件和技术:

wKgZO2dOtymATdmPAANHQf7jd4Y003.png

三,总结

“多模态LLM可以通过多种不同的方式成功构建,核心思路在于把多模态数据编码为嵌入维度和尺寸一致的向量,使得原始大语言模型可以对多模态数据“理解并翻译”。--- 译者”。

如果你有更好的文章,欢迎投稿!

稿件接收邮箱:nami.liu@pasuntech.com

更多精彩内容请关注“算力魔方®”!

​审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语言模型
    +关注

    关注

    0

    文章

    515

    浏览量

    10252
  • LLM
    LLM
    +关注

    关注

    0

    文章

    279

    浏览量

    313
收藏 人收藏

    评论

    相关推荐

    文理解模态语言模型——上

    /understanding-multimodal-llms 在过去几个月中, OpenVINO™ 架构师 Yury阅读了众多有关模态语言模型的论文和博客,在此基础上,推荐了
    的头像 发表于 12-02 18:29 234次阅读
    <b class='flag-5'>一</b><b class='flag-5'>文理解</b><b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>——上

    【《大语言模型应用指南》阅读体验】+ 基础知识学习

    能够关注到输入文本中的重要部分,从而提高预测的准确性和效率。这种机制允许模型在处理文本时同时考虑多个位置的信息,并根据重要性进行加权处理。 些关键技术 1. 上下文理解语言
    发表于 08-02 11:03

    如何利用LLM做模态任务?

    大型语言模型LLM(Large Language Model)具有很强的通用知识理解以及较强的逻辑推理能力,但其只能处理文本数据。虽然已经发布的GPT4具备图片理解能力,但目前还未开放
    的头像 发表于 05-11 17:09 888次阅读
    如何利用LLM做<b class='flag-5'>多</b><b class='flag-5'>模态</b>任务?

    邱锡鹏团队提出具有内生跨模态能力的SpeechGPT,为模态LLM指明方向

    大型语言模型(LLM)在各种自然语言处理任务上表现出惊人的能力。与此同时,模态大型语言
    的头像 发表于 05-22 14:38 661次阅读
    邱锡鹏团队提出具有内生跨<b class='flag-5'>模态</b>能力的SpeechGPT,为<b class='flag-5'>多</b><b class='flag-5'>模态</b>LLM指明方向

    VisCPM:迈向多语言模态模型时代

    随着 GPT-4 和 Stable Diffusion 等模型模态能力的突飞猛进,模态模型
    的头像 发表于 07-10 10:05 695次阅读
    VisCPM:迈向多<b class='flag-5'>语言</b><b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>时代

    更强更通用:智源「悟道3.0」Emu模态模型开源,在模态序列中「补全切」

    当前学界和工业界都对模态模型研究热情高涨。去年,谷歌的 Deepmind 发布了模态视觉语言
    的头像 发表于 07-16 20:45 703次阅读
    更强更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>开源,在<b class='flag-5'>多</b><b class='flag-5'>模态</b>序列中「补全<b class='flag-5'>一</b>切」

    中科大&amp;字节提出UniDoc:统的面向文字场景的模态模型

    如上图所示,UniDoc基于预训练的视觉大模型及大语言模型,将文字的检测、识别、spotting(图中未画出)、模态
    的头像 发表于 08-31 15:29 1485次阅读
    中科大&amp;字节提出UniDoc:统<b class='flag-5'>一</b>的面向文字场景的<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>

    DreamLLM:多功能模态大型语言模型,你的DreamLLM~

    由于固有的模态缺口,如CLIP语义主要关注模态共享信息,往往忽略了可以增强多模态理解模态特定知识。因此,这些研究并没有充分认识到
    的头像 发表于 09-25 17:26 710次阅读
    DreamLLM:多功能<b class='flag-5'>多</b><b class='flag-5'>模态</b>大型<b class='flag-5'>语言</b><b class='flag-5'>模型</b>,你的DreamLLM~

    探究编辑模态语言模型的可行性

    不同于单模态模型编辑,模态模型编辑需要考虑更多的模态信息。文章出发点依然从单
    发表于 11-09 14:53 489次阅读
    探究编辑<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>的可行性

    自动驾驶和模态语言模型的发展历程

    模态语言模型(MLLM) 最近引起了广泛的关注,其将 LLM 的推理能力与图像、视频和音频数据相结合,通过多模态对齐使它们能够更高效地执
    发表于 12-28 11:45 499次阅读
    自动驾驶和<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>的发展历程

    机器人基于开源的模态语言视觉大模型

    ByteDance Research 基于开源的模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作
    发表于 01-19 11:43 371次阅读
    机器人基于开源的<b class='flag-5'>多</b><b class='flag-5'>模态</b><b class='flag-5'>语言</b>视觉大<b class='flag-5'>模型</b>

    韩国Kakao宣布开发模态语言模型“蜜蜂”

    韩国互联网巨头Kakao最近宣布开发了种名为“蜜蜂”(Honeybee)的模态大型语言模型。这种创新
    的头像 发表于 01-19 16:11 656次阅读

    李未可科技正式推出WAKE-AI模态AI大模型

    文本生成、语言理解、图像识别及视频生成等模态交互能力。   该大模型围绕 GPS 轨迹+视觉+语音打造新
    发表于 04-18 17:01 570次阅读
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模态</b>AI大<b class='flag-5'>模型</b>

    语言模型(LLM)快速理解

    自2022年,ChatGPT发布之后,大语言模型(LargeLanguageModel),简称LLM掀起了波狂潮。作为学习理解LLM的开始,先来整体
    的头像 发表于 06-04 08:27 919次阅读
    大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>(LLM)快速<b class='flag-5'>理解</b>

    利用OpenVINO部署Qwen2模态模型

    模态模型的核心思想是将不同媒体数据(如文本、图像、音频和视频等)进行融合,通过学习不同模态之间的关联,实现更加智能化的信息处理。简单来说,
    的头像 发表于 10-18 09:39 358次阅读