大模型+多模态的3种实现方法-电子发烧友网

我们知道，预训练LLM已经取得了诸多惊人的成就，然而其明显的劣势是不支持其他模态（包括图像、语音、视频模态）的输入和输出，那么如何在预训练LLM的基础上引入跨模态的信息，让其变得更强大、更通用呢？本节将介绍“大模型+多模态”的3种实现方法。

以LLM为核心，调用其他多模态组件

2023年5月，微软亚洲研究院（MSRA）联合浙江大学发布了HuggingGPT框架，该框架能够以LLM为核心，调用其他的多模态组件来合作完成复杂的AI任务（更多细节可参见Yongliang Shen等人发表的论文“HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in HuggingFace”）。HuggingGPT框架的原理示意图如图1所示。下面根据论文中提到的示例来一步一步地拆解 HuggingGPT框架的执行过程。

图1

假如现在你要执行这样一个复杂的AI任务：生成一张一个小女孩正在读书的照片，要求她的姿势和示例照片中的小男孩的姿势相同，然后用你的声音来描述新生成的照片。HuggingGPT框架把执行这个复杂AI任务的过程分成了4个步骤。

（1）任务规划（Task Planning）。使用LLM了解用户的意图，并将用户的意图拆分为详细的执行步骤。如图5-10左上部分所示，将输入指令拆分为6个子步骤。

子步骤1：根据小男孩的图像Image-1，生成小男孩的姿势轮廓Image-2。

子步骤 2：根据提示文本“小女孩正在读书”及小男孩的姿势轮廓Image-2生成小女孩的图像Image-3。

子步骤3：根据小女孩的图像Image-3，对图像信息进行分类。

子步骤4：根据小女孩的图像Image-3，对图像信息进行目标检测，生成带目标框的图像Image-4。

子步骤5：根据小女孩的图像Image-3，对图像信息进行描述，生成描述文本，并在Image-4中完成目标框和描述文本的配对。

子步骤6：根据描述文本生成语音Audio-1。

（2）模型选择（Model Selection）。根据步骤（1）中拆分的不同子步骤，从Hugging Face平台（一个包含多个模型的开源平台）中选取最合适的模型。对于子步骤1中的轮廓生成任务，选取OpenCV的openpose control模型；对于子步骤2中的图像生成任务，选取sd-controlnet-openpose模型；对于子步骤3中的图像分类任务，选取谷歌的vit-base-patch16-224模型；对于子步骤4中的目标检测任务，选取Facebook的detr-resnet-101模型；对于子步骤5中的图像描述任务，选取nlpconnect开源项目的vit-gpt2-Image-captioning模型；对于子步骤6中的语音生成任务，选取Facebook的fastspeech2-en- ljspeech模型。

（3）任务执行（Task Execution）。调用步骤（2）中选定的各个模型依次执行，并将执行的结果返回给LLM。

（4）响应生成（Response Generation）。使用LLM对步骤（3）中各个模型返回的结果进行整合，得到最终的结果并进行输出。

HuggingGPT框架能够以LLM为核心，并智能调用其他多模态组件来处理复杂的AI任务，原理简单，使用方便，可扩展性强。另外，其执行效率和稳定性在未来有待进一步加强。

基于多模态对齐数据训练多模态大模型

这种方法是直接利用多模态的对齐数据来训练多模态大模型，《多模态大模型：技术原理与实战》一书5.3节中介绍了诸多模型，例如VideoBERT、CLIP、CoCa、CoDi等都是基于这种思路实现的。

这种方法的核心理念是分别构建多个单模态编码器，得到各自的特征向量，然后基于类Transformer对各个模态的特征进行交互和融合，实现在多模态的语义空间对齐。

由此训练得到的多模态大模型具备很强的泛化能力和小样本、零样本推理能力，这得益于大规模的多模态对齐的预训练语料。与此同时，由于训练参数量较大，往往需要较多的训练资源和较长的训练时长。

以LLM为底座模型，训练跨模态编码器

这种方法的特色是以预训练好的LLM为底座模型，冻结LLM的大部分参数来训练跨模态编码器，既能够有效地利用LLM强大的自然语言理解和推理能力，又能完成复杂的多模态任务。这种训练方法还有一个显而易见的好处，在训练过程中对LLM的大部分参数进行了冻结，导致模型可训练的参数量远远小于真正的多模态大模型，因此其训练时长较短，对训练资源的要求也不高。下面以多模态大模型LLaVA为例介绍这种方法的主要构建流程。

2023年4月，威斯康星大学麦迪逊分校等机构联合发布了多模态大模型LLaVA。LLaVA模型在视觉问答、图像描述、物体识别、多轮对话等任务中表现得极其出色，一方面具有强大的自然语言理解和自然语言推理能力，能够准确地理解用户输入的指令和意图，支持以多轮对话的方式与用户进行交流，另一方面能够很好地理解输入图像的语义信息，准确地完成图像描述、视觉问答、物体识别等多模态任务。LLaVA模型的原理示意图如图2所示。

图2

在训练数据上，LLaVA模型使用了高质量的多模态指令数据集，并且这些数据都是通过GPT-4生成的。这个指令数据集包含基于图像的对话数据、详细描述数据和复杂推理数据，共15万条，数据的质量和多样性较高。LLaVA模型将多模态指令数据集应用到了多模态任务上，这是指令微调扩展到多模态领域的第一次尝试。

在模型架构上，LLaVA模型使用Vicuna模型作为文本编码器，使用CLIP模型作为图像编码器。

第一个阶段，基于59.5万条CC3M文本-图像对齐数据，训练跨模态编码器，以便将文本特征和图像特征进行语义对齐。这里的跨模态编码器其实是一个简单的投影映射层，在训练时冻结LLM的参数，仅仅对投影映射层的参数进行更新。

第二个阶段，基于15万条多模态指令数据，对多模态大模型进行端到端的指令微调，具体针对视觉问答和多模态推理任务进行模型训练。值得注意的是，LLaVA模型在训练的第二个阶段会对LLM和投影映射层的参数都进行相应的更新，仍然存在一定的时间开销和训练资源依赖，这也是后续研究工作的一个重要方向。

2023年5月2日，LLaVA官方发布了轻量级的LLaVA Lightning模型（可以翻译为轻量级的LLaVA模型），使用8个RTX A100型号的显卡，3小时即可完成训练，总训练成本仅为40美元。

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

编码器

编码器

+关注

关注
45

文章
3664

浏览量
135209
GPT

GPT

+关注

关注
0

文章
359

浏览量
15500
大模型

大模型

+关注

关注
2

文章
2543

浏览量
3135
LLM

LLM

+关注

关注
0

文章
298

浏览量
396

原文标题：大模型+多模态的3种实现方法｜文末赠书

文章出处：【微信号：AI前线，微信公众号：AI前线】欢迎添加关注！文章转载请注明出处。

体验MiniCPM-V 2.6 多模态能力

多模态组网

jf_23871869

发布于 :2025年01月20日 13:40:48

商汤日日新多模态大模型权威评测第一

刚刚，商汤科技日日新SenseNova多模态大模型，在权威综合评测权威平台OpenCompass的多模态评测中取得榜单第一。

发表于 12-20 10:39 •336次阅读

一文理解多模态大语言模型——下

/understanding-multimodal-llms 《一文理解多模态大语言模型 - 上》介绍了什么是多模态大语言

发表于 12-03 15:18 •198次阅读

一文理解<b class='flag-5'>多</b><b class='flag-5'>模态</b>大语言<b class='flag-5'>模型</b>——下

利用OpenVINO部署Qwen2多模态模型

多模态大模型的核心思想是将不同媒体数据（如文本、图像、音频和视频等）进行融合，通过学习不同模态之间的关联，实现更加智能化的信息处理。简单来说

发表于 10-18 09:39 •542次阅读

云知声山海多模态大模型UniGPT-mMed登顶MMMU测评榜首

近日，多模态人工智能模型基准评测集MMMU更新榜单，云知声山海多模态大模型UniGPT-mMed

发表于 10-12 14:09 •334次阅读

云知声山海<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>UniGPT-mMed登顶MMMU测评榜首

Meta发布多模态LLAMA 3.2人工智能模型

Meta Platforms近日宣布了一项重要技术突破，成功推出了多模态LLAMA 3.2人工智能模型。这一创新模型不仅能够深度解析文本信息，还实现

发表于 09-27 11:44 •446次阅读

PerfXCloud 重大更新端侧多模态模型 MiniCPM-Llama3-V 2.5 闪亮上架

近日，PerfXCloud完成重大更新，上架了面壁小钢炮 MiniCPM 系列的端侧多模态模型 MiniCPM-Llama3-V 2.5，现已对平台用户免费开放体验！

发表于 08-27 18:20 •558次阅读

云知声推出山海多模态大模型

在人工智能技术的浩瀚星海中，多模态交互技术正成为引领未来的新航标。继OpenAI的GPT-4o掀起滔天巨浪后，云知声以创新之姿，推出了其匠心独运的山海多模态大

发表于 08-27 15:20 •429次阅读

依图多模态大模型伙伴CTO精研班圆满举办

大模型在不同行业领域的应用前景;7月19日， “依图科技多模态大模型伙伴CTO精研班”在杭州圆满举办，让更多的伙伴们深度体验了依图多

发表于 07-23 15:16 •462次阅读

商汤科技与海通证券携手发布金融行业首个多模态全栈式大模型

商汤科技与海通证券联合研发并发布了金融行业内首个面向多业务场景的多模态全栈式大模型。双方计划将这一先进技术应用于智能问答、合规风控、代码辅助以及办公助手等关键业务领域，以

发表于 05-06 10:16 •505次阅读

人大系初创公司智子引擎发布全新多模态大模型Awaker 1.0

人大系初创公司智子引擎近日震撼发布了新一代多模态大模型Awaker 1.0，这一里程碑式的成果标志着公司在通用人工智能（AGI）领域取得了重要突破。与前代ChatImg序列模型相比，A

发表于 05-06 09:59 •663次阅读

李未可科技正式推出WAKE-AI多模态AI大模型

文本生成、语言理解、图像识别及视频生成等多模态交互能力。该大模型围绕 GPS 轨迹+视觉+语音打造新一代 LLM-Based的自然交互，同时多

发表于 04-18 17:01 •660次阅读

AI机器人迎来多模态模型

配备 GR00T 模型的机器人由于需要“吸收消化”外界的多模态信息，还要快速完成理解、决策、行动等一系列动作，因此对于算力的需求是巨量的。

发表于 04-12 10:39 •306次阅读

苹果发布300亿参数MM1多模态大模型

近日，科技巨头苹果公司在一篇由多位专家共同撰写的论文中，正式公布了其最新的多模态大模型研究成果——MM1。这款具有高达300亿参数的多模态

发表于 03-19 11:19 •950次阅读

蚂蚁集团推出20亿参数多模态遥感基础模型SkySense

近日，蚂蚁集团联合武汉大学宣布成功研发出20亿参数多模态遥感基础模型SkySense。这一创新模型由蚂蚁集团的AI创新研发部门NextEvo与武汉大学共同完成，是迄今为止国际上参数规模

发表于 03-04 11:22 •882次阅读

搜索历史

大模型+多模态的3种实现方法

评论

体验MiniCPM-V 2.6 多模态能力

商汤日日新多模态大模型权威评测第一

一文理解多模态大语言模型——下

利用OpenVINO部署Qwen2多模态模型

云知声山海多模态大模型UniGPT-mMed登顶MMMU测评榜首

Meta发布多模态LLAMA 3.2人工智能模型

PerfXCloud 重大更新端侧多模态模型 MiniCPM-Llama3-V 2.5 闪亮上架

云知声推出山海多模态大模型

依图多模态大模型伙伴CTO精研班圆满举办

商汤科技与海通证券携手发布金融行业首个多模态全栈式大模型

人大系初创公司智子引擎发布全新多模态大模型Awaker 1.0

李未可科技正式推出WAKE-AI多模态AI大模型

AI机器人迎来多模态模型

苹果发布300亿参数MM1多模态大模型

蚂蚁集团推出20亿参数多模态遥感基础模型SkySense