北大&华为提出：多模态基础大模型的高效微调-电子发烧友网

很荣幸我们近期的工作Parameter-efficient Tuning of Large-scaleMultimodal Foundation Model被NeurIPS2023录用！

https://arxiv.org/abs/2305.08381

这是我们第一篇拓展至多模态领域的高效微调的工作，在该工作中我们首次采用模式逼近（mode apprximation）的方法来进行大模型的轻量化高效微调，仅需训练预训练大模型0.04%的参数。同时我们设计了两个启发性模块来增强高效微调时极低参数条件下的模态对齐。实验上，我们在六大跨模态基准测试集上进行全面评估显示,我们的方法不仅超越当前的sota, 还在一些任务上优于全量微调方法。

论文的相关代码也会开源在这个GitHub项目：

github.com/WillDreamer/Aurora

大模型的高效微调是一个非常新且日渐繁荣的task，欢迎小伙伴们一起学习交流～

一、背景

深度学习的大模型时代已经来临,越来越多的大规模预训练模型在文本、视觉和多模态领域展示出杰出的生成和推理能力。然而大模型巨大的参数量有两个明显缺点。第一,它带来巨大的计算和物理存储成本,使预训练和迁移变得非常昂贵。第二,微调限制了预训练知识在小规模数据量的下游任务中的应用效果。这两点阻碍了大模型从特定数据集扩展到更广泛场景。

为缓解预训练大模型的高昂成本,一系列参数高效微调方法相继提出。其通用范式是冻结大模型的骨干网络,并引入少量额外参数。最近,一些工作开始关注多模态领域的高效微调任务,例如UniAdapter、VL-Adapter和MAPLE。但是,它们的通用思路是将自然语言处理领域的现有架构用于多模态模型并组合使用,然后直接在单模态和多模态分支的骨干网络中插入可训练参数以获得良好表现。直接、简单的设计无法将参数高效迁移的精髓融入多模态模型。此外，还有两个主要挑战需要面对: （1）如何在极轻量级高效微调框架下进行知识迁移;（2）在极低参数环境下如何提高各模态间的对齐程度。

图1:与现有主流的高效微调方法的对比

在这篇文章中，我们尝试解决这两种挑战，贡献可以总结为：

介绍了名为Aurora的多模态基础大模型高效微调框架，它解决了当前大规模预训练和微调策略的局限性。

提出了模式近似（mode approximation）方法来生成轻量级可学习参数，并提出了两个启发性模块来更好地增强模态融合。

通过六个跨模态任务和两个零样本任务进行实验验证，结果显示Aurora相比其他方法取得了最先进的性能，同时也只使用最少的可学习参数。

二、高效微调的轻量化架构的设计

Aurora的整体过程示意图。

三、高效微调的模态对齐的设计

3.1 Informative Context Enhancement

该模块的目标是为了实现更好的模态对齐，在交叉注意力模块后的融合特征中提供提示文本来更好的激活。受“上下文学习”这一领域的进步启发,我们意识到为提示词提供示范模板是很重要的。最直观的方法是对图像与文本对进行对齐,以获得更多跨模态上下文信息。但是,即使与相关图像区域匹配,描述这些区域的文本可能还是有多个选择。一些文本可能准确概括图像内容,而另一些可能不行。在没有事先匹配文本信息的先验情况下,我们决定引入上下文增强模块来涵盖各个方面的可能的文本信息。

四、实验结果

4.1 实验设置

数据集与基准比较。我们在六个跨模态任务领域的benchmark上评估了Aurora,这些任务包括图片文本检索、问答(QA)、视频文本检索和视频QA。我们将Aurora与两类方法进行比较:完全微调后的SOTA方法以及Frozen重要部分的LoRA和UniAdapter方法。更多细节请参阅附录。

实现细节。我们的实现基于Salesforce开源代码库。与UniAdapter一致,我们使用BLIP-base作为所有多模态下游任务的视觉语言初始化权重。我们使用PyTorch在8台NVIDIA V100 GPU(32G)设备上实现所有实验。我们使用AdamW优化器,设置权重衰减为0.05,学习率通过网格搜索得到为1e-4。需要注意的是,在微调过程中,参数组只更新交叉注意模块的权重, backbone初始化权重不更新。

4.2 实验结果

Image-Text Retrieval

Video-Text Retrieval

VQA

实验气泡图

4.3 消融实验

How Rank of CP Decomposition Affects Aurora?

How Does Aurora Benefit from Informative Context Enhancement

How Does Aurora Benefit from Gated Query Transformation?

How Does Aurora Benefit from Parameter Sharing?

4.4 可视化分析

参数分布可视化

Video-Text retrieval cases on MSRVTT

Video Question Answering cases on MSRVTT-QA

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

框架

框架

+关注

关注
0

文章
403

浏览量
17603
深度学习

深度学习

+关注

关注
73

文章
5527

浏览量
121833
大模型

大模型

+关注

关注
2

文章
2762

浏览量
3413

原文标题：NeurIPS 2023 | 北大&华为提出：多模态基础大模型的高效微调

文章出处：【微信号：CVer，微信公众号：CVer】欢迎添加关注！文章转载请注明出处。

【「基于大模型的RAG应用开发与优化」阅读体验】+大模型微调技术解读

今天学习&amp;lt;基于大模型的RAG应用开发与优化&amp;gt;这本书。大模型微调是深度学习领域中的一项关键技术，它指的是在已经预训

发表于 01-14 16:51

AMP01 SPICE宏模型

AMP01 SPICE宏模型

发表于 04-14 08:52 •0次下载

<b class='flag-5'>AMP</b>01 SPICE宏<b class='flag-5'>模型</b>

AMP02 SPICE宏模型

AMP02 SPICE宏模型

发表于 04-14 08:55 •0次下载

<b class='flag-5'>AMP</b>02 SPICE宏<b class='flag-5'>模型</b>

AMP01 SPICE宏模型

AMP01 SPICE宏模型

发表于 06-17 15:53 •0次下载

AMP02 SPICE宏模型

AMP02 SPICE宏模型

发表于 06-17 15:55 •2次下载

单张消费级显卡微调多模态大模型

把大模型的训练门槛打下来！我们在单张消费级显卡上实现了多模态大模型（LaVIN-7B, LaVIN-13B）的适配和训练

发表于 06-30 10:43 •2716次阅读

单张消费级显卡<b class='flag-5'>微调</b><b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>

VisCPM：迈向多语言多模态大模型时代

随着 GPT-4 和 Stable Diffusion 等模型多模态能力的突飞猛进，多模态大模型

发表于 07-10 10:05 •792次阅读

VisCPM：迈向多语言<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>时代

更强更通用：智源「悟道3.0」Emu多模态大模型开源，在多模态序列中「补全一切」

当前学界和工业界都对多模态大模型研究热情高涨。去年，谷歌的 Deepmind 发布了多模态视觉语言模型

发表于 07-16 20:45 •798次阅读

中科大&amp;amp;字节提出UniDoc：统一的面向文字场景的多模态大模型

如上图所示，UniDoc基于预训练的视觉大模型及大语言模型，将文字的检测、识别、spotting(图中未画出)、多模态理解等四个任务，通过多模态

发表于 08-31 15:29 •1693次阅读

探究编辑多模态大语言模型的可行性

不同于单模态模型编辑，多模态模型编辑需要考虑更多的模态信息。文章出发点依然从单

发表于 11-09 14:53 •603次阅读

用语言对齐多模态信息，北大腾讯等提出LanguageBind，刷新多个榜单

目前的 VL 预训练方法通常仅适用于视觉和语言模态，而现实世界中的应用场景往往包含更多的模态信息，如深度图、热图像等。如何整合和分析不同模态的信息，并且能够在多个模态之间建立准确的语义

发表于 11-23 15:46 •816次阅读

大模型+多模态的3种实现方法

我们知道，预训练LLM已经取得了诸多惊人的成就，然而其明显的劣势是不支持其他模态（包括图像、语音、视频模态）的输入和输出，那么如何在预训练LLM的基础上引入跨模态的信息，让其变得更强大、更通用呢？本节将介绍“大

发表于 12-13 13:55 •2126次阅读

基于AX650N芯片部署MiniCPM-V 2.0高效端侧多模态大模型

今年4月份，面壁智能&amp;清华大学自然语言处理实验室推出MiniCPM系列的最新多模态版本MiniCPM-V 2.0。该模型基于MiniCPM 2.4B和SigLip-400M构建

发表于 07-15 09:34 •1150次阅读

利用OpenVINO部署Qwen2多模态模型

多模态大模型的核心思想是将不同媒体数据（如文本、图像、音频和视频等）进行融合，通过学习不同模态之间的关联，实现更加智能化的信息处理。简单来说，多

发表于 10-18 09:39 •691次阅读

商汤日日新多模态大模型权威评测第一

刚刚，商汤科技日日新SenseNova多模态大模型，在权威综合评测权威平台OpenCompass的多模态评测中取得榜单第一。

发表于 12-20 10:39 •447次阅读