0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

北大&华为提出:多模态基础大模型的高效微调

CVer 来源:CVer 2023-11-08 16:20 次阅读

很荣幸我们近期的工作Parameter-efficient Tuning of Large-scaleMultimodal Foundation Model被NeurIPS2023录用!

0a78a91c-7d2c-11ee-939d-92fbcf53809c.png

https://arxiv.org/abs/2305.08381

这是我们第一篇拓展至多模态领域的高效微调的工作,在该工作中我们首次采用模式逼近(mode apprximation)的方法来进行大模型的轻量化高效微调,仅需训练预训练大模型0.04%的参数。同时我们设计了两个启发性模块来增强高效微调时极低参数条件下的模态对齐。实验上,我们在六大跨模态基准测试集上进行全面评估显示,我们的方法不仅超越当前的sota, 还在一些任务上优于全量微调方法。

论文的相关代码也会开源在这个GitHub项目:

github.com/WillDreamer/Aurora

大模型的高效微调是一个非常新且日渐繁荣的task,欢迎小伙伴们一起学习交流~

一、背景

深度学习的大模型时代已经来临,越来越多的大规模预训练模型在文本、视觉和多模态领域展示出杰出的生成和推理能力。然而大模型巨大的参数量有两个明显缺点。第一,它带来巨大的计算和物理存储成本,使预训练和迁移变得非常昂贵。第二,微调限制了预训练知识在小规模数据量的下游任务中的应用效果。这两点阻碍了大模型从特定数据集扩展到更广泛场景。

为缓解预训练大模型的高昂成本,一系列参数高效微调方法相继提出。其通用范式是冻结大模型的骨干网络,并引入少量额外参数。最近,一些工作开始关注多模态领域的高效微调任务,例如UniAdapter、VL-Adapter和MAPLE。但是,它们的通用思路是将自然语言处理领域的现有架构用于多模态模型并组合使用,然后直接在单模态和多模态分支的骨干网络中插入可训练参数以获得良好表现。直接、简单的设计无法将参数高效迁移的精髓融入多模态模型。此外,还有两个主要挑战需要面对: (1)如何在极轻量级高效微调框架下进行知识迁移;(2)在极低参数环境下如何提高各模态间的对齐程度。

0a83d436-7d2c-11ee-939d-92fbcf53809c.jpg

图1:与现有主流的高效微调方法的对比

在这篇文章中,我们尝试解决这两种挑战,贡献可以总结为:

介绍了名为Aurora的多模态基础大模型高效微调框架,它解决了当前大规模预训练和微调策略的局限性。

提出了模式近似(mode approximation)方法来生成轻量级可学习参数,并提出了两个启发性模块来更好地增强模态融合。

通过六个跨模态任务和两个零样本任务进行实验验证,结果显示Aurora相比其他方法取得了最先进的性能,同时也只使用最少的可学习参数。

二、高效微调的轻量化架构的设计

0a9c301c-7d2c-11ee-939d-92fbcf53809c.png

0aa7d0e8-7d2c-11ee-939d-92fbcf53809c.jpg

Aurora的整体过程示意图。

三、高效微调的模态对齐的设计

3.1 Informative Context Enhancement

该模块的目标是为了实现更好的模态对齐,在交叉注意力模块后的融合特征中提供提示文本来更好的激活。受“上下文学习”这一领域的进步启发,我们意识到为提示词提供示范模板是很重要的。最直观的方法是对图像与文本对进行对齐,以获得更多跨模态上下文信息。但是,即使与相关图像区域匹配,描述这些区域的文本可能还是有多个选择。一些文本可能准确概括图像内容,而另一些可能不行。在没有事先匹配文本信息的先验情况下,我们决定引入上下文增强模块来涵盖各个方面的可能的文本信息。

0ab5ae84-7d2c-11ee-939d-92fbcf53809c.png

四、实验结果

4.1 实验设置

数据集与基准比较。我们在六个跨模态任务领域的benchmark上评估了Aurora,这些任务包括图片文本检索、问答(QA)、视频文本检索和视频QA。我们将Aurora与两类方法进行比较:完全微调后的SOTA方法以及Frozen重要部分的LoRA和UniAdapter方法。更多细节请参阅附录。

实现细节。我们的实现基于Salesforce开源代码库。与UniAdapter一致,我们使用BLIP-base作为所有多模态下游任务的视觉语言初始化权重。我们使用PyTorch在8台NVIDIA V100 GPU(32G)设备上实现所有实验。我们使用AdamW优化器,设置权重衰减为0.05,学习率通过网格搜索得到为1e-4。需要注意的是,在微调过程中,参数组只更新交叉注意模块的权重, backbone初始化权重不更新。

4.2 实验结果

0ac0ab9a-7d2c-11ee-939d-92fbcf53809c.jpg

Image-Text Retrieval

0acbc44e-7d2c-11ee-939d-92fbcf53809c.jpg

Video-Text Retrieval

0ae334da-7d2c-11ee-939d-92fbcf53809c.jpg

VQA

0aee2c1e-7d2c-11ee-939d-92fbcf53809c.jpg

实验气泡图

4.3 消融实验

0b151b8a-7d2c-11ee-939d-92fbcf53809c.jpg

How Rank of CP Decomposition Affects Aurora?

0b2deebc-7d2c-11ee-939d-92fbcf53809c.jpg

How Does Aurora Benefit from Informative Context Enhancement

0b4231f6-7d2c-11ee-939d-92fbcf53809c.jpg

How Does Aurora Benefit from Gated Query Transformation?

0b467522-7d2c-11ee-939d-92fbcf53809c.jpg

How Does Aurora Benefit from Parameter Sharing?

4.4 可视化分析

0b59e8a0-7d2c-11ee-939d-92fbcf53809c.jpg

参数分布可视化

0b694610-7d2c-11ee-939d-92fbcf53809c.jpg

Video-Text retrieval cases on MSRVTT

0b74c512-7d2c-11ee-939d-92fbcf53809c.jpg

Video Question Answering cases on MSRVTT-QA

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 框架
    +关注

    关注

    0

    文章

    398

    浏览量

    17427
  • 深度学习
    +关注

    关注

    73

    文章

    5491

    浏览量

    120958
  • 大模型
    +关注

    关注

    2

    文章

    2314

    浏览量

    2456

原文标题:NeurIPS 2023 | 北大&华为提出:多模态基础大模型的高效微调

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    AMP01 SPICE宏模型

    AMP01 SPICE宏模型
    发表于 04-14 08:52 0次下载
    <b class='flag-5'>AMP</b>01 SPICE宏<b class='flag-5'>模型</b>

    AMP02 SPICE宏模型

    AMP02 SPICE宏模型
    发表于 04-14 08:55 0次下载
    <b class='flag-5'>AMP</b>02 SPICE宏<b class='flag-5'>模型</b>

    AMP01 SPICE宏模型

    AMP01 SPICE宏模型
    发表于 06-17 15:53 0次下载
    <b class='flag-5'>AMP</b>01 SPICE宏<b class='flag-5'>模型</b>

    AMP02 SPICE宏模型

    AMP02 SPICE宏模型
    发表于 06-17 15:55 2次下载
    <b class='flag-5'>AMP</b>02 SPICE宏<b class='flag-5'>模型</b>

    如何区分Java中的&amp;amp;和&amp;amp;&amp;amp;

    首先给i赋值为0,如果i大于10,并且i++等于1,则输出“错误”和i的值。否则输出“正确”和i的值。分别用&amp;和&amp;&amp;运行,观察运行结果的不同。
    的头像 发表于 02-24 10:46 1494次阅读
    如何区分Java中的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;和&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;

    单张消费级显卡微调模态模型

    把大模型的训练门槛打下来!我们在单张消费级显卡上实现了模态模型(LaVIN-7B, LaVIN-13B)的适配和训练
    的头像 发表于 06-30 10:43 2269次阅读
    单张消费级显卡<b class='flag-5'>微调</b><b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>

    VisCPM:迈向多语言模态模型时代

    随着 GPT-4 和 Stable Diffusion 等模型模态能力的突飞猛进,模态模型
    的头像 发表于 07-10 10:05 687次阅读
    VisCPM:迈向多语言<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>时代

    更强更通用:智源「悟道3.0」Emu模态模型开源,在模态序列中「补全一切」

    当前学界和工业界都对模态模型研究热情高涨。去年,谷歌的 Deepmind 发布了模态视觉语言模型
    的头像 发表于 07-16 20:45 695次阅读
    更强更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>开源,在<b class='flag-5'>多</b><b class='flag-5'>模态</b>序列中「补全一切」

    中科大&amp;amp;字节提出UniDoc:统一的面向文字场景的模态模型

    如上图所示,UniDoc基于预训练的视觉大模型及大语言模型,将文字的检测、识别、spotting(图中未画出)、模态理解等四个任务,通过多模态
    的头像 发表于 08-31 15:29 1450次阅读
    中科大&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;字节<b class='flag-5'>提出</b>UniDoc:统一的面向文字场景的<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>

    探究编辑模态大语言模型的可行性

    不同于单模态模型编辑,模态模型编辑需要考虑更多的模态信息。文章出发点依然从单
    发表于 11-09 14:53 482次阅读
    探究编辑<b class='flag-5'>多</b><b class='flag-5'>模态</b>大语言<b class='flag-5'>模型</b>的可行性

    用语言对齐模态信息,北大腾讯等提出LanguageBind,刷新多个榜单

    目前的 VL 预训练方法通常仅适用于视觉和语言模态,而现实世界中的应用场景往往包含更多的模态信息,如深度图、热图像等。如何整合和分析不同模态的信息,并且能够在多个模态之间建立准确的语义
    的头像 发表于 11-23 15:46 666次阅读
    用语言对齐<b class='flag-5'>多</b><b class='flag-5'>模态</b>信息,<b class='flag-5'>北大</b>腾讯等<b class='flag-5'>提出</b>LanguageBind,刷新多个榜单

    模型+模态的3种实现方法

    我们知道,预训练LLM已经取得了诸多惊人的成就, 然而其明显的劣势是不支持其他模态(包括图像、语音、视频模态)的输入和输出,那么如何在预训练LLM的基础上引入跨模态的信息,让其变得更强大、更通用呢?本节将介绍“大
    的头像 发表于 12-13 13:55 1619次阅读
    大<b class='flag-5'>模型</b>+<b class='flag-5'>多</b><b class='flag-5'>模态</b>的3种实现方法

    自动驾驶和模态大语言模型的发展历程

    模态大语言模型(MLLM) 最近引起了广泛的关注,其将 LLM 的推理能力与图像、视频和音频数据相结合,通过多模态对齐使它们能够更高效地执
    发表于 12-28 11:45 489次阅读
    自动驾驶和<b class='flag-5'>多</b><b class='flag-5'>模态</b>大语言<b class='flag-5'>模型</b>的发展历程

    基于AX650N芯片部署MiniCPM-V 2.0高效端侧模态模型

    今年4月份,面壁智能&amp;清华大学自然语言处理实验室推出MiniCPM系列的最新模态版本MiniCPM-V 2.0。该模型基于MiniCPM 2.4B和SigLip-400M构建
    的头像 发表于 07-15 09:34 758次阅读
    基于AX650N芯片部署MiniCPM-V 2.0<b class='flag-5'>高效</b>端侧<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>

    利用OpenVINO部署Qwen2模态模型

    模态模型的核心思想是将不同媒体数据(如文本、图像、音频和视频等)进行融合,通过学习不同模态之间的关联,实现更加智能化的信息处理。简单来说,
    的头像 发表于 10-18 09:39 296次阅读