0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

VPG 在 LLM 之间的可迁移性问题

深度学习自然语言处理 来源:深度学习自然语言处理 2023-05-17 11:46 次阅读

1. 极低训练成本

通过我们提出的VPGTrans方法,可以快速(少于10%训练时间)将已有的多模态对话模型的视觉模块迁移到新的语言模型,且达到类似或更优效果。比如,相比于从头训练视觉模块,我们可以将BLIP-2 FlanT5-XXL的训练开销从19000+人民币缩减到不到1000元:

8572e29a-f3de-11ed-90ce-dac502259ad0.png▲图 1:基于我们的VPGTrans方法的BLIP-2训练开销缩减对比

2. 多模态大模型定制

通过我们的VPGTrans框架可以根据需求为各种新的大语言模型灵活添加视觉模块。比如我们在LLaMA-7B和Vicuna-7B基础上制作了VL-LLaMA和VL-Vicuna。

3. 开源多模态对话模型

我们开源了VL-Vicuna,多模态对话模型,可实现高质量的多模态对话:

8579b052-f3de-11ed-90ce-dac502259ad0.png▲图 2:VL-Vicuna的交互实例

一、动机介绍

1.1 背景

2023年是AI元年,以ChatGPT为代表的大语言模型(LLM)大火。LLM除了在自然语言领域显示出巨大的潜力之外,也开始逐渐辐射到其他相关领域。比如,LLM在多模态理解领域掀起了一股从传统预训练视觉语言模型(VLM)到基于大语言模型的视觉语言模型(VL-LLM)的变革。通过为LLM接入视觉模块,VL-LLM可以继承已有LLM的知识,零样本泛化能力,推理能力和规划能力等。相关模型有BLIP-2[1],Flamingo[2],PALM-E等。

858180d4-f3de-11ed-90ce-dac502259ad0.png▲图 3:常用的VL-LLM架构

现有的常用的VL-LLM基本采取图3所示的架构:在一个基座LLM基础上训练一个视觉soft prompt生成模块(Visual Prompt Generator, VPG),以及一个进行维度变换的线性层(Projector)。在参数规模上,LLM一般占主要部分(比如11B),VPG占次要部分(比如1.2B),Projector最小(4M)。在训练过程中,LLM参数一般不会被更新,或者仅仅更新非常少量的参数。可训练参数主要来自于VPG和projector。

1.2 动机

实际上,即便基座LLM的参数冻结不训,但由于LLM的大参数量,训练一个VL-LLM的关键开销依然在于加载基座LLM。因此训练一个VL-LLM依然无法避免极大的计算代价。比如,要得到BLIP-2(基座LLM为FlanT5-XXL)需要付出超过600个小时的A100训练时长。如果租用亚马逊的A100-40G机器,大概需要将近2万元人民币的费用。既然从零训练一个VPG代价如此昂贵,那么我们开始思考能否把一个已有的VPG迁移到新的LLM上来节省开销

858b7936-f3de-11ed-90ce-dac502259ad0.png▲图 4:VPG迁移: 跨LLM大小迁移和跨LLM类型迁移

如图4所示,我们主要探索了两种类型的VPG的迁移:

(1)跨LLM大小迁移 (TaS): 比如从OPT-2.7B到OPT-6.7B。

(2)跨LLM类型迁移 (TaT): 比如从OPT到FlanT5

其中TaS的意义在于:在LLM相关科研中,我们通常需要在小LLM上调参,再扩展到大LLM。有了TaS,我们可以在调参之后,把小LLM上已经训好的VPG直接迁移到大LLM上。TaT的意义在于:不同功能种类的LLM层出不穷,比如今天有了LLaMA,明天又有了Alpaca和Vicuna。TaT可以让我们利用已有的VPG快速为新语言模型添加视觉感知能力。

1.3 贡献

(1) 提出高效的方法: 我们首先通过一系列的探究实验,探究了影响VPG迁移效率的关键因素。根据探索实验发现,我们提出了一个两阶段的高效迁移框架VPGTrans。该框架可以大幅度缩减训练VL-LLM所需的计算开销和需要的训练数据。比如,相比于从头训练,我们通过BLIP-2 OPT-2.7B到6.7B的VPG迁移,可以仅用大约10%的数据和计算时间就达成各个数据集相似或更好的效果(图1)。训练花销从17901人民币到1673元。

(2) 得到有趣的发现: 我们同时提供了TaS和TaT场景下一些有趣的发现,并尝试给出解释: a) TaS场景下,使用VPGTrans从小到大迁移不会影响最终模型效果。b) TaS场景下,越小的语言模型上训练的VPG,迁移到大模型时效率越高,最终效果越好。c) TaT场景下,越小的模型之间迁移的gap越大。在我们验证实验中,OPT-350M和FlanT5-base使用VPGTrans互相迁移几乎和从头训练一样慢。

(3) 开源: 我们使用VPGTrans得到了两个新的VL-LLMs: VL-LLaMA和VL-Vicuna,并开源在了社区上。其中VL-Vicuna实现了高质量的多模态对话。欢迎小伙伴尝试:https://vpgtrans.github.io/.

二、高效率的VPG迁移方案: VPGTrans

首先我们进行一系列的探索验证实验,分析如何最大化对于VPG的迁移效率。接着我们基于这些重要观察提出一个解决方案。

2.1 探究实验

我们选取BLIP-2架构作为我们的基础模型,预训练语料采用COCO和SBU,总共1.4M图文对。下游任务采用COCO Caption, NoCaps, VQAv2, GQA和OK-VQA的zero-shot设定进行评测(对caption任务并非严格zero-shot)。下面是我们的关键发现:

(1)直接继承一个训练好的VPG可以加速收敛,但效果有限:我们发现,直接迁移一个LLM上训练好的VPG到大LLM可以加速模型收敛,但加速效果有限,且收敛后模型效果相比于从头训练VPG会掉点(图5的VQAv2、GQA蓝线最高点均低于橘线)。我们猜测,这个掉点是由于随机初始化的projector会在训练起始阶段损伤VPG中已有的视觉感知能力。

8592c83a-f3de-11ed-90ce-dac502259ad0.png▲图 5:VPG inherit (蓝线): 直接继承训练好的VPG。train from scratch (橘线):从头训练VPG。only linear (绿线):只训练linear projector不训练VPG。

(2)先warm-up训练projector可以防止掉点,且进一步加速收敛:于是,我们固定住VPG和LLM,先warm-up训练projector 3个epoch,再解冻VPG进行下一步训练。我们发现,这样不仅仅可以避免掉点情况,还能够进一步加速VPG收敛(图6)。但值得强调的是,由于训练的主要开销在LLM(参数巨多),仅仅训练projector的开销不会比同时训练VPG和projector的开销小太多。所以,我们开始探究加速projector warm-up的关键技术。

85999a70-f3de-11ed-90ce-dac502259ad0.png▲图6:先warm-up训练projector可以防止掉点+加速收敛

(3)词向量转化器初始化可以加速projector warm-up:首先,VPG是通过把图像转化为LLM可以理解的soft prompt来产生效果的。而soft prompt的使用方式和词向量其实是非常相似的,都是直接输入语言模型来提示模型产生对应内容。所以,我们使用词向量来作为soft prompt的一个代理,训练了一个到的词向量转化器(一个线性层)。然后,我们将词向量转化器和上的projector融合作为projector的初始化。通过这个初始化,我们可以将projector的warm-up训练由3个epoch减为2个epoch。

(4)projector可以在超大学习率下快速收敛:我们进一步实验发现,projector由于其参数量较少,可以使用5倍的正常学习率进行训练而不崩溃。通过5倍学习率的训练,projector warm-up可以进一步被缩短到1个epoch。

(5)一个附加发现: 虽然projector warm-up很重要,但仅训练projector是不够的。尤其在caption任务上面,仅仅训练projector的效果要比同时训练VPG的效果差一截 (图5绿线在COCO Caption和NoCaps均远低于蓝线)。这也就意味着,仅仅训练projector会导致欠拟合,也就是无法充分对齐到训练数据。

2.2 我们所提出的方法

859eda44-f3de-11ed-90ce-dac502259ad0.png▲图 7:VPGTrans框架: (1) 一阶段:projector的warm-up (2) 二阶段: 整体微调

如图7所示,我们的方法共分为两个阶段:(1)第一阶段: 我们首先使用词向量转化器和原有projector进行融合作为新projector的初始化,然后用5倍学习率训练新projector一个epoch。(2) 第二阶段:直接正常训练VPG和projector。

三、实验结果

3.1 加速比

85a7b326-f3de-11ed-90ce-dac502259ad0.png▲表1:我们的VPGTrans的相比于从头训练在各个数据集的加速比

如表1所示,我们测试了不同迁移类型下,VPGTrans在不同数据集上的加速比。VPGTrans在某指定数据集A上的加速比是通过从头训练达到A上最佳效果a的轮数除以VPGTrans在A上效果超过a的最小训练轮数得到。比如,从头在OPT-2.7B上训练VPG,在COCO caption达到最佳效果需要10个epoch,但从OPT-125M迁移VPG到OPT-2.7B,仅需1个epoch就能达到该最佳效果。则加速比为10/1=10倍。我们可以看到,无论是在TaS还是在TaT场景下,我们的VPGTrans都可以实现稳定的加速。

3.2 有趣的发现

我们选取了一个比较有趣的发现进行了说明,其他更多更有意思的发现请参照我们的论文。

TaS场景下,越小的语言模型上训练的VPG,迁移起来效率越高,最后模型效果越好。参考表1,我们可以发现OPT-1.3B到OPT-2.7B的加速比要远小于OPT-125M、OPT-350M到OPT-2.7b的加速比。我们尝试提供了一个解释:一般越大的语言模型,由于其文本空间的维度更高,会更容易损害VPG(VPG一般都是类似于CLIP的预训练模型)本身的视觉感知能力。我们通过类似于linear probing的方式进行了验证:

85ad25cc-f3de-11ed-90ce-dac502259ad0.png▲图 8:仅训练linear projector层的跨LLM大小迁移 (模拟linear probing)

如图8所示,我们进行了OPT-125M,350M,1.3B,2.7B之间的跨LLM大小的迁移。在实验中,为了公平对比不同模型大小下训练过的VPG的视觉感知能力,我们固定住VPG的参数仅仅训练linear projector层。我们选取了COCO Caption上的SPICE指标作为视觉感知能力的衡量手段。不难发现,对于每一个给定的,几乎都符合越小,最终SPICE越高的一个现象。

3.3 大规模实验

前文实验主要是在小规模场景下验证猜想。为了证明我们的方法的有效性,我们模拟BLIP-2的预训练过程进行了大规模实验:

85b5ad00-f3de-11ed-90ce-dac502259ad0.png▲表2:真实场景下的大规模实验结果

如表2所示,我们的VPGTrans在大规模场景下依然有效。通过OPT-2.7B到OPT-6.7B的迁移,我们仅用10.8%的数据和不到10%的训练时长达到了相似或更优的效果。尤其是,我们的方法在BLIP-2 以FlanT5-XXL为基座LLM下实现了5%左右的训练成本控制

四、定制您的VL-LLMs

我们的VPGTrans可以快速为任意新的LLMs添加视觉感知模块,从而得到一个全新的高质量VL-LLM。在本工作,我们额外训练了一个VL-LLaMA和一个VL-Vicuna。其中VL-LLaMA的效果如下:

85bba5de-f3de-11ed-90ce-dac502259ad0.png▲表3:VL-LLaMA的效果展示

同时,我们的VL-Vicuna可以进行多模态对话。我们和MiniGPT-4进行了简单的比较:

85c35c20-f3de-11ed-90ce-dac502259ad0.jpg85cb2ff4-f3de-11ed-90ce-dac502259ad0.jpg

五、总结

在这项工作中,我们对 VPG 在 LLM 之间的可迁移性问题进行了全面调查。我们首先探讨了最大化迁移效率的关键因素。基于关键观察,我们提出了一种新颖的两阶段迁移框架,即 VPGTrans。它可以在显著降低训练成本的同时,实现相当或更好的性能。通过 VPGTrans,我们实现了从 BLIP-2 OPT 2.7B 到 BLIP-2 OPT 6.7B 的 VPG 迁移。相较于从零开始连接 VPG 到 OPT 6.7B,VPGTrans仅需10.7%训练数据和不到10%的训练时长。此外,我们展示并讨论了一系列有趣发现及其背后的可能原因。最后,我们通过训练VL-LLaMA和LL-Vicuna,展示了我们的 VPGTrans 在定制新的 VL-LLM 方面的实际价值。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    3123

    浏览量

    42061
  • 模型
    +关注

    关注

    1

    文章

    3028

    浏览量

    48338
  • LLM
    LLM
    +关注

    关注

    0

    文章

    247

    浏览量

    278

原文标题:VPGTrans: 10%的成本定制你自己的类GPT-4多模态大模型

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    对比解码LLM上的应用

    为了改进LLM的推理能力,University of California联合Meta AI实验室提出将Contrastive Decoding应用于多种任务的LLM方法。实验表明,所提方法能有效改进LLM的推理能力。让我们走进
    发表于 09-21 11:37 492次阅读
    对比解码<b class='flag-5'>在</b><b class='flag-5'>LLM</b>上的应用

    迁移学习

    的适用范围。No.2 第二天 五、迁移学习前沿方法介绍深度迁移网络结构设计深度迁移学习目标函数设计全新场景下的迁移学习章节目标:掌握深度迁移
    发表于 04-21 15:15

    STM32WB30/35/50/55微控制器之间进行迁移所需的关键步骤

    本文档分析了STM32WB30 / 35/50/55微控制器之间进行迁移所需的关键步骤,即硬件,外围设备可用性,固件,安全性和工具。 帮助熟悉STM32WB30 / 35/50/55微控制器。
    发表于 12-02 07:32

    云计算的迁移性,没那么简单

    实际情况是,迁移应用程序(无论它们是否容器中)都需要大量的计划来处理不同环境的兼容性问题。容器的使用并不能保证企业的容器化应用程序都可以从一个平台迁移到另一个平台。例如,企业不能采用
    发表于 06-06 14:00 862次阅读

    云原生存储实际场景中可以做什么

    随着云原生应用对迁移性、扩展性和动态特性的需求,对云原生存储也带来了相应的密度、速度、混合度的要求,所以对云存储基本能力之上又提出了效率、弹性、自治、稳定、应用低耦合、GuestOS 优化和安全等方面的诉求。
    的头像 发表于 04-04 16:53 2108次阅读
    云原生存储<b class='flag-5'>在</b>实际场景中可以做什么

    云中执行ActiveDirectory迁移

    BinaryTree Power365 for ActiveDirectory具有高度适应性、自动化和可管理性,并且能够迁移过程中使已迁移和未迁移的用户、设备和应用程序保持同步。此外
    的头像 发表于 09-22 10:42 733次阅读

    AN5805 STM32WB10/15/50/55 微控制器之间迁移

    AN5805 STM32WB10/15/50/55 微控制器之间迁移
    发表于 11-24 08:33 0次下载
    AN5805 <b class='flag-5'>在</b> STM32WB10/15/50/55 微控制器<b class='flag-5'>之间</b><b class='flag-5'>迁移</b>

    AN5811 STM32WB10/15/30/35 微控制器之间迁移

    AN5811 STM32WB10/15/30/35 微控制器之间迁移
    发表于 11-24 08:33 0次下载
    AN5811 <b class='flag-5'>在</b> STM32WB10/15/30/35 微控制器<b class='flag-5'>之间</b><b class='flag-5'>迁移</b>

    LLM各种情感分析任务中的表现如何

      最近几年,GPT-3、PaLM和GPT-4等LLM刷爆了各种NLP任务,特别是zero-shot和few-shot方面表现出它们强大的性能。因此,情感分析(SA)领域也必然少不了LLM的影子
    的头像 发表于 05-29 17:24 2027次阅读
    <b class='flag-5'>LLM</b><b class='flag-5'>在</b>各种情感分析任务中的表现如何

    一分钟,自动完成Redis数据迁移

    NineData提供了高效、安全的Redis不停机数据迁移方案。与传统迁移方案相比,NineData具备简单易用、强劲性能和高可靠性的优势。通过优化核心技术,NineData的迁移性能达到了16万个
    的头像 发表于 01-08 11:34 344次阅读
    一分钟,自动完成Redis数据<b class='flag-5'>迁移</b>

    100%树莓派上执行的LLM项目

    ChatGPT的人性口语化回复相信许多人已体验过,也因此掀起一波大型语言模型(Large Language Model, LLM)热潮,LLM即ChatGPT背后的主运作技术,但LLM运作需要庞大运算力,因此目前多是
    的头像 发表于 02-29 16:29 1105次阅读
    100%<b class='flag-5'>在</b>树莓派上执行的<b class='flag-5'>LLM</b>项目

    苹果承诺:2025年秋季iOS与Android数据互换

    该公司已在最新发布的“DMA合规报告非机密摘要”中展示了未来几周将对iOS系统做出的调整,其重心便是提升iOS与其它操作系统之间用户数据的“迁移性”。
    的头像 发表于 03-08 11:06 460次阅读

    什么是LLMLLM的工作原理和结构

    随着人工智能技术的飞速发展,大型语言模型(Large Language Model,简称LLM)逐渐成为自然语言处理(NLP)领域的研究热点。LLM以其强大的文本生成、理解和推理能力,文本
    的头像 发表于 07-02 11:45 4104次阅读

    LLM模型的应用领域

    本文中,我们将深入探讨LLM(Large Language Model,大型语言模型)的应用领域。LLM是一种基于深度学习的人工智能技术,它能够理解和生成自然语言文本。近年来,随着计算能力的提高
    的头像 发表于 07-09 09:52 289次阅读

    LLM模型和LMM模型的区别

    LLM(线性混合模型)和LMM(线性混合效应模型)之间的区别如下: 定义: LLM(线性混合模型)是一种统计模型,用于分析具有固定效应和随机效应的线性数据。它允许研究者考虑数据中的非独立性,例如
    的头像 发表于 07-09 09:57 368次阅读