0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GPT-4 的模型结构和训练方法

深度学习自然语言处理 来源:深度学习自然语言处理 2023-05-22 15:21 次阅读

在 GPT-4 的发布报道上,GPT-4 的多模态能力让人印象深刻,它可以理解图片内容给出图片描述,甚至能在图片内容的基础上理解其中的隐喻或推断下一时刻的发展无疑,面向所谓的 AGI(通用人工智能),多模态显然是必经之路。但是遗憾 GPT-4 的图片输入能力尚且没有完全放开,而即使放开我们对 GPT-4 的模型结构和训练方法也知之甚少。

而最近,中科院自动化所带来了一项有趣的工作,推出了多模态的大规模语言模型 X-LLM,同时支持图片、语音以及视频等多种模态信息作为大模型的输入,并且展现了类似于 GPT-4 的表现。比如当输入图像时,X-LLM 可以识别图像位置、理解图像中的食物。当输入视频时,X-LLM 也可以总结视频内容,检索电影片段的电影名称,基于视频内容结合图像回答问题等等。以论文中的一张图片为例,当用户希望 X-LLM 介绍输入的图片时,X-LLM 准确的理解了图片相关于游戏王者荣耀,并且给出了一定的介绍。

从性能来看,作者团队使用了 30 张模型未见过的图像,每张图像都与相关于对话、详细描述以及推理三类的问题,从而形成了 90 个指令-图像对以测试 X-LLM 与 GPT-4 的表现。可以看到,通过使用 ChatGPT 从 1 到 10 为模型回复进行评分,与 GPT-4 相比 X-LLM 取得了 84.5% 的相对分数,表明了模型在多模态的环境中是有效的

960f3906-f70c-11ed-90ce-dac502259ad0.png

除此之外,这篇工作也开源了相关的代码和一个简洁高质量的中文多模态指令数据集,帮助后续工作使用 X-LLM 的框架进行研究,

在进入论文之前,首先来想想一个问题,GPT-4 是如何获得其强大的多模态能力的呢?论文作者给出了一个假设:“GPT-4 的多模态能力来源于其更先进,更大的语音模型,即 GPT-4 是用语言的形式表达出了其他模态的内容”

这个假设也就是讲,需要将多模态的数据“对齐”到语言数据之中,然后再投入大模型以获得多模态能力,在这个假设的基础上,作者提出了 X2L 接口,其中 X 意味着多模态数据,而 L 则表示语言,X2L 接口即将多个单模态编码器与一个大规模语言模型(LLM)进行对齐。其中,图像接口 I2L 采用 BLIP-2 中的 Q-Former,视频接口 V2L 复用图像接口的参数,但是考虑了编码后的视频特征,语言接口 S2L 采用 CIF 与 Transformer 结构将语音转换为语言。整个 X-LLM 的训练包含三个阶段,分别是(1)转换多模态信息;(2)将 X2L 对齐到 LLM;(3)将多模态数据整合到 LLM 中。

96193f0a-f70c-11ed-90ce-dac502259ad0.png

具体而言,多模态信息转换的三个接口设计如下:

图像接口:图像接口由 Q-Formers 和 I-Adapter 模块组成。Q-Formers的目标是将图像转换为语言,将从图像编码器获得的图像特征转换为长度为 L 的准语言嵌入的序列。I-Adapter 模块旨在对齐准语言嵌入的维数和 LLM 的嵌入维数;

视频接口:视频接口与图像接口采用相同的结构,并且均匀采样使用 T 帧表示每个视频,再将每帧视频视为图像,构建长度为 T x L 的准语言嵌入序列;

语言接口:语音接口由两部分组成,即 C-Former 和 S-Adaptor。C-Former 是 CIF 模块和 12 层 Transformer 模块的组合。CIF 模块通过变长下采样将语音编码器的语音特征序列压缩为相同长度的令牌级语音嵌入序列,而 Transformer 结构为令牌级语音嵌入提供了更强的上下文建模。S-Adaptor 用于将 Transformer 结构的输出投影到 LLM 的输入向量空间,从而进一步缩小了语音与语言之间的差距。

而在第二阶段,Q-Former 的参数来源于 BLIP2 中的 Q-Former 的参数。为了使得 Q-Former 适应中文 LLM,作者们使用了一个总共包括约 1400 万个中文图片-文本对的数据集进行训练,并使用图片中训练好的接口初始化视频中的 Q-Former 和 V-Adapter,最后,使用 ASR 数据训练语音接口,使语音界面的输出与 LLM 对齐。在整个过程中,Encoder 部分与 LLM 部分都不参与训练,只有接口部分进行训练

而最后第三阶段,论文使用多模态联合训练增强 X-LLM 的多模态能力,但是可以看到,在没有进行联合训练时,X-LLM 已经具有了识别多模态的能力,这种能力很有可能是来自于 LLM。而为了进行联合训练,作者构建了一个多模态指令数据集对接口进行微调,包含(1) 图像-文本指令数据,(2)语音-文本指令数据,(3) 视频-文本指令数据以及 (4) 图像-文本-语音指令数据。整个数据集主要来源于 MiniGPT-4(图像,3.5k)、AISHELL-2(语音,2k)以及 ActivityNet(视频,1k)。

9622e208-f70c-11ed-90ce-dac502259ad0.png

而在实验方面,论文作者开发了一个聊天界面,用以与其他开源的多模态大规模语言模型( LLaVA 与 MiniGPT-4)做对比,整体而言,X-LLM 具备了相当不错的阅读和理解图片的能力,并且可以更好的捕捉其中具有“中国特色”的预料,如下图问答所示,当输入天安门的图片时,X-LLM 准确的识别出了它是北京的故宫,并且给出了一些历史的介绍,而相应 LLaVA 与 MiniGPT-4 仅仅识别出来了中国的宫殿和旗帜,但是并没有提到 Forbidden City。

同时,X-LLM 也能准确的识别和理解语音信息,这里的“详细描述一下这个“照片”是以语音形式进行的输入,可以看到 X-LLM 也能给出相当不错的回答,并且可以进行延申交流。

此外,在视频问答方面,X-LLM 也表现得相当不错,对于输入的水母游动的视频,X-LLM 可以颇为准确的为视频做出标题,并配以文字

对于敏感信息,X-LLM 也能做到识别

除了 X-LLM 这样一个将大规模语音模型向多模态方向扎实推进了一步的框架外,作者也意外的发现,在英文数据集上训练的 Q-former 的参数可以转移到其他语言(汉语),并仍然保持有效性。这种语言的可传递性极大地增加了使用英语图像文本数据和其训练的模型参数平移到其他语言中的可能性,并提高了在其他语言中训练多模态 LLM 的效率。

透过这篇工作,或许我们可以一窥多模态大模型光明的未来,回到开头,多模型必然是 AGI 的必经之路,那么以语言为基准统一多模态可不可以实现呢?那就要看跟随这篇工作出现的未来了吧!

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6867

    浏览量

    88799
  • 模型
    +关注

    关注

    1

    文章

    3158

    浏览量

    48700
  • 语言模型
    +关注

    关注

    0

    文章

    502

    浏览量

    10244

原文标题:中科院发布多模态 ChatGPT,图片、语言、视频都可以 Chat ?中文多模态大模型力作

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    ChatGPT升级 OpenAI史上最强大模型GPT-4发布

    是 Generative Pre-trained Transformer 4 的缩写,即生成型预训练变换模型 4,是一个多模态大型语言模型
    的头像 发表于 03-15 18:15 2766次阅读

    GPT-4多模态模型发布,对ChatGPT的升级和断崖式领先

    而且 GPT-4 是多模态的,同时支持文本和图像输入功能。此外,GPT-4 比以前的版本“更大”,这意味着其已经在更多的数据上进行了训练,并且在模型文件中有更多的权重,这也使得它的运行
    的头像 发表于 03-17 10:31 3377次阅读

    GPT-4是这样搞电机的

    GPT-4写电机基础程序没问题
    的头像 发表于 04-17 09:41 975次阅读
    <b class='flag-5'>GPT-4</b>是这样搞电机的

    最新、最强大的模型GPT-4将向美国政府机构开放

    最新、最强大的模型GPT-4将向美国政府机构开放 此前微软已向其商业客户提供了OpenAI模型,现在微软宣布将向azure government云计算客户开放openai的人工智能模型
    的头像 发表于 06-08 20:15 1475次阅读

    人工通用智能的火花:GPT-4的早期实验

    ],是使用前所未有 的计算和数据规模训练出来的。在本文中,我们报告了我们对GPT-4早期版本的调查,当时它还在OpenAI 的积极开发中。我们认为,(这个早期版本的)GPT-4是新一批LLM的一部分(例如,与ChatGPT和谷歌
    发表于 06-20 15:49 1次下载

    GPT-4已经会自己设计芯片了吗?

      GPT-4已经会自己设计芯片了!芯片设计行业的一个老大难问题HDL,已经被GPT-4顺利解决。并且,它设计的130nm芯片,已经成功流片。 GPT-4,已经可以帮人类造芯片了! 只用简单的英语
    的头像 发表于 06-20 11:51 937次阅读
    <b class='flag-5'>GPT-4</b>已经会自己设计芯片了吗?

    GPT-4催生的接口IP市场空间

    。陆奇称由GPT-4开启的新时代在高速地进行,速度越来越快。他将这种引起社会、产业发生的结构性改变称之为新范式。 从本质上看,以GPT-4为代表的新范式是基于数据中心发展起来的新兴AI应用,可以通过大量的数据
    的头像 发表于 07-03 14:17 827次阅读

    爆了!GPT-4模型架构、训练成本、数据集信息都被扒出来了

    文章称,他们从许多来源收集了大量有关 GPT-4 的信息,包括模型架构、训练基础设施、推理基础设施、参数量、训练数据集组成、token 量、层数、并行策略、多模态视觉适应、不同工程权衡
    的头像 发表于 07-12 14:16 776次阅读
    爆了!<b class='flag-5'>GPT-4</b><b class='flag-5'>模型</b>架构、<b class='flag-5'>训练</b>成本、数据集信息都被扒出来了

    OpenAI宣布GPT-4 API全面开放使用!

    OpenAI 在博客文章中写道:“自 3 月份以来,数百万开发者请求访问 GPT-4 API,并且利用 GPT-4 的创新产品范围每天都在增长。” “我们设想基于对话的模型未来可以支持任何用例。”
    的头像 发表于 07-12 14:55 1236次阅读

    GPT-3.5 vs GPT-4:ChatGPT Plus 值得订阅费吗 国内怎么付费?

    每月20美元)更智能、更准确。 OpenAI将GPT-4描述为“比其前身GPT-3.5先进10倍”。 自从OpenAI的大语言模型(LLM)GPT-4发布以来,我一直在使用它的最新版本
    的头像 发表于 08-02 12:09 4161次阅读
    <b class='flag-5'>GPT</b>-3.5 vs <b class='flag-5'>GPT-4</b>:ChatGPT Plus 值得订阅费吗 国内怎么付费?

    GPT-4没有推理能力吗?

    今年三月,OpenAI 重磅发布了 GPT-4模型,带来了比 ChatGPT 背后 GPT-3.5 更强的推理、计算、逻辑能力,也引发了全民使用的热潮。在各行各领域研究人员、开发者、设计师的使用过程中,「
    的头像 发表于 08-11 14:20 869次阅读
    <b class='flag-5'>GPT-4</b>没有推理能力吗?

    OpenAI最新大模型曝光!剑指多模态,GPT-4之后最大升级!

    目前为止,OpenAI还没有对爆料中的传闻做出回应,但此前发布过多模态模型测试。CEO奥特曼在回应有关GPT-5的传闻时,也暗示过GPT-4“正在增强”。
    的头像 发表于 09-20 17:34 1187次阅读
    OpenAI最新大<b class='flag-5'>模型</b>曝光!剑指多模态,<b class='flag-5'>GPT-4</b>之后最大升级!

    ChatGPT plus有什么功能?OpenAI 发布 GPT-4 Turbo 目前我们所知道的功能

    OpenAI 发布 GPT-4 Turbo 目前我们所知道的功能分析解答 在最近的OpenAI DevDay上,该组织发布了一项备受期待的公告:推出GPT-4 Turbo,这是对其突破性AI模型
    的头像 发表于 12-13 09:19 1059次阅读
    ChatGPT plus有什么功能?OpenAI 发布 <b class='flag-5'>GPT-4</b> Turbo 目前我们所知道的功能

    微软Copilot全面更新为OpenAI的GPT-4 Turbo模型

    起初,Copilot作为Bing Chat AI助手推出,初期采用GPT-3.5模型,随后升级至GPT-4取得显著进步,如今再次更新至性能卓越的GPT-4 Turbo
    的头像 发表于 03-13 13:42 673次阅读

    ai大模型训练方法有哪些?

    AI大模型训练方法是一个复杂且不断发展的领域。以下是ai大模型训练方法: 数据预处理和增强 数据清洗:去除噪声和不完整的数据。 数据标准化:将数据缩放到统一的范围。 数据增强:通过旋转
    的头像 发表于 07-16 10:11 1332次阅读