0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

多模态GPT:国内发布一款可以在线使用的多模态聊天机器人!

深度学习自然语言处理 来源:深度学习自然语言处理 2023-05-12 09:55 次阅读

使用视觉和语言指令训练一个多模态聊天机器人

基于开源多模态模型OpenFlamingo,作者使用公开数据集创建了各种视觉指令数据,包括视觉问答、图像字幕、视觉推理、文本 OCR 和视觉对话。此外,还使用仅包含语言指令数据的语言模型组件进行了训练。

视觉和语言指令的联合训练有效提高了模型的性能!

具体细节就跟随小编继续往下看看吧~

总结

本文提出一种多模态GPT(视觉、语言),与人类进行多轮对话,同时设计了统一化多模态的指令数据模板

能够遵循的指令类型:生成详细的标题、计算特定的对象、处理一般的询问

基准模型:OpenFlamingo(用LoRA方式训练)

联合训练的数据:1.纯文本数据 2.图像-文本数据

其他的一些多模态GPT模型:GPT-4[1]、Mini-GPT[2]、LLaVA[3]

提到的其他LLM:Vicuna[4]、LLaMA[5]

提到的其他数据集:VQA v2.0、Ok-vqa、GQA、CLEVR、NLVR

1.引言

人类交流/理解世界的方式:视觉、语言等

AI智能助手的作用:根据多种模态的指令,理解人类意图,完成各种任务

之前的方法:将视觉表示与LLM的输入空间对齐,随后利用LLM中的原始自我注意来处理视觉信息

本文的方法:微调Flamingo(开源)

视觉编码器

门限交叉注意力机制

预训练使用“图文对”数据

统一多模态的指令模板

语言数据、语言-视觉数据,进行联合训练

本文目标:在多模态对话任务上,接近人的性能表现

2.统一指令模板

主要是提出了一个统一的训练数据模板,把以下两种数据整合起来,提高模型理解能力

2.1 仅语言的指令模板

d79a4b50-f062-11ed-90ce-dac502259ad0.png

仅包含语言的指令提示模板

{instruction},{input}为输入文本,{response},用于计算损失

使用数据:

Dolly15k数据集

AlpacaGPT4数据集

2.2 视觉-语言的指令模板

d7af6f3a-f062-11ed-90ce-dac502259ad0.png

包含视觉-语言的指令提示模板

其中,{question}是原始文本,是表示图像存在的token,{response}、用于计算损失

使用数据集:

LLaVA

Mini-GPT4

A-OKVQA

COCOcaption(不直接作为训练集,而是用GPT-4转化,再加入训练集)

OCRVQA

上述合成指令使得训练集较为丰富,则模型能够更健壮

图像描述的指令,举例如下:

d7c48348-f062-11ed-90ce-dac502259ad0.png

本文方法

d7dc55ea-f062-11ed-90ce-dac502259ad0.png

模型结构图

基线模型:open-flamingo模型

组成:

视觉编码器:CLIP

感知重采样

语言解码器:LLaMA (自注意力、交叉注意力、FFW中加入LoRA,便于微调)

训练数据:用2.1和2.2两种数据,进行联合训练

训练过程:通过预测文本的下一个标记进行训练,只有{responce}和标记参与损失计算

4.实验

实验设置:

实验参数 取值
GPU A100*8
epoch 1
batch_size 1
LoRA参数更新 每16轮
learningrate 1e-5

Demos展示:

给出一个烤千层面的食谱,并告诉用户在哪里吃到它

d7fc15a6-f062-11ed-90ce-dac502259ad0.png

能够识别埃隆·马斯克的形象,并回答关于埃隆·马斯克的问题

d8337690-f062-11ed-90ce-dac502259ad0.png

我知道照片上有4个女人,也知道她们在做什么

d858884a-f062-11ed-90ce-dac502259ad0.png

认得出电影,也知道电影是由哪个电影公司制作的

d87ee3be-f062-11ed-90ce-dac502259ad0.png

能识别图像中的人物,并认识该书的作者

d8a9a662-f062-11ed-90ce-dac502259ad0.png

可以回答关于用户旅行的一般问题

d8cdcefc-f062-11ed-90ce-dac502259ad0.png

可以为图像生成详细的描述,并有能力推理得到在图像中的季节

d8ec6484-f062-11ed-90ce-dac502259ad0.png

在线网站

感兴趣可以去官方网站[6]去尝试下,真的很棒!点击阅读原文也可直达!

d9263600-f062-11ed-90ce-dac502259ad0.png

缺点是好像只支持英文~

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    3244

    浏览量

    42381
  • 语言模型
    +关注

    关注

    0

    文章

    504

    浏览量

    10245
  • 聊天机器人
    +关注

    关注

    0

    文章

    332

    浏览量

    12294

原文标题:多模态GPT:国内发布一款可以在线使用的多模态聊天机器人!快来把玩~

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    中科创达推动下模态智能机器人创新

    具身智能在业界被普遍认为即将掀起人工智能领域的全新浪潮。人形机器人作为具身智能的绝佳载体,随着模态大模型的迅猛发展,人形机器人的智能化程度将显著提升,进而加速其产业化进程。2024
    的头像 发表于 11-15 11:03 288次阅读

    NLP技术在聊天机器人中的作用

    聊天机器人,也称为聊天AI,是种通过文本或语音与人类进行交流的软件。它们广泛应用于客户服务、在线购物、个人助理等领域。NLP技术是实现聊天机器人
    的头像 发表于 11-11 10:33 320次阅读

    ChatGPT 与传统聊天机器人的比较

    随着人工智能技术的飞速发展,聊天机器人已经成为我们日常生活中不可或缺的部分。从简单的客服助手到复杂的个人助理,这些虚拟助手正在逐渐改变我们与技术的互动方式。在众多聊天机器人中,ChatGPT无疑是
    的头像 发表于 10-25 16:16 411次阅读

    利用OpenVINO部署Qwen2模态模型

    模态大模型的核心思想是将不同媒体数据(如文本、图像、音频和视频等)进行融合,通过学习不同模态之间的关联,实现更加智能化的信息处理。简单来说,模态
    的头像 发表于 10-18 09:39 299次阅读

    云知声推出山海模态大模型

    在人工智能技术的浩瀚星海中,模态交互技术正成为引领未来的新航标。继OpenAI的GPT-4o掀起滔天巨浪后,云知声以创新之姿,推出了其匠心独运的山海
    的头像 发表于 08-27 15:20 362次阅读

    OpenAI发布高性价比小型AI模型GPT-4o mini

    在人工智能领域持续创新的OpenAI,近日推出了其最新力作——“GPT-4o mini”,一款旨在以亲民价格提供强大功能的小型聊天机器人。这款产品的问世,标志着OpenAI在推动人工智能普及与
    的头像 发表于 07-19 15:27 599次阅读

    国内直联使用ChatGPT 4.0 API Key使用和模态GPT4o API调用开发教程!

    1. 前言 ChatGPT-4o API 是 OpenAI 提供的强大工具,可用于自然语言处理和模态任务。在国内直联使用这些服务需要些配置和技巧。本文将详细介绍
    的头像 发表于 06-08 00:33 4445次阅读
    <b class='flag-5'>国内</b>直联使用ChatGPT 4.0 API Key使用和<b class='flag-5'>多</b><b class='flag-5'>模态</b><b class='flag-5'>GPT</b>4o API调用开发教程!

    AI聊天机器人Grok向欧洲X平台Premium会员开放

    社交平台X的首席执行官琳达·亚卡里诺宣布,全新研发的Grok人工智能聊天机器人正式向欧洲的X Premium会员提供服务。Grok是X平台精心打造的一款AI聊天机器人,旨在提升欧洲会员的交流体验。
    的头像 发表于 05-17 09:38 365次阅读

    商汤科技发布5.0模态大模型,综合能力全面对标GPT-4 Turbo

    商汤科技发布5.0模态大模型,综合能力全面对标GPT-4 Turbo 4月23日,商汤科技董事长兼CEO徐立在2024商汤技术交流日上发布
    的头像 发表于 04-24 16:49 1059次阅读

    AI机器人迎来模态模型

    配备 GR00T 模型的机器人由于需要“吸收消化”外界的模态信息,还要快速完成理解、决策、行动等系列动作,因此对于算力的需求是巨量的。
    发表于 04-12 10:39 260次阅读

    英伟达推出全新AI聊天机器人

    近日,英伟达(Nvidia)宣布推出其全新的AI聊天机器人——“Chat With RTX”。这款聊天机器人被视为英伟达版的ChatGPT,为用户提供了个全新的、本地化的AI交互体验。
    的头像 发表于 02-19 11:09 860次阅读

    谷歌AI聊天机器人改名为Gemini

    谷歌(Google)近日宣布,旗下备受瞩目的AI聊天机器人Bard正式更名为Gemini,并推出了一款功能更加强大的付费版本——Gemini Advanced。这战略调整旨在与微软、OpenAI等科技巨头在AI
    的头像 发表于 02-18 11:28 1044次阅读

    机器人基于开源的模态语言视觉大模型

    ByteDance Research 基于开源的模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型,只用单机就可以训练。
    发表于 01-19 11:43 362次阅读
    <b class='flag-5'>机器人</b>基于开源的<b class='flag-5'>多</b><b class='flag-5'>模态</b>语言视觉大模型

    OpenAI将推出GPT Store,供用户销售及分享基于GPT聊天机器人

    为方便用户使用,GPTStore将设置搜索栏,以供快速查找相关的聊天机器人。排行榜则会甄选热门的GPT及受欢迎程度高的开发者作品予以展示。
    的头像 发表于 01-05 10:41 506次阅读

    人工智能领域模态的概念和应用场景

    随着人工智能技术的不断发展,模态成为了个备受关注的研究方向。模态技术旨在将不同类型的数据和信息进行融合,以实现更加准确、高效的人工智能
    的头像 发表于 12-15 14:28 9141次阅读