多模态GPT：国内发布一款可以在线使用的多模态聊天机器人！-电子发烧友网

使用视觉和语言指令训练一个多模态聊天机器人！

基于开源多模态模型OpenFlamingo，作者使用公开数据集创建了各种视觉指令数据，包括视觉问答、图像字幕、视觉推理、文本 OCR 和视觉对话。此外，还使用仅包含语言指令数据的语言模型组件进行了训练。

视觉和语言指令的联合训练有效提高了模型的性能！

具体细节就跟随小编继续往下看看吧~

总结

本文提出一种多模态GPT（视觉、语言），与人类进行多轮对话，同时设计了统一化多模态的指令数据模板

能够遵循的指令类型：生成详细的标题、计算特定的对象、处理一般的询问

基准模型：OpenFlamingo（用LoRA方式训练）

联合训练的数据：1.纯文本数据 2.图像-文本数据

其他的一些多模态GPT模型：GPT-4[1]、Mini-GPT[2]、LLaVA[3]

提到的其他LLM：Vicuna[4]、LLaMA[5]

提到的其他数据集：VQA v2.0、Ok-vqa、GQA、CLEVR、NLVR

1.引言

人类交流/理解世界的方式：视觉、语言等

AI 智能助手的作用：根据多种模态的指令，理解人类意图，完成各种任务

之前的方法：将视觉表示与LLM的输入空间对齐，随后利用LLM中的原始自我注意来处理视觉信息

本文的方法：微调Flamingo（开源）

视觉编码器

门限交叉注意力机制

预训练使用“图文对”数据

统一多模态的指令模板

语言数据、语言-视觉数据，进行联合训练

本文目标：在多模态对话任务上，接近人的性能表现

2.统一指令模板

主要是提出了一个统一的训练数据模板，把以下两种数据整合起来，提高模型理解能力

2.1 仅语言的指令模板

仅包含语言的指令提示模板

{instruction},{input}为输入文本，{response}，用于计算损失

使用数据：

Dolly15k数据集

AlpacaGPT4数据集

2.2 视觉-语言的指令模板

包含视觉-语言的指令提示模板

其中，{question}是原始文本，是表示图像存在的token，{response}、用于计算损失

使用数据集：

LLaVA

Mini-GPT4

A-OKVQA

COCOcaption（不直接作为训练集，而是用GPT-4转化，再加入训练集）

OCRVQA

上述合成指令使得训练集较为丰富，则模型能够更健壮

图像描述的指令，举例如下：

本文方法

模型结构图

基线模型：open-flamingo模型

组成：

视觉编码器：CLIP

感知重采样

语言解码器：LLaMA （自注意力、交叉注意力、FFW中加入LoRA，便于微调）

训练数据：用2.1和2.2两种数据，进行联合训练

训练过程：通过预测文本的下一个标记进行训练，只有{responce}和标记参与损失计算

4.实验

实验设置：

实验参数	取值
GPU	A100*8
epoch	1
batch_size	1
LoRA参数更新	每16轮
learningrate	1e-5

Demos展示：

给出一个烤千层面的食谱，并告诉用户在哪里吃到它

能够识别埃隆·马斯克的形象，并回答关于埃隆·马斯克的问题

我知道照片上有4个女人，也知道她们在做什么

认得出电影，也知道电影是由哪个电影公司制作的

能识别图像中的人物，并认识该书的作者

可以回答关于用户旅行的一般问题

可以为图像生成详细的描述，并有能力推理得到在图像中的季节

在线网站

感兴趣可以去官方网站[6]去尝试下，真的很棒！点击阅读原文也可直达！

缺点是好像只支持英文~

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

开源

开源

+关注

关注
3

文章
3342

浏览量
42491
语言模型

语言模型

+关注

关注
0

文章
523

浏览量
10277
聊天机器人

聊天机器人

+关注

关注
0

文章
339

浏览量
12311

原文标题：多模态GPT：国内发布一款可以在线使用的多模态聊天机器人！快来把玩~

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

商汤日日新多模态大模型权威评测第一

刚刚，商汤科技日日新SenseNova多模态大模型，在权威综合评测权威平台OpenCompass的多模态评测中取得榜单第一。

发表于 12-20 10:39 •178次阅读

中科创达推动下一代多模态智能机器人创新

具身智能在业界被普遍认为即将掀起人工智能领域的全新浪潮。人形机器人作为具身智能的绝佳载体，随着多模态大模型的迅猛发展，人形机器人的智能化程度将显著提升，进而加速其产业化进程。2024

发表于 11-15 11:03 •379次阅读

NLP技术在聊天机器人中的作用

聊天机器人，也称为聊天AI，是一种通过文本或语音与人类进行交流的软件。它们广泛应用于客户服务、在线购物、个人助理等领域。NLP技术是实现聊天机器人

发表于 11-11 10:33 •437次阅读

ChatGPT 与传统聊天机器人的比较

随着人工智能技术的飞速发展，聊天机器人已经成为我们日常生活中不可或缺的一部分。从简单的客服助手到复杂的个人助理，这些虚拟助手正在逐渐改变我们与技术的互动方式。在众多聊天机器人中，ChatGPT无疑是

发表于 10-25 16:16 •555次阅读

利用OpenVINO部署Qwen2多模态模型

多模态大模型的核心思想是将不同媒体数据（如文本、图像、音频和视频等）进行融合，通过学习不同模态之间的关联，实现更加智能化的信息处理。简单来说，多模态

发表于 10-18 09:39 •435次阅读

云知声推出山海多模态大模型

在人工智能技术的浩瀚星海中，多模态交互技术正成为引领未来的新航标。继OpenAI的GPT-4o掀起滔天巨浪后，云知声以创新之姿，推出了其匠心独运的山海多

发表于 08-27 15:20 •393次阅读

OpenAI发布高性价比小型AI模型GPT-4o mini

在人工智能领域持续创新的OpenAI，近日推出了其最新力作——“GPT-4o mini”，一款旨在以亲民价格提供强大功能的小型聊天机器人。这款产品的问世，标志着OpenAI在推动人工智能普及与

发表于 07-19 15:27 •645次阅读

国内直联使用ChatGPT 4.0 API Key使用和多模态GPT4o API调用开发教程！

1. 前言 ChatGPT-4o API 是 OpenAI 提供的强大工具，可用于自然语言处理和多模态任务。在国内直联使用这些服务需要一些配置和技巧。本文将详细介绍

发表于 06-08 00:33 •4956次阅读

AI聊天机器人Grok向欧洲X平台Premium会员开放

社交平台X的首席执行官琳达·亚卡里诺宣布，全新研发的Grok人工智能聊天机器人正式向欧洲的X Premium会员提供服务。Grok是X平台精心打造的一款AI聊天机器人，旨在提升欧洲会员的交流体验。

发表于 05-17 09:38 •416次阅读

商汤科技发布5.0多模态大模型，综合能力全面对标GPT-4 Turbo

商汤科技发布5.0多模态大模型，综合能力全面对标GPT-4 Turbo 4月23日，商汤科技董事长兼CEO徐立在2024商汤技术交流日上发布

发表于 04-24 16:49 •1108次阅读

AI机器人迎来多模态模型

配备 GR00T 模型的机器人由于需要“吸收消化”外界的多模态信息，还要快速完成理解、决策、行动等一系列动作，因此对于算力的需求是巨量的。

发表于 04-12 10:39 •281次阅读

英伟达推出全新AI聊天机器人

近日，英伟达（Nvidia）宣布推出其全新的AI聊天机器人——“Chat With RTX”。这款聊天机器人被视为英伟达版的ChatGPT，为用户提供了一个全新的、本地化的AI交互体验。

发表于 02-19 11:09 •922次阅读

谷歌AI聊天机器人改名为Gemini

谷歌(Google)近日宣布，旗下备受瞩目的AI聊天机器人Bard正式更名为Gemini，并推出了一款功能更加强大的付费版本——Gemini Advanced。这一战略调整旨在与微软、OpenAI等科技巨头在AI

发表于 02-18 11:28 •1104次阅读

机器人基于开源的多模态语言视觉大模型

ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型，只用单机就可以训练。

发表于 01-19 11:43 •419次阅读

OpenAI将推出GPT Store，供用户销售及分享基于GPT的聊天机器人

为方便用户使用，GPTStore将设置搜索栏，以供快速查找相关的聊天机器人。排行榜则会甄选热门的GPT及受欢迎程度高的开发者作品予以展示。

发表于 01-05 10:41 •547次阅读

搜索历史

多模态GPT：国内发布一款可以在线使用的多模态聊天机器人！

评论

商汤日日新多模态大模型权威评测第一

中科创达推动下一代多模态智能机器人创新

NLP技术在聊天机器人中的作用

ChatGPT 与传统聊天机器人的比较

利用OpenVINO部署Qwen2多模态模型

云知声推出山海多模态大模型

OpenAI发布高性价比小型AI模型GPT-4o mini

国内直联使用ChatGPT 4.0 API Key使用和多模态GPT4o API调用开发教程！

AI聊天机器人Grok向欧洲X平台Premium会员开放

商汤科技发布5.0多模态大模型，综合能力全面对标GPT-4 Turbo

AI机器人迎来多模态模型

英伟达推出全新AI聊天机器人

谷歌AI聊天机器人改名为Gemini

机器人基于开源的多模态语言视觉大模型

OpenAI将推出GPT Store，供用户销售及分享基于GPT的聊天机器人