TextBind：在开放世界中多轮交织的多模态指令跟随-电子发烧友网

TextBind：在开放世界中多轮交织的多模态指令跟随

摘要

拥有指令跟随能力的大型语言模型已经彻底改变了人工智能领域。这些模型通过其自然语言界面展现出卓越的通用性，能够应对各种现实世界任务。

然而，它们的性能在很大程度上依赖于高质量的示例数据，通常难以获得。当涉及到多模态指令跟随时，这一挑战进一步加剧。

我们介绍了TextBind，这是一个几乎无需注释的框架，用于赋予更大型的语言模型多轮交织的多模态指令跟随能力。

我们的方法仅需要图像描述对，并从语言模型生成多轮多模态指令-响应对话。我们发布了我们的数据集、模型和演示，以促进未来在多模态指令跟随领域的研究。

数据

TextBind提供了处理和生成任意交织的图像和文本内容的示例，使语言模型能够在开放世界场景中与用户进行自然互动。

模型

我们的模型包括一个图像编码器、一个图像解码器、一个语言模型，以及连接它们的桥接网络，支持多轮交织的多模态指令跟随。它可以生成并处理任意交织的图像和文本内容。

demo

语言模型能够执行各种任务，包括根据一组图像创作引人入胜的故事，比较多个图像中的共同和不同之处，用生动的图像解释概念，生成带有插图的长篇连贯故事等等。最有趣的是，我们模型的核心创新在于其能够在广泛的真实场景中与用户自然互动。欢迎访问我们的demo[1]。

例子

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

编码器

编码器

+关注

关注
45

文章
3643

浏览量
134513
图像

图像

+关注

关注
2

文章
1084

浏览量
40461
语言模型

语言模型

+关注

关注
0

文章
524

浏览量
10277

原文标题：TextBind：在开放世界中多轮交织的多模态指令跟随

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

交织多址接入系统信道容量证明

交织多址接入系统信道容量证明:交织多址接入系统(IDMA)是使用低速率码并利用交织器区分用户的多

发表于 10-20 17:48 •5次下载

lABCIWQmultyWindows多模态窗口2010

lABCIWQmultyWindows多模态窗口2010。

发表于 05-17 17:47 •0次下载

多文化场景下的多模态情感识别

自动情感识别是一个非常具有挑战性的课题，并且有着广泛的应用价值．本文探讨了在多文化场景下的多模态情感识别问题．我们从语音声学和面部表情等模态

发表于 12-18 14:47 •0次下载

Transformer模型的多模态学习应用

随着Transformer在视觉中的崛起，Transformer在多模态中应用也是合情合理的事情

发表于 03-25 09:29 •1.1w次阅读

Transformer模型的<b class='flag-5'>多</b><b class='flag-5'>模态</b>学习应用

多模态MR和多特征融合的GBM自动分割算法

发表于 06-27 11:45 •32次下载

一个真实闲聊多模态数据集TikTalk

随着大量预训练语言模型在文本对话任务中的出色表现，以及多模态的发展，在对话中引入多

发表于 02-09 09:31 •1851次阅读

中文多模态对话数据集

随着大量预训练语言模型在文本对话任务中的出色表现，以及多模态的发展，在对话中引入多

发表于 02-22 11:03 •1370次阅读

中文<b class='flag-5'>多</b><b class='flag-5'>模态</b>对话数据集

如何利用LLM做多模态任务？

大型语言模型LLM（Large Language Model）具有很强的通用知识理解以及较强的逻辑推理能力，但其只能处理文本数据。虽然已经发布的GPT4具备图片理解能力，但目前还未开放多模态输入接口并且不会透露任何模型上技术细节

发表于 05-11 17:09 •913次阅读

如何利用LLM做<b class='flag-5'>多</b><b class='flag-5'>模态</b>任务？

多模态GPT：国内发布一款可以在线使用的多模态聊天机器人！

基于开源多模态模型 OpenFlamingo，作者使用公开数据集创建了各种视觉指令数据，包括视觉问答、图像字幕、视觉推理、文本 OCR 和视觉对话。此外，还使用仅包含语言指令数据的语言

发表于 05-12 09:55 •1202次阅读

<b class='flag-5'>多</b><b class='flag-5'>模态</b>GPT：国内发布一款可以在线使用的<b class='flag-5'>多</b><b class='flag-5'>模态</b>聊天机器人！

多模态上下文指令调优数据集MIMIC-IT

然而，一个理想的 AI 对话助手应该能够解决涉及多种模态的任务。这需要获得一个多样化和高质量的多模式指令跟随数据集。比如，LLaVAInstruct-150K 数据集（也被称为 LLa

发表于 06-12 16:36 •741次阅读

<b class='flag-5'>多</b><b class='flag-5'>模态</b>上下文<b class='flag-5'>指令</b>调优数据集MIMIC-IT

VisCPM：迈向多语言多模态大模型时代

可以大致分为两类： 1. 在图生文（image-to-text generation）方面，以 GPT-4 为代表的多模态大模型，可以面向图像进行开放域对话和深度推理； 2.

发表于 07-10 10:05 •718次阅读

VisCPM：迈向多语言<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型时代

更强更通用：智源「悟道3.0」Emu多模态大模型开源，在多模态序列中「补全一切」

当前学界和工业界都对多模态大模型研究热情高涨。去年，谷歌的 Deepmind 发布了多模态视觉语言模型 Flamingo ，它使用单一视觉语言模型处理多项任务，

发表于 07-16 20:45 •724次阅读

更强更通用：智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型开源，<b class='flag-5'>在</b><b class='flag-5'>多</b><b class='flag-5'>模态</b>序列<b class='flag-5'>中</b>「补全一切」

基于Transformer多模态先导性工作

多模态（Multimodality）是指在信息处理、传递和表达中涉及多种不同的感知模态或信息来源。这些感知模态可以包括语言、视觉、听觉、触觉

发表于 08-21 09:49 •845次阅读

基于Transformer<b class='flag-5'>多</b><b class='flag-5'>模态</b>先导性工作

基于视觉的多模态触觉感知系统

传统的多模态/多任务触觉感知系统通过集成多种传感单元来达到多模态触觉信息的解耦，但其往往导致系统结构的复杂性，以及需要应对来自不同刺激间的干扰。

发表于 10-18 11:24 •922次阅读

基于视觉的<b class='flag-5'>多</b><b class='flag-5'>模态</b>触觉感知系统

商汤日日新多模态大模型权威评测第一

刚刚，商汤科技日日新SenseNova多模态大模型，在权威综合评测权威平台OpenCompass的多模态评测

发表于 12-20 10:39 •185次阅读

搜索历史