0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

TextBind:在开放世界中多轮交织的多模态指令跟随

深度学习自然语言处理 来源:深度学习自然语言处理 2023-09-19 16:53 次阅读

摘要

拥有指令跟随能力的大型语言模型已经彻底改变了人工智能领域。这些模型通过其自然语言界面展现出卓越的通用性,能够应对各种现实世界任务。

然而,它们的性能在很大程度上依赖于高质量的示例数据,通常难以获得。当涉及到多模态指令跟随时,这一挑战进一步加剧。

我们介绍了TextBind,这是一个几乎无需注释的框架,用于赋予更大型的语言模型多轮交织的多模态指令跟随能力。

我们的方法仅需要图像描述对,并从语言模型生成多轮多模态指令-响应对话。我们发布了我们的数据集、模型和演示,以促进未来在多模态指令跟随领域的研究。

数据

TextBind提供了处理和生成任意交织的图像和文本内容的示例,使语言模型能够在开放世界场景中与用户进行自然互动。

388a482c-56c3-11ee-939d-92fbcf53809c.png

38abc77c-56c3-11ee-939d-92fbcf53809c.png

模型

我们的模型包括一个图像编码器、一个图像解码器、一个语言模型,以及连接它们的桥接网络,支持多轮交织的多模态指令跟随。它可以生成并处理任意交织的图像和文本内容。

38bbbf56-56c3-11ee-939d-92fbcf53809c.png

demo

语言模型能够执行各种任务,包括根据一组图像创作引人入胜的故事,比较多个图像中的共同和不同之处,用生动的图像解释概念,生成带有插图的长篇连贯故事等等。最有趣的是,我们模型的核心创新在于其能够在广泛的真实场景中与用户自然互动。欢迎访问我们的demo[1]。

38d54c96-56c3-11ee-939d-92fbcf53809c.png

例子

39000292-56c3-11ee-939d-92fbcf53809c.png

391420a6-56c3-11ee-939d-92fbcf53809c.png

392f0fd8-56c3-11ee-939d-92fbcf53809c.png


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    3643

    浏览量

    134513
  • 图像
    +关注

    关注

    2

    文章

    1084

    浏览量

    40461
  • 语言模型
    +关注

    关注

    0

    文章

    524

    浏览量

    10277

原文标题:TextBind:在开放世界中多轮交织的多模态指令跟随

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    交织址接入系统信道容量证明

    交织址接入系统信道容量证明:交织址接入系统(IDMA)是使用低速率码并利用交织器区分用户的
    发表于 10-20 17:48 5次下载

    lABCIWQmultyWindows模态窗口2010

    lABCIWQmultyWindows模态窗口2010。
    发表于 05-17 17:47 0次下载

    文化场景下的模态情感识别

    自动情感识别是一个非常具有挑战性的课题,并且有着广泛的应用价值.本文探讨了文化场景下的模态情感识别问题.我们从语音声学和面部表情等模态
    发表于 12-18 14:47 0次下载

    Transformer模型的模态学习应用

    随着Transformer视觉的崛起,Transformer模态应用也是合情合理的事情
    的头像 发表于 03-25 09:29 1.1w次阅读
    Transformer模型的<b class='flag-5'>多</b><b class='flag-5'>模态</b>学习应用

    模态MR和特征融合的GBM自动分割算法

    模态MR和特征融合的GBM自动分割算法
    发表于 06-27 11:45 32次下载

    一个真实闲聊模态数据集TikTalk

    随着大量预训练语言模型文本对话任务的出色表现,以及模态的发展,在对话引入
    的头像 发表于 02-09 09:31 1851次阅读

    中文模态对话数据集

    随着大量预训练语言模型文本对话任务的出色表现,以及模态的发展,在对话引入
    的头像 发表于 02-22 11:03 1370次阅读
    中文<b class='flag-5'>多</b><b class='flag-5'>模态</b>对话数据集

    如何利用LLM做模态任务?

    大型语言模型LLM(Large Language Model)具有很强的通用知识理解以及较强的逻辑推理能力,但其只能处理文本数据。虽然已经发布的GPT4具备图片理解能力,但目前还未开放模态输入接口并且不会透露任何模型上技术细节
    的头像 发表于 05-11 17:09 913次阅读
    如何利用LLM做<b class='flag-5'>多</b><b class='flag-5'>模态</b>任务?

    模态GPT:国内发布一款可以在线使用的模态聊天机器人!

    基于开源模态模型 OpenFlamingo,作者使用公开数据集创建了各种视觉指令数据,包括视觉问答、图像字幕、视觉推理、文本 OCR 和视觉对话。此外,还使用仅包含语言指令数据的语言
    的头像 发表于 05-12 09:55 1202次阅读
    <b class='flag-5'>多</b><b class='flag-5'>模态</b>GPT:国内发布一款可以在线使用的<b class='flag-5'>多</b><b class='flag-5'>模态</b>聊天机器人!

    模态上下文指令调优数据集MIMIC-IT

    然而,一个理想的 AI 对话助手应该能够解决涉及多种模态的任务。这需要获得一个多样化和高质量的模式指令跟随数据集。比如,LLaVAInstruct-150K 数据集(也被称为 LLa
    的头像 发表于 06-12 16:36 741次阅读
    <b class='flag-5'>多</b><b class='flag-5'>模态</b>上下文<b class='flag-5'>指令</b>调优数据集MIMIC-IT

    VisCPM:迈向多语言模态大模型时代

    可以大致分为两类: 1. 图生文(image-to-text generation)方面,以 GPT-4 为代表的模态大模型,可以面向图像进行开放域对话和深度推理; 2.
    的头像 发表于 07-10 10:05 718次阅读
    VisCPM:迈向多语言<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型时代

    更强更通用:智源「悟道3.0」Emu模态大模型开源,模态序列「补全一切」

    当前学界和工业界都对模态大模型研究热情高涨。去年,谷歌的 Deepmind 发布了模态视觉语言模型 Flamingo ,它使用单一视觉语言模型处理多项任务,
    的头像 发表于 07-16 20:45 724次阅读
    更强更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型开源,<b class='flag-5'>在</b><b class='flag-5'>多</b><b class='flag-5'>模态</b>序列<b class='flag-5'>中</b>「补全一切」

    基于Transformer模态先导性工作

    模态(Multimodality)是指在信息处理、传递和表达涉及多种不同的感知模态或信息来源。这些感知模态可以包括语言、视觉、听觉、触觉
    的头像 发表于 08-21 09:49 845次阅读
    基于Transformer<b class='flag-5'>多</b><b class='flag-5'>模态</b>先导性工作

    基于视觉的模态触觉感知系统

    传统的模态/多任务触觉感知系统通过集成多种传感单元来达到模态触觉信息的解耦,但其往往导致系统结构的复杂性,以及需要应对来自不同刺激间的干扰。
    发表于 10-18 11:24 922次阅读
    基于视觉的<b class='flag-5'>多</b><b class='flag-5'>模态</b>触觉感知系统

    商汤日日新模态大模型权威评测第一

    刚刚,商汤科技日日新SenseNova模态大模型,权威综合评测权威平台OpenCompass的模态评测
    的头像 发表于 12-20 10:39 185次阅读