0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Macaw-LLM:具有图像、音频、视频和文本集成的多模态语言建模

Qxwdz168 来源:计算机视觉芯片设计 2023-06-19 10:35 次阅读

文章:https://lnkd.in/gcwEeKE3

Python 代码:https://lnkd.in/ggEK6KwU

9d1cc180-0df2-11ee-962d-dac502259ad0.jpg

尽管指令调整的大型语言模型 (LLM) 在各种 NLP 任务中表现出卓越的能力,但它们在文本以外的其他数据模式上的有效性尚未得到充分研究。在这项工作中,我们提出了 Macaw-LLM,一种新颖的多模式 LLM,它无缝集成了视觉、音频和文本信息

Macaw-LLM 由三个主要组件组成:用于编码多模态数据的模态模块、用于利用预训练 LLM 的认知模块以及用于协调不同表示的对齐模块。

我们新颖的对齐模块将多模态特征无缝地连接到文本特征,简化了从模态模块到认知模块的适应过程。

此外,我们在多轮对话方面构建了一个大规模的多模态指令数据集,包括 69K 图像实例和 50K 视频实例。我们已经公开了我们的数据、代码和模型,我们希望这可以为多模态 LLM 的未来研究铺平道路,并扩展 LLM 处理不同数据模态和解决复杂现实场景的能力。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模块
    +关注

    关注

    7

    文章

    2659

    浏览量

    47298
  • 语言建模
    +关注

    关注

    0

    文章

    5

    浏览量

    6260
  • 语言模型
    +关注

    关注

    0

    文章

    502

    浏览量

    10239
  • LLM
    LLM
    +关注

    关注

    0

    文章

    264

    浏览量

    300

原文标题:Macaw-LLM:具有图像、音频、视频和文本集成的多模态语言建模

文章出处:【微信号:计算机视觉芯片设计,微信公众号:计算机视觉芯片设计】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    自然语言处理的图像文本建模相关研究及分析

    近年来,图像文本建模研究已经成为自然语言处理领域一个重要的硏究方向。图像常被用于增强句子的语义理解与表示。然而也有硏究人员对
    发表于 03-24 11:33 27次下载
    自然<b class='flag-5'>语言</b>处理的<b class='flag-5'>图像</b><b class='flag-5'>文本</b><b class='flag-5'>建模</b>相关研究及分析

    简述文本图像领域的模态学习有关问题

    模型中的几个分支角度,简述文本图像领域的模态学习有关问题。 1. 引言 近年来,计算机视觉和自然语言处理方向均取得了很大进展。而融合二者
    的头像 发表于 08-26 16:29 6742次阅读

    复旦&amp;微软提出​OmniVL:首个统一图像视频文本的基础预训练模型

    根据输入数据和目标下游任务的不同,现有的VLP方法可以大致分为两类:图像-文本预训练和视频-文本预训练。前者从图像-
    的头像 发表于 12-14 15:26 861次阅读

    微软模态ChatGPT的常见测试介绍

    研究者将一个基于 Transformer 的语言模型作为通用接口,并将其与感知模块对接。他们在网页规模的模态语料库上训练模型,语料库包括了文本数据、任意交错的
    发表于 03-13 11:23 799次阅读

    ImageBind:跨模态之王,将6种模态全部绑定!

    最近,很多方法学习与文本音频等对齐的图像特征。这些方法使用单对模态或者最多几种视觉模态。最终嵌入仅限于用于训练的
    的头像 发表于 05-11 09:30 979次阅读
    ImageBind:跨<b class='flag-5'>模态</b>之王,将6种<b class='flag-5'>模态</b>全部绑定!

    如何利用LLM模态任务?

    大型语言模型LLM(Large Language Model)具有很强的通用知识理解以及较强的逻辑推理能力,但其只能处理文本数据。虽然已经发布的GPT4具备图片理解能力,但目前还未开放
    的头像 发表于 05-11 17:09 864次阅读
    如何利用<b class='flag-5'>LLM</b>做<b class='flag-5'>多</b><b class='flag-5'>模态</b>任务?

    邱锡鹏团队提出SpeechGPT:具有内生跨模态能力的大语言模型

    虽然现有的级联方法或口语语言模型能够感知和生成语音,但仍存在一些限制。首先,在级联模型中,LLM 仅充当内容生成器。由于语音和文本的表示没有对齐,LLM 的知识无法迁移到语音
    的头像 发表于 05-22 10:19 640次阅读
    邱锡鹏团队提出SpeechGPT:<b class='flag-5'>具有</b>内生跨<b class='flag-5'>模态</b>能力的大<b class='flag-5'>语言</b>模型

    邱锡鹏团队提出具有内生跨模态能力的SpeechGPT,为模态LLM指明方向

    大型语言模型(LLM)在各种自然语言处理任务上表现出惊人的能力。与此同时,模态大型语言模型,如
    的头像 发表于 05-22 14:38 631次阅读
    邱锡鹏团队提出<b class='flag-5'>具有</b>内生跨<b class='flag-5'>模态</b>能力的SpeechGPT,为<b class='flag-5'>多</b><b class='flag-5'>模态</b><b class='flag-5'>LLM</b>指明方向

    基于实体和动作时空建模视频文本预训练

    摘要 尽管常见的大规模视频-文本预训练模型已经在很多下游任务取得不错的效果,现有的模型通常将视频或者文本视为一个整体建模
    的头像 发表于 05-25 11:29 717次阅读
    基于实体和动作时空<b class='flag-5'>建模</b>的<b class='flag-5'>视频</b><b class='flag-5'>文本</b>预训练

    图像对齐所有模态,Meta开源感官AI基础模型,实现大一统

    最近,很多方法学习与文本音频等对齐的图像特征。这些方法使用单对模态或者最多几种视觉模态。最终嵌入仅限于用于训练的
    的头像 发表于 05-26 15:45 825次阅读
    用<b class='flag-5'>图像</b>对齐所有<b class='flag-5'>模态</b>,Meta开源<b class='flag-5'>多</b>感官AI基础模型,实现大一统

    VisCPM:迈向多语言模态大模型时代

    随着 GPT-4 和 Stable Diffusion 等模型模态能力的突飞猛进,模态大模型已经成为大模型迈向通用人工智能(AGI)目标的下一个前沿焦点。总体而言,面向
    的头像 发表于 07-10 10:05 679次阅读
    VisCPM:迈向多<b class='flag-5'>语言</b><b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型时代

    大模型+模态的3种实现方法

    我们知道,预训练LLM已经取得了诸多惊人的成就, 然而其明显的劣势是不支持其他模态(包括图像、语音、视频模态)的输入和输出,那么如何在预训练
    的头像 发表于 12-13 13:55 1593次阅读
    大模型+<b class='flag-5'>多</b><b class='flag-5'>模态</b>的3种实现方法

    自动驾驶和模态语言模型的发展历程

    模态语言模型(MLLM) 最近引起了广泛的关注,其将 LLM 的推理能力与图像视频
    发表于 12-28 11:45 487次阅读
    自动驾驶和<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>语言</b>模型的发展历程

    韩国Kakao宣布开发模态语言模型“蜜蜂”

    韩国互联网巨头Kakao最近宣布开发了一种名为“蜜蜂”(Honeybee)的模态大型语言模型。这种创新模型能够同时理解和处理图像和文本数据
    的头像 发表于 01-19 16:11 623次阅读

    利用OpenVINO部署Qwen2模态模型

    模态大模型的核心思想是将不同媒体数据(如文本图像音频视频等)进行融合,通过学习不同
    的头像 发表于 10-18 09:39 270次阅读