0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

什么是多模态?多模态的难题是什么?

深度学习自然语言处理 来源:深度学习自然语言处理 2024-01-17 10:03 次阅读

作者:Peter,北京邮电大学 · 计算机

什么是多模态?

如果把LLM比做关在笼子里的AI,那么它和世界交互的方式就是通过“递文字纸条”。文字是人类对世界的表示,存在着信息提炼、损失、冗余、甚至错误(曾经的地心说)。而多模态就像是让AI绕开了人类的中间表示,直接接触世界,从最原始的视觉、声音、空间等开始理解这个世界,改变世界。

好像并没有对多模态的严谨定义。通常见到的多模态是联合建模Language、Vision、Audio。而很多时候拓展到3d, radar, point cloud, structure (e.g. layout, markup language)。

模型经历了从传统单模态模型,到通用单模态,再到通用多模态的一个大致的发展,大致如下图:

ef1c6658-b45e-11ee-8b88-92fbcf53809c.jpg

NN Building Blocks: 相对通用的NN模型组件。

Traditional Single Modality Models: 传统的垂类小模型,通常小于100M~1B参数,只在某个垂直场景上有效。虽然不通用,但是具有一些独特优势:显著的性能和成本优势,常常能够在移动端设备部署,离线可用。在很多场景和大模型组合使用,依然扮演重要角色。

General Single Modality Models: 单模态大模型,通常大于100M~1B参数。具有较强的通用性,比如对图片中任意物体进行分割,或者生成任意内容的图片或声音。极大降低了场景的定制成本。

MLLM:多模态大模型。以LLM为核心(>1B参数),端到端的具备多种模态输入,多种模态输出的大模型。某种程度上看见了AGI的曙光。

MLLM Application: 灵活的结合LLM、MLLM、General/Traditional Single Modality Models等能力形成新的产品形态。

多模态的价值?

文字发展了数千年,似乎已经能精确的表达任意事物,仅凭文字就可以产生智能。数学物理公式、代码等更是从某种程度上远远超越了世界的表象,体现了人类智慧的伟大。

然而,人的一切依然依托于物理世界,包括人本身的物理属性。人们能毫不费力的处理十个小时的视觉信号(比如刷视频、看风景),十年如一日,但是一般人无法长时间的进行文字阅读理解。美丽的风景、优美的旋律能轻易的让大部分感受到愉悦,而复杂的文字或代码则需要更大的精力。

其他的各种人类社会的生产、消费、沟通等都离不开对世界自然信号的直接处理。难以想象这一切如果都需要通过中间的文字转化,才能被接受和反馈。(想象司机通过阅读文字,决定方向和油门)

AGI需要对自然信号的直接处理与反馈。

多模态技术

当前多模态大模型通常都会经过三个步骤:

编码:类比人的眼睛和耳朵,自然信号先要通过特定的器官转换成大脑可以处理的信号。

•把每一个image切成多个patch,然后通过vit, siglip等vision encoder编码成一串vision embedding。考虑到视觉信号的冗余,可以再通过resampler, qformer等结构进行压缩,减少输入。

•或者也可能是通过VAE编码成一个(h, w, c)shape的latent feature。或者是通过VQ编码成类似上文中language“词”的序号(integer),然后通过embedding table lookup转化成embedding。

•对于language而言,通常就是文字的向量化。比如用bpe或者sentencepiece等算法把长序列的文字切成有限个数的“词”,从词表(vocabulary)中找到对应的序号,然后再通过embedding table lookup,把这些“词”转化成模型能理解的embedding。

•vision有一些不同的处理方式,比如:

•audio也需要进行编码,将传统的waveform通过fft处理成mel-spectrum。也有EnCodec或SoundStream等neural encoder可以把audio编码成一系列的token。

处理(思考):完成编码的信号就如同人们大脑接收到的视觉、声音、文字信号。可以通过“思考“的过程后,给出反馈。

•基于diffusion的处理过程是近几年新出现的一类有趣的方法。在vision, audio生成中有卓越的表现。

•基于llm的处理过程似乎更值得期待。llm本身已经具备相当的智能程度,提供了很高的天花板。如果llm能够很好的综合处理多模态信号,或许能接近AGI的目标。

解码:编码的反向过程,把模型内部的表示转化成物理世界的自然信号。就类似人们通过嘴巴说话,或者手绘画。

以下面两个多模态模型为例子:

StableDiffusion:

•编码:image通过VAE encoder变成latent z。

•处理:核心的处理过程在Unet中,通过多步denoise,对z进行去噪。

•解码:z最终通过VAE decoder解码成image。

ef239da6-b45e-11ee-8b88-92fbcf53809c.jpg

stable diffusion

DreamLLM:

•编码:text通过word embedding,而图片通过visual encoder。

•处理:casual llm对编码后的的语言和文字信号进行联合处理,预测需要生成的语言和文字信号。

•解码:将预测结果还原成text和image。

ef2e1754-b45e-11ee-8b88-92fbcf53809c.jpg

DreamLLM

类似的架构还在语音生成的模型结构中出现,比如VALL-E,有对应的semantic, acoustic编码和解码,以及diffusion or llm的处理过程。

ef397f40-b45e-11ee-8b88-92fbcf53809c.jpg

多模态的难题

目前我还有些多模态相关的问题没太想明白。

多模态scaling law

目前Meta, Google有放出一些多模态的实验,比如PALI对于ViT的scaling。但是还缺少一些理论性的支持和疑点。

•ViT在多模态理解中扮演了什么角色,需要如此大的参数规模?这部份参数是否可以转移到LLM上?

•数据scale时,如何分配图片和文字的比例是比较好的实践?

如果做个思想实验:

•一个网页上有500个字,需要800个token表示。

•一个screenshot截图了这个网页,用vision encoder编码后得到400个token。

如果使用LLM分别处理两种输入,能够完成同样的任务。那么似乎就不需要用text作为LLM的输入了。

•对于text, vision, audio信号编码的最佳实践是什么?每类信号需要使用多少的参数量才能无损的压缩原始信号?

从简单主义出发,scaling is all you need。

但是no profit, no scaling。所以还是得回到上面那个问题。

多模态生成的路径

Diffusion在生成上取得了不俗的效果,比如绘画。LLM同样可以完成视觉和音频的生成。

•最终是LLM replace Diffusion, 还是Diffusion as decoder for LLM,还是通过别的方式?

•Diffusion的multi-step denoise是否可以通过llm的multi-layer transformer + iterative sampling来隐式模拟

•或许diffusion就像是convolution,是人们发明的inductive bias,最终会被general learnable method取代。

LLM end2end many2many是否是个伪需求?

•是否有一种无损(或者近似)的信息传递方式,让多个LLM互相协作?

审核编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30072

    浏览量

    268337
  • 大模型
    +关注

    关注

    2

    文章

    2314

    浏览量

    2452
  • LLM
    LLM
    +关注

    关注

    0

    文章

    272

    浏览量

    304

原文标题:聊聊:什么是多模态?有什么价值以及难题

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    lABCIWQmultyWindows模态窗口2010

    lABCIWQmultyWindows模态窗口2010。
    发表于 05-17 17:47 0次下载

    文化场景下的模态情感识别

    自动情感识别是一个非常具有挑战性的课题,并且有着广泛的应用价值.本文探讨了在文化场景下的模态情感识别问题.我们从语音声学和面部表情等模态分别提取了不同的情感特征。包括传统的手工定制
    发表于 12-18 14:47 0次下载

    Transformer模型的模态学习应用

    随着Transformer在视觉中的崛起,Transformer在模态中应用也是合情合理的事情,甚至以后可能会有更多的类似的paper。
    的头像 发表于 03-25 09:29 1w次阅读
    Transformer模型的<b class='flag-5'>多</b><b class='flag-5'>模态</b>学习应用

    模态MR和特征融合的GBM自动分割算法

    模态MR和特征融合的GBM自动分割算法
    发表于 06-27 11:45 32次下载

    基于模态智慧感知决策的S230芯片

    提到模态融合感知, 我们难免会觉得有些困惑 “模态”,可理解为“感官” 模态即将多种感官融合 不够直观? 那今天我们就以一道
    发表于 11-03 11:59 641次阅读

    中文模态对话数据集

    随着大量预训练语言模型在文本对话任务中的出色表现,以及模态的发展,在对话中引入模态信息已经引起了大量学者的关注。目前已经提出了各种各样的
    的头像 发表于 02-22 11:03 1311次阅读
    中文<b class='flag-5'>多</b><b class='flag-5'>模态</b>对话数据集

    VisCPM:迈向多语言模态大模型时代

    随着 GPT-4 和 Stable Diffusion 等模型模态能力的突飞猛进,模态大模型已经成为大模型迈向通用人工智能(AGI)目标的下一个前沿焦点。总体而言,面向图像和文本的
    的头像 发表于 07-10 10:05 687次阅读
    VisCPM:迈向多语言<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型时代

    更强更通用:智源「悟道3.0」Emu模态大模型开源,在模态序列中「补全一切」

    当前学界和工业界都对模态大模型研究热情高涨。去年,谷歌的 Deepmind 发布了模态视觉语言模型 Flamingo ,它使用单一视觉语言模型处理多项任务,在
    的头像 发表于 07-16 20:45 695次阅读
    更强更通用:智源「悟道3.0」Emu<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型开源,在<b class='flag-5'>多</b><b class='flag-5'>模态</b>序列中「补全一切」

    基于Transformer模态先导性工作

    模态(Multimodality)是指在信息处理、传递和表达中涉及多种不同的感知模态或信息来源。这些感知模态可以包括语言、视觉、听觉、触觉等,它们共同作用来传递更丰富、更全面的信息。
    的头像 发表于 08-21 09:49 800次阅读
    基于Transformer<b class='flag-5'>多</b><b class='flag-5'>模态</b>先导性工作

    DreamLLM:多功能模态大型语言模型,你的DreamLLM~

    由于固有的模态缺口,如CLIP语义主要关注模态共享信息,往往忽略了可以增强多模态理解的模态特定知识。因此,这些研究并没有充分认识到模式创造
    的头像 发表于 09-25 17:26 690次阅读
    DreamLLM:多功能<b class='flag-5'>多</b><b class='flag-5'>模态</b>大型语言模型,你的DreamLLM~

    基于视觉的模态触觉感知系统

    传统的模态/多任务触觉感知系统通过集成多种传感单元来达到模态触觉信息的解耦,但其往往导致系统结构的复杂性,以及需要应对来自不同刺激间的干扰。
    发表于 10-18 11:24 828次阅读
    基于视觉的<b class='flag-5'>多</b><b class='flag-5'>模态</b>触觉感知系统

    探究编辑模态大语言模型的可行性

    不同于单模态模型编辑,模态模型编辑需要考虑更多的模态信息。文章出发点依然从单模态模型编辑入手,将单模态
    发表于 11-09 14:53 482次阅读
    探究编辑<b class='flag-5'>多</b><b class='flag-5'>模态</b>大语言模型的可行性

    大模型+模态的3种实现方法

    我们知道,预训练LLM已经取得了诸多惊人的成就, 然而其明显的劣势是不支持其他模态(包括图像、语音、视频模态)的输入和输出,那么如何在预训练LLM的基础上引入跨模态的信息,让其变得更强大、更通用呢?本节将介绍“大模型+
    的头像 发表于 12-13 13:55 1619次阅读
    大模型+<b class='flag-5'>多</b><b class='flag-5'>模态</b>的3种实现方法

    人工智能领域模态的概念和应用场景

    随着人工智能技术的不断发展,模态成为了一个备受关注的研究方向。模态技术旨在将不同类型的数据和信息进行融合,以实现更加准确、高效的人工智能应用。本文将详细介绍
    的头像 发表于 12-15 14:28 9104次阅读

    利用OpenVINO部署Qwen2模态模型

    模态大模型的核心思想是将不同媒体数据(如文本、图像、音频和视频等)进行融合,通过学习不同模态之间的关联,实现更加智能化的信息处理。简单来说,模态
    的头像 发表于 10-18 09:39 296次阅读