0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何使用多模态信息做prompt

深度学习自然语言处理 来源:夕小瑶的卖萌屋 作者:子龙 2021-11-03 09:39 次阅读

自多模态大火以来,井喷式地出现了许多工作,通过改造预训练语言模型,用图像信息来增强语义信息,但主要集中在几个 NLU 任务上,在 NLG 上的研究比较少。

今天要介绍的这篇 paper Multimodal Conditionality for Natural Language Generation 研究的任务场景则是以多模态信息作为条件做 conditional 的 NLG任务。这种任务设置有许多实际的应用场景。比如,生成商品介绍文案时,仅仅基于该商品的文字标题是不够的。如果能结合商品的图片,必然能够得到更贴切的文案。

这篇工作的模型基于 GPT2,而多模态信息则是以一种类似 prompt 的方式来使用。虽然方法比较简单直观,但具备一定通用性,未来或许有进一步挖掘的可能。

论文题目:

Multimodal Conditionality for Natural Language Generation

论文链接:

https://arxiv.org/pdf/2109.01229.pdf

原理作者的想法其实十分简单,一切语言模型都是为了衡量一段文字序列的概率,即:

而如果引入了多模态的输入,就相当于在生成时多了一个条件,即条件概率为:

其中为多模态输入序列。

以文中生成商品文案的运用场景为例。

这里的Product Title和Product Images就是作为生成Product Description时的“条件”。

那么如何将多模态序列引入到自然语言生成模型呢?

本文使用了一个十分直观的方法,称作MANTIS,将作为条件的多模态序列作为前缀放置到decoder输入序列的前面,进而中解码过程中分享多模态信息。其中图片输入借助ResNet-152,将最后一层输出用线性层映射到语言模型同一个空间中。而作为条件的文本输入,即这里的product title,和生成序列一同进行编码。

效果数据集采用FACAD,提供了商品的标题和图片,目标是生成产品描述,效果如下:

dd0036ac-3837-11ec-82a8-dac502259ad0.png

dd22ef4e-3837-11ec-82a8-dac502259ad0.png

文中提出的模型在所有指标中都取得了最优结果,相比于baseline,将BLEU4提升了0.8,CIDEr提升了7.2,METEOR提升了0.8,ROUGE-L提升了1.0。同时,由于衡量生成文本质量具有主观性,作者也进行了人工评分,结果表明MANTIS依然取得了最优结果。

从生成效果来看,生成的描述成功地结合了图片信息,使得描述更加准确,而非笼统的介绍。

总结这篇文章方法十分直观,但是结合最近火热的 Prompt,似乎又有了更多的启发。同样是生成,同样是加前缀,似乎给定条件的生成就是加上编码好的前缀?那么多模态未来能不能成为一种新的prompt呢?作者认为他们的模型可以借助各种不同的多模态条件生成,然而不得不说本文的方法对模态融合的部分做的马虎了些。本文只是单纯借助解码器进行融合,并没有在编码阶段就分享跨模态的信息。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 信息
    +关注

    关注

    0

    文章

    405

    浏览量

    35483
  • 模型
    +关注

    关注

    1

    文章

    3038

    浏览量

    48396

原文标题:用多模态信息做 prompt,解锁 GPT 新玩法

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Meta发布模态LLAMA 3.2人工智能模型

    Meta Platforms近日宣布了一项重要技术突破,成功推出了模态LLAMA 3.2人工智能模型。这一创新模型不仅能够深度解析文本信息,还实现了对图像内容的精准理解,标志着Meta在AI
    的头像 发表于 09-27 11:44 177次阅读

    云知声推出山海模态大模型

    在人工智能技术的浩瀚星海中,模态交互技术正成为引领未来的新航标。继OpenAI的GPT-4o掀起滔天巨浪后,云知声以创新之姿,推出了其匠心独运的山海模态大模型,正式宣告“Her时代
    的头像 发表于 08-27 15:20 272次阅读

    李未可科技正式推出WAKE-AI模态AI大模型

    李未可科技模态 AI 大模型正式发布,积极推进 AI 在终端的场景应用   4月18日,2024中国生成式AI大会上李未可科技正式发布为眼镜等未来终端定向优化等自研WAKE-AI模态
    发表于 04-18 17:01 500次阅读
    李未可科技正式推出WAKE-AI<b class='flag-5'>多</b><b class='flag-5'>模态</b>AI大模型

    AI机器人迎来模态模型

    配备 GR00T 模型的机器人由于需要“吸收消化”外界的模态信息,还要快速完成理解、决策、行动等一系列动作,因此对于算力的需求是巨量的。
    发表于 04-12 10:39 222次阅读

    机器人基于开源的模态语言视觉大模型

    ByteDance Research 基于开源的模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型,只用单机就可以训练。
    发表于 01-19 11:43 304次阅读
    机器人基于开源的<b class='flag-5'>多</b><b class='flag-5'>模态</b>语言视觉大模型

    什么是模态模态的难题是什么?

    模态大模型,通常大于100M~1B参数。具有较强的通用性,比如对图片中任意物体进行分割,或者生成任意内容的图片或声音。极大降低了场景的定制成本。
    的头像 发表于 01-17 10:03 4011次阅读
    什么是<b class='flag-5'>多</b><b class='flag-5'>模态</b>?<b class='flag-5'>多</b><b class='flag-5'>模态</b>的难题是什么?

    自动驾驶和模态大语言模型的发展历程

    模态大语言模型(MLLM) 最近引起了广泛的关注,其将 LLM 的推理能力与图像、视频和音频数据相结合,通过多模态对齐使它们能够更高效地执行各种任务,包括图像分类、将文本与相应的视频对齐以及语音检测。
    发表于 12-28 11:45 416次阅读
    自动驾驶和<b class='flag-5'>多</b><b class='flag-5'>模态</b>大语言模型的发展历程

    从Google模态大模型看后续大模型应该具备哪些能力

    前段时间Google推出Gemini模态大模型,展示了不凡的对话能力和模态能力,其表现究竟如何呢?
    的头像 发表于 12-28 11:19 1038次阅读
    从Google<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型看后续大模型应该具备哪些能力

    语音识别技术最新进展:视听融合的模态交互成为主要演进方向

    电子发烧友网报道(文/李弯弯)所谓“模态”,英文是modality,用通俗的话说,就是“感官”,模态即将多种感官融合。模态交互技术是近年
    的头像 发表于 12-28 09:06 2985次阅读
    语音识别技术最新进展:视听融合的<b class='flag-5'>多</b><b class='flag-5'>模态</b>交互成为主要演进方向

    成都汇阳投资关于模态驱动应用前景广阔,上游算力迎机会!

    【Gemini 大模型主打模态,性能对标 GPT-4】 当地时间12月6日, 谷歌公司宣布推出其规模最大、功能最强的模态大模型 Gemini, 其最强大的 TPU (张量处理单元)
    的头像 发表于 12-18 13:08 400次阅读
    成都汇阳投资关于<b class='flag-5'>多</b><b class='flag-5'>模态</b>驱动应用前景广阔,上游算力迎机会!

    人工智能领域模态的概念和应用场景

    随着人工智能技术的不断发展,模态成为了一个备受关注的研究方向。模态技术旨在将不同类型的数据和信息进行融合,以实现更加准确、高效的人工智能
    的头像 发表于 12-15 14:28 7545次阅读

    大模型+模态的3种实现方法

    我们知道,预训练LLM已经取得了诸多惊人的成就, 然而其明显的劣势是不支持其他模态(包括图像、语音、视频模态)的输入和输出,那么如何在预训练LLM的基础上引入跨模态信息,让其变得更强
    的头像 发表于 12-13 13:55 1390次阅读
    大模型+<b class='flag-5'>多</b><b class='flag-5'>模态</b>的3种实现方法

    用语言对齐模态信息,北大腾讯等提出LanguageBind,刷新多个榜单

    目前的 VL 预训练方法通常仅适用于视觉和语言模态,而现实世界中的应用场景往往包含更多的模态信息,如深度图、热图像等。如何整合和分析不同模态信息
    的头像 发表于 11-23 15:46 583次阅读
    用语言对齐<b class='flag-5'>多</b><b class='flag-5'>模态</b><b class='flag-5'>信息</b>,北大腾讯等提出LanguageBind,刷新多个榜单

    探究编辑模态大语言模型的可行性

    不同于单模态模型编辑,模态模型编辑需要考虑更多的模态信息。文章出发点依然从单模态模型编辑入手,
    发表于 11-09 14:53 408次阅读
    探究编辑<b class='flag-5'>多</b><b class='flag-5'>模态</b>大语言模型的可行性

    基于视觉的模态触觉感知系统

    传统的模态/多任务触觉感知系统通过集成多种传感单元来达到模态触觉信息的解耦,但其往往导致系统结构的复杂性,以及需要应对来自不同刺激间的干
    发表于 10-18 11:24 714次阅读
    基于视觉的<b class='flag-5'>多</b><b class='flag-5'>模态</b>触觉感知系统