0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

幻觉降低30%!首个多模态大模型幻觉修正工作Woodpecker

智能感知与物联网技术研究所 来源:未知 2023-10-30 11:05 次阅读
视觉幻觉是常见于多模态大语言模型 (Multimodal Large Language Models, MLLMs) 的一个典型问题,它指的是"模型输出的描述与图片内容不相符"这一现象,如下图所示:

wKgZomVQmI6AfJAeAASklfYgC5Y728.png

图中体现了两种幻觉,红色部分错误地描述了狗的颜色(属性幻觉),蓝色部分描述了图中实际不存在的事物(目标幻觉)。幻觉对模型的可靠性产生了显著的负面影响,因此引起了许多研究者的重视。

以往的方法主要集中在 MLLM 本身,通过在训练数据以及架构上进行改进,以重新微调的方式训练一个新的 MLLM。这种方式会造成较大的数据构建和训练开销,且较难推广到各种已有的 MLLMs。

近日,来自中科大等机构的研究者们提出了一种免训练的即插即用的通用架构“啄木鸟(Woodpecker)”,通过修正的方式解决 MLLM 输出幻觉的问题。

wKgZomU_Ho6AbEbEAAL-ApHKwQg789.png

论文链接:
https://arxiv.org/pdf/2310.16045.pdf
代码链接:
https://github.com/BradyFU/Woodpecker
Woodpecker 可以修正各种场景下模型输出的幻觉,并输出检测框作为引证,表明相应的目标确实存在。例如,面对描述任务,Woodpecker 可以修正其中带有幻觉的部分。

wKgaomVQmKeAOfU4AARjczA60Ts920.png

对于 MLLM 难以检测到的小对象,Woodpecker 也可以精准修正:

wKgaomVQmMCAb8c_AAE0uSDzseg010.png

面对 MLLM 难以解决的复杂的计数场景,Woodpecker 同样可以进行解决:

wKgZomVQmNqAAe6EAAJhEa7mVbI506.png

对于目标属性类的幻觉问题,Woopecker 处理地也很好:

wKgaomVQmQGAZktYAAGhMIx_etY271.png

我们还提供了 Demo 供读者测试使用,如下图所示,上传图片并输入请求,就可以得到修正前以及修正后的模型答复,以及供参考验证的新图片。

wKgaomVQmSWAM2BhAAR7XPMAejw641.png

wKgZomU_Ho-AGLnMAAAl6LOgh3c590.png

方法

Woodpecker 的架构如下,它包括五个主要步骤:关键概念提取、问题构造、视觉知识检验、视觉断言生成以及幻觉修正

wKgZomVQmUOAKZCGAASXeRgIHgo653.png

关键概念提取:关键概念指的是 MLLM 的输出中最可能存在幻觉的存在性目标,例如上图描述中的“自行车;垃圾桶;人”。我们可以 Prompt 大语言模型来提取出这些关键概念,这些关键概念是后续步骤进行的基础;

问题构造:围绕着前一步提取出的关键概念,Prompt 大语言模型来提出一些有助于检验图片描述真伪的问题,如“图中有几辆自行车?”、“垃圾桶边上的是什么?”等等;

视觉知识检验:使用视觉基础模型对提出的问题进行检验,获得与图片以及描述文本相关的信息。例如,我们可以利用 GroundingDINO 来进行目标检测,确定关键目标是否存在以及关键目标的数量。这里我们认为像 GroundingDINO 这类视觉基础模型对图片的感知能力比 MLLM 本身的感知能力更强。对于目标颜色等这类属性问题,我们可以利用 BLIP-2 来进行回答。BLIP-2这类传统 VQA 模型输出答案的长度有限,幻觉问题也更少;

视觉断言生成:基于前两步中获得的问题以及对应的视觉信息,合成结构化的“视觉断言”。这些视觉断言可以看做与原有 MLLM 的回答以及输入图片相关的视觉知识库;

幻觉修正:基于前面得到的,使用大语言模型对 MLLM 的文本输出进行逐一修正,并提供目标对应的检测框信息作为视觉检验的参照。

wKgZomU_HpCAWuRJAAAuhh9-KLM103.png  

实验效果

实验选取了几个典型的 MLLM 作为基线,包括:LLaVA,mPLUG-Owl,Otter,MiniGPT-4 论文中首先测试了 Woodpecker 在面对目标幻觉时的修正能力,在 POPE 验证集的实验结果如下表所示:

wKgZomU_HpCAYpNeAAUJbot3fhA482.png

结果表明在不同的 MLLM 上应用 Woodpecker 修正后,均有不同程度的提升。在随机设定下,Woodpecker 给 MiniGPT-4和 mPLUG-Owl 和在准确率指标上分别带来了 30.66% 和 24.33% 的提升。

此外,研究者还应用更全面的验证集 MME,进一步测试 Woodpecker 在面对属性幻觉时的修正能力,结果如下表所示:

wKgZomU_HpCAZZxiAAVN85YCstY979.png

从表中可见 Woodpecker 不仅在应对目标幻觉时有效,在修正颜色等属性幻觉时也具有出色的表现。LLaVA 的颜色得分从 78.33 分大幅提升到 155 分!经过 Woodpecker 修正后,四个基线模型在四个测试子集上的总分均超过 500 分,在总体感知能力上获得了显著提升。

为了更直接地衡量修正表现,更直接的方式是使用开放评测。不同于以往将图片转译后送入纯文本 GPT-4 的做法,文章利用 OpenAI 最近开放的视觉接口,提出使用 GPT-4 (Vision) 对修正前后的图片描述直接对下列两个维度进行打分:
  • 准确度:模型的答复相对于图片内容是否准确
  • 详细程度:模型答复的细节丰富度

在该实验条件下,实验结果如下表所示:

wKgZomU_HpCANOUaAAMOsiQfU-E600.png

结果表明经过 Woodpecker 修正后图片描述的准确性有一定的提升,这说明该框架可以有效修正描述中幻视的部分。另一方面,Woodpecker 修正后引入的定位信息丰富了文本描述,提供了进一步的位置信息,从而提升了细节丰富度。GPT-4V 辅助的评测样例如下图所示:

wKgaomVQmY2ABM_cAAS4Bjh-SKE689.png

·


原文标题:幻觉降低30%!首个多模态大模型幻觉修正工作Woodpecker

文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2903

    文章

    44240

    浏览量

    371006

原文标题:幻觉降低30%!首个多模态大模型幻觉修正工作Woodpecker

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    李彦宏:大模型行业消除幻觉,iRAG技术引领文生图新纪元

    在近日举办的百度世界大会上,百度创始人李彦宏分享了关于大模型行业的最新观察。他指出,过去24个月里,大模型行业经历了显著的变化,其中最引人注目的是大模型已基本消除了幻觉现象。这一进步标
    的头像 发表于 11-14 11:39 249次阅读

    利用OpenVINO部署Qwen2模态模型

    模态模型的核心思想是将不同媒体数据(如文本、图像、音频和视频等)进行融合,通过学习不同模态之间的关联,实现更加智能化的信息处理。简单来说,
    的头像 发表于 10-18 09:39 296次阅读

    TaD+RAG-缓解大模型幻觉”的组合新疗法

    TaD:任务感知解码技术(Task-aware Decoding,简称TaD),京东联合清华大学针对大语言模型幻觉问题提出的一项技术,成果收录于IJCAI2024。 RAG:检索增强生成技术
    的头像 发表于 07-16 15:01 1945次阅读
    TaD+RAG-缓解大<b class='flag-5'>模型</b>“<b class='flag-5'>幻觉</b>”的组合新疗法

    阿里达摩院提出“知识链”框架,降低模型幻觉

    近日,阿里巴巴达摩院(湖畔实验室)携手新加坡南洋理工大学等研究机构,共同推出了大模型知识链(CoK)框架。该框架不仅可实时检索异构知识源,还能逐步纠正推理错误,有效提高了大模型在回答知识型问题时的准确率,并显著降低了所谓的“
    的头像 发表于 05-10 11:46 656次阅读

    商汤科技与海通证券携手发布金融行业首个模态全栈式大模型

    商汤科技与海通证券联合研发并发布了金融行业内首个面向业务场景的模态全栈式大模型。双方计划将这一先进技术应用于智能问答、合规风控、代码辅助
    的头像 发表于 05-06 10:16 421次阅读

    人大系初创公司智子引擎发布全新模态模型Awaker 1.0

    人大系初创公司智子引擎近日震撼发布了新一代模态模型Awaker 1.0,这一里程碑式的成果标志着公司在通用人工智能(AGI)领域取得了重要突破。与前代ChatImg序列模型相比,A
    的头像 发表于 05-06 09:59 556次阅读

    商汤科技联合海通证券发布业内首个面向金融行业的模态全栈式大模型

    4月23日,商汤科技正式推出“日日新SenseNova 5.0”大模型体系,并与海通证券联合发布业内首个面向金融行业的模态全栈式大模型
    的头像 发表于 04-26 09:48 424次阅读
    商汤科技联合海通证券发布业内<b class='flag-5'>首个</b>面向金融行业的<b class='flag-5'>多</b><b class='flag-5'>模态</b>全栈式大<b class='flag-5'>模型</b>

    微软下架最新大语言模型WizardLM-2,缘因“幻觉测试疏忽”

    对此,微软技术人员在X平台发表声明,表示因对新模型发布流程不够了解,且忽略了幻觉测试环节,导致模型被紧急下线。目前,开发团队正在全力以赴进行测试,预计完成后将尽快重新上线。
    的头像 发表于 04-22 14:15 419次阅读

    利用知识图谱与Llama-Index技术构建大模型驱动的RAG系统(下)

    对于语言模型(LLM)幻觉,知识图谱被证明优于向量数据库。知识图谱提供更准确、多样化、有趣、逻辑和一致的信息,减少了LLM中出现幻觉的可能性。
    的头像 发表于 02-22 14:13 1104次阅读
    利用知识图谱与Llama-Index技术构建大<b class='flag-5'>模型</b>驱动的RAG系统(下)

    机器人基于开源的模态语言视觉大模型

    ByteDance Research 基于开源的模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型,只用单机就可以训练。
    发表于 01-19 11:43 360次阅读
    机器人基于开源的<b class='flag-5'>多</b><b class='flag-5'>模态</b>语言视觉大<b class='flag-5'>模型</b>

    什么是模态模态的难题是什么?

    模态模型,通常大于100M~1B参数。具有较强的通用性,比如对图片中任意物体进行分割,或者生成任意内容的图片或声音。极大降低了场景的定制成本。
    的头像 发表于 01-17 10:03 4372次阅读
    什么是<b class='flag-5'>多</b><b class='flag-5'>模态</b>?<b class='flag-5'>多</b><b class='flag-5'>模态</b>的难题是什么?

    从Google模态模型看后续大模型应该具备哪些能力

    前段时间Google推出Gemini模态模型,展示了不凡的对话能力和模态能力,其表现究竟如何呢?
    的头像 发表于 12-28 11:19 1190次阅读
    从Google<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>看后续大<b class='flag-5'>模型</b>应该具备哪些能力

    模型+模态的3种实现方法

    我们知道,预训练LLM已经取得了诸多惊人的成就, 然而其明显的劣势是不支持其他模态(包括图像、语音、视频模态)的输入和输出,那么如何在预训练LLM的基础上引入跨模态的信息,让其变得更强大、更通用呢?本节将介绍“大
    的头像 发表于 12-13 13:55 1619次阅读
    大<b class='flag-5'>模型</b>+<b class='flag-5'>多</b><b class='flag-5'>模态</b>的3种实现方法

    千亿参数模态模型,“紫东太初”规模化应用加速

    、文本、图像等单模态模型研究和应用的基础上,向模态模型攻关,并于2021年7月正式发布了全球首个
    的头像 发表于 12-08 00:09 2056次阅读

    LLM的幻觉问题最新综述

    幻觉被描述为无意义或不忠实于所提供源内容的生成内容。根据与源内容的矛盾,这些幻觉又进一步分为内在幻觉和外在幻觉。在LLMs中,幻觉的范围包含
    的头像 发表于 11-22 17:40 1017次阅读
    LLM的<b class='flag-5'>幻觉</b>问题最新综述