0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

最新基准测试错误率竟高达90%:红绿灯认错、勾股定理也不会

OpenCV学堂 来源:新智元 2023-11-02 16:00 次阅读

【导读】马里兰大学发布首个专为VLM设计的基准测试HallusionBench,全面测试GPT-4V视觉错误和语言幻觉。

GPT-4被吹的神乎其神,作为具备视觉能力的GPT-4版本——GPT-4V,也被大众寄于了厚望。 但如果告诉你,初中生都知道的勾股定理,只适用于直角三角形。 然而GPT-4V却自信将其用于钝角三角形中计算斜边长度。

0d2da384-78cb-11ee-939d-92fbcf53809c.png

还有更离谱的,GPT-4V直接犯了致命的安全错误,竟然认为红灯可以行驶。

0d324808-78cb-11ee-939d-92fbcf53809c.png

这到底是怎么回事呢? 马里兰大学的研究团队在探索过程中发现了这些问题,并在此基础上提出了两种主要的错误类型:语言幻觉和视觉错觉,以此来阐释这些错误的原因。

0d458e36-78cb-11ee-939d-92fbcf53809c.png

论文链接:https://arxiv.org/abs/2310.14566

项目主页:https://github.com/tianyi-lab/HallusionBench

研究人员依据上述分析,创建了一个名为HallusionBench的图像-语境推理基准测试,旨在深入探讨图像与语境推理的复杂性。 基于他们的对于视觉能力的测试,GPT4V在回答视觉问题组的错误率高达近90%。

0d4d8280-78cb-11ee-939d-92fbcf53809c.jpg

研究者们还对新发布的GPT-4V(ision)和LLaVA-1.5进行了详细的研究,深入分析了它们在视觉理解方面的能力。 HallusionBench是第一个专为VLM设计的基准测试,主要关注视觉错觉和知识幻觉。这个测试包括约200组视觉问答,其中近一半是由人工专家创作的。 目前数据已经开源, 并且还在更新中。 涉及的图片类型多样,包括原始的错觉图片、图表、地图、海报、视频及手动制作或修改的图片,涵盖数学、计数、文化、动漫、体育和地理等多个领域。 论文中,作者初步阐述了HallusionBench中的两种视觉问题分类:视觉依赖型(Visual Dependent)和视觉补充型(Visual Supplement),并讨论了实验对照组的设计方法。 随后,他们分析了可能导致答案错误的两大主要原因:视觉错觉(Visual Illusion)和语言幻觉(Language Hallucination)。 在文末,作者通过不同的子类别详细展示了各主要类别中的失败案例,并进行了深入的分析。关键点: 1. 「语言幻觉」:在GPT-4V和LLaVA-1.5中会误导90%的样本推理。视觉与语言之间的微妙平衡至关重要! 2. 「视觉错觉」:LVLMs中的视觉模块容易受到复杂视觉上下文的影响,语言模型的错误被夸大。 3. 简单的图像修改就能欺骗GPT-4V和LLaVA-1.5,暴露了对更强大的图像分析能力的需求。 4. GPT-4V在推理多个图像之间的时间关系方面存在困难。 5. LLaVA-1.5有时会在常识查询上犯错,需要改进其语言模型先验。

视觉问题类型

视觉依赖型问题(Visual Dependent):

这类问题的答案完全依赖于视觉内容,缺乏图像信息时无法确切回答。

这些问题通常关联到图像本身或其显示的内容。例如,在没有图像的情况下,无法准确回答诸如「图中右侧的橙色圆圈是否与左侧的同样大小?」之类的问题。

视觉补充型问题(Visual Supplement):

这些问题即使在没有视觉内容的情况下也能得到回答。在这种类型的问题中,视觉元素仅提供附加信息

比如,即便没有图片辅助,GPT-4V仍能回答「新墨西哥州是否比德克萨斯州大?」等问题。

测试的核心在于判断GPT-4V和LLaVA-1.5能否利用图像内容来作答,而不是仅凭它们的参数化记忆。

错误分类

作者对错误回答进行了分析,并将其原因分为两大类:

视觉错误(Language Hallucination):

这类错误产生于对输入图像的错误视觉识别和解释。模型未能从图像中提取准确信息或对其进行正确推断。语言幻觉(Visual Illusion):

模型基于其参数化知识库,对问题输入和图像背景作出不恰当的先入为主的假设。模型应当针对问题的具体环境作出反应,而不是忽略问题本身或对图像作出错误解读。

范例

从图1所展示的经典视觉错觉案例中可见,GPT-4V在识别各种错觉图像及其名称上显示出比LLaVA-1.5更丰富的知识储备。

0d60089c-78cb-11ee-939d-92fbcf53809c.png

图1 然而,在回答经过编辑处理的图像相关问题时,GPT-4V未能提供精确答案。 这种现象可能源于GPT-4V更多地依赖于其参数化存储的知识,而不是实际对图像进行分析。 与此相反,无论是处理原始图像还是编辑后的图像,LLaVA-1.5的表现都相对较差,这反映出LLaVA-1.5在视觉识别方面的能力较为有限。 观察图2提供的样本,可以发现GPT-4V和LLaVA-1.5均未能正确识别平行线、正三角形、多边形及其他数学定理。 这一现象揭示了,对GPT-4V而言,在处理几何和数学问题方面仍面临较大挑战。

0d659690-78cb-11ee-939d-92fbcf53809c.png

图2 在图3的展示中,作者指出了几则海报,展示的是一些知名的地方美食,但这些美食的地理特征遭到了改动。 面对这样的场景,GPT-4V和LLaVA-1.5都未能充分考虑上下文信息,忽略了图像内容,继续根据文本中提及的知名产地来回答相关问题。

0d7b57aa-78cb-11ee-939d-92fbcf53809c.png

图3 在图4的案例中,作者进一步探讨了对多张图片序列的处理能力。 图片的顺序排列和倒序排列在语义上常表现出对立的意义,例如「出现与消失」和「后退与前进」。

0d8bc216-78cb-11ee-939d-92fbcf53809c.png

图4 研究比较表明,尽管这些图片序列描绘了不同的动态,GPT-4V依然未能区分这些图片的顺序和逆序排列。 这一发现指出,在视频序列推理方面,GPT-4V仍需大幅度的优化和提高。 图5展示了一个案例,其中在缺乏图像背景信息的情境下,GPT-4V提供了一个断定性的回答。

0d9066d6-78cb-11ee-939d-92fbcf53809c.png

图5 相对地,LLaVA-1.5,由于对文本的理解不足,提出了一个技术上无误但与问题无关的答回答。 当以修改后的π值作为视觉输入,两个模型均未能从图像中正确识别和解释这个值。 图6中的情形显示,当缺少视觉输入时,GPT-4V和LLaVA-1.5都能准确且断定地作出回答。

0de0d288-78cb-11ee-939d-92fbcf53809c.png

图6 然而,在表格作为视觉输入的情况下,GPT-4V尝试依据视觉信息解答,却误取了错误数据。 例如,GPT-4V错误地答道「中国赢得了36枚金牌」,尽管图表实际显示的是美国获得了这些金牌。 相比之下,LLaVA-1.5更依赖于其参数化记忆,在分别处理问题和表格时表现不同。 在图7的场景中,即使没有视觉辅助,GPT-4V和LLaVA-1.5都作出了断定性的答复,其中GPT-4V的答案更为准确和精确。

0e05426c-78cb-11ee-939d-92fbcf53809c.png

图7 当引入图表作为视觉输入,GPT-4V能精准地根据图表中的数据给出答案,而LLaVA-1.5则依赖于其参数化知识进行回答。 但是,一旦图表被翻转,GPT-4V对答案的预测发生了根本性变化。这个错误可以被解释为由视觉错觉引起的。 根据图8,在缺乏图像支持的情形下,GPT-4V和LLaVA-1.5均提供了确定的回答,但正确答案仅由GPT-4V给出。

0e2776fc-78cb-11ee-939d-92fbcf53809c.png

图8 由此可以推断,GPT-4V在知识层面上优于LLaVA-1.5。 然而,当地图的视觉呈现发生改变时,两种模型由于其强大的参数记忆能力,均未能正确推断出四个州的相对位置。

总结

近年来,随着大规模语言模型和多模态研究的快速发展,人工智能领域经历了重大的变革。 自然语言处理(NLP)和计算机视觉(CV)的结合,不仅促成了大型视觉语言模型(LVLM)的诞生,而且显著提高了图像推理任务的性能。 但是,LVLM仍面临着一些挑战,如语言幻觉和视觉错觉等问题。 本研究通过推出HallusionBench,旨在为VLM提供一个基准测试,特别是在那些容易因语言幻觉或视觉错觉而失败的复杂情况下。 我们对GPT-4V和LLaVA-1.5的不同示例和失败案例进行了深入探讨,包括: 1. 在HallusionBench中,GPT-4V和LLaVA-1.5在处理含有先验知识的问题时,往往会受到语言幻觉的影响。这些模型更倾向于依赖先验知识,导致在我们的分析的例子中,超过90%的答案是错误的。因此,模型需要在参数化记忆和输入文本图片之间找到一个平衡点。 2. 即便是在GPT-4V和LLaVA-1.5缺乏参数化记忆或先验知识的情况下,它们仍然容易受到视觉错觉的影响。这些模型常常在处理几何图形、数学图像、视频(多图像场景)、复杂图表等问题时给出错误答案。目前,视觉语言模型在视觉处理方面的能力还很有限。 3. GPT-4V和LLaVA-1.5在HallusionBench中容易被一些基本的图像操作所误导,如图像翻转、颠倒顺序、遮挡、物体编辑以及颜色的修改等。目前的视觉语言模型尚未能有效处理这些图像操作。 4. 虽然GPT-4V支持处理多图,但在分析涉及时间线索的多图像问题时,它未能展现出有效的时间推理能力,在HallusionBench中表现欠佳。 5. 在HallusionBench的测试中,LLaVA-1.5由于知识库相对较少,有时会犯下一些基本的错误。 作者表示,他们的数据集已经开源,并正在继续扩展数据库。最新的数据会在Github (https://github.com/tianyi-lab/HallusionBench)上不断更新。 这项研究为未来更加强大、平衡和精准的LVLM奠定了基础,并期待通过这些详细的案例研究,为未来研究提供一些可能方向。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1081

    浏览量

    40384
  • 模型
    +关注

    关注

    1

    文章

    3133

    浏览量

    48666
  • 视觉
    +关注

    关注

    1

    文章

    146

    浏览量

    23874

原文标题:GPT-4V连小学生都不如?最新基准测试错误率竟高达90%:红绿灯认错、勾股定理也不会

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    红绿灯小程序

    `初学,搞个红绿灯小程序。勿拍。。。`
    发表于 08-30 15:02

    交通红绿灯

    本帖最后由 samuergao 于 2014-7-3 14:13 编辑 交通灯,并显示当前时间和倒计时,包含了单条路遇到人行道的红绿灯,还有十字路口的红绿灯,大家帮看看有的改进没有。
    发表于 07-03 12:12

    红绿灯问题求助?

    求做个红绿灯 就一个路的红绿灯
    发表于 10-22 10:53

    【分享】红绿灯的设计

    本帖最后由 elecfans跑堂 于 2015-9-16 10:49 编辑 红绿灯 的设计,大神看看
    发表于 09-15 22:37

    红绿灯

    `功能:1实现倒计时2实现黄灯闪烁3实现人行道红绿灯提示 `
    发表于 12-28 14:55

    红绿灯

    简单的红绿灯状态机做CLD练习用的,比较简单,发出来和大家交流一下
    发表于 12-21 14:32

    红绿灯交替闪光灯电路

    红绿灯交替闪光灯电路
    发表于 01-17 14:03 3978次阅读
    <b class='flag-5'>红绿灯</b>交替闪光灯电路

    基于51单片机的红绿灯设计

    这是一个基于51单片机的红绿灯设计,可以实现红绿灯的功能,同时还有特殊情况是单向通行。
    发表于 01-06 14:30 65次下载

    005——带时间显示的红绿灯

    005——带时间显示的红绿灯.........................
    发表于 04-28 09:49 18次下载

    红绿灯源程序

    红绿灯源程序,感兴趣的小伙伴们可以看看。
    发表于 06-17 15:42 32次下载

    红绿灯的供电状况解析

    很多红绿灯则是“黑户”(并不代表违规哦),它们的电则是从附近“借”来的,来源也是五花八门:附近的路灯、企业、公变台区等等……这些红绿灯,供电公司一般是不知道它的运行情况的
    的头像 发表于 12-04 16:53 6679次阅读

    双路红绿灯开源分享

    电子发烧友网站提供《双路红绿灯开源分享.zip》资料免费下载
    发表于 10-31 11:14 1次下载
    双路<b class='flag-5'>红绿灯</b>开源分享

    Arduino迷你红绿灯

    电子发烧友网站提供《Arduino迷你红绿灯.zip》资料免费下载
    发表于 06-30 14:30 0次下载
    Arduino迷你<b class='flag-5'>红绿灯</b>

    用树莓派控制交通红绿灯(进阶版)

    哇奥,今天才发现上一次建造的红绿灯居然不对,绿灯一般在下方,当红灯变绿灯时黄灯闪烁,我做的是绿灯变红灯时黄灯闪烁!。这在我们开发时会碰到,
    的头像 发表于 07-02 15:10 1738次阅读
    用树莓派控制交通<b class='flag-5'>红绿灯</b>(进阶版)

    揭秘 “红绿灯倒计时” 原理

    如今,高德“红绿灯倒计时”功能已服务遍布全国范围内近240个城市的8万多个红绿灯路口,未来还将进一步拓展至更高数量级。
    的头像 发表于 02-21 17:19 1731次阅读