GPT-4V在异常检测上有多少强？华科大等最新测评来了！-电子发烧友网

异常检测任务旨在识别明显偏离正常数据分布的异常值，在工业检验、医学诊断、视频监控和欺诈检测等多个领域都发挥了重要作用。传统的异常检测方法主要依赖于描述正常数据分布以进行正异常样本的区分。然而，对于实际的应用而言，异常检测也需要理解数据的高层语义，从而深入理解 “什么是异常”。

要实现更准确且智能的异常检测，我们需要关注以下关键步骤：

1. 理解多样数据类型和类别

不同领域的数据集包含各种数据类型和类别，如图像、视频、点云、时间序列等。每种数据类型可能需要不同的异常检测方法，每个物体类别可能对应不同的正常标准，因此深入理解数据的多样性至关重要。

2. 确定正常状态标准

一旦理解了数据的类型和类别，我们需要推断正常状态的标准。这需要高级数据语义信息的理解，以确保我们能够正确识别正常数据的特征和模式。

3. 评估数据的符合度

最后，我们需要评估提供的数据是否符合已建立的正常数据分布。任何偏离这些数据分布的情况都可以被归类为异常。

最近，大型多模态模型（LMM）迅猛发展，其中 OpenAI 最近推出的 GPT-4V （ision）表现最为出色，具有强大的多模态感知能力，在场景理解，图片生成等多个任务中都取得了良好表现。我们认为，LMM 的出现为通用异常检测的研究提供了新的范式和新的机会。

为了评估 GPT-4V 在通用异常检测中的性能，来自华中科技大学、密歇根大学和多伦多大学的研究者联合进行了一项研究，在涉及 4 个数据模态，9 个异常检测任务的 15 个异常检测数据集上对 GPT-4V 进行了全面的测试。具体而言，测试的数据集包括图像、点云、视频、时序等模态，并涵盖了工业图像异常检测 / 定位，医疗图像异常检测 / 定位，点云异常检测，逻辑异常检测，行人异常检测，交通异常检测，时序异常检测等 9 个异常检测任务。

论文地址：https://arxiv.org/pdf/2311.02782.pdf

项目地址：https://github.com/caoyunkang/GPT4V-for-Generic-Anomaly-Detection

观察与分析

本文在多种模态和领域的异常检测数据集上对 GPT4V 的性能进行了测试。我们认为，GPT4V 已经初步具备了多模态的通用异常检测能力。具体而言，GPT-4V 不仅能够有效理解多样数据类型和类别，而且可以建模正常数据的空间分布，并评估测试数据的分布情况。

除此以外，GPT-4V 在异常检测任务中还具有以下特点：

GPT-4V 能够在零 / 单样本下处理多模态、多领域的异常检测任务

多模态异常检测：GPT-4V 可有效处理多种模态数据的异常检测任务。例如，它在识别图像、点云、MRI、X-ray 等数据模态上均表现出了不俗的异常检测能力。多模态异常检测能力使 GPT-4V 能够突破传统单模态异常检测器的限制，完成现实世界的复杂异常检测任务。

多领域异常检测：GPT-4V 在工业、医疗、行人、交通和时间序列异常检测等多个领域表现优异。

零 / 单样本下的异常检测：GPT-4V 在零样本及单样本（即提供了一张正常的参考图片）任务中均表现不俗。在没有参考图像的情况下，GPT-4V 可以有效地使用语言提示信息来检测异常。当提供正常参考图像时，GPT-4V 能够更好的对齐文本格式的正常标准与正常的图像内容，其异常检测准确性进一步提高。

GPT-4V 可以理解异常检测任务所需的全局和细粒度语义

全局语义理解能力：GPT-4V 对全局语义的理解能力表现在它能够识别整体的异常模式或行为。例如，在交通异常检测中，它可以分辨正常的交通流和不规则事件之间的区别，并且提供了关于异常检出的详细解释。这种全局理解使其非常适合在开放世界中识别偏离正常分布的异常点。

细粒度语义理解能力：GPT-4V 对细粒度语义的理解能力在一些情况下表现出色，使得它不仅能够检测异常，还能够精确地在复杂数据中定位异常。例如，在工业图像异常检测中，它可以准确定位细节，如倾斜的蜡烛烛芯、瓶口周围的轻微划痕。这种细粒度理解增强了它在复杂数据中检测微小异常的能力，从而提高了其整体检测。

GPT-4V 具备自动推理异常检测的能力

GPT-4V 能够根据复杂的正常标准自动推理、拆分子任务。例如，在逻辑异常检测中，GPT-4V 能够理解所给的正常图像标准，并拆分为子任务，依次检验图像内容是否满足指定内容。这种内在的推理能力增强了其异常检测结果的可解释性，使其成为理解和解决通用异常检测的有效工具。

GPT-4V 可以通过增加提示进一步增强异常检测能力

评估结果显示，提供更多文本和图像信息对 GPT-4V 的异常检测性能有积极影响。通过增加类别信息、人类专业知识、参考图像，模型获得了更多的上下文信息，异常检测性能也得到显著提升。该特点允许用户通过提供相关的补充信息来微调和增强模型的性能。

GPT-4V 在实际应用中可能受到限制，但仍具有潜力

本报告发现 GPT-4V 在实际应用中仍面临一些挑战。例如，GPT-4V 可能在处理工业应用中的复杂场景时面临困难，导致其出现错误检测。医疗领域的伦理约束也使其在判断肿瘤等异常情况时趋于保守。但我们相信它在各种异常检测任务中仍然具有潜力。为了有效解决这些挑战，可能需要进一步增强、专门的精细调整或补充技术。总结而言，GPT-4V 在通用异常检测中具有明显潜力，有望开启异常检测任务的高层次感知时代。

应用场景展示

工业图像异常检测

工业图像异常检测旨在维护产品质量，是制造过程的重要环节。近年来，许多方法在此领域蓬勃发展，其中一些方法着眼于开发适用于任意产品类别的统一模型。本研究探讨了 GPT-4V 在工业图像异常检测中的应用，包括对不同类型的信息进行测试，以及展示其性能和局限性。

我们从工业图像中选择了几个示例，如瓶子和蜡烛的图像。即使只提供简单的语言提示，GPT-4V 能够有效地识别这些图像中的异常，展示了其能力和多样性。此外，GPT-4V 不仅能够检测期望的异常，还能够识别微观结构异常。在复杂情况下，如电路板中的异常检测，GPT-4V 能够识别图像中的细节，但也存在一定的局限性。总的来说，GPT-4V 在图像上下文理解和类别特定异常理解方面表现出色。

工业图像异常定位

与工业图像异常检测不同，工业图像异常定位旨在精确识别异常的位置。为了实现这一目标，我们采用了与 SoM（Set-of-mark）类似的方法，使用图像 - 掩模对来提示 GPT-4V。我们研究了 GPT-4V 在不同场景下的表现，展示了其在细粒度异常定位方面的能力和局限性。

我们展示了 GPT-4V 在工业图像异常定位中的性能，包括定位弯曲的电线、坚果上的空洞以及识别电路板异常。GPT-4V 在一些情况下能够准确识别异常位置，例如能够有效定位坚果中的空洞，并且由于结合了视觉提示技术，GPT-4V 将异常定位问题转化为了对掩膜的分类问题，有效降低了问题复杂度，且提升了定位精度。因此，结合视觉提示技术和 GPT-4V 可有效解决工业图像异常定位问题。

点云异常检测

点云异常检测在工业领域具有重要作用。CPMF 提出了一种新方法，将点云转化为深度图像，以利用图像基础模型来提高点云异常检测的性能。我们借助 CPMF，将点云转为深度图像，从而使得 GPT-4V 可处理点云异常检测任务。

我们展示了 GPT-4V 在点云异常检测中的性能，包括识别袋圈中的小突起、检测绳子上的异常以及查找工件中的异常。GPT-4V 能够有效地识别这些异常，但在某些情况下也存在局限性，特别是在渲染质量较低的情况下。总的来说，GPT-4V 在点云异常检测中表现出了潜力。

逻辑异常检测

逻辑异常检测任务由 MVTec LOCO 数据集提出。该任务通常出现在装配过程中，需要识别各个组件是否正确组合。现有的逻辑异常检测方法通常依赖于视觉全局 - 局部对应关系，但本质上并没有真正理解图像内容。我们研究了 GPT-4V 在逻辑异常检测中的应用，探讨了其对图像内容的理解能力。

我们展示了 GPT-4V 在逻辑异常检测中的性能，包括识别复杂的逻辑规则、检测逻辑异常并提供详细的解释。尽管 GPT-4V 在大多数情况下能够准确识别逻辑异常，但在某些复杂情况下存在一定的局限性，尤其是对于细节问题。不过，结合多轮对话和特定语言提示有望显著改善 GPT-4V 在这些情况下的性能。

医学图像异常检测

医学图像异常检测是医学影像领域的关键任务，旨在识别不符合预期数据分布的异常值。我们研究了 GPT-4V 在医学图像异常检测中的应用，包括不同疾病和成像模式的医学图像。我们测试了 GPT-4V 的泛化能力，揭示了其在医学图像异常检测中的性能和局限性。

我们展示了 GPT-4V 在医学图像异常检测中的性能，包括识别不同疾病和成像模式的异常图像。即使只提供简单的语言提示，GPT-4V 能够有效地识别异常，并提供详细的解释。此外，引入更多信息，如疾病信息和专业知识，可以进一步提高 GPT-4V 的性能。然而，GPT-4V 在某些情况下可能会产生错误的异常检测，因此仍需要医生的最终判断。

医学图像异常定位

在检测到医学异常后，需要进一步精确定位医学图像中存在的异常，例如病灶等。对医学图像异常的准确的定位可有效帮助临床医生理解病理的程度和性质。然而，在现实世界的医学图像异常定位任务中使用 GPT-4V 直接预测异常掩膜十分困难。受到 SoM 的启发，我们希望测试 GPT-4V 模型在视觉提示下的异常定位能力。

结合 SoM，我们标定了医疗图像中可能存在的异常位置。在图像中的视觉提示指导下，GPT-4V 倾向于学习和描述标记周围的区域。对于容易识别和定位的案例，GPT-4V 可以清楚地区分异常区域和背景。但在一个人工合成异常的案例中，由于感兴趣区域与背景具有相似的纹理和形状，GPT4V 的判断出现了偏差。这表明该模型在对抗攻击和复杂背景下仍需要增强其检测和定位能力。

交通检测

交通检测是城市交通管理和自动驾驶领域的关键任务，它旨在监测交通情况，检测交通违规行为和危险情况。我们研究了 GPT-4V 在交通检测中的应用，包括车辆识别、交通标志识别和交通违规检测。我们测试了 GPT-4V 在不同场景下的性能，展示了其潜力和局限性。

我们展示了 GPT-4V 在交通检测中的性能，包括识别不同类型的车辆、检测各种交通标志和识别交通违规行为。GPT-4V 能够有效地处理这些任务，尤其是在规范场景下。然而，在复杂交通环境中，性能可能会下降，因为它需要理解并解释复杂的情境。

行人检测

行人检测是自动驾驶、安全监控和智能城市等领域的关键任务，它旨在识别图像或视频中的行人。我们研究了 GPT-4V 在行人检测中的应用，测试了其对行人的识别能力和性能。

我们展示了 GPT-4V 在行人检测中的性能，包括检测行人在不同背景下的能力。GPT-4V 通常能够识别行人，但在复杂背景下可能会出现错误。与专门的行人检测模型相比，性能可能相对较差，但它的优势在于它能够提供更多的语言解释。

时序检测

时序检测是一种涉及到时间序列数据的异常检测任务，例如传感器数据、金融时间序列等。我们研究了 GPT-4V 在时序检测中的应用，测试了其在分析和检测时间序列异常方面的能力。

我们展示了 GPT-4V 在时序检测中的性能，包括检测传感器数据中的异常、金融交易数据中的异常等。GPT-4V 在分析时间序列数据方面表现出色，能够识别不同类型的异常情况。然而，需要注意的是，时序检测通常需要更多的领域专业知识，而 GPT-4V 在这些情况下可能需要结合专家的建议。

结论

GPT-4V 在工业图像异常检测、工业图像异常定位、点云异常检测、逻辑异常检测、医学图像异常检测、交通检测、行人检测和时序检测等领域都展示出了出色的潜力。它能够理解多模态数据，对图像内容进行有效理解，并在很多情况下都能准确检测并解释异常。然而，在复杂场景中，GPT-4V 的异常检测能力仍然存在一定的局限性。综合来看，GPT-4V 为通用异常检测提供了全新的研究范式，但其实际应用仍需要进一步的研究和改进。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据集

数据集

+关注

关注
4

文章
1208

浏览量
24719
GPT

GPT

+关注

关注
0

文章
354

浏览量
15409
OpenAI

OpenAI

+关注

关注
9

文章
1096

浏览量
6554

原文标题：GPT-4V在异常检测上有多少强？华科大等最新测评来了！

文章出处：【微信号：CVer，微信公众号：CVer】欢迎添加关注！文章转载请注明出处。

【RA-Eco-RA4E2-64PIN-V1.0开发板试用】+初次见面+MDK生成代码+点灯

开发板的软硬件情况，完成软硬件开发环境的搭建，完成点灯试验。后续会依次完成舵机PWM控制、CAN通讯等测评。测评申请链接：RA-Eco-RA4E2-64PIN-V1.0开发板评测试

发表于 12-15 21:55

科大讯飞发布讯飞星火4.0 Turbo:七大能力超GPT-4 Turbo

10月24日，在科大讯飞全球1024开发者节上，科大讯飞董事长刘庆峰正式发布了讯飞星火大模型的最新版本——讯飞星火4.0 Turbo。　　据刘庆峰介绍，讯飞星火4.0 Turbo七大能力全面

发表于 10-24 11:39 •465次阅读

云知声山海多模态大模型UniGPT-mMed登顶MMMU测评榜首

近日，多模态人工智能模型基准评测集MMMU更新榜单，云知声山海多模态大模型UniGPT-mMed以通用能力、医疗专业能力双双排名第一的优异成绩登顶榜首，力压GPT-4V，充分彰显其硬核实力。

发表于 10-12 14:09 •301次阅读

云知声山海多模态大模型UniGPT-mMed登顶MMMU<b class='flag-5'>测评</b>榜首

OpenAI提前解锁GPT-4o语音模式，引领对话新纪元

OpenAI近日宣布了一项令人振奋的消息：即日起，部分ChatGPT Plus用户将率先体验到GPT-4o的语音模式，这一创新功能标志着自然语言处理与人工智能交互技术迈出了重要一步。GPT-4o的高级语音模式以其卓越的实时对话能力和对用户情绪的细腻感知，为用户带

发表于 08-01 18:24 •1218次阅读

OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快 API KEY更便宜

OpenAI推出了GPT-4o mini模型，用来取代GPT-3.5.这是目前市场上最具成本效益的小模型。该模型在MMLU上得分为82%，在LMSYS排行榜上的聊天偏好测试中表

发表于 07-21 10:20 •1064次阅读

OpenAI 推出 <b class='flag-5'>GPT-4</b>o mini 取代<b class='flag-5'>GPT</b> 3.5 性能超越<b class='flag-5'>GPT</b> <b class='flag-5'>4</b> 而且更快 API KEY更便宜

国内直联使用ChatGPT 4.0 API Key使用和多模态GPT4o API调用开发教程！

1. 前言 ChatGPT-4o API 是 OpenAI 提供的强大工具，可用于自然语言处理和多模态任务。在国内直联使用这些服务需要一些配置和技巧。本文将详细介绍GPT-4o模型以及如何获取

发表于 06-08 00:33 •5071次阅读

国内直联使用ChatGPT 4.0 API Key使用和多模态<b class='flag-5'>GPT4</b>o API调用开发教程！

开发者如何调用OpenAI的GPT-4o API以及价格详情指南

，高达每分钟1000万字符。速度：GPT-4o的速度是GPT-4 Turbo的两倍。视觉能力：在视觉能力相关的评估中，GPT-4o表现优于G

发表于 05-29 16:00 •1.1w次阅读

TC367在GPT中断下驱动PWM输出会导致定时器发生时延怎么解决？

该指令的消耗时间为ns级别，远远小于3us： PWM使用的是GTM的ATOM生成并不使用PWM中断，Timer使用GPT的T2/3/4，现象均相同。在Timer中断内生成PWM的操作是非法的吗？还是二者模块的子模块

发表于 05-28 07:24

OpenAI 深夜抛出王炸 “ChatGPT- 4o”， “她” 来了

当地时间5月13日OpenAI推出ChatGPT-4o，代表了人工智能向前迈出的一大步。在GPT-4turbo的强大基础上，这种迭代拥有显著的改进。在发布会的演示中，OpenAI展示

发表于 05-27 15:43

中文大模型测评基准SuperCLUE：商汤日日新5.0，刷新国内最好成绩

日前，中文大模型测评基准SuperCLUE发布最新榜单，对商汤科技全新升级「日日新SenseNova 5.0」大模型进行了全方位综合性测评，结果显示在SuperCLUE综合基准上，日日新 5.0表现

发表于 05-21 14:45 •758次阅读

OpenAI推出面向所有用户的AI模型GPT-4o

在周一的直播盛会上，OpenAI揭开了其最新的人工智能模型GPT-4o的神秘面纱。这款新模型旨在为其著名的聊天机器人ChatGPT提供更强大、更经济的支持。GPT-4o是此前备受瞩目的GPT-

发表于 05-15 09:23 •406次阅读

OpenAI发布GPT-4o模型，供全体用户免费使用

OpenAI首席技术官穆里·穆拉蒂（Muri Murati）指出，GPT-4o具备与GPT-4相同的智能水平，且在文本、图像及语音处理方面有显著进步。

发表于 05-14 11:17 •516次阅读

科大讯飞星火大模型V4.0预计六月发布，逼近GPT-4水平

在博鳌2024年会上，科大讯飞副总裁、研究院院长刘聪透露，公司正在积极训练对标GPT-4能力的讯飞星火大模型V4.0，并预计将于今年6月正式发布。

发表于 03-28 13:59 •826次阅读

全球最强大模型易主：GPT-4被超越，Claude 3系列崭露头角

近日，人工智能领域迎来了一场革命性的突破。Anthropic公司发布了全新的Claude 3系列模型，该系列模型在多模态和语言能力等关键指标上展现出卓越性能，成功超越了此前被广泛认为是全球最强AI模型的

发表于 03-05 09:42 •665次阅读

利用人工智能和机器人技术实现复杂的自动化任务！

GitHub-mylangrobot ：GitHub - neka-nat/mylangrobot: Language instructions to mycobot using GPT-4V 引言本项目创建了一个使用GPT-4V

发表于 01-08 10:44 •442次阅读

搜索历史

GPT-4V在异常检测上有多少强？华科大等最新测评来了！

评论

【RA-Eco-RA4E2-64PIN-V1.0开发板试用】+初次见面+MDK生成代码+点灯

科大讯飞发布讯飞星火4.0 Turbo:七大能力超GPT-4 Turbo

云知声山海多模态大模型UniGPT-mMed登顶MMMU测评榜首

OpenAI提前解锁GPT-4o语音模式，引领对话新纪元

OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快 API KEY更便宜

国内直联使用ChatGPT 4.0 API Key使用和多模态GPT4o API调用开发教程！

开发者如何调用OpenAI的GPT-4o API以及价格详情指南

TC367在GPT中断下驱动PWM输出会导致定时器发生时延怎么解决？

OpenAI 深夜抛出王炸 “ChatGPT- 4o”， “她” 来了

中文大模型测评基准SuperCLUE：商汤日日新5.0，刷新国内最好成绩

OpenAI推出面向所有用户的AI模型GPT-4o

OpenAI发布GPT-4o模型，供全体用户免费使用

科大讯飞星火大模型V4.0预计六月发布，逼近GPT-4水平

全球最强大模型易主：GPT-4被超越，Claude 3系列崭露头角

利用人工智能和机器人技术实现复杂的自动化任务！