哈工大提出Myriad：利用视觉专家进行工业异常检测的大型多模态模型-电子发烧友网

一句话总结

通过应用视觉专家进行工业异常检测，以实现明确的异常检测和高质量的异常描述，还可进行多轮对话，性能表现出色！优于AnomalyGPT等网络，代码即将开源！

Myriad

Myriad: Large Multimodal Model by Applying Vision Experts for Industrial Anomaly Detection

单位：哈工大(左旺孟团队), 琶洲实验室

论文：https://arxiv.org/abs/2310.19070

代码：https://github.com/tzjtatata/Myriad

现有的工业异常检测（IAD）方法可以预测异常检测和定位的异常分数。然而，它们很难对异常区域进行多轮对话和详细描述，例如工业异常的颜色、形状和类别。

最近，大型多模态（即视觉和语言）模型（LMM）在图像描述、视觉理解、视觉推理等多种视觉任务上表现出了卓越的感知能力，使其成为更易于理解的异常检测的有竞争力的潜在选择。然而，现有的通用 LMM 中缺乏有关异常检测的知识，而训练特定的 LMM 进行异常检测需要大量的注释数据和大量的计算资源。

本文提出了一种新颖的大型多模态模型，通过应用视觉专家进行工业异常检测（称为Myriad），从而实现明确的异常检测和高质量的异常描述。

具体来说，采用 MiniGPT-4 作为基础 LMM，并设计一个专家感知模块，将视觉专家的先验知识嵌入到大型语言模型（LLM）可以理解的标记中。

为了弥补视觉专家的错误和困惑，引入了域适配器来弥合通用图像和工业图像之间的视觉表示差距。此外，提出了一个视觉专家讲师，它使 Q-Former 能够根据视觉专家先验生成 IAD 领域视觉语言标记。

实验结果

在MVTec-AD 和 VisA 基准上的大量实验表明，本文提出的方法不仅在 1-class 和少样本设置下比最先进的方法表现更好，而且还提供了明确的异常预测以及 IAD 中的详细描述领域。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

模型

模型

+关注

关注
1

文章
3372

浏览量
49313
视觉

视觉

+关注

关注
1

文章
147

浏览量
24043
大模型

大模型

+关注

关注
2

文章
2652

浏览量
3267

原文标题：工业异常检测大模型来了！哈工大提出Myriad：利用视觉专家进行工业异常检测的大型多模态模型

文章出处：【微信号：CVer，微信公众号：CVer】欢迎添加关注！文章转载请注明出处。

一文详解视觉语言模型

视觉语言模型（VLM）是一种多模态、生成式 AI 模型，能够理解和处理视频、图像和文本。

发表于 02-12 11:13 •142次阅读

一文详解<b class='flag-5'>视觉</b>语言<b class='flag-5'>模型</b>

体验MiniCPM-V 2.6 多模态能力

多模态组网

jf_23871869

发布于 :2025年01月20日 13:40:48

商汤日日新多模态大模型权威评测第一

刚刚，商汤科技日日新SenseNova多模态大模型，在权威综合评测权威平台OpenCompass的多模态评测中取得榜单第一。

发表于 12-20 10:39 •393次阅读

一文理解多模态大语言模型——下

/understanding-multimodal-llms 《一文理解多模态大语言模型 - 上》介绍了什么是多模态大语言

发表于 12-03 15:18 •235次阅读

一文理解<b class='flag-5'>多</b><b class='flag-5'>模态</b>大语言<b class='flag-5'>模型</b>——下

利用OpenVINO部署Qwen2多模态模型

多模态大模型的核心思想是将不同媒体数据（如文本、图像、音频和视频等）进行融合，通过学习不同模态之间的关联，实现更加智能化的信息处理。简单来说

发表于 10-18 09:39 •612次阅读

华工科技联合哈工大实现国内首台激光智能除草机器人落地

华工科技党委书记、董事长、总裁马新强一行赴哈尔滨对哈尔滨工业大学机器人技术与系统全国重点实验室（后简称哈工大机器人实验室）、爱辉区智能激光除草机器人试点基地进行实地调研，代表华工科技中央研究院同

发表于 09-06 10:45 •927次阅读

云知声推出山海多模态大模型

在人工智能技术的浩瀚星海中，多模态交互技术正成为引领未来的新航标。继OpenAI的GPT-4o掀起滔天巨浪后，云知声以创新之姿，推出了其匠心独运的山海多模态大

发表于 08-27 15:20 •448次阅读

依图多模态大模型伙伴CTO精研班圆满举办

大模型在不同行业领域的应用前景;7月19日， “依图科技多模态大模型伙伴CTO精研班”在杭州圆满举办，让更多的伙伴们深度体验了依图多

发表于 07-23 15:16 •493次阅读

聆思CSK6视觉语音大模型AI开发板入门资源合集（硬件资料、大模型语音/多模态交互/英语评测SDK合集）

丰富外设配件配套多模态应用示例，支持快速上手体验大模型语音交互、智能视觉等 AI 应用板载 DAPLINK 调试器，外接一条USB 线即可实现烧录、调试、串口日志查看板载网络模组

发表于 06-18 17:33

智谱AI发布全新多模态开源模型GLM-4-9B

近日，智谱AI在人工智能领域取得重大突破，成功推出全新开源模型GLM-4-9B。这款模型以其卓越的多模态能力，再次刷新了业界对于大型语言

发表于 06-07 09:17 •847次阅读

商汤科技发布5.0多模态大模型，综合能力全面对标GPT-4 Turbo

场景应用需求；升级“日日新SenseNova 5.0”大模型体系，综合能力全面对标GPT-4 Turbo。此外对于文生视频徐立也表示商汤科技很快就会发布相关的平台产品。备受瞩目的商汤科技“日日新SenseNova” 5.0多模态

发表于 04-24 16:49 •1198次阅读

李未可科技正式推出WAKE-AI多模态AI大模型

文本生成、语言理解、图像识别及视频生成等多模态交互能力。该大模型围绕 GPS 轨迹+视觉+语音打造新一代 LLM-Based的自然交互，同时多

发表于 04-18 17:01 •673次阅读

苹果发布300亿参数MM1多模态大模型

近日，科技巨头苹果公司在一篇由多位专家共同撰写的论文中，正式公布了其最新的多模态大模型研究成果——MM1。这款具有高达300亿参数的多

发表于 03-19 11:19 •971次阅读

蚂蚁集团推出20亿参数多模态遥感基础模型SkySense

近日，蚂蚁集团联合武汉大学宣布成功研发出20亿参数多模态遥感基础模型SkySense。这一创新模型由蚂蚁集团的AI创新研发部门NextEvo与武汉大学共同完成，是迄今为止国际上参数规模

发表于 03-04 11:22 •908次阅读

蚂蚁推出20亿参数多模态遥感模型SkySense

据了解，负责开发的百灵团队利用自身拥有的19亿遥感影像数据集进行了预训练，从而生成了具有20.6亿参数的SkySense大模型。官方称其为全球范围内参数规模最大、任务覆盖最全且识别精度最高的多

发表于 02-28 15:53 •761次阅读

搜索历史

哈工大提出Myriad：利用视觉专家进行工业异常检测的大型多模态模型

评论