对话三位IEEE专家：如何理解SAM视觉大模型-电子发烧友网

正在流行的视觉AI大模型SAM究竟是一种什么样的技术，会形成什么样的产业影响？经济观察报就此采访三位IEEE（电气电子工程师学会）专家，解读了视觉大模型SAM技术、应用路线以及对原有产业的影响。

今年4月，Meta公布了一款名为SAM（Segment Anything Model）的技术，这是一款用于图像分割的AI大模型，会对图像进行观察、感知、思考、逻辑推理、得出结果，且操作极其简单，类似于ChatGPT用人类语言对话的方式给机器下命令。

IEEE高级会员、天津理工大学教授、AR/VR技术专家罗训对记者表示，SAM是视觉领域的通用大模型，很多报道中把它比喻成视觉领域的ChatG－PT，SAM和ChatGPT的支撑技术和应用场景都是不同的，但是在通用性这一点上，它们都是当前技术发展趋势的代表者。

“SAM技术、应用路线和颠覆性

作为AI的一个重要分支，机器视觉的目标是让计算机模仿人类视觉系统，实现图像和视频的理解和处理。

IEEE数字化转型联合会策略与架构主席汪齐齐对记者表示，高效准确的图像分割结果，对于日常生活和商业场景，甚至科研领域都具有重大意义。正因为如此，其在计算机视觉领域一直是个重要的课题。SAM的图像分割功能，是机器视觉的核心任务之一。过去，机器视觉分割图像的过程需要大量图像标注、堆叠算法，消耗大量算力。如今，SAM更容易地实现了机器视觉的目标。

Meta将SAM大模型和背后数据集一并开源，相关的研究手稿也于今年4月5日发布在arXiv上（用于学术交流的预印本平台），作者有Alexander Kirillov，Eric Mintun等12人。

此后，SAM在开源社区Github上获得大量关注，一些华人学者又照此原理提出了相关的大模型GroundingDI－NO，用于物体检测，不久GitHub上有人再创新，将GroundingDINO和SAM结合，达到了对图像识别、检测、分割的效果。

汪齐齐表示，该模型在准确程度、效率上，达到了惊人的提升。尤其是SAM开源的SA-1B数据库，用巨量的图像以及更加巨量的Mask（这里译为图层遮罩），将有助于许多科研项目和商业化项目在高起点上快速更新迭代，产生更好的模型和更优化的数据。

Meta从AR、VR、内容创建等领域，介绍了SAM的应用场景。中国的专家看到了更广泛的应用场景。

罗训对记者表示，鉴于计算机视觉的广泛应用场景，SAM的发布对产业的影响也会是巨大的，会赋能更多的长尾创新者进入产业，并进一步丰富应用场景和商业模式。

汪齐齐表示，早前人工智能技术就能实现回答用户问题的功能，而Chat－GPT第一次让很多人产生了“生成的回复可以在接受的比例下用于日常、商用和科研”，并因此达到了在这个垂直领域前所未有的高度。目前SAM的分割结果，以及其公开的大量供公众使用的资源来看，SAM在其擅长的垂直领域也达到了相当可观的高度，并会从技术、数据以及对于这个领域的关注度等多方面帮助计算机视觉在短时间内产生大量突破，而计算机视觉，是一个非常重要的“广义AI生态”中的基础设施，该方面的突破将实现对数字化世界的理解和升级，带来质变的效率和价值提升。

IEEE会士、河海大学信息科学与工程学院院长韩光洁对记者表示，SAM将会在自动驾驶、安防控制、医学影像处理等应用领域改变业态布局，甚至引发技术革命。SAM作为一个基础模型，可为这些应用领域快速孵化出适用性更强的专用网络模型。

SAM的变革性可能会颠覆一批原有的AI技术优势。汪齐齐表示，视觉大模型会在相当多的领域抵消技术壁垒，这在任何一次产业技术升级中都多次出现，也是无法避免的。

罗训表示，通用大模型就相当于AI的能力开放平台，之前头部企业的AI能力优势，会因为通用大模型的兴起而被一定程度削弱。但是这些企业是否本身会变弱，取决于它们的转型。

罗训举例称，回顾移动计算在本世纪前十年的变化，iOS和安卓的能力开放平台在赋能长尾创新者方面起到了非常重要的作用，极大增加了移动计算产业规模。在移动计算领域，WindowsMobile和塞班的封闭平台最终因为缺乏竞争力而退出了市场。

汪齐齐表示，作为有核心技术储备和深入理解的企业，首先是需要拥抱大模型，尤其是应该感谢相对公开的大模型，将自己对于产业的理解和领先部分，在大模型的加持下快速升级，演化出更新的形态。同时，计算机视觉领域也一定会有大模型目前还不擅长的领域，仍然可以作为技术壁垒，并在这些方面继续深挖独有优势。

“AIGC带来知识和技术的平权？

此前有科技企业表示，AIGC的本质是技术平权和知识平权，这在很大程度上将大厂与小厂拉到了同一起跑线上。

罗训就该观点对记者表示，技术和知识平权的说法并不是很准确，因为之前并没有系统性的歧视。AIGC带来的是“易得”，本质上是市场规模急剧扩大后的成本降低。AIGC会促进整个社会对算力和计算模式使用的转型升级，大规模提高AI使用者的生产效率，同时利好AI软硬件设施生态企业。过程中，巨头和大厂是技术进步的先期投入者，它们在其周期内获取回报也是合理的，因为它们付出了更高的成本，也承担了更大的风险。

汪齐齐认为，AIGC确实带来了一定的技术平权，但技术本身是有一个价值属性的。例如，曾经做网页可以带来不菲的收入，随着工具升级和模板的完善，一个漂亮网页制作难度数量级地下降，但是他带来的价值也产生数量级地下降。

同样，AIGC将一个需要大量技术和知识储备才能产生优质内容的时代，带入轻易产生的优质内容的时代，这会让原有定义的“优质内容”的平均价值急速下降。

汪齐齐表示，AIGC是否带来了知识平权仍然有待商榷。长期来看，AIGC可能会使人们更容易获取到真实有用的知识。但是今天，人们还处于“技术带来了前所未有的体量的知识，也同时让筛选这些知识的可用度达到了前所未有的高成本”。

汪齐齐表示，尽管AIGC可以产生大量的知识和内容，但其准确性和可信度是个挑战，相当部分AIGC是基于老的训练数据，“一本正经供应错误知识”的案例已经有很多。目前在大量、无法辨别真伪的数据和内容的情况下，是否真正达到了知识平权，是要打问号的。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

SAM

SAM

+关注

关注
0

文章
113

浏览量
33680
ChatGPT

ChatGPT

+关注

关注
29

文章
1580

浏览量
8397
AIGC

AIGC

+关注

关注
1

文章
375

浏览量
1862
大模型

大模型

+关注

关注
2

文章
2849

浏览量
3512

原文标题：对话三位IEEE专家：如何理解SAM视觉大模型

文章出处：【微信号：IEEE_China，微信公众号：IEEE电气电子工程师】欢迎添加关注！文章转载请注明出处。

VLM（视觉语言模型）详细解析

视觉语言模型（Visual Language Model, VLM）是一种结合视觉（图像/视频）和语言（文本）处理能力的多模态人工智能模型，能够理解

发表于 03-17 15:32 •456次阅读

RFID技术三位一体开启智能资产管理新时代

三位一体的RFID解决方案将RFID电子标签、手持机和读写器有机结合，形成完整的资产管理闭环。RFID电子标签作为数据载体，手持机提供移动采集能力，固定读写器实现自动化监控，三者协同工作，构建起智能化的资产管理网络。

发表于 02-21 11:29 •192次阅读

一文详解视觉语言模型

视觉语言模型（VLM）是一种多模态、生成式 AI 模型，能够理解和处理视频、图像和文本。

发表于 02-12 11:13 •863次阅读

【「大模型启示录」阅读体验】如何在客服领域应用大模型

训练模型如BERT、GPT等。这些模型在理解自然语言、生成文本、处理对话等方面具有不同的能力。因此，在选择模型时，需要了解每个

发表于 12-17 16:53

NaVILA：加州大学与英伟达联合发布新型视觉语言模型

(VLM)是一种具备多模态生成能力的先进AI模型。它能够智能地处理文本、图像以及视频等多种提示，并通过复杂的推理过程，实现对这些信息的准确理解和应用。NaVILA正是基于这一原理，通过将大型语言模型(LLM)与

发表于 12-13 10:51 •481次阅读

ADS1284数据采集时，只要24位数据，是取高三位还是低三位？

ADS1284数据采集时，只要24位数据，是取高三位还是低三位？高位是MSB，低位是LSB。

发表于 11-29 08:21

NVIDIA荣登《财富》“100家最适合工作的公司”榜单第三位

NVIDIA 在《财富》杂志和卓越职场（Great Place to Work）最新评选出的“100 家最适合工作的公司”榜单上跃居第三位。

发表于 10-10 09:27 •517次阅读

英伟达推出Eagle系列模型

英伟达最新推出的Eagle系列模型，以其1024×1024像素的高分辨率处理能力，重新定义了视觉信息处理的边界。该模型通过多专家视觉编码器架

发表于 09-03 16:13 •629次阅读

计算机视觉技术的AI算法模型

计算机视觉技术作为人工智能领域的一个重要分支，旨在使计算机能够像人类一样理解和解释图像及视频中的信息。为了实现这一目标，计算机视觉技术依赖于多种先进的AI算法模型。以下将详细介绍几种常

发表于 07-24 12:46 •1310次阅读

三位半和四位半万用表的区别

三位半和四位半万用表是电子测量领域中常用的两种数字万用表，它们在测量精度、显示方式、应用范围等方面存在一定的差异。本文将从多个方面详细分析这两种万用表的区别。一、基本概念三位半万用表三位

发表于 07-14 14:23 •7878次阅读

极化继电器的三位置式的特点是什么

极化继电器是一种特殊类型的继电器，它具有三个位置：正常位置、极化位置和反极化位置。这种继电器广泛应用于电力系统、自动化控制、通信设备等领域。本文将详细介绍极化继电器的三位置式的特点，包括其工作原理

发表于 06-24 09:34 •743次阅读

聆思CSK6视觉语音大模型AI开发板入门资源合集（硬件资料、大模型语音/多模态交互/英语评测SDK合集）

+ 文生图 + 设备控制该示例展示了如何通过大模型实现语音输入意图的理解，实现对话、绘图和控制开发板屏幕颜色进行切换，用户可参考代码与教程自行修改。 4接入自定义应用讲解如何在云端快速建立一个

发表于 06-18 17:33

大语言模型(LLM)快速理解

自2022年，ChatGPT发布之后，大语言模型（LargeLanguageModel），简称LLM掀起了一波狂潮。作为学习理解LLM的开始，先来整体理解一下大语言模型。一、发展历史大

发表于 06-04 08:27 •1414次阅读

【大语言模型：原理与工程实践】大语言模型的评测

和产品化提供了有力的数据支持。对于生活闲聊类评测任务，模型的回答主要从人性化程度、内容质量和社交适应性三个方面进行考察。这些方面共同反映了模型在日常对话中的自然度、流畅度和应变能力

发表于 05-07 17:12

OpenAI推出Vision模型版GPT-4 Turbo，融合文本与图像理解

据悉，此模型沿用GPT-4 Turbo系列特有的12.8万token窗口规模及截至2023年12月的知识库架构，其创新亮点则是强大的视觉理解功能。

发表于 04-10 10:49 •524次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

对话三位IEEE专家：如何理解SAM视觉大模型

评论

VLM（视觉语言模型）详细解析

RFID技术三位一体开启智能资产管理新时代

一文详解视觉语言模型

【「大模型启示录」阅读体验】如何在客服领域应用大模型

NaVILA：加州大学与英伟达联合发布新型视觉语言模型

ADS1284数据采集时，只要24位数据，是取高三位还是低三位？

NVIDIA荣登《财富》“100家最适合工作的公司”榜单第三位

英伟达推出Eagle系列模型

计算机视觉技术的AI算法模型

三位半和四位半万用表的区别

极化继电器的三位置式的特点是什么

聆思CSK6视觉语音大模型AI开发板入门资源合集（硬件资料、大模型语音/多模态交互/英语评测SDK合集）

大语言模型(LLM)快速理解

【大语言模型：原理与工程实践】大语言模型的评测

OpenAI推出Vision模型版GPT-4 Turbo，融合文本与图像理解