0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

对话三位IEEE专家:如何理解SAM视觉大模型

IEEE电气电子工程师 来源:IEEE电气电子工程师 2023-08-23 16:32 次阅读

正在流行的视觉AI大模型SAM究竟是一种什么样的技术,会形成什么样的产业影响?经济观察报就此采访三位IEEE(电气电子工程师学会)专家,解读了视觉大模型SAM技术、应用路线以及对原有产业的影响。

今年4月,Meta公布了一款名为SAM(Segment Anything Model)的技术,这是一款用于图像分割的AI大模型,会对图像进行观察、感知、思考、逻辑推理、得出结果,且操作极其简单,类似于ChatGPT用人类语言对话的方式给机器下命令。

IEEE高级会员、天津理工大学教授、AR/VR技术专家罗训对记者表示,SAM是视觉领域的通用大模型,很多报道中把它比喻成视觉领域的ChatG-PT,SAM和ChatGPT的支撑技术和应用场景都是不同的,但是在通用性这一点上,它们都是当前技术发展趋势的代表者。

SAM技术、应用路线和颠覆性

作为AI的一个重要分支,机器视觉的目标是让计算机模仿人类视觉系统,实现图像和视频的理解和处理。

IEEE数字化转型联合会策略与架构主席汪齐齐对记者表示,高效准确的图像分割结果,对于日常生活和商业场景,甚至科研领域都具有重大意义。正因为如此,其在计算机视觉领域一直是个重要的课题。SAM的图像分割功能,是机器视觉的核心任务之一。过去,机器视觉分割图像的过程需要大量图像标注、堆叠算法,消耗大量算力。如今,SAM更容易地实现了机器视觉的目标。

Meta将SAM大模型和背后数据集一并开源,相关的研究手稿也于今年4月5日发布在arXiv上(用于学术交流的预印本平台),作者有Alexander Kirillov,Eric Mintun等12人。

此后,SAM在开源社区Github上获得大量关注,一些华人学者又照此原理提出了相关的大模型GroundingDI-NO,用于物体检测,不久GitHub上有人再创新,将GroundingDINO和SAM结合,达到了对图像识别、检测、分割的效果。

汪齐齐表示,该模型在准确程度、效率上,达到了惊人的提升。尤其是SAM开源的SA-1B数据库,用巨量的图像以及更加巨量的Mask(这里译为图层遮罩),将有助于许多科研项目和商业化项目在高起点上快速更新迭代,产生更好的模型和更优化的数据。

Meta从AR、VR、内容创建等领域,介绍了SAM的应用场景。中国的专家看到了更广泛的应用场景。

罗训对记者表示,鉴于计算机视觉的广泛应用场景,SAM的发布对产业的影响也会是巨大的,会赋能更多的长尾创新者进入产业,并进一步丰富应用场景和商业模式。

汪齐齐表示,早前人工智能技术就能实现回答用户问题的功能,而Chat-GPT第一次让很多人产生了“生成的回复可以在接受的比例下用于日常、商用和科研”,并因此达到了在这个垂直领域前所未有的高度。目前SAM的分割结果,以及其公开的大量供公众使用的资源来看,SAM在其擅长的垂直领域也达到了相当可观的高度,并会从技术、数据以及对于这个领域的关注度等多方面帮助计算机视觉在短时间内产生大量突破,而计算机视觉,是一个非常重要的“广义AI生态”中的基础设施,该方面的突破将实现对数字化世界的理解和升级,带来质变的效率和价值提升。

IEEE会士、河海大学信息科学与工程学院院长韩光洁对记者表示,SAM将会在自动驾驶、安防控制、医学影像处理等应用领域改变业态布局,甚至引发技术革命。SAM作为一个基础模型,可为这些应用领域快速孵化出适用性更强的专用网络模型。

SAM的变革性可能会颠覆一批原有的AI技术优势。汪齐齐表示,视觉大模型会在相当多的领域抵消技术壁垒,这在任何一次产业技术升级中都多次出现,也是无法避免的。

罗训表示,通用大模型就相当于AI的能力开放平台,之前头部企业的AI能力优势,会因为通用大模型的兴起而被一定程度削弱。但是这些企业是否本身会变弱,取决于它们的转型。

罗训举例称,回顾移动计算在本世纪前十年的变化,iOS和安卓的能力开放平台在赋能长尾创新者方面起到了非常重要的作用,极大增加了移动计算产业规模。在移动计算领域,WindowsMobile和塞班的封闭平台最终因为缺乏竞争力而退出了市场。

汪齐齐表示,作为有核心技术储备和深入理解的企业,首先是需要拥抱大模型,尤其是应该感谢相对公开的大模型,将自己对于产业的理解和领先部分,在大模型的加持下快速升级,演化出更新的形态。同时,计算机视觉领域也一定会有大模型目前还不擅长的领域,仍然可以作为技术壁垒,并在这些方面继续深挖独有优势。

AIGC带来知识和技术的平权?

此前有科技企业表示,AIGC的本质是技术平权和知识平权,这在很大程度上将大厂与小厂拉到了同一起跑线上。

罗训就该观点对记者表示,技术和知识平权的说法并不是很准确,因为之前并没有系统性的歧视。AIGC带来的是“易得”,本质上是市场规模急剧扩大后的成本降低。AIGC会促进整个社会对算力和计算模式使用的转型升级,大规模提高AI使用者的生产效率,同时利好AI软硬件设施生态企业。过程中,巨头和大厂是技术进步的先期投入者,它们在其周期内获取回报也是合理的,因为它们付出了更高的成本,也承担了更大的风险。

汪齐齐认为,AIGC确实带来了一定的技术平权,但技术本身是有一个价值属性的。例如,曾经做网页可以带来不菲的收入,随着工具升级和模板的完善,一个漂亮网页制作难度数量级地下降,但是他带来的价值也产生数量级地下降。

同样,AIGC将一个需要大量技术和知识储备才能产生优质内容的时代,带入轻易产生的优质内容的时代,这会让原有定义的“优质内容”的平均价值急速下降。

汪齐齐表示,AIGC是否带来了知识平权仍然有待商榷。长期来看,AIGC可能会使人们更容易获取到真实有用的知识。但是今天,人们还处于“技术带来了前所未有的体量的知识,也同时让筛选这些知识的可用度达到了前所未有的高成本”。

汪齐齐表示,尽管AIGC可以产生大量的知识和内容,但其准确性和可信度是个挑战,相当部分AIGC是基于老的训练数据,“一本正经供应错误知识”的案例已经有很多。目前在大量、无法辨别真伪的数据和内容的情况下,是否真正达到了知识平权,是要打问号的。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SAM
    SAM
    +关注

    关注

    0

    文章

    112

    浏览量

    33484
  • ChatGPT
    +关注

    关注

    29

    文章

    1547

    浏览量

    7399
  • AIGC
    +关注

    关注

    1

    文章

    352

    浏览量

    1490
  • 大模型
    +关注

    关注

    2

    文章

    2289

    浏览量

    2382

原文标题:对话三位IEEE专家:如何理解SAM视觉大模型

文章出处:【微信号:IEEE_China,微信公众号:IEEE电气电子工程师】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NVIDIA荣登《财富》“100家最适合工作的公司”榜单第三位

    NVIDIA 在《财富》杂志和卓越职场(Great Place to Work)最新评选出的“100 家最适合工作的公司”榜单上跃居第三位
    的头像 发表于 10-10 09:27 312次阅读

    英伟达推出Eagle系列模型

    英伟达最新推出的Eagle系列模型,以其1024×1024像素的高分辨率处理能力,重新定义了视觉信息处理的边界。该模型通过多专家视觉编码器架
    的头像 发表于 09-03 16:13 401次阅读

    计算机视觉技术的AI算法模型

    计算机视觉技术作为人工智能领域的一个重要分支,旨在使计算机能够像人类一样理解和解释图像及视频中的信息。为了实现这一目标,计算机视觉技术依赖于多种先进的AI算法模型。以下将详细介绍几种常
    的头像 发表于 07-24 12:46 564次阅读

    三位半和四半万用表的区别

    三位半和四半万用表是电子测量领域中常用的两种数字万用表,它们在测量精度、显示方式、应用范围等方面存在一定的差异。本文将从多个方面详细分析这两种万用表的区别。 一、基本概念 三位半万用表 三位
    的头像 发表于 07-14 14:23 4531次阅读

    极化继电器的三位置式的特点是什么

    极化继电器是一种特殊类型的继电器,它具有个位置:正常位置、极化位置和反极化位置。这种继电器广泛应用于电力系统、自动化控制、通信设备等领域。本文将详细介绍极化继电器的三位置式的特点,包括其工作原理
    的头像 发表于 06-24 09:34 368次阅读

    聆思CSK6视觉语音大模型AI开发板入门资源合集(硬件资料、大模型语音/多模态交互/英语评测SDK合集)

    + 文生图 + 设备控制该示例展示了如何通过大模型实现语音输入意图的理解,实现对话、绘图和控制开发板屏幕颜色进行切换,用户可参考代码与教程自行修改。 4接入自定义应用讲解如何在云端快速建立一个
    发表于 06-18 17:33

    大语言模型(LLM)快速理解

    自2022年,ChatGPT发布之后,大语言模型(LargeLanguageModel),简称LLM掀起了一波狂潮。作为学习理解LLM的开始,先来整体理解一下大语言模型。一、发展历史大
    的头像 发表于 06-04 08:27 879次阅读
    大语言<b class='flag-5'>模型</b>(LLM)快速<b class='flag-5'>理解</b>

    【大语言模型:原理与工程实践】大语言模型的评测

    和产品化提供了有力的数据支持。 对于生活闲聊类评测任务,模型的回答主要从人性化程度、内容质量和社交适应性个方面进行考察。这些方面共同反映了模型在日常对话中的自然度、流畅度和应变能力
    发表于 05-07 17:12

    苹果与谷歌探索iOS/iPadOS引入Gemini模型

    确认Apple与Google确已开启会谈,下一代iPhone或将搭载Gemini的生成式AI模型三位知情人士表示,如今的谈判尚属初级阶段,潜在交易的具体细节暂未确定。
    的头像 发表于 03-20 10:38 443次阅读

    三位通电磁阀基本结构及工作原理

    三位通电磁阀是一种常用的控制执行元件,广泛应用于各种自动化领域。它们通常用于控制液压、气动系统中的液体和气体的流动,并实现各种不同的控制功能。本文将详细介绍三位通电磁阀的基本结构和
    的头像 发表于 01-24 11:00 4958次阅读

    一种新的分割模型Stable-SAM

    SAM、HQ-SAM、Stable-SAM在提供次优提示时的性能比较,Stable-SAM明显优于其他算法。这里也推荐工坊推出的新课程《如何将深度学习
    的头像 发表于 12-29 14:35 608次阅读
    一种新的分割<b class='flag-5'>模型</b>Stable-<b class='flag-5'>SAM</b>

    matlab怎么取三位数的每一

    在MATLAB中,可以使用一些基本的算术和逻辑运算来取得一个三位数的每一。下面是一种基本的方法: 步骤1: 输入一个三位数 首先,需要在MATLAB中输入一个三位数。可以使用'inp
    的头像 发表于 12-28 14:44 2092次阅读

    请问ADXL355 0X24 REGISTER中的ACT_Z ACT_Y ACT_X是干么用的,测量轴加速度值时需要将这三位都设置为1吗?

    请问ADXL3550X24 REGISTER中的ACT_ZACT_YACT_X是干么用的,测量轴加速度值时需要将这三位都设置为1吗?谢谢!
    发表于 12-28 07:21

    Holtek HT45F5Q 控制三位數七段顯示器 請益

    我用Holtek HT45F5Q 控制三位數七段顯示器,透過根PIN來控制 目前沒辦法個顯示不同的數字,想請教各位大大有沒有想法或是我的程式上有問題,謝謝
    发表于 12-18 15:48

    哈工大提出Myriad:利用视觉专家进行工业异常检测的大型多模态模型

    最近,大型多模态(即视觉和语言)模型(LMM)在图像描述、视觉理解视觉推理等多种视觉任务上表现
    的头像 发表于 11-21 16:08 1679次阅读
    哈工大提出Myriad:利用<b class='flag-5'>视觉</b><b class='flag-5'>专家</b>进行工业异常检测的大型多模态<b class='flag-5'>模型</b>