0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

存内计算并不满足于现有的算力

E4Life 来源:电子发烧友网 作者:周凯扬 2022-05-11 00:08 次阅读

谈到存内计算,大部分人的第一印象就是超低功耗和大算力。存内计算技术打破了冯诺依曼架构的限制,冲破了内存墙,为半导体产业带来了新的创新。但你可能会问,存内计算的应用场景到底有哪些呢?

边缘计算的下一步

边缘计算可以说是众多存内计算技术与公司走的第一步,存内计算凭借其低功耗的特性,可穿戴等端侧设备可以说是为该技术量身定制的。在其架构的优越性之下,存内计算又比一众传统边缘AI芯片有着更加可观的算力。所以,对于智能手表、智能眼镜这类对功耗需求高,又有一定AI计算需求的应用来说,存内计算芯片无疑是不二之选。

不过如今的MCU已经将功耗降到了极低的水准,部分也能完成一些简单的AI运算,如果仅仅是在语音识别、事件检测这些应用上来竞争的话,即便这些存内计算有优势,可能在实际使用过程中,除了续航之外,用户的切身感知到的变化会比较小。

WTM2101存内计算芯片 / 知存科技


但边缘计算并不只局限于此,还有图像处理这一老大难亟待解决,这一应用相比上述那些又有着更高的算力要求。国内领先的存内计算公司知存科技近日透露,他们正在打造算力更强的下一代存内计算芯片就是面向超清视频处理的,根据其给出的演示所示,该芯片主要针对AI插帧、AI超分辨率、AI视频降噪和AI高动态分辨率,这些在边缘端感知更加明显的AI应用。

而以上这些AI应用,也仅仅只是存内计算往智能手机等消费级边缘端走的下一步,边缘AI芯片的终极目标都是自动驾驶。如若能做到更高的算力,存内计算芯片就有机会冲进汽车市场,与自动驾驶芯片的玩家硬碰硬。

超越GPU的算力

既然存内计算已经证实了自己在边缘端的算力优势,那有没有机会与GPU这类算力猛禽一决高下呢?我们以波动仿真为例,波动仿真在许多应用中都有普及,比如医学影像、石油勘探、减轻地震灾害以及国防系统等。然而大部分应用在使用波动仿真时,都要用到超级计算机对波动方程多重求解。虽然这类应用不像可穿戴一样,对于成本和体积要求不高,但对于速度和能耗还是比较重视的。

目前主导的波动仿真解决方案还是CPU和GPU,但由于本身的并行性缺失,即便是高端的CPU运行再小的问题,也需要大量时间才能完成计算。而GPU凭借其巨大的内存带宽优势,无疑拥有着更高的速度。即便如此,在实际应用中,波动仿真是一个极端的数据移动过程,GPU依然会遇到瓶颈,即便几百GB/s的内存带宽没法免受影响,最终导致用于数据移动的功耗甚至高于计算的功耗。

而存内计算可以减少处理器之间的数据移动,因为它消除了片外与片内存储之间的数据移动,但存内之间的数据移动依然是一大问题。埃克森美孚的研究人员就想出了Wave-PIM这种存内计算方案,利用超大规模集成电路常用的H树架构,来减少内存区块之间数据移动的延迟。他们以900GB/s带宽的16GB HBM2内存进行模拟,得出了52.8TFLOPS(FP32)的成绩,超过了Tesla V100 GPU。这证明了存内计算芯片,即使是在服务器级和HPC级的应用上,也有着独到的优势。

UPMEM PIM / UPMEM


不过如今GPU内存带宽已经随着HBM3和英伟达的H100芯片做到了3TB/s,而业界目前在内存带宽上占优的存内计算方案,法国公司UPMEM的DDR4 PIM,也只做到了2.5TB/s。哪怕存内计算有着功耗上的巨大优势,但性能上要想进一步超越GPU,还是需要更先进的内存技术和更多的架构创新。好在如今越来越多的公司开始走上存内计算的商业化尝试,存储厂商们虽然还没有确定走这一方向,但存内计算与其发展技术并无冲突,而且从生产创新和投资方向来看,他们已经开始布局这一技术了,未来高性能计算上很有可能出现存储厂商与GPU厂商互卷的情况。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 半导体产业
    +关注

    关注

    6

    文章

    509

    浏览量

    34296
  • 边缘计算
    +关注

    关注

    22

    文章

    3063

    浏览量

    48617
  • 算力
    +关注

    关注

    1

    文章

    925

    浏览量

    14736
收藏 人收藏

    评论

    相关推荐

    科技启动首届计算创新大赛

    计算作为一项打破“内存墙”“功耗墙”的颠覆性技术,消除了的界限,相比CPU或GPU能够实现更高
    的头像 发表于 11-21 10:44 112次阅读

    科技荣获2024中国AI层创新企业

    科技入榜【2024中国AI层创新企业】,凭借在创新计算芯片领域的高能效
    的头像 发表于 11-06 15:30 304次阅读

    aic3106作为slave,sclk与Wclk是否可以不满足sclk=2*wclk*采样位数?

    I2S作为master,aic3106作为slave,sclk与Wclk是否可以不满足sclk=2*wclk*采样位数? 求回复
    发表于 10-17 07:02

    并重:数据时代的双刃剑

    在2024年的今天,人工智能(AI)技术已经全面渗透至我们生活的方方面面,从医疗诊断到智能交通,从金融分析到智能家居,AI正以前所未有的速度重塑我们的世界。这一变革背后,
    的头像 发表于 10-08 16:00 714次阅读

    当运放用作比较器时,虚短特性是不满足的,为什么还会出现?

    以及示波器显示): 比较器不是应该不满足虚短特性吗?但是在这里却满足了,而且输出电压的计算公式也只有在虚短满足时才能达到示波器显示的效果! 这里实在有些困惑,希望Ti的朋友们能给点指
    发表于 09-18 06:12

    科技推动新一代计算芯片产品产业化进程

      6月3日,知科技总部启航仪式在杭州临平小镇正式举行,标志着公司在计算芯片领域开启技
    的头像 发表于 06-05 17:16 1108次阅读

    计算原理分类——数字计算与模拟计算

    数字计算与模拟计算各有优劣,都是
    的头像 发表于 05-21 16:26 2200次阅读
    <b class='flag-5'>存</b><b class='flag-5'>内</b><b class='flag-5'>计算</b>原理分类——数字<b class='flag-5'>存</b><b class='flag-5'>内</b><b class='flag-5'>计算</b>与模拟<b class='flag-5'>存</b><b class='flag-5'>内</b><b class='flag-5'>计算</b>

    计算——助力实现28nm等效7nm功效

    当的性能。一体尝试通过集成存储和计算在一个芯片甚至一个容器,来突破访限制,发挥芯片的最大
    的头像 发表于 05-17 15:03 1740次阅读
    <b class='flag-5'>存</b><b class='flag-5'>内</b><b class='flag-5'>计算</b>——助力实现28nm等效7nm功效

    计算WTM2101编译工具链 资料

    计算是突破物理极限的下一代技术- AIGC等人工智能新兴产业的快速发展离不开
    发表于 05-16 16:33

    探索计算—基于 SRAM 的计算与基于 MRAM 的一体的探究

    本文深入探讨了基于SRAM和MRAM的一体技术在计算领域的应用和发展。首先,介绍了基于SRAM的逻辑
    的头像 发表于 05-16 16:10 2527次阅读
    探索<b class='flag-5'>存</b><b class='flag-5'>内</b><b class='flag-5'>计算</b>—基于 SRAM 的<b class='flag-5'>存</b><b class='flag-5'>内</b><b class='flag-5'>计算</b>与基于 MRAM 的<b class='flag-5'>存</b><b class='flag-5'>算</b>一体的探究

    生态构建重要一环- 计算工具链

    本篇文章重点讲述计算相关工具链,我们将从工具链定义出发,依次讲述工具链研究背景及现有工具链、
    的头像 发表于 05-16 14:37 1040次阅读
    <b class='flag-5'>存</b><b class='flag-5'>内</b>生态构建重要一环- <b class='flag-5'>存</b><b class='flag-5'>内</b><b class='flag-5'>计算</b>工具链

    计算技术工具链——量化篇

    本篇文章将重点讲述计算技术工具链之“量化”,我们将从面向计算芯片的深度学习编译工具链、神
    的头像 发表于 05-16 12:35 1125次阅读
    <b class='flag-5'>存</b><b class='flag-5'>内</b><b class='flag-5'>计算</b>技术工具链——量化篇

    十问:超,通

    邬贺铨指出,现有测算方法难以精准衡量。国内企业服务器的出货量并不等于国内市场的使用量,而且进口国外的服务器未统计在内;服务器出货量也不等于上架量,更不等于已经加电使用量。通常服务器
    的头像 发表于 04-13 11:40 4221次阅读

    浅谈为AI大而生的-体芯片

    大模型爆火之后,一体获得了更多的关注与机会,其原因之一是因为一体芯片的裸相比传统架构
    发表于 12-06 15:00 366次阅读
    浅谈为AI大<b class='flag-5'>算</b><b class='flag-5'>力</b>而生的<b class='flag-5'>存</b><b class='flag-5'>算</b>-体芯片

    AD9681输出赋值不满足LVDS电平要求怎么处理?

    各位大神,本人在使用AD9681芯片时遇到一个奇怪的问题,一共使用了12片AD9681,其中有几片AD9681输出电平(LVDS接口)不满足要求。 具体情况如下:AD转换以后的数据通过FPGA进行
    发表于 12-06 06:13