0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

B200一经面市,就只能做弟弟?Cerebras '巨无霸'能否逆袭成功?

Leena 来源:jf_69140917 作者:jf_69140917 2024-04-09 10:46 次阅读

Cerebras Systems 发布全球最大芯片 WSE3 搭载4万亿个晶体管。与英伟达 B200 GPU 的2080亿晶体管相比较,WSE3 的规模宛如巨人面对侏儒。其打破常规,不再将一个晶圆切割为多个单独芯片,而是巧妙地将一整个12英寸的晶圆转化为一块庞大芯片,总面积达到 46225 平方毫米,相当于84个常规芯片组合在一起。

wKgZomYCnJ6APUQWAAAAK9URceg088.gif

Cerebras 自2015年成立以来,坚持不懈地推出一系列 WSE 芯片,到如今第三代 WSE3,每一步都标志着其对制程工艺的深化掌握,这次更是采用了5纳米工艺,承台积电的技术优势。WSE系列以“世界最大芯片”而驰名,专注于满足AI大模型训练的高性能需求,同时具备出色的推理能力。在这一领域,Cerebras 不仅自立门户,更与高通展开合作,以其推理芯片进一步增强WSE3功能范畴。

wKgZomYCnJ6APUQWAAAAK9URceg088.gif

WSE3发布还伴随一系列承载其强劲计算力的服务器产品——CS1、CS2和CS3,这些服务器产品由AMDCPU赋能,共同构成高效的计算生态,旨在加速现代AI研究及实用性能向前迈进。

凭借其独特的设计理念和规模优势,WSE3预示着 AI 硬件技术的一次飞跃。异常强大的算力背后,是Cerebras对芯片工艺的极致追求与不被常规限制的创新胆识,WSE3正将这份精神通过每一次AI模型的训练和推理,传递至整个科技行业。

尽管有些人可能怀疑 WSE3 不过是一张巨型晶圆,但其真正的价值并不在于其体积,而在于其背后独特的设计理念和架构。WSE3 构造包括84个区域,其中包含高达90万个计算核心,每个区域内含有超过1万个核心。从架构层面来看,由核心(Cores)、芯片单元(Die)以及晶圆(Wafer)共同构成。

wKgZomYCnJ6APUQWAAAAK9URceg088.gif

wKgaomYCnKCAUuHKAAsg70N80iU841.png

Cerebras的计算架构大致可以划分为WSE、SwarmX 和 MemoryX三个部分。在处理大模型训练时,MemoryX存储设备储存权重数据,这些数据由DDR和Flash技术共同构成,最大提供高达1200TB存储空间。该设计意味着巨大数量级的模型参数可以一次性加载到设备中进行处理。在训练过程中,MemoryX上的权重数据将通过SwarmX传输至每个CS系统中的WSE,由WSE处理数据并完成向前传播计算过程,生产出预测值。然后,通过损失函数计算出预测值与真实值间的梯度,用这些梯度进行反向传播计算所有权重的梯度。计算得出的梯度数据随后回到SwarmX,经过汇总处理为全局梯度后送回MemoryX,MemoryX内的计算单元会直接更新权重,为下一轮的训练做准备。

wKgZomYCnJ6APUQWAAAAK9URceg088.gif

wKgZomYCnKCAAwB5AAgVr6DBGP8239.png

Cerebras Systems把一个晶圆的全部晶体管都用上,并未按常规将其切割,而是构建一个具有90万个计算核心的密集网络进行集中处理。松散耦合的计算和存储设计让 Cerebras 的 CS 系列服务器能够轻松实现数据并行,不使用其他复杂的并行训练方法。Cerebras 这一独特设计理念使其成为AI 训练领域的强劲竞争者。

深入探究Cerebras革命性 WSE 芯片会发现,每一颗计算核心都拥有一块48KB的SRAM存储单元。令人惊讶的是48KB被巧妙划分为八个6KB小区域,每个小区以32位宽数据通道进行操作,合起来就是一条256位宽数据高速公路。计算核心在每一个时钟周期都能够处理高达两个64位的读取通道以及一个64位的写入通道,合计可达192位。

wKgZomYCnJ6APUQWAAAAK9URceg088.gif

wKgaomYCnKGAB97sAAnpRZFsrgw582.png

Cerebras的真正威力还在于它的分布式存储与计算架构,使之擅长高效解决非结构化的稀疏计算问题,尤其是那些需要处理海量零值或接近零值数据的场景。为此,WSE3 提供令人震撼的 21PB每秒的片上存储带宽,以及超乎想象的214PB每秒的网络交互带宽。

wKgZomYCnJ6APUQWAAAAK9URceg088.gif

wKgaomYCnKKAO6kRABFzghBM77w378.png

Cerebras的设计理念深入人心,无需切割晶圆,就将所有晶体管整合成一个紧密相连的网络,该网络由高达90万个计算核心组成,实现集中加工处理。与此同时,Cerebras系列的CS服务器得益于计算与存储分离的创新设计,轻松实现数据并行处理,省去其他复杂并行训练方案的需要。这一设计不光为Cerebras赢得了与英伟达抗衡的实力,也为面对越来越庞大的模型规模——我们说的是达到万亿级参数——提供解决方案。在AI训练领域,Cerebras的 Wafer Scale Engine 设计无疑是它的巅峰时刻。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    453

    文章

    50360

    浏览量

    421646
  • 晶体管
    +关注

    关注

    77

    文章

    9629

    浏览量

    137811
  • AI
    AI
    +关注

    关注

    87

    文章

    30072

    浏览量

    268345
收藏 人收藏

    评论

    相关推荐

    北美运营商AT&T认证的费用受哪些因素影响

    申请北美运营商AT&T认证的价格因多种因素而异,包括产品类型、认证范围、测试难度等。般来说,申请AT&T认证的费用可能相对较高,因为AT&T作为北美地区的主要
    的头像 发表于 10-16 17:10 153次阅读
    北美运营商AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T认证的费用受哪些因素影响

    NVIDIA DGX B200首次面向零售市场:配备8块B200 GPU

    10月13日最新消息,NVIDIA的DGX B200 AI服务器近期已在Broadberry上架,标价515,410美元(相当于约364.2万元人民币)。   自发布以来,Blackwell架构就备受业界瞩目,NVIDIA首席执行官黄仁勋对其赞誉有加,微软、Meta等科技巨头也迅速跟进采用。
    的头像 发表于 10-14 14:34 522次阅读

    onsemi LV/MV MOSFET 产品介绍 &amp;amp;amp; 行业应用

    系列MOSFET介绍。4.onsemiLV/MVMOSFET市场&amp;应用。技术亮点onsemi最新代T10系列MOSFET优势&amp;市场前景。学习收获期望了解onsemiSi
    的头像 发表于 10-13 08:06 267次阅读
    onsemi LV/MV MOSFET 产品介绍 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; 行业应用

    无人驾驶遇上&amp;apos;超级WiFi&amp;apos;,低速无人驾驶已成为了主要趋势?

    嘿,各位工业大佬们!今天咱们来聊个又酷又实用的话题 - 工业无人驾驶!不过,别以为这只是在工厂里溜达溜达的小推车,我们要聊的可是能在矿山里"跑酷"的大家伙! 想象下,在个尘土飞扬的露天矿场,几辆
    的头像 发表于 09-10 10:28 203次阅读
    无人驾驶遇上&<b class='flag-5'>amp</b>;<b class='flag-5'>apos</b>;超级WiFi&<b class='flag-5'>amp</b>;<b class='flag-5'>apos</b>;,低速无人驾驶已成为了主要趋势?

    FS201资料(pcb &amp;amp; DEMO &amp;amp; 原理图)

    电子发烧友网站提供《FS201资料(pcb &amp; DEMO &amp; 原理图).zip》资料免费下载
    发表于 07-16 11:24 0次下载

    北美运营商AT&amp;amp;amp;T认证入库产品范围名单相关

    AT&amp;T作为全球领先的通信服务运营商之,通过AT&amp;T认证不仅是对产品质量的认可,更是产品打开北美市场大门的重要凭证。然而,或许您还不清楚AT&amp;T认证入库的产品
    的头像 发表于 06-28 16:58 397次阅读
    北美运营商AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T认证入库产品范围名单相关

    解读北美运营商,AT&amp;amp;amp;T的认证分类与认证内容分享

    在数字化日益深入的今天,通信技术的稳定与安全对于个人、企业乃至整个国家都至关重要。作为北美通信领域的领军者,AT&amp;T直致力于为用户提供高效、可靠的通信服务。而在这背后,AT&amp;T
    的头像 发表于 06-05 17:27 527次阅读
    解读北美运营商,AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T的认证分类与认证内容分享

    特斯拉加码AI布局:xAI将采购30万块英伟达B200芯片

    特斯拉CEO埃隆·马斯克近日在社交平台上公布了项重要消息,旗下的人工智能初创公司xAI计划采购30万块英伟达B200 AI芯片。这大规模采购计划标志着特斯拉在人工智能领域布局的进
    的头像 发表于 06-05 09:21 594次阅读

    英特尔任命Kevin O&amp;apos;Buckley为代工部门负责人

    英特尔近日宣布了项重要的人事任命,Kevin O&apos;Buckley被正式任命为代工部门的新负责人。他将接替即将退休的Stuart Pann,后者在英特尔新的运营模式下,成功创建了代工部门并为其发展奠定了坚实基础。
    的头像 发表于 05-15 09:48 377次阅读

    智向未来,2024高通&amp;amp;广和通边缘智能技术进化日成功举办

    3月28日,2024高通&amp;广和通边缘智能技术进化日在深圳成功举办,多位行业嘉宾和技术专家齐聚堂,深度探讨如何利用多技术融合边缘智能打造数智化社会、推动新质生产力发展。
    的头像 发表于 03-29 10:41 949次阅读
    智向未来,2024高通&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;广和通边缘智能技术进化日<b class='flag-5'>成功</b>举办

    英伟达发布新代AI芯片B200

    在美国加州圣何塞举办的英伟达GTC生态大会上,英伟达CEO黄仁勋以场震撼人心的演讲,正式推出了公司的新代GPU——Blackwell。作为Blackwell家族的首款芯片,B200以其前所未有的性能表现和革命性的技术创新,再
    的头像 发表于 03-20 10:07 915次阅读

    英伟达发布性能大幅提升的新款B200 AI GPU

    英伟达宣称,B200在性能上比以往最好的GPU快30倍不止。由它构成的服务器集群相比上代,运算能力飞跃性提升,甚至能使大语言模型的训练速度翻番。
    的头像 发表于 03-20 09:37 733次阅读

    C程序中可用的存储类有哪些?

    register 存储类用于定义存储在寄存器中而不是 RAM 中的局部变量。这意味着变量的最大尺寸等于寄存器的大小(通常是个词),且不能对它应用元的 &apos;&amp;&
    发表于 03-15 12:32 315次阅读

    深维科技-北京大学合作团队在FPGA&amp;apos;24布线加速竞赛中夺得佳绩!

    美国西部时间2024年3月4日,我司与北大合作团队在FPGA&apos;24布线加速竞赛中获得优异的成绩。
    的头像 发表于 03-07 11:43 1125次阅读
    深维科技-北京大学合作团队在FPGA&<b class='flag-5'>amp</b>;<b class='flag-5'>apos</b>;24布线加速竞赛中夺得佳绩!

    戴尔发布英伟达B200 AI GPU:高功耗达1000W,创新性冷却工程设计必要

    市场传言,这款B200虽然运算性能更强,却又面临着惊人的能耗,最高或可至1000W,同比H100增长超过40%。由于搭载Hopper架构及HBM3e高带宽内存,英伟达B200被行业视为运行速度最高的AI芯片;
    的头像 发表于 03-05 09:30 1859次阅读