寒武纪首颗AI训练芯片：7纳米制程且算力提升四倍-电子发烧友网

1月21日，寒武纪思元290智能芯片及加速卡、玄思1000智能加速器在官网低调亮相，寒武纪表示该系列产品已实现规模化出货。去年，寒武纪招股书曾简单披露了一款训练芯片的“彩蛋”，此后，寒武纪思元290芯片就一直被业界广泛关注并引发行业诸多猜想。如今，随着新一代训练产品线集中亮相，寒武纪略显“神秘”的训练芯片及相应的业务布局逐渐清晰。

思元290智能芯片是寒武纪的首颗训练芯片，采用台积电7nm先进制程工艺，集成460亿个晶体管，支持MLUv02扩展架构，全面支持AI训练、推理或混合型人工智能计算加速任务。寒武纪MLU290-M5智能加速卡搭载思元290智能芯片，采用开放加速模块OAM设计，具备64个MLU Core，1.23TB/s内存带宽以及全新MLU-Link™多芯互联技术，在350W的最大散热功耗下提供AI算力高达1024 TOPS（INT4）。

寒武纪玄思1000智能加速器，在2U机箱内集成4颗思元290智能芯片，高速本地闪存、Mellanox InfiniBand网络，对外提供高速MLU-Link™接口，打破智能芯片、服务器、POD与集群的传统数据中心横向扩展架构，实现AI算力在计算中心级纵向扩展，是AI算力的高集成度平台。寒武纪训练产品线采用自适应精度训练方案，面向互联网、金融、交通、能源、电力和制造等领域的复杂AI应用场景提供充裕算力，推动人工智能赋能产业升级。

思元290采用MLUv02扩展架构

MLUv02架构为寒武纪MLU200全产品线共享，满足云、边、端三个场景的算力需求。云端训练对AI算力的要求更为苛刻，因此寒武纪对思元290的MLUv02架构进行了多项扩展，包括业内领先的MLU-Link™多芯互联技术、高带宽HBM2内存、高速片上总线NOC以及新一代PCIe 4.0接口。相比寒武纪思元270芯片，思元290芯片实现峰值算力提升4倍、内存带宽提高12倍、芯片间通讯带宽提高19倍。新架构结合7nm制程，思元290可提供更优性能功耗比，以及多MLU系统的扩展能力。

MLU290的MLUv02架构进行了多项扩展

寒武纪MLU-Link™多芯互联技术

近年来，AI算法模型的复杂程度高速增长，对算力和训练速度提出了更高的要求。为了构建更强大的计算平台，多芯片间的互联技术已成为市场刚需。

寒武纪推出MLU-Link™多芯互联技术，并首次搭载于寒武纪思元290芯片，每颗思元290的多芯互联总带宽高达600GB/s。MLU-Link™具备丰富的互联特性，突破PCIe带宽和互联的瓶颈，相比思元270芯片通过PCIe并行的通讯方式，带宽提高19倍。MLU-Link™多芯互联技术支持多颗思元芯片无缝互联，支持跨系统互联，将纵向扩展能力整合到整个人工智能计算中心（AIDC），可以端到端加速大型AI模型训练。

寒武纪vMLU解决方案

不同场景下的AI训练对计算和存储的要求千差万别，如何提供更灵活也更稳定的服务，但同时让算力得到充分地利用，是AIDC面临的持续挑战。寒武纪虚拟化技术vMLU，支持在思元290上实现4个相互隔离的AI计算实例，每个实例独占计算、内存和编解码资源。实例之间的硬件资源互不干扰，即使在虚拟化环境下仍可保持90%以上的极高效率，帮助客户充分利用硬件资源。

vMLU还可以帮助思元290芯片提供最佳的灵活性。通过热迁移技术，云管理员可将正在运行的AI负载及其应用程序移动到另外一台主机上，从而平衡整个AIDC的负载，并实现更好的容灾功能。

寒武纪首款训练智能加速卡MLU290-M5

寒武纪MLU290-M5智能加速卡搭载了思元290智能芯片，采用开放加速模块OAM设计，具备64个MLU Core，1.23TB/s 内存带宽以及全新MLU-Link™多芯互联技术，在350w的最大散热功耗下提供AI算力高达1024 TOPS(INT4)。

寒武纪首款智能加速器玄思1000

寒武纪首款智能加速器玄思1000包含4片思元290智能加速卡，最大AI算力超过4100万亿次每秒(4.1 PetaOPS INT4)，一台玄思1000计算单元就足以替代一个小型传统超级计算中心。

玄思1000内置高带宽低延时的MLU-Link™多芯互联技术，实现内部4颗思元290进行高速互联，同时打破服务器、紧耦合微集群（POD）与集群的传统数据中心横向扩展架构，将AIDC构建为节点、POD乃至超大规模混合扩展架构(Hybrid Scale-out)，实现AI算力计算中心级纵向扩展，满足高性能、高扩展性、灵活性、高鲁棒性的要求。

重塑AIDC基础架构

算力、算法、数据是人工智能发展的三大要素，随着这几年AI的逐步发展，算力的核心地位更为凸显。人工智能技术落地于实际应用中需要芯片和硬件层面强大的算力支撑。算力已成为驱动AI产业化和产业AI化发展的关键要素。

下一代AIDC要求更多智能芯片无缝协同、并行运行的同时，还能保持高计算效率，从而提供超级巨大的算力，以应对超大规模训练的需要。寒武纪玄思1000智能加速器重新思考了未来AIDC的基础架构，在内部和外部采用统一的MLU-Link™多芯互联技术进行通讯，使得思元290智能芯片的互联范围可以从单机扩展到POD乃至整个计算中心，重塑了基础架构。

玄思1000配置8个对外互联的MLU-Link™接口，支持跨系统互联构建MLU POD。标准配置支持MLU POD 16、24、32。在POD内部，所有290芯片均可通过MLU-Link™多芯互联技术进行通讯，在带宽和延时方面实现了突破；POD外部通过玄思1000内置的网卡与其他系统进行通讯，实现了AI训练集群性能、扩展性和鲁棒性的协同提升。

POD内所有思元芯片通过MLU-Link™全互联

除了标准配置的POD之外，在计算中心条件允许的前提下，通过MLU-Link™多芯互联技术，可实现1024颗或更多思元290互联，不需要额外的网卡即可实现无缝加速。

寒武纪Neuware™训练软件栈

寒武纪Neuware™软件栈为思元 290 芯片提供完善的软件及应用生态，支持业界主流的TensorFlow和PyTorch等深度学习框架，用户不需要改变使用习惯，即可在思元290芯片上实现图形图像、语音、NLP、搜索推荐等多种应用的训练和推理。其中，基于Horovod分布式训练框架与MLU-Link™多芯互联技术相互配合，让思元290在单机多卡、多机多卡的场景下达到业界领先的训练加速比。寒武纪Neuware™提供完善的开发工具包和社区支持，帮助用户在思元290芯片进行方便、灵活的定制开发及部署工作。配合强大的BANG智能编程语言及配套调试工具，用户可以为自定义的算法提供最佳性能调优。

2021年1月，IDC发布了《2020-2021 中国人工智能计算力发展评估报告》，该报告预计，中国人工智能市场规模在2020年达到62.7亿美元，2019-2024年的复合增长率为30.4%。IDC的调研还发现，超过九成的企业正在使用或者计划在三年内使用人工智能，其中74.5%的企业期望在未来可以采取具备公用设施意义的人工智能基础设施。

随着AI算法突飞猛进的发展，越来越多的模型训练需要巨量的算力支撑才能快速有效地实施，算力是未来人工智能应用取得突破的决定性因素。值得强调的是，在巨量的人工智能市场中，云服务市场表现更为突出。早前，2020年7月，IDC发布的另一份报告显示，2018至2024年，中国AI云服务市场年复合增长率将达到93.6%。而目前人工智能芯片仍处于成长期，未来三年，人工智能芯片市场将呈现多元化发展趋势。

寒武纪290产品线，有望在持续高速增长的人工智能市场尤其是云服务市场，抢占更多的市场份额，推动自身和AI行业的发展。据悉，寒武纪思元290芯片及加速卡已与部分硬件合作伙伴完成适配，并已实现规模化出货。

寒武纪最初布局终端IP场景，连续迭代推出让其声名鹊起的寒武纪1A、寒武纪1H、寒武纪1M系列处理器，而后迅速布局云端智能芯片及加速卡系列产品思元100和思元270，又于2019年推出基于思元220芯片的边缘智能加速卡。由此建立起覆盖云边端、训练、推理的完整产品矩阵，同时利用平台级基础系统软件Cambricon Neuware，连接全线产品，由点及面，实现了“训推一体、端云融合”。寒武纪也成为目前国际上少数几家全面系统掌握了通用型智能芯片及其基础系统软件研发和产品化核心技术的企业之一。

以寒武纪一年迭代推出一到两款新品的研发速度，我们有理由开始期待，寒武纪的下一个新品 “彩蛋” 了。

fqj

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

芯片

芯片

+关注

关注
457

文章
51345

浏览量
428237
寒武纪

寒武纪

+关注

关注
11

文章
192

浏览量
73978

寒武纪3000亿市值与GPU厂商密集IPO，AI芯片正是当打之年

电子发烧友网报道（文/黄晶晶）就在最近，寒武纪市值冲上3000亿元，创造了半导体企业的市值奇迹。2024年1月10日收盘当天寒武纪股价报729.97元，上涨2.48%，市值3047亿元。盘中最

发表于 01-20 08:16 •2841次阅读

<b class='flag-5'>寒武纪</b>3000亿市值与GPU厂商密集IPO，<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>正是当打之年

寒武纪增资全资子公司上海寒武纪

，对上海寒武纪进行增资。此次增资是基于募投项目的实施进展而做出的决策。寒武纪作为一家在人工智能芯片领域具有领先地位的企业，一直致力于推动相关技术的研发和应用。为了进一步提升公司的竞争

发表于 02-05 13:44 •171次阅读

寒武纪发布2024年度业绩预告

。这一成绩彰显了寒武纪在智能芯片市场的强劲竞争力和持续拓展能力。然而，在净利润方面，寒武纪仍面临一定的挑战。公司预计归属于母公司所有者的净利润将亏损3.96亿元到4.84亿元之间，虽

发表于 01-15 10:30 •256次阅读

英国政府计划大幅提升AI算力

近日，英国首相斯塔默宣布了一项雄心勃勃的计划，承诺到2030年，英国政府将采购多达10万块图形处理器(GPU)，以大幅提升英国的AI算力水平。据悉，这一举措旨在将英国主权

发表于 01-14 14:18 •204次阅读

企业AI算力租赁模式的好处

构建和维护一个高效、可扩展的AI算力基础设施，不仅需要巨额的初期投资，还涉及复杂的运维管理和持续的技术升级。而AI算

发表于 12-24 10:49 •337次阅读

台积电2纳米制程技术细节公布：性能功耗双提升

显著提升，提升幅度高达15%。同时，在功耗控制方面，N2制程也展现出了卓越的能力，功耗降低了30%，能效得到了大幅提升。 N2制程技术的卓越

发表于 12-19 10:28 •357次阅读

AI网络物理层底座：大算力芯片先进封装技术

随着人工智能（AI）技术的迅猛发展，我们正站在第四次工业革命的风暴中，这场风暴也将席卷我们整个芯片行业，特别是先进封装领域。Chiplet是实现单个芯片

发表于 09-11 09:47 •876次阅读

<b class='flag-5'>AI</b>网络物理层底座：大<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>芯片</b>先进封装技术

算力概念股寒武纪20cm涨停市值重回千亿

大涨。在AI火爆的背景下，业界多认为AI推动算力需求攀升，相关企业有望持续受益。AI芯片企业

发表于 07-17 15:30 •704次阅读

寒武纪2023年报出炉：营收稳健亏损收窄毛利率达69.16%

年报信息显示，寒武纪全年实现收入7.09亿元人民币，其中毛利率达到69.16％，比去年提高了3.40个百分点。在经历过上年度寛泛亏损之后，本年度盈利情况明显改善，向股东返还利润407913000元，降幅达32.47％。

发表于 04-30 09:39 •962次阅读

AMD推出锐龙8000嵌入式处理器，AI算力高达39 T

此款CPU选用4纳米制程、AMD基于“Zen 4”架构的CPU核心以及使用RDNA 3架构GPU和XDNA架构NPU，实现高达39TOPS的AI算力，其中NPU

发表于 04-03 10:39 •1010次阅读

“AI芯片第一股”，7年亏损近50亿！

下降2.70%。归母净利润为-83,561.40 万元，较上年同期亏损收窄33.50%。虽然，寒武纪的亏损较往期有所降低，但营收依旧赶不上亏损。此外，这也是有着“AI芯片第一股”之称的寒武纪

发表于 03-05 09:24 •749次阅读

“AI芯片第一股”寒武纪发布2023年度业绩快报亏8.36亿元！

“AI芯片第一股”寒武纪（688256）在2024年2月28日发布2023年度业绩快报。

发表于 03-04 13:41 •1005次阅读

潞晨科技Colossal-AI + 浪潮信息AIStation，大模型开发效率提升10倍

的潞晨科技Colossal-AI系统，用户可实现在本地算力平台一键训练、微调、推理、部署大模型，将大模型开发效率提升10

发表于 03-01 09:43 •563次阅读

英特尔宣布推进1.4纳米制程

，台积电和三星已经推出3纳米制程芯片，而英特尔则刚刚实现了5纳米制程。然而，这一决定表明英特尔有意在制程技术领域迎头赶上，计划在未来几年内推出更为先进的1.4

发表于 02-23 11:23 •540次阅读

台积电领跑半导体市场：2纳米制程领先行业，3纳米产能飙升

台积电预期，目前营收总额约 70% 是来自 16 纳米以下先进制程技术，随着 3 纳米和 2 纳米制程技术的贡献在未来几年渐增，比重将会继续增加，预估未来成熟

发表于 02-21 16:33 •890次阅读

搜索历史

寒武纪首颗AI训练芯片：7纳米制程且算力提升四倍

评论