Meta第二代自研AI芯片出世，性能提升三倍以上-电子发烧友网

电子发烧友网报道（文/周凯扬）不久前，Meta宣布将花费150亿美元，购置60多万块GPU，而这还没算上系统成本。就当大家以为Meta打算All In GPU之际，Meta放出了下一代MTIA AI 芯片，MTIA v2。

基于5nm打造，性能三倍以上

相较上一代MTIA v1，新的MTIA v2的工艺从台积电的7nm换成了台积电5nm，芯片主频也从800MHz提升至1.35GHz。得益于芯片工艺的改进，即便晶体管数量大幅增加，其芯片面积仅增加了12%。

MTIA v2芯片 / Meta

MTIA v2的性能提升主要体现在算力上，根据Meta给出的数据其GEMM算力达到354TFLOPS/s（INT8），SIMD算力达到11.06TFLOPS/s（INT8），相较上一代均提升了3倍以上。在接口上，MTIA v2也从8xPCIe 4.0升级至8x PCIe 5.0，带宽翻倍。

算力的提升除了归功于工艺的升级外，很可能也不乏内核的升级。结合晶心科技和Meta合作开发数据中心AI处理器的新闻来看，MTIA v1很有可能采用了晶心科技打造的首个商用RISC-V矢量处理器内核NX27V，而MTIA v2则很可能用到了最新的AX45MPV内核，其三倍以上的性能提升幅度也符合MTIA的算力提升幅度，不过这也只是猜想而已。值得一提的是，与同样在近期发布的英特尔Gaudi 3不一样，MTIA v2在内存配置上依旧没有选择HBM，片上内存只有256MB，片外内存选择了LPDDR5。虽然其片上内存拥有2.7TB/s的带宽，但也注定了MTIA v2很难用于高效率的大模型应用。在硬件堆料下，MTIA v2的功耗也已经来到了90W，相比MTIA v1的25有着比较大幅度的增加。不过对比H100的能耗比，MTIA v2依然有着比较大的优势。但这也就意味着上一代的服务器方案可能已经不再适用于新的方案，Meta因此为新加速器打造了全新的机柜系统。该系统单个机架由三个底盘构成，每个底盘塞进了12块板卡，每个板卡集成了2个加速器，也就意味着单个机架共有72个MTIA v2加速器，单机柜至少需要6000W的电源供应。如果想要实现多机架拓展的话，也可以选择加入RDMA NIC。Meta表示实现这样的成绩，除了依靠硬件本身的性能提升之外，也离不开他们在优化内核、编译器、运行时上的努力。随着后续开发生态进一步成熟，对模型针对性优化的时间会进一步减少，而且未来还有不少空间可以继续优化芯片的效率。

软件栈引入新的编译器

随着新硬件的发布，Meta也加大了他们在软件栈上的开发力度。作为PyTorch的开发者，MTIA的软件栈从设计之初就做到了PyTorch 2.0的完全集成，也支持TorchDynamo和TorchInductor等新特性。但与此同时，为了简化应用开发者的工作，为MTIA v1开发的代码，也能向下兼容新的MTIA v2硬件。而且Meta表示，因为已经将全部的软件栈集成在新的MTIA芯片内，在发布之际，他们已经在自己的服务器上用MTIA v2跑了一段时间了。正因为有这种兼容的软件栈方案，Meta可在九个月内就能让商用模型运行在16个地区的服务器上。为了为全新的MTIA硬件生成更高性能的代码，Meta还打造了一套新的Triton-MTIA编译器。Triton是由OpenAI开发的一套开源语言和编译器，用于编写高效的ML计算内核。Triton极大地提高了开发者编写GPU代码的速度，但Meta发现Triton也很适合用于MTIA这样非GPU的硬件架构。

写在最后

从MTIA v2的性能来看，该加速器应该不会替代其购置的大量GPU用在LLM模型上，而是追求算力、内存带宽和内存容量的平衡，用于排名和推荐的大模型上。这样一来大容量的SRAM还是用在GPU上，而Meta最大收入来源的广告业务，可以靠MTIA之类的加速器减少成本。Meta除了投资定制AI芯片和下一代GPU这样的计算芯片外，Meta也强调他们会继续投资内存带宽、网络、容量相关的下一代硬件系统。不仅如此，Meta也在探索增加MTIA的应用范围，包括未来可能支持GenAI的负载。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

Meta

Meta

+关注

关注
0

文章
279

浏览量
11419
AI芯片

AI芯片

+关注

关注
17

文章
1904

浏览量
35181

简单认识第二代高通3D Sonic传感器

目前，已有多款搭载骁龙8至尊版移动平台的新机陆续发布，其中不少机型采用第二代高通3D Sonic超声波指纹解锁，为用户带来了更为便捷、高效的解锁体验。作为高通新一代超声波指纹解锁解决方案，第二代高

发表于 01-21 10:05 •128次阅读

第二代AMD Versal Premium系列器件的主要应用

随着数据中心工作负载持续呈指数级增长，存储层也需要同等的性能提升才能跟上步伐。第二代 AMD Versal Premium 系列器件为各种存储应用提供了巨大优势，包括企业级 SSD、加密/压缩加速器

发表于 01-15 14:03 •138次阅读

借助第二代 AMD VERSAL 实现先进医疗成像

的类型、速率和数量。放眼未来，这类设备中的大部分还需要支持 AI 功能的执行和加速，例如感兴趣区域（ ROI ）选择、图像分类和其他 AI 任务。 第二代 Versal 自适应 SoC 配备的处理系统可提供比前代至高多出 10

发表于 12-04 09:13 •110次阅读

简单认识第二代高通Oryon CPU

在不久前的2024骁龙峰会上，备受瞩目的新一代骁龙旗舰移动平台——骁龙8至尊版正式发布。这款以“至尊版”命名的全新平台也是首个采用第二代高通Oryon CPU的移动平台。凭借领先的CPU、GPU

发表于 11-13 09:43 •458次阅读

AMD推出第二代Versal Premium系列

近日，AMD（超威，纳斯达克股票代码：AMD ）今日宣布推出第二代 AMD Versal Premium 系列，这款自适应 SoC 平台旨在面向各种工作负载提供最高水平系统加速。第二代 Versal

发表于 11-13 09:27 •448次阅读

一加正式发布第二代东方屏，获全球首个DisplayMate A++认证

近日,一加携手京东方正式发布第二代东方屏,并宣布将在年度旗舰产品一加 13 中首发搭载。去年,一加联合京东方打造出世界上最好的屏幕——东方屏,这是一次中国屏幕历史级的突破。本次发布的第二代东方屏,在

发表于 10-21 17:32 •325次阅读

AMD第二代Versal自适应SoC的主要特色

AMD 第二代 AMD Versal AI Edge 和 Versal Prime 系列助力 AI 驱动型和经典的嵌入式系统实现单芯片智能性。可在性

发表于 09-18 10:14 •602次阅读

第二代AMD Versal Prime系列自适应SoC的亮点

第二代 Versal Prime 系列自适应 SoC 是备受期待的 Zynq UltraScale+ MPSoC 产品线的继任产品，该产品线已广泛应用于广播与专业音视频行业的设备中。第二代

发表于 09-14 15:32 •485次阅读

新品 | 采用第二代1200V CoolSiC™ MOSFET的集成伺服电机的驱动器

TO-263-7封装的第二代1200VCoolSiCMOSFET。采用IMBG120R040M2H作为三相逆变器板的功率开关。驱动电路采用了具有米勒钳位功能的EiceDRI

发表于 09-05 08:03 •370次阅读

第二代SiC碳化硅MOSFET关断损耗Eoff

第二代SiC碳化硅MOSFET关断损耗Eoff

发表于 06-20 09:53 •580次阅读

AMD发布第二代Versal自适应SoC，AI嵌入式领域再提速

AMD表示，第二代Versal系列自适应SoC搭载全新的AI引擎，相较上一代Versal AI Edge系列，每瓦TOPS功率可实现最多3倍

发表于 04-11 16:07 •872次阅读

AMD 以全新第二代 Versal 系列器件扩展领先自适应 SoC 产品组合，为 AI 驱动型嵌入式系统提供端到端加速

第二代 Versal 系列产品组合中首批器件借助下一代 AI 引擎将每瓦 TOPS 提升至高 3 倍，同时将基于 CPU 的标量算力较之第一

发表于 04-09 16:50 •4539次阅读

瑞芯微第二代8nm高性能AIOT平台 RK3576 详细介绍

RK3576处理器 RK3576瑞芯微第二代8nm高性能AIOT平台，它集成了独立的6TOPS（Tera Operations Per Second，每秒万亿次操作）NPU（神经网络处理单元），用于

发表于 03-12 13:45

Meta拟将自研AI芯片交由三星代工

Meta正在积极拓展其AI技术领域，寻求与新的芯片代工伙伴合作。据外媒报道，Meta CEO扎克伯格在近期访问韩国期间，与三星高层深入探讨了

发表于 03-08 13:55 •704次阅读

三星半导体将其“第二代3纳米”工艺正式更名为“2纳米”！

近期，科技巨头三星半导体做出了一个引人注目的决策：将其“第二代3纳米”工艺正式更名为“2纳米”。

发表于 03-06 13:42 •1158次阅读