新型的FPGA器件将支持多样化AI/ML创新进程-电子发烧友网

作者：郭道正

职务：Achronix半导体中国区总经理

近日举办的GTC大会把人工智能/机器学习（AI/ML）领域中的算力比拼又带到了一个新的高度，这不只是说明了通用图形处理器（GPGPU）时代的来临，而是包括GPU、FPGA和NPU等一众数据处理加速器时代的来临，就像GPU以更高的计算密度和能效胜出CPU一样，各种加速器件在不同的AI/ML应用或者细分市场中将各具优势，未来并不是只要贵的而是更需要对的。

此次GTC上新推出的用于AI/ML计算或者大模型的B200芯片有一个显著的特点，它与传统的图形渲染GPU大相径庭并与上一代用于AI/ML计算的GPU很不一样。在其他算力器件品种中也是如此，AI/ML计算尤其是推理应用需要一种专为高带宽工作负载优化的新型FPGA，下面我们以Achronix的Speedster7t FPGA芯片为例来看看技术的演进方向，以及在实际推理应用中展现出来的在性价比和能效比等方面优于先进GPU的特性。

先来快速看看Speedster7t的产品亮点：该器件集成了800K到1500K等效逻辑单元以及326K到692K 6输入查找表（LUT），高达120T算力的机器学习处理单元(MLP),同时还配备了高性能存储和I/O接口，以及最高可达190Mb的嵌入式存储容量。在外部连接接口部署上，Speedster7t包含16个GDDR6通道，可提供高达4 Tbps的高速存储带宽；32对SerDes通道，支持1-112Gbps的数据速率；4个400G以太网端口（4× 400G或16× 100G）和2个PCIe Gen5端口，支持16通道（×16）和8通道（×8）配置。

Achronix的Speedster7t FPGA芯片被用户认为非常适合AI/ML推理原因是：足够的算力，灵活可配的计算精度；高带宽大容量低成本的GDDR6（4Tbps带宽， 32GB容量）；革命性的全新二维片上网络（2D NoC）路由架构；灵活通用的芯片间互联；支持用户基于该芯片开发自定义的推理系统，比如单板多片FPGA甚至多板互联以组成更高性能（如1TBbps/64GB，2TBbps/128GB, 4TBbps/256GB…等更高带宽和更大容量的计算存储）以支持更大或超大模型推理部署。

简而言之，相比传统的推理算力平台，Speedster7t FPGA可以提供更高性价比和能耗比的大模型推理能力；另外，在传统的FPGA处理功能中，越来越多的用户在该系统中加入机器学习的能力， Speedster7t FPGA能很好胜任传统FPGA功能和高性能机器学习融合在一起。

一类创新性的高性能FPGA系列产品

Achronix Speedster®7t系列FPGA基于革命性的FPGA架构，该架构经过了高度优化提供了高速、高带宽内外连接，可以满足日益增长的人工智能/机器学习、网络密集型和数据加速应用的需求。Speedster7t系列FPGA芯片具有一个革命性的全新二维片上网络，以及一个针对人工智能/机器学习进行优化的高密度的机器学习处理单元阵列。通过将FPGA的可编程性与类似ASIC路由架构和计算引擎相结合，Speedster7t系列提高了高性能FPGA的标准。

全新的二维片上网络（2D NoC）提供ASIC级别的性能

Speedster7t系列FPGA芯片具有革命性的2D NoC，可在整个FPGA逻辑阵列中传输数据，并将数据传输到高性能I/O和内存子系统，同时可提供高达20 Tbps的总带宽。凭借2D NoC，在Speedster7t FPGA芯片不需要消耗任何可编程逻辑资源的情况下来进行数据传输。在该芯片上的2D NoC提供了20 Tbps的二维片上网络总带宽；该2D NoC不仅覆盖了芯片全域，而且还连接到各类高速接口和总带宽高达4 Tbps的高速存储接口。

高速接口

无论是支持输入和输出的数据流，还是存储缓冲这些数据，对于高性能计算、机器学习和硬件加速解决方案而言，都需要在片内和片外传输数据。Speedster7t系列FPGA芯片的架构可支持前所未有的带宽。包括：

400G以太网：Speedster7t系列FPGA芯片支持多达4个400GbE端口或16个100GbE端口，通过2D NoC连接到FPGA逻辑。

PCI Express Gen5：Speedster7t系列FPGA芯片配备了多个PCle Gen5接口，支持速率达32GT/s。

存储接口：GDDR6 + DDR4/5

Speedster7t器件是唯一在片上支持GDDR6存储器的FPGA，以最低的DRAM成本（每存储位）提供最快的SD RAM访问速度。Speedster7t系列FPGA芯片具有高达4 Tbps的GDDR6带宽，以很低的成本就可提供相当于基于HBM的FPGA存储器带宽。Speedster7t系列FPGA芯片包括了DDR4/5存储器接口，以支持更深入的缓冲需求。PHY和控制器支持由JEDEC规范定义的所有标准功能。

机器学习处理单元

每个Speedster7t FPGA器件都具有可编程的数学计算单元，这些单元被集成至全新的机器学习处理单元（MLP）模块中。每个MLP都是一个高度可配置的计算密集型模块，具有多达32个乘法器/累加器（MAC），支持4到24位整数格式和各种浮点模式，包括Tensorflow的bfloat16格式以及高效的块浮点格式，大大提高了性能。

MLP模块包括紧密集成的嵌入式存储器模块，以确保机器学习算法将以750 MHz的最高性能运行。这种高密度计算和高性能数据传输的结合造就了高性能机器学习处理结构，该结构可提供市场上基于FPGA的极高TOPS级别运算能力（TOPS即Tera-Operations Per Second，每秒万亿次运算）。

图中文字说明：Register File - 寄存器文件，Fracturable Adder/Accumulator - 可拆分的加法器/累加器，Float MAC - 浮点乘累加单元（MAC），Memory Cascade in - 存储器级联，Operand Cascade in - 操作数级联。

设计工具支持

Achronix Tool Suite工具套件是一个支持所有Achronix硬件产品的工具链。它可与行业标准的逻辑综合和仿真工具结合使用，从而使FPGA设计人员能够轻松地将其设计映射到Speedster7t FPGA器件中。Achronix Tool Suite工具套件包括Synopsys的Synplify Pro的优化版本和Achronix Snapshot调试器。Achronix仿真库由Siemens EDA的ModelSim、Synopsys的VCS和Aldec的Riviera-PRO提供支持。

展望：在推理等领域帮助开发者打造综合性能优于先进GPU的应用

随着AI/ML技术在各个领域开始广泛走进应用，Achronix根据Speedster7t FPGA器件的高性能和高带宽特性，选择了推理这一个应用面非常广的技术市场方向，与合作伙伴加大了在Speedster7t FPGA器件上的推理算法和IP的研发，以期帮助更多的创新者实现突破。

该芯片提供了足够的算力，并利用其片上搭载的二维片上网络（2D NoC）和机器学习处理单元（MLP），各种高速接口和GDDR6高带宽存储接口，提供了用于大规模推理应用需要的计算器件内外连接、硬件加速和存储调用等新技术，从而可以支持开发者快速去实现创新。

这个策略取得了显著的成果，其中一个领域是加速自动语言识别（ASR）解决方案，它由搭载Speedster7t FPGA器件的VectorPath加速卡提供支持，运行Myrtle.ai提供的基于Achronix FPGA的ASR IP，从而提供业界领先的、实时的、超低延迟的语音转文本功能。运行在服务器中的单张VectorPath加速卡可替代多达20台仅基于CPU的服务器或10张GPU加速卡。

Speedster7t FPGA的技术创新为人工智能推理带来了更高性价比和更高能效比以及可以让用户开发自定义的推理硬件平台和系统。在ASR实际性能方面，其出色的超低单词错误率和仅有最先进GPU解决方案八分之一以下的端到端延迟（包括了预处理和后处理以及与CPU做数据交互的时间）颠覆了ASR领域。该解决方案可以在标准的机器学习框架中使用垂直应用特定的或自定义的数据集进行定制或重新训练。

对于越来越多的其他的推理应用，Speedster7t FPGA的独创高带宽架构也可以为这些应用提供有力的支撑。Achronix正在通过不断研发，以完善其工具链和应用生态，将在2024年推出更好的工具来帮助各种推理应用的开发，使众多的用户更加便捷地使用Speedster7t FPGA器件或者VectorPath加速卡来实现性价比和能效提升，而不用去争抢紧俏的高性能GPU加速卡。

审核编辑黄宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

FPGA

FPGA

+关注

关注
1635

文章
21837

浏览量
608326
gpu

gpu

+关注

关注
28

文章
4830

浏览量
129776
AI

AI

+关注

关注
87

文章
32438

浏览量
271608
ML

ML

+关注

关注
0

文章
149

浏览量
34807
大模型

大模型

+关注

关注
2

文章
2781

浏览量
3432

FPGA+AI王炸组合如何重塑未来世界：看看DeepSeek东方神秘力量如何预测......

的国产化。 5.未来发展趋势• 高性能与低功耗并重：未来，FPGA将朝着更高性能、更低功耗的方向发展，以满足AI应用对算力和能效的双重需求。• 开源硬件与

发表于 03-03 11:21

当我问DeepSeek AI爆发时代的FPGA是否重要？答案是......

，这为AI的持续创新提供了有力支持。 6.数据中心与云计算加速 • 在云计算和数据中心中，FPGA被用作AI计算加速器，尤其是针对深度学习工

发表于 02-19 13:55

AMD携多样化产品组合亮相ISE 2025

在 ISE 2025 上，AMD 将展示其多样化产品组合，这些产品组合支持多种 AV-over-IP、连接和视频处理应用，同时还支持基于 AI

发表于 02-06 11:13 •386次阅读

AI开发框架集成介绍

随着AI应用的广泛深入，单一框架往往难以满足多样化的需求，因此，AI开发框架的集成成为了提升开发效率、促进技术创新的关键路径。以下，是对AI

发表于 01-07 15:58 •211次阅读

NVIDIA Isaac Sim满足模型的多样化训练需求

光轮智能借助 NVIDIA Isaac Sim，通过 3D 生成与建模技术构建高度逼真的虚拟场景，将现实世界的复杂场景抽象并转化为高质量的训练数据源，从而更有效地满足模型的多样化训练需求。 AI

发表于 11-23 14:55 •740次阅读

AI for Science：人工智能驱动科学创新》第4章-AI与生命科学读后感

高效地筛选出具有潜力的药物候选分子，加速新药上市的进程。在基因测序与编辑领域，AI技术将提高基因数据的处理速度和准确性，为个性化医疗和精准医疗提供有力

发表于 10-14 09:21

室内人行与导航系统有哪些多样化的功能?

多样化的功能设计，满足了不同场景下的多元化需求。接下来我们一起了解一下关于室内人行与导航系统有哪些多样化的功能? 一、精准定位与路径规划室内人行与导航系统核心的功能，室内导航系统通过蓝牙、Wi-Fi、RFID、UWB(超宽带

发表于 10-09 11:28 •318次阅读

英锐恩科技引领微控制器MCU技术创新，赋能多元化应用！

的创新之路英锐恩科技的MCU产品线丰富多样，涵盖从8位到32位的多个系列，满足了不同行业、不同应用场景的多样化需求。其中，EN8F1812作为英锐恩的明星产品，是国内首颗具有PIC18增强型内核的8

发表于 09-29 13:40

基于Achronix Speedster7t FPGA器件的AI基准测试

架构创新，关注点放在了在所有深度神经网络处理的核心中添加足够的计算能力来支持核心完成矩阵乘法运算，同时灵活使用FPGA的逻辑阵列来实现AI处理所需的各种其他运算。

发表于 09-18 16:10 •724次阅读

射频器件有哪些？测量射频器件的标准化流程是什么？

纳米软件NSAT-1000射频测试系统针对各类射频器件性能测试提供自动化测试解决方案，综合评估射频器件的稳定性和可靠性，为器件的数据分析提供多样化

发表于 09-04 16:14 •928次阅读

创新科技，精准导航：大核桃单北斗手持终端的独特优势与多样化应用场景

北斗手持终端”以其独特的创新科技与精准导航能力，正逐步成为市场关注的焦点。本文将深入探讨大核桃单北斗手持终端的独特优势及其多样化的应用场景，展现其在现代生活中的无

发表于 08-07 15:57 •397次阅读

DC/AC电源模块：实现电力系统的多样化应用

家庭和商业建筑到工业设备和交通运输，都需要稳定可靠的电力供应。DC/AC电源模块为这些需求提供了强大的支持。 DC/AC电源模块：实现电力系统的多样化应用首先，DC/AC电源模块可以将直流电源转换为交流电源，使之能够适应更多的

发表于 06-18 13:14 •533次阅读

联合电子携多样化解决方案和创新技术亮相2024北京车展

联合电子在本次北京国际车展（第十八届北京国际汽车展览会）的博世展台展出了一系列创新技术和多样化的解决方案，包括高效灵活的混合动力及纯电动汽车系统解决方案

发表于 04-28 09:59 •864次阅读

日月光半导体推出VIPack™ 平台先进互连技术协助实现AI创新应用

日月光半导体宣布VIPack™ 平台先进互连技术最新进展，透过微凸块(microbump)技术将芯片与晶圆互连间距制程能力从 40um提升到 20um，可以满足人工智能 (AI)应用于多样化

发表于 03-22 14:15 •600次阅读

三星半导体分享了面向PC、移动端和服务器的多样化创新存储解决方案

在2024年CFMS闪存市场峰会上，三星半导体展示了其面向PC、移动端和服务器的多样化创新存储解决方案。

发表于 03-20 17:22 •727次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

新型的FPGA器件将支持多样化AI/ML创新进程

评论

FPGA+AI王炸组合如何重塑未来世界：看看DeepSeek东方神秘力量如何预测......

当我问DeepSeek AI爆发时代的FPGA是否重要？答案是......

AMD携多样化产品组合亮相ISE 2025

AI开发框架集成介绍

NVIDIA Isaac Sim满足模型的多样化训练需求

AI for Science：人工智能驱动科学创新》第4章-AI与生命科学读后感

室内人行与导航系统有哪些多样化的功能?

英锐恩科技引领微控制器MCU技术创新，赋能多元化应用！

基于Achronix Speedster7t FPGA器件的AI基准测试

射频器件有哪些？测量射频器件的标准化流程是什么？

创新科技，精准导航：大核桃单北斗手持终端的独特优势与多样化应用场景

DC/AC电源模块：实现电力系统的多样化应用

联合电子携多样化解决方案和创新技术亮相2024北京车展

日月光半导体推出VIPack™ 平台先进互连技术协助实现AI创新应用

三星半导体分享了面向PC、移动端和服务器的多样化创新存储解决方案