3种AI芯片之间的对比，谁更胜一筹？-电子发烧友网

人工智能（AI）主要包括三大要素，分别是数据、算法和算力。其中数据是基础，正是因为在实际应用当中的数据量越来越大，使得传统计算方式和硬件难以满足要求，才催生了AI应用的落地。而算法是连接软件、数据、应用和硬件的重要桥梁，非常关键。算力方面，主要靠硬件实现，也就是各种实现AI功能的处理器，而随着应用和技术的发展，能实现各种算力、满足不同应用的AI处理器陆续登场，经过不同的发展阶段，发挥着各自的作用。

在比较成熟的AI平台方面，在2012年出现了AlexNet，一直到最近，2018年出现了AlphaGo Zero，在短短的6年内，算力提高了20多万倍，这完全不同于传统计算硬件（如CPU、mcu等）的演进轨迹，速度之惊人令我们难以预测。

来自OpenAI的分析显示，近几年，AI训练所需的算力每3个多月就会翻倍，这比著名的摩尔定律（每18~24个月，芯片的性能翻倍）演进速度快多了。而提升算力的关键是芯片设计，特别是底层的架构设计，目前来看，传统的芯片架构已经难以满足AI应用的需要。包括IC 厂商和互联网企业在内，越来越多的厂商开始投入研发或已经推出AI专用芯片。根据Gartner统计，AI芯片在2017年的市场规模约为46亿美元，而到2020年，预计将会达到148亿美元，年均复合增长率为47%。而据麦肯锡预测，未来10年，人工智能和深度学习将成为提升硅片需求的主要因素，2025年，在AI的推动下，全球硅片营收将超过600亿美元，接近全球半导体销售额的20%。

三种AI芯片的对比

从AI芯片的应用场景类别来看，主要分为云端和终端。目前，AI在云端应用的更多，相对成熟，而其在云端应用又可分为训练和推理两种，其中训练的市场规模占比较高。另外，训练需要的数据量和计算量较大，所用的处理器主要是GPU。至于推理，也以GPU为主，此外，还有FPGA，以及专用的AI芯片（ASIC），其中，ASIC还不是很成熟，量产的产品也不多，因此用量有限，还处于发展初期，如果能实现大规模量产，其性能和成本是最优的，主要推进厂商是Google，其标志性产品就是TPU。

综上，目前，行业为实现AI计算，主要采用的芯片有三种，分别是通用型的GPU，可定制的FPGA，以及专用的ASIC。

在计算层面，芯片的晶体管数量和芯片面积决定了算力，面积越大算力越强，但功耗也将随之增加。过去几年，在AI处理器的选择上，可用于通用基础计算且运算速率更快的GPU迅速成为实现AI计算的主流芯片，英伟达也因此占据着数据中心AI芯片的主要市场份额。

FPGA是典型的半定制化芯片，其功能可以通过编程来修改，并行计算能力很强，但是延迟和功耗远低于GPU，而与ASIC相比，FPGA的一次性成本要低很多，但其量产成本很高。因此，在实际应用需求还未成规模，且算法需要不断迭代、改进的情况下，利用FPGA的可重构特性来实现半定制的AI芯片是最佳选择。

AI专用芯片ASIC是面向特定应用需求而定制的芯片，一旦流片，其功能无法更改，因此，必须要有量的保证，且应用需求稳定，不会发生大的变化。专用ASIC芯片的性能高于FPGA，如果出货量可观，其单颗成本可做到远低于FPGA和GPU。

目前来看，由于GPU具备强大的并行计算能力和完善的生态系统，现在云端AI应用方面处于主导地位。FPGA方面，由于是半定制化的，可以通过编程来实现不同的功能电路，因此，其在通用性和性能之间取得了比较好的平衡，但是较高的开发门槛和量产成本，对其应用是个限制。

3种AI芯片之间的对比，谁更胜一筹？

图：在实现AI功能方面，GPU、FPGA和ASIC的优缺点对比（来源：长城证券研究所）

专用的AI芯片应该是未来的发展趋势，无论是在云端还是在边缘侧，随着应用的逐渐落地，应用场景和各种专用功能会愈加清晰，市场需求也会越来越多。另外，与GPU和FPGA相比，ASIC的专利壁垒要小得多，而且其设计难度也是最小的。随着AI应用场景的落地，专用的ASIC芯片量产成本低、性能高、功耗低的优势会逐渐凸显出来。

AI芯片案例

目前，在AI应用方面，全球数据中心用GPU市场基本被英伟达垄断，这里用到的都是高性能GPU，其门槛很高，又是用于AI，因此，还没有什么竞争对手。

除了GPU芯片本身之外，英伟达还有一个优势，那就是其在AI计算方面，有CUDA软件生态系统的配合。CUDA编程工具包让开发者可以对每一个像素轻松编程，在这之前，对程序员来说，GPU编程是一件很痛苦的事，CUDA成功将Java、C++等高级语言开放给了GPU编程，从而让GPU编程变得简单了许多，研究者也可以更低的成本快速开发他们的深度学习模型。以图形处理器加速卡Tesla V100 PCIe/SXM2为例，其芯片采用台积电的12nm制程工艺，通过与CUDA软件和NVLink快速通道的配合，能达到近125兆次深度学习的浮点运算训练速度，而以16bit的半精度浮点性能来看，可达到31Tera FLOPS。

FPGA方面，ALTERA被英特尔收购之后，赛灵思是目前的霸主，作为传统的CPU厂商，英特尔近几年正在AI领域大力布局，收购相关公司自然是一个重要手段，通过收购全面布局 FPGA和ASIC，除了Altera的FPGA之外，还通过收购Mobileye和视觉处理器公司Movidius，布局无人驾驶和计算机视觉，这也是将来AI大有可为的两个应用领域。

在收购Altera之后，英特尔的技术发展路线就出现了调整，例如，其原来的产品策略是做分立的CPU+FPGA加速器，而两家公司整合后，由简单的分立器件叠加改为了封装集成，即将CPU和FPGA芯片封装在一起，这还不算完，英特尔下一步还要将CPU和FPGA集成在同一芯片内，做成SoC。

赛灵思方面，该公司于2018年底推出了以低成本、低延迟、高能效深度神经网络（DNN）算法为基础的Alveo加速卡，基于该公司的UltraScale架构，采用了台积电的16nm制程工艺，目标市场就是数据中心和云端的AI推理市场。

AI专用ASIC方面，国内外已经有多家企业投入了研发，例如国内的寒武纪（正在开发NPU）、地平线（BPU系列），还有华为海思和比特大陆，也在专用AI芯片方面投入了不少资源。国外最为知名的就是谷歌的TPU了，这也是到目前为止，最为成熟的高性能AI专用芯片了。做ASIC需要对应用场景有深刻和精确到位的了解，而这方面却是传统芯片设计企业和IDM的短板，因此，目前做AI专用ASIC的，大多是系统产商，互联网巨头，或者以算法起家的公司。

在中国，比特大陆的算丰（SOPHON） BM1680和BM1682云端安防及大数据AI推理系列产品已经上市，此外，还有其它几家没有量产的芯片，如华为海思的升腾Ascend 910系列，据悉会采用台积电的7nm制程工艺，预计会在今年年底量产。此外，百度的昆仑芯片（采用三星的14nm制程），以及阿里平头哥的Ali-NPU等，也处在研发阶段，距离量产还有一段时日。

以上谈的主要是用于云端的AI芯片，包括GPU、FPGA和ASIC，这也是目前AI的主要应用领域，而在终端和边缘侧，更多的要依靠不断成熟的ASIC，因为ASIC与应用场景有着非常紧密的关系，而这里说的应用场景，主要是在终端和边缘侧。

结语

AI发展正处于强劲的上升阶段，此时，各种AI芯片实现方案都有其发挥的空间，可以说是处于最佳时期，这也给众多厂商占领各自擅长之应用市场提供了更多的机会。而随着应用场景的完全落地，以及AI专用芯片的成熟和大规模量产，这一发展窗口期很可能就将关闭，因此，眼下各家厂商，无论是做GPU、FPGA，还是做ASIC的，都在抓紧时间研发和拓展市场，竞争愈发激烈。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

芯片

芯片

+关注

关注
456

文章
50950

浏览量
424725
gpu

gpu

+关注

关注
28

文章
4753

浏览量
129059
AI

AI

+关注

关注
87

文章
31133

浏览量
269455

在低延迟、高效传输的网络环境中，异地组网和内网穿透哪种技术更胜一筹？

在现代企业网络架构中，异地组网和内网穿透是两种常见的网络连接技术，它们在不同场景下发挥着重要作用。然而，在追求低延迟、高效传输的网络环境中，哪种技术更胜一筹？本文将探讨异地组网与内网穿透在延迟方面

发表于 01-07 10:52 •53次阅读

各种云服务器优势比较分析，谁更胜一筹？

不同类型的云服务器适用于多种业务场景和需求，公有云服务器提供强大的计算、存储及数据库资源，适合搭建企业官网、电商平台等多类型网站。私有云服务器适合企业内部数据存储和处理，确保数据安全和隔离。混合云结合公有云和私有云的优点，满足业务高峰期弹性伸缩需求，实现资源共享和灾难恢复。轻量云服务器价格实惠，易于管理，适合开发测试、小型网站等轻量级应用场景。

发表于 12-17 09:53 •141次阅读