含光剑出，AI推理芯片如何创新-电子发烧友网

2019云栖大会已经揭开了帷幕，就在9月25日，阿里巴巴集团首席技术官兼阿里云智能总裁、达摩院院长张建锋发表了题为《构建数字经济基础设施》的演讲。在演讲中，张建锋重磅推出AI推理芯片含光800，引发了众多关于它的讨论。

近年来科技热潮一波接着一波。从物联网到可穿戴电子、从人工智能到5G，它们推进了国家的科技发展路径，与其同时也催生出了一大批创新公司：比如专精于安防的旷视科技、专精于视频的极链科技等等。其中的人工智能（AI）便曾在1950年代、1980年代先后热议过，并因多项技术限制与过度期许而回复平淡。而到了2016年，它又随着云端资料的增长和影音辨识的需求，再次进入了公众的视野。

分析AI推理芯片，自然要从人工智能说起。人工智能的运用一般分为两个阶段，即开发与执行，这也与其他大部分应用程序相类似。在实际投入运行前，人工智能需要进行学习与训练，借助大量繁复的运算来使模型获得更佳的参数调整数据，对运算的精准度、细腻度要求都相对较高；而在执行阶段，由于模型已经训练完成，所以不再需要庞大的运算量，再加上效率的考量，往往会采用较低的运算精度。也就是说，在这两个阶段，所需要的芯片能力其实是有所差异的。

目前人类要实现人工智能，只能靠芯片，别无选择。但是现有的CPU、GPU、FPGA等芯片的基本架构早在这次人工智能突破之前就已经存在了，并非为人工智能而专门设计，因此它们并不能完美地承担实现人工智能的任务。人工智能专家MichaelI.Jordan也认为，我们今天所做的还不能算是真正的AI，而只是利用技术来增强一部分的智能而已，也就是所谓的IA（IntelligenceAugmentation：增强智能）。

所以近年来，人们已经开始普遍使用CPU之外的芯片来加速，例如GPGPU、FPGA、ASIC等，特别是GPGPU为多，原因在于GPGPU的高阶软体生态较为完备、可支援多种人工智能框架。相对的，FPGA需要熟悉低阶硬体电路者方能开发，而ASIC通常只针对限定的软体或框架最佳化。虽然FPGA与ASIC较有难度与限制，但仍有科技大厂愿意投入，如Microsoft即主张用FPGA执行人工智能运算，Google则针对TensorFlow人工智能框架开发ASIC，即CloudTPU芯片。

阿里此次推出的含光800，在业界标准的ResNet-50测试中推理性能达到78563IPS，比目前业界最好的AI芯片性能高4倍；能效比500IPS/W，是第二名的3.3倍。在杭州城市大脑的业务测试中，一颗含光800的算力相当于十颗GPU。这固然令人惊喜，但更重要的是，平头哥团队在过去一年中不断探索芯片与场景的融合，如对算力需求较大的图像视频分析、搜索、推荐等业务场景。围绕这一目标，平头哥针对场景深度定制了芯片的软硬件，例如自研了架构、软件编译器、框架、工具链等，如先后发布的玄铁910、无剑SoC平台，后期也针对INT数据类型做了大量优化。这说明中国的AI推理芯片不再满足于IA，而是试图往真正的AI靠拢。

在推理芯片市场之外，人工智能的训练芯片市场也值得观察。由于人工智能应用的开发、训练、参数调整等工作并非时时在进行，通常在历经一段时间的密集开发训练后回归平淡，直到下一次修改调整才再次进入密集运算。因此，企业若为了人工智能应用的开发训练购置大量的伺服器等运算力，每次训练完成后，大量的伺服器将闲置无用，直到下一次参数调整、密集训练时才能再次显现价值。鉴于此，许多企业倾向将密集训练的运算工作交付给云端服务供应商，依据使用的运算量、运算时间付费，而不是自行购置与维护庞大运算系统。这也应该是阿里只售卖基于含光800的阿里云服务，而非芯片本身的原因之一。

目前推理芯片市场的主流想法依然是在规格上做文章，而清华大学微电子研究所所长魏少军教授则认为这是完全错误的思路，“差异化并不是靠规格设计出来的，这样设计出来的差异化只存在于产品产出的那一段时间，之后就无法更改。别人追上来，差异化越来越小，你的产品便出局。”

所以说，如何让推理芯片真正的具有智慧，才是我们当前需要思考的。如果只是单纯的推进芯片的速度，收效只会越来越小。含光800已经踏出了创新的第一步，可剩下的过程，依旧漫长。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

“AI接吻”——AI技术的双刃剑

综上所述，“AI接吻”技术作为一把双刃剑，在带来创新与便利的同时，也伴随着诸多风险与挑战。因此，我们在使用该技术时要保持警惕和理性，充分发挥其优点，同时努力规避其不利影响。

发表于 12-09 14:48 •123次阅读

AI推理CPU当道，Arm驱动高效引擎

AI的训练和推理共同铸就了其无与伦比的处理能力。在AI训练方面，GPU因其出色的并行计算能力赢得了业界的青睐，成为了当前AI大模型最热门的芯片

发表于 11-13 14:34 •2367次阅读

NVIDIA助力丽蟾科技打造AI训练与推理加速解决方案

丽蟾科技通过 Leaper 资源管理平台集成 NVIDIA AI Enterprise，为企业和科研机构提供了一套高效、灵活的 AI 训练与推理加速解决方案。无论是在复杂的 AI 开发

发表于 10-27 10:03 •203次阅读

《AI for Science：人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

非常高兴本周末收到一本新书，也非常感谢平台提供阅读机会。这是一本挺好的书，包装精美，内容详实，干活满满。关于《AI for Science：人工智能驱动科学创新》第二章“AI

发表于 10-14 09:16

AMD助力HyperAccel开发全新AI推理服务器

提高成本效率。HyperAccel 针对新兴的生成式 AI 应用提供超级加速的芯片 IP/解决方案。HyperAccel 已经打造出一个快速、高效且低成本的推理系统，加速了基于转换器的大型语言模型

发表于 09-18 09:37 •353次阅读

名单公布！【书籍评测活动NO.44】AI for Science：人工智能驱动科学创新

活的世界？编辑推荐《AI for Science：人工智能驱动科学创新》聚焦于人工智能与材料科学、生命科学、电子科学、能源科学、环境科学五大领域的交叉融合，通过深入浅出的语言和诸多实际应用案例，介绍了

发表于 09-09 13:54

平衡创新与伦理：AI时代的隐私保护和算法公平

成了一把双刃剑，其锐利的一面正逐渐指向我们的核心价值。面对这些挑战，制定一套有效的AI治理框架和隐私保护机制变得迫在眉睫。确保AI决策的透明度是解决这些问题的关键一步。透明度不仅要求公开算法的运作

发表于 07-16 15:07

如何基于OrangePi AIpro开发AI推理应用

。通过昇腾CANN软件栈的AI编程接口，可满足大多数AI算法原型验证、推理应用开发的需求。AscendCL（AscendComputingLanguage，昇腾计算

发表于 06-04 14:23 •518次阅读

AI芯片哪里买？

AI芯片

芯广场
发布于 :2024年05月31日 16:58:19

开发者手机 AI - 目标识别 demo

Network Runtime 神经网络运行时，作为中间桥梁连通上层AI推理框架和底层加速芯片，实现AI模型的跨芯片

发表于 04-11 16:14

AMD EPYC处理器：AI推理能力究竟有多强？

如今，AMD EPYC处理器已经成为最常被选择用于AI推理的服务器平台，尤其是第四代Genoa EPYC 9004系列，执行AI推理的能力又得到了巨大的飞跃。

发表于 03-15 09:47 •477次阅读

AI推理框架软件ONNX Runtime正式支持龙架构

近日，知名AI推理框架开源社区ONNX Runtime正式发布支持龙架构的版本1.17.0。

发表于 03-12 12:23 •568次阅读

Groq LPU崛起，AI芯片主战场从训练转向推理

人工智能推理的重要性日益凸显，高效运行端侧大模型及AI软件背后的核心技术正是推理。不久的未来，全球芯片制造商的主要市场将全面转向人工智能推理

发表于 02-29 16:46 •1153次阅读

硅光计算芯片：AI芯片国产化的关键突破口

大模型训练和推理的硬件以通用图形处理单元（GPU）为主，2022年全球GPU市场规模达到448.3亿美元，美国AI芯片巨头英伟达公司占有80%的市场份额并仍在持续攀升。

发表于 01-19 14:12 •5309次阅读

AI算法在RZ/V芯片中的移植推理流程

之前文章已介绍了一些AI算法Demo的应用，我们提供从模型训练到RZ/V系列嵌入式端推理应用的完整流程。整体流程如下图所示。

发表于 12-20 12:21 •1053次阅读