加速AI应用落地英特尔AI2.0的进阶之道-电子发烧友网

人工智能模型的复杂度不断增加，对内存的需求也越来越大。深度学习的进一步发展需要解决内存限制问题，而当前的解决方案无法利用所有可用计算，业内人士逐渐意识到需要专用芯片来支持深度学习训练和推理。

英特尔则在人工智能方面提供优越的硬件选择，并通过软件来最大化释放硬件的性能，从而帮助客户无论是数据多么复杂或位于哪里都可以自如运行AI应用。

7月3日-4日，在百度AI开发者大会上，英特尔公司副总裁兼人工智能产品事业部总经理Naveen Rao宣布，英特尔正与百度合作开发英特尔® Nervana™神经网络训练处理器（NNP-T）。这一合作包括全新定制化加速器，以实现极速训练深度学习模型的目的。

此次NNP-T是一类全新开发的高效深度学习系统硬件，能够加速大规模的分散训练。与百度的密切合作能够确保英特尔开发部门始终紧跟客户对训练硬件的最新需求。

从2016年起，英特尔便一直针对英特尔®至强®可扩展处理器优化百度飞桨（PaddlePaddle*）深度学习框架。如今，通过为百度飞桨优化NNP-T，双方能够为数据科学家提供更多的硬件选择。

与此同时，英特尔还通过更多技术来进一步增强这些AI解决方案的性能。例如，凭借英特尔傲腾数据中心级持久内存所提供的更高内存性能，百度能够通过其Feed Stream*（信息流）服务向数百万用户提供个性化移动内容，并通过百度AI推荐引擎获得更高效的客户体验。

此外，鉴于数据安全对于用户极其重要，英特尔还与百度共同致力于打造基于英特尔软件保护扩展（SGX）技术的MesaTEE*——内存安全功能即服务（FaaS）计算框架。

Naveen Rao表示：“未来几年，AI模型的复杂性以及对大规模深度学习计算的需求将爆发式增长。英特尔和百度将延续双方十多年的合作并聚焦于联合设计和开发全新的硬件以及配套软件，从而向‘AI 2.0’的新疆界不断迈进。”

而在英特尔分论坛上，英特尔及其合作伙伴分别就边缘计算、百度超级计算平台的软硬件优化、英特尔 DL Boost、百度海洋引擎与英特尔SGX的合作、爱奇艺在OpenVINO™上的AI实践以及英特尔AEP的分布式系统在AI训练和数据处理上的实践等方面的技术细节进行了探讨。我们将从以下四个演讲中阐释英特尔取得的主要进展。

英特尔DL Boost的至强云端深度学习推理优化实践

英特尔DL Boost是一套旨在加快人工智能深度学习速度的处理器技术。英特尔人工智能资深架构师姚伟峰讲述了利用英特尔DL Boost的至强云端深度学习推理优化实践。

DL Boost基于AVX-512扩展新的矢量神经网络指令集，性能提升是数量级的，具有更好的TCO，为终端用户提供更一致性的体验。他指出，英特尔 DL Boost VNNI就是为加速深度学习推理任务而生。他还从图优化、量化、算子优化三方面详细讲解了XEON深度学习推理优化。

英特尔MKL-DNN优化的深度学习框架和OpenVINO™

英特尔软件产品开发部、资深AI 技术咨询工程师胡英以英特尔MKL-DNN优化的深度学习框架为主讲述了如何利用英特尔AI软件工具加速深度学习。

英特尔MKL-DNN是一个开源的、性能强化的函数库，用于加速在CPU上的深度学习框架，包含高度矢量化和线程化的构建模块，支持利用C和C++接口实施卷积神经网络。

英特尔MKL-DNN主要在以下对象上运行：基元、引擎和流。库文档对这些对象的定义如下所示：

基元——任何操作，包括卷积、数据格式重新排序和内存。基元可以以其他基元为输入，但是智能输出内存基元。

引擎——一种执行设备，如CPU。每个基元都映射为特定的引擎。

流——一种执行环境，将基元提交至流后等待完成。提交至流的基元可能有不同的引擎。流对象也可以跟踪基元间的相关性。

OpenVINO是英特尔基于自身现有的硬件平台开发的一种可以加快高性能计算机视觉和深度学习视觉应用开发速度工具套件，支持各种英特尔平台的硬件加速器上进行深度学习，并且允许直接异构执行。支持在Windows与Linux系统，使用Python/C++语言。

OpenVINO工具包主要包括两个核心组件，模型优化器和推理引擎。

OpenVINO的主要特点有：

在英特尔平台上提升计算机视觉相关深度学习性能达19倍以上

解除CNN-based的网络在边缘设备的性能瓶颈

对OpenCV，OpenXV*视觉库的传统API实现加速与优化

基于通用API接口在CPU、GPU、FPGA等设备上运行加上

爱奇艺在OpenVINO™上的AI实践

软件工具包OpenVINO，专为在边缘部署深度神经网络而设计，广泛支持各种框架，只需编写一次，可扩展到不同加速器上使用，使边缘AI实现高性能、高效率。

借助英特尔OpenVINO工具包，能够帮助开发人员加快深度神经网络推理应用的开发，支持深度神经网络测试、调整和原型制作，可以帮助开发者进入实际应用的量产阶段。

爱奇艺助理研究员虞科华分享了他们在OpenVINO上的AI应用开发的相关实践。首先是应用开发方法主要包括三点：

训练模型：固化模型

模型优化：图分割、客制化层、客制化子图

推理引擎：模型级联计算、多输入尺寸设计、自动评估CPU端执行特征

另外，虞科华指出OpenVINO FPGA后端实践主要包括两方面：1推理引擎：异构Plugin、异构执行分析；性能分析：Bitstream精度、异构Affinity设置、流水线化。

OpenVINO目前在爱奇艺的落地服务主要有AI雷达、图文审核、视频标签、图片审核等。

百度计算平台的软硬件优化

作为英特尔重要的合作方，百度AI系统架构师丁瑞全介绍了在百度大规模分布式训练系统中与英特尔在软硬件优化方面的合作。

在系统设计上，百度超级AI计算平台X-MAN与英特尔进行合作共同推动OAI & OAM全球标准定义。

软硬件联合优化方面主要包括四个方面。IO优化，百度Fast-F共享并行文件系统，同时基于英特尔 SPDK，为AI场景海量小文件而优化；预处理优化，通过预取 + 硬件Offload + 均衡CPU与AI加速卡配比的方式进行合作；数据下发优化，增加下行链路 + 避免冲突；前后向计算优化，自动混合精度（AMP） +大显存增大batch size 英特尔 AI芯片可支持bfloat16*，其动态范围相比float16 的更大液冷+48V供电支持计算性能更强的芯片；通信优化，软件算法优化以及英特尔 SCR* ICL支持多机互联。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

处理器

处理器

+关注

关注
68

文章
19349

浏览量
230286
英特尔

英特尔

+关注

关注
61

文章
9985

浏览量
171958
AI

AI

+关注

关注
87

文章
31155

浏览量
269482
深度学习

深度学习

+关注

关注
73

文章
5507

浏览量
121298

原文标题：加速AI应用落地，英特尔AI 2.0的进阶之道

文章出处：【微信号：rgznai100，微信公众号：rgznai100】欢迎添加关注！文章转载请注明出处。

英特尔发布全新企业AI一体化方案

近日，英特尔正式推出了全新的企业AI一体化方案。该方案以英特尔至强处理器和英特尔Gaudi 2D AI加

发表于 12-03 11:20 •254次阅读

英特尔发布全新企业AI一体化解决方案

加速器等先进硬件。此外，它还结合了OPEA开放软件平台，确保了方案的灵活性和兼容性。作为该方案的首个落地实践，英特尔携手新华三共同发布了新华三AIGC灵犀一体机。这款一体机充分利用了英特尔

发表于 12-02 10:48 •536次阅读

英特尔计划明年AI PC出货一亿台

英特尔设定明年AI PC出货目标为一亿台，较2024年原定计划激增150% 　　英特尔销售与营销部总监Jack Huang于10月28日透露，公司计划在明年实现一亿台AI PC的

发表于 10-31 14:26 •463次阅读

英特尔携手百度智能云加速AI落地

在2024年9月25日-26日举办的2024百度云智大会上，作为大会的联合主办方，英特尔带来了AI全栈软硬件方案，深入讲解了如何基于英特尔 至强处理器和新一代极具性价比的加速卡高效地

发表于 10-12 10:08 •504次阅读

Inflection AI携手英特尔推出企业级AI系统

近日，AI初创企业Inflection AI与英特尔联合宣布了一项重大合作——推出基于英特尔Gaudi 3 AI

发表于 10-09 16:40 •457次阅读

英特尔发布AI创作应用AI Playground，将于今夏正式上线！

的AI PC入门应用程序AI Playground，让广大用户在本地即可快速实现AI个性化创作。 英特尔Xe2 GPU架构，带来50%的性能提升英

发表于 06-14 09:44 •497次阅读

英特尔CEO：AI时代英特尔动力不减

英特尔CEO帕特·基辛格坚信，在AI技术的飞速发展之下，英特尔的处理器仍能保持其核心地位。基辛格公开表示，摩尔定律仍然有效，而英特尔在处理器和芯片技术上的创新能力将持续驱动公司前进。

发表于 06-06 10:04 •455次阅读

英特尔助力京东云用CPU加速AI推理，以大模型构建数智化供应链

英特尔助力京东云用CPU加速AI推理，以大模型构建数智化供应链

发表于 05-27 11:50 •559次阅读

英特尔OPS 2.0定义智慧教育新标准，助力行业创新升级

——OPS 2.0，并展示了基于该标准的多元化行业领先解决方案，以进一步加速智慧教育终端与智能应用的创新与落地，开创面向未来的智慧教育新生态。 英特尔公司市场营销集团副总裁、

发表于 04-19 09:24 •425次阅读

英特尔公布Gaudi 3 AI加速器中国特供版计划

这两款专供版加速卡，分别被命名为HL-328和HL-388，它们代表了英特尔在AI加速领域的最新技术成果。

发表于 04-15 15:19 •764次阅读

英特尔升级AI PC加速计划

近日，英特尔公司正式推出“AI PC加速计划”，旨在通过两大新举措进一步推动人工智能技术在个人电脑领域的应用与发展。

发表于 03-28 11:46 •690次阅读

浪潮信息"源2.0"大模型YuanChat支持英特尔最新商用AI PC

% 。企业可以在全新的英特尔商用客户端AI PC上，使用AI PC大模型效率工具"YuanChat"快速本地化部署和运行"源2.0"大模型，以更快的访问速度、更高的性能和更好的数据安

发表于 03-27 22:52 •530次阅读

英特尔宣布AI PC加速计划新增两项AI举措

首先，“AI PC 开发者计划”面向软件研发人员和独立软件开发商，为他们提供便捷的开发环境，助力加速大规模运用新型 AI技术。此计划包含一系列全面的工具、优化工作流方案、AI 部署框架

发表于 03-27 16:03 •401次阅读

英特尔发布AI PC加速计划，确立AI PC新标准

同时，英特尔也自定了更为简化的AI PC定义，即CPU、GPU和NPU均应具备专属AI加速能力，这恰恰反映了其最新力作Meteor Lake及其后继产品的设计理念。按照这种设计，不同组

发表于 03-27 10:10 •465次阅读

英特尔首推面向AI时代的系统级代工—英特尔代工

英特尔首推面向AI时代的系统级代工——英特尔代工（Intel Foundry），在技术、韧性和可持续性方面均处于领先地位。

发表于 02-25 10:38 •566次阅读