英特尔四大层面，提升DeepRec训练和推理能力-电子发烧友网

从淘宝到天猫应用，从搜索、推荐到广告等场景，对井喷式的数据进行超大规模训练推理的应用，已经在我们身边落地开花。阿里巴巴集团的开源推荐引擎 DeepRec (PAI-TF) 主要用于稀疏模型训练和预测，可支撑千亿特征、万亿样本的超大规模稀疏训练。

从2019 年开始，英特尔就与阿里巴巴PAI团队紧密合作，将英特尔 AI 技术应用到 DeepRec 中。特别是英特尔处理器内置的英特尔DL Boost (英特尔深度学习加速)，为 DeepRec 实现了四个层面上的优化：框架优化、算子优化、子图优化和模型优化。

四大层面，提升DeepRec 训练和推理能力

自英特尔至强可扩展处理器问世以来，通过从 AVX-256 升级到 AVX-512，英特尔将 AVX 的能力提高了一倍，极大地提升了深度学习训练和推理能力。第三代英特尔至强可扩展处理器之后，英特尔推出支持 BFloat16 (BF16) 数据类型的指令集，也应用到 DeepRec 的优化中。

框架优化：DeepRec 集成了英特尔开源的跨平台深度学习性能加速库oneDNN (oneAPI Deep Neural Network Library)，该程序库已经针对大量主流算子实现了性能优化。与搭载 BF16 指令的第三代英特尔至强可扩展处理器同时使用，可显著提高模型训练和推理性能。

算子优化：搜索广告推荐模型中存在着大量稀疏算子，调用 AVX-512 指令加以优化后，大幅提升了数据读写效率和性能。

子图优化：图优化是 AI 性能优化的主要有效手段之一。在大规模稀疏场景下，DeepRec 加入多种子图融合功能，减少大量冗余操作，配合英特尔 AVX-512 指令加速，实现了子图性能的明显提升。

模型优化：基于CPU 平台，英特尔在 DeepRec 构建了涵盖多个主流模型的独有推荐模型集合，涉及召回、排序、多目标等多种常见场景；并针对硬件平台进行性能优化，相较于其他框架在 CPU 平台上带来跨越式性能提升。

阿里巴巴 PAI 团队的测试结果证明：基于 Criteo 数据集，使用BF16优化后，模型WDL精度或AUC可以逼近FP32，并且BF16模型的训练性能提升达1.4倍，效果显著。

未来，英特尔还会从优化器算子、attention 子图、添加多目标模型等多个角度进一步实施优化，更大程度地发挥 CPU 平台硬件优势、尤其是新硬件特征的效果最大化，从而为稀疏场景打造更高性能的 CPU 解决方案。

当然，英特尔为 DeepRec 的优化并不仅限于 CPU 层面。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

英特尔

英特尔

+关注

关注
61

文章
9946

浏览量
171682
cpu

cpu

+关注

关注
68

文章
10851

浏览量
211530

原文标题：发挥CPU平台硬件优势，英特尔助力DeepRec优化超大规模稀疏训练

文章出处：【微信号：英特尔中国，微信公众号：英特尔中国】欢迎添加关注！文章转载请注明出处。

使用英特尔AI PC为YOLO模型训练加速

之后，情况有了新的变化，PyTorch2.5正式开始支持英特尔显卡，也就是说，此后我们能够借助英特尔 锐炫显卡来进行模型训练了。

发表于 12-09 16:14 •201次阅读

使用<b class='flag-5'>英特尔</b>AI PC为YOLO模型<b class='flag-5'>训练</b>加速

使用PyTorch在英特尔独立显卡上训练模型

《PyTorch 2.5重磅更新：性能优化+新特性》中的一个新特性就是：正式支持在英特尔独立显卡上训练模型！

发表于 11-01 14:21 •336次阅读

使用PyTorch在<b class='flag-5'>英特尔</b>独立显卡上<b class='flag-5'>训练</b>模型

英特尔AI PC无所不能的实力

百业的最后一公里问题。而客户端的AI能力也在不断提升，最终将解决个人AI的数据隐私和个性化问题。可见，AI非常适合云边端三级架构，按照用户场景进行针对性部署。英特尔为云边端都提供了强大的AI解决方案。

发表于 10-12 10:26 •399次阅读

四大核心展区，英特尔在工博会展现AI与制造深度融合

2024年9月25日，上海—— 在第24届中国国际工业博览会（CIIF）上，英特尔携手多家生态合作伙伴亮相展会，通过精心布局的 “机器视觉”、“负载整合”、“工业控制”、及“工业AI与大模型”四大

发表于 09-27 09:30 •245次阅读

<b class='flag-5'>四大</b>核心展区，<b class='flag-5'>英特尔</b>在工博会展现AI与制造深度融合

开箱即用，AISBench测试展示英特尔至强处理器的卓越推理性能

近期，第五代英特尔®至强®可扩展处理器通过了中国电子技术标准化研究院组织的人工智能服务器系统性能测试（AISBench）。英特尔成为首批通过AISBench大语言模型（LLM）推理性能测试的企业

发表于 09-06 15:33 •311次阅读

开箱即用，AISBench测试展示<b class='flag-5'>英特尔</b>至强处理器的卓越<b class='flag-5'>推理</b>性能

英特尔是如何实现玻璃基板的？

。虽然玻璃基板对整个半导体行业而言并不陌生，但凭借庞大的制造规模和优秀的技术人才，英特尔将其提升到了一个新的水平。近日，英特尔封装测试技术开发（Assembly Test Technology Development）部门介绍

发表于 07-22 16:37 •312次阅读

英特尔CEO：AI时代英特尔动力不减

英特尔CEO帕特·基辛格坚信，在AI技术的飞速发展之下，英特尔的处理器仍能保持其核心地位。基辛格公开表示，摩尔定律仍然有效，而英特尔在处理器和芯片技术上的创新能力将持续驱动公司前进。

发表于 06-06 10:04 •412次阅读

英特尔助力京东云用CPU加速AI推理，以大模型构建数智化供应链

英特尔助力京东云用CPU加速AI推理，以大模型构建数智化供应链

发表于 05-27 11:50 •526次阅读

<b class='flag-5'>英特尔</b>助力京东云用CPU加速AI<b class='flag-5'>推理</b>，以大模型构建数智化供应链

英特尔Gaudi 3 AI芯片：5nm工艺设计，训练推理皆强

此外，英特尔在发布会上还宣布更改旗下数据中心CPU产品名称：原“Granite Rapids”和“Sierra Forest”将更名为“Xeon 6”系列。新品预计今年发售，并支持性能提升后的标准化 MXFP4 数据格式。

发表于 04-10 11:10 •670次阅读

浪潮信息与英特尔合作推出一种大模型效率工具“YuanChat”

3月26日，浪潮信息与英特尔正式宣布，浪潮信息“源2.0系列基础大模型”已和最新的英特尔® 酷睿™ Ultra处理器平台完成适配，本地推理速度提升100%。

发表于 03-27 13:50 •624次阅读

浪潮信息与<b class='flag-5'>英特尔</b>合作推出一种大模型效率工具“YuanChat”

借助英特尔® QAT从而显著提升网络和存储应用的性能

全新第四代和第五代英特尔® 至强® 可扩展处理器内置英特尔® 数据保护与压缩加速技术（英特尔® QAT），可通过卸载计算密集型工作负载来降低 CPU 占用率，从而显著

发表于 03-18 16:25 •975次阅读

借助<b class='flag-5'>英特尔</b>® QAT从而显著<b class='flag-5'>提升</b>网络和存储应用的性能

借助英特尔DLB技术优化网络性能

英特尔® DLB技术的出现，无疑为数据处理和网络传输领域带来了一场革命性的变革。通过其独特的负载均衡、数据包调度优先排序以及降低网络流量时延的能力，英特尔® DLB显著提升了高数据包速

发表于 03-11 09:52 •633次阅读

英特尔1nm投产时间曝光！领先于台积电

英特尔行业芯事

深圳市浮思特科技有限公司

发布于 :2024年02月28日 16:28:32

英特尔登顶2023年全球半导体榜单之首