携程携手英特尔优化AI推理性能，提升性能的同时降低TCO-电子发烧友网

据文化和旅游部数据中心测算，2023年“五一”假期全国国内旅游出游合计2.74亿人次，同比增长70.83%，按可比口径恢复至2019年同期的119.09%¹。后疫情时代，旅游人数的激增与旅游场景的多元化，给人工智能（AI）技术在旅游行业的应用带来更多机遇和挑战。例如自然语言处理（NLP）、机器翻译、计算机视觉、搜索排序等 AI 技术的快速发展和日臻成熟，可以为游客提供更便捷的服务和更精准的内容。

作为一站式旅行平台，携程旅行已经将诸多AI 技术应用于酒店、机票、自由行、跟团游、签证、玩乐、租车等旅游度假的多个业务线，为全球用户提供一套完整的旅行产品、服务及差异化的旅行内容等。为了在满足业务需求的同时降低成本压力，携程构建了基于英特尔至强可扩展处理器的 AI 推理算力平台，并通过高性能算子库、计算图优化、模型压缩等方式提升 AI 推理性能。

采用英特尔至强解决方案

实现性能与经济性的更佳平衡

随着 AI 应用的不断扩展和深入，大型旅行服务平台面临的算力挑战主要存在于两个方面：

一方面，AI 技术正在日趋多样化与复杂化，为了适应不同的业务场景需求，企业常常需要融合使用传统机器学习、卷积神经网络、Transformer 等深度学习模型结构，以及知识图谱、图神经网络等技术。同时，AI模型的深度、宽度以及结构复杂度也在不断提升，增加了企业的开发门槛，也使得 AI算力调度、AI 性能优化更具挑战。

另一方面，智能化应用正在迅速扩张，需要由 AI 模型处理的数据也在不断增长。例如内容与广告个性化推荐、实时风控、机器翻译、智能客服、图像处理等领域正在越来越多地使用 AI 技术，以从海量的数据中生成高价值的商业洞察，从而带来了较高的算力基础设施建设成本。与此同时，上层应用对于 AI 模型推理也有着特定的服务级别协议 (SLA) 要求。企业需要在满足 SLA 要求的前提下，通过模型优化等方式，更好地发挥硬件的性能潜力，降低算力基础设施的总体拥有成本（TCO）。

面对上述挑战，企业首先要面临硬件平台的选择问题：虽然基于独立 GPU 的推理方案能够提供强大的算力，但未必是一个经济的选择。这是因为独立 GPU 不仅采购或租用成本相对较高，而且通常是以专用服务器的模式进行部署和运维，带来了较高的综合成本。考虑到旅行服务中大量的 AI 推理场景所需要的性能经过优化能够得到满足，采用 CPU 的方案将更具成本效益。因此，携程采用基于英特尔至强可扩展处理器的 AI 推理算力平台，旨在为算法模型提供更全面易用、稳定性更好、使用和维护成本更低的优化解决方案。英特尔至强可扩展处理器内置人工智能加速功能，已针对工作负载进行优化，能够为各种AI 应用以及高密度基础设施带来一流的性能和内存带宽。同时，采用矢量神经网络指令(VNNI) 的英特尔深度学习加速（英特尔DL Boost），能够有效提高 AI 推理的表现，使其成为深度学习应用的卓越基础设施。

构建并优化AI推理算力平台

Bert-base推理时间由15毫秒降至6毫秒

在基于英特尔至强可扩展处理器的硬件平台层基础上，携程构建了 AI 推理算力平台，该平台还包括引擎框架层、推理优化层、算法模型、应用场景。同时，为了尽可能地提升 AI 推理性能，释放硬件潜力，携程进行了推理优化。主要的优化思路为两点：一是通过调整/简化模型结构，或改进算法以降低算法复杂度；二是优化软件执行效率，使用硬件优势特征，提升硬件执行效率。

携程基于英特尔至强可扩展处理器的硬件平台层基础上

构建 AI 推理算力平台

携程以机器翻译应用的 Transformer模型来测试其性能表现。在该测试中，携程除了使用上述的优化方法，还分割模型并使用 jit 跟踪方法来提高性能。同时，在batchsize 超过 16 个的情况下，使用 mm op 进行优化。携程使用固定算例的平均响应时延作为测试数据，tokens 为 10，batchsize=1，Bert-base模型推理时间由优化前的15.05毫秒降至优化后的6.44毫秒²。

Bert-base 模型优化前后的性能对比²

基于英特尔至强可扩展平台的基础算力和深度的 AI 模型推理性能优化，用户将获得的收益包括：在特定的 SLA 要求下，降低 AI 推理应用的 TCO

在通过本轮优化之后，携程的 CPU 服务器 AI 推理性能得到提升，能够满足大量 AI 推理场景对于时延等 SLA 指标的要求，避免了在昂贵的专用 AI 加速器方面的支出。

提升基础设施的敏捷性与灵活性

通过本轮优化，携程能够高效利用现有的 CPU 服务器，根据实际负载需求进行灵活调度，而无需为 AI 推理新增需求部署专用服务器。

为 AI 推理性能优化提供了标准的参考流程

本方案提供了一套标准、可自动完成的参考模型优化流程，能够赋能更多的 AI 应用。

携程与英特尔的合作，验证了 AI 模型推理方案在英特尔至强可扩展处理器上的应用潜力，在成本、性能方面实现了平衡。同时，随着推理性能优化技术的逐步提高，将极大地降低人工智能应用的部署成本，加快AI应用的落地速度并扩充应用场景，推动人工智能行业的整体发展。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

英特尔

英特尔

+关注

关注
61

文章
10007

浏览量
172214
cpu

cpu

+关注

关注
68

文章
10901

浏览量
212772

原文标题：携程携手英特尔优化AI推理性能，提升性能的同时降低TCO

文章出处：【微信号：英特尔中国，微信公众号：英特尔中国】欢迎添加关注！文章转载请注明出处。

英特尔带您解锁云上智算新引擎

在近日举办的2024火山引擎FORCE原动力大会上，英特尔与火山引擎联合发布基于英特尔 至强 6 性能核处理器的第四代服务器实例，以打造弹性算力底座的产品化实践。同时，

发表于 12-23 14:05 •343次阅读

英特尔与火山引擎飞连携手升级AI时代企业IT管理体验

在 AI 技术的推动下，企业 IT 管理正经历一场革命。日前，火山引擎飞连新品发布会成功举办。英特尔受邀参与此次活动，并在会上展示了新一代英特尔凌动 x7000 系列处理器等产品，与火山引擎飞连

发表于 11-14 17:17 •579次阅读

Inflection AI携手英特尔推出企业级AI系统

近日，AI初创企业Inflection AI与英特尔联合宣布了一项重大合作——推出基于英特尔Gaudi 3 AI加速器和Tiber

发表于 10-09 16:40 •478次阅读

英特尔发布至强6性能核处理器，携手生态加速数据中心算力升级

9月26日，英特尔正式发布英特尔® 至强® 6性能核处理器（代号Granite Rapids），为AI、数据分析、科学计算等计算密集型业务提供卓越性

发表于 09-27 10:54 •4340次阅读

开箱即用，AISBench测试展示英特尔至强处理器的卓越推理性能

。中国电子技术标准化研究院赛西实验室依据国家标准《人工智能服务器系统性能测试规范》（征求意见稿）相关要求，使用AISBench 2.0测试工具，完成了第五代英特尔至强可扩展处理器的AI大模型

发表于 09-06 15:33 •410次阅读

英特尔新一代AI PC酷睿Ultra处理器强势来袭

近日，在台北国际电脑展上，英特尔展示了大力加速AI生态的前沿技术和架构，遍及数据中心、云与网络边缘和PC。得益于更高计算处理性能、出色的能效表现、和更低的总体拥有成本（TCO），用户能

发表于 06-15 11:39 •902次阅读

英特尔发布AI创作应用AI Playground，将于今夏正式上线！

的AI PC入门应用程序AI Playground，让广大用户在本地即可快速实现AI个性化创作。 英特尔Xe2 GPU架构，带来50%的性能

发表于 06-14 09:44 •524次阅读

英特尔助力京东云用CPU加速AI推理，以大模型构建数智化供应链

英特尔助力京东云用CPU加速AI推理，以大模型构建数智化供应链

发表于 05-27 11:50 •576次阅读

宁畅B5000 G5多节点服务器采用第五代英特尔至强可扩展处理器

“基于第五代英特尔 至强可扩展处理器的宁畅B5000 G5多节点服务器，可以在满足大量AI推理场景在吞吐量、时延、容量、并发能力等方面的需求，而且与专用的GPU服务器相比，在灵活性方面更具优势。我们希望能够与

发表于 05-27 11:46 •880次阅读

英特尔重磅发布全新AI战略，携手生态共同释放企业AAI潜力

在近期举行的Intel Vision 2024大会上，英特尔重磅发布其开放的、可扩展的全新AI战略，同时公布了英特尔®至强®6处理器的品牌焕新，满足客户对于处理器能效和

发表于 04-28 11:11 •605次阅读

英特尔特供芯片性能暴降92%！

英特尔针对中国市场推出的特供版Gaudi 3芯片在性能上确实存在大幅下降的情况，这主要是由于美国对于AI芯片的出口管制规则限制所导致的。

发表于 04-17 16:57 •856次阅读

自然语言处理应用LLM推理优化综述

当前，业界在将传统优化技术引入 LLM 推理的同时，同时也在探索从大模型自回归解码特点出发，通过调整推理过程和引入新的模型结构来进一步

发表于 04-10 11:48 •668次阅读

借助英特尔® QAT从而显著提升网络和存储应用的性能

全新第四代和第五代英特尔® 至强® 可扩展处理器内置英特尔® 数据保护与压缩加速技术（英特尔® QAT），可通过卸载计算密集型工作负载来降低 CPU 占用率，从而显著

发表于 03-18 16:25 •1138次阅读

借助英特尔DLB技术优化网络性能

英特尔® DLB技术的出现，无疑为数据处理和网络传输领域带来了一场革命性的变革。通过其独特的负载均衡、数据包调度优先排序以及降低网络流量时延的能力，英特尔® DLB显著提升了高数据包速

发表于 03-11 09:52 •710次阅读

英特尔至强处理器优化升级，助力打造未来高能效数据中心

%。与此同时，英特尔还对该处理器进行了大量优化，以满足日益增长的AI算力需求。该适用于企业级服务器的英特尔高端CPU受到了众多行业专家们的

发表于 02-26 17:39 •789次阅读