0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

携程携手英特尔优化AI推理性能,提升性能的同时降低TCO

英特尔中国 来源:未知 2023-06-09 20:30 次阅读

据文化和旅游部数据中心测算,2023年“五一”假期全国国内旅游出游合计2.74亿人次,同比增长70.83%,按可比口径恢复至2019年同期的119.09%1。后疫情时代,旅游人数的激增与旅游场景的多元化,给人工智能AI)技术在旅游行业的应用带来更多机遇和挑战。例如自然语言处理(NLP)、机器翻译、计算机视觉、搜索排序等 AI 技术的快速发展和日臻成熟,可以为游客提供更便捷的服务和更精准的内容。

作为一站式旅行平台,携程旅行已经将诸多AI 技术应用于酒店、机票、自由行、跟团游、签证、玩乐、租车等旅游度假的多个业务线,为全球用户提供一套完整的旅行产品、服务及差异化的旅行内容等。为了在满足业务需求的同时降低成本压力,携程构建了基于英特尔至强 可扩展处理器的 AI 推理算力平台,并通过高性能算子库、计算图优化、模型压缩等方式提升 AI 推理性能。

2cffaa56-06be-11ee-962d-dac502259ad0.png            

采用英特尔 至强解决方案

实现性能与经济性的更佳平衡

随着 AI 应用的不断扩展和深入,大型旅行服务平台面临的算力挑战主要存在于两个方面:

一方面,AI 技术正在日趋多样化与复杂化,为了适应不同的业务场景需求,企业常常需要融合使用传统机器学习、卷积神经网络、Transformer 等深度学习模型结构,以及知识图谱、图神经网络等技术。同时,AI模型的深度、宽度以及结构复杂度也在不断提升,增加了企业的开发门槛,也使得 AI算力调度、AI 性能优化更具挑战。

另一方面,智能化应用正在迅速扩张,需要由 AI 模型处理的数据也在不断增长。例如内容与广告个性化推荐、实时风控、机器翻译、智能客服、图像处理等领域正在越来越多地使用 AI 技术,以从海量的数据中生成高价值的商业洞察,从而带来了较高的算力基础设施建设成本。与此同时,上层应用对于 AI 模型推理也有着特定的服务级别协议 (SLA) 要求。企业需要在满足 SLA 要求的前提下,通过模型优化等方式,更好地发挥硬件的性能潜力,降低算力基础设施的总体拥有成本(TCO)。

面对上述挑战,企业首先要面临硬件平台的选择问题:虽然基于独立 GPU 的推理方案能够提供强大的算力,但未必是一个经济的选择。这是因为独立 GPU 不仅采购或租用成本相对较高,而且通常是以专用服务器的模式进行部署和运维,带来了较高的综合成本。考虑到旅行服务中大量的 AI 推理场景所需要的性能经过优化能够得到满足,采用 CPU 的方案将更具成本效益。因此,携程采用基于英特尔至强 可扩展处理器的 AI 推理算力平台,旨在为算法模型提供更全面易用、稳定性更好、使用和维护成本更低的优化解决方案。 英特尔至强 可扩展处理器内置人工智能加速功能,已针对工作负载进行优化,能够为各种AI 应用以及高密度基础设施带来一流的性能和内存带宽。同时,采用矢量神经网络指令(VNNI) 的英特尔 深度学习加速(英特尔DL Boost),能够有效提高 AI 推理的表现,使其成为深度学习应用的卓越基础设施。

2cffaa56-06be-11ee-962d-dac502259ad0.png            

构建并优化AI推理算力平台

Bert-base推理时间由15毫秒降至6毫秒

在基于英特尔 至强 可扩展处理器的硬件平台层基础上,携程构建了 AI 推理算力平台,该平台还包括引擎框架层、推理优化层、算法模型、应用场景。同时,为了尽可能地提升 AI 推理性能,释放硬件潜力,携程进行了推理优化。主要的优化思路为两点:一是通过调整/简化模型结构,或改进算法以降低算法复杂度;二是优化软件执行效率,使用硬件优势特征,提升硬件执行效率。 2d17463e-06be-11ee-962d-dac502259ad0.png

携程基于英特尔 至强 可扩展处理器的硬件平台层基础上

构建 AI 推理算力平台

携程以机器翻译应用的 Transformer模型来测试其性能表现。在该测试中,携程除了使用上述的优化方法,还分割模型并使用 jit 跟踪方法来提高性能。同时,在batchsize 超过 16 个的情况下,使用 mm op 进行优化。携程使用固定算例的平均响应时延作为测试数据,tokens 为 10,batchsize=1,Bert-base模型推理时间由优化前的15.05毫秒降至优化后的6.44毫秒2 2d238bec-06be-11ee-962d-dac502259ad0.png

Bert-base 模型优化前后的性能对比2

基于英特尔 至强 可扩展平台的基础算力和深度的 AI 模型推理性能优化,用户将获得的收益包括:在特定的 SLA 要求下,降低 AI 推理应用的 TCO

在通过本轮优化之后,携程的 CPU 服务器 AI 推理性能得到提升,能够满足大量 AI 推理场景对于时延等 SLA 指标的要求,避免了在昂贵的专用 AI 加速器方面的支出。

提升基础设施的敏捷性与灵活性

通过本轮优化,携程能够高效利用现有的 CPU 服务器,根据实际负载需求进行灵活调度,而无需为 AI 推理新增需求部署专用服务器。

为 AI 推理性能优化提供了标准的参考流程

本方案提供了一套标准、可自动完成的参考模型优化流程,能够赋能更多的 AI 应用。

携程与英特尔的合作,验证了 AI 模型推理方案在英特尔 至强 可扩展处理器上的应用潜力,在成本、性能方面实现了平衡。同时,随着推理性能优化技术的逐步提高,将极大地降低人工智能应用的部署成本,加快AI应用的落地速度并扩充应用场景,推动人工智能行业的整体发展。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英特尔
    +关注

    关注

    61

    文章

    10007

    浏览量

    172214
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10901

    浏览量

    212772

原文标题:携程携手英特尔优化AI推理性能,提升性能的同时降低TCO

文章出处:【微信号:英特尔中国,微信公众号:英特尔中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    英特尔带您解锁云上智算新引擎

    在近日举办的2024火山引擎FORCE原动力大会上,英特尔与火山引擎联合发布基于英特尔 至强 6 性能核处理器的第四代服务器实例,以打造弹性算力底座的产品化实践。同时
    的头像 发表于 12-23 14:05 343次阅读

    英特尔与火山引擎飞连携手升级AI时代企业IT管理体验

    AI 技术的推动下,企业 IT 管理正经历一场革命。日前,火山引擎飞连新品发布会成功举办。英特尔受邀参与此次活动,并在会上展示了新一代英特尔凌动 x7000 系列处理器等产品,与火山引擎飞连
    的头像 发表于 11-14 17:17 579次阅读

    Inflection AI携手英特尔推出企业级AI系统

    近日,AI初创企业Inflection AI英特尔联合宣布了一项重大合作——推出基于英特尔Gaudi 3 AI加速器和Tiber
    的头像 发表于 10-09 16:40 478次阅读

    英特尔发布至强6性能核处理器,携手生态加速数据中心算力升级

    9月26日,英特尔正式发布英特尔® 至强® 6性能核处理器(代号Granite Rapids),为AI、数据分析、科学计算等计算密集型业务提供卓越
    的头像 发表于 09-27 10:54 4340次阅读
    <b class='flag-5'>英特尔</b>发布至强6<b class='flag-5'>性能</b>核处理器,<b class='flag-5'>携手</b>生态加速数据中心算力升级

    开箱即用,AISBench测试展示英特尔至强处理器的卓越推理性能

    。 中国电子技术标准化研究院赛西实验室依据国家标准《人工智能服务器系统性能测试规范》(征求意见稿)相关要求,使用AISBench 2.0测试工具,完成了第五代英特尔至强可扩展处理器的AI大模型
    的头像 发表于 09-06 15:33 410次阅读
    开箱即用,AISBench测试展示<b class='flag-5'>英特尔</b>至强处理器的卓越<b class='flag-5'>推理性能</b>

    英特尔新一代AI PC酷睿Ultra处理器强势来袭

    近日,在台北国际电脑展上,英特尔展示了大力加速AI生态的前沿技术和架构,遍及数据中心、云与网络边缘和PC。得益于更高计算处理性能、出色的能效表现、和更低的总体拥有成本(TCO),用户能
    的头像 发表于 06-15 11:39 902次阅读

    英特尔发布AI创作应用AI Playground,将于今夏正式上线!

    AI PC入门应用程序AI Playground,让广大用户在本地即可快速实现AI个性化创作。 英特尔Xe2 GPU架构,带来50%的性能
    的头像 发表于 06-14 09:44 524次阅读
    <b class='flag-5'>英特尔</b>发布<b class='flag-5'>AI</b>创作应用<b class='flag-5'>AI</b> Playground,将于今夏正式上线!

    英特尔助力京东云用CPU加速AI推理,以大模型构建数智化供应链

    英特尔助力京东云用CPU加速AI推理,以大模型构建数智化供应链
    的头像 发表于 05-27 11:50 576次阅读
    <b class='flag-5'>英特尔</b>助力京东云用CPU加速<b class='flag-5'>AI</b><b class='flag-5'>推理</b>,以大模型构建数智化供应链

    宁畅B5000 G5多节点服务器采用第五代英特尔至强可扩展处理器

    “基于第五代英特尔 至强 可扩展处理器的宁畅B5000 G5多节点服务器,可以在满足大量AI推理场景在吞吐量、时延、容量、并发能力等方面的需求,而且与专用的GPU服务器相比,在灵活性方面更具优势。我们希望能够与
    的头像 发表于 05-27 11:46 880次阅读
    宁畅B5000 G5多节点服务器采用第五代<b class='flag-5'>英特尔</b>至强可扩展处理器

    英特尔重磅发布全新AI战略,携手生态共同释放企业AAI潜力

    在近期举行的Intel Vision 2024大会上,英特尔重磅发布其开放的、可扩展的全新AI战略,同时公布了英特尔®至强®6处理器的品牌焕新,满足客户对于处理器能效和
    的头像 发表于 04-28 11:11 605次阅读
    <b class='flag-5'>英特尔</b>重磅发布全新<b class='flag-5'>AI</b>战略,<b class='flag-5'>携手</b>生态共同释放企业AAI潜力

    英特尔特供芯片性能暴降92%!

    英特尔针对中国市场推出的特供版Gaudi 3芯片在性能上确实存在大幅下降的情况,这主要是由于美国对于AI芯片的出口管制规则限制所导致的。
    的头像 发表于 04-17 16:57 856次阅读

    自然语言处理应用LLM推理优化综述

    当前,业界在将传统优化技术引入 LLM 推理同时同时也在探索从大模型自回归解码特点出发,通过调整推理过程和引入新的模型结构来进一步
    发表于 04-10 11:48 668次阅读
    自然语言处理应用LLM<b class='flag-5'>推理</b><b class='flag-5'>优化</b>综述

    借助英特尔® QAT从而显著提升网络和存储应用的性能

    全新第四代和第五代英特尔® 至强® 可扩展处理器内置英特尔® 数据保护与压缩加速技术(英特尔® QAT),可通过卸载计算密集型工作负载来降低 CPU 占用率,从而显著
    的头像 发表于 03-18 16:25 1138次阅读
    借助<b class='flag-5'>英特尔</b>® QAT从而显著<b class='flag-5'>提升</b>网络和存储应用的<b class='flag-5'>性能</b>

    借助英特尔DLB技术优化网络性能

    英特尔® DLB技术的出现,无疑为数据处理和网络传输领域带来了一场革命性的变革。通过其独特的负载均衡、数据包调度优先排序以及降低网络流量时延的能力,英特尔® DLB显著提升了高数据包速
    的头像 发表于 03-11 09:52 710次阅读

    英特尔至强处理器优化升级,助力打造未来高能效数据中心

    %。与此同时英特尔还对该处理器进行了大量优化,以满足日益增长的AI算力需求。 该适用于企业级服务器的英特尔高端CPU受到了众多行业专家们的
    的头像 发表于 02-26 17:39 789次阅读