据文化和旅游部数据中心测算,2023年“五一”假期全国国内旅游出游合计2.74亿人次,同比增长70.83%,按可比口径恢复至2019年同期的119.09%1。后疫情时代,旅游人数的激增与旅游场景的多元化,给人工智能(AI)技术在旅游行业的应用带来更多机遇和挑战。例如自然语言处理(NLP)、机器翻译、计算机视觉、搜索排序等 AI 技术的快速发展和日臻成熟,可以为游客提供更便捷的服务和更精准的内容。
作为一站式旅行平台,携程旅行已经将诸多AI 技术应用于酒店、机票、自由行、跟团游、签证、玩乐、租车等旅游度假的多个业务线,为全球用户提供一套完整的旅行产品、服务及差异化的旅行内容等。为了在满足业务需求的同时降低成本压力,携程构建了基于英特尔至强 可扩展处理器的 AI 推理算力平台,并通过高性能算子库、计算图优化、模型压缩等方式提升 AI 推理性能。
采用英特尔 至强解决方案
实现性能与经济性的更佳平衡
随着 AI 应用的不断扩展和深入,大型旅行服务平台面临的算力挑战主要存在于两个方面:
一方面,AI 技术正在日趋多样化与复杂化,为了适应不同的业务场景需求,企业常常需要融合使用传统机器学习、卷积神经网络、Transformer 等深度学习模型结构,以及知识图谱、图神经网络等技术。同时,AI模型的深度、宽度以及结构复杂度也在不断提升,增加了企业的开发门槛,也使得 AI算力调度、AI 性能优化更具挑战。
另一方面,智能化应用正在迅速扩张,需要由 AI 模型处理的数据也在不断增长。例如内容与广告个性化推荐、实时风控、机器翻译、智能客服、图像处理等领域正在越来越多地使用 AI 技术,以从海量的数据中生成高价值的商业洞察,从而带来了较高的算力基础设施建设成本。与此同时,上层应用对于 AI 模型推理也有着特定的服务级别协议 (SLA) 要求。企业需要在满足 SLA 要求的前提下,通过模型优化等方式,更好地发挥硬件的性能潜力,降低算力基础设施的总体拥有成本(TCO)。
面对上述挑战,企业首先要面临硬件平台的选择问题:虽然基于独立 GPU 的推理方案能够提供强大的算力,但未必是一个经济的选择。这是因为独立 GPU 不仅采购或租用成本相对较高,而且通常是以专用服务器的模式进行部署和运维,带来了较高的综合成本。考虑到旅行服务中大量的 AI 推理场景所需要的性能经过优化能够得到满足,采用 CPU 的方案将更具成本效益。因此,携程采用基于英特尔至强 可扩展处理器的 AI 推理算力平台,旨在为算法模型提供更全面易用、稳定性更好、使用和维护成本更低的优化解决方案。 英特尔至强 可扩展处理器内置人工智能加速功能,已针对工作负载进行优化,能够为各种AI 应用以及高密度基础设施带来一流的性能和内存带宽。同时,采用矢量神经网络指令(VNNI) 的英特尔 深度学习加速(英特尔DL Boost),能够有效提高 AI 推理的表现,使其成为深度学习应用的卓越基础设施。
构建并优化AI推理算力平台
Bert-base推理时间由15毫秒降至6毫秒
在基于英特尔 至强 可扩展处理器的硬件平台层基础上,携程构建了 AI 推理算力平台,该平台还包括引擎框架层、推理优化层、算法模型、应用场景。同时,为了尽可能地提升 AI 推理性能,释放硬件潜力,携程进行了推理优化。主要的优化思路为两点:一是通过调整/简化模型结构,或改进算法以降低算法复杂度;二是优化软件执行效率,使用硬件优势特征,提升硬件执行效率。
携程基于英特尔 至强 可扩展处理器的硬件平台层基础上
构建 AI 推理算力平台
携程以机器翻译应用的 Transformer模型来测试其性能表现。在该测试中,携程除了使用上述的优化方法,还分割模型并使用 jit 跟踪方法来提高性能。同时,在batchsize 超过 16 个的情况下,使用 mm op 进行优化。携程使用固定算例的平均响应时延作为测试数据,tokens 为 10,batchsize=1,Bert-base模型推理时间由优化前的15.05毫秒降至优化后的6.44毫秒2。
Bert-base 模型优化前后的性能对比2
基于英特尔 至强 可扩展平台的基础算力和深度的 AI 模型推理性能优化,用户将获得的收益包括:在特定的 SLA 要求下,降低 AI 推理应用的 TCO
在通过本轮优化之后,携程的 CPU 服务器 AI 推理性能得到提升,能够满足大量 AI 推理场景对于时延等 SLA 指标的要求,避免了在昂贵的专用 AI 加速器方面的支出。
提升基础设施的敏捷性与灵活性通过本轮优化,携程能够高效利用现有的 CPU 服务器,根据实际负载需求进行灵活调度,而无需为 AI 推理新增需求部署专用服务器。
为 AI 推理性能优化提供了标准的参考流程本方案提供了一套标准、可自动完成的参考模型优化流程,能够赋能更多的 AI 应用。
携程与英特尔的合作,验证了 AI 模型推理方案在英特尔 至强 可扩展处理器上的应用潜力,在成本、性能方面实现了平衡。同时,随着推理性能优化技术的逐步提高,将极大地降低人工智能应用的部署成本,加快AI应用的落地速度并扩充应用场景,推动人工智能行业的整体发展。
-
英特尔
+关注
关注
61文章
10007浏览量
172214 -
cpu
+关注
关注
68文章
10901浏览量
212772
原文标题:携程携手英特尔优化AI推理性能,提升性能的同时降低TCO
文章出处:【微信号:英特尔中国,微信公众号:英特尔中国】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论