0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

异构计算助拳,缓解参数服务器瓶颈

英特尔中国 来源:英特尔中国 作者:英特尔中国 2022-07-10 10:53 次阅读

昨晚睡得好吗?睡不好可以刷快手的《11 点睡吧》。这部当代人睡眠困境的微综艺,总曝光量达到 107 亿,不但科普睡眠知识,更深度探讨都市人的喜怒哀乐[1]。惊人的曝光量背后,是快手对用户画像数据的精准分析,离不开强大技术支持下的推荐系统,得以让优质的内容被更多喜欢它的人看到。

作为超 3 亿日活、日均千万级短视频上传、强调社区普惠的短视频 APP,快手推荐系统在大规模复杂业务中面临着巨大性能挑战。想要化解算力瓶颈,异构计算是一个重要选项,这种使用不同类型指令集和体系架构的计算单元组成系统的计算方式,能够针对不同任务选择最优的计算架构,从而充分挥各种计算机构的优势,协同完成复杂的工作任务。

1

异构计算助拳,缓解参数服务器瓶颈

快手作为短视频内容平台,内容生产、内容理解、内容分发、内容消费、用户互动这些环节,构成了大规模的复杂业务,对算力产生更多元的需求。举例来说:在推荐业务场景中,需要根据用户画像推荐感兴趣的内容,就要从海量信息中选择与用户特征相关的结果,再通过“排序”来划分内容的优先级别。在这一过程中,参数服务器的作用非常重要,它负责存储、处理海量数据特征以及排序模型参数,保证任务高效、准确地完成。

8a99da9c-fea9-11ec-ba43-dac502259ad0.png

快手推荐系统采用计算与存储分离的架构模式

快手的推荐系统为了应对海量数据冲击,在架构上分离了计算与存储。参数服务器属于存储型服务,该服务要保存和实时更新上亿规模的用户画像、数十亿规模的短视频特征、以及千亿规模的排序模型参数。受限于容量和带宽的参数服务器,还要支撑每秒数亿次的 KV 请求,耗费大量 CPU 资源。

要解决此类瓶颈,最佳方案是使用不同计算设备处理不同负载。快手的LaoFe NDP 近数据架构,在计算体系结构上实现创新,使用英特尔 至强可扩展处理器、英特尔Agilex FPGA和英特尔傲腾 持久内存,借助软硬一体化、领域专用加速器设计,从而做到网络、存储、计算三重加速,为各个业务系统提供低延迟、高并发、高吞吐、低总体拥有成本的基础资源。

8ab88ca8-fea9-11ec-ba43-dac502259ad0.png

快手LaoFe NDP异构计算架构

2

持久内存+FGPA 专用硬件

确保三重加速创新

在网络层面,LaoFe NDP 架构将 CPU的网络数据处理转移到英特尔 Stratix 10 FPGA 上,同时基于该 FPGA 实现了“软件定义远程直接内存访问”协议(SD-RDMA),大幅降低了请求延时。

在存储层面,该架构打造了支持 SSD、英特尔 傲腾 持久内存、以及 DRAM 的 Key-Value 存储引擎,将 CPU 层面的存储操作也转移到 FPGA 中,最大程度发挥 FPGA 的能力,相比 CPU 方案,将存储引擎的吞吐能力提升 5 倍以上。该引擎还利用英特尔 傲腾 持久内存的特性,让基于异构存储的索引系统几乎达到纯 DRAM 相同的性能指标,成本降低 30%。同时相比之前小时级的故障恢复速度,异构存储的索引系统只需几分钟就能重新上线。

LaoFe NDP 的计算加速仰仗 FPGA 作为领域专用处理,可以更有效地并行处理数据,提供更高效的内存层次结构与定制化的执行单元,从而支持机器学习深度学习和大数据等场景。英特尔 FPGA 具备富于弹性的可编程硬件能力,延时低且可精确控制,单位算力功耗低、片上内存大,适合于快手延时要求高、批处理比较小、并发性和重复性强的应用场景。

8ac6f964-fea9-11ec-ba43-dac502259ad0.png

快手LaoFe NDP 架构在英特尔软硬件优化下,最终实现了如下优势:

■系统吞吐显著提升,延时显著降低:参数服务器的吞吐性能提升了 5-6 倍,整体请求延时降低了 70%-80%,提供更好的用户体验。

■更好地控制 TCO:FPGA 的强大性能提供远超传统方案的吞吐能力,仅需部署少量的服务器就能满足特性的性能指标要求,替代比可达到1:5,有效降低 TCO。

■降低性能抖动:基于CPU的软件方案常因需要进行高频率更新而出现性能抖动,而通过FPGA来处理负载,能大幅减少性能抖动。

通过快手的实践能够看出,以异构计算加速不同负载,能够显著提升在推荐等场景下的系统吞吐与延时表现。未来,英特尔还会和快手等合作伙伴一起,推进面向未来数据中心的异构参考架构,通过 CPU、IPU、XPU 的产品组合以及软件堆栈,以及智能网络结构,提供跨越整个数据管道的解决方案,高效挖掘海量数据中的智慧,让用户与用户、用户与内容、用户与商品可及时按需建立高效、有温度的连接互动。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英特尔
    +关注

    关注

    60

    文章

    9880

    浏览量

    171450
  • 服务器
    +关注

    关注

    12

    文章

    9017

    浏览量

    85179
  • 异构计算
    +关注

    关注

    2

    文章

    99

    浏览量

    16268

原文标题:英特尔助力快手实现异构计算加速,显著提升性能,降低系统TCO

文章出处:【微信号:英特尔中国,微信公众号:英特尔中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    最强服务器CPU来了!AI性能直接翻倍

    以及AI服务器及AI数据中心场景的CPU产品。它不仅能支持广泛的第三方GPU及AI加速,与它们组合形成强大的异构计算平台,还能在其中补足GPU或专用加速覆盖不到或不足的地方,为更多
    的头像 发表于 09-29 11:00 690次阅读
    最强<b class='flag-5'>服务器</b>CPU来了!AI性能直接翻倍

    什么是云服务器

    服务器(Cloud Server),又称云主机或弹性计算服务(Elastic Compute Service, ECS),是基于云计算技术提供的一种虚拟化
    的头像 发表于 09-27 09:34 173次阅读

    什么是AI服务器?AI服务器的优势是什么?

    AI服务器是一种专门为人工智能应用设计的服务器,它采用异构形式的硬件架构,通常搭载GPU、FPGA、ASIC等加速芯片,利用CPU与加速芯片的组合来满足高吞吐量互联的需求,为自然语言处理、计算
    的头像 发表于 09-21 11:43 614次阅读

    AI云服务器:开启智能计算新时代

    一、AI云服务器的定义与特点 AI云服务器的定义 AI云服务器是一种基于云计算技术,专为处理人工智能相关工作负载而构建的服务器。它集成了强大
    的头像 发表于 08-09 16:08 720次阅读

    打造异构计算新标杆!国数集联发布首款CXL混合资源池参考设计

    参考设计是首个支持异构计算架构的CXL硬件设备,标志着CXL技术在数据中心领域迎来异构计算新阶段。   国数集联基于FPGA与自主研发的CXL协议IP的先进特性,可实现CPU、GPU、DDR、SSD
    的头像 发表于 08-06 14:19 275次阅读
    打造<b class='flag-5'>异构计算</b>新标杆!国数集联发布首款CXL混合资源池参考设计

    AvaotaA1全志T527开发板AMP异构计算简介

    Avaota SBC 的部分平台内具有小核心 CPU,与大核心一起组成了异构计算的功能。 在异构多处理系统中,主核心和辅助核心的存在旨在共同协作,以实现更高效的任务处理。这种协作需要系统采取一系列
    发表于 07-24 09:54

    异构计算:解锁算力潜能的新途径

    在这个数据爆炸的时代,计算力是推动社会与科技创新的核心。从日常智能设备的流畅运行到超级计算机的尖端模拟,均依赖强大的计算能力。但面对多样化的复杂计算任务,单一处理
    的头像 发表于 07-18 08:28 7782次阅读
    <b class='flag-5'>异构计算</b>:解锁算力潜能的新途径

    AI服务器异构计算深度解读

    AI服务器按芯片类型可分为CPU+GPU、CPU+FPGA、CPU+ASIC等组合形式,CPU+GPU是目前国内的主要选择(占比91.9%)。
    发表于 04-12 12:27 563次阅读
    AI<b class='flag-5'>服务器</b><b class='flag-5'>异构计算</b>深度解读

    服务器的特点

    服务器是一种基于云计算技术的服务器服务,它提供了可灵活扩展的计算资源和环境。Rak部落小编为您整理发布云
    的头像 发表于 04-09 09:30 386次阅读

    高通NPU和异构计算提升生成式AI性能 

    异构计算的重要性不可忽视。根据生成式AI的独特需求和计算负担,需要配备不同的处理,如专注于AI工作负载的定制设计的NPU、CPU和GPU。
    的头像 发表于 03-06 14:15 731次阅读

    gpu服务器是干什么的 gpu服务器与cpu服务器的区别有哪些

    gpu服务器是干什么的 gpu服务器与cpu服务器的区别 GPU服务器是一种专门用于处理图形运算的服务器,而CPU
    的头像 发表于 01-30 15:31 811次阅读

    物理服务器对ai发展的应用

    物理服务器在AI发展中扮演着重要的角色。传统的以CPU为计算部件的服务器架构已难以满足人工智能的新需求,因此,"CPU+ GPU/FPGA/ASIC"的异构计算架构成为人工智能
    的头像 发表于 12-22 09:19 426次阅读

     物理服务器和大宽服务器怎么选

    物理服务器和大宽服务器的选择需要根据具体的业务需求来决定。物理服务器是一种独立的、非虚拟化的计算机设备,它通常被用作高性能应用、数据库、存储和网络等关键业务应用的运行平台。常见的物理
    的头像 发表于 12-20 10:50 542次阅读

    gpu服务器是干什么的 gpu服务器与cpu服务器的区别

     相比于传统的CPU服务器,GPU服务器支持同时计算大量相似的计算操作,可以实现更强的并行计算性能。GPU
    的头像 发表于 12-02 17:20 1857次阅读

    什么是异构集成?什么是异构计算异构集成、异构计算的关系?

    异构集成主要指将多个不同工艺节点单独制造的芯片封装到一个封装内部,以增强功能性和提高性能。
    的头像 发表于 11-27 10:22 7005次阅读
    什么是<b class='flag-5'>异构</b>集成?什么是<b class='flag-5'>异构计算</b>?<b class='flag-5'>异构</b>集成、<b class='flag-5'>异构计算</b>的关系?