NVIDIA GPU助力提升模型训练和推理性价比-电子发烧友网

无量推荐系统承载着腾讯PCG（平台与内容事业群）的推荐场景，包括：腾讯看点（浏览器、QQ看点、商业化）、腾讯新闻、腾讯视频、腾讯音乐、阅文、应用宝、小鹅拼拼等。无量推荐系统支持日活跃用户达数亿级别，其中的模型数量达数千个，日均调用服务达到千亿级别。无量推荐系统，在模型训练和推理都能够进行海量Embedding和DNN模型的GPU计算，是目前业界领先的体系结构设计。

传统推荐系统面临挑战

传统推荐系统具有以下特点：训练是基于参数服务器的框架，解决海量数据和稀疏特征的分布式训练问题。推理通常分离大规模Embedding和DNN，只能进行DNN的GPU加速。所以，传统的推荐系统架构具有一些局限性：1. 大规模分布式架构有大量的额外开销，比如参数和梯度的网络收发。2. 随着DNN模型复杂性的的进一步提升，CPU的计算速度开始捉襟见肘。随着业务的快速增长，日活用户增多，对其调用数量快速增加，给推荐系统后台带来了新的挑战：1. 模型更加复杂，计算量更大，但是参数服务器的分布式架构有效计算比很低。2. 海量Embedding因为规模庞大，查询和聚合计算难以有效利用GPU高性能显存和算力的优势。

GPU助力提升模型训练和推理性价比

基于以上的挑战，腾讯PCG（平台与内容事业群）选择使用基于NVIDIA A100 GPU的分布式系统架构来创建无量推荐系统。

1. 通过多级存储和Pipeline优化，在HPC上完成大规模推荐模型的GPU的高性能训练。2. 基于特征访问Power-law分布的特性，GPU缓存高频特征参数，同时从CPU中动态获取低频特征参数，实现了大规模推荐模型完整的GPU端到端模型推理。

腾讯PCG有多种类型的推荐业务场景。比如信息流推荐的QQ浏览器、QQ看点、新闻推荐的腾讯新闻、视频推荐的腾讯视频、微视、App推荐的应用宝、以及腾讯音乐的音乐推荐和阅文集团的文学推荐。

无量推荐系统承载了这些推荐业务场景的模型训练和推理服务。基于传统的推荐系统架构，无量推荐系统使用大量CPU资源，通过分布式架构可以扩展到TB级模型的训练和部署，取得了巨大的成功。随着业务的快速增长，日活用户增多，对其调用数量快速增加，传统架构局限性限制了推荐系统的架构扩展和性能提升。

通过使用GPU训练和推理，单机多卡的GPU算力可以达到数十台CPU机器的算力，节省了大量的额外分布式开销。通过充分利用A100 GPU高性能显存快速访问Embedding，以及并行算力处理DNN推理，单张A100 GPU可以在相同的延迟下推理10倍于CPU的打分样本。目前基于GPU的推荐架构可以提升模型训练和推理性价比1~3倍。

未来，无量推荐系统将不断优化推荐模型在GPU上的应用，利用HPC多机多卡，混合精度等能力，进一步提高推荐场景使用GPU的性价比。

重磅！NVIDIA行业微站一睹为快！内容涵盖NVIDIA主要的12大行业方案，以及NVIDIA当期重点产品资料。

责任编辑：haq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
5087

浏览量
103914

原文标题：NVIDIA A100 GPU助力腾讯PCG加速无量推荐系统

文章出处：【微信号：murata-eetrend，微信公众号：murata-eetrend】欢迎添加关注！文章转载请注明出处。

使用NVIDIA推理平台提高AI推理性能

NVIDIA推理平台提高了 AI 推理性能，为零售、电信等行业节省了数百万美元。

发表于 02-08 09:59 •245次阅读

使用<b class='flag-5'>NVIDIA</b><b class='flag-5'>推理</b>平台提高AI<b class='flag-5'>推理性</b>能

GPU是如何训练AI大模型的

在AI模型的训练过程中，大量的计算工作集中在矩阵乘法、向量加法和激活函数等运算上。这些运算正是GPU所擅长的。接下来，AI部落小编带您了解GPU是如何

发表于 12-19 17:54 •276次阅读

解锁NVIDIA TensorRT-LLM的卓越性能

Batching、Paged KV Caching、量化技术 (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能，确保您的 NVIDIA GPU 能发挥出卓越的推理性能。

发表于 12-17 17:47 •323次阅读

PyTorch GPU 加速训练模型方法

在深度学习领域，GPU加速训练模型已经成为提高训练效率和缩短训练时间的重要手段。PyTorch作为一个流行的深度学习框架，提供了丰富的工具和

发表于 11-05 17:43 •700次阅读

NVIDIA助力丽蟾科技打造AI训练与推理加速解决方案

丽蟾科技通过 Leaper 资源管理平台集成 NVIDIA AI Enterprise，为企业和科研机构提供了一套高效、灵活的 AI 训练与推理加速解决方案。无论是在复杂的 AI 开发任务中，还是在高并发

发表于 10-27 10:03 •337次阅读

<b class='flag-5'>NVIDIA</b><b class='flag-5'>助力</b>丽蟾科技打造AI<b class='flag-5'>训练</b>与<b class='flag-5'>推理</b>加速解决方案

为什么ai模型训练要用gpu

GPU凭借其强大的并行处理能力和高效的内存系统，已成为AI模型训练不可或缺的重要工具。

发表于 10-24 09:39 •480次阅读

开箱即用，AISBench测试展示英特尔至强处理器的卓越推理性能

近期，第五代英特尔®至强®可扩展处理器通过了中国电子技术标准化研究院组织的人工智能服务器系统性能测试（AISBench）。英特尔成为首批通过AISBench大语言模型（LLM）推理性能测试的企业

发表于 09-06 15:33 •446次阅读

开箱即用，AISBench测试展示英特尔至强处理器的卓越<b class='flag-5'>推理性</b>能

魔搭社区借助NVIDIA TensorRT-LLM提升LLM推理效率

“魔搭社区是中国最具影响力的模型开源社区，致力给开发者提供模型即服务的体验。魔搭社区利用NVIDIA TensorRT-LLM，大大提高了大语言模型的

发表于 08-23 15:48 •546次阅读

llm模型训练一般用什么系统

。硬件系统 1.1 GPU（图形处理器）在训练大型语言模型时，GPU是首选的硬件设备。相比于CPU，GPU具有更高的并行处理能力，可以显

发表于 07-09 10:02 •532次阅读

摩尔线程和滴普科技完成大模型训练与推理适配

近日，摩尔线程与滴普科技宣布了一项重要合作成果。摩尔线程的夸娥（KUAE）千卡智算集群与滴普科技的企业大模型Deepexi已完成训练及推理适配，共同实现了700亿参数LLaMA2大语言模型

发表于 05-30 10:14 •624次阅读

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

。 **英伟达Blackwell架构在数据中心方面的应用有哪些？** 1. **AI **大模型训练 Blackwell 架构的 GPU 针对当前火爆的 AI 大模型进行了优化，能够

发表于 05-13 17:16

【大语言模型：原理与工程实践】揭开大语言模型的面纱

丰富的常识知识，能够基于常识进行推理，填补信息空白，并作出合理推断。随着训练规模和参数量的增加，大语言模型的推理能力将持续提升，为解决实际问

发表于 05-04 23:55

NVIDIA加速微软最新的Phi-3 Mini开源语言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM 是一个开源库，用于优化从 PC 到云端的 NVID

发表于 04-28 10:36 •658次阅读

利用NVIDIA组件提升GPU推理的吞吐

本实践中，唯品会 AI 平台与 NVIDIA 团队合作，结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV（HKV）将推理的稠密网络和热

发表于 04-20 09:39 •843次阅读

自然语言处理应用LLM推理优化综述

当前，业界在将传统优化技术引入 LLM 推理的同时，同时也在探索从大模型自回归解码特点出发，通过调整推理过程和引入新的模型结构来进一步提升

发表于 04-10 11:48 •700次阅读

搜索历史

NVIDIA GPU助力提升模型训练和推理性价比

评论

使用NVIDIA推理平台提高AI推理性能

GPU是如何训练AI大模型的

解锁NVIDIA TensorRT-LLM的卓越性能

PyTorch GPU 加速训练模型方法

NVIDIA助力丽蟾科技打造AI训练与推理加速解决方案

为什么ai模型训练要用gpu

开箱即用，AISBench测试展示英特尔至强处理器的卓越推理性能

魔搭社区借助NVIDIA TensorRT-LLM提升LLM推理效率

llm模型训练一般用什么系统

摩尔线程和滴普科技完成大模型训练与推理适配

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

【大语言模型：原理与工程实践】揭开大语言模型的面纱

NVIDIA加速微软最新的Phi-3 Mini开源语言模型

利用NVIDIA组件提升GPU推理的吞吐

自然语言处理应用LLM推理优化综述