CNCC 论坛 | NVIDIA 携手百度、京东、腾讯、小冰，共同解读超大模型的推理和部署实践-电子发烧友网

NVIDIA 四大主题论坛

全栈式解决方案

为您启动 AI 引擎

12 月 8 日-10 日，CNCC 邀您共赴 “计算之约”。以算力、数据、生态为主题，本届 CNCC 首次全面改为线上举办，但规模可说是史上之 “最” ：邀请嘉宾包括 ACM 图灵奖获得者、田纳西大学教授 Jack Dongarra，以及多位院士及专家，还有七百余位国内外名校学者、名企领军人物、各领域极具影响力的业内专家。

今年，NVIDIA会在CNCC带来涵盖DPU、元宇宙、超大模型的推理和部署实践三大主题的演讲论坛和面向开发者的CUDA Python线上编程培训实验论坛，内容丰富、干货满满、场场精彩！（* NVIDIA 将免费放送四大论坛，线上票价值 1080 元，千万别错过）

NVIDIA 在 CNCC 主题论坛概览

时间	主题
12 月 8 日（星期四）1330	探索 DPU 应用场景加速云原生基础设施创新
12 月 8 日（星期四）1900	如何利用元宇宙相关技术实现虚拟世界和现实世界的连接
12 月 9 日（星期五）1330	超大模型的推理和部署实践
12 月 10 日（星期六）1330	基于 Python 的 CUDA 编程入门培训及线上编程体验

在 8 号的“为数据中心不断“减负” ：探索 DPU 应用场景，加速云原生基础设施创新”、穿梭虚实之间，元宇宙技术是如何做到的？两期主题论坛之后。

这一程，NVIDIA 将携手百度、腾讯、小冰，于 12 月 9 日下午共同解读《超大模型的推理和部署实践》。论坛云集技术大牛，您将了解：

飞桨超大模型的压缩和推理优化；
基于精调、蒸馏和压缩的大模型落地应用；
通往高参数效用比的自然语言处理；
“小冰”如何利用 FasterTransformer 实现大规模语言模型的产品级部署等内容。

对超大模型推理及其具体应用感兴趣的小伙伴们，

下方查看会议详情！

超大模型的推理和部署实践

12 月 9 日，星期五，1330

线上会议室 6

随着 AI 的发展，创新和数据复杂性不断提升，超大规模成为必然趋势。通过本次分论坛，您将了解飞桨超大模型的压缩和推理优化；基于精调、蒸馏和压缩的大模型落地应用；通往高参数效用比的自然语言处理；如何利用 FasterTransformer 实现大规模语言模型的产品级部署，以及 Transformer 模型在 TensorRT 上的推理性能优化等内容。

具体议程

飞桨超大模型的压缩和推理优化

超大模型在各类任务上取得卓越的效果，然而由于超大模型体积大、速度慢，推理部署面临巨大的挑战，大模型的高效推理是实现大模型产业应用落地的关键所在。飞桨推出了针对大模型的压缩、推理、服务化全流程部署方案。该方案通过面向大模型的精度无损模型压缩技术、自适应分布式推理技术，可自动感知硬件特性，完成模型压缩、自动切分和混合并行推理计算，实现领先性能。

党青青 | 百度资深研发工程师

党青青，百度资深研发工程师，目前主要从事深度学习模型推理、压缩、视觉算法的研究。负责飞桨推理性能优化，以及模型压缩工具、视觉套件建设。有丰富的深度学习框架系统研发、高性能优化、算法调优经验。

通往高参数效用比的自然语言处理-预训练、

下游任务、与前沿展望

如今自然语言处理领域正在进行 “训练->推理” 到 “预训练->下游任务微调”的范式转换，其中模型神经元数量和预训练所用数据规模已经远超人类大脑的神经元数量和人类人均阅读总量，同时在 GLUE 等通用大模型评估榜单中获得的收益是非常微弱的。对此，我们开展了一系列高参数效用比的自然语言处理预训练、和下游任务的探索，来帮助大模型更加智能、高效的从海量数据中挖掘知识，并鲁棒、准确的迁移到下游任务中。

丁亮 | 京东探索研究院算法科学家

丁亮，京东探索研究院算法科学家，自然语言处理方向负责人。博士毕业于悉尼大学，师从 IEEE/ACM Fellow 陶大程教授。他致力于基于深度学习的自然语言处理，包括大规模语言模型预训练、语言理解、生成和翻译。他带领团队在 2021 年 12 月在两个 GLUE 基准评测任务上实现首次超越人类的表现，随后在 2022 年 1 月以均分 91.3 获得总榜单第一。

基于精调、蒸馏和压缩的大模型落地应用

大模型历经过去几年探索已经相对成熟。目前如何能够在真实场景快速落地成为急需解决的问题。为解决大模型落地方面的各种问题，我们开发提供精调、蒸馏、压缩、推理、服务化全流程部署方案，助力大模型快速有效落地。

刘凯 | 腾讯软件工程师

从事 NLP 训练推理一体化服务开发。

小冰如何利用 FasterTransformer

实现大规模语言模型的产品级部署

小冰在部署 GPT 1B/6B 模型中遇到的困难；Faster Transformer (FT) 如何解决上述困难；在上述模型配置下，FT+Triton 与 baseline (Huggingface Transformers 和 Deepspeed) 在 a. latency, b. throughput, c. 可部署的最低配置GPU环境上的差异；小冰如何利用 FT 对 soft prompt/prefix 的支持，在只使用同一个 backbone model 的情况下实现对不同用户的高度自定义化。

赵天雨 | 小冰高级研究员

2015 年本科毕业于北京大学计算机系，2020 年博士毕业于京都大学智能信息学系，同年就职于小冰日本团队。研究方向为自然语言处理，主要关注对话系统、大模型的训练与部署。

郑鹏 | NVIDIA GPU 计算专家

毕业于佐治亚理工计算科学与工程专业，2021 年加入 NVIDIA 主要参与 FasterTransformer Multi-GPU Multi-Node 相关的优化工作。

基于 FasterTransformer

和 Triton大模型的预估

自 2020 年 OpenAI 推出 GPT 模型之後，越来越多研究证明超大模型在自然语言处理上的能力与重要性。NVIDIA 在 2021 年时基于 FasterTransformer 开发多机多卡并行推理的功能，提出第一个多机多卡大模型推理的解决方案。FasterTransformer 本身不具有收集、整理请求的能力，这在实际应用上是非常重要的功能。为了填补不足，我们将 FasterTransformer 与推理框架 Triton 进行结合，让 FasterTransformer 能够更好的支持实际的推理场景。在这次的演讲中，我们会详细的讲解我们如何实现以上的功能，让用户能透过 FasterTransformer 将大模型推理实际落地。

薛博阳 | NVIDIA GPU 技术专家

2019 年加入 NVIDIA，目前主要负责 FasterTransformer 的开发与优化。FasterTransformer 提供 Transformer 模型推理上灵活与高效的调用，对比一般的框架能提供数倍到十倍以上的加速效果。除此之外，是第一个支持 GPT-3 的推理库。FasterTransformer 针对 GPT-3 这种超大规模(1750 亿模型参数)的模型提供了模型并行、优化通信开销、显存使用，让使用者能以最少的 GPU、透过多 GPU、多节点在 GPT-3 的服务上得到最好的速度。

Transformer 模型

在 TensorRT 上的推理性能优化

Transformer 在 NLP 和 CV 领域大放异彩，在众多深度学习模型中显现了突出的效果。同时，它相比于卷积网络需要更高的计算量，其推理优化值得关注。TensorRT 是 NVIDIA 专门针对推理场景推出的性能优化工具；NVIDIA DevTech 团队将若干常用的 Transformer 模型移植到 TensorRT，获得了良好的加速效果。

王猛 | NVIDIA GPU 技术专家

2019 年加入 NVIDIA，目前主要从事 GPU 上模型部署与优化，在 TensorRT，ONNX 和 CUDA 并行计算等领域有较多的研究和应用经验，目前主要负责 TensorRT workflow。

小组座谈

参与嘉宾：

王猛 | NVIDIA GPU 技术专家

刘凯 | 腾讯软件工程师

怎样报名参会

扫描下方二维码或点击阅读原文，添加微信小助手

并备注“CNCC”加入本次活动微信交流群

分论坛观看入口将在直播开始前在微信群内发布

与行业先锋一同，探寻超大模型的推理和部署实践

原文标题：CNCC 论坛 | NVIDIA 携手百度、京东、腾讯、小冰，共同解读超大模型的推理和部署实践

文章出处：【微信公众号：NVIDIA英伟达】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

英伟达

英伟达

+关注

关注
22

文章
3799

浏览量
91337
大模型

大模型

+关注

关注
2

文章
2491

浏览量
2867

原文标题：CNCC 论坛 | NVIDIA 携手百度、京东、腾讯、小冰，共同解读超大模型的推理和部署实践

文章出处：【微信号：NVIDIA_China，微信公众号：NVIDIA英伟达】欢迎添加关注！文章转载请注明出处。

百度百科启动“繁星计划”

近日，百度百科携手中国科协、中国科学院大学共同举办了史记2024·科学百科100词发布会，并在此盛会上正式启动了“繁星计划”。这一计划的核心

发表于 12-31 10:26 •147次阅读

如何开启Stable Diffusion WebUI模型推理部署

发表于 12-11 20:13 •121次阅读

如何开启Stable Diffusion WebUI<b class='flag-5'>模型</b><b class='flag-5'>推理</b><b class='flag-5'>部署</b>

百度文心大模型日均调用量超15亿

近日，百度在上海世博中心举办了主题为“应用来了”的百度世界2024大会。会上，百度董事长李彦宏分享了关于大模型行业的最新动态和百度文心大

发表于 11-12 15:28 •311次阅读

李彦宏宣布：百度文心大模型日调用量超15亿

在百度世界2024大会上，百度公司创始人李彦宏宣布了一项令人瞩目的数据：百度文心大模型的日调用量已经超过15亿次。这一数据不仅彰显了百度在人

发表于 11-12 10:40 •221次阅读

复旦携手百度推出全新AI模型Hallo2

复旦大学与百度携手合作，共同打造了一款名为Hallo2的全新AI模型。这款模型能够在4K分辨率下生成长达数小时的人物动画，为AI在视频生成领

发表于 10-22 17:27 •467次阅读

英特尔与百度共同为AI时代打造高性能基础设施

可持续发展等领域的实践与探索，并围绕为AI时代的产业发展和升级提供“芯”动力等话题进行深入探讨。英特尔市场营销集团副总裁、中国区云与行业解决方案和数据中心销售部总经理梁雅莉指出，“为拥抱以AI为代表的新质生产力，英特尔携手百度

发表于 09-27 09:48 •283次阅读

英特尔与<b class='flag-5'>百度</b><b class='flag-5'>共同</b>为AI时代打造高性能基础设施

NVIDIA与百度飞桨携手革新汽车风阻预测:DNNFluid-Car模型的崛起

在追求更高效、更环保的汽车设计浪潮中，NVIDIA与百度飞桨携手突破传统界限，共同研发了一款革命性的3D高精度汽车风阻预测模型——DNNFl

发表于 07-09 14:56 •1642次阅读

百度智能云推出“千帆行业增强版”

在近日于北京举办的2024智能经济论坛上，百度集团执行副总裁、百度智能云事业群总裁沈抖分享了百度在人工智能领域的最新进展。他宣布，为了推动行业大模型

发表于 05-30 09:30 •604次阅读

百度文心大模型扩展合作领域

百度创始人兼CEO李彦宏在2024年第一季度财报电话会上宣布，文心大模型API在继与中国三星、荣耀成功合作后，本季度再度实现重要突破。小米、OPPO、vivo等主流手机厂商已全面接入文心大模型API，此举标志着

发表于 05-17 11:17 •584次阅读

百度首席技术官王海峰解读文心大模型的关键技术和最新进展

4月16日，以“创造未来”为主题的Create 2024百度AI开发者大会在深圳国际会展中心成功举办。百度首席技术官王海峰以“技术筑基，星河璀璨”为题，发表演讲，解读了智能体、代码、多模型

发表于 04-18 09:20 •715次阅读

【机器视觉】欢创播报 | 百度智能云发布千帆大模型一体机

1 百度智能云发布千帆大模型一体机编辑 4月9日上午，百度智能云GENERATE全球生态大会在成都召开。会上，百度智能云发布千帆大模型

发表于 04-11 10:49 •606次阅读

优必选宣布人形机器人Walker S接入百度文心大模型

优必选宣布人形机器人Walker S接入百度文心大模型，共同探索中国AI大模型+人形机器人的应用。

发表于 04-07 10:17 •934次阅读

百度智能云正式发布了《百度智能云水业大模型白皮书》

3月28日，由E20环境平台主办的2024（第二十二届）水业战略论坛在北京召开。会上，百度智能云正式发布了《百度智能云水业大模型白皮书》（以下简称《白皮书》）。

发表于 03-29 09:20 •1390次阅读

三星Galaxy AI集成百度文心大模型

近日，中国三星与百度智能云宣布正式结成AI生态战略合作伙伴，共同推动AI技术在智能手机等设备上的应用。作为这一合作的一部分，三星Galaxy AI深度集成了百度文心大模型的多项能力，为

发表于 01-29 17:03 •1262次阅读

百度智能云成为荣耀大模型生态战略合作伙伴

2024年1月10日，在荣耀MagicOS 8.0发布会及开发者大会上，荣耀终端有限公司CEO赵明宣布了“百模生态计划”，并与百度集团执行副总裁、百度智能云事业群总裁沈抖共同宣布，

发表于 01-11 10:05 •764次阅读

搜索历史

CNCC 论坛 | NVIDIA 携手百度、京东、腾讯、小冰，共同解读超大模型的推理和部署实践

评论

百度百科启动“繁星计划”

如何开启Stable Diffusion WebUI模型推理部署

百度文心大模型日均调用量超15亿

李彦宏宣布：百度文心大模型日调用量超15亿

复旦携手百度推出全新AI模型Hallo2

英特尔与百度共同为AI时代打造高性能基础设施

NVIDIA与百度飞桨携手革新汽车风阻预测:DNNFluid-Car模型的崛起

百度智能云推出“千帆行业增强版”

百度文心大模型扩展合作领域

百度首席技术官王海峰解读文心大模型的关键技术和最新进展

【机器视觉】欢创播报 | 百度智能云发布千帆大模型一体机

优必选宣布人形机器人Walker S接入百度文心大模型

百度智能云正式发布了《百度智能云水业大模型白皮书》

三星Galaxy AI集成百度文心大模型

百度智能云成为荣耀大模型生态战略合作伙伴