Microsoft使用NVIDIA Triton加速AI Transformer模型应用-电子发烧友网

Microsoft 的目标是，通过结合使用 Azure 与 NVIDIA GPU 和 Triton 推理软件，率先将一系列强大的 AI Transformer 模型投入生产用途。

如果您的软件能唤起人们喜悦的泪水，您就是在传播欢乐。

Translator 是一项 Microsoft Azure 认知服务，通过应用一些规模庞大的 AI 模型来帮助更多人进行交流。

“有太多精彩的故事可以讲了!” Translator 开发经理 Vishal Chowdhary 表示。

比如，在 2010 年海地遭受 7.0 级地震后，在短短 5 天的冲刺期里为相关应用紧急添加海地克里奥尔语支持，进而为救援人员提供帮助。再比如，祖父母在使用这款软件，与讲着他们不懂的语言的远方孙辈进行第一次实时交流时，感动到哽咽。

雄心勃勃的目标

“我们的愿景是，让成千上万的开发者都已经在使用的这个 API，能打破不同语言、不同模式之间的阻碍。” Chowdhary 说。

考量全球现行的语言大约有 7000 种，这真的是个雄心勃勃的目标。

因此，团队采用了一种强大而复杂的工具，即是混合专家系统(MoE)AI 方法。

在推动自然语言处理快速发展进步的 Transformer 模型中，这是非常先进的一种。它具有 50 亿个参数，其规模比团队在生产过程中用于自然语言处理的最大模型大了 80 倍。

MoE 模型涉及到庞大的计算量，很难找到能将其投入生产环境中使用的用户。在初始测试中，基于 CPU 的服务器无法满足团队要在一秒钟内完成翻译一个文档的要求。

27 倍的提速

随后，该团队使用 NVIDIA Triton 推理服务器(本周 GTC 大会上宣布的 NVIDIA AI Enterprise 2.0 平台的其中一部分)在加速系统上进行了测试。

Chowdhary 说：“借助 NVIDIA GPU 和 Triton，我们得以实现这一目标，且非常高效。”

事实上，相较于未经优化的 GPU 运行时，该团队实现了高达 27 倍的提速。

“这让我们可以构建一个模型来执行不同的语言理解任务，例如汇总、生成文本和翻译等，而不必为每个任务开发单独的模型。” 负责监督测试的 Microsoft 首席研究员 Hanny Hassan Awadalla 表示。

Triton 如何提供帮助

Microsoft 的模型能将大型任务(如翻译多个文档)拆分为许多个小任务，在每个小任务中翻译几百个句子。Triton 的动态批处理功能将诸多此类请求整合起来，从而充分利用 GPU 的强大功能。

对于 Triton 使用 CPU、GPU 或其他加速器在各种模式下运行各种模型的能力，让该团队赞不绝口。

Chowdhary 的团队十多年来一直在开发大规模分布式系统。Chowdhary 表示：“这种解决方案周到地考虑了我的工作场景，提供了我想要的各种功能，就像是我给自己亲手定制的解决方案一样。

在幕后，有两个软件组件是 Triton 取得成功的关键。一个是 NVIDIA 扩展型 FasterTransformer，这是一个处理推理计算的软件层，可支持 MoE 模型。另一个是 CUTLASS，这是一个 NVIDIA 数学库，有助于高效实现模型。

在四周内提供已验证的原型

尽管测试十分复杂，但该团队通过与 NVIDIA 工程师合作并运用 Triton 的强大力量，在不到一个月的时间内就获得了可投入正常运转的端到端原型。

“在如此之短的时间内制作出一款达到可发布程度的产品，这样的效率实在令人印象深刻，对此我真的非常感激。” Awadalla 这样说道。

虽然这是该团队第一次使用 Triton，但 “我们使用它来发布 MoE 模型，不用花费太多力气就重新构建了运行时环境，现在我衷心希望在我们的长期托管系统中纳入这款解决方案。” Chowdhary 补充表示。

采取后续措施

加速后的服务将采用审慎的步骤实施，初期会用于少数几种主要语言的文档翻译。

Chowdhary 表示：“我们的最终目标是，让客户能在所有场景中通过透明的方式获享这些新模型的优点。”

这项工作是 Microsoft 的一项涉猎更广泛的计划的一部分。其目的是推动 Office 和 Teams 等众多产品的进步，帮助各类开发者与客户(从专注于打造一款应用的小型公司到财富 500 强企业)取得发展。

为了给这一计划铺平道路，Awadalla 的团队于去年 9 月发表了一项研究成果，介绍如何在 NVIDIA A100 Tensor Core GPU 上训练具有多达 2 千亿个参数的 MoE 模型。自那之后，该团队还在具有超过 3 千亿个参数的模型上使用 80G 版本的 A100 GPU，将性能提升了 8 倍。

Adawalla 表示：“为了更好地表示更多的语言，尤其是我们手头没有太多数据的语言，模型必定会越来越大。”

原文标题：GTC22 | 促进人际交流：微软使用 NVIDIA Triton 改善 Translator 翻译工具的 AI 质量和效率

文章出处：【微信公众号：NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

审核编辑：汤梓红

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
4978

浏览量
102987
gpu

gpu

+关注

关注
28

文章
4729

浏览量
128890
AI

AI

+关注

关注
87

文章
30728

浏览量
268886
Microsoft

Microsoft

+关注

关注
0

文章
214

浏览量
6849

原文标题：GTC22 | 促进人际交流：微软使用 NVIDIA Triton 改善 Translator 翻译工具的 AI 质量和效率

文章出处：【微信号：NVIDIA_China，微信公众号：NVIDIA英伟达】欢迎添加关注！文章转载请注明出处。

NVIDIA推出全新生成式AI模型Fugatto

NVIDIA 开发了一个全新的生成式 AI 模型。利用输入的文本和音频，该模型可以创作出包含任意的音乐、人声和声音组合的作品。

发表于 11-27 11:29 •333次阅读

Transformer模型的具体应用

如果想在 AI 领域引领一轮新浪潮，就需要使用到 Transformer。

发表于 11-20 09:28 •411次阅读

<b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>的具体应用

NVIDIA AI正加速推进药物研发

在当前的医疗健康领域，AI 的重要性愈发凸显。NVIDIA AI 正加速推进药物研发，致力于减少药物的研发时间和成本，使更多的老年患者能够更快获得关键治疗。

发表于 11-19 16:07 •226次阅读

NVIDIA加速AI在日本各行各业的应用

企业借助基于 NVIDIA AI Enterprise 与 Omniverse 工业 AI 构建的创新中心和服务加速 AI 转型。

发表于 11-19 15:45 •224次阅读

日本企业借助NVIDIA产品加速AI创新

日本领先企业和大学正在使用 NVIDIA NeMo、NIM 微服务和 NVIDIA Isaac 加速 AI 创新。

发表于 11-19 14:34 •282次阅读

NVIDIA助力提供多样、灵活的模型选择

在本案例中，Dify 以模型中立以及开源生态的优势，为广大 AI 创新者提供丰富的模型选择。其集成的 NVIDIAAPI Catalog、NVIDIA NIM和

发表于 09-09 09:19 •460次阅读

NVIDIA AI Foundry 为全球企业打造自定义 Llama 3.1 生成式 AI 模型

借助 NVIDIA AI Foundry，企业和各国现在能够使用自有数据与 Llama 3.1 405B 和 NVIDIA Nemotron 模型配对，来构建“超级

发表于 07-24 09:39 •706次阅读

<b class='flag-5'>NVIDIA</b> <b class='flag-5'>AI</b> Foundry 为全球企业打造自定义 Llama 3.1 生成式 <b class='flag-5'>AI</b> <b class='flag-5'>模型</b>

使用PyTorch搭建Transformer模型

Transformer模型自其问世以来，在自然语言处理（NLP）领域取得了巨大的成功，并成为了许多先进模型（如BERT、GPT等）的基础。本文将深入解读如何使用PyTorch框架搭建Trans

发表于 07-02 11:41 •1598次阅读

HPE 携手 NVIDIA 推出 NVIDIA AI Computing by HPE，加速生成式 AI 变革

by HPE 包含了可持续的加速计算产品组合以及全生命周期服务，将简化 AI 创造价值的过程，加速生成式 AI 的发展步伐。 NVIDIA

发表于 06-21 14:39 •359次阅读

NVIDIA推出NVIDIA AI Computing by HPE加速生成式 AI 变革

作为极具开创性的一站式“交钥匙”私有云人工智能（private-cloud AI）解决方案，NVIDIA AI Computing by HPE 包含了可持续的加速计算产品组合以及全生

发表于 06-20 17:36 •711次阅读

Microsoft AI 推进行业企业智慧化创新

2024年6月17日，北京—— 近日，微软在北京举办以“共创AI创新，智启无限可能”为主题的Microsoft AI Day活动，集中展示了在生成式智能技术加速发展普及的过程中，微软取

发表于 06-17 16:59 •1010次阅读

NVIDIA与微软扩展合作，帮助开发者更快构建和部署AI应用

NVIDIA 在 Microsoft Build 开发者大会上展示了与 Microsoft Azure 和 Windows PC 的集成解决方案，简化了 AI

发表于 05-23 10:14 •405次阅读

NVIDIA加速微软最新的Phi-3 Mini开源语言模型

NVIDIA 宣布使用 NVIDIA TensorRT-LLM 加速微软最新的 Phi-3 Mini 开源语言模型。TensorRT-LLM 是一个开源库，用于优化从 PC 到云端的

发表于 04-28 10:36 •549次阅读

NVIDIA在加速识因智能AI大模型落地应用方面的重要作用介绍

本案例介绍了 NVIDIA 在加速识因智能 AI 大模型落地应用方面的重要作用。生成式大模型已广泛应用于各领域，通过学习人类思维方式，能快速

发表于 03-29 15:28 •622次阅读

使用NVIDIA Triton推理服务器来加速AI预测

这家云计算巨头的计算机视觉和数据科学服务使用 NVIDIA Triton 推理服务器来加速 AI 预测。

发表于 02-29 14:04 •576次阅读

搜索历史

Microsoft使用NVIDIA Triton加速AI Transformer模型应用

评论

NVIDIA推出全新生成式AI模型Fugatto

Transformer模型的具体应用

NVIDIA AI正加速推进药物研发

NVIDIA加速AI在日本各行各业的应用

日本企业借助NVIDIA产品加速AI创新

NVIDIA助力提供多样、灵活的模型选择

NVIDIA AI Foundry 为全球企业打造自定义 Llama 3.1 生成式 AI 模型

使用PyTorch搭建Transformer模型

HPE 携手 NVIDIA 推出 NVIDIA AI Computing by HPE，加速生成式 AI 变革

NVIDIA推出NVIDIA AI Computing by HPE加速生成式 AI 变革

Microsoft AI 推进行业企业智慧化创新

NVIDIA与微软扩展合作，帮助开发者更快构建和部署AI应用

NVIDIA加速微软最新的Phi-3 Mini开源语言模型

NVIDIA在加速识因智能AI大模型落地应用方面的重要作用介绍

使用NVIDIA Triton推理服务器来加速AI预测