0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

KT利用NVIDIA AI平台训练大型语言模型

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 作者:NVIDIA英伟达企业解 2022-09-27 09:24 次阅读

韩国先进的移动运营商构建包含数百亿个参数的大型语言模型,并使用 NVIDIA DGX SuperPOD 平台和 NeMo Megatron 框架训练该模型。

在韩国受欢迎的 AI 语音助手 GiGA Genie 每天会与 800 万人交谈。

这款 AI 赋能的扬声器由电信公司 KT 提供,不仅能控制电视和提供实时流量更新信息,还能根据语音命令完成大量其他家居辅助任务。得益于大型语言模型 (LLM)(能根据庞大的文本数据集识别、理解、预测和生成人类语言的机器学习算法),这款扬声器掌握了以极为复杂的韩语进行对话的技能。

该公司构建了包含数百亿个参数的 LLM,并且使用NVIDIA DGX SuperPOD数据中心基础架构平台与NeMo Megatron框架来训练和部署这些模型。

毫无疑问,韩语 (Hangul) 是一种极为复杂的语言。它包含四种类型的复合动词,而且词语通常由两个或更多个词根组成。

KT 是韩国先进的移动运营商,拥有超过 2200 万用户。该公司通过开发包含大约 400 亿个参数的 LLM,提高了智能扬声器对此类词语的理解能力。此外,通过与 Amazon Alexa 进行集成,GiGA Genie 也可以使用英语与用户交谈。

KT 的 LLM 开发团队负责人 Hwijung Ryu 说道:“借助基于Transformer的模型,我们显著改善了 GiGA Genie 智能扬声器和我们客户服务平台 AI 联络中心 (AICC) 的品质。”

AICC 是基于云的一体式平台,可提供 AI 语音代理和其他与客户服务相关的应用。

它可以接听电话并提供客户需要的信息,或者快速将客户转接到人工代理,以便对更详细的询问进行解答。Ryu 指出,无需人工干预的 AICC 每天可以管理韩国各地打来的 10 万多个电话。

他补充说道:“LLM 使 GiGA Genie 能够更好地理解语言并生成更接近人类语言的句子,而 AICC 能更快地对询问类型进行汇总和分类,从而将咨询时间缩短 15 秒。”

训练大型语言模型

开发 LLM 可能是一个成本高昂且耗费时间的过程,并需要深厚的专业技术知识和巨大的全栈技术投资。

NVIDIA AI 平台简化并加快了 KT 的这一过程。

Ryu 说:“我们利用 NVIDIA DGX SuperPOD 的强大性能以及 NeMo Megatron 的优化算法和 3D 并行技术,更有成效地训练了 LLM 模型。NeMo Megatron 不断采用新功能,这是我们认为它在提高模型准确性方面的巨大优点。”

3D 并行对训练 KT 的 LLM 至关重要,它是一种分布式训练方法,可将超大规模的深度学习模型分散到多台设备上。Ryu 指出,NeMo Megatron 使团队能够以尽可能高的吞吐量轻松完成这项任务。

他补充道:“我们考虑过使用其他平台,但很难找到从硬件级别到推理级别都能提供全栈环境的替代平台。NVIDIA 还提供来自产品、工程团队等的出色专业知识,使我们轻松解决了多个技术问题。”

Ryu 表示,通过使用 NeMo Megatron 中的超参数优化工具,KT 训练其 LLM 的速度比使用其他框架快 2 倍。借助这些工具,用户可以自动找到更适合 LLM 训练和推理的配置,从而简化和加快开发与部署过程。

KT 还计划使用NVIDIA Triton 推理服务器来提供优化的实时推理服务,以及使用NVIDIA Base Command Manager轻松监控和管理其 AI集群中的数百个节点。

Ryu 说:“得益于 LLM,KT 可以比以往更快地发布充满竞争力的产品。我们还确信我们的技术可以推动其他公司的创新,因为它可以用来增加价值和创造新颖的产品。”

KT 计划在 11 月向开发者发布 20 多个自然语言理解和自然语言生成 API(应用程序编程接口)。这些 API 可用于多种任务,包括文档摘要和分类、情绪识别和潜在不当内容的过滤等。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5026

    浏览量

    103297
  • AI
    AI
    +关注

    关注

    87

    文章

    31158

    浏览量

    269548
  • 语言模型
    +关注

    关注

    0

    文章

    530

    浏览量

    10300

原文标题:GTC22 | 不会挂机的韩语语音服务:KT 利用 NVIDIA AI 训练智能扬声器和客户呼叫中心

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    AI语言模型开发步骤

    开发一个高效、准确的大语言模型是一个复杂且多阶段的过程,涉及数据收集与预处理、模型架构设计、训练与优化、评估与调试等多个环节。接下来,AI
    的头像 发表于 12-19 11:29 146次阅读

    语言模型开发框架是什么

    语言模型开发框架是指用于训练、推理和部署大型语言模型的软件工具和库。下面,
    的头像 发表于 12-06 10:28 149次阅读

    全球大型电子产品制造商利用 Omniverse 和 AI 制定计划

    ikan 全球大型电子产品制造商利用基于 NVIDIA Omniverse 构建的数字孪生和工业 AI 使工厂快速虚拟化。 为了满足目前已全面投产的 Blackwell 的需求,全球
    的头像 发表于 11-23 14:57 572次阅读

    从零开始训练一个大语言模型需要投资多少钱?

    一,前言   在AI领域,训练一个大型语言模型(LLM)是一个耗时且复杂的过程。几乎每个做大型
    的头像 发表于 11-08 14:15 258次阅读
    从零开始<b class='flag-5'>训练</b>一个大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>需要投资多少钱?

    AI模型训练数据来源分析

    AI模型训练数据来源广泛且多元化,这些数据源对于构建和优化AI模型至关重要。以下是对AI
    的头像 发表于 10-23 15:32 806次阅读

    如何训练自己的AI模型

    训练AI模型之前,需要明确自己的具体需求,比如是进行自然语言处理、图像识别、推荐系统还是其他任务。 二、数据收集与预处理 数据收集 根据任务需求,收集并准备好足够的数据集。 可以选
    的头像 发表于 10-23 15:07 2150次阅读

    如何利用大型语言模型驱动的搜索为公司创造价值

    大型语言模型LLMs具有自动化内容创建、提高内容质量及多样化的潜力,可重塑企业与信息的交互方式。通过利用LLMs,企业能提升工作效率,降低运营成本,并获得深入洞察。来自EgeGürde
    的头像 发表于 10-13 08:07 192次阅读
    如何<b class='flag-5'>利用</b><b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>驱动的搜索为公司创造价值

    NVIDIA Nemotron-4 340B模型帮助开发者生成合成训练数据

    Nemotron-4 340B 是针对 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 优化的模型系列,该系列包含最先进的指导和奖励模型,以及一个用于生成式
    的头像 发表于 09-06 14:59 345次阅读
    <b class='flag-5'>NVIDIA</b> Nemotron-4 340B<b class='flag-5'>模型</b>帮助开发者生成合成<b class='flag-5'>训练</b>数据

    基于CPU的大型语言模型推理实验

    随着计算和数据处理变得越来越分散和复杂,AI 的重点正在从初始训练转向更高效的AI 推理。Meta 的 Llama3 是功能强大的公开可用的大型语言
    的头像 发表于 07-18 14:28 583次阅读
    基于CPU的<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>推理实验

    语言模型的预训练

    能力,逐渐成为NLP领域的研究热点。大语言模型的预训练是这一技术发展的关键步骤,它通过在海量无标签数据上进行训练,使模型学习到
    的头像 发表于 07-11 10:11 462次阅读

    llm模型训练一般用什么系统

    。 硬件系统 1.1 GPU(图形处理器) 在训练大型语言模型时,GPU是首选的硬件设备。相比于CPU,GPU具有更高的并行处理能力,可以显著提高
    的头像 发表于 07-09 10:02 448次阅读

    英伟达开源Nemotron-4 340B系列模型,助力大型语言模型训练

    近日,英伟达宣布开源了一款名为Nemotron-4 340B的大型模型,这一壮举为开发者们打开了通往高性能大型语言模型(LLM)训练的新天地
    的头像 发表于 06-17 14:53 586次阅读

    【大语言模型:原理与工程实践】大语言模型的预训练

    语言模型的核心特点在于其庞大的参数量,这赋予了模型强大的学习容量,使其无需依赖微调即可适应各种下游任务,而更倾向于培养通用的处理能力。然而,随着学习容量的增加,对预训练数据的需求也相
    发表于 05-07 17:10

    【大语言模型:原理与工程实践】大语言模型的基础技术

    就无法修改,因此难以灵活应用于下游文本的挖掘中。 词嵌入表示:将每个词映射为一个低维稠密的实值向量。不同的是,基于预训练的词嵌入表示先在语料库中利用某种语言模型进行预
    发表于 05-05 12:17

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    语言模型(LLM)是人工智能领域的尖端技术,凭借庞大的参数量和卓越的语言理解能力赢得了广泛关注。它基于深度学习,利用神经网络框架来理解和生成自然
    发表于 05-04 23:55