NVIDIA 发布了世界级的语音识别功能,可为企业生成高精度的转录本, NeMo 1.0 包括用于民主化和加速对话人工智能研究的最新语音和语言模型。
世界级语音识别
NVIDIA Riva 世界级语音识别是一种现成的语音服务,可以轻松部署在任何云或数据中心。企业可以使用 迁移学习工具包 ( TLT )跨各种行业和用例定制语音服务。 通过 TLT ,开发人员可以将定制语音和语言模型的开发速度提高 10 倍。
语音识别模型是高度精确的,并在电信、金融、医疗保健、教育以及各种专有和开源数据集的领域无关词汇上进行训练。此外,它还接受了噪声数据、多种采样率(包括呼叫中心 8khz )、各种口音和对话的训练,所有这些都有助于提高模型的准确性。
使用 Riva 语音服务,您可以在 10 毫秒内生成一个转录。它在多个专有数据集上进行评估,准确率超过 90% ,并且可以适应各种各样的用例和领域。它可以在几个应用程序中使用,例如在呼叫中心、视频会议和虚拟助理中转录音频。
T-Mobile 是美国最大的电信运营商之一,它利用 Riva 提供卓越的客户服务。
T-Mobile 负责产品和技术的副总裁 Matthew Davis 说:“借助 NVIDIA Riva 服务,利用 T-Mobile 数据进行微调,我们正在构建产品,以帮助我们实时解决客户问题。”。
“在评估了几种自动语音识别解决方案后, T-Mobile 发现 Riva 能够以极低的延迟提供高质量的模型,实现客户喜爱的体验。”
您可以从 NGC 目录 下载 Riva 语音服务,现在就开始构建自己的转录应用程序。
NeMo 1.0 版本
NVIDIA NeMo 是一个开源工具包,供研究人员开发最先进的( SOTA )会话人工智能模型。它包括自动语音识别( ASR )、自然语言处理( NLP )和文本到语音( TTS )的集合,使研究人员能够快速试验新的 SOTA 神经网络,以便创建新的模型或在现有模型的基础上进行构建。
PyTorch 与 NeMo 、 PyTorch Lightning 和 Hydra 框架紧密耦合。这些集成使研究人员能够结合 PyTorch 和 PyTorch 闪电模块开发和使用 NeMo 模型和模块。此外,借助 Hydra 框架和 NeMo ,研究人员可以轻松定制复杂的会话人工智能模型。
此版本的亮点包括:
增加了对多种语言的语音识别支持,以及新的 CitriNet 和 Conformer CTC ASR 模型
从英语到西班牙语、俄语、普通话、德语和法语的五种语言支持双向神经机器翻译模型
新的语音合成模型,如 Fastpitch 、 Talknet 、 Fastspeech2 ,以及端到端模型,如 Fastpitch + HiFiGAN 和 Fastspeech2 + HiFiGAN
用于自动执行 反文本规范化和反规范化 以及 基于 CTC 分割的数据集生成 和 探索 语音数据集的功能
此外,大多数 NeMo 模型可以导出到 NVIDIA Riva ,用于产品部署和高性能推断。
关于作者
About Sirisha Rella是 NVIDIA 的技术产品营销经理,专注于计算机视觉、语音和基于语言的深度学习应用。 Sirisha 获得了密苏里大学堪萨斯城分校的计算机科学硕士学位,是国家科学基金会大学习中心的研究生助理。
审核编辑:郭婷
-
NVIDIA
+关注
关注
14文章
4934浏览量
102794 -
语音识别
+关注
关注
38文章
1721浏览量
112541
发布评论请先 登录
相关推荐
评论