0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用NVIDIA Riva实现将语音转录成文本

星星科技指导员 来源:NVIDIA 作者:About Sirisha Rella, 2022-03-31 17:57 次阅读

每天,电信、金融和统一通信即服务( UCaaS )等行业都会产生数百万分钟的音频。这些音频会议记录可以转录,以便为呼叫中心代理提供实时建议,从客户呼叫记录中提取见解,或在视频会议中生成实时字幕。

Industries that commonly use AI include telco, financial services, healthcare, unified communication as a service, and retail.

图 1 。人工智能工业中的应用

自动语音识别使您能够将语音转录成文本。生成高质量的文字记录是一项挑战,因为这些技能需要理解特定于行业的术语、数百到数千分钟特定于领域的培训音频以及实时运行的管道。 NVIDIA Riva 语音识别是一项技术,可为跨行业的几个常见用例提供世界级的实时准确度。

在这篇文章中,我们讨论 Riva 语音识别。后续文章将讨论如何定制语音识别模型,并将其作为优化技能进行部署:

Customizing Speech Recognition Models to Your Domain Using TAO Toolkit

Deploying Speech Recognition Models to Production Using Riva

Riva 语音识别

Riva 是 GPU 加速的 AI 语音 SDK ,用于实时转录和虚拟助理等对话 AI 应用程序。 Riva 具有以下优点:

NGC 中经过预训练的最先进的语音模型

没有编码工具,例如TAO Toolkit,用于在自定义数据集上微调这些模型

用于高性能推理的优化语音识别和语音合成管道

Riva 下面的模型是基于数百到数千小时的开放和真实世界数据进行训练的,这些数据来自电信、金融、医疗保健和 NVIDIA 超级计算机上的教育等行业。数据集样本还来自嘈杂的环境、自发的语音对话、多种英语口音和不同的采样率。所有这些属性都有助于生成噪声鲁棒、高质量的转录。

Riva 语音识别技能在各种真实世界的用例数据集上进行评估,包括视频会议、联络中心、播客和技术视频。您可以在云中、数据中心和边缘部署这些技能。

Riva 语音识别管道在保持准确性的同时,为新的最先进的体系结构提供支持。图 2 显示了在过去 3 年中,通过新的模型体系结构、训练方法以及最新的基于 TensorRT 和 GPU 的优化,语音准确性的提高。

Riva ASR accuracy improved by 50% in 3 years.

图 2 。 Riva ASR 精度改进

使用 Riva ,您可以在流式或批处理模式下以实时延迟快速部署和扩展到数百和数千个并发流。

关于作者

About Sirisha Rella

Sirisha Rella 是 NVIDIA 的技术产品营销经理,专注于计算机视觉、语音和基于语言的深度学习应用。 Sirisha 获得了密苏里大学堪萨斯城分校的计算机科学硕士学位,是国家科学基金会大学习中心的研究生助理。

About Tanay Varshney

Tanay Varshney 是 NVIDIA 的一名深入学习的技术营销工程师,负责广泛的 DL 软件产品。他拥有纽约大学计算机科学硕士学位,专注于计算机视觉、数据可视化和城市分析的横断面。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4934

    浏览量

    102794
  • 语音识别
    +关注

    关注

    38

    文章

    1721

    浏览量

    112541
收藏 人收藏

    评论

    相关推荐

    ASR语音识别技术应用

    ASR(Automatic Speech Recognition)语音识别技术,是计算机科学与人工智能领域的重要突破,能将人类语音转换为文本,广泛应用于智能家居、医疗、交通等多个领域。以下是对ASR
    的头像 发表于 11-18 15:12 269次阅读

    基于Arm Neoverse N2实现自动语音识别技术

    自动语音识别 (Automatic Speech Recognition) 技术已经深入到现代生活的方方面面,广泛应用于从语音助手、转录服务,到呼叫中心分析和语音
    的头像 发表于 11-15 11:35 168次阅读
    基于Arm Neoverse N2<b class='flag-5'>实现</b>自动<b class='flag-5'>语音</b>识别技术

    NVIDIA文本嵌入模型NV-Embed的精度基准

    NVIDIA 的最新嵌入模型 NV-Embed —— 以 69.32 的分数创下了嵌入准确率的新纪录海量文本嵌入基准测试(MTEB)涵盖 56 项嵌入任务。
    的头像 发表于 08-23 16:54 1937次阅读
    <b class='flag-5'>NVIDIA</b><b class='flag-5'>文本</b>嵌入模型NV-Embed的精度基准

    LM358如何实现将50HZ的方波转换为正弦波?

    基于单电源供电的LM358 。。如何实现将50HZ的方波转换为正弦波。。。下面是我设计的电路图,可是结果不行。。请指教,谢谢了。。。
    发表于 08-21 06:18

    科大讯飞创新推出长文本、长图文、长语音大模型,解决落地难题

    近期,科大讯飞推出了首个支持长文本、长图及语音大数据处理的大模型,该系统融合了多元化数据源,包括海量文字、图片以及会议音频等,能为各行业场景提供专业化、精准化的答案。
    的头像 发表于 04-28 09:32 355次阅读

    WT3000T8-TTS语音合成芯片及应用场景介绍

    TTS语音合成芯片是一种能够将文本信息转化为自然语音的专用芯片。它通过内置的语音合成算法和音频处理单元,实现
    的头像 发表于 04-18 18:03 820次阅读

    NVIDIA生成式AI研究实现在1秒内生成3D形状

    NVIDIA 研究人员使 LATTE3D (一款最新文本转 3D 生成式 AI 模型)实现双倍加速。
    的头像 发表于 03-27 10:28 465次阅读
    <b class='flag-5'>NVIDIA</b>生成式AI研究<b class='flag-5'>实现</b>在1秒内生成3D形状

    MX生成文件touchGFX无法成功编译是哪里出了问题?

    1、MX生成文件时,toolchian工具选择keil且touchGFX选择高版本时,生成文件可以成功在touchGFX不可以成功编译。 2、toolchian工具选择IDE且touchGFX选择
    发表于 03-13 07:40

    GERBER配置转录

    cadence GERBER 配置转录
    发表于 03-07 14:23 0次下载

    亚马逊发布史上最大文本语音模型BASE TTS

    亚马逊的人工智能研究团队近日宣布,他们成功开发出了迄今为止规模最大的文本语音模型——BASE TTS。这款新模型拥有高达9.8亿个参数,不仅在规模上超越了之前的所有版本,还在能力上实现了质的飞跃。
    的头像 发表于 02-20 17:04 807次阅读

    网关可以实现将 Modbus TCP 接口设备连接到 Profinet 网络

    SG-PNh750-TCP-210 网关可以实现将 Modbus TCP 接口设备连接到 Profinet 网络中。用 户不需要了解具体的 Modbus TCP 和 Profinet 协议即可实现将
    的头像 发表于 01-08 23:45 379次阅读
    网关可以<b class='flag-5'>实现将</b> Modbus TCP 接口设备连接到 Profinet 网络

    科大讯飞语音控制模块怎么用

    和不足之处。 一、科大讯飞语音控制模块的原理 科大讯飞语音控制模块主要基于两项核心技术:语音识别和语音合成。语音识别技术是将用户的
    的头像 发表于 12-25 13:58 1682次阅读

    NVIDIA ACE 中使用 AI 动画和语音功能打造逼真的虚拟形象

    NVIDIA 近日公布了 NVIDIA Avatar Cloud Engine(ACE) 的一系列技术,增强了 AI 虚拟形象和数字人的真实感和可访问性,这些新的动画和语音功能实现了更
    的头像 发表于 12-15 15:50 540次阅读
    在 <b class='flag-5'>NVIDIA</b> ACE 中使用 AI 动画和<b class='flag-5'>语音</b>功能打造逼真的虚拟形象

    如何在NVIDIA ACE中使用AI动画和语音功能打造逼真的虚拟形象呢?

    NVIDIA 近日公布了 NVIDIA Avatar Cloud Engine(ACE)的一系列技术,增强了 AI 虚拟形象和数字人的真实感和可访问性,这些新的动画和语音功能实现了更自
    的头像 发表于 12-15 15:48 623次阅读
    如何在<b class='flag-5'>NVIDIA</b> ACE中使用AI动画和<b class='flag-5'>语音</b>功能打造逼真的虚拟形象呢?

    vlookup过来的数据怎么变成文本

    VLOOKUP是一个非常有用的Excel函数,用于查找并提取特定值或数据。在VLOOKUP函数中,通常返回的数据类型是数值或日期,但有时我们可能希望将这些数据转换为文本格式。本文将详细介绍如何将通过
    的头像 发表于 12-01 10:18 2.9w次阅读