0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

用NVIDIA NeMo生成高质量的语音识别标签

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-04-27 09:15 次阅读

使用 NVIDIA NeMo 和 标签工作室 中的自动语音识别( ASR )模型处理音频数据时,可以节省时间并产生更准确的结果。

NVIDIA NeMo 提供了可重用的神经模块,使得创建新的神经网络架构变得容易,包括 ASR 的预构建模块和现成模型。借助 NVIDIA NeMo 的强大功能,您可以从预训练语音识别模型中获得音频转录。添加 labelstudio 及其开源数据标记功能,您可以进一步提高转录质量。

解决方案

poYBAGJomUSASBfSAAAy2POsRYU582.jpg

图 1 使用 Label Studio 和 NeMo 注释和更正转录本的 ASR 工作流。

按照本文中的步骤使用 Label Studio 设置 NVIDIA NeMo ASR ,以生成高质量的音频转录本。

连接 NVIDIA NeMo 模型,在 Label Studio 中自动转录音频文件。

设置音频转录项目。

从 Label Studio 验证和导出修订的音频转录本。

微调 NeMo ASR 模型与修改后的音频转录从标签工作室。

先决条件

开始之前,请确保您拥有以下资源:

音频数据文件。 此音频 MIG 可以是客户服务电话、电话订单、销售对话的录音,也可以是其他与人交谈的录音。音频文件必须采用以下文件格式之一:

WAV

AIFF

MP3

AU

FLAC

已安装 Label Studio 。 在本地计算机或云服务器上使用首选方法安装 Label Studio 。有关更多信息,请参阅 Label Studio 文档中的 Quickstart 。

NeMo 工具箱已安装

免费音频数据

如果您没有任何音频数据,可以使用示例数据集或历史音频数据集:

LJ 语音数据集 是非小说类书籍段落的公共域数据集。

Librispeech 还提供了一个 基于开放 SLR 的开源 ASR 语料库 。

您可以使用许多其他 ASR 数据集。有关详细信息,请参阅 数据集 – 简介 。您还可以使用国会图书馆网站上的公共域录音集,如 美国棒球运动员访谈录 。

确定要转录的音频后,就可以开始处理它了。

安装 Label Studio ML 后端

安装 Label Studio 后,请安装 Label Studio 机器学习后端。从命令行运行以下命令:

git clone https://github.com/heartexlabs/label-studio-ml-backend 

设置环境:

cd label-studio-ml-backend

# Install label-studio-ml and its dependencies
pip install -U -e .

# Install the nemo example dependencies
pip install -r label_studio_ml/examples/requirements.txt

连接 NVIDIA NeMo 模型,在 Label Studio 中自动转录音频文件

要使用预先训练的 ASR 模型的预测对数据进行预标记,请在 Label Studio 中将 NeMo 工具箱设置为机器学习后端。 Label Studio 机器学习后端允许您使用预先训练的模型来预标记数据。

Label Studio 包括使用 利用 NGC 云中的 NeMo 开发的预训练 QuartzNet15x5 模型 的 一个例子 ,但是如果另一个模型更适合,您可以用您的数据设置一个不同的模型。有关更多信息,请参阅 NeMo 提供的 ASR 型号列表 。

在命令行中,将 NeMo 设置为机器学习后端,并使用该模型启动一个新的 Label Studio 项目。

安装 NeMo 工具箱 在 Docker 容器中或使用 pip 。

下载 NeMo ASR 模型。提供的 Label Studio 示例脚本从 NGC 云下载预先训练的 QuartzNet 模型。要使用不同的模型,请从 NGC 下载该模型。

从命令行启动 Label Studio 机器学习后端。

label-studio-ml init my_model --from label_studio_ml/examples/nemo/asr.py

启动机器学习后端。默认情况下,模型在本地主机上以端口 9090 启动。

label-studio-ml start my_model

用模型启动 Label Studio 。

label-studio start my_project --ml-backends http://localhost:9090

设置音频转录项目

启动 Label Studio 后,导入音频数据并设置正确的模板来配置标签。 VZX19 是自动语音识别的最佳选择,它使音频数据的注释变得容易。

打开 Label Studio ,导入数据,然后选择模板。

选择 Import 并以纯文本或 JSON 文件的形式导入音频数据,这些文件引用在线存储(如 Amazon S3 )中托管的音频文件的有效 url 。

2 从 Tasks 列表中,选择 Settings 。

3 在 标签界面 选项卡上,浏览模板并选择 自动语音识别 模板。

4 选择 Save 。

验证并输出模型预测

作为注释器,检查任务界面上音频数据的任务并验证。如有必要,纠正 NeMo 语音模型预测的转录本。

从 Label Studio 中的任务列表中,选择 Label 。

对于每个音频样本,聆听音频并回顾 NeMo 模型产生的转录,作为预标记过程的一部分。

如果成绩单中有任何单词不正确,请更新。

保存对成绩单的更改。选择 Submit 提交成绩单并查看下一个音频样本。

接下来,按照 NVIDIA NVIDIA 文档中的 NeMo ASR 集合 所述,以 NeMo 模型所期望的正确格式从 Label Studio 导出完成的音频转录本。

要导出完成的音频,请执行以下操作:

从 Label Studio 中的任务列表中,选择 Export 。

选择名为 ASR_MANIFEST 的音频转录 JSON 格式。

有关 Label Studio 中可用导出格式的详细信息,请参阅 从 Label Studio 导出结果 。

使用高质量的成绩单来微调您的 ML 模型

当您处理完音频并调整完转录的文本后,剩下的是音频转录本,您可以用来重新培训 NeMo 中包含的 ASR 模型。 Label Studio 生成与 NeMo 培训完全兼容的注释。

要更新 QuartzNet 模型检查点,您可以在几行代码中完成,从头开始训练模型,或者使用 PyTorch Lightning 。例子也可以在 NeMo Jupyter 笔记本中找到。

通过同时使用 Label Studio 和 NeMo ,您可以节省从头开始处理每个音频文件的时间 NeMo 可以立即为您提供高度准确的预测,而 Label Studio 可以帮助您实现完美的预测 今天就试试 !

关于作者

Nikolai Liubimov是Heartex的CTO。 完成博士学位后 他在CS担任机器学习研究员,后来进入该行业,并花了10年的时间将深度学习技术应用于现实世界中的问题。 这项经验为当前缺少哪些工具提供了宝贵的见解,从而创建了一家初创公司来帮助数据科学和机器学习工程团队构建和改进其ML模型。

Sarah Moir是Heartex的产品内容和教育主管,为Heartex的数据注释和标签解决方案撰写文档,博客文章和教育教程。 萨拉(Sarah)在过去的八年中一直是数据和安全领域的技术作家,并且对数据分析,机器学习和编写充满热情。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4985

    浏览量

    103027
  • 计算机
    +关注

    关注

    19

    文章

    7492

    浏览量

    87908
  • 服务器
    +关注

    关注

    12

    文章

    9142

    浏览量

    85385
收藏 人收藏

    评论

    相关推荐

    立洋光电助力城市照明高质量发展

    为促进湖南省照明行业向高端化、智能化、绿色化产业升级,湖南省城乡建设行业协会照明分会在长沙隆重举行了2023年湖南省照明行业年会暨“创新驱动、以新质生产力赋能城市照明高质量发展”技术交流活动。
    的头像 发表于 10-22 10:49 327次阅读

    中兴通讯引领5G-A高质量发展新纪元

    中国5G商用5周年之际,以“智联未来 无限可能”为主题的2024移动通信高质量发展论坛在北京举办。本届论坛系统呈现总结我国移动通信,特别是5G产业自身高质量发展和引领数字经济高质量发展的成果和经验,展望5G-A、6G协同创新发展
    的头像 发表于 10-15 10:32 508次阅读

    揭秘高质量点焊机的五大标准:打造焊接性能的基石

    在现代工业生产领域,点焊机的重要性不言而喻。高质量的点焊机如同一位技艺精湛的工匠,确保了不同材料间的牢固连接,其出色的焊接性能、稳定的工作状态和用户友好的操作界面,已经获得了业界的高度评价。那么
    的头像 发表于 09-12 15:26 487次阅读
    揭秘<b class='flag-5'>高质量</b>点焊机的五大标准:打造焊接性能的基石

    NVIDIA Nemotron-4 340B模型帮助开发者生成合成训练数据

    Nemotron-4 340B 是针对 NVIDIA NeMoNVIDIA TensorRT-LLM 优化的模型系列,该系列包含最先进的指导和奖励模型,以及一个用于生成式 AI
    的头像 发表于 09-06 14:59 310次阅读
    <b class='flag-5'>NVIDIA</b> Nemotron-4 340B模型帮助开发者<b class='flag-5'>生成</b>合成训练数据

    NVIDIA Broadcast助力实现高质量直播和远程工作

    AI 为计算领域带来了深远的改变。虽然最近的焦点是生成式 AI,但多年来,由 NVIDIA RTX 提供支持的 AI 加速工具也在改善游戏、内容创作和工作效率方面起到了关键作用。
    的头像 发表于 08-23 15:35 575次阅读

    科技创新!国产自主三坐标测量机推动产业高质量发展

    科技创新推动高质量发展,精密几何测量仪器是核心。中图三坐标测量机采用创新技术,提升测量精度和稳定性,拥有自主可控软件,助力产业升级,实现高质量发展。
    的头像 发表于 07-12 11:32 1250次阅读
    科技创新!国产自主三坐标测量机推动产业<b class='flag-5'>高质量</b>发展

    Transformer模型在语音识别语音生成中的应用优势

    随着人工智能技术的飞速发展,语音识别语音生成作为人机交互的重要组成部分,正逐渐渗透到我们生活的各个方面。而Transformer模型,自其诞生以来,凭借其独特的自注意力机制和并行计算
    的头像 发表于 07-03 18:24 1105次阅读

    维信诺高质量发展创新大会暨全球合作伙伴大会召开

    4月18日,维信诺高质量发展创新大会暨全球合作伙伴大会在合肥举行。大会以“聚智同行,质胜未来”为主题,合肥市相关领导、专家学者及数百家维信诺核心供应伙伴齐聚一堂,共谋新兴显示产业高质量发展之路。
    的头像 发表于 04-19 09:26 539次阅读

    北斗芯片产业的高质量发展之路

    高质量发展是全面建设社会主义现代化国家的首要任务”,二十大报告中对高质量发展有着明确的论断和要求。在2023年的全国两会中还指出,加快实现高水平科技自立自强,是推动高质量发展的必由之路。中国卫星
    的头像 发表于 03-15 14:03 388次阅读
    北斗芯片产业的<b class='flag-5'>高质量</b>发展之路

    两会热议高质量发展 华大北斗芯领航

    3月5日,第十四届全国人民代表大会第二次会议在北京正式开幕。在今年的政府工作报告中,高质量发展、新质生产力、科技创新、高水平科技自立自强等关键词频频出现。 当前,高质量发展已成为经济社会发展的主旋律
    的头像 发表于 03-12 09:10 1608次阅读
    两会热议<b class='flag-5'>高质量</b>发展 华大北斗<b class='flag-5'>用</b>芯领航

    富捷电子被授予“高质量发展突出贡献奖”

    在近日举行的马鞍山新区高质量发展表彰大会上,富捷电子在推动地区经济发展中的卓越贡献,被授予“高质量发展突出贡献奖”。
    的头像 发表于 02-23 15:16 685次阅读

    稳中创新•产业升级•高质量发展 | 联诚发高质量发展工作推进会议召开

    2月21日下午,联诚发LCF以“稳中创新•产业升级•高质量发展”为主题的企业高质量发展工作推进大会在联诚发深圳总部隆重召开。擂起奋进催征的战鼓,争分夺秒抢抓宝贵春光,明确企业重点目标任务,全力以赴
    的头像 发表于 02-22 11:33 469次阅读
    稳中创新•产业升级•<b class='flag-5'>高质量</b>发展 | 联诚发<b class='flag-5'>高质量</b>发展工作推进会议召开

    捷易科技出席广东省韶关市高质量发展大会

    ABSTRACT摘要2月19日,2024年韶关市高质量发展招商大会在韶关举行,来自政府、科技、企业各界专家代表共同探讨韶关高质量发展。捷易科技总经理韩运恒出席大会。JAEALOT2024年2月19日
    的头像 发表于 02-22 08:25 492次阅读
    捷易科技出席广东省韶关市<b class='flag-5'>高质量</b>发展大会

    语音数据集:智能驾驶中车内语音识别技术的基石

    的发展趋势。 二、语音数据集在智能驾驶中的应用 训练与优化:高质量语音数据集是训练和优化语音识别模型的基础。通过大量的
    的头像 发表于 01-31 16:07 547次阅读

    如何高质量完成修复真空泵轴磨损问题

    电子发烧友网站提供《如何高质量完成修复真空泵轴磨损问题.docx》资料免费下载
    发表于 01-03 17:15 0次下载