0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用NVIDIA NeMo进行文本规范化和反向文本规范化

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-10-11 11:41 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

文本规范化( TN )将文本从书面形式转换为口头形式,是文本到语音( TTS )之前的一个重要预处理步骤。 TN 确保 TTS 可以处理所有输入文本,而不会跳过未知符号。例如,“ 123 美元”转换为“一百二十三美元”

反向文本规范化( ITN )是自动语音识别( ASR )后处理管道的一部分。 ITN 将 ASR 模型输出转换为书面形式,以提高文本可读性。例如, ITN 模块将 ASR 模型转录的“ 123 美元”替换为“ 123 美元。”

ITN 不仅提高了可读性,还提高了下游任务(如神经机器翻译或命名实体识别)的性能,因为这些任务在训练期间使用书面文本。

pYYBAGNE5dmAPcpOAACvpftVosU813.png

图 1.会话 AI 管道中的 TN 和 ITN

TN 和 ITN 任务面临几个挑战:

标记的数据稀缺且难以收集。

由于 TN 和 ITN 错误会级联到后续模型,因此对不可恢复错误的容忍度较低。改变输入语义的 TN 和 ITN 错误称为不可恢复。

TN 和 ITN 系统支持多种 semiotic classes ,即口语形式不同于书面形式的单词或标记,需要规范化。例如日期、小数、基数、度量等。

许多最先进的 TN systems in production 仍然使用 加权有限状态传感器 ( WFST )基于规则。 WFST 是 finite-state machines 的一种形式,用于绘制正则语言(或 regular expressions )之间的关系。对于这篇文章,它们可以由两个主要属性定义:

用于文本替换的已接受输入和输出表达式之间的映射

直接图遍历的路径加权

如果存在歧义,则选择权重总和最小的路径。在图 2 中,“二十三”被转换为“ 23 ”而不是“ 203 ”

poYBAGNE5duAY_g6AACZe7ntwds780.jpg

图 2.输入“二十三”的 WFST 格子

目前, NVIDIA NeMo 为 TN 和 ITN 系统提供以下选项:

Context-independent WFST-based TN and ITN grammars

Context-aware WFST-based grammars + neural LM for TN

Audio-based TN for speech datasets creation

Neural TN and ITN

基于 WFST 的语法(系统 1 、 2 和 3 )

NeMo 文本处理包是一个 Python 框架,它依赖于 Python 包 Pynini 来编写和编译规范化语法。有关最新支持的语言的更多信息,请参阅 Language Support Matrix 。有关如何扩展或添加语言语法的更多信息,请参阅 语法定制 。

Pynini 是一个构建在 OpenFst 之上的工具包,它支持将语法导出到 OpenFST Archive File (FAR) 中(图 3 )。 FAR 文件可以在基于 Sparrowhawk 的 C ++生产框架中使用。

pYYBAGNE5d6AdgDWAADcR5Wldv8789.png

图 3. NeMo 反向文本规范化开发和部署示意图

我们最初版本的 TN / ITN 系统# 1 没有考虑上下文,因为这会使规则更加复杂,这需要广泛的语言知识,并降低延迟。如果输入不明确,例如,与“ 1 / 4 个杯子”相比,“火车在 1 / 4 上出发”中的“ 1 / 4 ”,则系统# 1 会在不考虑上下文的情况下确定地选择归一化。

该系统扩展了系统# 1 ,并在规范化期间合并了上下文。在上下文不明确的情况下,系统输出多个规范化选项,使用预处理语言模型使用 Masked Language Model Scoring 重新搜索(图 4 )。

poYBAGNE5d-Aeu8KAACE1FkLtwQ378.png

图 4.WFST + LM 浅熔管线

WFST 生成所有可能的标准化表格,并为每个选项分配权重。

修剪权重高于阈值“ 401.2 ”的标准化选项。在本例中,我们删除了“ 1 / 4 ”。它的权重更高,因为它没有完全归一化。

LM 重新排序在其余选项中选择了最佳选项。

这种方法类似于 ASR 的浅层融合,并结合了基于规则和神经系统的优点。 WFST 仍然限制了不可恢复的错误,而神经语言模型在不需要大量规则或难以获取数据的情况下解决了上下文模糊性。有关详细信息,请参阅 Text normalization 。

表 1 比较了 WFST + LM 方法在句子准确性方面与之前的系统# 1 ( DetWFST )和三个数据集上的纯神经系统( Duplex )。在本文后面,我们将提供有关系统# 4 的更多详细信息。

总的来说, WFST + LM 模型是最有效的,特别是在 EngConf 上,这是一个具有模糊示例的自收集数据集。

图 5 显示了这三种方法对错误的敏感性。虽然神经方法受不可恢复错误(如幻觉或遗漏)的影响最大,但 WFST + LM 受这些错误和类歧义的影响最小。

pYYBAGNE5d-AC4NHAAGl3a8ZE3A118.png

图 5.上下文无关的 WFST 、 Duplex 和 WFST + LM 系统的错误模式

基于音频的 TN (系统 3 )

在创建新的语音数据集时,文本规范化也很有用。例如,“六二七”和“六二十七”都是“ 627 ”的有效规范化选项。但是,您必须选择最能反映相应音频中实际内容的选项。基于音频的文本规范化提供了此类功能(图 6 )。

poYBAGNE5eCAEQBtAAE-G9ySJZA471.png

图 6.基于音频的标准化分辨率示例

神经 TN 和 ITN 模型(系统 4 )

与基于规则的系统相比,神经系统的一个显著优势是,如果存在新语言的训练数据,那么它们很容易扩展。基于规则的系统需要花费大量精力来创建,并且由于组合爆发,可能会在某些输入上工作缓慢。

作为 WFST 解决方案的替代方案, NeMo 为 TN / ITN 提供了 seq2seq Duplex 模型,为 ITN 提供了基于标记器的神经模型。

双重 TN 和 ITN

Duplex TN and ITN 是一个基于神经的系统,可以同时进行 TN 和 ITN 。在较高的层次上,该系统由两个组件组成:

DuplexTaggerModel: 基于 transformer 的标记器,用于识别输入中的符号跨度(例如,关于时间、日期或货币金额的跨度)。

DuplexDecoderModel :基于变压器的 seq2seq 模型,用于将符号跨度解码为适当的形式(例如, TN 的口语形式和 ITN 的书面形式)。

术语“双工”指的是这样一个事实,即该系统可以训练为同时执行 TN 和 ITN 。但是,您也可以专门针对其中一项任务对系统进行培训。

图特莫斯塔格

双工模型是一种顺序到顺序模型。不幸的是,这种神经模型容易产生幻觉,从而导致无法恢复的错误。

Thutmose Tagger 模型将 ITN 视为一项标记任务,并缓解了幻觉问题(图 7 和 8 )。 Thutmose 是一个单通道令牌分类器模型,它为每个输入令牌分配一个替换片段,或将其标记为删除或复制而不做更改。

NeMo 提供了一种基于 ITN 示例粒度对齐的数据集准备方法。该模型在谷歌文本规范化数据集上进行训练,并在英语和俄语测试集上实现了最先进的句子准确性。

表 2 和表 3 总结了两个指标的评估结果:

Sentence accuracy :将每个预测与参考的多个可能变体相匹配的自动度量。所有错误分为两组:数字错误和其他错误。当至少有一个数字与最接近的参考变量不同时,会发生数字错误。其他错误意味着预测中存在非数字错误,例如标点符号或字母不匹配。

Word error rate ( WER ): ASR 中常用的自动度量。

d- BERT 代表蒸馏 BERT 。
默认值是默认的 Google 文本规范化测试集。
Hard 是一个测试集,每个符号类至少有 1000 个样本。

标签和输入词之间的一对一对应提高了模型预测的可解释性,简化了调试,并支持后期处理更正。该模型比序列到序列模型更简单,更容易在生产设置中进行优化。

pYYBAGNE5eGAGMAiAAC8Zz7ko5c597.png

图 7.ITN 作为标记:推理示例

输入单词的序列由基于 BERT 的标记分类器处理,给出输出标记序列。简单的确定性后处理提供最终输出。

poYBAGNE5emANzzBAAR_57DglUg026.png

图 8.错误示例:(左) Thutmose tagger ,(右) Duplex 模型

结论

文本规范化和反向文本规范化对于会话系统至关重要,并极大地影响用户体验。本文结合 WFST 和预处理语言模型的优点,介绍了一种处理 TN 任务的新方法,以及一种处理 ITN 任务的基于神经标记的新方法。

关于作者

Yang Zhang 是英伟达人工智能应用集团的一名深度学习软件工程师。她目前的重点是自然语言处理、对话管理和文本(去规范化)。在过去,她一直致力于大型 ASR 模型和语言模型预培训的可扩展培训。她在卡内基梅隆大学获得机器学习硕士学位,在德国卡尔斯鲁厄理工学院获得计算机科学学士学位。

Evelina Bakhturina 是 Nvidia 的一个深学习应用科学家,专注于自然语言处理任务和英伟达 NeMo 框架。她毕业于纽约大学,获得数据科学硕士学位

Alexandra Antonova 是 NVIDIA Conversational AI 团队( NeMo )的高级研究科学家,致力于 ASR 模型。她在莫斯科国立大学学习理论和应用语言学,在莫斯科物理技术学院深造。在加入 NVIDIA 之前,她曾在几家俄罗斯科技公司工作。在空闲时间,她喜欢读书。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 传感器
    +关注

    关注

    2578

    文章

    55771

    浏览量

    795101
  • NVIDIA
    +关注

    关注

    14

    文章

    5721

    浏览量

    110230
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    长城汽车主导起草的汽车越野性能试验方法国家标准获批立项

    近日,国家标准管理委员会正式下达 2026 年第三批推荐性国家标准计划,由长城汽车主导起草的 《汽车越野性能试验方法》 国家标准成功获批立项,这标志着中国越野行业标准规范化建设迎来重要里程碑。
    的头像 发表于 04-13 11:31 536次阅读

    启动屏幕的文本被模糊,怎么处理?

    谁能帮我解决这个问题吗?启动屏幕的文本被模糊。但在登录页面上,这是正常的。 谁能帮我吗?
    发表于 03-30 07:46

    Flyway、Liquibase难以覆盖 NineData 的多环境发版流程编排能力?

    Flyway、Liquibase 擅长数据库脚本迁移执行,但缺乏多环境发版流程管控能力。NineData 聚焦补齐短板,原生支持多环境编排、审批、规范校验与版本回滚,打造统一发版工作台,不替代原有工具,而是完善全流程管控,适配企业规模
    的头像 发表于 03-23 15:32 681次阅读
    Flyway、Liquibase难以覆盖 NineData 的多环境发版流程编排能力?

    Linux Shell文本处理神器合集:15个工具+实战例子,效率直接翻倍

    在 Linux 系统中,文本是数据交互的 “通用语言”—— 日志文件、配置文件、数据报表、程序输出几乎都以文本形式存在。手动编辑文本不仅繁琐,还容易出错,而掌握 Shell 文本处理工
    的头像 发表于 02-03 15:42 3215次阅读
    Linux Shell<b class='flag-5'>文本</b>处理神器合集:15个工具+实战例子,效率直接翻倍

    长安科技到访磐时,共探汽车安全标准新路径

    向,展开了深入探讨。现场合照边俊在交流中指出,随着汽车安全领域相关强标逐步落地,行业将进入更加规范化、系统的安全建设阶段。尤其在功能安全领域,尽管当前标准在操作系统
    的头像 发表于 02-02 12:02 617次阅读
    长安科技到访磐时,共探汽车安全标准<b class='flag-5'>化</b>新路径

    详解DBC的Signal与JSON文本结合

    为了优化CAN数据发送与接收的操作流程,更改以前手动输入状态对应数据的模式,采用下拉列表选择内容,但这需要用到超出DBC原有承载能力的信息。因此,将JSON与其结合,采用JSON格式文本写入Signal的Comment属性,将Comment属性的字符串通过JSON文本拓展
    的头像 发表于 01-06 10:57 487次阅读
    详解DBC的Signal与JSON<b class='flag-5'>文本</b>结合

    广凌标准考场整体解决方案解析:构建智慧考场新标杆

    在国家教育考试日益规范化的背景下,标准考点建设已成为保障考试公平、提升管理效率的关键举措。广凌科技(广凌股份)深耕教育信息领域27年,凭借AI、5G、物联网等前沿技术,推出标准
    的头像 发表于 10-31 15:17 1375次阅读
    广凌标准<b class='flag-5'>化</b>考场整体解决方案解析:构建智慧考场新标杆

    《中国数字医疗发展蓝皮书》在京发布

    凝聚行业共识,助力中国数字医疗生态体系规范化升级 北京2025年9月15日 /美通社/ -- 在2025年中国国际服务贸易交易会召开之际,以 "开放、合作、共建、共享" 为主题的首都国际医学大会
    的头像 发表于 09-15 17:48 901次阅读
    《中国数字医疗发展蓝皮书》在京发布

    云翎智能高精度巡检执法记录仪:铁路巡检全流程数字管控实践

    云翎智能高精度巡检执法记录仪通过“事前-事中-事后”全流程数字管控,结合高精度定位、AI智能识别、多模态数据采集等技术,实现铁路巡检的规范化、智能与闭环管理。以下从全流程各阶段拆解其管控逻辑:云
    的头像 发表于 08-22 21:33 867次阅读
    云翎智能高精度巡检执法记录仪:铁路巡检全流程数字<b class='flag-5'>化</b>管控实践

    农村供水智慧管理平台怎么建设?

    《乡村全面振兴规划(2024—2027年)》提到:强化供水安全保障,因地制宜推进城乡供水一体、集中供水规模发展,实施小型供水工程规范化建设和改造,加强中小型水源保障工程建设,实施水质提升行动
    的头像 发表于 08-14 15:35 647次阅读
    农村供水智慧<b class='flag-5'>化</b>管理平台怎么建设?

    ESP32驱动SPIFFS进行文件操作

    本篇文章介绍如何在ESP32开发板上使用SPIFFS(SPI Flash File System)进行文件操作。看下如何初始SPIFFS文件系统、读取文件、列出文件、删除文件,并查看存储的剩余空间。
    的头像 发表于 08-05 18:11 4608次阅读
    ESP32驱动SPIFFS<b class='flag-5'>进行文</b>件操作

    linux系统awk特殊字符命令详解

    在Linux系统中,awk 是一种非常强大的文本处理工具,能够对文本数据进行分析、格式和筛选。利用其内置的特殊字符和操作符,用户可以实现复杂的数据处理任务。以下对一些常见的awk特殊
    的头像 发表于 07-28 16:38 776次阅读

    飞书富文本组件库RichTextVista开源

    近日,飞书正式将其自研的富文本组件库 RichTextVista(简称“RTV”)开源,并上线OpenHarmony 三方库中心仓。该组件以领先的性能、流畅的渲染体验与高度的开放性,为鸿蒙生态提供了更高效的富文本解决方案。
    的头像 发表于 07-16 16:47 1225次阅读

    飞书开源“RTV”富文本组件 重塑鸿蒙应用富文本渲染体验

    近日,飞书正式将其自研的富文本组件库 RichTextVista(简称“RTV”)开源,并上线OpenHarmony 三方库中心仓。该组件以领先的性能、流畅的渲染体验与高度的开放性,为鸿蒙生态提供了
    的头像 发表于 07-11 15:20 839次阅读
    飞书开源“RTV”富<b class='flag-5'>文本</b>组件 重塑鸿蒙应用富<b class='flag-5'>文本</b>渲染体验

    Allegro Skill工艺辅助之导入叠层模板

    在PCB设计中,导入叠层模板能够确保设计的标准规范化,避免因手动设置叠层参数而可能出现的错误或不一致情况。
    的头像 发表于 07-10 17:10 3601次阅读
    Allegro Skill工艺辅助之导入叠层模板