0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用NVIDIA NeMo进行文本规范化和反向文本规范化

星星科技指导员 来源:NVIDIA 作者:NVIDIA 2022-10-11 11:41 次阅读

文本规范化( TN )将文本从书面形式转换为口头形式,是文本到语音( TTS )之前的一个重要预处理步骤。 TN 确保 TTS 可以处理所有输入文本,而不会跳过未知符号。例如,“ 123 美元”转换为“一百二十三美元”

反向文本规范化( ITN )是自动语音识别( ASR )后处理管道的一部分。 ITN 将 ASR 模型输出转换为书面形式,以提高文本可读性。例如, ITN 模块将 ASR 模型转录的“ 123 美元”替换为“ 123 美元。”

ITN 不仅提高了可读性,还提高了下游任务(如神经机器翻译或命名实体识别)的性能,因为这些任务在训练期间使用书面文本。

pYYBAGNE5dmAPcpOAACvpftVosU813.png

图 1.会话 AI 管道中的 TN 和 ITN

TN 和 ITN 任务面临几个挑战:

标记的数据稀缺且难以收集。

由于 TN 和 ITN 错误会级联到后续模型,因此对不可恢复错误的容忍度较低。改变输入语义的 TN 和 ITN 错误称为不可恢复。

TN 和 ITN 系统支持多种 semiotic classes ,即口语形式不同于书面形式的单词或标记,需要规范化。例如日期、小数、基数、度量等。

许多最先进的 TN systems in production 仍然使用 加权有限状态传感器 ( WFST )基于规则。 WFST 是 finite-state machines 的一种形式,用于绘制正则语言(或 regular expressions )之间的关系。对于这篇文章,它们可以由两个主要属性定义:

用于文本替换的已接受输入和输出表达式之间的映射

直接图遍历的路径加权

如果存在歧义,则选择权重总和最小的路径。在图 2 中,“二十三”被转换为“ 23 ”而不是“ 203 ”

poYBAGNE5duAY_g6AACZe7ntwds780.jpg

图 2.输入“二十三”的 WFST 格子

目前, NVIDIA NeMo 为 TN 和 ITN 系统提供以下选项:

Context-independent WFST-based TN and ITN grammars

Context-aware WFST-based grammars + neural LM for TN

Audio-based TN for speech datasets creation

Neural TN and ITN

基于 WFST 的语法(系统 1 、 2 和 3 )

NeMo 文本处理包是一个 Python 框架,它依赖于 Python 包 Pynini 来编写和编译规范化语法。有关最新支持的语言的更多信息,请参阅 Language Support Matrix 。有关如何扩展或添加语言语法的更多信息,请参阅 语法定制 。

Pynini 是一个构建在 OpenFst 之上的工具包,它支持将语法导出到 OpenFST Archive File (FAR) 中(图 3 )。 FAR 文件可以在基于 Sparrowhawk 的 C ++生产框架中使用。

pYYBAGNE5d6AdgDWAADcR5Wldv8789.png

图 3. NeMo 反向文本规范化开发和部署示意图

我们最初版本的 TN / ITN 系统# 1 没有考虑上下文,因为这会使规则更加复杂,这需要广泛的语言知识,并降低延迟。如果输入不明确,例如,与“ 1 / 4 个杯子”相比,“火车在 1 / 4 上出发”中的“ 1 / 4 ”,则系统# 1 会在不考虑上下文的情况下确定地选择归一化。

该系统扩展了系统# 1 ,并在规范化期间合并了上下文。在上下文不明确的情况下,系统输出多个规范化选项,使用预处理语言模型使用 Masked Language Model Scoring 重新搜索(图 4 )。

poYBAGNE5d-Aeu8KAACE1FkLtwQ378.png

图 4.WFST + LM 浅熔管线

WFST 生成所有可能的标准化表格,并为每个选项分配权重。

修剪权重高于阈值“ 401.2 ”的标准化选项。在本例中,我们删除了“ 1 / 4 ”。它的权重更高,因为它没有完全归一化。

LM 重新排序在其余选项中选择了最佳选项。

这种方法类似于 ASR 的浅层融合,并结合了基于规则和神经系统的优点。 WFST 仍然限制了不可恢复的错误,而神经语言模型在不需要大量规则或难以获取数据的情况下解决了上下文模糊性。有关详细信息,请参阅 Text normalization 。

表 1 比较了 WFST + LM 方法在句子准确性方面与之前的系统# 1 ( DetWFST )和三个数据集上的纯神经系统( Duplex )。在本文后面,我们将提供有关系统# 4 的更多详细信息。

总的来说, WFST + LM 模型是最有效的,特别是在 EngConf 上,这是一个具有模糊示例的自收集数据集。

图 5 显示了这三种方法对错误的敏感性。虽然神经方法受不可恢复错误(如幻觉或遗漏)的影响最大,但 WFST + LM 受这些错误和类歧义的影响最小。

pYYBAGNE5d-AC4NHAAGl3a8ZE3A118.png

图 5.上下文无关的 WFST 、 Duplex 和 WFST + LM 系统的错误模式

基于音频的 TN (系统 3 )

在创建新的语音数据集时,文本规范化也很有用。例如,“六二七”和“六二十七”都是“ 627 ”的有效规范化选项。但是,您必须选择最能反映相应音频中实际内容的选项。基于音频的文本规范化提供了此类功能(图 6 )。

poYBAGNE5eCAEQBtAAE-G9ySJZA471.png

图 6.基于音频的标准化分辨率示例

神经 TN 和 ITN 模型(系统 4 )

与基于规则的系统相比,神经系统的一个显著优势是,如果存在新语言的训练数据,那么它们很容易扩展。基于规则的系统需要花费大量精力来创建,并且由于组合爆发,可能会在某些输入上工作缓慢。

作为 WFST 解决方案的替代方案, NeMo 为 TN / ITN 提供了 seq2seq Duplex 模型,为 ITN 提供了基于标记器的神经模型。

双重 TN 和 ITN

Duplex TN and ITN 是一个基于神经的系统,可以同时进行 TN 和 ITN 。在较高的层次上,该系统由两个组件组成:

DuplexTaggerModel: 基于 transformer 的标记器,用于识别输入中的符号跨度(例如,关于时间、日期或货币金额的跨度)。

DuplexDecoderModel :基于变压器的 seq2seq 模型,用于将符号跨度解码为适当的形式(例如, TN 的口语形式和 ITN 的书面形式)。

术语“双工”指的是这样一个事实,即该系统可以训练为同时执行 TN 和 ITN 。但是,您也可以专门针对其中一项任务对系统进行培训。

图特莫斯塔格

双工模型是一种顺序到顺序模型。不幸的是,这种神经模型容易产生幻觉,从而导致无法恢复的错误。

Thutmose Tagger 模型将 ITN 视为一项标记任务,并缓解了幻觉问题(图 7 和 8 )。 Thutmose 是一个单通道令牌分类器模型,它为每个输入令牌分配一个替换片段,或将其标记为删除或复制而不做更改。

NeMo 提供了一种基于 ITN 示例粒度对齐的数据集准备方法。该模型在谷歌文本规范化数据集上进行训练,并在英语和俄语测试集上实现了最先进的句子准确性。

表 2 和表 3 总结了两个指标的评估结果:

Sentence accuracy :将每个预测与参考的多个可能变体相匹配的自动度量。所有错误分为两组:数字错误和其他错误。当至少有一个数字与最接近的参考变量不同时,会发生数字错误。其他错误意味着预测中存在非数字错误,例如标点符号或字母不匹配。

Word error rate ( WER ): ASR 中常用的自动度量。

d- BERT 代表蒸馏 BERT 。
默认值是默认的 Google 文本规范化测试集。
Hard 是一个测试集,每个符号类至少有 1000 个样本。

标签和输入词之间的一对一对应提高了模型预测的可解释性,简化了调试,并支持后期处理更正。该模型比序列到序列模型更简单,更容易在生产设置中进行优化。

pYYBAGNE5eGAGMAiAAC8Zz7ko5c597.png

图 7.ITN 作为标记:推理示例

输入单词的序列由基于 BERT 的标记分类器处理,给出输出标记序列。简单的确定性后处理提供最终输出。

poYBAGNE5emANzzBAAR_57DglUg026.png

图 8.错误示例:(左) Thutmose tagger ,(右) Duplex 模型

结论

文本规范化和反向文本规范化对于会话系统至关重要,并极大地影响用户体验。本文结合 WFST 和预处理语言模型的优点,介绍了一种处理 TN 任务的新方法,以及一种处理 ITN 任务的基于神经标记的新方法。

关于作者

Yang Zhang 是英伟达人工智能应用集团的一名深度学习软件工程师。她目前的重点是自然语言处理、对话管理和文本(去规范化)。在过去,她一直致力于大型 ASR 模型和语言模型预培训的可扩展培训。她在卡内基梅隆大学获得机器学习硕士学位,在德国卡尔斯鲁厄理工学院获得计算机科学学士学位。

Evelina Bakhturina 是 Nvidia 的一个深学习应用科学家,专注于自然语言处理任务和英伟达 NeMo 框架。她毕业于纽约大学,获得数据科学硕士学位

Alexandra Antonova 是 NVIDIA Conversational AI 团队( NeMo )的高级研究科学家,致力于 ASR 模型。她在莫斯科国立大学学习理论和应用语言学,在莫斯科物理技术学院深造。在加入 NVIDIA 之前,她曾在几家俄罗斯科技公司工作。在空闲时间,她喜欢读书。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 传感器
    +关注

    关注

    2545

    文章

    50411

    浏览量

    750763
  • NVIDIA
    +关注

    关注

    14

    文章

    4843

    浏览量

    102694
收藏 人收藏

    评论

    相关推荐

    如何使用 Llama 3 进行文本生成

    使用LLaMA 3(Large Language Model Family of AI Alignment)进行文本生成,可以通过以下几种方式实现,取决于你是否愿意在本地运行模型或者使用现成的API
    的头像 发表于 10-27 14:21 186次阅读

    Dell PowerScale数据湖助力医研一体建设

    近年来,医疗影像设备不断向更高水平和精密发展,推动医疗服务向更高更快的品质发展。基于医学影像多学科会诊的协作、智能辅助诊断、智能质控、智能术前规划,将快速推进各项医学科研成果进行规范化的临床应用与转化。
    的头像 发表于 10-16 10:13 258次阅读

    NVIDIA文本嵌入模型NV-Embed的精度基准

    NVIDIA 的最新嵌入模型 NV-Embed —— 以 69.32 的分数创下了嵌入准确率的新纪录海量文本嵌入基准测试(MTEB)涵盖 56 项嵌入任务。
    的头像 发表于 08-23 16:54 1914次阅读
    <b class='flag-5'>NVIDIA</b><b class='flag-5'>文本</b>嵌入模型NV-Embed的精度基准

    卷积神经网络在文本分类领域的应用

    显著成就后,也逐渐被引入到文本分类任务中。卷积神经网络通过模拟人类视觉系统的信息处理方式,能够有效地提取文本中的局部特征,进而实现高精度的文本分类。本文将对卷积神经网络在文本分类领域的
    的头像 发表于 07-01 16:25 562次阅读

    罗克韦尔自动旗下Fiix发布GenAI规范性工单

    作为工业自动、信息和数字转型领域的全球领先企业之一,罗克韦尔自动宣布将生成式人工智能 (GenAI) 规范性工单添加至 Fiix 资
    的头像 发表于 06-28 09:20 392次阅读

    讯飞星火长文本功能全新升级

    科大讯飞近日宣布,其首个长文本、长图文、长语音大模型已完成全新升级。这一大模型不仅具备强大的学习能力,可以快速吸收海量文本、图文资料以及会议录音等多元信息,更能在各行业场景中提供精准、专业的回答。
    的头像 发表于 05-06 11:22 494次阅读

    能源管理体系:助力实现碳达峰、碳中和

    通过标准规范化的不懈努力,我们确保每一个细节、每一项操作都精益求精,为企业逐步锻造出一个自我约束、自我优化的能源利用与节约机制。
    的头像 发表于 04-12 13:43 250次阅读
    能源管理体系:助力实现碳达峰、碳中和

    软通咨询携手普元电力,共绘企业规范化管理与人才发展新篇章

    在数字浪潮的变革中,企业规范化管理与人才发展日益成为行业关注的焦点问题。3月25日,普元电力召开盛大的绩效项目启动会,软通咨询作为普元电力绩效项目的合作伙伴受邀出席。
    的头像 发表于 03-27 09:42 319次阅读

    数字电能表校准规范

    电子发烧友网站提供《数字电能表校准规范.pdf》资料免费下载
    发表于 01-15 09:09 0次下载

    强强联合!国辰智企助推速捷电梯信息升级

    ,不遗余力的帮助速捷电梯信息管理在电梯设计方面提升企业管理水平,实现办公管理规范化和信息规范化,降低企业运行成本,为速捷电梯的全面信息管理铺砖引路,也充分体现了速捷电梯对国辰智企的
    的头像 发表于 01-08 10:52 597次阅读

    商汤牵头制定的两项AR国家标准下达,推动行业大规模、规范化应用

    移动设备增强现实系统应用接口》正式下达。 推动移动设备增强现实大规模、规范化应用 商汤科技一直致力于增强现实标准化工作,在国家标准层面,作为增强现实国家标准研究组副组长单位,持续推动增强现实标准体系建设。 其中,《信息技
    的头像 发表于 12-27 15:35 643次阅读
    商汤牵头制定的两项AR国家标准下达,推动行业大规模、<b class='flag-5'>规范化</b>应用

    医疗废物管理系统提高医废规范化管理

    医疗废物管理系统提高医废规范化管理 医疗废物是引起疾病传播或相关公共卫生问题的重要危险性因素。我国卫生部明确规定,医院里的医疗废物必须封闭存储、定点存放、专人运输,医疗废物必须进行焚烧处理,以确保
    的头像 发表于 11-22 16:29 321次阅读
    医疗废物管理系统提高医废<b class='flag-5'>规范化</b>管理

    python窗口文本框怎么限制行数

    在 Python 中,你可以使用 Tkinter 模块来创建窗口和文本框。要限制文本框的行数,可以使用 Text 组件的相关方法和属性。下面是一个示例代码,详细说明如何限制文本框的行数
    的头像 发表于 11-22 10:32 633次阅读

    小场景电源及配套配置标准规范

    电子发烧友网站提供《小场景电源及配套配置标准规范.pdf》资料免费下载
    发表于 11-13 14:23 0次下载
    小场景电源及配套配置标准<b class='flag-5'>化</b><b class='flag-5'>规范</b>

    怎样去设计一个安全好用的OpenApi呢?

    为了确保软件接口的标准规范化,实现业务模块的重用性和灵活性,并提高接口的易用性和安全性,OpenAPI规范应运而生。
    的头像 发表于 11-06 09:49 950次阅读
    怎样去设计一个安全好用的OpenApi呢?