0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

研究证明:商业语音识别系统的错误率非常高

如意 来源:雷锋网 作者:杨丽 2020-10-26 16:34 次阅读

某些语音识别系统(ASR)的准确性可能要比之前假定的差很多。”这是最近约翰·霍普金斯大学、波兰波兹南工业大学、弗罗茨瓦夫科技大学以及初创公司Avaya的研究人员一项正在进行的研究主要发现。

这项研究对内部创建的数据集上的商业语音识别模型进行了基准测试。共同作者声称,词错误率(Word Error Rate, WER)(一种常见的语音识别性能指标)要显著高于最佳报告结果,这可能表明自然语言处理(NLP)领域存在更多待克服的问题。

据了解,目前ASR已广泛应用于诸多场景中,如电话会议、电子邮件、智能设备等。ASR模型的综合基准中,标准语料库的WER仅有2%~3%,而正是这一统计数据遭到了上述作者的质疑。他们声称,大多数ASR的交互场景都是在“类似于聊天机器人”的背景下进行的,说话人往往因为意识到跟他们的交互对象是聊天机器人,因此通常会将命令简化成结构紧凑的简短词语,而非正常的自然对话。作者基于来自1595个供应商和1261个客户的50个呼叫中心对话数据集对几套ASR系统进行了评估。其通常时间长达8.5个小时,其中2.2个小时是对话。通过测试,作者发现ASR系统的错误率基本在15%以下,这与基准测试中的2%相悖。

研究证明:商业语音识别系统的错误率非常高

而基于保险、通信、预定等金融行业的语料库中,作者发现其WER的测试结果高达23.31%。其中,预定和通信的错误率最高,可能是因为对话涉及特定的日期、时间、订单金额、地点、产品公司名称等。但在所有领域的测试中,其错误率均高于13.73%。

研究人员将这一问题归结为领域适应性问题——基准测试使用了单一性语料,例如Librispeech(1000小时英语有声读物录音)、WSJ(新闻口述的谈话)和Switchboard(电话交谈),这些都可能太过简单而无法真正挑战ASR系统的可靠性。

而且,尽管他们试图刻意模仿真实、自发的对话,但本质上还是受约束的,比如需要配音演员,就某一合适主题进行脚本/半脚本对话,而且正是由于配音演员的存在,几乎都不需要考虑因性别、母语因素而产生的发音问题。

作为一种补救措施,研究人员建议ASR和NLP社区收集和注释音频数据集,使其更好地与ASR系统的实际应用场景保持一致,他们还呼吁建立更具包容性的声学模型,更广泛的方言语料库,这些改变将会促进音频信号处理的技术改进。

因此,这些问题并非无法克服。“学界和工业界应该深思熟虑,考虑可以创建高质量的测试数据集。我们认为,对ASR准确性的过于乐观会损害NLP领域下游应用程序的开发。”研究人员最后表示。
责编AJX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 软件
    +关注

    关注

    69

    文章

    4832

    浏览量

    87214
  • 语音识别
    +关注

    关注

    38

    文章

    1726

    浏览量

    112584
  • ASR
    ASR
    +关注

    关注

    2

    文章

    42

    浏览量

    18702
收藏 人收藏

    评论

    相关推荐

    物联网系统智能控制产品的语音识别方案_离线语音识别芯片分析

    01 物联网系统中为什么要使用离线语音识别芯片 物联网系统中使用离线语音识别芯片的原因主要基于以
    的头像 发表于 09-26 17:56 464次阅读
    物联网<b class='flag-5'>系统</b>智能控制产品的<b class='flag-5'>语音</b><b class='flag-5'>识别</b>方案_离线<b class='flag-5'>语音</b><b class='flag-5'>识别</b>芯片分析

    智能玩具用离线语音识别芯片有什么优势

    语音识别系统,应用场景相对单一。典型应用:智能家电、语音遥控器、智能玩具、车载声控、智能家居等当离线语音识别芯片应用在智能玩具中,能够提供
    的头像 发表于 09-20 10:00 251次阅读
    智能玩具用离线<b class='flag-5'>语音</b><b class='flag-5'>识别</b>芯片有什么优势

    智能玩具用离线语音识别芯片有什么优势

    离线语音识别芯片NRK3301在智能玩具中应用广泛,其识别率、低成本、低功耗等特性,提升了用户体验和互动性,支持本地和云端处理,适合无网络环境下的互动。
    的头像 发表于 09-19 10:00 535次阅读
    智能玩具用离线<b class='flag-5'>语音</b><b class='flag-5'>识别</b>芯片有什么优势

    什么是离线语音识别芯片?与在线语音识别的区别

    离线语音识别芯片适用于智能家电等,特点为小词汇量、低成本、安全性、响应快,无需联网。在线语音识别功能更广泛、
    的头像 发表于 07-22 11:33 378次阅读

    ESP32-WROOM跑了官方的语音识别中的asr例程,但是切换到语音识别就会出错的原因?

    我是用的是ESP32-WROOM芯片,用的Vscode+IDF+ADF,我跑了一下官方的语音识别中的asr例程,但是我发现,语音唤醒可以,但是一旦切换到语音
    发表于 07-19 08:27

    基于FPGA的指纹识别系统设计

    随着人们对安全问题的日益重视,指纹识别作为一种高效、可靠的生物识别技术,在多个领域得到了广泛应用。本文设计并实现了一种基于FPGA的嵌入式指纹识别系统,该系统利用FPGA的
    的头像 发表于 07-17 16:33 1289次阅读

    多目标智能识别系统

    智慧华盛恒辉多目标智能识别系统是一种利用现代计算机视觉技术和人工智能算法,从图像或视频中同时识别和分类多个目标物体的系统。这种系统广泛应用于自动驾驶、智能监控、人机交互、军事侦察、灾害
    的头像 发表于 07-16 10:42 1.3w次阅读

    基于OpenCV的人脸识别系统设计

    基于OpenCV的人脸识别系统是一个复杂但功能强大的系统,广泛应用于安全监控、人机交互、智能家居等多个领域。下面将详细介绍基于OpenCV的人脸识别系统的基本原理、实现步骤,并附上具体的代码示例。
    的头像 发表于 07-11 15:37 1.2w次阅读

    使用低α粒子锡膏降低微电子封装的软错误率

    错误是指由辐射对硅集成电路(Si ICs)的影响导致的设备的暂时性故障。软错误会影响设备的性能和可靠性,尤其是在空间、防御、医疗和电力系统等高辐射环境中。随着电子设备的不断微型化和高密度化,软
    的头像 发表于 07-05 11:38 356次阅读
    使用低α粒子锡膏降低微电子封装的软<b class='flag-5'>错误率</b>

    语音识别和自然语言处理的区别和联系

    Recognition) 1. 定义 语音识别,又称为自动语音识别(Automatic Speech Recognition, ASR),是指将人类的
    的头像 发表于 07-05 10:09 1483次阅读

    基于GIS的SAR多目标智能识别系统

    智慧华盛恒辉基于GIS的SAR多目标智能识别系统是一个集成了合成孔径雷达(SAR)和地理信息系统(GIS)技术的先进系统,旨在实现高分辨雷达图像中的多目标智能
    的头像 发表于 06-26 14:26 447次阅读

    车载语音识别系统语音数据采集标注案例

    车载语音识别系统是指利用机器学习算法实现的一种自然语言处理技术,载语音识别系统通过辨别声音的语调、语速和音量,将所听到的语音转化成可读取的语
    的头像 发表于 06-19 15:52 332次阅读
    车载<b class='flag-5'>语音</b><b class='flag-5'>识别系统</b><b class='flag-5'>语音</b>数据采集标注案例

    车载语音识别系统语音数据采集标注案例

    车载语音识别系统是指利用机器学习算法实现的一种自然语言处理技术,载语音识别系统通过辨别声音的语调、语速和音量,将所听到的语音转化成可读取的语
    的头像 发表于 06-19 15:49 478次阅读

    基于深度学习的鸟类声音识别系统

    : 与人声识别不同,本文的鸟声识别更多地关注鸟声的特征,而不是鸟声的内容。为了简化特征融合算法的复杂度,降低模型的计算量,选择语音识别系统中广泛使用的梅尔谱作为鸟类音频信号的特征。提取
    发表于 05-30 20:30

    解决方案:智能公交识别系统无线传输方案

    无线传输识别系统
    北京东用科技有限公司
    发布于 :2023年12月13日 11:59:34