研究证明：商业语音识别系统的错误率非常高-电子发烧友网

某些语音识别系统（ASR）的准确性可能要比之前假定的差很多。”这是最近约翰·霍普金斯大学、波兰波兹南工业大学、弗罗茨瓦夫科技大学以及初创公司Avaya的研究人员一项正在进行的研究主要发现。

这项研究对内部创建的数据集上的商业语音识别模型进行了基准测试。共同作者声称，词错误率（Word Error Rate， WER）（一种常见的语音识别性能指标）要显著高于最佳报告结果，这可能表明自然语言处理（NLP）领域存在更多待克服的问题。

据了解，目前ASR已广泛应用于诸多场景中，如电话会议、电子邮件、智能设备等。ASR模型的综合基准中，标准语料库的WER仅有2%~3%，而正是这一统计数据遭到了上述作者的质疑。他们声称，大多数ASR的交互场景都是在“类似于聊天机器人”的背景下进行的，说话人往往因为意识到跟他们的交互对象是聊天机器人，因此通常会将命令简化成结构紧凑的简短词语，而非正常的自然对话。作者基于来自1595个供应商和1261个客户的50个呼叫中心对话数据集对几套ASR系统进行了评估。其通常时间长达8.5个小时，其中2.2个小时是对话。通过测试，作者发现ASR系统的错误率基本在15%以下，这与基准测试中的2%相悖。

研究证明：商业语音识别系统的错误率非常高

而基于保险、通信、预定等金融行业的语料库中，作者发现其WER的测试结果高达23.31%。其中，预定和通信的错误率最高，可能是因为对话涉及特定的日期、时间、订单金额、地点、产品和公司名称等。但在所有领域的测试中，其错误率均高于13.73%。

研究人员将这一问题归结为领域适应性问题——基准测试使用了单一性语料，例如Librispeech（1000小时英语有声读物录音）、WSJ（新闻口述的谈话）和Switchboard（电话交谈），这些都可能太过简单而无法真正挑战ASR系统的可靠性。

而且，尽管他们试图刻意模仿真实、自发的对话，但本质上还是受约束的，比如需要配音演员，就某一合适主题进行脚本/半脚本对话，而且正是由于配音演员的存在，几乎都不需要考虑因性别、母语因素而产生的发音问题。

作为一种补救措施，研究人员建议ASR和NLP社区收集和注释音频数据集，使其更好地与ASR系统的实际应用场景保持一致，他们还呼吁建立更具包容性的声学模型，更广泛的方言语料库，这些改变将会促进音频信号处理的技术改进。

因此，这些问题并非无法克服。“学界和工业界应该深思熟虑，考虑可以创建高质量的测试数据集。我们认为，对ASR准确性的过于乐观会损害NLP领域下游应用程序的开发。”研究人员最后表示。
责编AJX

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

软件

软件

+关注

关注
69

文章
4970

浏览量
87714
语音识别

语音识别

+关注

关注
38

文章
1742

浏览量
112717
ASR

ASR

+关注

关注
2

文章
43

浏览量
18754

【「嵌入式系统设计与实现」阅读体验】+ 基于语音识别的智能杯垫

语音命令Q 识别，适用于智能家居控制、玩具、人机交互等多个领域。该模块以其高识别率、低功耗和易于集成的特点受到广大开发者的青睐。主要技术及功能有：磁力搅拌、重量采集、

发表于 01-02 18:15

OpenAI攻克Sora视频创建错误率高难题

在人工智能与多媒体技术的交叉领域，OpenAI近期宣布了一项重要进展：成功解决了Sora视频创建过程中错误率高的问题。这一突破不仅标志着OpenAI在视频处理技术上取得了显著进步，也为广大用户带来

发表于 12-31 10:37 •108次阅读

标贝数据标注案例分享：车载语音系统数据标注

车载语音识别系统是指利用机器学习算法实现的一种自然语言处理技术，载语音识别系统通过辨别声音的语调、语速和音量，将所听到的语音转化成可读取的语

发表于 12-24 14:24 •143次阅读

标贝数据标注案例分享：车载<b class='flag-5'>语音</b><b class='flag-5'>系统</b>数据标注

九芯电子热水器语音识别芯片IC方案，解放双手，高识别率

操作更加人性化，更凭借其高识别率技术，确保了用户指令的准确无误执行。九芯电子基于离线语音识别技术推出NRK3301芯片开发了新一代智能家居--热水器声控方案。NR

发表于 12-07 01:03 •177次阅读

九芯电子热水器<b class='flag-5'>语音</b><b class='flag-5'>识别</b>芯片IC方案，解放双手，<b class='flag-5'>高</b><b class='flag-5'>识别率</b>

RFID识别系统

随着信息技术的快速发展，RFID（射频识别）技术在各行各业的应用日益广泛，其中RFID识别系统作为核心应用，已经成为智能化管理不可或缺的基石。通过无线射频信号的非接触式识别与数据传输，RFID

发表于 12-06 17:57 •261次阅读

九芯电子热水器语音识别芯片IC方案，解放双手，高识别率

九芯电子推出NRK3301语音识别芯片，支持离线识别，精准度高，可语音控制热水器，多国语言支持，安全保护，已合作多家大厂，推动热水器行业智能

发表于 12-06 13:44 •149次阅读

物联网系统智能控制产品的语音识别方案_离线语音识别芯片分析

01 物联网系统中为什么要使用离线语音识别芯片物联网系统中使用离线语音识别芯片的原因主要基于以

发表于 09-26 17:56 •647次阅读

什么是离线语音识别芯片？与在线语音识别的区别

离线语音识别芯片适用于智能家电等，特点为小词汇量、低成本、安全性高、响应快，无需联网。在线语音识别功能更广泛、

发表于 07-22 11:33 •426次阅读

基于FPGA的指纹识别系统设计

随着人们对安全问题的日益重视，指纹识别作为一种高效、可靠的生物识别技术，在多个领域得到了广泛应用。本文设计并实现了一种基于FPGA的嵌入式指纹识别系统，该系统利用FPGA的

发表于 07-17 16:33 •1394次阅读

多目标智能识别系统

智慧华盛恒辉多目标智能识别系统是一种利用现代计算机视觉技术和人工智能算法，从图像或视频中同时识别和分类多个目标物体的系统。这种系统广泛应用于自动驾驶、智能监控、人机交互、军事侦察、灾害

发表于 07-16 10:42 •1.3w次阅读

基于OpenCV的人脸识别系统设计

基于OpenCV的人脸识别系统是一个复杂但功能强大的系统，广泛应用于安全监控、人机交互、智能家居等多个领域。下面将详细介绍基于OpenCV的人脸识别系统的基本原理、实现步骤，并附上具体的代码示例。

发表于 07-11 15:37 •1.2w次阅读

基于GIS的SAR多目标智能识别系统

智慧华盛恒辉基于GIS的SAR多目标智能识别系统是一个集成了合成孔径雷达(SAR)和地理信息系统(GIS)技术的先进系统，旨在实现高分辨率雷达图像中的多目标智能

发表于 06-26 14:26 •514次阅读

车载语音识别系统语音数据采集标注案例

车载语音识别系统是指利用机器学习算法实现的一种自然语言处理技术，载语音识别系统通过辨别声音的语调、语速和音量，将所听到的语音转化成可读取的语

发表于 06-19 15:52 •374次阅读

车载语音识别系统语音数据采集标注案例

车载语音识别系统是指利用机器学习算法实现的一种自然语言处理技术，载语音识别系统通过辨别声音的语调、语速和音量，将所听到的语音转化成可读取的语

发表于 06-19 15:49 •524次阅读

基于深度学习的鸟类声音识别系统

：与人声识别不同，本文的鸟声识别更多地关注鸟声的特征，而不是鸟声的内容。为了简化特征融合算法的复杂度，降低模型的计算量，选择语音识别系统中广泛使用的梅尔谱作为鸟类音频信号的特征。提取

发表于 05-30 20:30

搜索历史

研究证明：商业语音识别系统的错误率非常高

评论

【「嵌入式系统设计与实现」阅读体验】+ 基于语音识别的智能杯垫

OpenAI攻克Sora视频创建错误率高难题

标贝数据标注案例分享：车载语音系统数据标注

九芯电子热水器语音识别芯片IC方案，解放双手，高识别率

RFID识别系统

九芯电子热水器语音识别芯片IC方案，解放双手，高识别率

物联网系统智能控制产品的语音识别方案_离线语音识别芯片分析

什么是离线语音识别芯片？与在线语音识别的区别

基于FPGA的指纹识别系统设计

多目标智能识别系统

基于OpenCV的人脸识别系统设计

基于GIS的SAR多目标智能识别系统

车载语音识别系统语音数据采集标注案例

车载语音识别系统语音数据采集标注案例

基于深度学习的鸟类声音识别系统