语音识别的技术历程及工作原理-电子发烧友网

语音识别技术，也被称为自动语音识别（Automatic Speech Recognition，ASR），是以语音为研究对象，通过语音信号处理和模式识别让机器理解人类语言，并将其转换为计算机可输入的数字信号的一门技术。

语音识别的技术历程

现代语音识别可以追溯到1952年，Davis等人研制了世界上第一个能识别10个英文数字发音的实验系统，从此正式开启了语音识别的进程。语音识别发展到今天已经有70多年，但从技术方向上可以大体分为三个阶段。

下图是从1993年到2017年在Switchboard上语音识别率的进展情况，从图中也可以看出1993年到2009年，语音识别一直处于GMM-HMM时代，语音识别率提升缓慢，尤其是2000年到2009年语音识别率基本处于停滞状态。2009年随着深度学习技术，特别是DNN的兴起，语音识别框架变为DNN-HMM，语音识别进入了DNN时代，语音识别精准率得到了显著提升。

2015年以后，由于“端到端”技术兴起，语音识别进入了百花齐放时代，语音界都在训练更深、更复杂的网络，同时利用端到端技术进一步大幅提升了语音识别的性能，直到2017年微软在Swichboard上达到词错误率5.1%，从而让语音识别的准确性首次超越了人类，当然这是在一定限定条件下的实验结果，还不具有普遍代表性。

语音识别原理

语音识别的本质是一种基于语音特征参数的模式识别，即通过学习，系统能够把输入的语音按一定模式进行分类，进而依据判定准则找出最佳匹配结果。目前，模式匹配原理已经被应用于大多数语音识别系统中。如图1是基于模式匹配原理的语音识别系统框图。

一般的模式识别包括预处理，特征提取，模式匹配等基本模块。如图所示首先对输入语音进行预处理，其中预处理包括分帧，加窗，预加重等。其次是特征提取，因此选择合适的特征参数尤为重要。

常用的特征参数包括：基音周期，共振峰，短时平均能量或幅度，线性预测系数（LPC），感知加权预测系数（PLP），短时平均过零率，线性预测倒谱系数（LPCC），自相关函数，梅尔倒谱系数（MFCC），小波变换系数，经验模态分解系数（EMD），伽马通滤波器系数（GFCC）等。

在进行实际识别时，要对测试语音按训练过程产生模板，最后根据失真判决准则进行识别。常用的失真判决准则有欧式距离，协方差矩阵与贝叶斯距离等。

语音识别技术涉及的领域有哪些

它涉及的领域相当广泛，包括但不限于以下几个方面：

智能语音助手：智能语音技术为我们带来了智能助理，如Siri、小爱同学等。用户可以通过语音与智能助理进行交流，询问天气、定闹钟、发送消息等，实现更加直观、便捷的操作。

智能家居：借助智能语音技术，用户可以通过简单的口头指令控制家居设备，例如开关灯、调整温度、播放音乐等，实现智能家居的全方位控制和管理。

医疗领域：语音识别技术可以辅助医生对病人进行诊断，对病人的病情和治疗方案进行记录等。此外，它还可以应用于医疗设备的操作中，使得医疗设备更加智能化和便利化。

教育领域：语音识别技术可以辅助学生进行口语练习，提高学生的英语口语水平等。另外，它还可以应用于教育评测中，通过语音识别来评估学生的语音表达能力、语感等。

金融领域：语音识别技术可以用于身份验证、语音指令操作等。此外，它还可以应用于金融客户服务中，使得客户可以通过语音来查询账户信息、进行转账等操作，更加便捷快速。

游戏领域：语音识别技术可以应用于游戏领域，如通过语音识别来与游戏角色进行交互，使得游戏更加真实、有趣。

智能客服：语音识别技术可以帮助用户通过语音指令获取客服服务，解决客服等待时间长的问题。

语音翻译：在全球化的今天，语音识别技术可以帮助人们实现不同语言之间的翻译。

随着技术的不断发展和完善，语音识别技术将在更多领域得到应用，并为人们的生活带来更多便利。

审核编辑：黄飞

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

信号处理

信号处理

+关注

关注
48

文章
1020

浏览量
103255
数字信号

数字信号

+关注

关注
2

文章
967

浏览量
47538
语音识别

语音识别

+关注

关注
38

文章
1735

浏览量
112628

特定人语音识别的方法有哪些？

特定人语音识别的方法有哪些？特定人语音识别技术在汽车控制上的应用是什么？

发表于 05-14 06:34

自动语音识别的原理是什么？

自动语音识别的原理是什么？如何利用WaveNet实现自动语音识别？

发表于 06-15 09:14

离线语音识别和控制的工作原理及应用

的应用越来越广泛。本文将深入探讨离线语音识别的工作原理，以及其所使用的技术。　　一、离线语音识别的

发表于 11-07 18:01

离线语音识别及控制是怎样的技术？

信号转化为文本或语义结果。　与传统的云端语音识别相比，离线语音识别的工作原理是将语音

发表于 11-24 17:41

语音识别技术的发展历程,语音识别是如何工作的？语音识别资料概述

说到语音识别，大家熟悉的可能是最近十年里才出现的微信语音转文字，或者语音实时记录和翻译。但其实语音识别的

发表于 09-01 10:48 •1w次阅读

语音识别的技术历程

深度学习技术自 2009 年兴起之后，已经取得了长足进步。语音识别的精度和速度取决于实际应用环境，但在安静环境、标准口音、常见词汇场景下的语音识别

发表于 08-22 14:21 •4456次阅读

简析语音识别技术的工作原理

语音识别技术是让机器通过识别把语音信号转变为文本，进而通过理解转变为指令的技术。

发表于 12-23 11:20 •1.2w次阅读

语音识别的两个方法_语音识别的应用有哪些

本文主要阐述了语音识别的两个方法及语音识别的应用。

发表于 04-01 09:04 •5979次阅读

虹膜识别技术的过程_虹膜识别的发展历程

本文首先介绍了虹膜识别技术的概念，其次阐述了虹膜识别技术的过程，最后阐述了虹膜识别的发展历程。

发表于 04-02 14:22 •5712次阅读

浅析语音识别技术的发展历程

语音转文本识别，主要是识别和确认发出语音的人而非其中所包含的内容。语音识别的目的

发表于 02-07 10:43 •4843次阅读

语音识别技术的进步与挑战

一、引言在当今数字化时代，语音识别技术已经成为人机交互的重要方式之一。本文将探讨语音识别技术的

发表于 09-22 18:29 •829次阅读

离线语音识别和控制的工作原理及应用

。本文将深入探讨离线语音识别的工作原理，以及其所使用的技术。一、离线语音识别的

发表于 11-07 18:04 •923次阅读

情感语音识别的前世今生

的支持。本文将探讨情感语音识别的前世今生，包括其发展历程、应用场景、面临的挑战以及未来发展趋势。二、情感语音识别的发展

发表于 11-12 17:33 •643次阅读

情感语音识别的研究方法与实践

一、引言情感语音识别是指通过计算机技术和人工智能算法自动识别和理解人类语音中的情感信息。为了提高情感语

发表于 11-16 16:26 •834次阅读

情感语音识别的应用与挑战

一、引言情感语音识别是一种通过分析人类语音中的情感信息实现智能化和个性化人机交互的技术。本文将探讨情感语音

发表于 11-30 10:40 •646次阅读

搜索历史

语音识别的技术历程及工作原理

评论

特定人语音识别的方法有哪些？

自动语音识别的原理是什么？

离线语音识别和控制的工作原理及应用

离线语音识别及控制是怎样的技术？

语音识别技术的发展历程,语音识别是如何工作的？语音识别资料概述

语音识别的技术历程

简析语音识别技术的工作原理

语音识别的两个方法_语音识别的应用有哪些

虹膜识别技术的过程_虹膜识别的发展历程

浅析语音识别技术的发展历程

语音识别技术的进步与挑战

离线语音识别和控制的工作原理及应用

情感语音识别的前世今生

情感语音识别的研究方法与实践

情感语音识别的应用与挑战