语音识别技术方便于长辈们融入海量数据的互联网时代,成为长辈们与外界交流的一大利器。不过,千万不要认为在未来人工智能时代中的语音识别仅仅是单纯运用到手机聊天中的识别录入文字。语音识别技术随着深度学习及高性能计算的不断发展,正逐渐从实验室迈向工业领域。
语音识别简史
1952年,美国AT&T贝尔实验室开发出了第一个基于电子计算机的语音识别系统Audrey,其可以识别10个英文数字,准确率为98%;进入60年代,语音识别领域的两大突破是线性预测编码,以及动态时间规整技术;
在60年代后期,隐马尔可夫模型被Leonard E. Baum等人提出,HMM的提出是语音识别历史上的一个重大突破,使当时语音识别的错误率大大降低;李开复等人则在1988年第一次实现了基于HMM的大词汇量语音识别系统Sphinx。
另一方面,早在上世纪80年代,人工神经网络已经被引入语音识别。起初人工神经网络的结构多为简单的多层感知机,但受限于当时的计算能力以及语音数据的稀少,人工神经网络并没有在识别率上带来很大的提升。
近年来,随着计算能力的提升和语音数据的增加,神经网络被广泛应用于语音识别任务中。深度神经网络技术的出现,也进一步提高了大规模连续语音识别的性能,目前已经成为学术界和工业界研究的热点内容之一。
语音识别的技术支持
目前,在语音识别领域广泛采用的神经网络有时延神经网络、深度神经网络、卷积神经网络、递归神经网络以及基于长短期记忆的RNN等。
通常将这些深度神经网络模型与HMM模型结合构建完整的声学模型,并结合语言模型等提升语音识别性能。
在语言模型方面,虽然传统的N元模型一直是主流技术,但基于神经网络的语言模型从2012年开始被较为广泛的研究,如RNN-LM、LSTM-LM等。
鉴于基于神经网络的语言模型的计算量较大,一般先利用N元模型初始化,然后再用基于神经网络的语言模型重打分,即神经网络语言模型并不直接用于解码,而是在基线系统解码结果的基础上进行得分重估。
同时,RNN-CTC的出现使得语音识别摆脱了传统方法中声学模型、语言模型、解码器等模块化的束缚,通过采用对输入输出序列直接建模的方法,只需训练一个神经网络模型即可进行识别,因此被称为端到端语音识别。
端到端的模型可以解决传统方法中各个模型训练目标不一致的问题。另外,由于实际中可获取的文本数据比语音数据多得多,所以往往还会用文本数据训练一个更好的语言模型,与CTC神经网络结合使用。
深度神经网络用于人工智能应用的问题在于其实时率等性能指标还需有待提高,但是端到端语音识别开辟了人工智能的一个新方向,而且训练的过程相对简单,因此人工智能方向上的端到端识别将会是未来的技术趋势之一。此外人工智能再进一步改进网络结构、改进训练方法,逐步使人工智能性能达到工业水平和要求,进入商用阶段指日可待。
-
神经网络
+关注
关注
42文章
4765浏览量
100553 -
语音识别
+关注
关注
38文章
1725浏览量
112556 -
人工智能
+关注
关注
1791文章
46882浏览量
237633
发布评论请先 登录
相关推荐
评论