从前年开始,海外谷歌、亚马逊、苹果、微软、三星,国内阿里、小米、京东等都已先后涉足智能音箱这一领域。随着其快速发展,作为核心技术之一的语音识别技术也逐步进入人们的视线,本篇我们就来谈谈语音识别技术。
语音识别技术简介
语音识别,也被称为自动语音识别(Automatic Speech Recognition,ASR)技术,就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术,也就是让机器听懂人类的语音。
所谓听懂,有两层意思,一是指把用户所说的话逐词逐句转换成文本;二是指正确理解语音中所包含的要求,作出正确的应答。
语音识别技术目前在桌面系统、智能手机、导航设备等嵌入式领域均有一定程度的应用。
语音识别系统及过程
不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统的实现过程如下图所示。
语音识别的基本过程有两个部分组成。一是学习和训练,二是识别过程。
训练(Training):预先分析出语音特征参数,制作语音模板(Template)并存放在语音参数库中。
识别(Recognition):待识语音经过与训练时相同的分析,得到语音参数,将它与库中的参考模板一一比较,并采用判决的方法找出最接近语音特征的模板,得出识别效果。
语音识别系统的分类
(1)根据对说话人说话方式的要求,可以分为孤立字(词)语音识别系统,连接字语音识别系统以及连续语音识别系统。
孤立单词识别(Isolated Word Recognition):识别的单元为字、词或短语,它们组成识别的词汇表(Vocabulary),对它们中的每一个通过训练建立模板或模型。
连续单词识别(Connected Word Recognition):以比较少的词汇为对象,能够完全识别每个词。识别的词汇表和标准样板或模型也是字、词或短语,但识别时可以是它们中间几个的连续。
连续语音识别(Continuous Speech Recognition):以多数词汇为对象,待识语音是一些完整的句子。虽不能完全准确识别每个单词,但能够理解其意义,连续语音识别也叫会话语音识别。可理解为在语音识别之后,根据语言学知识来推断语音的含义内容。
(2)根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。
特定人语音识别(Speaker-Dependent):语音识别的标准模板或模型只适应于某个人。实际上,该模板或模型就是该人通过输入词汇表中的每个字、词或短语的语音建立起来的。其他人使用时,需同样建立自己的标准模板或模型。
非特定人语音识别(Speaker-Independent):语音识别的标准模板或模型适应于指定的某一范畴的说话人(比如标准普通话),标准模板或模型由该范畴的多个人通过训练而产生。识别时可供参加训练的发音人使用,也可供未参加训练的同一范畴的发音人使用。
(3)根据词汇量大小,可以分为有限词汇以及无限词汇量语音识别系统。
有限词汇识别:按词汇表中字、词或短句个数的多少,大致分为:100以下小词汇量;100-1000中等词汇量;1000以上为大词汇量。
无限词汇识别(全音节识别):当识别基元为汉语普通话中对应所有汉字的可读音节时,称其为全音节语音识别,是实现无线词汇或中文文本输入的基础。
语音识别技术的“前世今生”
下面我们来看看语音识别技术的“前世今生”:
(1)起始阶段
1952年AT& T Bell实验室实现了一个单一发音人孤立发音的十个英文数字的语音识别系统,方法主要是度量每个数字的元音音段的共振峰。
1960年英国的Denes等人研究成功了第一个计算机语音识别系统。在此期间,提出的一些思想沿用至今。
理论:模式识别思想、动态规划算法、时间规划算法、动态因素跟踪法。
(2)快速发展阶段
70年代孤立词发音和孤立语句发音的识别成为了可行的有用技术,大规模的语音识别研究在这个时期得到很大的发展。
80年代研究的重点转向了词汇量的积累,以及连续的语音识别,也就是从传统的基于标准模板匹配的技术思路转变基于统计模型的技术思路。此外,再次提出了将神经网络技术引入语音识别的技术思路。
理论:声学模型—隐马尔科夫模型(Hidden Markov Model,HMM)
语言模型—N-gram模型
(3)应用开发
90年代,语音识别研究的重点转向自然语言的识别处理,任务转移到航空旅行信息的索取。同时,语音识别技术不断应用于电话网络,增强话务员服务和自动化。
2000年以来,人机语音交互成为研究的焦点。研究重点包括即兴口语的识别和理解,自然口语对话,以及多语种的语音同声翻译。
理论:声学模型—隐马尔科夫模型—深度神经网络(Deep Neural Network,DNN)
语言模型—N-gram模型—反馈神经网络(Feedback Neural Network,FNN)
语音识别领域公司
科大讯飞,腾讯,百度,苏州思必驰,捷通华声,云知声等等。
结语
随着语音识别技术的不断发展,无论是Siri、Echo,还是其他的智能语音助手都可以接触和管理消息、邮件和日程帐号,还能控制联网家居,播放音乐,甚至完成网络搜索或者更多的事情。而我们,只需满怀期待。
-
语音识别
+关注
关注
38文章
1721浏览量
112543
发布评论请先 登录
相关推荐
评论