钛媒体是国内首家TMT公司人社群媒体,最有钛度的一人一媒体平台-电子发烧友网

钛媒体是国内首家TMT公司人社群媒体,最有钛度的一人一媒体平台，集信息交流融合、IT技术信息、新媒体于一身的媒体平台。钛坦白，作为钛媒体旗下的微信公开课，汇集行业大牛钛客，分享行业干货，发布权威动态，值得关注。

人工智能已有60年的发展历史，在近两年，随着大数据、云计算、深度学习的进一步发展，迎来了又一次发展高潮。越来越多相关公司涌现，越来越多的资本涌入，越来越多声音说，人工智能是下一个风口，是未来的方向，钛媒体在成功举办26期共86位钛客的分享后，“AI已来”系列来了！

数据显示，我国超过70%的人工智能公司主攻图像或语音识别这两个分类。在人工智能覆盖的众多领域里，语音技术无疑是最接地气也是落地最快的。钛坦白“AI已来”系列分享从“语音/语义识别”开始，邀请了思必驰上海交大联合实验室副主任/上海交通大学计算机科学与工程系助理教授钱彦旻老师，担任本次钛坦白公开课讲师，分享《深度学习下的语音识别现状及有效工具》。

以下为钱彦旻老师分享实录：

报告内容分为四个部分，分别为语音交互发展现状、语音识别技术、语音识别技术有效的开源工具、思必驰上海交大实验室研究成果。

最近三个月，在语音识别领域，国际上包括工业界和研究界的几个大的新闻，一个是2016年10月，美国微软雷德蒙研究院在电话语音识别的标准库Switchboard上报道达到5.9%的错误率。在这个库上，人类的能力大概是5.9%，我们可以看到，机器的性能已经和人类基本达到了持平。第二个大的新闻是今年9月，CHIME4国际多通道语音分离和识别大赛，最好的系统性能报道达到了将近2%的一个错误率。第三个新闻是关于中文的，近期百度、搜狗、讯飞开始连续三场的发布会，展示语音交互系统，识别性能达到了97%。

那么，语音识别的性能已经如此之高，我们还有对它进行研究的价值吗？

那么我们不妨来思考一下，语音识别问题真的解决了吗？

将以上的三个系统背后的技术应用到我们真实的一些产品中，比如Apple的Siri，Google的Google Now，微软的Cortana助手，以及亚马逊的echo，他的性能如何？事实上，这里所列的很多技术都不能很好的工作。这是因为一些相关技术都是针对特定的任务以及在特定的环境下进行的。我们了解到，即使是一个研究比较成熟的英文命令词识别系统，给它只要添加一点点的麻烦，比如苏格兰口音的英语，它的性能就会急速的下降。在这些非配合式的语音交互方面，语音识别的性能远远没有满足我们的要求，语音识别的路还很长。

语音识别是对语音内容进行提取的一把金钥匙，它的研究可以追溯到半个世纪以前。在本世纪初，基于语音识别的一些产品也开始问世，最有代表性的是2000年左右，美军用于伊拉克战场的语音到语音翻译机。以及2011年苹果Apple在Iphone4s上推出了Siri语音助手，之后包括微软、谷歌、亚马逊，以及国内的百度、讯飞、思必驰等等也推出了各自基于交互语音的一些产品。国内外的研究机构很多，包括国外的像几个大公司，微软、谷歌，IBM，亚马逊，以及国内的百度、讯飞、思必驰等等，学术界包括剑桥、MIT、JHU，以及国内的清华大学，中国科大、上海交大等等。

语音识别历来是人工智能和机器学习中的经典难题之一，他的困难主要可以归结为三个不确定性，也就是说话人、环境和设备。说话人方面，我们不同的人、不同口音、不同方言、不同的说话方式、不同的情感应用。环境方面，如各类噪声、汽车喇叭声、其他的人声、会场的回声等等。设备方面，我们可以用手持麦克风、领夹麦克风、耳戴麦克风、近场远场的麦克风等等。各个方面的不确定性都是很大的，真实应用场景下，往往是这三个因素叠加在一起，变得更加的复杂，所以如何设计一套鲁棒的性能好的语音识别系统，来很好的处理好这些不确定性，也是非常具有挑战性。

统计云识别的这个问题，如果从数学上来定义，可以归结为一个概率公式，给定观测到的语音，得到最大的词序列，通过公式展开，这个概率可以归为两个概率，对应到我们语音识别中的对应的声学模型和语言模型。这个概率可进一步分解成四个概率模型，分别是特征提取、声学模型、字典模型、语言模型，在这四个模块下，通过一个解码的过程得到最终的语音识别结果。基于四个概率模型建模，即可在一个庞大的搜索网络上进行搜索和解码，实际应用中，搜索网络十分复杂，在这四个概率的引导下，我们通过最优化的方法将最后的识别结果找出来。

传统的语音识别经过前端的信号处理、特征提取、声学模型、语言模型等模块的优化，来实现系统识别，那么自深度学习以来，语音识别还需要哪些工作呢？

基于深度学习的第一代语音识别系统，将传统的特征特区模块和声学建模模块完成了DNN部分，将传统的声学模型中基于浅层的高斯混合模型替换成了深度神经网络模型，通过深度神经网络模型的多层的非线性建模能力直接预测状态之间的分布函数。同时它通过自身的深度模型的特征引擎能力，可以从比较原始的语音信号中提取中比较具有鉴别能力的特征。语音识别是深度学习方法第一个成功的任务。自2011年深度学习方法提出来以后，包括微软、谷歌，IBM，在各个任务上，在语音识别方面，包括电话信道、广播信道、谷歌的移动信道等，基于深度学习方法新的语音识别策略都得到大幅的性能提升。

近五年，深度学习方法又得到了进一步的发展。更强大的深度神经网络被应用于语音识别，包括卷积神经网络、递归神经网络、长短时记忆模型等。最近几年的发展是飞速的，识别性能甚至已经达到了几乎跟人类持平的水平。

放眼国内，中文语音交互技术又发展到怎样的水平呢？

根据公开发表的文献可总结几家目前的语音识别的技术方案，包括百度、科大讯飞、思必驰，基本上代表了行业语音识别研究的最高水平，因为百度有百度深度研究院，讯飞和中国科学技术大学成立联合实验室，思必驰和我们上海交大成立了联合研究实验室。

百度使用的是CLDNN的模型，科大讯飞采用的是FSMNN模型，而我们思必驰和上海交大采用的是VDCNN极深卷积神经网络的模型，相比于传统语音模型仅使用1至2层卷积层，该模型通过堆叠较小的卷积层和池化层，将语音模型中的卷积层的深度提高到了10层以上。利用小卷积核更加精细的局部刻画能力和频率不变性描述，能够更好地在语音模型的内部实现了声学自动降噪的能力。

语音识别目前还面临很多困境，具体表现在：

首先是噪声鲁棒性。噪声环境下的鲁棒语音识别一直是语音识别大规模应用的绊脚石。针对这个困境，思必驰上海交大实验室推出了相应的策略，包括环境感知的深度模型以及神经网络的快速自适应方法，它使一般的深度模型可以对环境进行实时的感知和自适应调整，提高实现系统性能。另外，我们将极深卷积神经网络用于抗噪的语音识别，使系统性能大幅提升。在这个方面，我们在今年在语音处理的权威期刊IEEE/ACM Transactions on Audio, Speech and Language Processing上发表了三篇期刊论文，可供查阅。

在语音识别的权威数据库，噪声数据库Aurora4世界最高水平的几个研究机构的系统性能的对比，剑桥大学在2012年深度学习方法出来以前最好成绩是13.4%的错误率，2013年微软发表的12.4%的错误率，2014年IBM达到10%的错误率，大部分的研究机构最好的识别性能错别率也在10%左右，2016年上半年，英国爱丁堡大学8.7%的错误率，2016年7月，我们发表了一篇论文，达到7.1%的错误率。思必驰算法模型的应用使得系统巨大的性能提升，在抗噪语音识别上得到飞速的进展，这个成果在近几个月得到广泛的转载和报道。

第二个难点是多类复杂性。过去语音识别系统的设计主要是针对单一环境、单一场景下进行，如何做多类别复杂场景下的通用的语音识别是非常困难的。

在这个方面，思必驰上海交大实验室去年参加了由英国BBC公司和EPSRC组办的国际挑战赛，其中我们在四个单项上均列世界第一，且每个单项成绩均大幅领先第二名，涉及语音识别、说话人分割聚类、标注对齐、时序渐进语音识别等技术，处于行业领域地位。

第三个困境是低数据资源与多语言。目前大部分语音识别的研究和应用，主要是基于一些大语种，比如英语、汉语、法语等，世界上一共有6900多种语言，虽然实现一套基于任何语言的语言识别系统是非常困难。

目前，构建一套多语言低数据资源的语音识别系统是非常关键和具有实际价值的。就此，我们在公开相同的数据环境下，搭建了相关系统，我们和美国约翰霍普金斯大学的性能做了对比，我们在相同数据集合上取得了一个更优的策略。

第四个困境是低计算资源。目前大部分的语音识别的一些应用，背后都是基于云端的在线服务，如何在离线的环境下，基于有限的硬件资源做低功耗的离线的实时的连续性识别是非常困难的。

在这个方面，思必驰上海交大实验室通过用CTC模型去取代隐马模型，将系统性能在速度上提升了7倍多，同时我们将传统的基于帧同步的解码方案替换成音素同步解码方案，将系统的实时率进一步提升到20倍，相关的方法也已发表在IEEE/ACMTransactions on ASLP的期刊上了。

开源工具以及参考书

第一个是Kaldi语音识别开源软件。它是由约翰霍普金斯Dan Povey领导的，由九家著名语音机构13人核心工作组历时两年开发完成的语音识别开源软件，自2011年发布以来，下载量已经超过了两万多次，合著的论文已被引用一千多次。（钱彦旻老师为该团队唯一来自亚洲成员）

第二个工具是HTK-Hiddden Markov Model Toolkit。语音识别历史上第一个开源的工具包，开发者剑桥大学的前副校长Steve Young及剑桥大学智能语音实验室的主任Phil Woodland教授均为是英国皇家工程院的院士。

第三个工具是CUED-RNNLM。2015年由剑桥开发，对递归神经网络的语言模型进行了更好的支持，可以很好的用GPU进行加速训练，同时支持快速的训练和评估的算法和自适应技术。这套开源工具包也被剑桥应用于近期各类比赛，取得较好成绩。

目前也有很多比较流行的开源的深度学习工具，比如微软的CNTK，谷歌的Tensor flow，以及由dmlc维护的mxnet，来自蒙特利尔大学的Theano，来自伯克利的Caffe以及来自纽约大学的Torch等等。

目前微软的CNTK，也是上海交大和思必驰所使用的一套深度学习的开源软件。它是由微软的雷德蒙研究院黄学东博士领导开发的一套计算网络工具包，可以很好的支持对各种神经网络，支持各种新奇算法训练，对比其他开源工具，CNTK无论在单GPU、单机多卡情况下，还是多机多卡的情况下，在速度上都有一个明显的性能的优势。

思必驰上海交大实验室

思必驰是国内为数不多的拥有完整知识产权的语音公司，从纵向上看，它是国内仅有的两家拥有全面的语音技术的公司之一，从07年剑桥创立至今已经走过了近十年，拥有丰富的技术积淀，在2015年的年初，思必驰也首个提出了认知智能概念层次。从横向上看，思必驰是目前国内唯一一家只针对智能硬件领域提供语音支持的公司，我们只针对智能车载、家居、机器人三个领域提供解决方案，保证技术的垂直性和适用性，思必驰不做2C的产品，专注为智能硬件企业企业提供纯软的解决方案和软硬一体化的解决方案。

思必驰是纯技术型的人工智能公司，根据客户的不同需求去提供各种实用且合适的语音方案。如纯软的解决方案，即AIOS对话操作系统；在软硬一体化的解决方案方面，思必驰推出了国内首款量产的环形6+1远场麦克风阵列、四麦线性方案，并与君正、庆科合作推出带语音功能的芯片模组。

目前思必驰的业务合作领域主要专注在智能硬件领域，包括智能车载、智能家居、智能机器人。目前在智能车载中，思必驰是阿里YunOS的唯一战略合作伙伴，2015年10月率先推出了AIOS for Car对话操作系统，在后端市场上占有率达到60%，智能后视镜约为70%，HUD领域约为80%，目前后装市场占有率是第一。同时，思必驰也与小鹏汽车、智车优行等互联网汽车也签署了合作。在智能家居领域，思必驰已与阿里、腾讯、联想、小米、魅族等建立了深度合作关系，刚刚发布的小米智能音箱即内置了思必驰语音方案。智能机器人领域，目前生态尚早，但未来潜力大，思必驰目前打造了大华小乐机器人、360小巴迪、东方网力、金刚蚁小忆机器人、小萝卜机器人等多个精品案例。

智能语音未来还有很长的路要走，思必驰将致力于打造更实用、更有趣的人机交互体验，在未来很长一段时间内，这都将是我们坚持不变的理念和方向。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

语音识别

语音识别

+关注

关注
39

文章
1822

浏览量
116234
智能语音

智能语音

+关注

关注
11

文章
829

浏览量
50342
思必驰

思必驰

+关注

关注
4

文章
416

浏览量
16047

搜索历史

钛媒体是国内首家TMT公司人社群媒体,最有钛度的一人一媒体平台

评论