0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

回顾语音识别技术优势及产品落地之路的应用发展

讯飞开放平台 来源:djl 作者:汪舰 2019-10-08 08:32 次阅读

什么是语音识别

语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。

语音识别技术历史发展进程

语音识别的研究可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统,它是第一个可以识别十个英文数字的语音识别系统。

但真正取得实质性进展,并将它作为一个重要的课题开展研究则是在60年代末70年代初。计算机技术的发展为语音识别的实现提供了硬件和软件的可能,语音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的提出,有效解决了语音信号的特征提取和不等长匹配问题。这一时期语音识别主要基于模板匹配原理,研究的领域局限在特定人,小词汇表的孤立词识别,实现了基于线性预测倒谱和DTW技术的特定人孤立词语音识别系统;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。

80年代HMM和ANN在语音识别中成功应用。李开复实现了第一个基于HMM的大词汇量语音识别系统Sphinx。90年代随着多媒体时代的来临,大量企业开始投入巨资语音识别系统逐渐从实验室走向实用。00年代以来大数据、涟漪效应和深度神经网络带来了语音识别爆发。

语音识别的过程

首先是声音的输入,输入的音频可以是实时的来自于麦克风,也可以来自于现成的音频文件。然后是音频信号的预处理,包括降噪、回声消除、端点检查和模数转换等等。特征提取,就是从音频信号中提取出对识别有用的信息,将这些信息拿到声学模型中去匹配,会得到这些音频信号的发音信息,比如这里例子中的“科大讯飞”四个字的发音信息。然后把这些发音信息拿到语言模型中匹配,找出最大概率的发这四个音的汉字。这样一个识别的过程就完成了。

这过程中比较核心的部分就是声学模型和语言模型的匹配和处理,HMM(隐马尔科夫模型)和深度神经网络就是在这里发挥作用的。

由于HMM只需要少量的数据就能训练出一个可用的模型,所以在上世界80、90年代,HMM技术在语音识别领域几乎是处于统治地位的,直到移动互联网还有大数据技术的爆发,数据的来源已经完全不是问题的情况下,深度神经网络才逐渐让HMM退居二线。下面我们以HMM为例,讲解一下它在语音识别中是如何发挥作用的。

HMM浅析

首先和大家分享一个我在网上看到的关于异地恋的故事:小明有个女朋友在北京上学。

我们来给出一些假设条件,比如女朋友只有购物散步和宅家里这三种活动(这些叫可观察到的状态),天气也只有多云晴天和下雨三种(这些叫隐藏的状态,就是小明无法直接观察到的状态),如果第一天是多云的情况下,第二天还是多云的概率是0.5、晴天的概率0.3、下雨的概率0.2;再比如今天是晴天的情况下,女朋友去购物的概率是0.5,去散步的概率0.3,宅家里的概率0.2。那么所有上述的假设条件合在一起其实就形成了一个模型,这个模型就叫做HMM模型。

这三个问题在很早以前就有很多算法大师给出了解法,也就是说这些看起来很难解的问题对计算机来说都很快解出来。

那么这些和语音识别到底有什么关系?我将第二个问题和第三个问题抽象一下。

大家看这张PPT,左边这个部分就对应刚刚的第二个问题:已知模型参数和女朋友的活动序列(就是可观察状态链),来求最大概率的隐藏状态链(也就是这三天天气的变化序列)。

而语音识别也是已知一个HMM和一段我们可观察到的波形,来求这段音频包含的最大概率的隐藏状态,这里隐藏状态链指的就是识别结果中的文字。

对于第三个问题,由于缺少了一个已知的HMM模型,所以我们需要先利用已知的历史数据来训练一个可用的模型,然后再来求识别结果。

同样一个模型,同样一套模型参数,各个状态转化和映射概率都没有变,我们把可观察状态换成语音识别的输入波形(或者说是波形特征),把隐藏状态换成语音识别的输出(也就是文字结果),就会发现这个HMM用来做语音识别简直太合适啦。

比如这里的例子,这样三个连续的波形隐含的文字到底是“是十四”还是“四十四”,我们只需要分别把它们的概率算出来,哪个概率大我们就认为是哪个结果。对于HMM模型未知的情况下,我们可以利用带标注的数据按照鲍姆-韦尔奇算法训练一个就可以了,足够的数据就能训练出趋于完美的模型。

注意,这个例子中我们并没有区分声学模型和语言模型,而是将两者放在一起抽象出来一个大的模型,将波形直接映射成文字,而省去类似拼音发音的中间结果。事实上HMM也的确是既可以做声学模型,也可以做语言模型。

讯飞开放平台语音识别

本节公开课说的我们平台的语音识别是专指语音听写的功能,就是将语音转化成文字的功能,而和识别相关的命令词识别和语义理解,会在后面的课程中为大家讲解。

个性化识别指的是语音识别系统具备自动学习并适应用户使用习惯的能力,你用的越多,它越懂你。

例如语言模型的个性化,我们可以将一些不容易识别的生僻的词,比如人名地名等上传到给我们云端,我们根据你上传的信息有针对性的优化你的语言模型,提高这些词的识别率。后面会有视频给大家演示这样的效果。

目前我们讯飞的识别支持中文和英文,还支持中文的21种方言,其中粤语和四川话是免费开放就可以使用的,其他的方言需要通过商务合作后才能使用。

离线听写也是有的,在讯飞输入法和讯飞语记app中都已经使用了。大家要开发Android平台的应用可以借助语记APP提供离线听写能力,来让你自己的应用也具有离线听写的功能。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语音识别
    +关注

    关注

    38

    文章

    1702

    浏览量

    112400
收藏 人收藏

    评论

    相关推荐

    智能玩具用离线语音识别芯片有什么优势

    随着科技的发展,很多智能电子产品和儿童玩具实现了与人类的交互,语音芯片在这些人机交互中起到了不可替代的作用,语音识别芯片在智能玩具中的应用就
    的头像 发表于 09-20 10:00 161次阅读
    智能玩具用离线<b class='flag-5'>语音</b><b class='flag-5'>识别</b>芯片有什么<b class='flag-5'>优势</b>

    Transformer模型在语音识别语音生成中的应用优势

    随着人工智能技术的飞速发展语音识别语音生成作为人机交互的重要组成部分,正逐渐渗透到我们生活的各个方面。而Transformer模型,自其
    的头像 发表于 07-03 18:24 818次阅读

    蓝鹏测控的激光测径仪有哪些技术优势

    具有显著的技术优势,使得其产品在市场上具有较高的竞争力和应用价值。 网站名称:保定市蓝鹏测控科技有限公司 可根据客户需求提供解决方案,定制产品。 欢迎QQ咨询:2087627071 电话
    发表于 05-24 17:25

    高速信号差分线的技术优势

    随着信息技术的飞速发展,高速信号传输已成为现代通信和数据处理中不可或缺的一环。在高速信号传输中,差分线技术因其独特的优势而得到广泛应用。本文将从差分线的基本原理、抗干扰能力、带宽容量、
    的头像 发表于 05-16 16:31 603次阅读

    浅谈情感语音识别技术发展与未来趋势

    一、引言 情感语音识别是一种新兴的人工智能技术,它通过分析人类语音中的情感信息,实现人机之间的情感交互。本文将探讨情感语音
    的头像 发表于 11-30 11:06 611次阅读

    情感语音识别技术发展与挑战

    一、引言 情感语音识别是人工智能领域的重要研究方向,它通过分析人类语音中的情感信息,实现人机之间的情感交互。本文将探讨情感语音识别
    的头像 发表于 11-28 18:26 547次阅读

    离线语音识别及控制是怎样的技术

    引言:随着人工智能的飞速发展,离线语音识别技术成为了一项备受瞩目的创新。离线语音识别
    的头像 发表于 11-24 17:44 1012次阅读
    离线<b class='flag-5'>语音</b><b class='flag-5'>识别</b>及控制是怎样的<b class='flag-5'>技术</b>?

    离线语音识别及控制是怎样的技术

    引言:  随着人工智能的飞速发展,离线语音识别技术成为了一项备受瞩目的创新。离线语音识别
    发表于 11-24 17:41

    情感语音识别技术发展与未来趋势

    一、引言 情感语音识别是近年来人工智能领域的研究热点,它通过分析人类语音中的情感信息,实现更加智能化和个性化的人机交互。本文将探讨情感语音识别
    的头像 发表于 11-23 14:28 533次阅读

    情感语音识别技术发展与跨文化应用

    一、引言 情感语音识别是人工智能领域的前沿研究领域,它通过分析人类语音中的情感信息,实现更加智能化和个性化的人机交互。随着技术的不断发展,情
    的头像 发表于 11-22 10:54 483次阅读

    情感语音识别技术的挑战与未来发展

    情感语音识别技术作为人工智能领域的重要分支,已经取得了显著的进展。然而,在实际应用中,情感语音识别技术
    的头像 发表于 11-16 16:48 390次阅读

    情感语音识别技术发展趋势与前景

    一、引言 情感语音识别技术是近年来人工智能领域的研究热点之一,它通过分析人类语音中的情感信息实现更加智能化和个性化的人机交互。本文将探讨情感语音
    的头像 发表于 11-16 16:13 592次阅读

    情感语音识别技术的应用与未来发展

    一、引言 随着科技的飞速发展,情感语音识别技术已经成为人机交互的重要发展方向。情感语音
    的头像 发表于 11-12 17:30 657次阅读

    离线语音识别和控制的工作原理及应用

    引言   离线语音识别是指在没有网络连接的情况下,通过在本地设备上进行语音信号处理和识别,实现语音命令的转化和执行。随着智能设备的普及,离
    发表于 11-07 18:01

    语音识别技术在教育领域的应用与挑战

    一、引言 随着人工智能技术的不断发展,教育领域也开始应用语音识别技术来提高教学质量和学习效果。本文将探讨
    的头像 发表于 11-02 18:44 617次阅读