0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

百度端对端语音识别专利揭秘

汽车玩家 来源: 爱集微 作者: 爱集微 2020-01-08 11:17 次阅读

百度公司提出的端对端神经网络模型来进行语音识别,成功的代替了手工工程化部件的流水线操作,这让整个语音识别技术更加便捷,而使用神经网络来抽取输入端的特征信息相当于人功抽取特征则更加全面。

集微网消息,近年来,语音识别技术得到了迅猛的发展,这得益于人工智能的快速发展,其中最为主要的学业界的各大神经网络的出现,包括基础的序列神经网络模型RNN、LSTM和GRU。语音识别技术也已经进入到各行各业中,如工业、家电、通信汽车电子等。于是,对于语音识别技术的要求也将更加严格了,更倾向于走向准确化和便捷化。

以往,构建语音识别模型主要是使用HMM的序列模型,再使用手工工程化部件来实现整个流水线操作,并且对于不同的语言的语音需要重新构建模型的结果特征。对此,国内语音识别技术第一梯队公司百度便提出了使用端对端的神经网络模型来进行语音识别工作,该专利为“端对端语音识别”(专利号:CN107408111A)。

首先,小编在这先介绍一下神经网络端对端的学习方式。对于语音识别来说,端到端深度学习做的是,训练一个深度神经网络,输入就是一段音频,输出直接是听写文本。其中这里的端表示输入源数据端,另外一端是神经网络处理的结果也就是我们最终需要的目标。这种训练学习的方式能应对多种语言的语音识别的场景构建,因为仅仅是需要改变输入端和输出端,深度神经网络的结构并不需要根据语言的语音不同而改变。

专利中提出的端对端的深度学习模型的架构图如图1所示。该架构包括训练以摄取语谱并生成文本的递归神经网络模型。首先,使用一个或更多个卷积层对语谱进行特征提取,紧接着,使用一个或多个递归层(双向GRU神经网络)对语谱的特征进行时序建模。最后再使用全连接层将递归层获取的语谱信息进行全连接作为CTC(链结式时间分类算法:重点解决输入数据与给定标签的对齐问题)的输入,经过Softmax计算输出各个文本标签的概率。

图1端对端深度学习模型架构图

经过上述端对端深度学习模型构建后,专利中还给出了端对端深度学习模型的训练方法,如图2所示。

百度端对端语音识别专利揭秘

图2 端对端深度学习模型训练方法图

首先需要为模型设置好,输入端和输出端,对于语音识别技术来说,输入端为一时间序列频谱帧的话语X,输出端是与话语X具有相关联的真实标签Y。

构建深度神经网络模型(包括一个或多个卷积层和一个或多个递归层的模型)用来预测一个或多个字符也就是我们输出端的标签。

根据网络模型的输出端的标签的概率分布与真实标签的误差计算损失函数,提供损失函数推出标签预测的误差,再使用梯度反向传播算法更新模型参数。从而达到网络模型学习的目的。

百度公司提出的端对端神经网络模型来进行语音识别,成功的代替了手工工程化部件的流水线操作,这让整个语音识别技术更加便捷,而使用神经网络来抽取输入端的特征信息相当于人功抽取特征则更加全面,这让整个语音识别技术更加准确。从这两方面来看,端对端的神经网络模型确实是让语音识别技术走向了便捷化,准确化。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 百度
    +关注

    关注

    9

    文章

    2268

    浏览量

    90366
  • 语音识别
    +关注

    关注

    38

    文章

    1739

    浏览量

    112638
收藏 人收藏

    评论

    相关推荐

    百度正式回应进军短剧领域

    近日,百度在线网络技术(北京)有限公司在知识产权领域有了新的动作,据天眼查信息显示,该公司已申请注册“百度短剧”商标,涵盖网站服务、科学仪器、教育娱乐等多个国际分类,目前这些商标均处于等待实质审查
    的头像 发表于 12-17 14:19 145次阅读

    百度文心大模型日均调用量超15亿

    近日,百度在上海世博中心举办了主题为“应用来了”的百度世界2024大会。会上,百度董事长李彦宏分享了关于大模型行业的最新动态和百度文心大模型的显著进展。
    的头像 发表于 11-12 15:28 280次阅读

    百度将发布AI智能眼镜

    近日,有知情人士透露,百度旗下的人工智能品牌小计划在即将举行的百度世界大会上推出一款全新的AI智能眼镜。这款眼镜将内置先进的人工智能助手,并配备摄像头,为用户提供前所未有的智能体验。
    的头像 发表于 11-11 14:50 407次阅读

    百度舸AI计算平台4.0震撼发布

    在2024年百度云智大会的璀璨舞台上,百度智能云重磅推出了舸AI异构计算平台的全新力作——4.0版本。此次升级,标志着百度在AI基础设施领域迈出了坚实的一步,致力于为行业提供更为强大
    的头像 发表于 09-26 14:46 471次阅读

    循环神经网络在语音识别中的应用

    (Recurrent Neural Networks, RNN)在语音识别领域的应用日益广泛,特别是在语音
    的头像 发表于 07-08 11:09 575次阅读

    http读取百度返回的json数据时丢失数据怎么处理?

    我在使用百度ai开放平台的语音识别功能,读取返回的数据时,使用esp_http_client_read(client, http_data, 1024);读到的数据里没有json的数据,还是http
    发表于 06-24 07:00

    百度申请文小言商标

    近日,百度在线网络技术(北京)有限公司在知识产权领域有了新动作。据天眼查知识产权信息显示,百度已申请多枚“文小言”商标,这些商标将涵盖广告销售、网站服务、健身器材、机械设备等多个领域。
    的头像 发表于 06-19 09:20 481次阅读

    2024百度移动生态万象大会:百度新搜索11%内容已AI生成

    2024百度移动生态万象大会:百度新搜索11%内容已AI生成 今天2024百度移动生态万象大会在江苏苏州举办,特别是AI搜索与百度文心一言的相关信息被市场极度关注,我们看到,在2024
    发表于 05-30 18:58 409次阅读

    百度与特斯拉探讨Robotaxi合作新机遇

    在特斯拉宣布计划使用百度地图提供的高精度地图之后,百度与特斯拉之间的合作再度引起关注。百度自动驾驶技术部总经理徐宝强近日透露,百度正积极考虑与特斯拉在Robotaxi(共享出租车)项目
    的头像 发表于 05-24 10:20 451次阅读

    百度王海峰:百度人工智能专利申请量、授权量国内第一

    2024年4月25日,在第24个世界知识产权日来临之际,百度举办“专利运用赋能AI产业高质量发展”论坛。
    的头像 发表于 04-26 09:32 408次阅读

    百度文心一言用户破2亿,AI原生应用开发数量达19万

    此外,李彦宏还提到,百度在去年 8 月宣布开放文心一言后,不仅在C借助大模型改造用户产品,将AI功能融入旗下多款产品;同时在B,通过云业务推出企业级一站式大模型平台——千帆大模型平台。
    的头像 发表于 04-16 15:05 607次阅读

    百度智能云正式发布了《百度智能云水业大模型白皮书》

    3月28日,由E20环境平台主办的2024(第二十二届)水业战略论坛在北京召开。会上,百度智能云正式发布了《百度智能云水业大模型白皮书》(以下简称《白皮书》)。
    的头像 发表于 03-29 09:20 1363次阅读
    <b class='flag-5'>百度</b>智能云正式发布了《<b class='flag-5'>百度</b>智能云水业大模型白皮书》

    【有奖】 百度智能云目推出首款多模态 AI 模组,应用场景有奖征集!

    他来了,他来了 大模型时代悄然到来 百度首款大模型落地的硬件产品 目多模态AI模组LUCA系列正式亮相 目LUCA深度集成百度语音芯片
    的头像 发表于 02-26 15:19 537次阅读

    华为智能座舱与百度地图签署生态合作协议 共创导航出行新体验

    此次签约,百度地图和华为智能座舱将在智能座舱领域共同打造车机版百度地图,将手机百度地图的丰富体验延伸到车,包括车道级导航、红绿灯倒计时、
    的头像 发表于 01-19 15:50 654次阅读

    华为智能座舱与百度地图签署生态合作协议

    华为智能座舱与百度地图正式签署生态合作协议,共同在智能座舱领域打造车机版百度地图。这一合作将手机百度地图的丰富体验延伸至车,为用户提供更
    的头像 发表于 01-19 15:25 827次阅读