百度端对端语音识别专利揭秘-电子发烧友网

百度公司提出的端对端神经网络模型来进行语音识别，成功的代替了手工工程化部件的流水线操作，这让整个语音识别技术更加便捷，而使用神经网络来抽取输入端的特征信息相当于人功抽取特征则更加全面。

集微网消息，近年来，语音识别技术得到了迅猛的发展，这得益于人工智能的快速发展，其中最为主要的学业界的各大神经网络的出现，包括基础的序列神经网络模型RNN、LSTM和GRU。语音识别技术也已经进入到各行各业中，如工业、家电、通信和汽车电子等。于是，对于语音识别技术的要求也将更加严格了，更倾向于走向准确化和便捷化。

以往，构建语音识别模型主要是使用HMM的序列模型，再使用手工工程化部件来实现整个流水线操作，并且对于不同的语言的语音需要重新构建模型的结果特征。对此，国内语音识别技术第一梯队公司百度便提出了使用端对端的神经网络模型来进行语音识别工作，该专利为“端对端语音识别”（专利号：CN107408111A）。

首先，小编在这先介绍一下神经网络端对端的学习方式。对于语音识别来说，端到端深度学习做的是，训练一个深度神经网络，输入就是一段音频，输出直接是听写文本。其中这里的端表示输入源数据端，另外一端是神经网络处理的结果也就是我们最终需要的目标。这种训练学习的方式能应对多种语言的语音识别的场景构建，因为仅仅是需要改变输入端和输出端，深度神经网络的结构并不需要根据语言的语音不同而改变。

专利中提出的端对端的深度学习模型的架构图如图1所示。该架构包括训练以摄取语谱并生成文本的递归神经网络模型。首先，使用一个或更多个卷积层对语谱进行特征提取，紧接着，使用一个或多个递归层（双向GRU神经网络）对语谱的特征进行时序建模。最后再使用全连接层将递归层获取的语谱信息进行全连接作为CTC（链结式时间分类算法：重点解决输入数据与给定标签的对齐问题）的输入，经过Softmax计算输出各个文本标签的概率。

图1端对端深度学习模型架构图

经过上述端对端深度学习模型构建后，专利中还给出了端对端深度学习模型的训练方法，如图2所示。

百度端对端语音识别专利揭秘

图2 端对端深度学习模型训练方法图

首先需要为模型设置好，输入端和输出端，对于语音识别技术来说，输入端为一时间序列频谱帧的话语X，输出端是与话语X具有相关联的真实标签Y。

构建深度神经网络模型（包括一个或多个卷积层和一个或多个递归层的模型）用来预测一个或多个字符也就是我们输出端的标签。

根据网络模型的输出端的标签的概率分布与真实标签的误差计算损失函数，提供损失函数推出标签预测的误差，再使用梯度反向传播算法更新模型参数。从而达到网络模型学习的目的。

百度公司提出的端对端神经网络模型来进行语音识别，成功的代替了手工工程化部件的流水线操作，这让整个语音识别技术更加便捷，而使用神经网络来抽取输入端的特征信息相当于人功抽取特征则更加全面，这让整个语音识别技术更加准确。从这两方面来看，端对端的神经网络模型确实是让语音识别技术走向了便捷化，准确化。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

百度

百度

+关注

关注
9

文章
2308

浏览量
91282
语音识别

语音识别

+关注

关注
38

文章
1768

浏览量
113464

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

百度端对端语音识别专利揭秘

评论

百度搜索，能否将DeepSeek变成“内功”？

百度文心大模型4月1日起全面免费开放

百度百科启动“繁星计划”

ElfBoard开源项目|百度智能云平台的人脸识别项目

百度正式回应进军短剧领域

百度文心大模型日均调用量超15亿

百度小度将发布AI智能眼镜

百度百舸AI计算平台4.0震撼发布

循环神经网络在端到端语音识别中的应用

http读取百度返回的json数据时丢失数据怎么处理？

百度申请文小言商标

2024百度移动生态万象大会:百度新搜索11%内容已AI生成

百度与特斯拉探讨Robotaxi合作新机遇

百度王海峰：百度人工智能专利申请量、授权量国内第一

百度文心一言用户破2亿，AI原生应用开发数量达19万