关于语音转写技术的解析和应用-电子发烧友网

信息爆发时代，如何快速有效地处理视频、音频、文字等信息变得尤为重要。无论是政企会议、公检法办案，还是教学培训、记者采访、个人录音等场合均需要形成完整的文字记录材料，音视频文件也需要形成字幕。为解决各类场景下的音频转文字问题，语音转写应运而生。

今年7月，讯飞开放平台推出语音转写功能。这项基于科大讯飞独立研究的深度全序列卷积升级网络语音识别框架的技术究竟有哪些核心原理？语音转写的产品特性和优势又有哪些？应用落地的场景以及未来发展前景是什么？这些问题是很多对语音转写感兴趣的小伙伴想要了解的。

本期AI公开课，我们邀请到科大讯飞AI研究院副院长高建清博士为我们讲解语音转写技术。

什么是语音转写？01

语音转写（LongFormAutomatic Speech Recognition）：基于科大讯飞独立研究的深度全序列卷积神经网络语音识别框架（Deep Fully Convolutional Neural Network, DFCNN），针对语音的长时相关性进行语言建模，将音频数据转换成文本数据，可以让信息传递更高效，为后续的数据检索和数据挖掘提供基础。

按照音频传输形式分为

已录制音频（recorded audio）：将已经录制好的完整音频文件传输至云端的转写后台，转写完毕之后输出音频对应的完整文字结果。

实时音频流（real-time streaming）：在采集音频的同时连续上传音频流至云端，云端实时返回文字结果，可以实现文字和声音的同步展现。

语音转写和语音听写的区别02

语音转写和语音听写很多开发者小伙伴容易混淆，在课程开始之前先把两者的区别给大家梳理清晰：

语音转写应用场景有哪些？03

电话销售&客服

将坐席的通话转换成文字，让电话质检和信息同步更有效率，同时，也为基于文本建模的数据挖掘提供原料基础。

会议&访谈记录

可以将线上或者线下的会议和访谈的音频记录转换成文字存稿，让后期的信息检索以及精细整理更方便快捷。

字幕生成

能够将视频中的音频文件转写成带有的时间戳的文字信息，帮助您轻松生成与视频相对应的字幕文件。