随着大数据时代的到来,音频、视频、文字日益成为文化信息传播的主流方式,其中文字这种载体表现形式最为直观。无论是政企会议、公检法办案,还是教学培训、记者采访、个人录音等场合均需要形成完整的文字记录材料,音视频文件也需要形成字幕。为解决各类场景下的音频转文字问题,语音转写应运而生。
什么是语音转写?
此次重磅上线的语音转写(Long Form Automatic Speech Recognition),是基于科大讯飞独立研究的深度全序列卷积神经网络语音识别框架(Deep Fully Convolutional Neural Network, DFCNN)建立声学模型和语言模型,能将非结构化的音频数据转换成结构化的文本数据,让信息传递更高效,也为后续的数据检索和数据挖掘提供基础。简单的一句话表达就是:把音频数据转换成文本数据。按照音频转写的方式可以分为:已录制音频转写和实时音频流转写。
已录制音频(recorded audio):将已经录制好的完整音频文件传输至云端的转写后台,转写完毕之后输出音频对应的完整文字结果。
实时音频流(real-time streaming):在采集音频的同时连续上传音频流至云端,云端实时返回文字结果,可以实现文字和声音的同步展现。
具备的优势
核心技术
此次语音转写的识别引擎采用拥有科大讯飞自主研发全新推出的深度全序列卷积神经网络DFCNN识别框架。DFCNN使用大量的卷积层直接对整句语音信号进行建模,更好的表达了语音的长时相关性,并且直接将一句语音转化成一张图像作为输入,即通过“观看”语谱图即可知道语音中表达的内容,最终获得了相比目前业界最好的语音识别框架——双向递归神经网络更优的性能,即识别率相对提升了15%以上。并且遥遥领先于同类竞品,近场高10-15个绝对点,远场高20个绝对点以上。
数据安全
转写系统接入讯飞开发平台统一的账户体系,采用公钥与私钥结合的认证方式保证用户的账户安全,接口统一采用https加密方式进行数据传输,用户上传的语音文件临时存储在内网存储,待转写完成,确保结果无误后予以粉粹删除,从数据传送和存储上全面保障用户的数据安全。
使用场景
电话销售与客服
传统的电话销售与客服包含了通话录音、通话质检等。针对这个产品的质量控制就是质检,包括通话的质量、服务的质量、业务解决质量以及满意度等等。质检团队的配置比例一般是50:1~80:1。有没有更好的手段可以对全部坐席人员的工作成效进行评估呢?语音转写就可以很好解决这样的局面,如果坐席团队50000人的话,那么质检团队就需要1000人,但语音转写可以将坐席通话转换成文字,让电话质检和信息同步更有效率,同时,也为基于文本建模的数据挖掘提供原料基础。
举个小栗子:陈先生是某卫视的一名编导,整理视频字幕是他的家常便饭,这种机械又耗时的工作经常让他喘不过气,语音转写就成了解决问题的利器!
面对越来越多以及越来越严苛的视频字幕生成需求,传统的字幕生成方法早已无法满足,以往字幕生成通过生成软件或者专门的字幕组来人工完成,而现在利用语音转写可以大大提高效率,解放双手。快速将视频中的音频文件转写成带有的时间戳的文字信息,轻松生成与视频相对应的字幕文件。
会议发言角色多、发言信息量大、会议时间较长等原因都会让会议记录者抓狂,会议纪要的整理就更加步履维艰。面对这种局面,语音转写可以将线上或者线下的会议和访谈的音频记录转换成文字存稿,让后期的信息检索以及精细整理更方便快捷。
场景营销
场景营销是基于网民的上网行为始终处在输入场景、搜索场景和浏览场景这三大场景之一的一种新营销理念。而语音转写可以通过对转写结果与用户自定义的关键词进行搜索匹配,结合对应时间戳信息,进行线上广告投放。
讯飞开放平台在多地进行了机房部署,服务器集群每天承载高达30亿的语音交互量。每个IDC机房采用BGP或三网接入,保障接入速率和成功率。核心硬件方面采用内存双通道策略,GPU+CPU复合运算组合,提高引擎速度。
讯飞开放平台同时为开发者提供多种技术支持方式,并且提供一整套的服务支撑方案,保证服务的稳定性和质量。
”人生在勤,不索何获。”各项技术日新月异,语音转写走进时代浪潮,也期待大家一起利用语音转写创造更多惊喜!点击阅读原文就可以进入讯飞开放平台体验语音转写服务,新用户有5小时免费使用福利哦。
-
数据
+关注
关注
8文章
6795浏览量
88730 -
语音识别
+关注
关注
38文章
1710浏览量
112483 -
大数据
+关注
关注
64文章
8853浏览量
137186
发布评论请先 登录
相关推荐
评论