0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

关于语音转写的应用和介绍分析

讯飞开放平台 来源:djl 2019-09-27 15:58 次阅读

随着大数据时代的到来,音频视频、文字日益成为文化信息传播的主流方式,其中文字这种载体表现形式最为直观。无论是政企会议、公检法办案,还是教学培训、记者采访、个人录音等场合均需要形成完整的文字记录材料,音视频文件也需要形成字幕。为解决各类场景下的音频转文字问题,语音转写应运而生。

什么是语音转写?

此次重磅上线的语音转写(Long Form Automatic Speech Recognition),是基于科大讯飞独立研究的深度全序列卷积神经网络语音识别框架(Deep Fully Convolutional Neural Network, DFCNN)建立声学模型和语言模型,能将非结构化的音频数据转换成结构化的文本数据,让信息传递更高效,也为后续的数据检索和数据挖掘提供基础。简单的一句话表达就是:把音频数据转换成文本数据。按照音频转写的方式可以分为:已录制音频转写和实时音频流转写。

已录制音频(recorded audio):将已经录制好的完整音频文件传输至云端的转写后台,转写完毕之后输出音频对应的完整文字结果。

实时音频流(real-time streaming):在采集音频的同时连续上传音频流至云端,云端实时返回文字结果,可以实现文字和声音的同步展现。

具备的优势

核心技术

此次语音转写的识别引擎采用拥有科大讯飞自主研发全新推出的深度全序列卷积神经网络DFCNN识别框架。DFCNN使用大量的卷积层直接对整句语音信号进行建模,更好的表达了语音的长时相关性,并且直接将一句语音转化成一张图像作为输入,即通过“观看”语谱图即可知道语音中表达的内容,最终获得了相比目前业界最好的语音识别框架——双向递归神经网络更优的性能,即识别率相对提升了15%以上。并且遥遥领先于同类竞品,近场高10-15个绝对点,远场高20个绝对点以上。

数据安全

转写系统接入讯飞开发平台统一的账户体系,采用公钥与私钥结合的认证方式保证用户的账户安全,接口统一采用https加密方式进行数据传输,用户上传的语音文件临时存储在内网存储,待转写完成,确保结果无误后予以粉粹删除,从数据传送和存储上全面保障用户的数据安全。

使用场景

电话销售与客服

传统的电话销售与客服包含了通话录音、通话质检等。针对这个产品的质量控制就是质检,包括通话的质量、服务的质量、业务解决质量以及满意度等等。质检团队的配置比例一般是50:1~80:1。有没有更好的手段可以对全部坐席人员的工作成效进行评估呢?语音转写就可以很好解决这样的局面,如果坐席团队50000人的话,那么质检团队就需要1000人,但语音转写可以将坐席通话转换成文字,让电话质检和信息同步更有效率,同时,也为基于文本建模的数据挖掘提供原料基础。

举个小栗子:陈先生是某卫视的一名编导,整理视频字幕是他的家常便饭,这种机械又耗时的工作经常让他喘不过气,语音转写就成了解决问题的利器!

面对越来越多以及越来越严苛的视频字幕生成需求,传统的字幕生成方法早已无法满足,以往字幕生成通过生成软件或者专门的字幕组来人工完成,而现在利用语音转写可以大大提高效率,解放双手。快速将视频中的音频文件转写成带有的时间戳的文字信息,轻松生成与视频相对应的字幕文件。

会议发言角色多、发言信息量大、会议时间较长等原因都会让会议记录者抓狂,会议纪要的整理就更加步履维艰。面对这种局面,语音转写可以将线上或者线下的会议和访谈的音频记录转换成文字存稿,让后期的信息检索以及精细整理更方便快捷。

场景营销

场景营销是基于网民的上网行为始终处在输入场景、搜索场景和浏览场景这三大场景之一的一种新营销理念。而语音转写可以通过对转写结果与用户自定义的关键词进行搜索匹配,结合对应时间戳信息,进行线上广告投放。

讯飞开放平台在多地进行了机房部署,服务器集群每天承载高达30亿的语音交互量。每个IDC机房采用BGP或三网接入,保障接入速率和成功率。核心硬件方面采用内存双通道策略,GPU+CPU复合运算组合,提高引擎速度。

讯飞开放平台同时为开发者提供多种技术支持方式,并且提供一整套的服务支撑方案,保证服务的稳定性和质量。

”人生在勤,不索何获。”各项技术日新月异,语音转写走进时代浪潮,也期待大家一起利用语音转写创造更多惊喜!点击阅读原文就可以进入讯飞开放平台体验语音转写服务,新用户有5小时免费使用福利哦。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6604

    浏览量

    87972
  • 语音识别
    +关注

    关注

    38

    文章

    1675

    浏览量

    112006
  • 大数据
    +关注

    关注

    64

    文章

    8748

    浏览量

    136820
收藏 人收藏

    评论

    相关推荐

    语音数据集在智能语音助手中的应用与挑战

    。本文将详细介绍语音数据集在智能语音助手中的应用、面临的挑战以及未来的发展趋势。 二、语音数据集在智能语音助手中的应用
    的头像 发表于 01-18 15:46 224次阅读

    语音数据集在智能语音搜索中的应用与挑战

    挥着重要作用,为系统提供了丰富的语音数据和信息,提高了搜索的准确性和效率。本文将详细介绍语音数据集在智能语音搜索中的应用、面临的挑战以及未来的发展趋势。 二、
    的头像 发表于 01-18 15:09 319次阅读

    语音数据集在智能语音助手中的应用与挑战

    语音合成模型。本文将详细介绍语音数据集在智能语音助手中的应用、面临的挑战以及未来的发展趋势。 二、语音数据集在智能
    的头像 发表于 12-14 15:07 461次阅读

    语音数据集在人工智能中的应用与挑战

    一、引言 随着人工智能技术的快速发展,语音数据集在各种应用中发挥着越来越重要的作用。语音数据集是AI语音技术的基石,对于语音识别、语音合成、
    的头像 发表于 12-14 15:00 374次阅读

    语音数据集:推动AI语音技术的核心力量

    一、引言 随着人工智能的快速发展,语音技术作为人机交互的重要手段,正发挥着越来越重要的作用。而语音数据集则是推动AI语音技术的核心力量。本文将详细介绍
    的头像 发表于 12-12 11:32 401次阅读

    离线语音识别及控制是怎样的技术?

    信号转化为文本或语义结果。  与传统的云端语音识别相比,离线语音识别的工作原理是将语音识别技术算法和模型部署在用户的设备上,通过设备内部的处理能力进行语音信号的
    发表于 11-24 17:41

    可录音语音芯片IC的工作原理及应用场景介绍

    录音播放语音芯片是一种具有录音和播放功能的集成芯片,广泛应用于各种电子产品和设备中。本文将详细介绍录音播放语音芯片的作用、工作原理、应用场景以及实践方法,并探讨其优势和发展前景。一、录音播放
    的头像 发表于 11-23 14:36 543次阅读
    可录音<b class='flag-5'>语音</b>芯片IC的工作原理及应用场景<b class='flag-5'>介绍</b>

    基于BlueZ协议栈的蓝牙语音接入系统实现与性能分析

    电子发烧友网站提供《基于BlueZ协议栈的蓝牙语音接入系统实现与性能分析.pdf》资料免费下载
    发表于 10-30 11:25 0次下载
    基于BlueZ协议栈的蓝牙<b class='flag-5'>语音</b>接入系统实现与性能<b class='flag-5'>分析</b>

    关于相位锁定环(PLL)频率合成器的设计和分析

    本篇文章是关于相位锁定环(PLL)频率合成器的设计和分析,重点讨论了相位噪声和频率噪声的测量、建模和仿真方法。文章以设计一个假想的PLL频率合成器为例,详细介绍了设计过程和步骤。从规格选择、电路配置
    的头像 发表于 10-26 15:30 812次阅读
    <b class='flag-5'>关于</b>相位锁定环(PLL)频率合成器的设计和<b class='flag-5'>分析</b>

    智能家居蓬勃发展,智能语音技术日趋关键

    思必驰聚焦“云+芯”战略,基于AI-aaS服务支撑产品方案升级及垂直行业覆盖落地。例如,在智慧办公领域,思必驰自研了会议转写麦克风音箱、会议转写一体机、语音跟踪摄像头、会议实时转写软件
    发表于 10-16 14:13 281次阅读
    智能家居蓬勃发展,智能<b class='flag-5'>语音</b>技术日趋关键

    语音芯片」常见的OTP芯片故障分析

    OTP芯片故障分析语音芯片出现故障主要有以下三种情况:1.声音播放不完整,只能播放一个字或者一点点,语音乱报,不按指令播报。2.声音沙哑,不清晰,有杂音。3.通电后,发指令无声音输出。
    的头像 发表于 09-15 11:53 508次阅读

    气象监测——关于气象监测站的介绍

    气象监测——关于气象监测站的介绍
    的头像 发表于 09-04 10:02 486次阅读

    关于农林气象站的基本介绍

    关于农林气象站的基本介绍
    的头像 发表于 08-23 16:58 305次阅读

    I91260语音芯片在SDS不同的编解码格式有什么区别?

    我正在使用 I91260 语音芯片,我在SDS 看到有不同的编解码格式(AudioPlayback MD4 NuOneEx ...) 我想知道这些格式有什么区别,我如何更好的选择使用那个格式? 我的另一个问题是,在那个文档 展示了关于 音频编解码的
    发表于 08-21 07:39

    语音标注平台:推动语音技术发展的关键支撑

    语音技术作为人工智能领域的重要分支,正日益渗透到我们的生活中。而语音标注平台作为语音技术发展的关键支撑,扮演着至关重要的角色。它为语音数据的标注和处理提供高效、准确的工具,推动了
    的头像 发表于 07-13 14:40 459次阅读