0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

语音识别下一步发展如何?哪些技术可以使用?哪些价值可以发掘?

工程师邓生 来源:中关村在线 作者:张彬 2020-10-23 16:27 次阅读

2020科大讯飞全球1024开发者节今天正式拉开帷幕,伴随着AI的发展,我们得以更全面和细致地洞察人们的生活习惯,并为人们提供更加智能和便捷的服务。在人工智能的应用场景中,最重要的一个就是语音交互。针对这一点,科大讯飞AI研究院常务副院长刘聪做了细致的讲解,让我们对当前语音交互技术有了更清晰和深入的了解。

我们知道语音识别是讯飞的传统强项,从早期的呼叫、导航到2010年发布的讯飞超脑语音云和输入法,从而开启了中文语音输入的新时代。通过深度学习等框架持续的迭代效果,我们又陆续推出了方言识别、远场交互、多麦克风阵列等相关的功能。2015年,我们又将人机交互的场景拓展到人人对话的场景。为此我们总结出三点,我们将语音听写从简单场景的可用做到了通用。这种场景的好用,语音转写从原来的不好用,做到了像演讲、会议、庭审等很多复杂场景的好用。像语音控制、命令唤醒,我们也是从简单场景的可用,做到了复杂场景的好用。

随着现在语音识别在更多场景的应用,语音识别的下一步发展方向是什么?又有哪些技术可以从实验室场景走向成熟,还有哪些价值得我们发掘?

首先,我们认为语音识别需要持续的去挑战更加复杂的场景,去实现从语音到声音,从单纯的文字内容识别到音频的全场景解析。例如现在我们在泛娱乐当中,直播、短视频,我们可以看到这里面有很多的更加复杂的声音场景需要我们去解决。例如在直播的过程中,背景可能是复杂多样的,可能有视频声、游戏声或者音乐声。此外直播连麦的时候还会经常出现多人混叠的对话,这些对我们的语音识别都会有很大的影响。除此之外,这些视频当中还会包含像笑声、掌声、各种音效等声音,所以我们需要提出一些新的方案。当前的框架已经难以去解决这样一个复杂的问题。

针对这样一个场景,我们一方面需要降低各种背景的噪声对识别精度的影响。另外一方面,要有针对性的将我们感兴趣的声音提取出来。这里我们也是展示了全场景音频解析的整体方案。首先我们是通过多分辨率特征提取的声音检测方案,再结合我们的序列训练,对一些相似声音进行精细建模,可以实现将笑声、音效等非语音的声音和语音内容分离。针对包含语音的有效内容,我们也使用了语音降噪和分离的方案,综合利用我们的声音、文本、说话等信息,以及在有条件的情况下,还可以使用多模态的唇形、视线以及麦克风阵列的空间位置等信息来进行联合建模。以上这些才能保证我们能够持续保持语音合成以及语音识别技术的领先。

与此同时,我们也和合作伙伴一起,不断提升在直播等复杂场景上的语音识别效果,并且准确率从60%提到了85%。未来我们相关的技术也会在我们的开放平台——讯飞听见等上线。未来,我们会做得更好,请大家继续期待。
责任编辑:PSY

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 智能
    +关注

    关注

    8

    文章

    1707

    浏览量

    117474
  • AI
    AI
    +关注

    关注

    87

    文章

    30539

    浏览量

    268747
  • 语音识别技术

    关注

    0

    文章

    55

    浏览量

    12832
收藏 人收藏

    评论

    相关推荐

    语音识别技术在医疗领域的应用

    语音识别技术在医疗领域的应用已经越来越广泛,为医疗服务带来了诸多便利和效率提升。以下是对语音识别技术
    的头像 发表于 11-26 09:35 217次阅读

    语音识别技术的应用与发展

    语音识别技术发展可以追溯到20世纪50年代,但直到近年来,随着计算能力的提升和机器学习技术的进
    的头像 发表于 11-26 09:20 340次阅读

    ASR语音识别技术应用

    语音识别技术应用的分析: 、ASR语音识别技术原理
    的头像 发表于 11-18 15:12 463次阅读

    如何限制容器可以使用的CPU资源

    默认情况下容器可以使用的主机 CPU 资源是不受限制的。和内存资源的使用样,如果不对容器可以使用的 CPU 资源进行限制,旦发生容器内程序异常使用 CPU 的情况,很可能把整个主机
    的头像 发表于 10-24 17:04 199次阅读
    如何限制容器<b class='flag-5'>可以使</b>用的CPU资源

    节能回馈式负载技术创新与发展

    。 尽管节能回馈式负载技术在创新和发展上取得了显著的成果,但是其仍然面临着些挑战。例如,如何提高其能量回馈的效率,如何降低其成本,如何提高其稳定性等。这些问题需要我们进一步的研究和探
    发表于 10-17 09:46

    stm32cubemx配置了stm32h743的USB host,运行到第个if下一步直接就跳到HardFault_Handler了,为什么?

    个if下一步直接就跳到 HardFault_Handler了,不知道为什么 USBH_StatusTypeDefUSBH_CDC_Transmit(USBH_HandleTypeDef *phost
    发表于 05-20 07:36

    STM32F207擦除片内FLASH,退出DEBUG无法执行下一步程序是怎么回事?

    由于项目需求,需要擦除片内指定空间,然后从SPI_FLASH中加载程序运行 问题如下:: 在DEBUG模式下,执行擦除程序后,则退出DEBUG,无法执行下一步程序 擦除代码如下: 1
    发表于 04-23 07:46

    车内语音识别数据在智能驾驶中的价值与应用

    车内语音识别数据在智能驾驶中的价值与应用 、引言 随着智能驾驶技术的不断发展,车内
    的头像 发表于 02-19 11:47 556次阅读

    车内语音识别技术在智能驾驶中的应用与前景

    、引言 随着智能驾驶技术的快速发展,车内语音识别技术逐渐成为智能驾驶领域的研究热点。
    的头像 发表于 02-19 11:46 788次阅读

    车内语音识别技术:智能驾驶的核心要素

    、引言 随着科技的飞速发展,智能驾驶已经成为未来出行的趋势。作为智能驾驶的关键技术,车内语音识别
    的头像 发表于 02-19 11:42 733次阅读

    车内语音识别技术:智能驾驶的革新之源

    、引言 随着科技的飞速发展,智能驾驶已经成为现代交通领域的热门话题。作为智能驾驶的关键技术,车内语音
    的头像 发表于 02-19 10:10 427次阅读

    Prevayl的下一步是什么

    Prevayl的下一步是什么2022年,Prevayl推出了SmartWear——这是世界上第款采用临床级心电图增强的高性能服装,其准确性无与伦比。生物识别先驱还创建了个功能齐全的
    的头像 发表于 02-17 18:10 510次阅读
    Prevayl的<b class='flag-5'>下一步</b>是什么

    车内语音识别数据在智能驾驶中的应用与挑战

    详细介绍车内语音识别数据在智能驾驶中的应用、面临的挑战以及未来的发展趋势。 二、车内语音识别数据在智能驾驶中的应用
    的头像 发表于 01-26 18:14 1100次阅读

    传感器技术下一步

    】链接可阅读原文档。 SE:传感器技术下一步是什么? Malinowski:我们正在尝试寻找种制造图像传感器的新方法,因为我们希望摆脱硅光电二极管的限制。硅是种完美的材料,特别是
    的头像 发表于 01-06 08:43 316次阅读
    传感器<b class='flag-5'>技术</b>的<b class='flag-5'>下一步</b>

    什么是基座大模型?大模型下一步发展方向是什么?

    AGI 的目标是实现通用的人工智能,它需要整合各种技术和资源,包括计算机视觉、自然语言处理、语音识别等领域。只有当 AGI 能够实现这些技术的无缝集成和协同工作时,它才能成为新
    发表于 12-19 14:38 7828次阅读