0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌Live Transcribe语音引擎为语音识别提供字幕

电子工程师 来源:郭婷 2019-08-20 15:29 次阅读

8月18日,谷歌宣布开源Android语音识别转录工具Live Transcribe的语音引擎。

这家公司希望这样做可以让任何开发人员为长篇对话提供字幕,减少因网络延迟、断网等问题导致的沟通障碍。源代码现在可以在GitHub上获得。这意味着无论你是出国或是与新朋友见面,Live Transcribe都可以帮助你进行沟通。

交流时可以实时畅通(只要有网络)谷歌于今年2月发布了Live Transcribe。该工具使用机器学习算法音频转换为实时字幕,与Android即将推出的Live Caption功能不同,Live Transcribe是一种全屏体验,使用智能手机的麦克风(或外接麦克风),并依赖于Google Cloud Speech API。Live Transcribe可以用70多种语言和方言标题实时口语。另一个主要区别是Live Transcribe可在18亿台Android设备上使用(当Live Caption在今年晚些时候推出时,它只适用于部分Android Q设备)。

在云上工作

谷歌的Cloud Speech API目前不支持发送无限长的音频流。此外,依赖云意味着网络连接、数据成本和延迟方面都有潜在问题。

结果,语音引擎在达到超时之前关闭并重新启动流请求,包括在长时间静默期间重新开始会话并且每当语音中检测到暂停时关闭。在会话之间,语音引擎还在本地缓冲音频,然后在重新连接时发送它。因此,谷歌避免了截断的句子或单词,并减少了会话中丢失的文本量。

70多种语言和方言中挑选自己合适的为了降低带宽需求和成本,谷歌还评估了不同的音频编解码器:FLAC,AMR-WB和Opus。FLAC(无损编解码器)可以保持准确性,不会节省太多数据,并且具有明显的编解码器延迟。AMR-WB可以节省大量数据,但在嘈杂的环境中准确度较低。

与此同时,Opus允许数据速率比大多数音乐流媒体服务低许多倍,同时仍保留音频信号的重要细节。谷歌还会在长时间的静音期间使用语音检测来关闭网络连接。

总体而言,该团队能够实现“在不影响准确性的情况下,将数据使用量减少10倍”。

为了比Cloud Speech API更进一步减少延迟,Live Transcribe使用自定义Opus编码器。编码器恰好提高了比特率,使“延迟在视觉上无法区分发送未压缩的音频”。

Live Transcribe语音引擎功能

谷歌列出了语音引擎的以下功能(不包括说话人识别):

该文档指出这些库与生产应用程序Live Transcribe中运行的库“几乎相同”。谷歌已对其进行了“广泛的现场测试和单元测试”,但测试本身并非开源。但谷歌确实提供了APK,因此开发者可以在不构建任何代码的情况下试用该库。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6128

    浏览量

    104934
  • 语音识别
    +关注

    关注

    38

    文章

    1710

    浏览量

    112484
  • 引擎
    +关注

    关注

    1

    文章

    358

    浏览量

    22510
收藏 人收藏

    评论

    相关推荐

    WTK6900FC语音识别模块

    语音识别
    WT-深圳唯创知音电子有限公司
    发布于 :2024年09月25日 17:35:07

    唯创知音WT2605C用在离在线语音识别方案# #语音芯片 #语音识别 #唯创知音

    语音识别
    WT-深圳唯创知音电子有限公司
    发布于 :2024年09月12日 17:24:28

    谷歌推出Gemini Live,开启AI语音聊天新纪元

    在万众瞩目的Pixel 9系列手机发布会上,谷歌震撼宣布了一项创新服务——Gemini Live,该服务自今日起,率先向使用英语的Gemini Advanced订阅用户敞开大门。这一举措标志着谷歌在人工智能
    的头像 发表于 08-15 17:29 645次阅读

    什么是离线语音识别芯片?与在线语音识别的区别

    离线语音识别芯片适用于智能家电等,特点小词汇量、低成本、安全性高、响应快,无需联网。在线语音识别功能更广泛、
    的头像 发表于 07-22 11:33 345次阅读

    微软网页版PPT新增语音识别字幕生成功能

    据报道,微软计划于今年六月份推出网页版PowerPoint全新语音识别功能。此项功能将能够监控PowerPoint视频中的声音,进而自动生成字幕
    的头像 发表于 05-16 14:36 351次阅读

    车内语音识别技术在智能驾驶中的应用与前景

    一、引言 随着智能驾驶技术的快速发展,车内语音识别技术逐渐成为智能驾驶领域的研究热点。语音识别技术驾驶员
    的头像 发表于 02-19 11:46 737次阅读

    恩智浦发布新一代智能语音技术组合的语音识别引擎

    恩智浦发布新一代智能语音技术组合的语音识别引擎。本文将探讨开发人员在嵌入式语音控制设计中面临的挑战、恩智浦新的Speech to Inten
    的头像 发表于 01-26 09:15 705次阅读
    恩智浦发布新一代智能<b class='flag-5'>语音</b>技术组合的<b class='flag-5'>语音</b><b class='flag-5'>识别</b><b class='flag-5'>引擎</b>

    离线语音识别与在线语音识别有什么不一样?

    离线语音识别与在线语音识别有什么不一样? 离线语音识别和在线
    的头像 发表于 12-12 14:36 1124次阅读

    离线语音识别,“自然说”产品赋能

    相比于云端语音识别,离线语音识别技术具有更高的识别准确率和更快的响应速度。因为离线语音
    的头像 发表于 12-11 11:20 433次阅读
    离线<b class='flag-5'>语音</b><b class='flag-5'>识别</b>,“自然说”<b class='flag-5'>为</b>产品赋能

    情感语音识别的应用与挑战

    ,情感语音识别技术被广泛应用于游戏、电影、音乐等领域。通过识别用户的情感状态,系统可以提供更加个性化的推荐和服务,提高用户的体验和满意度。 智能家居:在智能家居领域,情感
    的头像 发表于 11-30 10:40 598次阅读

    离线语音识别及控制是怎样的技术?

    识别离线语音识别是指在设备本地进行语音信号的识别和转换,而无需依赖互联网连接或云端服务。具体来说,离线
    的头像 发表于 11-24 17:44 1066次阅读
    离线<b class='flag-5'>语音</b><b class='flag-5'>识别</b>及控制是怎样的技术?

    离线语音识别及控制是怎样的技术?

    进行处理。  离线语音识别能够在设备上实现实时的语音识别响应,具有响应速度快、隐私保护好、稳定可靠等优势。它广泛应用于移动设备、智能音箱、嵌入式系统等场景,
    发表于 11-24 17:41

    情感语音识别技术的现状与未来

    一、引言 情感语音识别技术是近年来人工智能领域的研究热点之一,它通过分析人类语音中的情感信息,智能客服、心理健康监测、娱乐产业等多个领域提供
    的头像 发表于 11-15 16:36 616次阅读

    情感语音识别的前世今生

    一、引言 情感语音识别是指通过计算机技术和人工智能算法,对人类语音中的情感信息进行自动识别和理解。这种技术可以帮助我们更好地理解人类的情感状态,
    的头像 发表于 11-12 17:33 600次阅读

    情感语音识别技术的应用与未来发展

    的应用、未来发展趋势以及面临的挑战。 二、情感语音识别技术的应用 人机交互:情感语音识别技术在人机交互领域有着广泛的应用。例如,智能客服可以通过分析用户的
    的头像 发表于 11-12 17:30 748次阅读