0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌Live Transcribe语音引擎为语音识别提供字幕

电子工程师 来源:郭婷 2019-08-20 15:29 次阅读

8月18日,谷歌宣布开源Android语音识别转录工具Live Transcribe的语音引擎。

这家公司希望这样做可以让任何开发人员为长篇对话提供字幕,减少因网络延迟、断网等问题导致的沟通障碍。源代码现在可以在GitHub上获得。这意味着无论你是出国或是与新朋友见面,Live Transcribe都可以帮助你进行沟通。

交流时可以实时畅通(只要有网络)谷歌于今年2月发布了Live Transcribe。该工具使用机器学习算法音频转换为实时字幕,与Android即将推出的Live Caption功能不同,Live Transcribe是一种全屏体验,使用智能手机的麦克风(或外接麦克风),并依赖于Google Cloud Speech API。Live Transcribe可以用70多种语言和方言标题实时口语。另一个主要区别是Live Transcribe可在18亿台Android设备上使用(当Live Caption在今年晚些时候推出时,它只适用于部分Android Q设备)。

在云上工作

谷歌的Cloud Speech API目前不支持发送无限长的音频流。此外,依赖云意味着网络连接、数据成本和延迟方面都有潜在问题。

结果,语音引擎在达到超时之前关闭并重新启动流请求,包括在长时间静默期间重新开始会话并且每当语音中检测到暂停时关闭。在会话之间,语音引擎还在本地缓冲音频,然后在重新连接时发送它。因此,谷歌避免了截断的句子或单词,并减少了会话中丢失的文本量。

70多种语言和方言中挑选自己合适的为了降低带宽需求和成本,谷歌还评估了不同的音频编解码器:FLAC,AMR-WB和Opus。FLAC(无损编解码器)可以保持准确性,不会节省太多数据,并且具有明显的编解码器延迟。AMR-WB可以节省大量数据,但在嘈杂的环境中准确度较低。

与此同时,Opus允许数据速率比大多数音乐流媒体服务低许多倍,同时仍保留音频信号的重要细节。谷歌还会在长时间的静音期间使用语音检测来关闭网络连接。

总体而言,该团队能够实现“在不影响准确性的情况下,将数据使用量减少10倍”。

为了比Cloud Speech API更进一步减少延迟,Live Transcribe使用自定义Opus编码器。编码器恰好提高了比特率,使“延迟在视觉上无法区分发送未压缩的音频”。

Live Transcribe语音引擎功能

谷歌列出了语音引擎的以下功能(不包括说话人识别):

该文档指出这些库与生产应用程序Live Transcribe中运行的库“几乎相同”。谷歌已对其进行了“广泛的现场测试和单元测试”,但测试本身并非开源。但谷歌确实提供了APK,因此开发者可以在不构建任何代码的情况下试用该库。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6142

    浏览量

    105123
  • 语音识别
    +关注

    关注

    38

    文章

    1725

    浏览量

    112567
  • 引擎
    +关注

    关注

    1

    文章

    360

    浏览量

    22532
收藏 人收藏

    评论

    相关推荐

    语音识别技术的应用与发展

    语音识别技术的发展可以追溯到20世纪50年代,但直到近年来,随着计算能力的提升和机器学习技术的进步,这项技术才真正成熟并广泛应用于各个领域。语音识别技术的应用不仅提高了工作效率,也极大
    的头像 发表于 11-26 09:20 208次阅读

    ASR语音识别技术应用

    语音识别技术应用的分析: 一、ASR语音识别技术原理 ASR语音识别技术的基本原理是将人类
    的头像 发表于 11-18 15:12 347次阅读

    WTK6900FC语音识别模块

    语音识别
    WT-深圳唯创知音电子有限公司
    发布于 :2024年09月25日 17:35:07

    唯创知音WT2605C用在离在线语音识别方案# #语音芯片 #语音识别 #唯创知音

    语音识别
    WT-深圳唯创知音电子有限公司
    发布于 :2024年09月12日 17:24:28

    谷歌推出Gemini Live,开启AI语音聊天新纪元

    在万众瞩目的Pixel 9系列手机发布会上,谷歌震撼宣布了一项创新服务——Gemini Live,该服务自今日起,率先向使用英语的Gemini Advanced订阅用户敞开大门。这一举措标志着谷歌在人工智能
    的头像 发表于 08-15 17:29 687次阅读

    什么是离线语音识别芯片?与在线语音识别的区别

    离线语音识别芯片适用于智能家电等,特点小词汇量、低成本、安全性高、响应快,无需联网。在线语音识别功能更广泛、
    的头像 发表于 07-22 11:33 373次阅读

    谷歌将优化安卓系统的实时字幕功能,用户可更改字幕行数

    Live Captions作为安卓系统的辅助工具,能自动识别并实时将音频转化为字幕。此功能对听力受损或环境嘈杂时难以理解内容的人群十分有用。
    的头像 发表于 05-30 14:28 587次阅读

    微软网页版PPT新增语音识别字幕生成功能

    据报道,微软计划于今年六月份推出网页版PowerPoint全新语音识别功能。此项功能将能够监控PowerPoint视频中的声音,进而自动生成字幕
    的头像 发表于 05-16 14:36 373次阅读

    车内语音识别技术在智能驾驶中的应用与前景

    一、引言 随着智能驾驶技术的快速发展,车内语音识别技术逐渐成为智能驾驶领域的研究热点。语音识别技术驾驶员
    的头像 发表于 02-19 11:46 766次阅读

    车内语音识别数据在智能驾驶中的应用与挑战

    一、引言 随着智能驾驶技术的不断发展,车内语音识别数据在智能驾驶中的应用越来越广泛。车内语音识别技术驾驶员
    的头像 发表于 01-26 18:14 1079次阅读

    恩智浦发布新一代智能语音技术组合的语音识别引擎

    恩智浦发布新一代智能语音技术组合的语音识别引擎。本文将探讨开发人员在嵌入式语音控制设计中面临的挑战、恩智浦新的Speech to Inten
    的头像 发表于 01-26 09:15 722次阅读
    恩智浦发布新一代智能<b class='flag-5'>语音</b>技术组合的<b class='flag-5'>语音</b><b class='flag-5'>识别</b><b class='flag-5'>引擎</b>

    语音数据集:AI语音技术的灵魂

    提升语音识别和生成能力:语音数据集AI模型提供了丰富的语音样本,通过训练和学习这些数据,AI
    的头像 发表于 12-14 14:33 984次阅读

    离线语音识别与在线语音识别有什么不一样?

    离线语音识别与在线语音识别有什么不一样? 离线语音识别和在线
    的头像 发表于 12-12 14:36 1168次阅读

    离线语音识别,“自然说”产品赋能

    相比于云端语音识别,离线语音识别技术具有更高的识别准确率和更快的响应速度。因为离线语音
    的头像 发表于 12-11 11:20 451次阅读
    离线<b class='flag-5'>语音</b><b class='flag-5'>识别</b>,“自然说”<b class='flag-5'>为</b>产品赋能

    情感语音识别的应用与挑战

    ,情感语音识别技术被广泛应用于游戏、电影、音乐等领域。通过识别用户的情感状态,系统可以提供更加个性化的推荐和服务,提高用户的体验和满意度。 智能家居:在智能家居领域,情感
    的头像 发表于 11-30 10:40 624次阅读