0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌AI语音服务新增7种语言和31种声音

电子那些事儿 2019-03-01 10:37 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2月24日消息,为了扩展AI语音服务的市场,谷歌除了加强语音辨识模型、语言支持数量和声音种类之外,也调整了语音服务的价格。

谷歌更新文字转语音和语音转文字服务,除了优化语音辨识模型、新支持7种语言和31种声音之外,也调整了语音服务的价格,在特定的应用情境中,用户最多可以省下约50%的支出,而谷歌也提供每月前60分钟免费的语言转文字服务。

谷歌指出,语音辨识和生成技术在人机互动的应用中非常关键,要让人机互动更加自然、简单且普遍,并不容易,即便使用准确度高达90%的语音辨识模型,还是很难真正达到有效的对话,由于许多企业的语音辨识模型都是要在电话中运行,受到噪音的干扰,产生的文字资讯让模型难以处理,谷歌于去年4月针对这种应用场景推出电话和影片的语音转文字服务。

经过不断优化,现在电话的文字错误已降低了62%,而影片的语音转文字模型错误率也降低了64%,除此之外,影片的语音转文字模型在辨识多个说话者的情境中,像是会议或是广播,也有很好的表现。

在价格方面,为了吸引更多用户,谷歌将影片语音转文字模型收费调降了25%,而在标准和影片模型服务中,选择加入资料收集计画的用户,收费价格会减少33%,因此,若使用影片模型且选择加入收集资料计画的用户,将能够减少约50%的支出。

此外,支持的语言也是企业使用语音转文字辨识模型的一大考量,现在谷歌新增了7个语言和方言,包含丹麦语、葡萄牙语、俄语、波兰语、斯洛伐克语、乌克兰语和挪威语,加上上述新增的语言,目前总共支持持21种语言,这些新增的语言都还是测试版。在语音生成模型方面,谷歌的语音生成系统WaveNet也新增了31种声音,目前总共有包含21种语言的57种声音。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    2026 年第一季度 DigiKey 新增31,000 零件及 97 家供应商,进一步扩充了现货产品供应

    387,000 多种新产品和 97 家新供应商,其中包括近 31,000 可快速发货的现货新品。 全球领先的电子元器件和自动化产品分销商 DigiKey 在 2026 年第一季度,新增
    的头像 发表于 04-29 11:45 438次阅读
    2026 年第一季度 DigiKey <b class='flag-5'>新增</b>近 <b class='flag-5'>31</b>,000 <b class='flag-5'>种</b>零件及 97 家供应商,进一步扩充了现货产品供应

    语音芯片怎么样写入声音?一文讲透语音播放芯片的声音写入之道

    为真实声音的“芯”。语音芯片,又称语音IC、VoiceIC,是一能够存储、播放乃至识别语音信号的集成电路,其核心工作过程是将
    的头像 发表于 04-24 10:04 138次阅读
    <b class='flag-5'>语音</b>芯片怎么样写入<b class='flag-5'>声音</b>?一文讲透<b class='flag-5'>语音</b>播放芯片的<b class='flag-5'>声音</b>写入之道

    485AI语音识别模块:多路语音控制,实现安防设备语音联动

    485AI语音识别模块凭借工业级的RS485总线通信与离线/在线AI语音识别能力,应用场景非常广泛,粗略划分可覆盖超10大领域、数十细分场
    的头像 发表于 04-22 15:17 176次阅读

    Vibe Coding AI全栈开发实战

    ”或“直觉编程”,它并非某种具体的编程语言或框架,而是一融合了AI辅助开发、直觉化编程和高效迭代的实战思维方式。在这种模式下,开发者不再需要逐行编写代码,而是通过自然语言描述需求,
    发表于 04-15 16:02

    如何查看小智是否成功进入声音设置?

    你可以通过后台页面状态、设备反馈、语音测试三方式,快速确认小智是否成功进入声音设置并生效。 一、后台页面直接查看(最准) 登录小智AI后台:https://xiaozhi.me/co
    发表于 02-16 06:39

    【MCP】同时支持stdio,streamableHttpless和sse三协议的MCP服务框架

    项目说明 这是一个同时支持stdio,streamableHttpless和sse三协议的MCP-Server的框架(ts语言)。 为什么我想做这个框架呢?因为随着AI发展,现在越来越多业务需要
    的头像 发表于 01-21 18:26 435次阅读
    【MCP】同时支持stdio,streamableHttpless和sse三<b class='flag-5'>种</b>协议的MCP<b class='flag-5'>服务</b>框架

    语音识别IC分类,语音识别芯片的工作原理

    语音识别芯片,也叫语音识别集成电路,是一声音存储、播放、录音及语音识别功能于一体的专用芯片。语音
    的头像 发表于 01-14 15:22 435次阅读
    <b class='flag-5'>语音</b>识别IC分类,<b class='flag-5'>语音</b>识别芯片的工作原理

    芯知识|可录音语音芯片如何实现声音的储存与重放?

    语音交互技术高速发展的今天,绝大多数设备的“声音”功能仍停留在单向播报阶段。然而,有一类特殊的语音芯片,不仅能让设备“开口说话”,更能使其“听见并记住”外界声音,实现真正的双向音频交
    的头像 发表于 01-08 09:44 344次阅读
    芯知识|可录音<b class='flag-5'>语音</b>芯片如何实现<b class='flag-5'>声音</b>的储存与重放?

    IC声音放大芯片怎么焊接区分啊,好小感觉四面都一样?

    想做一个简单的基于ESP32的AI语音识别助手,焊接好的声音输出一直是000。
    发表于 12-09 22:08

    AI人工智能语音识别控制模块:自定义命令词,全维度落地应用场景

    AI人工智能语音识别控制模块是一集成了语音识别、自然语言处理和智能控制功能的电子设备或系统。用户通过
    的头像 发表于 12-03 16:34 1197次阅读

    C语言和单片机C语言有什么差异

    的目标代码短、运行速度高、存储空间小、符合C语言的ANSI标准,生成的代码遵循Intel目标文件格式,而且可与A51汇编语言PL/M51语言目标代码混合使用。 4、C只是一高级
    发表于 11-14 07:55

    揭秘AI玩具“听得清”的秘密!这几款语音前端芯片撑起交互体验天花板

    电子发烧友网报道(文/黄山明)在AI大模型的加持下,AI玩具的最重要的功能便是语音交互,而要做到较好的语音交互,少不了语音前端处理芯片的加持
    的头像 发表于 10-17 08:42 1w次阅读

    轻松配置小智AI语音开发板,安信可IOT小程序功能更新

    版使用教程: 安信可AI语音开发板全面升级商用版!(附教程) 为了让开发体验更加流畅,安信可IOT小程序本次进行了多项功能升级,一起来看看吧   PART.01角色音色试听 选声音,不再“盲选”。 在
    的头像 发表于 08-19 17:46 1582次阅读
    轻松配置小智<b class='flag-5'>AI</b><b class='flag-5'>语音</b>开发板,安信可IOT小程序功能更新

    思必驰声音复刻算法获得深度合成服务算法备案

    近日,国家互联网信息办公室正式发布第十二批深度合成服务算法备案信息,思必驰声音复刻算法通过此次备案。该算法能够高精度复刻人类声音,为个性化语音服务
    的头像 发表于 07-31 17:42 1036次阅读

    AI语音控制模块能做些什么

    在智能化浪潮中,AI 语音控制模块成为众多设备实现便捷交互的关键组件。WT3000A 作为一款功能卓越的 AI 语音控制模块,在智能家居、工业物联网等领域展现出强大的应用能力。 丰富
    的头像 发表于 06-18 11:48 1173次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>语音</b>控制模块能做些什么