0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

语音AI简介

星星科技指导员 来源:NVIDIA 作者:MikikoBazeley 2022-08-15 15:44 次阅读

人工智能AI )已经将合成语音从单调的机器人呼叫和几十年前的 GPS 导航系统转变为智能手机智能扬声器中虚拟助理的优美音调。

对于组织来说,为其特定行业和领域使用定制的最新语音 AI 技术从未如此容易。

语音 AI 正被用于 power 虚拟助理 ,扩展呼叫中心, 使数字化身人性化 , 增强 AR 体验 ,并通过自动化临床记录为患者提供无摩擦的医疗体验。

根据 Gartner Research ,到 2023 年,客户将倾向于使用语音接口启动 70% 的自助式客户互动 ( 2019 年为 40% )。对个性化和自动化体验的需求只会继续增长。

在这篇文章中,我将讨论语音 AI ,它是如何工作的,语音识别技术的好处,以及语音 AI 用例的示例。

什么是语音人工智能,其好处是什么?

语音 AI 将 AI 用于基于语音的技术:自动语音识别( ASR ),也称为语音对文本和文本对语音( TTS )。例如,虚拟会议中的自动实时字幕显示,以及向虚拟助理添加基于语音的界面。

Sim i 通常,基于语言的应用程序,如聊天机器人、文本分析和数字助理,将语音 AI 与自然语言处理( NLP )一起作为大型应用程序或系统的一部分。有关更多信息,请参阅 对话 AI 词汇表 。

语音 AI 有很多好处:

High availability :语音 AI 应用程序可以在人工代理时间内外响应客户呼叫,使联络中心能够更高效地运行。

Real-time insights: 实时记录被指定为以客户为中心的业务分析的输入,如情绪分析、客户体验分析和欺诈检测

Instant scalability: 在高峰时,语音 AI 应用程序可以自动扩展,以处理客户的数万个请求。

Enhanced experiences :语音人工智能通过减少等待时间、快速解决客户查询并提供可定制语音界面的人性化交互,提高了客户满意度。

数字可访问性: 从语音到文本再到文本再到语音应用,语音 AI 工具正在帮助那些有阅读和听力障碍的人从生成的语音和书面文本中学习。

谁在使用语音 AI 以及如何使用?

今天,语音 AI 正在彻底改变世界上最大的行业,如金融、电信和统一通信即服务( UCaaS )。

深度学习、基于语音的技术起步的公司以及扩展现有基于语音的 conversational AI 平台的成熟公司都受益于语音 AI 。

以下是语音 AI 提高效率和业务成果的一些具体示例。

呼叫中心转录

全球约有 1000 万呼叫中心代理 每天接听 20 亿个电话 。呼叫中心用例包括以下所有内容:

趋势分析

法规遵从性

实时安全或欺诈分析

实时情绪分析

实时翻译

例如,自动语音识别记录客户和呼叫中心代理之间的实时对话,以进行文本分析,然后用于为代理提供 快速解决客户查询 的实时建议。

临床记录

在医疗保健领域,语音 AI 应用程序改善了患者与医疗专业人员和理赔代表的联系。 ASR automates note-taking 在患者 – 医生对话和索赔代理信息提取期间。

虚拟助理

每个行业都有虚拟助理,可以增强用户体验。 ASR 用于为虚拟助手转录音频查询。然后,文本到语音

生成虚拟助理的合成语音。除了使交易情境人性化之外,虚拟助理还帮助视力受损者与非盲文文本、语音障碍者以及儿童进行互动。

语音 AI 是如何工作的?

语音 AI 使用自动语音识别和文本到语音技术为对话应用程序提供语音接口。典型的语音人工智能管道包括数据预处理阶段、神经网络模型训练和后处理。

在本节中,我将讨论 ASR 和 TTS 管道中的这些阶段。

pYYBAGL5-ZSAIWzvAAC2jikvp4w185.png

图 3 :。对话 AI 应用的语音接口

自动语音识别

为了让机器能够听到并与人类对话,它们需要一种将声音转换为代码的通用媒介。设备或应用程序如何通过声音“看到”世界?

ASR pipeline 将包含语音的给定原始音频文件处理并转录为相应的文本,同时最小化称为 字错误率 ( WER )的度量。

WER 用于测量和比较不同类型的语音识别系统和算法的性能。它是由错误数除以正在转录的剪辑中的单词数来计算的。

ASR 管道必须完成一系列任务,包括特征提取、声学建模以及语言建模。

poYBAGL5-Z-AHxBmAADo1DelT24904.png

图 4 :。 ASR 管道

特征提取任务涉及将原始模拟音频信号转换为频谱图,频谱图是表示信号在不同频率下随时间变化的响度的视觉图表,类似于热图。转换过程的一部分涉及传统的信号预处理技术,如 standardization 和 windowing 。

然后使用 Acoustic modeling 来建模音频信号与语言中语音单位之间的关系。它将音频片段映射到最可能不同的语音单元和相应的字符。

ASR 管道中的最后一项任务涉及语言建模。 language model 添加了上下文表示并更正了声学模型的错误。换句话说,当您拥有声学模型中的字符时,您可以将这些字符转换为单词序列,这些单词可以进一步处理为短语和句子。

历史上,这一系列任务是使用生成方法执行的,该方法要求使用语言模型、发音模型和声学模型将发音转换为音频波形。然后,可以使用 高斯混合模型 或 隐马尔可夫模型 来尝试查找最可能与音频波形中的声音匹配的单词。

这种统计方法在实施和部署的时间和精力上不太准确,而且更加密集。当试图确保音频数据的每个时间步与字符的正确输出相匹配时,尤其如此。

然而,端到端的深度学习模型,如 连接主义时间分类 ( CTC )模型和 注意序列到序列模型 ,可以直接从音频信号生成转录本,并且具有较低的 WER 。

换言之, Jasper 、 QuartzNet 和 Citrinet 等基于深度学习的模型使公司能够创建成本更低、功能更强大、更精确的语音 AI 应用程序。

文本到语音

TTS 或 speech synthesis 管道负责将文本转换为自然发音的语音,这种语音是人工生成的,具有类似人类的语调和清晰的发音。

poYBAGL5-aiAX2mUAAC5B3vkGZE767.png

图 5 :。 TTS 管道

TTS 管道可能必须完成许多不同的任务,包括文本分析、 linguistic analysis 和波形生成。

在 text analysis 阶段,原始文本(带有符号、缩写等)被转换为完整的单词和句子,扩展缩写,并分析表达式。输出被传递到语言分析中,以精炼语调、持续时间,并以其他方式理解语法结构。结果,产生 spectrogram 或 mel 频谱图以转换为连续的类人音频。

我之前介绍的方法是一个典型的两步过程,需要一个合成网络和一个 vocoder 网络。这是两个独立的网络,用于从文本生成频谱图(使用 Tacotron architecture 或 FastPitch )和从频谱图或其他中间表示(如 WaveGlow 或 HiFiGAN )生成音频的后续目的。

除了两阶段方法外, TTS 管道的另一个可能实现涉及使用端到端的深度学习模型,该模型使用单个模型直接从文本生成音频。神经网络直接从文本 – 音频对中训练,不依赖中间表示。

端到端方法降低了复杂性,因为它减少了网络之间的错误传播,减少了对单独培训管道的需要,并最大限度地降低了手动注释持续时间信息的成本。

传统的 TTS 方法也倾向于产生更多机器人和不自然的声音,影响用户参与,尤其是面向消费者的应用程序和服务。

构建语音 AI 系统的挑战

成功的语音 AI 应用程序必须启用以下功能。

获取最先进的模型

从头开始创建训练有素、准确的深度学习模型既昂贵又耗时。

通过在前沿模型发布后立即提供对其的访问,即使是数据和资源受限的公司也可以在其产品和服务中使用高度精确、经过预训练的模型和 transfer learning 。

高精度

要在全球或任何行业或领域部署,必须对模型进行定制,以适应多种语言(世界上 6500 种口语的一小部分)、方言、口音和上下文。一些域使用 特定术语和技术术语 。

实时性能

由多个深度学习模型组成的管道必须以毫秒为单位运行推断,以实现实时交互,精确到 300 毫秒,因为大多数用户在 100 毫秒左右开始注意到 滞后和通信故障 ,在此之前,对话或体验开始感觉不自然。

灵活且可扩展的部署

公司需要不同的部署模式,甚至可能需要混合使用云、内部部署和边缘部署。成功的系统支持扩展到需求波动的数十万并发用户。

数据所有权和隐私

公司应该能够为其行业和领域实施适当的安全实践,例如在本地或组织的云中进行安全数据处理。例如,可能要求遵守 HIPAA 或其他法规的医疗保健公司限制数据访问和数据处理。

语音 AI 的未来

由于计算基础设施、语音 AI 算法的进步,对远程服务的需求增加,以及现有和新兴行业令人兴奋的新用例,基于语音 AI 的产品和服务现在有了一个强大的生态系统和基础设施。

当前的语音 AI 应用程序在推动业务成果方面功能强大,但下一代语音 AI 应用程序必须能够处理多语言、多领域和多用户对话。

能够成功地将语音 AI 技术集成到其核心运营中的组织将具备良好的能力,能够根据尚未列出的用例扩展其服务和产品。

关于作者

MikikoBazeley 是 Mailchimp 的高级 ML 操作和平台工程师。她拥有丰富的工程师、数据科学家和数据分析师经验,为初创公司和高增长公司利用机器学习和数据开发面向消费者和企业的产品。她积极贡献有关开发 ML 产品的最佳实践的内容,并在数据科学职业生涯中发言和指导非传统候选人。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    29611

    浏览量

    267907
  • 机器学习
    +关注

    关注

    66

    文章

    8337

    浏览量

    132257
  • 深度学习
    +关注

    关注

    73

    文章

    5456

    浏览量

    120855
收藏 人收藏

    评论

    相关推荐

    AI降噪算法通信语音模块A-59

    语音模块
    深圳德宇科技有限公司
    发布于 :2024年08月21日 14:45:06

    基于瑞萨电子Reality AI Tools工具的语音反欺骗应用示例

    探索使用瑞萨电子硬件和AI软件平台的Reality AI Tools语音反欺骗应用示例。
    的头像 发表于 08-20 15:13 379次阅读
    基于瑞萨电子Reality <b class='flag-5'>AI</b> Tools工具的<b class='flag-5'>语音</b>反欺骗应用示例

    杭州国芯微AIoT产品系列及方案列表

    产品简介GX8002是针对tws耳机、智能手表、眼镜等可穿戴设备推出的超低功耗AI语音芯片,具备体积小、功耗低、成本低等优势。芯片集成了国芯自研的第二代神经网络处理器gxNPU V200和自研的硬件
    发表于 08-16 21:14

    SoundHound AI语音助手赋能欧洲汽车,引领智能驾驶新风尚

    近日,全球领先的AI语音技术独角兽企业SoundHound AI宣布了一项重要合作成果:其集成ChatGPT技术的先进语音助手SoundHound Chat
    的头像 发表于 08-01 17:49 616次阅读

    启英泰伦CI13LC系列:打造AI语音芯片性价比之王!

    语音部分应用领域CI13XX系列:高性能AI语音芯片领航者2021年,启英泰伦推出了3代高性能AI语音芯片CI13XX系列,该系列芯片基于自
    的头像 发表于 07-12 08:15 335次阅读
    启英泰伦CI13LC系列:打造<b class='flag-5'>AI</b><b class='flag-5'>语音</b>芯片性价比之王!

    启英泰伦CI13LC系列:打造AI语音芯片性价比之王!

    。 CI13XX系列:高性能AI语音芯片领航者 2021年,启英泰伦推出了3代高性能AI语音芯片CI13XX系列,该系列芯片基于自研的BNPU(脑神经网络处理器)3.0,拥有高达240
    的头像 发表于 07-11 15:23 232次阅读
    启英泰伦CI13LC系列:打造<b class='flag-5'>AI</b><b class='flag-5'>语音</b>芯片性价比之王!

    聆思CSK6视觉语音大模型AI开发板入门资源合集(硬件资料、大模型语音/多模态交互/英语评测SDK合集)

    本帖最后由 jf_40317719 于 2024-6-18 17:39 编辑 视觉语音大模型 AI 开发套件( CSK6-MIX )是围绕 CSK6011A 芯片设计的具备丰富语音图像功能
    发表于 06-18 17:33

    语音降噪的原理

    在专业音频设备中,语音降噪是很重要的一个环节。随着AI人工智能的快速发展,各种AI人工智能降噪方法应运而生。
    的头像 发表于 06-03 17:21 1372次阅读
    <b class='flag-5'>语音</b>降噪的原理

    苹果iOS 18备忘录将搭载AI升级功能,新增语音转文字和文本摘要功能

    其中,针对语音备忘录,苹果将在该应用中加入一个较大的录音按键,据称将占据应用界面的显著位置。用户只需轻按此键即可开始录音,随后,系统内置的AI模型会将语音转换为文字。
    的头像 发表于 05-11 10:50 677次阅读

    USB AI话务语音降噪音频方案

    USB AI话务语音降噪音频方案
    的头像 发表于 04-25 18:16 476次阅读
    USB <b class='flag-5'>AI</b>话务<b class='flag-5'>语音</b>降噪音频方案

    AI语音与机器视觉开发应用系统

    一、简介 AI语音与机器视觉开发应用系统是一款集成AI语音、机器视觉、深度学习基础、嵌入式Linux于一体的高端教学科研实验平台。 整个教学
    的头像 发表于 01-26 11:24 345次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>语音</b>与机器视觉开发应用系统

    【开源项目】基于ESP32的语音识别控制AI小夜灯

    一、项目简介 使用ESP32-S3N8R8模块作为主控芯片,S3内核增加了用于加速神经网络计算和信号处理等的指令,这使得我们可以使用它来快速解析训练好的语音模型进行语音识别的功能。 二、原理解
    发表于 12-19 14:05

    在线研讨会 | 大模型时代语音 AI 模型的训练、优化与应用

    AI 大模型在语音识别、自然语言处理等领域已经取得了令人瞩目的成就。语音 AI(Speech AI)技术已经广泛应用在数字人、实时翻译、
    的头像 发表于 12-15 15:50 546次阅读
    在线研讨会 | 大模型时代<b class='flag-5'>语音</b> <b class='flag-5'>AI</b> 模型的训练、优化与应用

    语音数据集:AI语音技术的灵魂

    一、引言 在人工智能领域,语音技术被誉为“未来人机交互的入口”,而语音数据集则是AI语音技术的灵魂。本文将深入探讨语音数据集的重要性、构建方
    的头像 发表于 12-14 14:33 926次阅读

    语音数据集:推动AI语音技术的核心力量

    一、引言 随着人工智能的快速发展,语音技术作为人机交互的重要手段,正发挥着越来越重要的作用。而语音数据集则是推动AI语音技术的核心力量。本文将详细介绍
    的头像 发表于 12-12 11:32 631次阅读