基于云的语音识别增长推动嵌入式语音技术-电子发烧友网

当今语音技术领域的许多最大玩家也是手机操作系统（OS）市场的重量级人物。微软是第一个组建语音团队的软件/移动操作系统巨头。在 1990 年代初期，比尔·盖茨宣扬了语音用户界面（VUI）的好处，并预测它们将在计算机上的人机交互中发挥作用。谷歌在 21 世纪初建立了一支由语音技术专家组成的精英团队，并通过其 Android 版本刺激了移动行业向语音界面和语音控制方向发展。苹果一直是用户体验的王者，直到最近，由于准确性方面的挑战，苹果一直避免推动语音技术。然而，随着收购 Siri（语音礼宾服务）并将该公司的技术整合到 iPhone 4S 中，

由于多种原因，语音技术对移动行业变得至关重要，主要是因为说话比打字更容易，而且手机的外形设计是围绕说话而不是打字而构建的。此外，由于移动搜索的巨大收入潜力，移动操作系统提供商看到了将语音识别添加到他们的技术组合中的价值。

为什么是嵌入式？

VUI 的大部分繁重工作都是在云中执行的。这就是大型操作系统厂商的大部分投资都花在了那里。云提供了一个具有几乎无限 MIPS 和内存的环境——这是高级语音搜索处理的两个基本要素。随着基于云的语音技术使用的增长，嵌入式领域似乎也出现了类似的趋势。

嵌入式语音是唯一能够在无法访问云时启用语音控制和输入的解决方案——这是增加用户体验的必要功能。嵌入式语音还能够消耗更少的 MIPS 和内存，从而提高设备电池电量的效率。

客户端/云语音使用的最佳方案需要在客户端上进行语音激活，并在云上解密文本和含义的繁重工作。这可以实现设备始终开启并始终收听的场景，因此无需按下客户端上的按钮即可发出和执行语音命令。这种“不需要手或眼睛”的范例在汽车中为了安全目的而在家里为了方便起见特别有用。

例如，在最近推出的 Galaxy SII Android 手机中，三星的 Voice Talk 使用 Sensory 的 TrulyHandsfree 语音控制，一种嵌入式语音技术，通过“Hey Galaxy”来激活手机。这句话调用了基于云的 Vlingo 识别服务，该服务允许用户在不接触手机的情况下发出命令和输入文本。

语音识别可以在低至 10 MIPS 和数万字节内存的设备上实现。Sensory 的语音芯片系列包括基于 8 位微控制器的 RISC 单芯片和利用小型嵌入式 DSP 的自然语言处理器。一般来说，在语音识别中投入的 MIPS 和内存越多，产品的功能（响应时间越快、词汇量越大、语法越复杂）就越多。

无论什么平台实现任务，语音识别的一般方法都是相似的。多年来，隐马尔可夫建模和神经网络等统计方法一直是语音识别的主要方法。从客户端迁移到云端允许部署统计语言建模和更复杂的技术。

VUI 阶段

要创建真正免提、免眼的用户体验，必须解决几个技术阶段。

第 1 阶段：语音激活

这实质上是在替换按钮按下。识别器需要始终处于开启状态，准备好调用第 2 阶段投入运行，并且能够在非常嘈杂的情况下激活。第一阶段的另一个关键标准是非常快的响应时间。鉴于超过几百毫秒的延迟可能会导致用户在识别器收听之前对阶段 2 说话而导致准确性问题，因此语音激活的响应时间必须与按钮的响应时间相同，这几乎是瞬时的。简单的命令和控制功能可以通过 Stage 1 识别系统或更复杂的 Stage 2 系统嵌入客户端，该系统可以是嵌入式的或基于云的。

第 2 阶段：语音识别和转录

更耗电且功能更强大的 Stage 2 识别器将所说的内容翻译成文本。如果目的是短信或语音拨号，则该过程可以在这里停止。如果用户想要回答问题或访问数据，系统将进入第 3 阶段。由于第 1 阶段识别器可以在高噪声下做出响应，它可以降低汽车收音机或家庭 AV 的音量以协助第 2 阶段识别。

第三阶段：意图和意义

这可能是这个过程中最大的挑战。文本翻译准确，但它是什么意思？例如，互联网搜索所需的查询是什么？今天的“智能”可能会尝试修改搜索以更好地适应它认为用户想要的内容。然而，计算机在识别意图方面非常糟糕。Apple 的 Siri 智能助手是在国防部资助的 CALO 项目下开发的，涉及 300 多名研究人员，它可能是当今智能解释的最佳示例。

第四阶段：数据搜索和查询

根据查询的不同，搜索数据并找到正确的结果可能很简单，也可能很复杂。地图数据和方向可能是可靠的，因为语法很好理解，地图搜索的目标很明确。随着谷歌和其他搜索提供商在数据搜索功能上投入大量资金和时间，这一阶段将继续改善。

第 5 阶段：语音响应

对查询的语音响应是显示响应的一个很好的替代方案，这可能会导致驾驶员将视线从道路上移开或在家中造成不便。当今最先进的文本到语音系统具有高度可理解性，并且比以前的自动语音系统听起来更自然。

为什么嵌入式识别器在第 1 阶段替换按钮需要这么长时间？

语音识别传统上需要按钮激活而不是语音激活。造成这种情况的主要原因是按钮虽然让人分心，但即使在嘈杂的环境中也是可靠且反应灵敏的。这些类型的环境，例如汽车或繁忙的家，对于语音识别器来说可能具有挑战性。一个声控词必须在汽车（车窗关闭、收音机打开和道路噪音）或家中（婴儿哭泣、音乐或电视打开、电器运行）中产生响应，而无需用户为它工作。因此，直到最近，语音技术只有在用户处于安静环境中且麦克风靠近嘴巴时才可靠。

对快速响应时间的要求使这一挑战进一步复杂化。语音识别器通常需要数百毫秒才能确定用户是否在开始处理语音之前完成了谈话。识别系统可以接受这个时间延迟以产生答案或回复给消费者。然而，在第 1 阶段，激活的响应在第 2 阶段调用另一个更复杂的识别器，消费者不会接受持续时间比按下按钮时间长得多的延迟。延迟越长，在第 2 阶段发生识别失败的可能性就越大，因为用户可能在第 2 阶段识别器准备好收听之前开始说话。

嵌入式语音技术的最新进展，例如 Sensory 的 TrulyHandsfree 语音界面，无需触摸设备即可提供真正的 VUI。这些技术消除了嘈杂环境中固有的问题以及较长的响应时间，使语音激活变得可行、准确和方便。

消费电子产品中语音的未来

许多年前，电视观众不得不起身走到他们的单位更换频道。遥控器的到来让这一切都结束了，今天没有人会买没有遥控器的电视。尽管如此，我们仍然起身走到我们的大多数计算设备前使用它们。随着语音识别的改进，这将不再是必要的。

带有语音触发功能的免提设备的迅速兴起将发展成为智能设备，这些设备可以聆听我们所说的话并决定何时适合从客户端转到云端。他们还将决定何时以及如何做出回应，有可能演变成坐在后台倾听一切并决定何时提供帮助的助手。

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

dsp

dsp

+关注

关注
553

文章
8027

浏览量
349249
嵌入式

嵌入式

+关注

关注
5086

文章
19142

浏览量
305987
Android

Android

+关注

关注
12

文章
3938

浏览量
127525

【「嵌入式系统设计与实现」阅读体验】+ 基于语音识别的智能杯垫

语音命令Q 识别，适用于智能家居控制、玩具、人机交互等多个领域。该模块以其高识别率、低功耗和易于集成的特点受到广大开发者的青睐。主要技术及功能有：磁力搅拌、重量采集、

发表于 01-02 18:15

离线语音识别技术引领智能语音灯具市场——NRK3502

智能语音灯具集高科技与人性化设计，内置NRK3502离线语音识别芯片，支持远场识别与自定义指令，提供便捷智能体验，推动智能家居行业发展。

发表于 12-30 15:04 •118次阅读

离线<b class='flag-5'>语音</b><b class='flag-5'>识别</b><b class='flag-5'>技术</b>引领智能<b class='flag-5'>语音</b>灯具市场——NRK3502

语音识别技术在医疗领域的应用

语音识别技术在医疗领域的应用已经越来越广泛，为医疗服务带来了诸多便利和效率提升。以下是对语音识别技术

发表于 11-26 09:35 •388次阅读

语音识别与自然语言处理的关系

在人工智能的快速发展中，语音识别和自然语言处理（NLP）成为了两个重要的技术支柱。语音识别技术使

发表于 11-26 09:21 •440次阅读

语音识别技术的应用与发展

语音识别技术的发展可以追溯到20世纪50年代，但直到近年来，随着计算能力的提升和机器学习技术的进步，这项技术才真正成熟并广泛应用于各个领域。

发表于 11-26 09:20 •534次阅读

ASR与传统语音识别的区别

ASR（Automatic Speech Recognition，自动语音识别）与传统语音识别在多个方面存在显著的区别。以下是对这两者的对比：一、

发表于 11-18 15:22 •515次阅读

ASR语音识别技术应用

ASR（Automatic Speech Recognition）语音识别技术，是计算机科学与人工智能领域的重要突破，能将人类语音转换为文本，广泛应用于智能家居、医疗、交通等多个领域。

发表于 11-18 15:12 •785次阅读

WTK6900FC语音识别模块

语音识别

WT-深圳唯创知音电子有限公司
发布于 :2024年09月25日 17:35:07

唯创知音WT2605C用在离在线语音识别方案# #语音芯片 #语音识别 #唯创知音

语音识别

WT-深圳唯创知音电子有限公司
发布于 :2024年09月12日 17:24:28

嵌入式系统的未来趋势有哪些?

智能家居领域，嵌入式系统可以集成语音识别和自然语言处理技术，去实现智能家电的语音控制。 2. 更强大的处理能力在未来的

发表于 09-12 15:42

智能消毒柜语音识别芯片推动智能家居技术发展

智能消毒柜语音识别芯片，作为现代智能家居技术的重要一环，其背后蕴含着丰富的技术背景与广泛的功能应用。这款芯片，如同一个敏锐的听觉器官，时刻准备捕捉并理解用户的

发表于 05-29 13:28 •378次阅读

语音识别的技术历程及工作原理

语音识别的本质是一种基于语音特征参数的模式识别，即通过学习，系统能够把输入的语音按一定模式进行分类，进而依据判定准则找出最佳匹配结果。

发表于 03-22 16:58 •3326次阅读

车内语音识别技术在智能驾驶中的应用与前景

一、引言随着智能驾驶技术的快速发展，车内语音识别技术逐渐成为智能驾驶领域的研究热点。语音识别

发表于 02-19 11:46 •841次阅读

语音数据集：智能驾驶中车内语音识别技术的基石

一、引言在智能驾驶中，车内语音识别技术发挥着越来越重要的作用。语音数据集作为这一技术的基石，其质量和规模对

发表于 01-31 16:07 •568次阅读

恩智浦发布新一代智能语音技术组合的语音识别引擎

恩智浦发布新一代智能语音技术组合的语音识别引擎。本文将探讨开发人员在嵌入式语音控制设计中面临的挑

发表于 01-26 09:15 •778次阅读

搜索历史

基于云的语音识别增长推动嵌入式语音技术

评论

【「嵌入式系统设计与实现」阅读体验】+ 基于语音识别的智能杯垫

离线语音识别技术引领智能语音灯具市场——NRK3502

语音识别技术在医疗领域的应用

语音识别与自然语言处理的关系

语音识别技术的应用与发展

ASR与传统语音识别的区别

ASR语音识别技术应用

WTK6900FC语音识别模块

唯创知音WT2605C用在离在线语音识别方案# #语音芯片 #语音识别 #唯创知音

嵌入式系统的未来趋势有哪些?

智能消毒柜语音识别芯片推动智能家居技术发展

语音识别的技术历程及工作原理

车内语音识别技术在智能驾驶中的应用与前景

语音数据集：智能驾驶中车内语音识别技术的基石

恩智浦发布新一代智能语音技术组合的语音识别引擎