行动端及云端的语音辨识的成长推动嵌入式语音技术-电子发烧友网

如今，语音技术领域的许多最大参与者也是手机操作系统（OS）市场的重量级人物。微软是第一个建立语音团队的软件/移动操作系统巨头。在1990年代早期，比尔·盖茨（Bill Gates）宣扬语音用户界面（VUI）的好处，并预测它们将在计算机上的人类界面中发挥作用。谷歌在21世纪初通过建立一支由语音技术专家组成的精英团队而变得咄咄逼人，并通过其Android版本刺激了移动行业向语音界面和语音控制的方向发展。苹果一直是用户体验之王，直到最近，由于准确性方面的挑战，苹果才避免推动语音技术。然而，随着Siri（一种语音礼宾服务）的收购以及该公司的技术融入iPhone 4S，苹果可能会通过语音迎来新一代的自然语言用户体验。

由于各种原因，语音技术对移动行业至关重要，主要是因为它比打字更容易说话，而且因为手机的外形尺寸是围绕说话而不是打字而构建的。此外，随着移动搜索的巨大收入潜力，移动操作系统提供商看到了在其技术组合中添加语音识别的价值。

为什么要嵌入？

VUI 的大部分繁重工作都是在云中完成的。这就是大型操作系统参与者的大部分投资去向的地方。云提供了一个具有几乎无限的MIPS和内存的环境 - 这是高级语音搜索处理的两个基本要素。随着基于云的语音技术使用的增长，嵌入式领域似乎也出现了类似的趋势。

嵌入式语音是在无法访问云时启用语音控制和输入的唯一解决方案，这是增加用户体验的必要功能。嵌入式语音还具有消耗更少MIPS和内存的能力，从而提高了设备电池电量的效率。

客户端/云语音使用的最佳方案需要在客户端上激活语音，并在云上繁重地破译文本和含义。这可以实现设备始终打开并始终侦听的方案，因此可以给出并执行语音命令，而无需按客户端上的按钮。这种“无需手或眼睛”的范例在汽车中特别有用，出于安全目的和在家中的便利性。

例如，在最近推出的Galaxy SII Android手机中，三星的语音通话利用Sension的TrueHandsfree语音控制（一种嵌入式语音技术）来激活带有“嘿银河”字样的手机。这个短语调用了Vlingo基于云的识别服务，该服务允许用户在不触摸手机的情况下发出命令和输入文本。

语音识别可以在具有低至10 MIPS和数万字节内存的设备上实现。Sensory的语音芯片系列包括基于8位微控制器的RISC单芯片和利用小型嵌入式DSP的自然语言处理器。通常，在语音识别中投入的MIPS和内存越多，产品可以具有的功能就越多（更快的响应时间，更大的词汇量和更复杂的语法）。

无论哪个平台执行任务，语音识别的一般方法都是相似的。多年来，隐马尔可夫建模和神经网络等统计方法一直是语音识别的主要方法。从客户端迁移到云允许部署统计语言建模和更复杂的技术。

维伊关卡

要创建真正免提、免眼的用户体验，必须解决几个技术阶段。

第 1 阶段：语音激活

这实质上是取代按钮按下。识别器需要始终处于打开状态，准备好将阶段 2 调用到运行状态，并且能够在非常嘈杂的情况下激活。第一阶段的另一个关键标准是非常快的响应时间。鉴于超过几百毫秒的延迟可能会产生由用户在识别器侦听之前与阶段 2 交谈而导致的准确性问题，因此语音激活的响应时间必须与按钮的响应时间相同，这几乎是瞬时的。简单的命令和控制功能可以通过 Stage 1 识别系统或更复杂的 Stage 2 系统嵌入到客户端中，该系统可以嵌入或基于云的。

第 2 阶段：语音识别和转录

更耗电且功能更强大的 Stage 2 识别器可将所讲的内容转换为文本。如果目的是短信或语音拨号，则该过程可以在此处停止。如果用户希望回答问题或访问数据，系统将进入第 3 阶段。由于 Stage 1 识别器可以响应高噪声，因此它可以降低汽车收音机或家用 AV 中的音量，以协助阶段 2 识别。

第 3 阶段：意图和意义

这可能是这一过程中最大的挑战。文本翻译准确，但它是什么意思？例如，互联网搜索所需的查询是什么？今天的“智能”可能会尝试修改搜索，以更好地满足用户的需求。然而，计算机在弄清楚意图方面非常糟糕。苹果的Siri智能助手是在国防部资助的CALO项目下开发的，该项目涉及300多名研究人员，可能是当今智能诠释的最佳典范。

第 4 阶段：数据搜索和查询

根据查询的不同，搜索数据并找到正确的结果可能很简单，也可能很复杂。映射数据和方向可能是可靠的，因为语法很容易理解，并具有地图搜索的明确目标。随着谷歌和其他搜索提供商在数据搜索功能上投入大量资金和时间，这一阶段将继续改善。

第 5 阶段：语音响应

对查询的语音响应是显示响应的一个很好的替代方法，这可能会导致驾驶员将视线从道路上移开或给家中带来不便。当今最先进的文本到语音转换系统具有高度的可理解性，并且已经发展到比以前的自动语音系统听起来更自然。

为什么嵌入式识别器在第 1 阶段替换按钮需要这么长时间？

语音识别传统上需要按钮激活而不是语音激活。其主要原因是按钮虽然分散了注意力，但即使在嘈杂的环境中也是可靠且响应迅速的。这些类型的环境（如汽车或繁忙的家庭）对语音识别器来说可能具有挑战性。声控词必须在汽车（车窗关闭、收音机打开和道路噪音）或家中（婴儿哭泣、音乐或电视打开以及电器运行）中创建响应，而无需用户为其工作。因此，直到最近，只有当用户处于安静的环境中，麦克风靠近嘴巴时，语音技术才是可靠的。

快速响应时间的要求使这一挑战进一步复杂化。语音识别器通常需要数百毫秒才能确定用户在开始处理语音之前是否完成了通话。这种时间延迟可能是可以接受的，从识别系统产生答案或回复给消费者。但是，在第 1 阶段，激活的响应是在阶段 2 中调用另一个更复杂的识别器，并且使用者不会接受持续时间远远超过按下按钮所花费的时间的延迟。延迟时间越长，阶段 2 发生识别失败的可能性就越大，因为用户可能会在阶段 2 识别器准备好收听之前开始说话。

嵌入式语音技术的最新进展，如Sensory的真无握语音接口，无需触摸设备即可提供真正的VUI。这些技术消除了嘈杂环境中固有的问题以及较长的响应时间，使语音激活可行，准确且更方便。

消费电子产品中语音的未来

许多年前，电视观众不得不站起来走到他们的单位来改变频道。遥控器的到来结束了这一切，今天没有人会买没有遥控器的电视。尽管如此，我们仍然站起来，走到我们的大多数计算设备使用它们。随着语音识别的改进，这将不再是必需的。

带有语音触发器的免提设备的快速使用将发展成为智能设备，这些设备可以倾听我们所说的内容，并决定何时适合从客户端转到云端。他们还将决定何时以及如何回应，可能会演变成坐在后台倾听一切并决定何时提供帮助的助手。

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

嵌入式

嵌入式

+关注

关注
5086

文章
19142

浏览量
306041
Android

Android

+关注

关注
12

文章
3938

浏览量
127529
计算机

计算机

+关注

关注
19

文章
7513

浏览量
88174

【「嵌入式系统设计与实现」阅读体验】+ 基于语音识别的智能杯垫

语音命令Q 识别，适用于智能家居控制、玩具、人机交互等多个领域。该模块以其高识别率、低功耗和易于集成的特点受到广大开发者的青睐。主要技术及功能有：磁力搅拌、重量采集、语音识别、IPS显示屏

发表于 01-02 18:15

阶跃星辰发布国内首个千亿参数端到端语音大模型

近日，阶跃星辰在官方公众号上宣布了一项重大突破——推出Step-1o千亿参数端到端语音大模型。该模型被誉为“国内首个千亿参数端到端

发表于 12-17 13:43 •229次阅读

语音识别技术的应用与发展

语音识别技术的发展可以追溯到20世纪50年代，但直到近年来，随着计算能力的提升和机器学习技术的进步，这项技术才真正成熟并广泛应用于各个领域。语音

发表于 11-26 09:20 •539次阅读

ASR语音识别技术应用

ASR（Automatic Speech Recognition）语音识别技术，是计算机科学与人工智能领域的重要突破，能将人类语音转换为文本，广泛应用于智能家居、医疗、交通等多个领域。以下是对ASR

发表于 11-18 15:12 •791次阅读

嵌入式系统的未来趋势有哪些?

智能家居领域，嵌入式系统可以集成语音识别和自然语言处理技术，去实现智能家电的语音控制。 2. 更强大的处理能力在未来的嵌入式系统将具备更加

发表于 09-12 15:42

飞凌嵌入式技术创新日（深圳站）精彩回顾

对嵌入式技术发展的深刻理解和对技术创新的不懈追求。未来，飞凌嵌入式将继续携手合作伙伴，以开放的心态和创新的精神，共同推动

发表于 08-28 09:06

循环神经网络在端到端语音识别中的应用

语音识别技术作为人工智能领域的关键应用之一，已经深刻地改变了人们的日常生活和工作方式。从智能手机中的语音助手到智能家居系统的语音控制，语音识

发表于 07-08 11:09 •601次阅读

嵌入式系统怎么学?

系统设计与调试：需要掌握嵌入式系统的设计方法和调试技术，包括硬件设计、软件设计、电路调试等，以确保系统的稳定性和可靠性。随着技术的不断进步和应用场景的不断拓展，嵌入式系统将继续发挥

发表于 07-02 10:10

嵌入式软件工程师如何提升自己？

相关的实验室项目或参加开源项目以积累宝贵的项目经验。 4.不断学习与成长 嵌入式软件领域的技术更新速度非常快，因此，作为一名嵌入式软件工程师，需要不断学习与

发表于 06-12 11:20

嵌入式会越来越卷吗?

更加智能和高效的嵌入式系统。这种技术的进步可能会不断推动嵌入式系统的发展，并赋予其更多能力和应用场景。此外，“卷”也可能暗示着嵌入式系统与

发表于 03-18 16:41

嵌入式fpga是什么意思

嵌入式FPGA是指将FPGA技术集成到嵌入式系统中的一种解决方案。嵌入式系统是一种为特定应用而设计的计算机系统，它通常包括处理器、内存、外设接口等组件，并且被

发表于 03-15 14:29 •1285次阅读

AI加速智能家居分布式语音技术发展

电子发烧友网报道（文/黄山明）生成式AI的出现，让人与机器的交流将变得更加自然，也在不断推动分布式语音入口在智能家居中的智能化水平升级，让家庭自动化和人机交互变得更加自然、便捷和高效，

发表于 02-01 00:16 •5832次阅读

AI语音与机器视觉开发应用系统

一、简介 AI语音与机器视觉开发应用系统是一款集成AI语音、机器视觉、深度学习基础、嵌入式Linux于一体的高端教学科研实验平台。整个教学平台由实验箱高性能嵌入式主板够成，高性能

发表于 01-26 11:24 •421次阅读

恩智浦发布新一代智能语音技术组合的语音识别引擎

恩智浦发布新一代智能语音技术组合的语音识别引擎。本文将探讨开发人员在嵌入式语音控制设计中面临的挑战、恩智浦新的Speech to Inten

发表于 01-26 09:15 •780次阅读

语音数据集在智能语音助手中的应用与挑战

一、引言随着人工智能技术的不断发展，智能语音助手已经成为了人们日常生活中不可或缺的一部分。语音数据集在智能语音助手中发挥着重要作用，为系统提供了丰富的

发表于 01-18 15:46 •413次阅读

搜索历史

行动端及云端的语音辨识的成长推动嵌入式语音技术

评论

【「嵌入式系统设计与实现」阅读体验】+ 基于语音识别的智能杯垫

阶跃星辰发布国内首个千亿参数端到端语音大模型

语音识别技术的应用与发展

ASR语音识别技术应用

嵌入式系统的未来趋势有哪些?

飞凌嵌入式技术创新日（深圳站）精彩回顾

循环神经网络在端到端语音识别中的应用

嵌入式系统怎么学?

嵌入式软件工程师如何提升自己？

嵌入式会越来越卷吗?

嵌入式fpga是什么意思

AI加速智能家居分布式语音技术发展

AI语音与机器视觉开发应用系统

恩智浦发布新一代智能语音技术组合的语音识别引擎

语音数据集在智能语音助手中的应用与挑战