0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

语音控制的算法和硬件功率上升

龙献益 来源:uwjfuwer 作者:uwjfuwer 2022-07-15 15:45 次阅读

语音控制和语音界面已经开始无情地渗透到几乎所有的消费边缘设备类别。语音识别算法AI 加速器硬件的进步意味着该技术甚至可以用于智能家居设备(甚至是一些愚蠢的设备)等功率和成本受限的应用程序。

从用户端来看,智能家居设备语音控制背后的驱动力是显而易见的。

PicoVoice 首席执行官 Alireza Kenarsari-Anhari 告诉 EE Times:“易用性和便利性是目前的主要驱动力。” 很容易想象当你想要一杯咖啡时,你可以从办公桌上对着家庭办公室的咖啡机大喊大叫,或者拿着一篮湿衣服向滚筒式烘干机口述订单。

我们假设像这些非便携式的智能设备可以永久访问家庭的 WiFi 连接——那么为什么不在云中进行这种语音处理呢?

在这种情况下,边缘人工智能的趋势主要是由隐私驱动的,Kenarsari-Anhari 说这是消费者的担忧,但对一些企业来说是必须的。可靠性是另一个驱动因素:“如果您的 WiFi 不工作,您的洗衣机停止工作是否有意义?” 他说。

在某些情况下,延迟也很重要;某些应用程序确实需要语音工作负载处理的实时保证,例如游戏。

成本是语音边缘处理的另一个重要驱动因素,因为在云中处理这些语音数据需要花钱。每次使用云 API 时都付费的商业模式不适用于家电和消费电子等成本低且每天可能多次使用的用例。

PicoVoice 的 AI 语音到文本推理引擎被设计为在低于 1 美元的微控制器上独立于云运行,旨在在原本不可行的应用程序中实现语音控制。这可能包括消费类可穿戴设备和可听设备,它们正处于需要基于微控制器的语音解决方案可以实现的功率效率和成本效率的交叉点。Kenarsari-Anhari 说,功率和成本优化的解决方案还可以释放工业、安全和医疗应用的机会。

公司最近推出了 Shepherd,这是一个用于在微控制器上构建语音应用程序的无代码平台,可与该公司的模型创建软件 PicoVoice Console 配合使用。Shepherd 支持 ST 和 NXP 的流行 Arm Cortex-M 微控制器,并支持正在开发的其他设备。

“我认为语音是一个界面——如果你可以在不编码的情况下构建你的 GUI 或网站,也许使用 WordPress,以类似的方式构建语音界面是下一个合乎逻辑的步骤,”Kenarsari-Anhari 说。“Shepherd 正在授权产品经理和 UX 设计师构建原型并快速迭代,但我们的目标是扩大其目标用户群。如果每个人都可以建立自己的助手会怎样?将其命名为他们想要的名称 - 而不是 Alexa!——并赋予它他们想要的个性。”

虽然开发自然语言处理模型并在没有专业软件的情况下实现它们是完全可能的,但这条路线并不适合所有人。

“当然可以——苹果、亚马逊、谷歌和微软做到了,”他说。“这真的是关于一个企业是否有资源,是否致力于围绕它建立一个组织,是否有能力等待几年。”

未来的趋势

语音正在成为下一代技术用户的首选界面,Syntiant 的首席执行官 Kurt Busch 在去年夏天接受 EE Times 采访时表示。

Busch 描述了他最小的孩子是如何使用智能手机上的语音界面与他的朋友发短信的,他可以阅读,但对于写作和拼写还太小。

“他的哥哥姐姐们发短信,但他这一代人比他们早几年有了手机,”布施说。“随着时间的流逝,对于他这一代和年轻一代来说,他们的默认界面是与它交谈。”

Busch 的观点是,语音将成为“未来的触摸屏”,设备内处理首先在具有键盘或鼠标的设备中提供快速响应的界面,然后在白色家电中提供。

Syntiant 的芯片是专门的 AI 加速器,旨在处理功耗预算低至极低的消费电子设备中的语音 AI 工作负载。迄今为止,这家初创公司已在全球出货超过 1000 万颗芯片,其中大部分已进入手机以实现始终在线的关键字检测最新的 Syntiant 芯片NDP120可以识别“OK Google”等热词,以低于 280 µW 的功率激活 Google 助手。

在未来,Busch 还看到语音控制能够为每个人实现连接和访问技术。

“我们将声音视为技术的伟大民主化者,”布希说。“世界上有 30 亿人每天靠 2 美元过活。我的假设是那些人没有互联网接入,可能没有通过教育系统。这里的自然界面是[speech]。这就是您如何将技术带入当今未与技术交互的第三个世界。我们看到发展中国家对语音优先应用程序产生了浓厚的兴趣,以获取以前可能无法访问的社会群体,不仅从费用的角度来看,而且从舒适的角度来看。”

市场分割

Knowles 的物联网高级总监 Vikram Shirastava 告诉 EE Times,一个与语音一样快速增长的市场的危险在于,它可能会迅速变得极其分散,而不仅仅是硬件产品线。

“市场变得支离破碎,比如说,使用的是什么语音识别引擎?” 希拉斯塔瓦说。“市场会变得支离破碎,这取决于您是与电视 SoC 集成还是内部是简单的 MCU,例如微波炉。您会根据操作系统或声学环境获得碎片——它只是家吗?是外面的门铃吗?不可能有一种万能的解决方案。你必须找到这些垂直领域的共同点,并尝试相应地解决语音整合问题。”

Knowles 有一个基于 DSP 的语音控制解决方案,它打算为不同的垂直行业推出版本。它的方法是将市场碎片归为具有共同点的市场——例如,家庭控制、电视条形音箱和遥控器可能属于同一组——然后开发针对该组应用进行优化的解决方案。Shirastava 将这种方法称为“比统包低一级”,它提供统包的可扩展性,但增加了一些灵活性。

“我们必须有一些不同的版本来解决这种碎片化的某个方面,以便我们能够覆盖我们想要追求的垂直领域,”他说。

Knowles 最近发布的 AISonic 蓝牙标准解决方案是一款用于蓝牙连接设备(如智能扬声器、智能家居设备、可穿戴设备和车载语音助手)的语音识别开发套件。该套件基于 Knowles 的 IA8201 双核 DSP 芯片,该芯片专为神经网络处理而设计,功耗远低于应用处理器。例如,该芯片可以在 50 mW 以下同时处理用于关键字定位、源分类、波束形成、声学回声消除 (AEC) 和源方向估计的单独 AI 模型。这是通过在 Tensilica DSP 内核上用于音频和 AI 处理的近 400 条自定义指令的指令集扩展实现的,这反过来又允许降低时钟频率以节省功耗。

语音最终会成为大多数消费类电子产品的默认用户界面吗?看起来确实是这样。先进、高效的 AI 语音控制算法、使开发人员能够轻松集成语音的开发环境以及不断增长的能源和成本效益硬件解决方案生态系统的组合已经出现,使这一切成为可能。



审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4607

    浏览量

    92833
  • 功率
    +关注

    关注

    14

    文章

    2065

    浏览量

    69857
  • 语音控制
    +关注

    关注

    5

    文章

    482

    浏览量

    28248
收藏 人收藏

    评论

    相关推荐

    【「从算法到电路—数字芯片算法的电路实现」阅读体验】+介绍基础硬件算法模块

    作为嵌入式开发者往往比较关注硬件和软件的协调。本书介绍了除法器,信号发生器,滤波器,分频器等基本算法的电路实现,虽然都是基础内容,但是也是最常用到的基本模块。 随着逆全球化趋势的出现,过去的研发
    发表于 11-21 17:05

    离线语音控制模块,让生活更懂你!

    离线语音模块方案在智能家居、医疗设备等领域的开发正日益受到重视。这种方案无需网络连接,即可实现语音指令的识别与执行,为用户提供了更加便捷、高效和安全的交互体验。离线语音控制模块支持方案
    的头像 发表于 11-02 08:07 195次阅读
    离线<b class='flag-5'>语音</b><b class='flag-5'>控制</b>模块,让生活更懂你!

    人工智能教学实验箱_国产处理器:5-29 语音识别控制实验

    芯片 CI112X 芯片具有较强的CPU运算能力,支持硬件NN加速,以及充足的RAM。能够完成一些常见的语音处理算法。主要包含了ASR(语音识别)和
    发表于 10-15 17:09

    物联网系统智能控制产品的语音识别方案_离线语音识别芯片分析

    ,避免了网络延迟或不稳定对识别速度的影响,从而保证了系统的实时响应能力。 高度稳定性和可靠性:离线语音识别芯片采用先进的硬件设计和算法,能够在各种环境下稳定运行,不受网络状况的影响,提高了系统的整体稳定性和可靠性。 2、数
    的头像 发表于 09-26 17:56 557次阅读
    物联网系统智能<b class='flag-5'>控制</b>产品的<b class='flag-5'>语音</b>识别方案_离线<b class='flag-5'>语音</b>识别芯片分析

    为什么FPGA属于硬件,还需要搞算法

    交流学习,共同进步。 交流问题(一) Q:为什么FPGA属于硬件,还需要搞算法? 刚入门准备学fpga但一开始学的是语法,感觉像是电路用软件语言描述出来,fpga不用会pcb
    发表于 09-09 16:54

    用“说”智能控制灯具开关语音识别芯片NRK3603

    用“说”智能控制灯具开关是一种基于语音识别技术的智能家居设备,它通过内置的语音识别芯片,利用离线识别算法,将用户的语音指令实现对灯具的
    的头像 发表于 09-07 09:26 352次阅读
    用“说”智能<b class='flag-5'>控制</b>灯具开关<b class='flag-5'>语音</b>识别芯片NRK3603

    离线语音控制技术特点

    离线语音控制通过结合高性能的音频前端处理算法和本地AI模型实现了高效的语音识别和控制能力,不依赖于互联网连接,同时具备灵活的应用扩展性。这种
    的头像 发表于 06-26 18:12 468次阅读
    离线<b class='flag-5'>语音</b><b class='flag-5'>控制</b>技术特点

    车载语音识别系统语音数据采集标注案例

    车载语音识别系统是指利用机器学习算法实现的一种自然语言处理技术,载语音识别系统通过辨别声音的语调、语速和音量,将所听到的语音转化成可读取的语言数字,从而达到实现车辆
    的头像 发表于 06-19 15:52 353次阅读
    车载<b class='flag-5'>语音</b>识别系统<b class='flag-5'>语音</b>数据采集标注案例

    车载语音识别系统语音数据采集标注案例

    车载语音识别系统是指利用机器学习算法实现的一种自然语言处理技术,载语音识别系统通过辨别声音的语调、语速和音量,将所听到的语音转化成可读取的语言数字,从而达到实现车辆
    的头像 发表于 06-19 15:49 501次阅读

    聆思CSK6视觉语音大模型AI开发板入门资源合集(硬件资料、大模型语音/多模态交互/英语评测SDK合集)

    *240 的触摸显示屏,屏显硬件接口为 SPI,触摸硬件接口为 I2C 。 9麦克风板载的两个麦克风,连接芯片的 Audio ADC,用于语音相关应用的录音。 10硬回采开关用于控制
    发表于 06-18 17:33

    语音控制模块_雷龙发展

      1,串口   uart串口控制模式,即异步传送收发器,通过其完成语音控制。 []()   图中,GND表示单片机系统电源的参考地,TXD是串行发送引脚,RXD是串行接收引脚。发送uart将来
    发表于 06-14 17:18

    基于ASR-PRO离线语音芯片,DIY一个可转动的语音控制的月球音响灯

    功能介绍 1、支持语音控制月球灯的底座旋转、3Wled灯片的亮灭。 2、外挂蓝牙音频模块,手机连接蓝牙即可播放音乐。 配置介绍 1、ASR-PRO离线语音模块(核心板) 2、蓝牙音频接受模块
    发表于 05-20 14:45

    MCU配对简化了语音控制接口设计

    意法半导体将其STM32微控制器(MCU)硬件和软件与Sensory的语音控制技术相结合,以简化可穿戴设备、物联网(IoT)和智能家居应用中基于语音
    的头像 发表于 05-06 16:21 2102次阅读

    AC电机控制算法是什么

    AC电机控制算法是一种用于控制交流电机运行的技术,它可以实现对电机的启动、停止、速度调节和位置控制等功能。本文将对AC电机控制
    的头像 发表于 01-11 11:21 1063次阅读
    AC电机<b class='flag-5'>控制</b><b class='flag-5'>算法</b>是什么

    科大讯飞语音控制模块怎么用

    科大讯飞语音控制模块是一种人机交互技术,它利用语音识别和语音合成技术,使用户可以通过语音指令来控制
    的头像 发表于 12-25 13:58 1811次阅读