使用ESP32制作您自己的Alexa-电子发烧友网

人机界面技术 (HMI) 在过去 10 到 15 年取得了长足的进步：直到 2000 年代初，嵌入式设备（最早的手持电话，然后被智能手机取代）上的彩色屏幕和触摸屏绝对不是那么-负担得起的加。随着处理性能的提高、成本的降低以及新的通信技术的出现，能够将用户想要的内容转换为命令的设备已经出现。

直到几年前，能够连接到云并允许通过使用语音命令（如亚马逊的 Alexa）远程控制物联网设备的设备都是纯粹的科幻小说。迄今为止，智能传感器和智能音频设备使您可以轻松地为您的语音控制个人助理创建硬件。

本文将指导您选择最佳组件来设计您独特的“Alexa”版本

语音助手：系统概览

数字语音辅助系统是一种能够执行以下步骤的电子设备：

捕捉语音信息
将语音消息转换为音频流
通过复杂的算法处理音频流，将其解释为一个独特的命令
将命令与动作相关联
播放音频反馈消息

这一切的背后，是一整套的软硬件技术。

图 1 显示了语音助手的框图。

图1：语音助手框图（来源：作者）

与任何其他通信通道一样，该通道也涉及源信号、采集和转换系统、编码系统、处理系统、解码系统和输出信号发射系统。

在语音辅助系统的情况下，源信号是语音信息，它是通过我们的声带调制并作为振动在空气（通信方式）中传播的机械波。振动由充当信号传感器的麦克风获取。然后，对信号进行调节和编码以进行处理。此时，编码的音频流可以在本地（通过微控制器或微处理器）进行操作，也可以通过语音识别算法和云端 AI 以更有效的方式远程发送以进行处理。因此，处理输出将是提供给致动系统的命令。

至于音频反馈，路径类似但相反：将流解码并发送到放大器，放大器将通过扬声器再现音频。

系统组件

从头开始设计语音辅助系统是一项复杂的任务。直到几十年前，只有拥有出色音频设计技能的工程师团队才可行。如今，我们很幸运能够利用一系列硬件和软件组件，这无疑使任务变得更简单。

该项目最关键的部分之一是音频采集和再现部分，这需要应用领域的出色知识以及模拟电子技能。为了简化任务，我们可以使用数字传感器，它集成了必要的模拟组件并传输已经数字编码的数据。

至于输入部分，我们可以使用全向麦克风INMP441，它采用MEMS技术（Micro Electro-Mechanical Systems）进行转换，实现了I2S数字接口进行数据交换。这样就避免了有关信号调节的问题，并且与处理单元的接口不受噪声影响。此外，要处理的信号已经是数字格式。

至于音频输出级，我们可以使用 MAX98357A，它是一个 2 通道 3W D 类放大器，也配备了一个 I2S 接口。与输入级类似，硬件设计极为简化：放大器通过 I2S 接口在输入端接收数字信号，解码音频样本并将其再现为芯片 L 和 R 端的电压，只需简单连接给扬声器。

此时，您需要选择的最后一个设备是微控制器，它必须能够处理（或发送到云端）来自麦克风的音频流，并发送音频流以供放大器再现。最适合这个用途的 MCU 当然是乐鑫的ESP32模块（最好是 WROVER 模块，配备 8MB 的 RAM，以及高达 16MB 的闪存）。由于其高连接性（BLE 和 WiFi）和高性能以及极低的价格，该模块是智能家居应用的正确选择。它还具有两个独立的 I2S 接口，非常适合该项目的目的。

图 2 显示了该项目中使用的三个主要组件。