上周,亚马逊在美国西雅图举行的发布会上一口气推出了十余款Alexa设备,大部分设备主要由Alexa语音平台驱动。其中部分设备将增添“耳语模式”功能,使Alexa设备用耳语来回应用户的低声说话。日前,亚马逊Alexa语音系统小组的一位专家Zeynab Raeesy在其博文中揭秘了这一功能的AI基础。
Raeesy在博文中介绍:“如果你在一个有小孩睡觉的房间,当有人走进来时,你会马上低声说话,提醒进来的人你希望房间内能保持安静,而进来的人意识到这一点之后,很可能也会压低声音讲话。”
Raeesy指出,Alexa的耳语模式令人难以理解的地方在于它是清音的,也就是说,它不涉及声带振动,往往比普通的语音在低频段具有更少的能量。她与小组的同事研究了两种能区分正常语音和耳语音的神经网络。
两种神经网络主要在结构上有所区别,一个是MLP(多层感知器),另一个是能进行时间递归的LSTM(长短期记忆)网络,这两者用来做训练的数据是一样的,这些数据包括(1)对数滤波器组能量,或者是用来记录不同频率范围信号能量的语音信号表示;(2)能区别耳语音与正常语音之间信号差异的一组特征。
在测试中,他们发现LSTM的表现结果比MLP更好,具备许多优势。Raeesy解释道,Alexa语音识别引擎的其他组件完全依赖对数滤波器组能量,并给不同的组件提供相同的输入数据,进而使整个系统更加紧凑。
Alexa耳语模式的开发并非一帆风顺,至少在最初阶段是这样的。由于Alexa是通过短时间的沉默(一种被称为“结束指向”的技术)来识别指令的结束或者进行回复,LSTM往往在话语即将结束时降低置信度。为解决这个问题,研究人员将LSTM的输出校准成整个话语的平均值,最终,降低最后1.25秒的语音数据成为维持“耳语模式”性能的关键。
美式英语的耳语模式功能将在今年11月份推出,对耳语模式具体工作原理的介绍将以论文的形式在12月份的IEEE语音技术研讨会上发表。
-
AI
+关注
关注
87文章
31892浏览量
270708
发布评论请先 登录
相关推荐
AI在可穿戴领域狂飙,混合式AI模式加速落地
![<b class='flag-5'>AI</b>在可穿戴领域狂飙,混合式<b class='flag-5'>AI</b><b class='flag-5'>模式</b>加速落地](https://file1.elecfans.com/web2/M00/DB/7A/wKgZomYrfA-Aab1YABRX_nnBCco150.png)
企业AI算力租赁模式的好处
雷诺下一代车载语音助手Reno将引入生成式AI技术
亚马逊基于人工智能的Alexa发布计划延期至明年
智能照明管理系统,打造人性化照明方案
![智能照明管理系统,打造<b class='flag-5'>人性化</b>照明方案](https://file1.elecfans.com//web1/M00/F3/68/wKgaoWcXFC6AOVmKAAU4Yiy6Ng4045.jpg)
《AI for Science:人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得
NV080D-S8 高品质otp语音芯片:让漱口水售货机更智能和人性化
![NV080D-S8 高品质otp语音芯片:让漱口水售货机更智能和<b class='flag-5'>人性化</b>](https://file.elecfans.com/web2/M00/42/BC/pYYBAGJ6JAOAWhY7AAAjPnDlpp8975.jpg)
评论