加州大学伯克利分校的研究人员已经开发出一种能够检测“无声语音”的AI模型。该模型基于数字语音预测单词并生成合成语音。肌电图(EMG)的电极位于脸部和喉咙,用于检测无声语音。
研究人员断言,该模型可以为无法发出可听语音的人们启用许多应用程序,并可以帮助AI工具和其他响应语音命令的设备进行语音检测。
该小组指出,以数字方式为无声语音发声具有广泛的应用。例如,它可以生成类似于蓝牙耳机的工具,该工具可以使个人继续通话,而不会打扰周围的人。当环境声音太大而无法捕获可听见的语音或必须保持安静时,这种设备将非常有用。
口头阅读AI是可以从静音语音中捕获单词的AI的另一个示例。它可以为监视设备供电,并支持聋人的用例。
研究人员使用了一种方法,其中将所需语句的音频输出目标从发声录音转换为无声录音。然后,使用WaveNet解码器生成音频语音预测。
通过比较发声的EMG数据和基线训练的数据,发现发声的EMG方法在从书中转录句子时,单词错误率降低了64%至4%,而基线降低了95%。研究人员开源了约20小时的面部EMG数据集,以鼓励对该领域进行进一步研究。
在其他工作中,中国的研究人员建立了讽刺检测模型,该模型在多模式Twitter数据集上提供SOTA性能。Masakhane开放源代码非洲语言翻译项目的成员已发布了 有关低资源机器翻译的 案例研究。
责任编辑:lq
-
解码器
+关注
关注
9文章
1085浏览量
40318 -
蓝牙耳机
+关注
关注
19文章
5636浏览量
57704 -
AI
+关注
关注
87文章
27602浏览量
265199
发布评论请先 登录
相关推荐
聆思CSK6视觉语音大模型AI开发板入门资源合集(硬件资料、大模型语音/多模态交互/英语评测SDK合集)
OpenAI推出专用的AI检测工具
一种可实现稳定压力传感的新型可拉伸电子皮肤
研究人员开发出一种新型太赫兹成像系统
![<b class='flag-5'>研究人员</b><b class='flag-5'>开发出</b><b class='flag-5'>一种</b>新型太赫兹成像系统](https://file1.elecfans.com/web2/M00/BE/30/wKgaomWp2T-AT8yBAAEcDJwp7yc708.jpg)
【飞腾派4G版免费试用】仙女姐姐的嵌入式实验室之五~LLaMA.cpp及3B“小模型”OpenBuddy-StableLM-3B
LabVIEW进行癌症预测模型研究
研究人员创造一种六角形心电图贴片 实现遥感与数据传输功能
研究人员设计一种新的3D喷墨打印技术
小到一个分子!研究人员开发一种微小的压电电阻器
研究人员开发出一种创新的光电化学(PEC)蚀刻技术
![<b class='flag-5'>研究人员</b><b class='flag-5'>开发出</b><b class='flag-5'>一种</b>创新的光电化学(PEC)蚀刻技术](https://file1.elecfans.com/web2/M00/A4/00/wKgaomT_zrKABrR8AAA7nx0dBUM091.png)
评论