电子发烧友网报道(文/黄山明)多种交互方式已经成为当下智能家居的一大特点,许多产品已经不再需要手动调整和控制,更常用的是语音唤醒及操控,这也是最符合人类所习惯的交互方式。有研究表明,人类大脑皮层每天处理的信息中心,声音信息占20%,是沟通最重要的纽带。
但想要让机器理解人声,就需要在前端把声音信号进行处理,转化为文字或代码的形式供机器理解,在机器生成语言之后,再用语言合成技术将这些信息转化为声波,从而使用人声来进行回应。
语音系统的发展
语音技术的发明最早可以追溯到半个世纪之前,1952年,贝尔实验室制作了一台高6英尺的自动数字识别机“Audrey”,能够识别数字0-9的发音,准确率达到90%以上。
不过这一系统主要基于简单的模板匹配方法识别个体说出的孤立数字,也导致作为模板的熟人说出的语音识别会更精准,而陌生人识别率会低一些。在此之后,连续语音识别系统开始出现,语音合成的参数合成法能够生成比较自然的语音。
到二十世纪八十年代中期,IBM创造了一台可以用语音控制的打字机“Tangora”,基于隐形马尔科夫链模型(HMM),在信号处理技术中加入了统计信息,可以让机器在听到第一个音节时,便能够预测单词。到了1984年,这一系统在5000个词汇量级上达到了95%的识别率。
时间来到2011年,微软研究院将DNN技术应用在大词汇量连续语音识别任务上,极大地降低了语音识别错误率。
2016年,微软团队已经将语音识别的词错率(WER)降低至了5.9%,这一数据已经相当于专业速录员速记同样一段话的水平。这标志着机器的语音识别准确率第一次达到人类水平,智能语音语言技术开始逐步落地。
到了这一阶段,端到端的语音识别开始被广泛应用,智能语音助手、智能音箱等多款应用智能语音识别的产品相继落地。发展到近期,语音识别的准确率进一步提升,且针对远场的语音识别和唤醒得到进一步发展,全双工语音交互开始出现。语音识别准确率已经达到98%以上,并且能根据实际应用痛点针对性强化。
从2011年第一款手机语音助手Siri伴随着iPhone 4S的亮相,让全球各大厂商纷纷入局,也标志着正式开启智能语音应用元年,到2017年下半年开始通过开放语音生态系统进行产业内合作,语音识别系统也开始向可穿戴、智能家居、车载等领域延伸。
据ReportLinker的预测:到2024年全球智能语音市场规模将达到215亿美元,其中智慧医疗健康、智慧金融以及各类智能终端智能语音技术需求将成为主要的驱动因素。目前国内主要智能语音服务商如百度、科大讯飞、思必驰、乐言科技、声扬科技、竹间智能等。
智能家居语音系统
从整个智能家居语音系统来看,主要构成为语音采集模块、语音前级处理模块、语音训练模块、语音识别模块、语音提示模块和输出控制模块等。
语音采集模块主要起到完成信号调理和信号采集的功能,通过将语音信号转换为语音脉冲序列,模块中主要包括声音与电信号的转换、信号调理和采样等信号处理过程。
其中采样位数与采样率对音频接口而言是最重要的两个指标,也是选择声音模块的重要标准。每增加一个采样位数相当于力度范围增加了6dB,采样位数越多则捕捉到的信号越精准。
而采样频率是指计算机每秒钟采集多少个声音样本,是描述声音文件的音质、音调,衡量声卡、声音文件的质量标准。采样率越高,计算机摄取的图片越多,对于原始音频的还原也越加精确。
语音前级处理模块主要用于滤除干扰信号、提取语音特征矢量,并将提取的语音特征矢量量化为标准语音特征矢量。
而语音训练模块主要功能是将多次采集、提取到的语音特征标准矢量进行概率统计,避免语音受到人自身情绪、环境等因素引起的干扰。简而言之,这一模块是帮助进行语音校准,减少误差。
语音识别模块,顾名思义,主要通过将新采集到的语音特征矢量与语音模板库中的语音模型进行比较,然后再判断当前语音命令功能。而语音模板库中,主要存储训练后的最佳标准语音特征矢量。
其他如语音提示模块的主要功能为提示用户进行相关操作的进度,以及前往完成的情况;而输出控制模块便是针对智能语音识别的结果来输出相应的控制信号,比如开关、音量调节、温度大小等。
通过这些模块的加入,便能够让语音识别人机交互成为现实。并依照这个框架,语音识别技术已经开始有了长远的发展。
在近几年的研究中,端到端的语音识别仍然是ASR( Automatic Speech Recognition)研究的热点,同时基于Attention机制的识别系统已经成为语音技术研究的主流。此外,远场语音识别、模型结构、模型训练、跨语种或者多语种语音识别都成为了研究的热门选项。
小结
到今年,语音识别技术已经发展了71年,从最初只能识别特定单词,到慢慢实现理解人的语音、语义,并参与到智能家居等落地应用中来,为人们实现更好的生活体验。相比智能视觉只是针对人脸这一个变量而言,智能语音技术需要解决的是更复杂的语义、繁杂的环境、精准关键词的检测等来提升输入效率,而这些都需要时间来完成。
但想要让机器理解人声,就需要在前端把声音信号进行处理,转化为文字或代码的形式供机器理解,在机器生成语言之后,再用语言合成技术将这些信息转化为声波,从而使用人声来进行回应。
语音系统的发展
语音技术的发明最早可以追溯到半个世纪之前,1952年,贝尔实验室制作了一台高6英尺的自动数字识别机“Audrey”,能够识别数字0-9的发音,准确率达到90%以上。
不过这一系统主要基于简单的模板匹配方法识别个体说出的孤立数字,也导致作为模板的熟人说出的语音识别会更精准,而陌生人识别率会低一些。在此之后,连续语音识别系统开始出现,语音合成的参数合成法能够生成比较自然的语音。
到二十世纪八十年代中期,IBM创造了一台可以用语音控制的打字机“Tangora”,基于隐形马尔科夫链模型(HMM),在信号处理技术中加入了统计信息,可以让机器在听到第一个音节时,便能够预测单词。到了1984年,这一系统在5000个词汇量级上达到了95%的识别率。
时间来到2011年,微软研究院将DNN技术应用在大词汇量连续语音识别任务上,极大地降低了语音识别错误率。
2016年,微软团队已经将语音识别的词错率(WER)降低至了5.9%,这一数据已经相当于专业速录员速记同样一段话的水平。这标志着机器的语音识别准确率第一次达到人类水平,智能语音语言技术开始逐步落地。
到了这一阶段,端到端的语音识别开始被广泛应用,智能语音助手、智能音箱等多款应用智能语音识别的产品相继落地。发展到近期,语音识别的准确率进一步提升,且针对远场的语音识别和唤醒得到进一步发展,全双工语音交互开始出现。语音识别准确率已经达到98%以上,并且能根据实际应用痛点针对性强化。
从2011年第一款手机语音助手Siri伴随着iPhone 4S的亮相,让全球各大厂商纷纷入局,也标志着正式开启智能语音应用元年,到2017年下半年开始通过开放语音生态系统进行产业内合作,语音识别系统也开始向可穿戴、智能家居、车载等领域延伸。
据ReportLinker的预测:到2024年全球智能语音市场规模将达到215亿美元,其中智慧医疗健康、智慧金融以及各类智能终端智能语音技术需求将成为主要的驱动因素。目前国内主要智能语音服务商如百度、科大讯飞、思必驰、乐言科技、声扬科技、竹间智能等。
智能家居语音系统
从整个智能家居语音系统来看,主要构成为语音采集模块、语音前级处理模块、语音训练模块、语音识别模块、语音提示模块和输出控制模块等。
语音采集模块主要起到完成信号调理和信号采集的功能,通过将语音信号转换为语音脉冲序列,模块中主要包括声音与电信号的转换、信号调理和采样等信号处理过程。
其中采样位数与采样率对音频接口而言是最重要的两个指标,也是选择声音模块的重要标准。每增加一个采样位数相当于力度范围增加了6dB,采样位数越多则捕捉到的信号越精准。
而采样频率是指计算机每秒钟采集多少个声音样本,是描述声音文件的音质、音调,衡量声卡、声音文件的质量标准。采样率越高,计算机摄取的图片越多,对于原始音频的还原也越加精确。
语音前级处理模块主要用于滤除干扰信号、提取语音特征矢量,并将提取的语音特征矢量量化为标准语音特征矢量。
而语音训练模块主要功能是将多次采集、提取到的语音特征标准矢量进行概率统计,避免语音受到人自身情绪、环境等因素引起的干扰。简而言之,这一模块是帮助进行语音校准,减少误差。
语音识别模块,顾名思义,主要通过将新采集到的语音特征矢量与语音模板库中的语音模型进行比较,然后再判断当前语音命令功能。而语音模板库中,主要存储训练后的最佳标准语音特征矢量。
其他如语音提示模块的主要功能为提示用户进行相关操作的进度,以及前往完成的情况;而输出控制模块便是针对智能语音识别的结果来输出相应的控制信号,比如开关、音量调节、温度大小等。
通过这些模块的加入,便能够让语音识别人机交互成为现实。并依照这个框架,语音识别技术已经开始有了长远的发展。
在近几年的研究中,端到端的语音识别仍然是ASR( Automatic Speech Recognition)研究的热点,同时基于Attention机制的识别系统已经成为语音技术研究的主流。此外,远场语音识别、模型结构、模型训练、跨语种或者多语种语音识别都成为了研究的热门选项。
小结
到今年,语音识别技术已经发展了71年,从最初只能识别特定单词,到慢慢实现理解人的语音、语义,并参与到智能家居等落地应用中来,为人们实现更好的生活体验。相比智能视觉只是针对人脸这一个变量而言,智能语音技术需要解决的是更复杂的语义、繁杂的环境、精准关键词的检测等来提升输入效率,而这些都需要时间来完成。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
智能家居
+关注
关注
1928文章
9555浏览量
184946 -
语音系统
+关注
关注
1文章
27浏览量
12997
发布评论请先 登录
相关推荐
语音识别在智能家居中的应用
随着科技的飞速发展,智能家居逐渐成为人们生活中不可或缺的一部分。智能家居系统通过物联网技术将家中的各种设备连接起来,实现远程控制和自动化管理。在众多的控制方式中,
语音识别芯片:塑造智能家居控制新时代
语音识别芯片技术革新智能家居控制,用户语音指令可轻松管理家电,实现一键切换场景,提高效率和响应速度,保障隐私安全,市场应用广泛,将创造更多智能
ASR在智能家居中的应用
ASR技术简介 自动语音识别技术,即ASR,是一种将人类语音转换成文本的技术。它通过模拟人脑处理语言的方式,对语音信号进行分析和识别,从而实现对语
智能家居控制系统如何设计
智能家居的控制系统设计是一个复杂而细致的过程,它涉及到多个方面的考虑,包括需求分析、设备选型、系统架构设计、网络安全、用户交互以及后期维护等。以下是对
壁垒林立,谁能一统智能家居
电子发烧友网报道(文/黄山明)随着技术的发展,智能家居以润物细无声的姿态开始慢慢的渗透到了我们的生活当中,比如智能门锁、智能电视、智能灯具等
AI加速智能家居分布式语音技术发展
电子发烧友网报道(文/黄山明)生成式AI的出现,让人与机器的交流将变得更加自然,也在不断推动分布式语音入口在智能家居中的智能化水平升级,让家庭自动化和人机交互变得更加自然、便捷和高效,
Python智能家居系统代码介绍
Python智能家居系统是一种基于Python编程语言开发的智能家居控制系统,在现代家庭中得到了越来越广泛的应用。本文将详细介绍Python
语音数据集在智能家居安全系统中的应用与挑战
随着智能家居的普及,家庭安全问题日益受到人们的关注。智能家居安全系统通过整合各种传感器和设备,实现对家庭环境的实时监控和报警,保障家庭成员的安全。语音数据集在
语音数据集在智能家居中的应用与挑战
随着科技的快速发展,智能家居已经逐渐走进人们的生活。语音数据集在智能家居中发挥着重要的作用,为家居设备提供了语音交互的能力,提升了用户体验。
评论