智能音箱在2018年延续前两年的热潮,不过音箱本身并不能创造很大的经济价值,发展产业链才是未来胜出的重点,智能麦克风与语音处理器是跨产品型态的关键零组件,利基型的应用、中文自然语言处理与边缘运算是我们厂商值得关注的重点。
2014年电商龙头亚马逊(Amazon)推出智能音箱Echo之后,经过几年的经营,在2016、2017年大放异彩,引发一股智能音箱开发风潮,也带动沉寂已久的智能家居商机,除了Amazon,包括Google、Microsoft、Apple、Samsung、Sony、Line,还有京东、联想、阿里巴巴、小米等一线大厂都陆续推出智能音箱,不仅如此,更多二线品牌厂商也赶上这波热潮,保守估计目前市场上应该有数十款智能音箱品牌,布局并抢食智能语音应用背后带动的庞大商机。智能音箱包括三大部分:硬件、软件服务、系统平台。工研院IEK产业分析师陈右怡说明,硬件规格大致包括开关、灯光、语音处理芯片、麦克风数组、喇叭、电池、Wi-Fi/蓝牙无线通信模块、显示面板等,其中语音处理器与麦克风数组攸关语音输入质量,也是这波发展过程中较受瞩目的关键零组件。而软件服务则是智能音箱的灵魂--智能语音助理,搭配技能(Skills),结合云端的系统平台,形成一个完整的产业生态系,以带动后续的商业模式。
智能音箱投入者众
根据市场研究机构Strategy Analytics研究指出,2018年智能音箱出货量接近4,000万台,2019年将挑战6,000万台,2022年还要进一步成长至1亿6,000万台左右,每年都是两位数的成长率。Samsung继去年与Microsoft合作推出的Invoke智能音箱后,2018年8月发表自有产品Galaxy Home(图1),音箱里有六组扩音喇叭及低音炮,用来提供环绕的播放音效;并内建八组远场麦克风,可在较大的范围内接收语音指令,语音助理就是自家的Bixby,不过发表会上摆满的产品都跟Apple Homepod一样不能运作,正式上市时间要再等等。
图1 Samsung 2018年8月发表搭载Bixby智能音箱Galaxy Home,并内建八组远场麦克风,可在较大的范围内接收语音指令
整体而言,智能音箱的发展,产品本身并不是最重要的,Amazon Echo最早就定位是中低价产品,99美元的售价到后来衍生的多种产品都不走高价路线,以其现阶段市场领导者的身分,也发挥市场带动的效果,Amazon以电商的角色,不断扩展产业生态体系,并成为多数厂商仿效的对象。陈右怡表示,Amazon Echo串连了开发者社群、汽车服务业、智能装置、日用品服务、共享/外送服务业、音乐串流服务业等。语音指令在搜寻上,显然比现有的文字输入便利,跟据市调机构Gartner的研究,未来50%的各类搜寻,将会利用语音指令的方式呈现。
以可以执行的技能而言,Alexa目前高达17,650项,Google Assistant仅有468项,Microsoft Cortana更只有174项。根据OC&C Strategy Consultants调查,拥有智能音箱的美国家庭中62%会使用智能音箱进行语音购物,2017年美国语音购物市场规模约20亿美元,预估2022年将达400亿美元,5年内翻20倍。由此可知,智能音箱拥有多少“技能”、能否带动商业模式的发展,才是其成功的关键,这些品牌大厂自然深知要努力将自己的商业模式,转换延伸到语音应用,并能提供更新、更多的价值才是发展重点。经过这几年的发展,智能音箱已经出现更为细致的分众区隔之路,鑫创科技产品经理曾建统(图2)认为,通用型的智能音箱主要目的就在扮演智能家居控制中枢,除了丰富的技能之外,更需要完整的系统平台与产业生态系加以配合,带动商业模式的发展,这部分只有资源丰富的大厂具备参赛权。另外,在区域市场与应用上,也发展出许多功能较为单纯,但满足特殊需求的智能音箱,如厨房针对做菜、车上影音娱乐/唱歌需求的产品,适合中小型厂商切入。
智能麦克风设计眉角多
近来有部分人士指出,智能音箱是过渡型的产品,就像电子书阅读器一样昙花一现,不过就实际的发展来看,智能音箱目前呈现百花齐放的状况,未来不管产品是否持续发展,语音识别成为重要的人机接口已是不争的事实,因此不管终端产品型态是甚么,绝对都少不了智能麦克风与语音处理器,这两个组件的技术与发展就值得更加深入的观察。一般而言,MEMS麦克风由背板(Back Plate)、氮化硅薄膜(Membrane)、1微米宽的空气隙(Air Gap)组成,其中薄膜要求低应力且柔软,能够灵敏地感测环境音压的改变。现行的MEMS麦克风技术均采用声波致动薄膜和静态背板,英飞凌(Infineon)提出一个较复杂的双背板架构,在两个背板之间嵌入薄膜,也有两个空气隙,因此能产生更好的讯号质量,讯噪比(SNR)达70dB,进一步获得更佳的高频抗扰性,实现更出色的音频讯号处理,并将10%总谐波失真(THD)的声学过载点提升到135dB声压位准(SPL)。智能麦克风除了采用模拟微机电的制程之外,还有采用数字CMOS制程的麦克风,不管是采用MEMS或是CMOS都是利用半导体制程产生震膜以搜集声压,曾建统说明,除了传统的单背板/单薄膜之外,双背板/单薄膜、单背板/双薄膜等改良型的架构都有厂商提出,目的全是为了强化收音效率的讯噪比。而在系统的设计上,Amazon Echo带动的多颗麦克风数组设计已成风潮,但效果还是有很大的差异性。曾建统提醒,智能语音助理硬件的设计,尤其是麦克风数组,并不是硬件照抄就好,在设计时间要针对机构与收音麦克风进行数组算法的调适,同时生产阶段也必须提高机构精准度的要求,这两个重点对语音助理装置最终量产结果有很大的影响。就像通用型的Echo使用场景大部分是在客厅,类似的麦克风数组设计套用到车用产品就不会得到最佳收音质量;而机构生产与组装若不够精准,会持续削弱麦克风的讯噪比,原本70dB的产品可能于终端产品仅表现出35dB的效能。
关键组件整合设计 取得效能表现优化
而在语音处理器部分,最主要是处理声音的数字化与去除噪声的讯号纯化,由于智能语音助理的工作是透过AI算法,将输入的语音讯号进行语音识别与自然语言处理,担负重要的人机接口工作,也是用户经验优劣的关键,因此语音处理器的几个主要功能包括噪音抑制(Noise Suppression)、回音消除(Echo Cancellation)、语音识别(Voice Recognition Assistance)、远距收音(Far-field Pickup)、清晰语音沟通(Clear Voice Communication)等就显得非常重要。语音处理器技术发展已有满长的一段时间,其实技术已经相当成熟,不过由于智能音箱将语音变成最主要的人机接口,声音整体处理效能要求比过去更高,对噪音抑制的压噪技术而言,环境声音如车辆、旁边人的说话声音都算是一种噪音,如何找出正确的噪音来源,并保留最大的原音是这部分的挑战。一般噪音分成稳态与非稳态噪音,机器运作固定频率的声音是稳态噪音,比较容易消除;非稳态噪音就是非预期出现的声音如旁人说话的声音,也比较难消除。Samsung甫发表的Galaxy Home,为了收音效果特别采用八颗远场麦克风,远距收音的功能就是较远的距离之下一样能收到清晰的声音,做法就是首先侦测人声,并放大人声,但不放大噪音。曾建统认为,若要提升收音效能的表现,麦克风与语音处理器整合性设计非常重要,除了远场麦克风、扩大MEMS麦克风芯片尺寸、采用整合模拟数字转换器(Analog-to-digital Converter, ADC)的数字麦克风(Digital Mic)等做法都有,甚么设计才能在效能与成本上取得最佳表现,目前其实没有标准答案,建议还是回归到产品需求,并进行深入的软件仿真与效能测试,才有机会开发出令市场惊艳的产品。
智能音箱的使用近期也因为网络的便利性与不设防,产生多起网络安全事件,所以语音处理器的安全机制逐渐被重视,恩智浦半导体大中华区微处理器及微控制器产品营销经理张小平(图3)表示,保护隐私信息不轻易被入侵,需要内建安全装置的解决方案,除了保护用户信息,透过整合的SDK实现算法加速,满足语音、影音和音频的需求,可整合A/V与机器学习,满足工程师对于统一平台的要求,便于打造语音指令控制的联网产品。恩智浦i.MX8M系列应用处理器,兼具处理技术和边缘运算能力,能够有效管理并缩短智能互联装置响应命令和询问的时间。张小平指出,该系列产品可用于智能电视、电视订阅服务、条形音箱与其他智能音箱,以及媒体播放器和DVR/PVR。此外,该系列处理器也适合管理照明、恒温器、门锁、居家安全、智能洒水器等各类系统与设备,能够让使用者享受直觉简单、迅速响应的智能家居体验。如:仅需发出语音指令即可播放特定的电视剧集,如果对其中的演员感兴趣,直接口头询问相关问题,屏幕上就会进行搜索并显示结果,整个过程都不会影响电视剧情的播放等。
语音助理为智能音箱灵魂
在基础的硬件之外,具备AI功能的智能语音助理显然是智能音箱产业链能否顺利发展的关键,Alexa的跨平台支持与技能多样性,目前遥遥领先Google Assistant与Microsoft Cortana,陈右怡表示,智能语音助理的生态系发展难度更高,核心的技术包括AI深度学习算法、情境感知、自动化控制、大数据分析应用、云端存取等;发展策略上,可透过开放式AI API发展第三方开发,扩展语音助理的技能,也透过定价/收费/分润机制让生态系更成熟;最后就是不断强大生态系的规模与服务的多样性与便利性,就像当年的App Store一样。而语音助理的服务包罗万象,所谓“万能”的智能语音助理应该不存在,以目前四大语音助理来看,Google专长在搜寻、Siri专长在音乐、Alexa专长在购物、Cortana则是专精于商务,厂商的产业链发展也有所侧重,陈右怡相信,过几年不同领域的语音助理霸主将越来越明确。而语言与在地化的经营则是另一个重点,目前英语系的语音识别与自然语言处理技术上已经颇有突破,发展较为迅速;相较之下,中文的自然语言处理则有相当大的瓶颈,也是我们厂商可以深入发展并保有优势的地方。
掌握特殊应用与边缘运算趋势
从硬件终端产品来看,大厂会投入更多资源发展通用型的智能音箱,产品型态也将更加多样,整合于智能手机、笔电、各式家电等的状况会更加普遍。我们厂商在软硬件的发展上,应该投入利基型的硬件产品与服务,曾建统建议,特殊应用的智能音箱结合在地化语音技术发展,是我们厂商的机会。中文AI化的困难性为厂商带来蓝海的商机,只要深入累积语言分析与在地化语料,就可以建立竞争门坎,搭配我们原先就具备深厚基础的硬件技术能力,可以在智能音箱市场走出一条自己的路。人机接口发展到语音是一大进步,不过未来视觉、触觉与念力都是下一波发展的方向,现在的语音AI技术也有布局未来人机接口的味道。以AI为核心的这些应用,开发的范围与需求的资源都较过去更大,诉求利基市场也不见得是单一厂商就能负担所有技术开发,需要与更多产业链上下游的厂商合作;智能音箱也是典型的边缘运算装置,未来会将更多AI功能转移到终端装置,直接在边缘进行处理,对于云端架构规模不如国外大厂的厂而言,采用较小的云端架构,并透过终端处理部分AI运算,更适合我们厂商发展。
-
智能音箱
+关注
关注
31文章
1783浏览量
78496 -
语音助理
+关注
关注
0文章
27浏览量
8673
原文标题:AI语音助理商机不断热烧 智能音箱软硬件大跃进
文章出处:【微信号:iotmag,微信公众号:iotmag】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论