人工智能,可以说是今年最热的一个关键词,并推动着很多产品和产业的创新。而提到人工智能,目前主要的还是语音识别和图像识别,这两点也一直是上游芯片原厂和方案商想要突破和创新的技术关卡。
作为国内知名的音频芯片厂商炬芯科技,不但于去年在音频领域进入了小米、魅族等几家大公司的供应链,现在也开始聚焦音频AI领域,推出了一系列的智能语音产品和解决方案。12月15日,炬芯科技在深圳举行了针对智能语音技术的专属品牌活动:炬芯科技2017 TcehLife开发者交流大会。
单麦克风or麦克风阵列,语音交互该选用怎样的方案?
本次的TechLife活动交流分享环节,炬芯特邀地平线语音前端处理技术负责人,南京大学声科学与工程系教授,噪声控制与通信声学研究室主任卢晶卢教授,为大家针对智能语音交互的“金耳朵”语音前端处理技术进行了深度分享。
据WER统计,目前最顶尖的语音识别技术的误识率是3%,已经与人类听力的误识率持平,但是WER统计大多数针对安静场景的语音数据,在复杂环境中语音性能显著恶化。人耳能够自动屏蔽掉周围的噪音,只关注你想听到的声音;但是机器做不到,在语音识别系统看来所接收到的所有声音重要性都是一样的,无法区分噪音和声音,在复杂环境下语音识别率自然会下降。
因此,智能语音技术的发展让语音前端处理的重要性日益凸显。不仅要像手机、蓝牙耳机、助听器的语音前端处理系统一样实现降噪,还要进一步还原语音,让要让机器听得懂,进而提升语音识别和说话人识别系统的实用性和识别率。
卢晶卢教授表示,目前对干扰噪音的抑制有单麦克风和麦克风阵列两种方案。其中单通道方案的关键点是噪声功率谱的有效追踪和语音边界检测,也可以基于深度学习的方案提升抑制干扰噪声的能力。单通道方案优点是结构简单,硬件成本低,对平稳噪声效果明显,但弱点是对非平稳噪声处理效果不佳。
麦克风阵列由一组按一定几何结构(常用线形、环形)摆放的麦克风组成,对采集的不同空间方向的声音信号进行空时处理,实现噪声抑制、混响去除、人声干扰抑制、声源测向、声源跟踪、阵列增益等功能,进而提高语音信号处理质量,以提高真实环境下的语音识别率。
理论上来说,麦克风数量多多益善,但系统的实现必须考虑性价比。那么,对于开发者来说,该如何平衡语音前端硬件系统的性能和价格呢?卢晶卢教授认为,在一般应用场景,说话人距离3m以内可以采用单麦克风;复杂场景使用2颗;需要DOA估计的复杂场景则需要3-4颗甚至8颗的麦克风。
聚焦音频AI,炬芯推出智能语音全系列产品线
炬芯科技技术专家陶永耀在现场也为大家详细的讲解了炬芯目前的几大核心平台,同时也对智能语音的未来发表了独到的观点。
熟悉炬芯的人都知道,炬芯是做音频起家的,最早做MP3,老人机、小音箱等产品。陶永耀表示,炬芯未来三到五年仍将重点聚焦以音频为主线的三大领域,并引入人工智能元素。一是无线音频和智能穿戴运动耳机;二是智能多媒体,将原来的老人机、游戏机、学习机,与人工智能结合形成跨界的产品。三是智慧计算与物联网,包括无人机、VR/AR、OTT盒子等产品。
作为一家芯片厂商,炬芯聚焦解决智能语音平台的共性需求,致力于智能语音交互技术中的前台技术的发展。主要包括以下四点:1.mic阵列语音采集芯片;2整合语音前处理相关算法;3.整合本地语音识别引擎;4.双mic语音前处理模块。
目前炬芯已经拥有非常丰富的智能语音产品线,尤其是目前热门且已经成功落地的智能早教机器人产品。其实在早教机器人方面炬芯已经推出了比较全面的解决方案,完整布局了低、中、高端市场,主要包括ATS3503、ATS3603、ATS3703。
针对火爆的智能音箱市场,炬芯在本次开发者交流大会上正式推出了全新的智能语音多媒体平台。包括面向无屏Linux系统的智能语音平台ATS3605D,面向有屏的Android智能语音平台有S500、S700、S900,以及一颗支持4-8麦的语音采集套片ATT300X。
此外,炬芯还推出了双模蓝牙平台AT3282X和ATB12XX,以及针对BLE蓝牙智能语音平台ATB110X。
此前,炬芯科技CEO周正宇博士被采访表示,人工智能和物联网概念一样的庞大,如果人工智能像物联网一样不追求产品的落地,它将依然得不到人工智能需要追求实际的产品落地和智能化的用户体验,坚持小步快走的微智能化发展方针才是长久之计。炬芯在此次开发者大会上充分展示了智能语音全面的产品线,正是基于其小步快走的微智能化发展方针的最好实践。
-
AI
+关注
关注
87文章
30117浏览量
268406 -
智能语音
+关注
关注
10文章
781浏览量
48708
原文标题:从音频到智能语音,看炬芯AI创新之路
文章出处:【微信号:ittbank,微信公众号:ittbank】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论