在人类的感官通道中,视觉占据最主要的位置,听觉次之,但在信息传递中,听觉语言的综合利用率要远高于视觉符号。因此,更接近于人类本能的交互方式--语音交互受到广泛关注。目前,随着智能语音技术的发展和应用场景的不断丰富,人机交互方式已经开始从键盘、鼠标以及触摸式的图形交互,向语音模式转变,并且随着搭载量和使用率的提升,未来有望成为人机交互最主要的入口。
底层技术持续增强
智能语音包含语音识别、语义理解、自然语言生成以及语音合成等环节。其中,语音识别是率先商业化、应用最成熟的人工智能技术之一。根据信通院数据,全球智能语音识别错误率连续降低,从2008年的23.6%降低到2017年的5.5%。
与此同时,国内厂商也在不断刷新准确率的上限。2018年6月,阿里巴巴推出语音识别模型DFSMN,准确率高达96.04%;科大讯飞也在同期宣布讯飞语音识别率提升至98%;2017年11月,百度大脑推出新款语音识别模型--“基于复数CNN网络的语音增强和声学建模一体化的端到端语音识别模型”,打破了传统远场语音识别技术的流程,将语音识别准确率提高30%以上。
应用场景丰富多元
在国家大力发展人工智能产业的战略引导下,以及企业技术能力提升和市场需求不断扩张的驱动下,智能语音技术在智能家居、车载环境、在线教育、医疗、呼叫中心等各个场景均有落地化应用。据中国电子信息产业发展研究院预测,未来三年智能语音市场将保持25%以上的增速,到2021年预计达到194.8亿元。
例如,在智能家居方面,语音声控的应用增强了终端设备控制家居的简便性、易用性、互动性和娱乐性。目前,众多参与者以智能音箱作为智能家居语音交互的切入口。例如接入阿里智能家居平台的天猫精灵、提供智能家居控制入口的小度音箱、连接小米智能家居生态的小爱智能音箱等等。
再如,在智能车载方面,从安全因素考虑,车载智能语音应用将是未来市场的刚需场景,如媒体娱乐、行车导航、信息查询、即时通讯等等。2016年11月,科大讯飞发布智能车载系统飞鱼助理,并于2017年11月发布2.0版本,该系统通过对语音引擎、生态引擎、云+端服务进行深度整合,并赋予智能人机交互方式,来为用户提供人脸识别、AI虚拟助手、声源定位、非全时免唤醒+上下文理解、自定义唤醒词、XTTS等功能。
另外,在随身设备方面,随着设备功能的多元化,人们迫切需求摆脱传统输入设备的束缚,以智能手机为例,有关数据显示,到2023年智能手机配备语音交互功能的比例将达到90%以上。并且据IDC预测,到2020年随身设备的智能语音渗透率将达到68%。可见,智能语音拥有丰富的应用场景,渗透率也会不断提高。
图:2020年智能语音渗透率预测
数据来源:IDC
创业及资本渐趋理性
智能语音市场参与者主要为科技巨头及传统智能语音企业,行业集中度较高。科技巨头在语音行业的布局多为对外开放语音生态系统,对内则在自身产品中实现AI First。例如,百度Dueros开放平台、阿里AliGenie开发者平台、腾讯的智能语音平台腾讯云小微等等。传统智能语音企业已在语音行业深耕多年,1999年成立的科大讯飞市场占有率已然位列第一,除了面向教育、司法、医疗、城市等领域推出智能语音解决方案以外,还向硬件方面拓展,推出了翻译机、学习机、录音笔等相关产品。
此外,科技巨头和传统智能语音企业出于构建生态、积累数据等方面的考虑,大都提供开放平台,而初创企业则可以借此发挥后发优势。虽然头部企业已经处于绝对优势,但随着应用场景的丰富,行业机会仍不断涌现,智能语音初创企业也吸引了资本市场的关注。据<华秋创服>不完全统计,2000-2019年,共有55家智能语音方案企业获得融资,共计157笔,平均成立1.7年后获得第一笔融资,获投企业主要分布在北京、广东、上海等地;从时间分布来看,2015年开始进入融资高峰期,2019年有所下降,一定程度上反映了智能语音企业的创业热潮正逐渐趋于理性,市场也越来越重视企业的核心技术和落地能力。
图:2000-2019年智能语音方案企业获投笔数
数据来源:华秋创服
图:2000-2019年获投智能语音方案企业地区分布
数据来源:华秋创服
市场前景广阔 技术仍待突破
IDC数据显示,智能语音在我国人工智能市场中的份额占有22%的比重。场景应用的普遍化,促使整个行业开始从发展初期向成熟期迈进。虽然科大讯飞、百度等占据了市场近七成的份额,但是,随着应用场景的拓宽,整个市场规模仍会不断扩大。
不可否认的是,虽然智能语音技术飞速发展,但在实际应用环境中,语音信号往往伴随着环境噪声和混响,使得语音识别的性能急剧下降。例如,讯飞中英文语音识别准确率分别达到98%和95%,但在有方言、噪音、口音和远场情况下,提高语音识别准确率仍有较大的提升空间。再如机器翻译,虽然实时高效,但距离会议同传以及高水平翻译所讲究的“信、达、雅”仍存在较大差距。可见,虽然语音识别等某一技术环节已经取得较大发展,但面对应用场景的复杂性,智能语音技术仍有待突破。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
智能语音
+关注
关注
10文章
789浏览量
48893
发布评论请先 登录
相关推荐
智己汽车B轮融资94亿元,加速核心技术研发
底盘、线控转向、智能驾驶等核心技术的研发与投入。智己汽车深知,技术创新是企业发展的核心竞争力,因此将持续加大在研发领域的投入,以推动产品和技术
智能语音的驱动力:揭秘8脚语音芯片在智能设备中的非凡角色
语音技术渗透生活,8脚语音芯片以微缩体积、低功耗、卓越性能成智能设备语音功能核心,集成识别、合成
语音提示器-WT3000A离在线TTS方案-打破语种限制/AI对话多功能支持
TTS(离线本地音乐播放与在线TTS合成播放结合)技术,旨在为用户打造一个智能、高效、人性化的语音提示解决方案。方案介绍SchemeIntroduction核心技术:
后摩智能参加联想创投2024年CVC创投周
联想创投2024年CVC创投周于日前在联想全球总部东区举行,本届活动以"硅基觉醒,AI 启未来"为主旨,将汇聚近50家科技创新型企业和众多卓越投资者,共同探索和见证 AI
AI网络发展的四大核心技术支柱
在AI大模型时代,随着模型参数量与训练集规模的爆炸性增长,单纯依赖GPU单体算力的提升已难以满足需求,业界焦点逐渐转向系统架构层面的革新,其中,作为底层核心技术的网络成为了突破的关键。全球科技巨头正竞相研发相关产品技术,AI网络技术
聚焦物联网场景,旷视科技核心技术能力持续升级
曾经备受青睐的“AI四小龙”之一,旷视科技在更早的时候曾向港交所递交上市申请,闯关未果后转向上交所科创板。 旷视科技核心技术能力 旷视科技是一家聚焦物联网场景的人工智能公司,其核心技术
又一家人工智能企业成功IPO,核心技术涉及感知、理解、执行
流程。主要服务于城市管理及行政、汽车及交通、通信、金融以及教育、医疗健康、电商及零售等行业。 核心技术涉及感知、理解、执行 声通科技核心技术包括交互式人工智能技术
【大语言模型:原理与工程实践】核心技术综述
我也不打算把网上相关的信息在总结一下,这样的话,工作量很大。
我主要看了-大语言模型基础技术这节
大语言模型(Large Language Models,LLMs)的核心技术涵盖了从模型的架构设计到
发表于 05-05 10:56
乔锋智能IPO上市丨深耕机床行业,构筑核心技术优势
行业多年,一直致力于研制精度高、可靠性高、效率高、智能化的国产现代化“工业母机”,为智能制造转型升级提供更高品质的数控机床设备。 通过多年的持续研发投入,乔锋智能已经在机床领域积累了一
聚强智能宣布完成原子创投独家投资的数千万元天使轮融资
近日,基于dToF技术的高精度、远距离、全自研国产高性能激光传感器方案商“聚强智能”宣布完成原子创投独家投资的数千万元天使轮融资。
车内语音识别技术:智能驾驶的核心要素
一、引言 随着科技的飞速发展,智能驾驶已经成为未来出行的趋势。作为智能驾驶的关键技术之一,车内语音识别技术发挥着越来越重要的作用。它不仅提升
评论