近年来,人工智能技术水平不断提高,应用服务全方位加速落地,对促进经济发展、提高管理效率、改善生活质量具有关键作用。国务院在2017年印发的《新一代人工智能发展规划》中明确提出,加快智能终端核心技术和产品研发,发展新一代智能手机、车载终端、可穿戴设备等产品形态和应用服务,在2020年3月人工智能又被列为新基建重点发展领域之一。当前,人工智能从计算机视觉、自然语言处理、语音处理等维度全方面推进智能手机、智慧家居、智能车载、智能可穿戴、智能机器人等领域移动终端的发展,据IDC预测,2020年中国将有接近1亿部5G智能终端出货,人工智能赋能移动终端进入高速发展期。
人工智能关键技术发展态势良好
人工智能技术迎来第三次浪潮,深度学习技术在计算机视觉、自然语言处理、语音识别等研究领域相继取得突破性进展,在图像分类识别准确率、语音合成自然度等方面已超过人类平均水平,推动人工智能从实验室走向商业化,赋能移动终端实现智能化、多样化、个性化。
计算机视觉技术已相对成熟,深度学习模型压缩推动移动智能终端发展。计算机视觉技术根据业务场景可分为图像分类、目标检测、行为检测、语义分割、三维处理、图像生成、视频分类等细分领域,在2012年Hinton团队提出深度神经网络模型AlexNet后,VGG、GoogLeNet、ResNet等模型不断提高图像识别准确率,ImageNet分类top- 5准确率已超过人眼识别水平。近年来,我国在计算机视觉技术创新方面占据全球主导地位,在2019COCO常见物体识别图像识别挑战赛中,旷视拿下物体检测、人体关键点和全景分割三项第一,获得COCO三连冠,在2019图像识别竞赛WebVision中,阿里AI以82.54%的识别准确率获得冠军,将万物识别领域的历史纪录提升了3个百分点。同时,面对模型存储和预测速度的博弈问题,斯坦福、谷歌、旷视等企业相继提出SqueezeNet、 MobileNet、 Shuf-fleNet、Xception等轻量化模型,设计高效的网络计算方式,在网络参数减少的同时减少性能损失,加速人工智能模型在移动终端的部署应用。
自然语言处理技术在行业中应用广泛,覆盖文本翻译、情感分析、意图分析、智能问答、智能对话、敏感词检索等场景。随着人工智能进入第三次发展浪潮,RNN、GRU、LSTM等模型相继出现,在机器翻译、问答系统、阅读理解等领域取得一定进展,谷歌于2018年10月提出BERT预训练语言模型,创新提出了有效的无监督预训练任务,从而使得模型能够从无标注语料中获得通用的语言建模能力,在其基础上拓展的XLNET、RoBERTa、ALBERT、BioBERT等模型分别有不同维度的提升。我国的百度、腾讯、阿里等企业成为推动自然语言处理技术发展的主力,提出了包括基于对抗学习的降噪技术、多领域对话行为与文本同步生成、关系型图注意力网络、利用结构化信息进行知识蒸馏等创新技术和理念,但科技、医疗等领域仍需组织专家建立专业知识图谱来提高识别准确率。
语音处理技术进入实质生产的高峰期,语音合成等技术效果超过人类平均水平,但在方言语种识别、声纹识别、降噪识别等技术领域仍有较大突破空间。智能语音处理技术包括声纹识别、方言语种识别、语音分离、关键词识别、语音转写、语音合成等业务类型,当前基于Attention的端到端语音识别成为语音技术研究主流,通过上下文来理解词句,解决了传统语音识别方案中各部分任务独立而无法联合优化的问题。谷歌推出Tacotron和WaveNet语音合成技术,实现端到端语音合成,进一步提升语音的自然程度,同时利用对抗网络GAN减小噪音环境语音数据和真实训练数据的分布差异、提高声学模型的噪声健壮性成为热点。我国企业语音处理技术水平位于全球前列,在语音分离识别领域,科大讯飞在国际多通道语音分离和识别大赛CHiME-6上提出的IBF-SS Model将错误率降低到30.5%;在方言语种识别领域,出门问问在ASRU2019中英混杂语音识别挑战赛中获得双赛道第一名;在语音合成领域,科大讯飞在Blizzard Challenge2019国际语音合成大赛中自然度得分达到4.5,相似度得分达到4.1,超过人类平均水平。
AI与移动终端融合应用场景不断丰富
智能手机中AI应用包括基础应用和上层应用,其中识别认证、AI摄影、语音助手等基础应用技术较为成熟,但上层应用尚未与人工智能完全融合,功能相对有限。当前“AI﹢手机”应用生态较为成熟,但还不是“AI手机”,在基础应用领域,以指纹识别和3D人脸识别为主的认证技术成为发展趋势,Transparency Market Research分析公司预计2020年全球生物识别市场规模达到233亿美元,AI赋能人像识别提供HDR高动态、美颜特效等功能,并可以实现智能拼接、高倍优化;IDC报告显示,手机中人像美颜应用渗透率达90%,极大推动了智能手机的升级赋能,同时语音助手成为当前主流智能手机的标配;Strategy Analytics预测到2023年,全球90%的智能手机会安装语音助手。在上层应用领域,依托App布局的手机应用与AI处于初级融合阶段,人脸识别、智能推荐、语音识别等技术广泛应用于音频制播、新闻娱乐、通信社交、购物出行等场景,同时各企业推出联邦学习以保护用户数据隐私,解决数据权限混乱的问题,但在医疗健康、安全管理、教育学习、VR/AR等应用领域仍有较长探索期,例如当前医疗App以病例问询、挂号买药为主,手机超声波分析、尿液血液分析等技术仍在研发期。
智能机器人覆盖全场景应用,2019年全球机器人市场规模达到294亿美元,但整体仍处于初级发展阶段。在工业机器人方面,亚马逊收购Canvas机器人公司,运用摄像头识别并躲避障碍物,创新奇智和海康威视分别推出缺陷检测机器人,基于计算机视觉技术识别生产良品率。在服务机器人方面,优必选悟空机器人搭配摄像头等设备,可实现人脸识别、语音识别和生成功能。以日本等国家为主研发人形家庭机器人,可提供洗衣、做饭等服务。同时,疫情加速了医疗服务和公共服务机器人落地应用,基于人工智能算法,钛米机器人可识别房间温度、湿度、PM2.5以及人员情况,测算消毒面积、时间,制定整体消毒方案;京东打造的智能物流配送机器人,通过图像识别和路径规划实现自主无人运输,预计2020年投入运营上百台机器人。
预计2023年全球智能家居市场规模达到1570亿美元,搭建AIoT云平台提供整体解决方案成为布局重点。智能音箱成为控制智能家居设备的入口,IDC报告显示2019年中国智能音箱市场出货量接近4600万台,同比增长109.7%,智能音箱通过语音处理技术提供搜索查询、天气交通问询等服务,并利用关键词识别等语音识别技术实现对房屋智能设备的控制,声纹识别、多语言识别、连续识别成为向智能化2.0进阶的必要技术。当前智能门锁、家庭监控、智能电视等家居设备的AI功能尚待完善,建立个性化模型进行服务成为突破方向。同时面临家庭设备类型多样的问题,华润置业、万达与万科分别与小米、TCL、阿里云IoT合作,整体打造智能家居平台,提供集安防、能源、娱乐于一体的全屋智能系统。
科技巨头、语音处理企业、计算机视觉企业依据自身人工智能技术优势,针对安全驾驶、智能导航、汽车娱乐等场景推出智能解决方案。在安全驾驶领域,百度开发小度车载OS,可基于人脸识别实现安全登录、疲劳检测,商汤利用人脸识别和手势识别技术进行身份认证并检测驾驶员疲劳状态、注意力和危险行为。在智能导航领域,腾讯随行采用语音处理技术实现导航交互,并识别周围场景及天气情况以提供智能推荐服务,科大讯飞研发的飞鱼系统搭配上下文理解、多轮对话、声纹识别等技术实现智能导航。在汽车娱乐领域,阿里通过阿里云ET语音处理技术实现关键词识别和音频播放,商汤智能车舱内载手势识别技术可以让用户进行音量调节、歌曲切换,宝马与天猫精灵合作提供音乐播放、语音对话和信息查询服务。
责任编辑:lq
-
AI
+关注
关注
87文章
30851浏览量
269017 -
人工智能
+关注
关注
1791文章
47258浏览量
238417 -
语音处理
+关注
关注
3文章
43浏览量
19315
发布评论请先 登录
相关推荐
评论