AI人工智能语音交互技术市场分析

人工智能行业产业链情况及市场规模

人工智能产业链包括基础层、技术层、应用层。基础层是人工智能产业的基础，主要有AI 芯片、传感器、云计算平台等，为人工智能提供算力与数据的支持；技术层包括感知层、认知层、平台层，感知层以算法模拟人的感知来构建技术路径，可分类为计算机视觉、语音、触感和味觉等，认知层以算法模拟人的认知，使机器具备理解、学习、推理以及思考的能力，平台层主要为技术开放平台与基础开源框架，为人工智能技术提供平台支持；应用层将人工智能技术落地到具体的应用场景，根据不同需求形成具体的软硬件产品与解决方案。

从技术应用看，根据中国新一代人工智能发展战略研究院2021年的研究，中国2205家人工智能企业中，涉及基础层和技术层的人工智能企业共有382家。其中，智能芯片、语音识别和自然语言处理、图形图像识别、机器学习和推荐、工业机器人、硬件的企业数占比相对较高，依次为8.90%、8.64%、7.59%、5.76%、4.97%和3.66%。

从应用场景看，根据艾瑞咨询的研究，2020年中国人工智能市场的主要应用场景为政府城市冶理和运营（公安、交警、司法、城市运营、政务、交运管理、国土资源、监所、环保等）、互联网、金融，合计占比达到79%。而随着人工智能行业核心技术的增速不同，不同下游行业对人工智能技术和产品的应用节奏不同，未来行业格局将会发生一定变化。

2020年，中国提出加快包括大数据中心、人工智能等在内的新型基础设施建设，推动产业信息化、数字化、智能化转型发展。由于非接触式交互逐渐兴起，人工智能融合应用速度显著加快。根据艾瑞咨询预测，2025年，人工智能核心产业规模预计达到4,532.6亿元；2025年，人工智能带动产业规模预计达到16,648.3亿元。

人工智能语音语言行业基本概述

1）定义

人工智能语音语言技术即实现人与机器以语言为纽带的信息处理技术，人机对话通过对声音信号的音频采集与信号处理将语音转化为文字供机器处理，在机器进行语音识别与语义理解后、再进行对话管理、自然语言生成并通过语音合成技术将文本语言转化为声音进行输出，最终形成完整的人机语音语言交互。

2）发展历程

1952年，AT&T贝尔实验室成功研究出世界上第一个语音识别系统Audry，标志着智能语音语言技术发展的开始。至今智能语音语言技术已经历经了近70年的发展，经历了技术萌芽期、起步期、变革式发展期、落地可用期共四个发展阶段。

技术萌芽期（1950s-1970s）：Audry作为第一个语音识别系统，可以识别10个英文数字发音，该系统基于简单的模板匹配方法识别个体说出的孤立数字，在此之后，连续语音识别系统开始出现。语音合成的参数合成法能生成比较自然的语音。同一时代，以有限自动机和正则匹配理论为基础的文字处理技术出现。以乔姆斯基的文法和句法结构为代表的理性主义方法，和以香农信息论为代表的经验主义方法都发展起来。出现了一些极为简单的翻译、问答和聊天系统，但都无法实用。

起步期（1980s-2011）：在此阶段初期，随着算法模型以及微电子技术的发展，语音识别领域取得了突破性进展。隐马尔科夫模型（HMM）逐渐成熟和不断完善，开始成为语音识别的主流方法，语音识别转向基于概率统计建模的方法，同时神经网络在语音识别中的应用研究兴起。此后语音识别技术逐渐走向实用化，许多具有代表性的产品问世，例如IBM研发的ViaVoice系统，Dragon公司研发的DragonDictate系统，都具有更好的自适应性，能够在使用过程中不断提高识别准确率。2009年，Hinton将深度神经网络（DNN）应用于语音的声学建模，取得了在语音识别方面的重大突破，使语音识别的准确性得到显著改善。与语音技术基本同步，这一时期的自然语言处理技术的发展，也出现了数据驱动的统计模型逐渐占据主流地位的趋势。从概率模型到支持向量机，从线性分类器到神经网络，大量数据驱动的技术被应用到自然语言处理领域，产生了一系列重大成果。这一阶段中，理解、翻译、问答、对话系统等都在限定的范围内逐步实用化。

变革式发展期（2011-2016）：2011年，微软研究院又将DNN技术应用在大词汇量连续语音识别任务上，极大地降低了语音识别错误率。2016年，微软AI团队在产业标准Switchboard语音识别任务上，取得了当时产业中最低的5.9%的词错率（WER），5.9%的词错率等同于专业速录员速记同样一段对话的水平，这代表着机器的语音识别准确率第一次达到人类水平，智能语音语言技术开始逐步落地。这一时期中，以连续词向量、循环神经网络语言模型为代表的一系列深度学习技术，进一步大幅推动了自然语言处理技术的发展，复杂场景下的自然语言处理的性能显著改善。

落地可用期（2016-至今）：端到端的语音识别开始广泛应用，准确率进一步提升，且针对远场的语音识别和唤醒得到进一步发展，全双工语音交互开始出现。此阶段语音识别的准确率可达98%以上，且能根据实际应用痛点针对性优化。大数据驱动的预训练语言模型的出现，使得自然语言处理技术在这一阶段又上了一个台阶，众多小数据、跨领域的迁移学习技术也应运而生，自然语言处理的技术覆盖范围进一步加强，在产业中得到广泛深入使用。

人工智能语音语言市场产业链情况

人工智能语音语言市场的产业链可依据关键技术拆分为六大环节，各个环节又可以进一步归集为声学、语音感知、语言认知三大模块。音频采集与信号处理环节是智能语音语言交互的起点，当前的核心在于回声消除、噪声消除、声源分离、提升远场和复杂声学环境下语音唤醒和识别的准确率等关键技术；语音识别是把语音信号转变为相应的文本或音频类别的过程，当前的核心在于声纹技术、口音适应能力、情绪识别能力、端到端识别、低功耗识别等；语义理解是通过自然语言处理等方式使机器理解语言的过程，当前的核心在于口语语义理解问题、对话关键信息抽取、知识提取及结构化等；而对话管理是以多轮交互为核心的一系列自然语言认知技术的综合，是人机对话系统中的理解、决策和知识中枢，当前的核心在于实现多模态、全双工交互，增强机器在多任务、全场景、全领域的灵活对话能力；知识图谱是现实世界知识的一种表达方式，当前的核心在于知识图谱构建、问答推理等；语音合成即从文本到语音，让机器具备“说话”的能力，当前的核心在于使机器能够实现自然声音、高表现力、小数据复刻转换，以及方言及多语种的语音表达。

人工智能语音语言行业内的大部分公司只专注于产业链的单个或部分环节，少有公司能拥有覆盖产业链各环节的技术、产品与服务，当前国内人工智能语音语言行业的公司大约有400余家，仅有极少数可以实现全产业链覆盖。

行业结构

据德勤2021年的研究，在大环境需求的催化下，各行业智能化应用迎来需求拐点，进入需求爆发期。预计2030年消费级应用场景总的发展空间将超过700亿元。智能家居、智慧驾驶、智能办公等企业级场景加速发展，市场需求不断扩大，发展空间预计即将达到千亿规模。

智能语音语言技术使得人类的生产及生活方式逐步改变，基于智能语音语言技术的人机交互产品在接收用户的声音等信息后，能将用户意图转换为机器可以理解和进一步处理的内容，从而帮助用户解决问题或完成特定任务。其中，对话式机器人可以降低人力成本，减轻人工工作量，提高工作效率，解决用户客服、营销、质检、呼入、呼出等需求；搭载人机对话交互功能的消费级智能硬件，例如智能家电、智能车载、智能可穿戴设备等，能够通过语音语言交互的方式，提供更丰富的设备交互功能，提升设备操控便捷性。根据德勤2021年末发布的《中国智能语音市场分析》，2021年中国智能语音市场规模将达到285亿元，较2020年的217亿元增长31.34%，预计在2030年市场规模将达到1,452亿元。

除智能语音市场外，发行人产品下游市场还包括智能家居、智能汽车、消费电子、企业服务和智慧城市等多个领域，相关领域的市场空间具体如下：智能家居是智能语音应用的主要领域之一，随着物联网、人工智能等技术的快速发展，智能语音在家居领域的应用将进一步提速。2017-2021年中国智能家居市场规模不断增长，2021年预估突破5,800亿元，2022年将超过6,500亿元，将带动智能语音市场的持续提升。

2020年我国智能语音在消费电子领域的应用市场规模达到43.6亿元，占比近1/3。未来消费电子仍然是智能语音占比最高的行业领域，2021年智能语音在消费电子行业的市场规模达到约56.5亿元，增长率约为30%。

2021年我国智能硬件的AI语音助手算法的产值已达到34亿元，预计2026年相关产值规模将达到155亿元，2021年至2026年的CAGR为35.4%。

2020年中国智能网联车市场渗透率已经达到49%，根据IHSMarkit的预测，2025年中国智能网联车渗透率将超过75%，进一步推动智能语音在汽车领域的应用。

2020年中国智能客服行业市场规模约为30.1亿元，伴随智能化价值深化，2025年中国智能客服市场规模预计将突破100亿元，5年CAGR达35.8%，行业呈现快速增长态势。

智能语音语言行业在新技术方面的发展情况和未来发展趋势

近年来，行业内智能语音语言算法不断更新迭代，基础性能持续增强，通用识别准确率等已不再是智能语音语言行业发展的核心挑战，语音语言技术逐步由以语音感知为主，向综合感知、认知、知识计算的全链路对话系统方向拓展。

关键基础算法层面，在可控环境和简单结构化知识源条件下，语音及语言处理技术的性能已经表现良好，达到产业化水平，但在复杂真实环境和自然非结构化语言及知识处理方面，与产业需求仍然有不小差距。例如，在远场、高噪声、多人会议场景下的自由语音识别准确率还有待提升，知识型的开放问答和语义理解对话尚无通用模型。因此，在感知技术方面，业内研究逐步转向聚焦突破高噪声、多干扰、端侧低资源等真实复杂自然场景；在认知及知识计算方面，聚焦理解式的知识问答、对话理解及管理技术，以及专业领域的深度知识结构化，进一步增强面向垂直领域信息智能化的知识图谱、对话问答、阅读理解、翻译等能力。

另一方面，个性化、场景定制化、私有化部署等需求已经成为传统产业进行智能化改造和数字化升级的普遍需求，比如个性化的声音复刻、新语义领域的问答对话、为保护隐私的私有化识别部署等。支撑这一需求的小数据迁移学习和自主学习算法及其在语音语言处理各个领域的结合，也是智能语音及语言行业算法技术发展的趋势。

1）全双工语音出现，人机交互朝着更自然、更顺畅的方向发展

全双工是通信学科中的一个术语，意为允许数据在两个方向上同时传输，应用在智能语音语言行业，即为实时的、双向的语音信息的交互，这是人们进行即兴自由交互情境下的对话模式。目前市场上大部分产品只能满足单轮交互或多轮交互，单轮交互的情景下，用户每次都需要使用唤醒词开启交互，使得人机对话非常割裂；多轮交互的情景下，用户只需一次唤醒，在机器判断任务尚未完成时，会持续的接收用户发出的语音信息，待到机器判断单次任务完成后，再综合信息进行分析并做出回应，但在多轮交互中机器仍不能做到接收信息和发出语音同步进行。区别于单轮交互与多轮交互，全双工可以做到“边听、边想、边说”，在接收语音信息的同时进行思考，并实现动态的预估，进而以更快的速度进行回答，使人机交互更自然、更流畅；同时，全双工语音还可做到节奏控制，根据用户回答内容的重要性，决定打断还是继续倾听，是先完成上一个问题还是先回答用户的追加问题；此外，全双工语音还能进行场景理解，识别用户当前是否在与AI进行对话，并根据不同对象、不同场景进行音量、语气等方面的调节。未来，智能语音语言的应用场景越发多样化，应对的环境状况越发复杂，全双工语音的优势将会越发凸显，并成为智能语音语言行业的主流交互方式。

2）优化人机交互体验，多模态交互成为必然趋势

人类在交互过程中并非孤立地依据声音、表情及动作中的单项进行沟通与交流，而是综合视觉、听觉、触觉甚至嗅觉来进行有效的沟通。同理，要使机器做到更加逼真的“拟人化”，就需要通过语音、视觉、文本等信息结合的方式来推动人机交互的优化与升级。例如，在复杂声学环境尤其是多人同时说话的时候，语音识别性能会显著下降，此时若引入视觉信息对讲话者进行唇语识别，综合语音和视频信息则可以大幅提升说话人跟踪和语音识别准确率；又例如，在人机交互过程中，机器通过采集用户的表情、说话语气，甚至脚步的频率和急缓程度，可以分析用户的情绪状态，以采用不同的方式推进交互，提高人机交互的交互效率与质量。应对人机交互场景化应用不断拓展的市场需求，多模态、智能化的完整解决方案可以更好地应对不同场景的复杂变化，多模态交互成为行业发展的必然趋势。

3）芯片研发日益关键，端侧智能与云侧智能双轮驱动

AI深度应用目前基于深度学习的智能算法通常运行于具有强大计算能力的云计算中心，而相比于云计算，边缘计算将资源和服务下沉到网络边缘端，从而带来更低的带宽占用、更低的时延、更高的能效和更好的隐私保护。随着移动终端设备的普及率越来越高，未来行业将逐步将人工智能模型全部或分布式的部署到资源受限的终端设备上，与云侧智能协同。同时，结合感知硬件和计算模组的软硬一体化解决方案，也成为人工智能软件算法技术落地优化的趋势。软硬一体化的方案将更容易提升人工智能用户的最终体验，更好解决AI落地的“最后一公里”问题。软硬一体化的重要形态就是专用人工智能芯片。专用芯片往往是场景化或针对特定功能的，成本和效率大大优于通用芯片，可以进一步提高产品端侧的计算效率，并提升针对特定应用场景的优化适应能力。未来，人工智能语音芯片的发展将进一步推动智能语音语言产品在各垂直行业领域商业化落地。

4）以对话交互为核心的认知和知识计算成为智能信息服务的重要技术趋势

基于知识交互的认知智能是信息服务智能化的核心技术，在智能客服、教育、办公、金融、政务、医疗等各个垂直领域的数字化转型中具有重要作用。在各类智能信息软硬件爆发式增长的大背景下，对话式语言认知智能，尤其是对话理解和管理技术，将成为感知与认知系统级融合的关键技术，极大影响用户体验。另一方面，针对垂直领域的复杂结构化数据库、各类知识文档等多种形态的原始知识源，进行知识结构化和知识图谱构建，形成可控人机理解式交互的知识源，支撑知识问答和对话，支持人类决策，将是面向信息服务智能化的知识计算的发展方向。

5）系统级的大规模场景化柔性定制成为赋能传统产业的关键

由于人工智能赋能产业过程中的场景化定制需求巨大，当前智能语音语言行业的公司逐步由向硬件设备厂商提供单一技术授权或单点技术的项目制开发等商业模式，逐步转向以最终用户体验为目标的轻量化需求产品的快速迭代、规模化定制开发和软硬一体化，通过提供人工智能芯片及模组、智能语音及语言技术定制接口、业务级对话技能开发以及灵活的知识资源库等智能语音语言的全链路柔性定制方案，增加技术输出的厚度，扩大技术输出的边界，增加下游产业的粘性，形成生态优势。

智能语音语言行业在新产业、新业态方面的发展情况和未来发展趋势

数字化转型催生了两个重要趋势，一是智能信息硬件的大量出现和快速普及，二是各类生产、生活、治理场景的数字化过程中产生了海量的知识信息。语音及语言技术，作为连接人与智能设备、进行知识信息服务处理的核心人工智能技术，在这两个趋势下发展前景广阔。近年来，人工智能语音语言技术与生产、生活和社会治理深度融合，不断推动经济社会数字化转型。智能语音语言技术产业化的程度进一步加深，应用场景不断扩展，在汽车、家居、金融、教育、医疗、公共卫生、政务等领域均应用广泛，并形成了全新的产业链条。同时，随着智能语音语言技术的各项应用逐渐落地，用户对产品的使用逐步深化，人们对智能语音语言产品产生更多的期望，未来智能语音语言行业的发展将会更加聚焦在使用体验上，智能语音语言产品将朝着更加智能、更加人性化的方向发展，各类应用从单向指标的不断优化过渡到重视整体商业落地性能。例如，从追求语音识别的高准确率到关注产业化场景应用能力、整体运行稳定性、响应速率等。

1）智能硬件终端

根据艾瑞咨询的研究，2020年在我国各类智能硬件中，以本地或云端算法形式及语音AI芯片硬件形式提供语音交互能力的市场规模达到31.4亿元，到2025年将突破138亿元，2019-2025年CAGR为35.2%。随着智能物联网（AIoT）产业发展，到2025年，65%以上的家庭将拥有智能音箱、智能机器人、智能面板等各形态的AI管家，未来搭载语音交互能力的硬件设备总量将非常可观、潜力巨大。

语音作为人类最便捷、自然的沟通方式，是物联网人机交互的最佳入口。人工智能语音语言技术与物联网相结合，使用户可以直接通过对话与物联网各类终端设备交互获得即时服务，大幅提升生活质量。例如，智能家居领域，由智能家电等各类硬件、智能软件系统、云计算服务构成了家居生态圈；智能汽车领域，语音交互成为最安全便捷的车内信息交互方式，不再局限于简单的问路导航，还可全面覆盖车主在用车环节中所涉及的使用场景，包括对车主的画像分析、行为感知、车后市场服务的推荐和应用等。

2）智能信息服务

随着大量信息被数字化和知识化，智能信息服务在生产、生活、社会治理的各个领域都日益得到广泛重视，应用的需求不断增长。智能问答、对话机器人、信息及知识提取、语义分析、知识图谱、知识及信息搜索、机器翻译等语音及语言技术在智能信息服务相关的系统中都有广泛应用。

企业的智能客服系统通过自动人机对话交互和语音语言分析功能，提供信息查询、问答服务、通知互动、服务规范化质检等服务，减少人工成本，减轻人工工作量，减少用户等待应答时间，提高了企业的服务效率。医院及健康管理方面，通过智能对话机器人的导诊、预问诊、随访等服务，帮助病人和医生提升问诊和诊后管理效率，推进普惠医疗，通过医疗信息的知识结构化和语言处理，为医生提供辅助诊疗支撑。社会治理方面，通过语音语言技术，实现社区信息摸排智能化。如数字网格员机器人的语音电话排查服务，大大提升了流调筛查的工作效率，做好人民群众返乡、旅游、工作的信息搜集与确认，保障了基层社区工作的高效开展。

AI技术与商业落地之间存在天然鸿沟

智能语音语言技术已逐步从纯技术授权方式应用，转向“垂直技术+应用行业场景”的创新式发展，即从单纯的识别与合成的感知能力，逐步升级至“听得懂、能反馈”的认知智能，智能语音语言技术的落地应用需要结合行业认知和客户需求输出整体性、结果导向性的实用解决方案。在人工智能语音语言技术产品从研发投入到产业化落地的过程中，模型设计、数据准备、模型训练、准确度验证、业务流程监控以及适配开发等环节都有着巨大的挑战。要将人工智能技术与行业知识、具体需求相结合，就要跨越每个环节涉及的转换“鸿沟”，才能使得人工智能真正地促进产业发展和生产力提升。具体到智能语音语言行业，相较于人工智能行业其他细分领域，由于其定制化程度更高，规模化速度相对较低，其商业化落地速度较慢，跨越“鸿沟”的难度相对更大。

关键核心技术的突破仍面临挑战

行业内智能语音语言算法不断更新迭代，基础性能持续增强，通用识别准确率等已不再是智能语音语言行业发展的核心挑战。语音语言技术逐步由以语音感知为主，向综合感知、认知、知识计算的全链路对话系统方向拓展。

关键基础算法层面，在可控环境和简单结构化知识源条件下，语音及语言处理技术的性能已经表现良好，达到产业化水平，但在复杂真实环境和自然非结构化语言及知识处理方面，与产业需求仍然有不小差距。例如，在远场、高噪声、多人会议场景下的自由语音识别准确率还有待提升，知识型的开放问答和语义理解对话尚无通用模型。中国语音产业联盟2021年12月发布的《2020-2021中国智能语音产业发展白皮书》中也指出，无监督学习、低资源模型算法等需要突破；作为算力基础的AI芯片领域，我国与国际先进水平仍存在差距。另一方面，个性化、场景定制化、私有化部署等需求已经成为传统产业进行智能化改造和数字化升级的普遍需求，比如个性化的声音复刻、新语义领域的问答对话、为保护隐私的私有化识别部署等。支撑这一需求的小数据迁移学习和自主学习算法及其在语音语言处理各个领域的结合，也是目前亟待突破的方向之一。

同时，新技术的革命性突破不能只依靠单点技术创新，必须要有系统级创新突破，建立在重大核心技术突破瓶颈并达到应用门槛的基础上，深度融合技术链条上的各项关键技术并针对重大社会命题进行解析和处理。只有实现了能够解决社会重大问题的系统级创新，才能推广智能语音语言技术的大规模应用。

AI语音交互技术

全链路语音及语言交互技术以对话为核心的全链路语音语言交互技术涵盖语音信号处理、识别、合成、语言理解、问答聊天、知识图谱等人机信息交互闭环涉及的各个模块级技术，又包括以口语容错、对话管理、全双工架构等为代表的跨模块联合优化技术，形成了“听得清、能理解、有知识、会决策、善表达、反应快”的人机智能信息交互的完整全面的技术链条，同时具备业界领先的高性能单点AI技术和面向最终用户完整交互体验优化的跨模块优化技术和系统架构，从而在产业落地上满足各类客户丰富复杂的综合场景应用需求。

主要人工智能核心算法技术具体如下：

全链路智能对话系统定制开发中台（DUI中台）可进行从唤醒、识别、合成到语义理解、对话逻辑等的全链路对话系统定制开发，自动化智能化程度高，专业技术人员和非专业业务人员均可自助定制，可快速构建具备完整功能的、软硬件融合的场景化人机对话系统。

智能家电语音语言交互解决方案

智能家电的发展旨在让用户实现更方便的控制和享受数字生活服务。随着物联网终端从弱智能化向强智能化不断发展，智能家电产品的交互方式从遥控器按键、手机APP进化到语音操控，解放了双手，人机交互的方式愈发简单、便捷。一方面，智能家电终端从电视、音箱到空冰洗、开关面板，形态上不断微型化、多样化；另一方面，语音技术作为去中心化操控技术，使得智能家电操控不再受限于固定的设备端，通过语音即可对任何终端设备进行直接操控。

智能汽车语音语言交互解决方案

近年来，智能汽车逐渐普及，汽车从“硬件为主”的工业产品，逐渐演变为“软硬一体化”的智能化终端，市场上主流品牌都在新车上布局AI语音系统。智能汽车语音语言交互解决方案，以车载场景下的人机对话交互为核心，融合智能导航、多媒体娱乐、车身控制、驾驶行为监控、车况监控等智能座舱人机交互需求，围绕“语音交互智能+云端互联服务”，改变了传统车载设备以触控、按键为核心的操控模式，极大改善了交互体验，有效确保驾乘安全。

数字政企智能助理解决方案

数字政企智能助理解决方案，支持在电话、APP和智能终端等多渠道落地，能够帮助客户快速实现线上/线下服务运营的智能化升级，实现降本增效。基于数字政企智能助理解决方案，客户可以根据需求选择适合自己业务场景的机器人，能够起到替代部分传统人工的作用，降低人工服务成本和压力，并扩大服务范畴，满足终端用户的不同需求。