关于人工智能语音的三次技术跃进详细分析-电子发烧友网

人工智能的诞生没有统一说法。

有部分学者以1950年“人工智能之父”马文·明斯基建造世界上第一台神经网络计算机为起点，到现在，大致经历三段演化和推进。

让我们一起回顾整个过程，来看一下人工智能语音的三次技术跃进。

人工智能语音1.0：一问一答

现在，人工智能语音技术在数码、电子、工业制造领域被广泛应用并且成为全民热议的话题，可是在发展之初它还有很多稚嫩的地方。

关于人工智能时代的讨论有很多，但在消费层面上，真正大范围进入用户试用阶段的人工智能语音应用大概在2010年之后。这个阶段的人工智能语音技术形成了以语音交互为主的感知状态，我们暂且称之为第一阶段。

这时的人工智能语音应用通过算法的演变和大量数据的输入，在技术层面实现自然语音识别和语义理解，针对对话内容进行数据匹配，然后调取相关话题，从而实现简单内容的单向一问一答。

第一阶段在自我学习、逻辑推理方面有很大欠缺，不能针对同一对话内容展开深入交互，横向拓展和纵向发展都不能满足用户需求。

例如你问今天天气如何？他调取今天的天气数据。

接着你问明天的天气如何？他调取明天的天气预报。

今天天气和明天天气只是各自独立的对答，不能连接贯通，形成逻辑。

关于人工智能语音技术的研究，国外企业投入较早，且发展也比较全面。

像Nuance，曾经在语音识别方面功绩卓著，到现在为止仍然是全球最大的语音技术公司，专利数量和市场份额都遥遥领先。之后包括亚马逊、苹果和谷歌，都在深度挖掘智能语音，推出自己的语音助手。

据不完全统计，目前全球专业做人工智能语音的公司有上千家之多，后起之秀越来越多，涉及的领域越来越广。

如总部位于奥地利维也纳的Cortical.io，主要提供新型自然语言理解(NLU)解决方案。

由艾伦人工智能研究所和亚马逊Alexa基金等机构资助KITT.AI公司，开发可定制热词检测器(hotworddetector)和对话引擎ChatFlow。旧金山的MindMeld公司可提供对话式人工智能平台等等。

人工智能语音2.0：有问有答

早在2000年，比尔 · 盖茨就提出“未来10年是语音的时代”。

我们目前所说的智能语音，学术界称为“自然语言处理”(来自百度)。业内人士认为，智能语音技术将会成为人类主流的人机交互方式之一，计算机技术与人工智能领域的发展为智能语音交互发展带来了希望。

人工智能语音交互的更深层阶段——对话，即有问有答，包含上下文逻辑。

举个例子或许更好理解，如果一门课程上一年没开设，对于“这门课程去年有多少同学没通过”这样的问题，机器是回答“都没通过”还是“去年没开这门课”？同时机器还需要提前存储“去年没开这门课”的信息，想想我们从小时候啥也不懂到现在懂得的知识和信息，这是难以想象的数据量。

再比如说“我想听周杰伦的歌”，机器只会将周杰伦的歌显示出来，并不能直接播放。就是说假如你要做一件事情，需要给机器一个明确的指令，否则，会让人很烦躁，因为你要一直说下去。

当然，“对话”层面，仍然停留在“人机对话”阶段，机器仍然停留在被动接受人类输入大量数据阶段，相比“问答”层面，只不过信息流、数据存储量更大，机器仍然不能更深层次理解人的意思，无法实现自学习、自成长，与机器的语音交流还不能像人一样自然。

人工智能语音3.0：自然交互

人工智能进入第三阶段，最大的进展就是交互的进展。不仅仅有问有答，不仅仅包含上下文逻辑了，人工智能硬件能够更多地融合各种环境信息，作出不同决策或推荐。也就说，在交互的过程中，机器有了更多的主动性，能够为人提供更多、更好的帮助，让人们的生活更便捷，更安全，更有趣。

有两个比较典型的应用场景，一个是智能汽车，一个是智能家居。

2010年，谷歌秘密研究的无人汽车项目被《***》记者曝光，当时引起了不小的震动。无人汽车即无人驾驶汽车，也叫智能汽车，主要是通过车载传感系统感知道路环境，并依靠车内的人工智能系统自动规划行车路线，到达预定目的地。

谷歌无人驾驶汽车在开放道路上行驶时，会对来往车辆、行人，路面环境信息进行识别与分析，为系统的决策判断提供依据。系统经过长期的“学习”后，人工智能具备的策略神经元将变得更加熟练高效，并形成类似于人的“感觉”，能及时处理驾驶过程中的突发情况。

2016年1月，美国国家公路安全交通管理局(NHTSA)在其网站上发布了***，表示根据联邦政府现行法律规定，谷歌的无人驾驶汽车采用的人工智能系统可以被视为“司机”。这被视为是人工智能发展里程碑的事件，也标志着“智能”可以像“人工”一样感知、判断、推理并做出决策，可以实现主动控制，也能更好地人机交互与协同。

在智能家居领域，人工智能的发展方向同样是人机交互、操作简单、通过大数据能够进行自主判断决策。

长虹前不久推出了人工智能电视新品Q5K，主打语义理解和模糊搜片。不需要绝对明确的指令，人工智能电视能识别和理解用户的语义。比如当用户说“太暗了”时，电视能理解那是什么意思并知道该怎么做，而不是非得等用户说出“调高亮度”。

再比如，最近热播的一部电视剧《那年花开月正圆》，名字太长很多人记不住，但只要你说“我想看花开月圆”，长虹人工智能电视也能找到这部片。如果连这几个字都记不住，说“我想看陈晓的电视剧”，它也会根据热播影视数据推荐出这部片来。甚至于说到“我想看陈妍希老公的电视剧”，这台电视也能理解，你所说的八成就是这部由陈晓主演、最近热播的《那年花开月正圆》，并为你播放出来。

这就相当于机器真正有了“大脑”，从而可以感知，交互，理解和决策。因此，也就能够更好地为人类服务了。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1791

文章
47350

浏览量
238734

原文标题：1.0到3.0：人工智能语音的三次技术跃进

文章出处：【微信号：gh_211d74f707ff，微信公众号：重庆人工智能】欢迎添加关注！文章转载请注明出处。

　美国站群vps云服务器缺点详细分析

美国站群VPS云服务器在提供多项优势的同时，也存在一些缺点。主机推荐小编为您整理发布美国站群vps云服务器缺点详细分析。

发表于 12-12 10:43 •102次阅读

嵌入式和人工智能究竟是什么关系?

对人工智能应用的实时响应。与此同时，嵌入式系统在边缘计算和物联网领域，也为人工智能的应用提供了广阔的空间。在边缘计算中，嵌入式系统能够将人工智能算法部署到设备端，实现对数据的即时处理和分析

发表于 11-14 16:39

《AI for Science：人工智能驱动科学创新》第6章人AI与能源科学读后感

幸得一好书，特此来分享。感谢平台，感谢作者。受益匪浅。在阅读《AI for Science：人工智能驱动科学创新》的第6章后，我深刻感受到人工智能在能源科学领域中的巨大潜力和广泛应用。这一章详细

发表于 10-14 09:27

AI for Science：人工智能驱动科学创新》第4章-AI与生命科学读后感

阅读这一章后，我深感人工智能与生命科学的结合正引领着一场前所未有的科学革命，以下是我个人的读后感： 1. 技术革新与生命科学进步这一章详细阐述了人工智能如何通过其强大的数据处理和

发表于 10-14 09:21

《AI for Science：人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

人工智能：科学研究的加速器第一章清晰地阐述了人工智能作为科学研究工具的强大功能。通过机器学习、深度学习等先进技术，AI能够处理和分析海量数据，发现传统方法难以捕捉的模式和规律。这不

发表于 10-14 09:12

risc-v在人工智能图像处理应用前景分析

RISC-V在人工智能图像处理领域的应用前景十分广阔，这主要得益于其开源性、灵活性和低功耗等特点。以下是对RISC-V在人工智能图像处理应用前景的详细分析：一、RISC-V的基本特点 RISC-V

发表于 09-28 11:00

人工智能ai 数电模电模拟集成电路原理电路分析

人工智能ai 数电模电模拟集成电路原理电路分析想问下哪些比较容易学不过好像都是要学的

发表于 09-26 15:24

名单公布！【书籍评测活动NO.44】AI for Science：人工智能驱动科学创新

大力发展AI for Science的原因。第2章从科学研究底层的理论模式与主要困境，以及人工智能三要素（数据、算法、算力）出发，对AI for Science的技术支撑进行解读。第3章介绍了在

发表于 09-09 13:54

FPGA在人工智能中的应用有哪些？

定制化的硬件设计，提高了硬件的灵活性和适应性。综上所述，FPGA在人工智能领域的应用前景广阔，不仅可以用于深度学习的加速和云计算的加速，还可以针对特定应用场景进行定制化计算，为人工智能技术的发展提供有力支持。

发表于 07-29 17:05

人工智能芯片与服务器芯片的区别

人工智能芯片（AI芯片）与服务器芯片在多个方面存在显著差异，这些差异主要体现在设计目标、功能特性、应用场景以及技术发展趋势上。以下是对两者区别的详细分析。

发表于 07-12 18:21 •1643次阅读

人工智能的语音识别技术详解

随着科技的飞速发展，人工智能（AI）技术已经渗透到我们生活的方方面面，其中语音识别技术作为AI领域的重要分支，更是以其独特的魅力和广泛的应用前景，引起了社会各界的广泛关注。本文将

发表于 07-01 11:39 •1282次阅读

5G智能物联网课程之Aidlux下人工智能开发（SC171开发套件V2）

Aidlite-SDK模型推理 https://v2.docs.aidlux.com/sdk-api/aidlite-sdk/aidlite-python 人工智能 5G AIoT技术实践入门与探索_V2 59分

发表于 05-10 16:46

二次谐波和三次谐波区别二次谐波危害没有三次谐波大？

生并传导会带来一系列的问题。本文将详细探讨二次谐波和三次谐波的区别，并深入分析它们对电力系统的危害。一、二次谐波的定义和特点：二

发表于 04-08 17:11 •6055次阅读

嵌入式人工智能的就业方向有哪些?

嵌入式人工智能的就业方向有哪些? 在新一轮科技革命与产业变革的时代背景下，嵌入式人工智能成为国家新型基础建设与传统产业升级的核心驱动力。同时在此背景驱动下，众多名企也纷纷在嵌入式人工智能领域布局

发表于 02-26 10:17

说说TCP三次握手的过程？为什么是三次而不是两次、四次？

说说TCP三次握手的过程？为什么是三次而不是两次、四次？ TCP三次握手是建立TCP连接的过程，确保数据的可靠传输。它是由发送端和接收端完成

发表于 02-04 11:03 •692次阅读

搜索历史

关于人工智能语音的三次技术跃进详细分析

评论

美国站群vps云服务器缺点详细分析

嵌入式和人工智能究竟是什么关系?

《AI for Science：人工智能驱动科学创新》第6章人AI与能源科学读后感

AI for Science：人工智能驱动科学创新》第4章-AI与生命科学读后感

《AI for Science：人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

risc-v在人工智能图像处理应用前景分析

人工智能ai 数电模电模拟集成电路原理电路分析

名单公布！【书籍评测活动NO.44】AI for Science：人工智能驱动科学创新

FPGA在人工智能中的应用有哪些？

人工智能芯片与服务器芯片的区别

人工智能的语音识别技术详解

5G智能物联网课程之Aidlux下人工智能开发（SC171开发套件V2）

二次谐波和三次谐波区别二次谐波危害没有三次谐波大？

嵌入式人工智能的就业方向有哪些?

说说TCP三次握手的过程？为什么是三次而不是两次、四次？