思必驰俞凯：关于自然语言技术的畅想-电子发烧友网

自然语言技术的未来，其关键点是'自然'两个字。

11月最后一天，思必驰联合创始人、首席科学家俞凯博士在清华x-lab主办的人工智能研习社第七课上，如此评价自然语言处理，并与现场听众一起畅想了这一潜力巨大的技术将走向哪里。

思必驰联合创始人俞凯在清华演讲

在这场题为《认知型口语对话智能》的讲座上，俞凯认为认知交互面临的最主要的挑战一定不是语音，因为从语音识别的角度上来说，问题明确，只要专门向这个领域去做，绝大部分都可以优化的很好。

他认为其最大的挑战还是对话的过程，例如针对抑郁症患者治疗的这类场景，语音对话更像是有目的的聊天，如果没有很强的数学背景在后面做支持，是很难的，只有在一个垂直领域积累更多的数据，才能做得更好。

大数据文摘整理的俞凯博士本次讲座内容如下，在不改变原意的前提下有删改：

今天的题目叫认知型口语对话智能，核心点是两个字：“对话”。

这两个字不单单包含语音，还包含语言。从人机变迁讲起来，我在清华待了八年时间，在这八年当中，我们经历了人和机器在不同时代交互的几个变迁。

我们为什么开始关心口语对话智能

今天第一个要讲的问题，就是我们为什么开始关心口语对话智能。

刚开始的时候我们使用的是Windows图形交互界面，通过机器图形交互界面使得人和信息可以进行交流，我们奇迹般的看到了打印出来很工整的排版。而到了现在，在2011年开始，手机变成智能手机，使用开始变的非常广泛，这个时代自然的语言（手动输入、语音）逐渐形成了我们现在的交互手段。再往后我们发现通过口语沟通是未来智能信息获取最核心的东西，而移动互联网的时代，最关键的是这一类沟通产生了一种新的模式，那就是交互。

讲座现场图

在上世纪出现Google、百度等搜索引擎的时候，交互还是单向的，但出现智能手机之后我们的交互变成了双向。比如苹果的交互史，在刚开始做出来第一代iPhone的时候并没有语音交互的能力，但经过市场调研之后发现有75%的用户都希望有语音控制。于是，在后面两代iPhone加入了语音控制，但到后面发现实际使用的用户竟然不到5%，苹果经过总结之后发现不仅仅是语音，还必须有自然语言交互。于是在iPhone4S上面出现了Siri,再次经过市场调研之后发现，大概有87%的用户至少在一个月会使用一次Siri。

而且，他们还发现了一件事情，这87%的用户使用Siri的时候基本上都是在调戏Siri，并不做其它的事情，这导致苹果并不能赚到钱。这也促使了苹果在2015年收购了一家做统计对话交互的公司VocalIQ,这会让技术语音识别和语义连在一起形成完整的闭环，Siri就可以为我们提供新的功能了。

讲座现场图

现如今大家都说是互联网时代，那么如今的信息发展到什么程度了呢？有一个统计显示，到2017年年底，全世界物联网智能设备的总数将首次超过人类总数。而且这些智能设备绝大部分是没有或者拥有很小的屏幕，并没有办法进行很复杂的操作，这些设备如果想要去访问最核心抽象复杂的信息，只能是语音或者对话的形式。这也是众多巨头从2014年的音箱开始，推出一系列智能音箱的原因。从技术上讲，这件事情不仅仅是要解决框架的问题，还包括了对话管理、识别、合成以及我们的理解。

语音识别存在的问题和机遇

我们会碰到什么样的问题，以及在这个过程中有多少和我们的应用相关的机会。

首先是语音识别。

语音识别是感知技术这一类里面前沿的技术，当许多人看到语音识别，第一个会想到的问题就是语音识别似乎已经被解决了，当我们使用一个包罗万象的语音识别系统的时候，我讲“疏影横斜水清浅，暗香浮动月黄昏”这样的东西都可以比较完整的出来。但尽管采用了深度学习的技术，仍然避免不了错误，它也会偶尔的有一些语音识别的错误出现，而我们的任务就是使得它像人一样，在有错误的时候，完整的去进行人机交互，修正错误，这需要感知技术和认知技术相互的帮助来实现。

第二是计算能力。

语音识别的解决是与计算能力有关的，举一个例子，刚才我在做演示的时候，这个演示的应用背后早期使用的深度神经网络，共有7层，每层有2048个节点，输入是1320，输出是将近1万，这大概有4500万的参数，在做语音识别的时候我们是把每秒钟的语音切成100份，每一份提取1320个向量，大家想象我在一秒钟要让特征向量经过100次深度神经网络计算，之后还要在数以亿计节点的搜索网络里再去搜它，所以这个运算是非常非常复杂的。曾经有过统计，整个语音识别会分成搜索的速度和做神经网络前向传递的速度，这两个速度的比例，在传统系统里面前向传递的速度占30%-40%，后面在各种各样的语言空间搜索的速度大体占60%-70%。所以，在技术上必须突破速度的问题。

现场听众提问

感知智能另外一件事是如何把它做得更小。整个信息技术的变化和推进一定是和技术基础的推进有关，性能抗噪能不能达到90%、能不能在手机手表上面也做到大词汇等新的挑战不断应运而生，随着在智能物联网方面我们做出各种各种的优化之后，这样的挑战开始被一个个的克服掉。

认知这个事情更加麻烦。人机对话并不是大家想象那样，对话也是分成很多种形态的，有的可以很好的解决，有的却毫无头绪。如果以不同的轮回次数来分类，大概可以分为下面几种。第一种是模式最少的，单轮模式，即我说一句它回答一句，而且没有什么特定的结构化语义，这种情况基本上是命令式的，十分简单。复杂一点的则是问答，现在的经典深度学习技术很多是用来解决问答这个问题的，因为问答基本上是一问一答，你说一句它会给你一个答案，偶尔会带有一点上下文，这并不是真正意义上多轮的东西。还有一类是闲聊，比如微软小冰，你不停的说，它就不停的跟你聊天。闲聊的准则就是以聊得时间来定义的，曾经有一位用户，聊了好几个小时依然在继续。但这里面是没有什么目标意义的，所以闲聊要考虑的是如何把一些比较有趣的东西融入进去。

但是里面究竟有什么意义，机器是不会去关注的，只要有用户黏性跟它一直聊下去，特点是多轮，没什么结构化的东西。偶尔会加一些知识，现在希望把这个东西融合起来，这是方向，本质上没有什么结构化的东西。所以闲聊这一类事情实际上更多的是怎么样能够把一些比较有趣的东西融进去。实事求是来讲目前还缺乏一套比较扎实的理论体系，能够真正在理论上解决掉。

最后一类是任务型的多轮对话，这类对话是有比较扎实的数学基础的，把对话看做是一个序列决策过程。

这一技术的三个层面

如果从认知层级的结算上来讲，我们会把认知技术分为三个层面。

第一种是静态层面，我随便说一句话，自然语言能不能理解，能不能映射到正确的意思上面去。

第二类是交互决策，意思是我在说话的时候如何进行反馈，比如我对一个机器说我要找到餐馆，它要明白我想去哪、吃什么。

第三是进化，我想要便宜的东西，它却以为我想要贵的，当它发现错了之后下一次一定要更新自己的反馈策略，进化出自己的认知。

聊一件和各位相关的事情：大规模可定制对话智能。在讲整个对话智能的时候，我们会发现在整个流程里面，每一个环节都看起来很美好，但一到专业领域的环节就会变得不一样了。比如做对话模式，做购物的场景与金融、家庭的场景所理解的东西完全不一样，这个时候就要看做出来的模型是否每一个场景都能识别，是否能很好的支持。在细节上面，还有很多个性化需求，例如唤醒。当我们喊小乐给我放一首歌的时候，这个小乐就是一种唤醒。但有的时候我们希望它有好几个名字，这种需要多唤醒词的需求在未来会出现更多。

当我们真正去做的时候，会希望在我们所使用的口语对话系统上的支撑可以定制。而大规模可定制是我们提出的新概念，在2013年我们发布了一个叫“对话工场”的平台，2017年升级到大规模可定制的“Dialogue User Interface”，DUI，其本质上是把图形界面和语音界面在对话交互的框架下结合在一起。

定制性的语音交互技术可以做什么？

这时候，我们会好奇，这些定制技术能做什么呢？比如可以在做实时语音识别和大词汇语音识别的时候，做出来一个功能，当语义改变的时候，语音识别会对我们自动添加的词做自动识别，比如我们添加了“泷泽萝拉”四个字，语音识别系统能自动把它加入词表并具有识别的能力，继而在实现理解和交互。

我们想要做一件事情，在一个车载的系统里面，自动选择一些声音添加进去，当想要林志玲甜甜声音的时候，喊一声林志玲出来，绝对不会再出来郭德纲的声音，让它回去它就会切换为原本的郭德纲声音。我们希望这样的事情可以很自由的来回切换。更进一步，我们要支持对理解和对话进行相应的定制。

在这个过程里，在我们真正背后的技术上来说，已经不再是一般的语音的和对话的交互，不再仅仅是前面我们提到的感知和认知的独立框架。在这里要解决的问题是所谓大规模可定制的一些新技术。比如说在识别里，要解决所谓的自适应的问题。比如说话人和环境的自适应、领域主题的自适应等这些东西可以及时的去改变它，可以使得对话有很多的自适应。如果实现这些自适应规模化的话还需要有相应的系统支持。在这个过程里需要有具体的技术拆借、需要有模型定制，能够使得它规模化的扩展，并且在个性的基础之上去进行进化，这一类东西里会有很多新型的技术出现，但这些技术都需要技术基础的支撑。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

智能语音

智能语音

+关注

关注
10

文章
786

浏览量
48800
自然语言

自然语言

+关注

关注
1

文章
288

浏览量
13357

python自然语言

最近，python自然语言是越来越火了，那么什么是自然语言。自然语言（Natural Language ）广纳了众多技术，对自然或人类

发表于 05-02 13:50

什么是自然语言处理

什么是自然语言处理？自然语言处理任务有哪些？自然语言处理的方法是什么？

发表于 09-08 06:51

思必驰携语音识别技术亮相2018AIIA人工智能开发者大会

在思必驰公开课——《对话系统中的自然语言处理技术》上，思必

发表于 10-19 08:55 •4656次阅读

思必驰与中芯国际合作发布首款AI专用芯片

1月4日，在思必驰联合创始人、首席科学家俞凯的主持下，思必

发表于 01-05 09:52 •2117次阅读

思必驰凭借专注智能硬件领域的语音交互方案，被评为“易观之星”

产学研一体化方式，专注原始技术创新及强大的研发实力，成为思必驰获选的重大理由。思必

发表于 08-06 14:17 •1966次阅读

思必驰入选机器之心和Comet Labs发布了影响全球人工智能公司的榜单

思必驰也看到了科研的力量，看到了对技术性企业而言，原始技术创新的重要性。思

发表于 08-06 11:48 •2607次阅读

思必驰借CCTV NEWS向全世界释放来自中国的黑科技魅力

讨论中，思必驰联合创始人俞凯从学术的角度分析了人工智能发展的趋势及基础，大数据分析、系统、人机交互成为人工智能发展的爆点，

发表于 08-06 10:03 •2342次阅读

阿里巴巴物联网生态峰会在国家会议中心举行，思必驰出席了本次会议

在会议上，思必驰首席科学家俞凯博士向大家介绍，思必

发表于 08-05 17:34 •4598次阅读

科技部处长吴家喜一行莅临思必驰考察交流

和副总裁李春梅陪同接待。考察过程中，俞凯详细介绍了思必驰的发展历程。作为国内领先的对话式人工智能平台公司，

发表于 05-20 14:44 •2824次阅读

思必驰在车联网领域的应用与实践

针对智能物联网时代下对话式人工智能的最新进展，俞凯介绍了人工智能基本概念以及对话式人工智能的技术路线和前沿技术，并分享了思

发表于 09-06 14:46 •2676次阅读

人才优势凸显，思必驰创新发展底气十足

。深耕行业十数载，思必驰已打造出一支经验丰富的管理团队。其中，公司创始人高始兴、俞凯是中国人工智能语音

发表于 10-11 10:31 •756次阅读

思必驰携手佳都科技助力轨道交通智能化升级

“东风生万物”思必驰DFM-2大模型及创新技术应用成果发布会在苏州成功举行，思必

发表于 07-18 15:32 •645次阅读

思必驰携手合众新能源为用户打造智慧出行体验

“东风生万物”思必驰DFM-2大模型及创新技术应用成果发布会在苏州成功举行。思必

发表于 07-18 15:35 •638次阅读

思必驰携手上汽通用五菱共建强大AI技术底座

“东风生万物”思必驰DFM-2大模型及创新技术应用成果发布会于7月12日在苏州成功举行。思必

发表于 07-18 15:39 •840次阅读

思必驰携手老板电器共创智慧厨房

【东风生万物】思必驰DFM-2大模型及创新技术应用成果发布会在苏州成功举行。思必

发表于 07-18 15:42 •708次阅读

搜索历史

思必驰俞凯：关于自然语言技术的畅想

评论

python自然语言

什么是自然语言处理

思必驰携语音识别技术亮相2018AIIA人工智能开发者大会

思必驰与中芯国际合作发布首款AI专用芯片

思必驰凭借专注智能硬件领域的语音交互方案，被评为“易观之星”

思必驰入选机器之心和Comet Labs发布了影响全球人工智能公司的榜单

思必驰借CCTV NEWS向全世界释放来自中国的黑科技魅力

阿里巴巴物联网生态峰会在国家会议中心举行，思必驰出席了本次会议

科技部处长吴家喜一行莅临思必驰考察交流

思必驰在车联网领域的应用与实践

人才优势凸显，思必驰创新发展底气十足

思必驰携手佳都科技助力轨道交通智能化升级

思必驰携手合众新能源为用户打造智慧出行体验

思必驰携手上汽通用五菱共建强大AI技术底座

思必驰携手老板电器共创智慧厨房