深入“万人迷”小冰的核心技术与聊天机器人技术的发展趋势！-电子发烧友网

从 2014 年的夏天小冰出现在我们的视野到今天，谈到小冰，你的第一印象是什么？一款可爱、萌萌哒的聊天机器人？一款随时在你身边，可以帮你做一些场景任务的语音助手？如果说，这两年智能音箱成为 AI 领域里的“流量明星”，那小冰更想让你领略她“偶像与实力”兼备的魅力。

从第四代小冰到第六代小冰，武威从团队的主要研发人员成为现在小冰核心技术的负责人、首席科学家。这几年来，他一直致力于开放域对话的研究，为了深入了解小冰是如何走进我们的生活，走入我们的内心，AI科技大本营采访到了微软小冰首席科学家——武威，带领大家深入了解小冰背后的技术以及聊天机器人的发展历程与趋势。

武威与三代小冰核心技术的成长史

武威：我个人的研究方向主要是开放域对话，探索的一个主要应用场景是聊天机器人的对话引擎，也就是聊天机器人对话引擎的核心算法。搭建开放域对话模型，主要有基于检索和基于对话生成两种方法。我们一直在研究检索模型方法，通过研究实际对话中上下文与回复候选匹配等问题，构建检索模型，并与小冰团队的工程师们一起合作，把这种方法应用在小冰上。在持续研究两三年后，我们又拓展出基于文本、视频回复候选的匹配，也是在此之后，我和团队把研究与应用拓展到多模态层面。关于对话生成，我们早期主要是基于上下文的回复生成, 后来研究并应用了共感模型，这些技术都成为每一代小冰背后的核心技术。同时，我个人也将研究领域拓展到基于生成模型的对话管理和生成模型的个性化对话管理。

在小冰的业务中，我参与了小冰诸多关键技术的研发工作。现在，小冰全球的生成模型，包括中国、日本、印度尼西亚和美国等不同语言的生成模型，主要都是由我负责。

正是小冰团队多年来在聊天机器人领域的不断研究与探索，在 2018 EMNLP 会议中，我与大家分享了聊天机器人领域的历史、发展现状与未来的趋势。经过这些年的努力，聊天机器人对话模型的一些基本问题已经得到很好的解决，比如对话回复和对话生成两个技术难点。

首先在对话回复方面，通过匹配的方法根据对话上下文找到合适的回复，其匹配精度在不断提高。以小冰的模型方法在公开数据集上的性能表现为例，两年间我们把模型的准确率从 66% 提升到了 80%，这还没有考虑一些强力的预训练模型比如 Bert。其次是对话生成，早期的方法经常给出无趣、万能的回复，经过近几年学界的研究，万能回复问题虽不能说完全避免，但是从初期把简单的机器翻译模型应用在对话生成，到后来对上下文建模问题的探索，都是不断提出针对这个问题更好的解决方案。现在工业界搭建聊天机器人，系统协调已经不再是一个难点问题。

目前，大家都在探讨聊天机器人如何商业落地，这就需要我们把研究成果与技术发展更加紧密结合，推动聊天机器人的落地。关于未来的趋势和热点方向，其一是多模态在聊天机器人领域中的研究与应用。聊天机器人不仅可以综合处理图像、声音和文字信息，同时可以进行综合模态，甚至包括情感等特征信息的输出与表达。目前，学界在这个领域的研究已经进入火热态势，也涌现了很多公开数据集，来探索如何利用多模态构建对话引擎。第二个方向是个性化分析与推荐的研究与应用，这也是目前学界和工业界都在发力的一个方向。

小冰的核心技术：对话引擎

小冰背后最核心部分是对话引擎。传统的对话引擎主要分为 ASR+TTS、NLU、DM 和 NLG 四个模块。随着大数据技术和深度学习技术的发展，把 NLU、DM 和 NLG 模块用统计模型的方法，进行端到端的训练。

以小冰为代表的聊天机器人对话引擎，现在主要有两种方法：基于检索方法和基于生成式方法。两种方法中，神经网络都发挥着非常重要的作用：

基于检索的方法：根据用户输入的数据（对话信息），系统查询索引（Index）后找到所有可能的回复，对所有候选回复进行排序筛选，最后挑选出认为最合适的回复，返回给用户，其关键在于构建索引库（语料库）。

基于生成式的方法：用于数据数据（对话信息），系统通过深度学习方法生成一个回复返回给用户，其关键在于用深度学习方法构建一个生成模型。

近年来，深度学习的发展在自然语言处理领域也发挥着重要的作用，研究与应用的每一个技术几乎都使用了深度学习的方法。

基于检索的方法的关键在于如何根据上下文对话、语义理解与候选回复等信息设计并构建 Matching Models。随着 Matching Models 越来越成熟，模式（pattern）覆盖越来越多时，训练性能和测试性能之间的差距，可能无法通过模型结构改善，因此现在我们将更注重模型的学习。

基于生成式方法的一个基本模型是 Encoder-Attention-Decoder 模型，其模型结构借鉴了 MT（机器翻译）模型。现在基于生成模型的方法已经得到很多的关注，学界和工业界都在不断研究与应用这个方法。

除了基于检索与基于生成模型的方法，武威在报告中，还有很多主要的技术与每项技术使用的不同方法、不同网络模型。如 NLP 任务中的 Word Embedding 与 Sentence Embedding 的各种模型，多样性回复的解决方法，融入 Topic、情绪情感特征和表情的方法，强化学习、GAN 与个性化等问题的研究与探索等等。

传送门：《Deep Chit-Chat: Deep Learning for ChatBots》

http://www.ruiyan.me/pubs/tutorial-emnlp18.pdf

第六代小冰的共感模型

AI科技大本营：第六代小冰是如何做到根据当前话题与上下文，回复信息、引领对话、提出新对话甚至进行持续性对话？

武威：原来的聊天机器人集中于对话怎么回复、如何回复一些简单的问题。而小冰第六代发布生成式的共感模型，旨在提供一个一致的框架，解决上下文理解、意图识别与持续性对话三个问题。提出共感模型的关键在于把对话过程提升至一个被动与主动结合的交互过程。

在共感模型中，有三个重要环节：明确对话状态、策略选择与回复生成。首先，我们明确设定了几种对话状态。一种是无意识状态，比如没有额外意图、无须太多反应的社交词令。一种是有意识状态，需要确认、主动提问或主动引导的话题状态。明确对话状态后，就到了回复生成与策略选择的过程。当用户开始对话后，我们首先要识别意图，是问好、提问、陈述信息还是意在获取信息等，其开放域对话的意图非常宽泛。结合不同的意图与当前对话内容，决定下一轮的对话策略，匹配之前识别到的意图，最后生成回复的对话，这就形成了策略选择和回复生成结合的过程。通过数据学习或正向学习等方法选择合适的策略，让整个对话更持续、更顺畅的。

就像我们平时人与人之间的对话过程一样，并不都是处在完全被动的互动过程，我们会根据对话内容决定说些什么，也会在某些时候引导或提出新对话，这背后的策略与想法也是共感建模的核心。

AI科技大本营：策略选择与回复生成结合的过程是否是强化学习的过程？小冰是否应用了强化学习方法？

武威：强化学习过程中必不可少的一部分是奖励函数（Reward Function），在开放域对话过程中，如何定义奖励函数是一个具有挑战的问题。在基于任务型对话中，最终是否完成任务以及完成所需轮数可以用作强化学习的奖励函数，但是在开放域对话中，仅用对话轮数衡量不一定完全正确，同时也没有找到合适度量人机交互满意度的方式。我们确实尝试过用强化学习方法构建共感模型，但实验结果的提升并不十分明显。在小冰产品的应用中也发现了这个现象。这也是研究和应用的不同之处。

多模态的高级认知体系

2017 年第五代小冰发布了全双工语音交互，并在打电话和智能音箱两个场景中落地。到了第六代小冰，融合了共感模型的对话引擎、全双工语音和实时视觉三个类别的全新感官系统，并同时进行开放域对话。

AI科技大本营：随着计算机视觉、NLP 等领域不断取得突破，多模态信息在感知层面有好的表现是不够的，深入到理解、更高级的认知能力时，现在小冰在多模态领域研究中做到了什么样的程度？目前有哪些方面的新研究？

武威：目前小冰在多模态领域取得的进展可以总结为松耦合状态，各个模态可以一起工作，但耦合之下还不够十分紧密。比如，假如聊天机器人有了视觉，看到了视频，看到了周围的环境，同时又接收声音、语音或文字信息，我们可以想象这些信息都应该对小冰的回复有所帮助，但是这两种模态的信息是如何结合产生帮助的？什么时候应该结合一起，什么时候不需要结合？当模态变多后，耦合也会增多，那耦合之间是否会有所冲突？有了冲突，产生噪音，如何规避噪音？比如情感特征，声音包含情感，如何与文字结合，使回复的对话也能带有情感？乃至最终表达情感是通过 TTS 方式还是表情表达更为合适与自然？这些问题都还在研究过程中，但还不是完全清楚。

AI科技大本营：多模态在小冰情感计算模型发挥着怎样的作用？

武威：第六代小冰已经是一个整体情感计算框架。通过小冰的探索，要实现带有情感的聊天机器人，多模态是必不可少的。我们也从单模态进行考量，但是在对话交互中的效果并不是非常好。小冰从单模态到多模态，结合图像、视频、语音和文字等信息后，情感像一条纽带，贯穿一起，架构于此。目前这还是一个具有挑战性的课题，我们也在探索中。

AI科技大本营：除了多模态研究，还有哪些研究趋势？

武威：除了多模态，个性化聊天机器人也是我们正在研究的方向。个性化不止一两种，而是非常多的个性。其实，共性与个性的问题是如何平衡大数据与小数据间的问题，共性代表了大数据，个性代表了小数据，如果强调个性，数据太少，可能无法做出一个合格、有质量的对话引擎；如果用大数据搭建了高质量的对话模型，有可能就无法体现个性。所以，小数据的个性化离不开大数据。现在学界和工业界也都在探索大数据如何与小数据综合利用，实现有质量的个性化对话模型。

小冰的 AI 创造力

武威：AI 创造一直是小冰的一个重点研究与应用方向，几乎和对话同等重要。从早期小冰作诗、金融领域文本生成、音乐与歌曲生成，到现在小冰的有声读物，都是小冰在 AI 创造领域取得的成果。在 NLP 领域，目前，在短文本生成与创造已经有了比较不错的效果，现在也已经有更多的研究投入在更复杂的任务上，比如基于文本或视频讲故事，长文写作等。未来，我们也在想，小冰是否可以完成写小说、写散文等内容与艺术创造任务，这应该也是处于一个探索的“有待突破”的研究领域。

AI科技大本营：同行或同类产品中，也有以内容创作为主要落地场景，实现 AI 赋能与更多的商业价值，成为非常重视的方向，小冰未来在这方面有什么计划？

武威：内容创作在一定程度上已经可以节省人力，在可与人类相媲的质量前提下，完成的更快更多，这本身确实具有一定的价值与商业价值。但是它能带来更深层次的价值是什么样子的，目前还不是十分清楚。比如，大家也都在讨论的用 AI 创作艺术品，这个价值到底有多少，也很难衡量。

下一代小冰

AI科技大本营：小冰与很多第三平台的合作，除了智能家居领域，还希望探索哪些应用场景？未来如何定位，实现商业化价值？

武威：小冰的产品线非常丰富，应用场景也在不断丰富。不仅应用在智能家居、智能音箱中，小冰的声音还有有声读物、节目主持以及企业垂直解决方案等。有声读物已经超过了 400 万小时的收听量，小冰姐姐讲故事已经覆盖了国内了 90% 以上的儿童早教机器人，80% 在线收听品平台。到现在，小冰一共参与生成主持了 55 档电视节目。与日本 LAWSON 合作，帮助便利店发放优惠券等垂直解决方案。还有，国内个性化聊天机器人与网易、华为等公司合作，帮助他们打造自己的聊天机器人。所以，小冰乃至聊天机器人的应用除了 IOT 还有更多。因为，在我们看来，说话本身就是一种刚需，人在日常生活与工作中，很多事情都需要通过说话沟通来解决。我们也曾想过，要不要马上去做目前大家都在谈到的刚需，比如问答。但是，如果在解决实际问题解决时，机器人不能满足用户的需求，也无法让用户留存与活跃，而后续也就无从再谈。所以，我们做小冰，是先做常态再满足刚需。

和不同的第三方平台合作，面对不同的需求，我们主要有三种拓展商业模式的方法：一种是我们根据对方平台帮助其打造一个自有的 AI 产品；二是嵌入小冰平台到对方平台中，辅助对方 AI 产品，融入对方平台的生态系统；三是我们提供平台，对方利用微软的技术、运营与产品打造自己平台的一些差异化特征，推出相应产品与应用。

AI科技大本营：未来小冰如何保持领先？第七代小冰是否有发布计划？

武威：在开放域对话这个赛道，希望大家一起努力把聊天机器人做的越来越好。比如 Facebook 现在也开始布局，目前 Alexa 主打还是任务导向，其实也在此领域开始投入。未来小冰仍将通过已有的优势，比如用户与数据优势，持续打磨技术，希望继续处于领先水平。未来，小冰的核心仍然是对话引擎、AI 创造以及解决方案。能够在情感计算框架下诞生更多聊天机器人服务于更多的合作伙伴，也是我们期待的事情。第七代小冰还是值得大家期待的。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4772

浏览量
100838
核心技术

核心技术

+关注

关注
4

文章
625

浏览量
19619
聊天机器人

聊天机器人

+关注

关注
0

文章
339

浏览量
12321

原文标题：“万人迷”小冰背后的AI故事

文章出处：【微信号：rgznai100，微信公众号：rgznai100】欢迎添加关注！文章转载请注明出处。

【「具身智能机器人系统」阅读体验】1.初步理解具身智能

影响与发展，提供了全球及国内行业趋势的见解。书中详细讨论了这一新兴领域面临的诸多挑战，从应用的不确定性、昂贵的成本到伦理问题，为读者呈现了当前形势的现实视角。接下来，书中深入探讨了具身智能机

发表于 12-28 21:12

自然语言处理在聊天机器人中的应用

随着人工智能技术的飞速发展，聊天机器人已经成为我们日常生活中不可或缺的一部分。从客户服务到个人助理，聊天机器人的应用范围越来越广泛。这些机器人

发表于 12-05 15:24 •460次阅读

马斯克旗下xAI计划推出Grok聊天机器人独立应用

与当前市场中的佼佼者OpenAI展开竞争。 Grok聊天机器人作为xAI公司的核心产品，一直备受关注。此次推出的独立应用程序，将为Grok提供一个更加广阔的展示舞台，使其能够更好地服务于广大用户。通过这款应用，用户可以更加便捷地与Grok进行交互，享受更

发表于 11-29 13:38 •182次阅读

NLP技术在聊天机器人中的作用

聊天机器人，也称为聊天AI，是一种通过文本或语音与人类进行交流的软件。它们广泛应用于客户服务、在线购物、个人助理等领域。NLP技术是实现聊天机器人智能对话能力的关键。 1. 理解用户意

发表于 11-11 10:33 •454次阅读

ChatGPT 与传统聊天机器人的比较

随着人工智能技术的飞速发展，聊天机器人已经成为我们日常生活中不可或缺的一部分。从简单的客服助手到复杂的个人助理，这些虚拟助手正在逐渐改变我们与技术的互动方式。在众多

发表于 10-25 16:16 •597次阅读

机器人技术的发展趋势

机器人技术的发展趋势呈现出多元化、智能化和广泛应用的特点。一、智能化与自主化人工智能（AI）与机器学习： AI和机器学习在

发表于 10-25 09:27 •1022次阅读

Meta人工智能聊天机器人进军新市场，挑战ChatGPT

Meta近日宣布，其人工智能聊天机器人将进军21个新市场，与OpenAI的ChatGPT展开激烈竞争。

发表于 10-11 16:29 •309次阅读

精准定位，深度清洁：揭秘工厂清洁机器人的核心技术

探索这些智能清洁卫士背后的核心技术，感受科技带来的变革与惊喜。工厂清洁机器人的精准定位技术，是其高效作业的前提与保障。不同于传统清洁方式，这些机器人搭载了高精度的激光雷达、视觉传感器

发表于 09-28 06:33 •511次阅读

Snapchat聊天机器人集成谷歌Gemini技术

Snap与谷歌云的战略合作再升级，为Snapchat平台注入了新的智能活力。双方宣布，Snapchat的My AI聊天机器人将深度集成谷歌Gemini技术，这一创新举措标志着Snapchat在人工智能应用领域的又一次飞跃。

发表于 09-25 14:51 •297次阅读

Meta将推出音频版聊天机器人

Meta公司即将在年度Connect大会上揭晓一项创新举措：推出音频版聊天机器人。据可靠消息，Meta已与Judi Dench、Kristen Bell及John Cena等多位国际知名演员达成合作

发表于 09-24 15:18 •460次阅读

AI聊天机器人Grok向欧洲X平台Premium会员开放

社交平台X的首席执行官琳达·亚卡里诺宣布，全新研发的Grok人工智能聊天机器人正式向欧洲的X Premium会员提供服务。Grok是X平台精心打造的一款AI聊天机器人，旨在提升欧洲会员的交流体验。

发表于 05-17 09:38 •426次阅读

揭秘聊天机器人的“大脑”-大语言模型

如果说 AI 正处于改变历史的“iPhone 时刻”，那么聊天机器人就是其首批热门应用之一。

发表于 04-17 10:01 •739次阅读

英伟达引领AI新潮流，推出“Chat with RTX”聊天机器人

随着人工智能技术的突飞猛进，英伟达（NVIDIA）再次展现了其技术领导地位，为Windows PC用户带来了一款革命性的本地聊天机器人应用程序——“Chat with RTX”。这一创新应用的推出，不仅标志着人工智能在日常生活中

发表于 02-19 11:11 •1011次阅读

英伟达推出全新AI聊天机器人

近日，英伟达（Nvidia）宣布推出其全新的AI聊天机器人——“Chat With RTX”。这款聊天机器人被视为英伟达版的ChatGPT，为用户提供了一个全新的、本地化的AI交互体验。

发表于 02-19 11:09 •933次阅读

谷歌AI聊天机器人改名为Gemini

谷歌(Google)近日宣布，旗下备受瞩目的AI聊天机器人Bard正式更名为Gemini，并推出了一款功能更加强大的付费版本——Gemini Advanced。这一战略调整旨在与微软、OpenAI等科技巨头在AI聊天机器人市场展开更为激烈的竞争。

发表于 02-18 11:28 •1121次阅读

搜索历史

深入“万人迷”小冰的核心技术与聊天机器人技术的发展趋势！

评论

【「具身智能机器人系统」阅读体验】1.初步理解具身智能

自然语言处理在聊天机器人中的应用

马斯克旗下xAI计划推出Grok聊天机器人独立应用

NLP技术在聊天机器人中的作用

ChatGPT 与传统聊天机器人的比较

机器人技术的发展趋势

Meta人工智能聊天机器人进军新市场，挑战ChatGPT

精准定位，深度清洁：揭秘工厂清洁机器人的核心技术

Snapchat聊天机器人集成谷歌Gemini技术

Meta将推出音频版聊天机器人

AI聊天机器人Grok向欧洲X平台Premium会员开放

揭秘聊天机器人的“大脑”-大语言模型

英伟达引领AI新潮流，推出“Chat with RTX”聊天机器人

英伟达推出全新AI聊天机器人

谷歌AI聊天机器人改名为Gemini