斯坦福NLP的强大QA数据集-电子发烧友网

很多朋友在互联网搜索问题的时候都会大赞引擎返回的结果，而不是丢给你一堆链接让你自己去查找。各类搜索引擎会对问题进行有效的匹配，总能准确的告诉你世界上有多少个国家、中国的面积有多大，以及今年清明放几天假。但是面对更为复杂的问题可能搜索引擎黔驴技穷了，比如你想要去把上周末贪心吃掉一大块巧克力芝士蛋糕运动燃烧掉，无论是谷歌百度还是必应搜狗都没办法告诉你需要骑多久的车、走多远的路才能燃烧你的卡路里。但是，任何一个人都可以从引擎返回的前面一两条链接内容里找到自己的答案。

在如今这个信息爆炸的时代，无数的信息和知识文本让我们目不暇接。让机器替代我们去阅读海量的文献并为我们提供相关问题的答案在当今社会有着十分巨大的现实需求和重要的现实意义，机器阅读理解和问答已经成为了自然语言处理领域的关键任务，这一能力将会实现像电影时光机器中那位知识渊博的图书管理员一样强大的智能 AI知识系统。

近年来，类似SQuAD和TriviaQA等大规模的问答数据集促进了这一领域的快速发展，庞大的数据集是的研究人员可以训练更大更深更强的深度学习模型。通过这些庞大数据集驱动的算法已经可以通过在百科中搜寻合适的内容来回答很多随机的问题，而无需人类亲力亲为寻找答案。

SQuAD数据集从超过500篇百科文章中收集了超过10万个问题，文章的每一段都列出一系列独立的问题和与之相对应段落内一段连续内容作为答案。这种方式又称为“抽取式问答” 。

虽然这些数据集推动着这一领域飞速发展，但依然存在不可回避的问题。事实上研究人员发现模型并没有理解问题的内涵，而更多地倾向于去对问题的答案进行模式匹配。

From Jia and Liang. 研究显示模型只学会了匹配城市名字而不是理解问题和答案。

为了克服这些问题，斯坦福NLP组的研究人员们Peng Qi & Danqi Chen提出了两个新的数据集。在这篇文章中，研究人员探索了如何拓展现有机器阅读系统的能力，并基于这两个新的数据集探索了在问答任务中机器“阅读”与“推理”间的相关性，以突破机器以简单的模式匹配方式来回答问题。

其中CoQA数据集集中于对话的角度，通过自然对话的形式引入与文本段落相关丰富的上下文信息来为问答系统提供对话角度的探索方向。而HotpotQA数据集则超越了段落内容，主要集中于解决需要综合多个文本，并进行有效推理才能获得答案的复杂挑战。

CoQA数据集

绝大多数现存的问答系统局限于独立的回答问题（类似于SQuAD）。尽管这也是一种问答方式，但对人人类来说更常见的做法是听过一系列你问我答的具有相互关联的交流对话来获取有效信息。CoQA就是这样一个机遇对话问答的数据集，其中包含了自七个领域的8千个对话过程，共十二万七千个问答数据，可以有效解决现有AI问答系统中存在的上述问题。

CoQA主要包含了从各种来源收集的文章，以及关于文章内容的一系列相关对话。对话的每一轮包含一个问题及其答案，同时每一个问题都依赖于先前的问题。与SQuAD以及其他现存的数据集不同的是，这一数据集中对话历史对于回答很多问题的答案是不可或缺的。例如在上面例子中的第二个问题，在没有对先前回答历史理解的情况下是无法回答的。此外在对话中人们的注意力中心会随着对话的进行而转移，例如前述例子中的从问题四中的他们，到问题五中的他再到问题六中的他们，对于机器来说要回答这类对话中心迅速变化问题充满了调整，数据集中的问题需要机器能够更加理解对话的上下文内容才能有效回答。

CoQA还具有很多不同于先前数据集的新特征:

首先这一数据集并不会像SQuAD一样将答案限制在文章中一个连续地区域。研究人员认为一个问题的答案不仅仅局限于一个单一的部分，而是会分布在文章各处。此外研究人员希望这一数据集可以支持自动评价，问题的答案可以获得人类的认同。所以数据集的标注者不仅标注出了文章中对应的部分（作为给出答案的理由），同时将这些部分编辑为了自然语言形式的回答。这些给出答案的理由将提升问答系统模型的训练效果。

其次现存的QA数据集大都集中在单个领域，使得基于这些数据集训练的模型不具有通过的泛化能力。为了解决这一问题CoQA数据集收集了来自儿童故事、文学、中学英语测试、新闻、百科、Reddit和科学等七个领域的不同材料，使得数据集具有了更为丰富的特性。

通过对数据集进行深度的分析，研究人员发现了一系列丰富的语言学现象。首先27.2%的问题需要进行实际的推理，包括常识和预测的辅助，而不能简单的从文章内容中进行转述。比如需要通过对于主人公动作的描写来推测他的性格。只有29.8%的问题可以直接通过文本匹配来回答。此外研究人员发现有30.5%的问题并不依赖于讨论历史,49.7%的问题包含“它”、“他”、“她”等清晰的讨论语言标志，额外19.8%的问题需要参考整个段落或事件来进行回答。