0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一个新任务:给定知识图谱中的一条query path,生成对应的问题

深度学习自然语言处理 来源:深度学习自然语言处理 作者:深度学习自然语言 2020-10-10 10:29 次阅读

引言

EMNLP2020中,复旦大学数据智能与社会计算实验室 (Fudan DISC) 提出了一篇基于事实的问题生成工作,论文题目为:PathQG: Neural Question Generation from Facts,被录取为长文。

文章摘要

关于问题生成的当前研究通常将输入文本作为序列直接编码,而没有明确建模其中的事实信息,这会导致生成的问题和文本不太相关或者信息量较少。在这篇论文中,我们考虑结合文本中的事实以帮助问题生成。我们基于输入文本的事实信息构造了知识图,并提出了一个新任务:给定知识图中的一条query路径生成问题。任务可以被分为两个步骤,(1)对query表示的学习;(2)基于query的问题生成。我们首先将query表示学习定义为序列标记问题,以识别涉及的事实从而学习到一个query表示,之后使用基于RNN的生成器进行问题生成。我们以端到端的方式共同训练这两个模块,并提出通过变分框架加强这两个模块之间的交互。我们基于SQuAD构造了实验数据集,实验结果表明我们的模型优于其他方法,并且当目标问题复杂时,性能提升更多。通过人工评估,也验证了我们生成的问题的确和文本更相关且信息更丰富。

研究动机

本文关注基于文本的问题生成任务(Question Generation from Text):输入一段文本,自动生成对应的问题。

当前端到端的问题生成研究,通常对输入文本直接编码并学习一个隐表示,而没有对其中的语义信息进行明确建模,这会使得生成过程有较大不确定性,导致生成的问题包含和给定文本不相关的信息或者信息量较少,如下图显示,生成的问题Q2包含了不相关的信息“Everton Fc”,而Q1虽然正确但是缺少特定的信息描述,显得比较简略。

先对输入文本中的事实(facts)进行建模可以减轻这些问题,并且针对文本中的多个事实,可以生成较为复杂(complex)的问题。我们通过对给定文本构建知识图谱(Knowledge Graph,KG)来表示其中的事实,并提出一个新任务:给定知识图谱中的一条query path来生成问题,其中query path是一条由多个事实三元组构成的序列,每个事实三元组包含两个实体以及它们的关系。如上图(b)显示了一个KG以及其中的两条query paths。

由于query path中并非所有事实都会在目标问题中被提及,我们首先需要学习一个query representation来表示query path中会被提及的事实信息,并基于此生成对应的问题,因此任务可以分成两个步骤:(1)对query representation的学习;(2)基于query的问题生成。我们以端到端的方式共同训练这两个模块,并提出通过变分框架加强这两个模块之间的交互。

我们使用了数据集SQuAD,并且为了验证模型在复杂问题生成上的效果,基于SQuAD构造了一个复杂问题数据集,并分别进行了实验。

模型

Path-based Question Generation

给定query path的问题生成任务包含两个步骤,我们设计两个模块:Query Representation Learner和Query-based Question Generator分别进行任务中的两个步骤。我们首先以端到端的框架PathQG共同训练这两个模块,具体结构如下图显示。

1. Query Representation Learner

由于query path中的不同的实体和关系会对生成目标问题有不同的贡献度,我们首先计算它们各自的贡献权重,从而学到一个query representation来表示目标问题将涉及的事实信息。

贡献权重计算:将query path看作是一条由实体和关系相间构成的序列,并将query path中各个成分的贡献度计算看作是一个序列标记过程。并且对输入文本进行编码作为context,通过attention帮助序列标记的概率计算,最后将各个位置的sigmoid概率作为各自的贡献权重。

Query表示学习:得到query path的各个成分的贡献权重后,我们以加权的方式对query path编码,学习到对应的query representationL。考虑到query path由实体和关系相间构成的特殊结构,我们使用循环跳跃网络(recurrent skipping network, RSN)来对路径序列进行编码。

2. Query-based Question Generator

基于学到的query representationL,解码生成对应的问题。将最后的query representation和context表示联合作为解码器的初始状态,并分别对他们执行注意力机制,逐步生成问题。

Variational Path-based Question Generation

对query representation的学习可以看成是对query path的一个推断过程,参考变分推断的思想,我们将query representation的学习看作是推导query的先验分布(prior query distribution),而基于query的问题生成是在计算目标问题的likelihood,我们又引入了一个额外的后验query分布(posterior query distribution),通过将目标问题作为指导来帮助减少query representation学习的不确定性。并且通过训练,使得query的先验分布不断靠近后验分布,最终提升生成的问题质量。变分PathQG的结构如下图。

实验

我们在SQuAD数据集上进行了实验,对每一条文本,通过场景图解析器(scene garph parser)和词性标注器(part-of-speech tagger)自动构建了知识图谱,并且根据参考问题从知识图谱中抽取出对应的query path。为了进一步验证模型在复杂问题生成上的效果,我们还根据query path中事实三元组的个数从SQuAD中划分了一个复杂问题数据集。在全数据集和复杂数据集上的实验结果显示我们的模型都优于其他模型。

除了自动评估,我们还通过Amazon Mechanical Turk (AMT)进行了人工评估,分别从问题的流利度、正确性(和给定文本和答案一致)、信息量对不同模型生成的问题进行了两两比较,结果显示我们的模型也取得不错效果。

我们还通过对不同模型生成的问题和给定文本之间的重叠率进行比较,来评估生成问题和给定文本的相关性。

最后还进行了一些案例分析,可以看出相对模型NQG+,我们生成的问题更加和文本相关和有信息量。在第一个样例中,我们生成的问题包含有特定信息“plymouth”和“late 18th”而*NQG+没有,而在第二个例子中NQG+*生成的问题包含不相关的“swazi economye”而我们生成的和给定文本更一致。

总结

这篇文章中,我们通过知识图谱对文本中的事实建模用于问题生成,并提出一个新任务:给定知识图谱中的一条query path,生成对应的问题。我们提出先学习一个query representation来表示问题中可能涉及的事实,再生成问题,将这两个模块联合进行训练并提出一个变分模型提升问题的生成。我们通过自动构建知识图谱并抽取出对应的query path构建了我们的实验数据集,结果验证了我们模型的有效性。

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码
    +关注

    关注

    6

    文章

    954

    浏览量

    54911
  • 生成器
    +关注

    关注

    7

    文章

    319

    浏览量

    21076
  • 数据集
    +关注

    关注

    4

    文章

    1209

    浏览量

    24781

原文标题:【论文】PathQG: 基于事实的神经问题生成

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    2025未来产业创新任务 | 清洁氢

    据悉,1月17日,工业和信息化部办公厅发布《关于组织开展2025年未来产业创新任务揭榜挂帅工作的通知》(简称《通知》)。《通知》显示,揭榜任务内容面向量子科技、原子级制造、清洁氢3未来产业,布局
    的头像 发表于 01-22 08:19 33次阅读
    2025未来产业创<b class='flag-5'>新任务</b> | 清洁氢

    三星自主研发知识图谱技术,强化Galaxy AI用户体验与数据安全

    据外媒11月7日报道,三星电子全球AI中心总监Kim Dae-hyun近日透露,公司正致力于自主研发知识图谱技术,旨在进步优化Galaxy AI的功能,提升其易用性,并加强用户数据的隐私保护。
    的头像 发表于 11-07 15:19 707次阅读

    socket对应连接吗

    在探讨“socket对应连接”这命题时,我们首先需要明确socket的基本概念和它在网
    的头像 发表于 08-16 10:55 553次阅读

    请问LM311能准确的交截生成对应的PWM波形吗?

    UC3825, TLV3501输入正是100k的正弦波 输入负是100kHz的锯齿波 二者交截生成PWM波形 请问LM311能准确的交截生成对应的PWM波形吗 之前使用UC3525里面自带的比较器做的,LM311能达到这样的速度吗
    发表于 08-06 07:46

    革新未来智能版图,神州数码荣登IDC生成式AI图谱

    的显著位置,在GenAI应用行业板块、GenAI平台模型构建与编排板块均榜上有名,标志着神州数码不仅自身在生成式AI领域的技术创新和行业应用方面迈出了坚实的步,也为企业智能化转型提供了一条
    的头像 发表于 07-29 15:20 431次阅读
    革新未来智能版图,神州数码荣登IDC<b class='flag-5'>生成</b>式AI<b class='flag-5'>图谱</b>

    在No-OS SDK 1.4.0上,如何直接收UART0消息呢?

    我应该在 interupt 函数添加代码还是在新任务添加代码 谁能帮忙给出完整的可行例子?
    发表于 07-22 06:14

    三星电子将收购英国知识图谱技术初创企业

    在人工智能技术日新月异的今天,三星电子公司再次展现了其前瞻性的战略布局与技术创新实力。近日,三星正式宣布完成了对英国领先的人工智能(AI)与知识图谱技术初创企业Oxford Semantic Technologies的收购,此举标志着三星在提升设备端AI能力、深化个性化用户体验方面迈出了重要
    的头像 发表于 07-18 14:46 562次阅读

    迟滞比较器的输出为一条直线的原因

    ,如果迟滞比较器的输出为一条直线,这可能是由于多种原因造成的。 迟滞比较器的工作原理 在讨论迟滞比较器输出为一条直线的原因之前,我们首先需要了解其工作原理。迟滞比较器通常由运算放大
    的头像 发表于 07-11 09:36 1004次阅读

    知识图谱与大模型之间的关系

    在人工智能的广阔领域中,知识图谱与大模型是两至关重要的概念,它们各自拥有独特的优势和应用场景,同时又相互补充,共同推动着人工智能技术的发展。本文将从定义、特点、应用及相互关系等方面深入探讨知识图谱与大模型之间的关系。
    的头像 发表于 07-10 11:39 1174次阅读

    生成对抗网络(GANs)的原理与应用案例

    生成对抗网络(Generative Adversarial Networks,GANs)是种由蒙特利尔大学的Ian Goodfellow等人在2014年提出的深度学习算法。GANs通过构建两
    的头像 发表于 07-09 11:34 1236次阅读

    如何手撸自有知识库的RAG系统

    用于自然语言处理任务,如文本生成、问答系统等。 我们通过下几个步骤来完成基于京东云官网文档的RAG系统 数据收集 建立
    的头像 发表于 06-17 14:59 640次阅读

    请问UCOSIII如何切换到新任务

    UCOS/III 是在PendSV中断里切换任务的,最后BXLR(见红色字体),LR是旧任务返回地址, 所以应该跳到旧任务继续执行,为什么会跳转到新任务了呢?希望高手能解惑。PendS
    发表于 05-09 06:35

    在使用spc5 stdio的时候生成对应的功能,main.c里面为什么没有调用对应的接口?

    在使用spc5 stdio的时候生成对应的功能,main.c里面怎么没有调用对应的接口; eg:这是怎么回事?
    发表于 03-26 07:00

    利用知识图谱与Llama-Index技术构建大模型驱动的RAG系统(下)

    对于语言模型(LLM)幻觉,知识图谱被证明优于向量数据库。知识图谱提供更准确、多样化、有趣、逻辑和致的信息,减少了LLM中出现幻觉的可能性。
    的头像 发表于 02-22 14:13 1276次阅读
    利用<b class='flag-5'>知识图谱</b>与Llama-Index技术构建大模型驱动的RAG系统(下)

    UCB_SWAP配置信息共16,写入一条有效配置后,上一条需写1使配置无效是为什么?

    UCB_SWAP配置信息共16,写入一条有效配置后,上一条需写1使配置无效。 经过实测发现配置是从下至上检索,取最后一条有效配置,而不是从上至下检索,取第
    发表于 01-24 08:31