0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

论辩挖掘在不同领域下的应用

深度学习自然语言处理 来源:复旦DISC 作者:李寅子 2022-03-30 16:15 次阅读

引言

论辩研究和推理是一个涉及到逻辑、语言、计算机等多学科领域的过程,在人工智能兴起的时代,计算论辩试图将人类对于论辩领域的知识和人工智能结合起来,用计算机深度模型来挖掘论辩语义、论辩结构等方面,达到自动推理的效果。论辩挖掘是计算论辩中的一个重要任务,它的主要任务有单篇式论辩挖掘,包括提论点分类、论点评估等;交互式论辩挖掘,包括论点对抽取等。此次的三篇论文将阐述论辩挖掘在司法领域、论辩领域、同行评议领域等的证据链支持、反驳证据评估、论点对抽取等方面应用。

文章概览

1.Argumentation-Driven Evidence Association in Criminal Cases

刑事案件中的证据关联是将一组司法证据划分为若干不重叠的子集,提高定罪的可解释性和合法性。可以观察到,分成同一子集的证据通常支持同一主张。在证据关联步骤中,此篇文章提出了一种基于论证驱动(argumentation-driven)的监督学习方法来计算证据对之间的联系。在实际数据集上的实验结果证明了该方法的有效性。

2. Knowledge-Enhanced Evidence Retrieval for Counterargument Generation

找到对陈述的反证是许多任务的关键。此篇文章建立了一个系统,给出一个陈述,从Web上不同的来源检索反证据。该系统的核心是一个自然语言推理(natural language inference, NLI)模型,它可以判断一个候选句子是否为有效反证。作者提出了一个知识增强的NLI模型,旨在通过整合知识图来处理基于因果关系和实例的推理。在实际数据集上的实验结果证明了该方法的有效性。

3. Argument Pair Extraction with Mutual Guidance and Inter-sentence Relation Graph

此篇文章通过一个相互引导的框架来处理论点对抽取(APE)任务,利用一个段落中一个论点的信息来指导识别另一个段落中可以与之配对的论点。此外,此篇文章还提出了一个句间关系图来有效地模拟两个句子之间的相互关系,从而有利于论点对的提取。实验结果表明,我们的方法明显优于目前SOTA的模型。

论文细节

1

31e12e0c-afe7-11ec-aa7f-dac502259ad0.png

动机

司法证据的作用是用来支持有利于定罪的诉讼请求,证据描述是刑事判决书的重要组成部分。然而,在不同的法律文件中,证据的组织是不同的。证据关联的形式主要有收集式(collection)和论证驱动式(argumentation-driven)。

31fca178-afe7-11ec-aa7f-dac502259ad0.png

在目前大多数的刑事裁判文书中,证据只是以集合的形式罗列出来,没有明确的主张,这被认为是集合的形式。但仅在5%左右的刑事判决文书中,依据相关主张将证据收集分为几个子集,被认为是论证驱动的形式。

由此,此篇文章提出了一项刑事案件中的证据关联任务,通过有监督的方法学习距离度量,无需额外的人工标注即可进行后续证据的聚类。

任务定义

给定证据集合,此篇文章将证据分为不重叠的个子集。

模型

(1)聚合方法

每一种情况下的聚类数量是不同的,所以不能像K-Means方法那样设置一个特定的聚类数量。作者通过层次聚类来聚类证据(Day and Edelsbrunner, 1984),它可以学习停止阈值,该阈值决定何时停止合并两个聚类。

(2)距离度量

本文提出了三种距离度量的概念,分别是Latent Distance、Explicit Distance和Ensemble Distance。

Latent Distance是证据之间的距离。在不给出明确主张的情况下,只能利用证据对的信息来计算它们之间的距离。支持同一主张的证据对之间的距离被标记为0,支持不同主张的证据对之间的距离被标记为1。

Explicit Distance是证据与主张之间的距离。证据和相应的主张之间有很强的相关性,例如,交通事故责任证明可以支持交通事故的责任划分。证据与相应主张的相关性分值为1,证据与其他主张的相关性分值为0。

Latent Distance仅利用证据之间的语义信息来计算相似度。Explicit Distance仅利用证据与主张之间的推理关系来计算证据之间的距离。Ensemble Distance将这两种方法融合在一起,同时利用证据之间的语义信息和证据与主张之间的推理信息,定义为这两个距离的加权和。

数据集及实验

作者以China Judgements Online中已发表的法律文件构建了一个数据集,选择如下图所示证据描述为论证驱动形式的法律文件进行实验。

321a08f8-afe7-11ec-aa7f-dac502259ad0.png

作者主要采用ESIM和BERT进行有监督学习的距离预测,结果如下表所示。

32355220-afe7-11ec-aa7f-dac502259ad0.png

表中的结果显示,有监督方法的性能较好。同时,BERT模型优于ESIM模型。可能的原因是,支持同一观点的证据对有共现趋势,这可以在BERT模型的下一个句子预测(next sentence prediction)任务中学习到。

Latent distance算法利用了证据对之间的语义信息,其性能优于explicit distance。基于ensemble distance的聚类结果由于整合了证据对之间和证据主张之间的关系,比单一距离的聚类结果有很大的提高。

3250a840-afe7-11ec-aa7f-dac502259ad0.png

如上图所示,claim1和claim2分别代表受害人的出生日期和死亡日期。受害者的户籍证明和死亡证明都能部分支持受害者的身份信息,但由于在使用Latent distance时只考虑证据对之间的关系,误将它们聚在一起。Claim4和claim5是相似的,它们都是对交通事故现场的描述,但由于在使用explicit distance时几乎没有考虑证据对之间的语义关系,将被告人王某的供述和证人董某的证言误聚在一起。从而将证据对之间的语义关系与证据主张之间的信息相结合,通过ensemble distance得到的聚类结果是正确的。

2

326bb46e-afe7-11ec-aa7f-dac502259ad0.png

动机

先前的研究大多集中于对长论点的主要结论提出反驳。虽然这样的反驳是有用的,但辩论式的对话通常是互动的,例如,在Change-MyView (CMV)中,挑战者经常引用特定的陈述来进行反驳。因此,本文的目标是为论点中的特定陈述找到反证,而不是为一个完整的论点生成一个反证。

任务定义

自然语言推理(natural language inference, NLI)模型是本文的核心,给定一个要反驳的陈述,系统对相关文档进行检索和排序,然后得到一组反证候选句。对于每个候选句,NLI模型决定它和陈述的关系是否包含、矛盾,或两者都不是。

模型

在本篇文章中,作者提出了知识增强NLI模型(KENLI),如下图所示。

3280ee42-afe7-11ec-aa7f-dac502259ad0.png

KENLI(图左)是基于RoBERTa-base ,以一对前提P和假设H为输入,计算其关系是蕴含、矛盾还是中性的概率。为了连接P和H之间的实体,知识增强(Knowledge Enhancement, KE)网被插入到某两层之间,将RoBERTa分为Encoder1和Encoder2。最后的预测是基于【CLS】进行的。

KE Net(图中)利用了知识图谱(knowledge graph, KG),其中节点是实体,边是实体之间的有向关系。KG目标是让信息通过KG在P和H的实体之间流动。KE Net是由一堆KE单元组成,每个KE单元使用两个transformer TR1和TR2处理KG上的单跳推理。TR1根据相邻实体更新每个实体embedding,TR2根据实体embedding更新词项embedding。本篇文章中使用了两个知识图谱CauseNet和Wikidata。

数据集及实验

此篇文章的数据主要来自公开的NLI数据集:MNLI (Williams et al., 2018)、ANLI (Nie et al., 2020b)、SNLI (Bowman et al., 2015)和FEVER-NLI (Nie et al., 2019)。实验的结果如下表所示,显示了每个模型5次实验的平均F1得分。

32a33cae-afe7-11ec-aa7f-dac502259ad0.png

表中可以看出KENLI(6-9行)基本上优于Baseline模型(1-5行)。这表明KENLI有效地整合了知识,有利于预测陈述之间的关系。

最后作者建立了反证检索系统,是在DeSePtion (Hidey et al., 2020)的基础上建立的。如下图所示。

32c2ae22-afe7-11ec-aa7f-dac502259ad0.png

给定一个要验证的陈述语句,检索相关文档并对其进行排序,对候选证据句进行排序,并预测该语句是被支持、被反驳还是都不支持。作者通过提出的知识增强NLI模型来强化了最后一个阶段。

3

32ddfc18-afe7-11ec-aa7f-dac502259ad0.png

动机

论点对抽取(Argument pair extraction, APE)的目的是从讨论的两段中抽取出交互式的论证对。

32f88ede-afe7-11ec-aa7f-dac502259ad0.png

以往的研究将该任务应用在同行评议中,但是缺乏论点对之间的论点级别交互的显式建模。此篇文章通过一个相互引导的框架来处理APE任务,利用一个段落中一个论点的信息来指导识别另一个段落中可以与之配对的论点。此外,此篇文章还提出了一个句间关系图来有效地模拟两个句子之间的相互关系,从而有利于论点对的提取。实验结果表明,我们的方法明显优于目前SOTA的模型。

模型

此篇文章提出了一个具有句间关系图的APE相互引导框架MGF,如下图所示。

3325aaa4-afe7-11ec-aa7f-dac502259ad0.png

(1)Inter-sentence Relation Graph

该图将review和rebuttal中的每一个句子作为节点,从两个角度进行构建。

In-passage Edge:根据句子(同一个段落中)在review/rebuttal段落中的相对位置,构建句子之间的边。两个in-passage句子之间边的权重的定义为:

Cross-passage Edge:基于两句之间的共现词,构建跨段落的句子边缘。两个in-passage句子之间边的权重的定义为:

(2)Mutual Guidance Framework

相互引导框架(mutual Guided Framework, MGF)首先使用BERT对句子进行编码,然后通过图卷积得到面向关系的句子表示法后,使用两个相互引导的标记器提取论点对。

数据集及实验

此篇文章使用Cheng等人(2020)提出的Review-Rebuttal (RR)数据集进行实验,该数据集包含从openreview.net收集的4,764篇ICLR的review/rebuttal文本对。Baseline是Cheng等人(2020)提出的PL-H-LSTM-CRF和MT-H-LSTM-CRF 。实验的结果如下表。

334e342e-afe7-11ec-aa7f-dac502259ad0.png

从表中可以看出,作者提出的模型MGF在数据集上取得了最好的性能。在不使用BERT微调的情况下,Non-FT-MGF的性能仍然优于MT-H-LSTM-CRF,这表明MDF实现的性能增益不仅仅是由于BERT微调。通过对MGF和Non-FT-MGF的比较,可以发现BERT微调可以进一步改善模型结果。

参考文献

[1] Yefei Teng and WenHan Chao. 2021.Argumentation-Driven Evidence Association in Criminal Cases. InFindings of the Association for Computational Linguistics: EMNLP 2021, pages 2997–3001, Punta Cana, Dominican Republic. Association for Computational Linguistics.

[2] Yohan Jo, Haneul Yoo, JinYeong Bak, Alice Oh, Chris Reed, and Eduard Hovy. 2021.Knowledge-Enhanced Evidence Retrieval for Counterargument Generation. InFindings of the Association for Computational Linguistics: EMNLP 2021, pages 3074–3094, Punta Cana, Dominican Republic. Association for Computational Linguistics.

[3] Jianzhu Bao, Bin Liang, Jingyi Sun, Yice Zhang, Min Yang, and Ruifeng Xu. 2021.Argument Pair Extraction with Mutual Guidance and Inter-sentence Relation Graph. InProceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pages 3923–3934, Online and Punta Cana, Dominican Republic. Association for Computational Linguistics.

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1791

    文章

    46760

    浏览量

    237331
  • 模型
    +关注

    关注

    1

    文章

    3143

    浏览量

    48677
  • 数据集
    +关注

    关注

    4

    文章

    1205

    浏览量

    24631

原文标题:EMNLP 2021 | 论辩挖掘在不同领域下的应用

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    精准定位隧道挖掘通讯难题:虹科PCAN卡如何满足专业通讯需求?

    现代隧道挖掘行业中,电控系统作为设备的“大脑”,其性能优劣直接关系到设备的整体运作效率与安全性。本文将深入探讨虹科PCAN卡在隧道挖掘机器电控系统中的应用,了解它是如何提升设备性能,确保工程
    的头像 发表于 11-14 01:01 66次阅读
    精准定位隧道<b class='flag-5'>挖掘</b>通讯难题:虹科PCAN卡如何满足专业通讯需求?

    RISC-VAI领域的发展前景怎么样?

    随着人工智能的不断发展,现在的视觉机器人,无人驾驶等智能产品的不断更新迭代,发现ARM占用很大的市场份额,推出的ARM Cortex M85性能也是杠杠的,不知道RISC-VAI领域有哪些参考方案?
    发表于 10-25 19:13

    FPGA图像处理领域的优势有哪些?

    FPGA(Field Programmable Gate Array,现场可编程门阵列)图像处理领域具有显著的优势,这些优势主要体现在以下几个方面: 一、高并行处理能力 FPGA内部拥有大量的逻辑
    发表于 10-09 14:36

    电感式传感器工程机械之挖掘机上的应用

    兰宝传感的电感式传感器挖掘机上的应用提高了作业的自动化和智能化水平,增强了设备的可靠性和安全性,是现代工程机械设备中不可或缺的重要组成部分。随着技术的不断进步,电感式传感器的应用范围将进一步扩大,为工程建设带来更多的便利和效率。
    的头像 发表于 09-14 09:20 266次阅读

    中科曙光受邀参加第十届中国数据挖掘会议

    近日,国内数据挖掘领域最主要的学术活动之一—第十届中国数据挖掘会议(CCDM2024)于山东泰安举行,中科曙光参与并分享了曙光AI构建产学研用的生态实践。
    的头像 发表于 08-01 10:43 548次阅读

    FPGA自动驾驶领域有哪些应用?

    FPGA(Field-Programmable Gate Array,现场可编程门阵列)自动驾驶领域具有广泛的应用,其高性能、可配置性、低功耗和低延迟等特点为自动驾驶的实现提供了强有力的支持。以下
    发表于 07-29 17:09

    论述RISC-CIOT领域的发展机会

    RISC-VIoT(物联网)领域的发展机会可以归纳为以下几点: 高度开源与可扩展性: RISC-V作为一个开源且免费的指令集架构(ISA),为IoT设备提供了极高的灵活性和可扩展性。企业可以根据
    发表于 06-27 08:43

    标贝语音识别技术金融领域中的应用实例

    随着语音识别技术与文本挖掘、自然语言处理等技术的不断融合,智能语音交互技术金融领域中爆发了出巨大的应用潜力。标贝科技根据自身与金融领域合作的经验为大家梳理出以下几点智能语音识别技术
    的头像 发表于 05-16 16:55 523次阅读
    标贝语音识别技术<b class='flag-5'>在</b>金融<b class='flag-5'>领域</b>中的应用实例

    挖掘机生产装配线无线通讯应用

    一、应用背景 山东某挖掘机机械有限公司主要产品有装载机、挖掘机、道路机械及核心关键零部件等系列工程机械产品。为加速新旧动能转换,全新挖掘机整机装配线配合劳动组合的调整,提高装配水平和生产效率;可集中
    的头像 发表于 02-22 09:44 357次阅读
    <b class='flag-5'>挖掘</b>机生产装配线无线通讯应用

    iBeLink KS MAX 10.5T大算力领跑KAS新领域

    Kaspa是一种基于DAG(有向无环图)技术的加的密的货的币,它拥有高速、安全、可扩展的特点,是未来区的块的链领域的新星。为了挖掘Kaspa,我们需要一款专门的挖掘机,能够适应Kaspa的特殊算法
    发表于 02-20 16:11

    数据挖掘的应用领域,并举例说明

    揭示数据中隐藏的规律、关联和趋势,支持决策和预测。 数据挖掘广泛应用于各个领域,涉及金融、电子商务、医疗健康、交通运输、社交网络、市场营销、能源资源、航空航天、环境保护、国防安全等等。下面将详细介绍数据挖掘
    的头像 发表于 02-03 14:19 2887次阅读

    Volteq推出电动遥控迷你挖掘机Sky 1000

    Sky 1000 不仅支持常规的直立操作模式,同时也支持远程遥控,用户仅需手持遥控器,即可从最远处约 48.8 米处轻松操控挖掘机。此举让操作者拥有更广阔的观察视角,降低安全风险。针对可能出现的突发事件,遥控器及挖掘机本机均配置了紧急停止按钮。
    的头像 发表于 01-15 14:39 832次阅读

    GNSS模块海洋领域的应用

    随着科技的不断进步,GNSS(全球导航卫星系统)模块各个领域的应用逐渐成为日常生活的一部分。海洋领域,GNSS技术为航海、渔业、海洋科学研究等提供了关键的支持。本文将深入探讨GNS
    的头像 发表于 12-20 15:48 605次阅读

    充分挖掘SiC FET的性能

    充分挖掘SiC FET的性能
    的头像 发表于 12-07 09:30 350次阅读
    充分<b class='flag-5'>挖掘</b>SiC FET的性能

    占位符不同领域的应用

    计算机科学和人机交互领域中,占位符(Placeholder)是一种用于表示临时或未指定值的符号或字段。占位符软件开发和设计中起到重要的作用,特别是在用户界面设计和数据处理方面。随着数字时代的发展
    的头像 发表于 11-30 10:15 620次阅读