0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

自动跨主题作文属性评分研究

深度学习自然语言处理 来源:Robert Ridley 作者:Robert Ridley 2020-12-26 09:05 次阅读

01

研究动机

自动作文评分(英文叫Automated Essay Scoring,简称AES)旨在使用计算机来根据论文的整体质量或与某些属性(trait)相关的质量来评分,例如,文章组织、切题程度、叙述性等。现有的大多数研究都是针对同一主题的已评分作文数据集上进行模型的训练和预测(如图1左上角和左下角),其中训练和测试数据都是从同一分布中(DA)提取的。

958cca68-4690-11eb-8b86-12bb97331649.png

图1: AES任务概览

然而真实场景中的AES系统通常无法获得足够多的目标主题文章,因此有必要研究如何预测训练数据中不存在的主题的文章分数。因此,最近的一些研究探索了跨主题的AES,即从不同的主题中提取训练数据和测试数据(图1的右上角)。跨主题的AES研究目前只关注根据论文的整体性来评分,而我们认为一个有效的AES系统还应该能够提供属性级别的反馈,因此,我们引入了一个新的AES任务,即自动跨主题作文属性评分,该任务要求模型在仅有非目标主题作文进行训练的前提下,能够准确预测属于目标主题的文章的总分以及多个属性的分数(如图1右下角),其中训练和测试数据来自不同的分布,输出是不同属性的分数。

这项新的任务表现出两个主要的挑战:

第一,模型需要有足够的泛化能力,才能在新的主题中表现良好;

第二,模型需要能够从不同的方面表示文章质量,以便有效地对各种文章属性进行评分。

在探讨自动跨主题作文属性评分的任务中,我们解决了两个问题:

第一,属于不同题目的文章有不同的trait集,因此许多trait有部分覆盖率(论文中叫partial-trait coverage),这会导致某些trait的训练数据不足。例如,如果只有两个题目的文章在叙述性trait上有分数(所有其他题目的文章没有),那一个被训练为这一trait打分的模型只能在这两个题目的文章上进行训练;

第二,不同trait之间存在高度的相关性。例如,一个在word choice的trait上分数高的文章也可以预期在conventions上获得很好的分数。

为了解决partial-trait coverage的问题,我们引入了一种多任务的方法,即Cross-prompt Trait Scorer(CTS),该方法同时预测总体分数和所有trait的分数。这使得模型能够对训练集中的所有数据进行训练,以学习更鲁棒的表示。为了解决trait间关系的问题,我们设计了一个trait-attention机制,利用最相关的trait信息来预测每个trait的分数。

02

贡献

1.我们提出了一个新的任务,即自动主题作文属性评分,它将AES解决方案中的两个重要任务(跨主题作文评分和作文属性评分)结合起来,从而更贴近真实场景。

2.我们设计了一个新的方法叫Cross-prompt Trait Scorer(CTS),通过使用多任务方法来解决由于partial-trait coverage而导致训练数据受限的问题。

3.我们设计了一个trait-attention机制来利用不同trait之间存在的关系。

03

解决方案

我们的方法建立在PAES(Ridley et al. 2020,如图2左)之上,PAES是一个跨主题AES的SOTA方法。该方法利用词性嵌入来学习广义句法表示。首先,每个句子都有一个卷积层,通过attention pooling来实现句子级的表示。然后,这些表示被输入一个recurrent层,该层使用LSTM,然后是第二个attention pooling层来学习完整的文章表示。然后将一组非主题特定的特征与文章表示链接起来,最后通过一个线性层和sigmoid激活来预测单个分数。

这类方法通过独立地对每个trait进行训练,也可以直接应用于本文提出的新任务中,然而这样做有两个问题:首先,如果训练数据中只有少量的文章拥有目标trait的标签,那么就没有足够的数据来训练一个鲁棒的模型。其次,这些trait并不是相互独立的,而是相互关联的。这种简单的方法不利用任何隐含的trait间的关系。

为了解决上述问题,我们设计了一个名为Cross prompt Trait Scorer(CTS)的模型,如图2右所示。针对partial-trait coverage导致数据不足的问题,我们采用了基于多任务的体系结构,这使得模型能够对数据集中的所有样本进行训练,以便学习更鲁棒的编码器表示。为了解决trait间的关系问题,我们在模型的低级别实现共享层,然后在高级别实现私有层。共享层旨在学习对所有任务都有用的通用表示。在多任务结构中,高级别的层能够表示更复杂的信息,因此私有层被用来学习更多的任务特定表示。此外,为了更明确地共享trait之间的信息,我们设计了一个trait-attention机制,允许每个trait集中于其他trait的相关信息。

95a14b96-4690-11eb-8b86-12bb97331649.png

图2: PAES(左,Ridley et al. 2020)及本文给出的CTS模型(右)

04

实验

本文的实验是在Automated Student Assessment Prize(ASAP)数据集上进行的。ASAP数据集包含八个不同的文章集,每个集中的文章都有不同的题目。每一篇文章都会根据文章的整体质量获得一个人性化的评分,而文章集7和8的文章则会根据评分标准对一些相关trait进行额外评分。由于只有文章集7和8具有trait分数,因此我们还使用了ASAP++数据集,该数据集是在原始ASAP数据集的基础上构建的。ASAP++的作者为文章集1-6提供了各种相关trait的分数,以补充ASAP的原始总分。

表1: ASAP和ASAP++数据集中的属性定义

960f9150-4690-11eb-8b86-12bb97331649.png

每个文章集的trait如表1所示,文章集1-6的trait分数来自补充的ASAP++数据集,文章集7和8的trait分数来自ASAP数据集。所有的总分都来自原始的ASAP数据集。

在实验中,一个文章集的作文被用作测试数据,其余几组的文章被用作训练数据。对于每个文章集重复此操作。在每种情况下,开发集包含与训练集相同集的文章。

我们将CTS与四个baseline模型进行了比较,Hi att和AES aug都是在Prompt-specific Holistic scoring和Prompt-specific Trait Scoring都取得了很好性能的模型,PAES是我们的base模型,是一个面向Cross-prompt Holistic Scoring的SOTA方法,最后,CTS no att是我们的CTS模型的一个消融版本,没有添加trait-attention机制。

表2:各文章集的平均QWK值

965621d8-4690-11eb-8b86-12bb97331649.png

表3:各属性的平均QWK值

9681359e-4690-11eb-8b86-12bb97331649.png

在表2中,我们显示了每个文章集的所有trait的平均分数,在表3中,我们显示了每个trait的所有文章集的平均分数。从这两个表来看,我们可以看出两个面向Prompt-specific的方法(Hi att 和AES aug)都表现不好。这是因为这些模型不是为Cross-prompt的设置设计的,因此它们过拟合很严重。

当我们比较三种面向Cross-prompt模型时,我们可以看到,除了文章集5外,CTS在所有文章集上的性能都超过了PAES和CTS no att,而且在大多数文章集中,多任务方法CTS no att的性能都优于单任务方法PAES。这是因为PAES无法利用完整的训练数据集,它只能在目标trait有标签的样本上进行训练。CTS no att和CTS的多任务结构能够利用训练集中的所有样本进行训练。

表4:文章集2中每个属性的平均QWK值

96af94f2-4690-11eb-8b86-12bb97331649.png

我们还通过实验来验证可用的训练数据的数量对模型性能的影响。表4中显示了PAES、CTS no att和CTS的文章集2的每个属性的性能。在这个表格中,有Word Choice和Sentence Fluency只出现在另外两个文章集中。因此,在对这两个属性进行评分时,基于单任务方法仅能对训练集9499篇论文中的2129篇进行训练,与其他两个模型相比,这两个trait的表现显著降低。

图3:预测文章集3的总分时所有属性的注意力权重

为了深入了解trait-attention机制的运作方式,我们将注意力权重可视化。在图3中,当预测文章集3的总分时,由于这是一个整体评分,应该从多个不同方面考虑文章的质量,因此我们可以看到注意力在所有属性中的分布相对均匀,基本没有权重明显高于其他属性的属性。

图4:预测文章集3的Language分数时的属性注意权重

图4则显示了在预测文章集3的Language分数时的trait注意权重。这是一个比总分更具体、更集中的属性,此时与语言密切相关的属性Word Choice的权重要明显高于其他属性权重。

05

总结

为了满足真实场景中AES系统的需求,我们引入了一个新的AES任务,即Automated Cross-prompt Scoring of Essay Traits。此外,我们还提出了一个新的方法(Cross-prompt Trait Scorer),它利用共享和私有层的多任务结构以及trait-attention机制来解决在跨主题设置中某些属性数据有限以及属性间关系利用的两个问题。

责任编辑:xj

原文标题:【AAAI2021】自动跨主题作文属性评分

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8227

    浏览量

    131281
  • 深度学习
    +关注

    关注

    73

    文章

    5339

    浏览量

    120188

原文标题:【AAAI2021】自动跨主题作文属性评分

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    如何设置power shell的默认路径为工作文件夹?

    设置power shell的默认路径为工作文件夹,如附件图所示,不用每次都去重新进目录。
    发表于 06-21 15:39

    鸿蒙ArkTS声明式开发:平台支持列表【无障碍属性】 通用属性

    组件可以设置相应的无障碍属性和事件来更好地使用无障碍能力。
    的头像 发表于 06-11 17:30 160次阅读
    鸿蒙ArkTS声明式开发:<b class='flag-5'>跨</b>平台支持列表【无障碍<b class='flag-5'>属性</b>】 通用<b class='flag-5'>属性</b>

    鸿蒙ArkTS声明式开发:平台支持列表【组件标识】 通用属性

    id为组件的唯一标识,在整个应用内唯一。本模块提供组件标识相关接口,可以获取指定id组件的属性,也提供向指定id组件发送事件的功能。
    的头像 发表于 06-06 15:51 132次阅读
    鸿蒙ArkTS声明式开发:<b class='flag-5'>跨</b>平台支持列表【组件标识】 通用<b class='flag-5'>属性</b>

    鸿蒙ArkTS声明式开发:平台支持列表【栅格设置】 通用属性

    默认占用列数,指useSizeType属性没有设置对应尺寸的列数(span)时,占用的栅格列数。
    的头像 发表于 06-05 09:28 187次阅读
    鸿蒙ArkTS声明式开发:<b class='flag-5'>跨</b>平台支持列表【栅格设置】 通用<b class='flag-5'>属性</b>

    罗克韦尔自动化邀您见证“气候灯塔点亮仪式暨主题论坛”

    罗克韦尔自动化邀您见证“气候灯塔点亮仪式暨主题论坛”
    的头像 发表于 04-12 09:57 161次阅读
    罗克韦尔<b class='flag-5'>自动</b>化邀您见证“气候灯塔点亮仪式暨<b class='flag-5'>主题</b>论坛”

    arcgis中如何在属性表中选择多个属性

    在ArcGIS中,你可以通过多种方式来选择属性表中的多个属性。下面是一些常用的方法: 方法一:使用Select by Attributes工具 在ArcGIS的属性表中,选择“Selection
    的头像 发表于 02-25 11:10 7390次阅读

    arcgis按属性选择not(t)怎么用

    ArcGIS是一款强大的地理信息系统软件,用于处理和分析地理数据。通过属性选择工具,用户可以基于数据的属性条件来选择特定的要素。 在ArcGIS中,属性选择的语法是基于结构化查询语言(SQL),可以
    的头像 发表于 02-25 11:08 1639次阅读

    mapgis如何进行属性连接

    MapGIS是一种强大的GIS(地理信息系统)软件,它提供了许多功能来处理和分析空间数据。在MapGIS中,属性连接是一种非常有用的功能,它可以将两个或多个地图层中的属性信息进行关联和合并,以便更好
    的头像 发表于 02-25 10:59 912次阅读

    mapgis区属性赋参数

    MapGIS是一种基于地图信息系统的软件平台,它提供了丰富的地理空间数据处理和空间数据分析功能,可以帮助用户进行空间数据的可视化、查询、分析和决策。其中一项重要的功能就是区属性赋参数,也称为区域属性
    的头像 发表于 02-25 10:56 542次阅读

    如何快速为DB块变量添加属性

    有些情况需要为PLC DB块变量添加一些属性,常规的做法是在DB块中选中这个变量,然后打开变量属性输入属性名称和属性值。
    的头像 发表于 01-02 14:18 1088次阅读
    如何快速为DB块变量添加<b class='flag-5'>属性</b>

    界升维,智胜未来,罗克韦尔自动化受邀出席2023世界智能制造大会

    自动化(中国)有限公司智能制造创新研究院院长李栋围绕“ 界升维,智胜未来 ”发表主旨演讲。 世界智能制造大会以“让制造更聪明”为使命,已在江苏南京连续成功举办七届。本次大会以“智改数转网联,数实融合创新”为
    的头像 发表于 12-15 08:25 345次阅读
    <b class='flag-5'>跨</b>界升维,智胜未来,罗克韦尔<b class='flag-5'>自动</b>化受邀出席2023世界智能制造大会

    input的placeholder属性

    input的placeholder属性是HTML5中添加的一项新属性,它用于在输入框中显示提示文本,以帮助用户了解所期望的输入内容。当用户点击或聚焦在输入框中时,placeholder属性的值会
    的头像 发表于 11-30 10:16 1087次阅读

    placeholder属性和value属性的差别

    的输入参考。当用户单击字段时,占位符文本将自动消失,以便用户输入内容。 1.2 placeholder属性的特点
    的头像 发表于 11-30 10:13 785次阅读

    placeholder属性的作用

    placeholder属性是HTML表单中的一个属性,用于为表单字段提供占位符文本。当用户点击或选择表单字段时,占位符文本会消失,用户可以输入自己的内容。它的主要作用是为用户提供一些提示信息,让用户
    的头像 发表于 11-30 10:12 747次阅读

    如何在Rust中高效地操作文

    Rust语言是一种系统级、高性能的编程语言,其设计目标是确保安全和并发性。 Rust语言以C和C++为基础,但是对于安全性和并发性做出了很大的改进。 在Rust语言中,操作文件是非常重要的一个功能
    的头像 发表于 09-19 11:51 1685次阅读