0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ChatGPT大型语言模型在信息提取方面的能力

深度学习自然语言处理 来源:深度学习自然语言处理 2023-05-10 14:32 次阅读

摘要

本文主要评估了ChatGPT这种大型语言模型在信息提取方面的能力,作者使用了7个细粒度的信息提取任务来评估ChatGPT的性能、可解释性、校准度和可信度。

作者发现,在标准信息提取设置下,ChatGPT的性能较差,但在开放式信息提取设置下表现出色,且其决策的解释具有高质量和可信度。

不过,ChatGPT存在过度自信的问题,导致其校准度较低。此外,ChatGPT在大多数情况下对原始文本的忠实度很高。

最后,作者手动注释并发布了7个细粒度信息提取任务的测试集,包含14个数据集,以进一步促进研究。

主要思路

ChatGPT是最近非常流行的对话大模型,可以与用户进行流畅和高效的交流。但是由于ChatGPT的训练细节和数据没有完全公开,并且ChatGPT的输出会带有一些观点和偏向,这些观点都可能会影响用户对事物的判断和决策,甚至对用户造成负面作用[1-4]。

因此,对于ChatGPT的评测方面,不止需要关注给定下游任务的性能评测,同时还需要考虑到使用大模型过程中用户可能需要的一些方面,如ChatGPT对决策判断的可解释、预测自信程度和对于输入原文的忠实程度等。

基于以上分析,本文希望在ChatGPT性能的基础上,通过更多的维度对ChatGPT模型的能力进行全方位的评估。

具体来说,我们希望通过以下4个方面来评估ChatGPT的综合性能:

1)性能(Performance)。我们研究的一个重要方面是全面评估ChatGPT在各种任务上的整体性能,如准确率和F1值等。并将其与其他热门模型进行比较。通过从不同角度考察其性能,我们旨在提供对ChatGPT在下游信息提取任务方面能力的详细理解。

2)可解释性(Explainability)。ChatGPT的可解释性对于其在现实场景中应用是至关重要的[5-7],因为用户希望在获取模型输出的同时,让模型给出合理的预测理由和判断依据。在我们的研究中,我们将同时衡量ChatGPT的自我检查和人工检查的可解释性,重点关注其为人类提供有用和准确的推理过程解释的能力。

3)校准性(Calibration)。测量“calibration”有助于评估模型的预测不确定性[8,9]。校准度高的分类器应该具有准确反映正确性概率的预测分数[10,11]。鉴于深度神经网络在其预测中表现出过度自信的倾向,我们期望识别ChatGPT的潜在不确定性或过度自信现象。

4)忠诚度(Faithfulness)。模型对预测解释的忠诚度对于用户而言非常重要[12,13]。我们尝试评估ChatGPT提供的解释是否与输入内容一致。

基于以上四个方面,我们设计了15个不同的评测指标,其中10个为ChatGPT自动输出的指标,5个为多位领域专家人工标注的指标。具体指标如下:

78fe2eda-ee6f-11ed-90ce-dac502259ad0.png

任务数据集及实验设置

我们选择了自然语言处理中十分重要的研究任务——信息抽取,作为任务载体,对ChatGPT的以上度量指标进行全方位的评估。信息抽取(information extraction, IE)涉及异构结构提取、事实知识使用和多样化的目标,因此此类任务是评估ChatGPT能力的理想场景。本文中,我们选择了7个信息抽取任务共14个数据集进行测试,包括是实体识别,关系抽取和事件抽取等。

在实验过程中,我们采用了2种设置,即标准信息抽取(Standard-IE)和开放式信息抽取(OpenIE)。Standard-IE设置通常用于以前的工作中,它使用特定于任务的数据集与监督式学习范式对模型进行微调。对于ChatGPT,由于我们无法直接微调参数,因此我们评估ChatGPT从一组候选标签中选择最合适答案的能力。具体而言,这种设置基于包括任务描述、输入文本、提示和标签集的指示。任务描述描述了具体的IE任务,提示包括引导ChatGPT输出所需特征(即上述15个特征中的一个或多个),而标签集基于每个数据集包含所有候选标签。OpenIE设置是比Standard-IE设置更高级和具有挑战性的情境。在此设置中,我们不会向ChatGPT提供任何候选标签,仅依赖其理解任务描述、提示和输入文本的能力来生成预测。我们的目标是评估ChatGPT生成合理事实知识的能力。实验结果对比的模型包括BERT、RoBERTa和每个任务的SOTA模型。

实验结果及结论

1)Standard-IE设置

79212368-ee6f-11ed-90ce-dac502259ad0.png

主要结论:
1)在大部分情况下,ChatGPT的性能与BERT类模型和SOTA模型的性能差距较大;
2)在简单任务,如entity typing和relation classification问题下,ChatGPT的性能较好。

2)Open-IE设置

79437b16-ee6f-11ed-90ce-dac502259ad0.png

主要结论:
ChatGPT在开放式信息抽取设置下,输出的结果较为令人满意,在很多任务上能够在大多数情况下输出人类认可的结果。这说明ChatGPT已经学习了很多正确且可以合理输出的常识知识。

3)可解释性

795d82fe-ee6f-11ed-90ce-dac502259ad0.png

主要结论:
通过ChatGPT和人工对给出的判断理由进行标注,我们发现ChatGPT输出的解释非常可靠,绝大多数情况下,人类与ChatGPT都认为给出的理由是合理的。以上数据表明,ChatGPT对于自己预测的解释可信度较高。

4)校准度

79716972-ee6f-11ed-90ce-dac502259ad0.png

798c23b6-ee6f-11ed-90ce-dac502259ad0.png

主要结论:
1)表6展示的是各个模型预测的置信度,可以看出,BERT类模型和ChatGPT对于自己的预测都十分自信,均给出了很高的置信度。相比而言,因为ChatGPT在Standard-IE中其性能不佳,所以给出这么高的置信度表明模型有很严重的过度自信倾向。同时,模型对于预测错误的样本,置信度明显较低。也就是说,当模型给出的预测置信度较低时,应该对预测结果进行校验。
2)表7通过评估校准度的指标ECE,我们可以明显看出ChatGPT有最低的校准度,即预测置信度偏高,过度自信问题严重。

5)忠实度

799ffc2e-ee6f-11ed-90ce-dac502259ad0.png

主要结论:
通过领域专家对模型输出解释和输入原文的对比,进行了人工的忠实度度量。我们发现,ChatGPT的解释是非常忠实于原文的,基本没有在给定上下文的情况下,通过编造理由进行预测的行为。

总结

本文聚焦于ChatGPT在各种信息抽取任务上的系统性评测。针对于7个细粒度信息抽取任务和14个数据集,从模型性能、可解释性、校准度和忠实度这四个角度,设计了15个指标(10个从ChatGPT自动获取的指标,5个领域专家标注的指标),对ChatGPT进行了全面评估。实验结果表明,ChatGPT在标准IE设置下,性能与有监督模型有很大差距。

但是,ChatGPT在OpenIE的场景下输出非常符合人类预期。同时,通过领域专家标注表明,ChatGPT可以对自己的预测结果给出可靠的解释,这表明ChatGPT有极强的解释能力。但是ChatGPT会对自己的预测过度自信,给出非常高的预测置信度,从而导致较低的校准度。

最后,本文还验证了ChatGPT的决策非常忠实于原文,即不会通过虚构来解决或者解释问题。本文说明,ChatGPT在信息抽取领域仍然有很多的改进角度和提升空间。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3178

    浏览量

    48731
  • 数据集
    +关注

    关注

    4

    文章

    1205

    浏览量

    24649
  • ChatGPT
    +关注

    关注

    29

    文章

    1549

    浏览量

    7509

原文标题:通过准确性、可解释性、校准度和忠实度,对ChatGPT的能力进行全面评估

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    【大语言模型:原理与工程实践】大语言模型的评测

    是否与事实或逻辑相符;以及推理过程的完整性,即模型解题过程中是否提供了完整的推理链或证据支持。 摘要生成类评测任务:考察大语言模型在内容概括、观点提炼和
    发表于 05-07 17:12

    【《时间序列与机器学习》阅读体验】+ 时间序列的信息提取

    利用这些信息来建立时间序列模型,可见信息提取是一个关键的步骤。 本章第一小节直接引入了特征工程定义: 特征工程(Feature Engineering)是将数据转换为更好地表示潜在问题的特征,从而
    发表于 08-14 18:00

    【「时间序列与机器学习」阅读体验】时间序列的信息提取

    本章主讲时间序列的信息提取,章节中有许多概念定义和数学公式,并配有Python代码演示,细细品读与理解动手演练,还是很开拓思维视野的。下面以笔记形式进行展开。 时间序列的信息提取是时间序列分析的一
    发表于 08-17 21:12

    关于频率变化的正弦波幅值信息提取

    有一个近似正弦波的信号,信号频率从10MHz到40MHz变化,信号的幅值也变化,变化的幅度200mV到800mV之间。现在想把这个信号的幅值信息提取出来,提取出来的信号与其频率无关
    发表于 12-19 09:25

    NLPIR文本信息提取方面的优势介绍

    介绍:1、确定要进行信息提取的知识本体。2、为每一个目标知识点设立足够的训练语料,或是抽取足够的编写规则3、利用机器学习的方法,训练语料和规则的基础上,建立模型。 构建知识图谱最重要的环节
    发表于 09-12 15:33

    不到1分钟开发一个GPT应用!各路大神疯狂整活,网友:ChatGPT就是新iPhone

    能力仍然是不可替代的。 此外,ChatGPT语言模型的应用也需要大量的数据和算力支持,以及专业的技术人员进行开发和维护。因此,虽然ChatGPT
    发表于 11-19 12:06

    基于VB6.0的点阵字模信息提取方法

    摘要:提出通过颜色法提取像素点的汉字点阵字模信息提取方法,给出基于VB6.0的系统控件设置及流程实现方法。与基于内码法的汉字点阵提取方法的比较结果表明,该方法能够方便
    发表于 07-16 11:20 67次下载

    GPS定位信息提取及应用

    描述了GPS与手持终端串口通信的方法,并在WinCE6.0操作系统下提取GPS的定位信息,采用NMEA-0183 通信协议中的RMC数据格式进行解析。简述了GIS概念,并介绍了GPSGIS
    发表于 07-06 16:46 67次下载

    短时傅立叶变换阵列声波信息提取中的应用

    短时傅立叶变换阵列声波信息提取中的应用。
    发表于 01-15 15:17 9次下载

    脉冲多普勒雷达识别中的信号调制信息提取

    脉冲多普勒雷达识别中的信号调制信息提取,下来看看
    发表于 12-24 23:21 13次下载

    基于FPGA的图像信息提取设计及仿真

    信息提取模块,并且XST(Xilinx官方综合工具)以及Synplify pro两个综合环境下进行了仿真验证。通过对比仿真结果的差异,尝试分析设计的寄存器传输级视图(RTL视图),并找出了影响状态机工作的关键要素。强调了代码风格对FPGA设计的重要性。
    发表于 11-17 06:04 2236次阅读
    基于FPGA的图像<b class='flag-5'>信息提取</b>设计及仿真

    散乱点云数据特征信息提取算法

    的特征提取不仅可以更好地刻画三维模型特征,并且其模型重建、点云分割、对称性检测以及点云配准等。方面起到一定的作用。特征
    发表于 01-30 16:35 0次下载
    散乱点云数据特征<b class='flag-5'>信息提取</b>算法

    ChatGPT电磁领域的能力到底有多强?

    ChatGPT简介ChatGPT(GenerativePre-trainedTransformer)是由OpenAI开发的一个包含了1750亿个参数的大型自然语言处理
    的头像 发表于 02-02 15:10 1223次阅读
    <b class='flag-5'>ChatGPT</b><b class='flag-5'>在</b>电磁领域的<b class='flag-5'>能力</b>到底有多强?

    大型语言模型的应用

    该领域。在过去几年中,LLM 的规模每年增加 10 倍,而且随着这些模型的复杂程度和规模的增加,其性能也不断发展。 大型语言模型现在正在为
    的头像 发表于 07-05 10:27 2043次阅读

    ChatGPT大型语言模型的出现会带来哪些风险

    近日,美智库兰德公司高级工程师克里斯托弗·莫顿(Christopher Mouton)C4ISRNET网站撰文,分析ChatGPT大型语言模型
    发表于 08-04 11:44 478次阅读