0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大语言模型事实性幻象的实验性分析

深度学习自然语言处理 来源:RUC AI Box 2024-01-19 11:19 次阅读

作者|李军毅 陈杰 机构|中国人民大学

研究方向|自然语言处理

来自| RUC AI Box

尽管大语言模型能力不断提升,但一个持续存在的挑战是它们具有产生幻象的倾向。本文构建了幻象评测基准HaluEval 2.0,并基于该评测框架从预训练/有监督微调/提示设计/推理四个方面探索幻象来源。另外,还通过一系列技术深入研究了减轻LLM幻象的方法。

引言

大语言模型(LLM)在自然语言处理(NLP)的广泛领域中展现出巨大的潜力。然而,尽管模型能力有所提升,但一个持续存在的挑战在于它们具有产生幻象的倾向,即生成看似合理但事实上不准确的内容。这一问题严重限制了LLM在现实世界应用(如临床诊断)中的部署,在这些应用中,生成值得信赖的可靠文本至关重要。

在 LLM 时代,幻象相关的研究显著增加,这些研究主要围绕三个问题展开,即 LLM 为何产生幻象(source),如何检测幻象(detection)以及如何减轻幻象(mitigation)。现有的工作大多集中于分析或解决个别挑战,仍然缺乏系统而深入的对 LLM 幻象的实验分析。为此,我们针对事实性幻象,从幻象的检测、来源和缓解三个方面进行了全面系统的实验性分析。我们的贡献包括:

构建了幻象评测基准 HaluEval 2.0,提出了一个简单有效的幻象自动评估框架

基于上述评测框架,我们从预训练(pre-training)、有监督微调(supervised fine-tuning)、提示设计(prompt design)和推理(inference)四个方面探索幻象的来源。

我们还通过一系列广泛使用的技术,包括基于人类反馈的强化学习(RLHF)、检索增强(retrieval augmentation)、反思(self-reflexion)、提示改进(prompt improvement)等,深入研究了减轻 LLM 幻象的方法。

总的来说,我们的工作带来了一系列关于 LLM 幻象的来源和缓解的重要实证发现,构建的幻象评测基准可用于进一步的研究。

幻象评测基准HaluEval 2.0

HaluEval 2.0包括五个领域的 8770 个问题,其中生物医学、金融、科学、教育和开放域的问题数量分别为1535、1125、1409、1701 和 3000。基于 HaluEval 2.0,我们在一些具有代表性的开源和闭源 LLM 上进行了实验:

开源模型:Alpaca (7B), Vicuna (7B and 13B), YuLan-Chat (13B), Llama 2-Chat (7B and 13B)

闭源模型:text-davinci-002/003, ChatGPT, Claude, Claude 2

幻象的检测

我们提出了一个简单而有效的评测框架,用于检测 LLM 回答中的事实性错误。我们将具有挑战性的幻象检测任务分解为两个较简单的子任务:1)从回答中提取多个事实性陈述;2)确定每个陈述是否包含幻象。基于该检测方法,我们可以在 HaluEval 2.0 上对各种 LLM 进行评估。我们设计了两个不同级别的指标来衡量 LLM 回答中包含幻象的程度。

微观幻象率(MiHR)衡量每个回答中幻象陈述的比例:

b0db48ec-b138-11ee-8b88-92fbcf53809c.png

宏观幻象率(MaHR)计算含有幻象陈述的回答比例:

b0ed51fe-b138-11ee-8b88-92fbcf53809c.png

我们在 HaluEval 2.0 上衡量了各种 LLM 产生幻象的倾向,实验结果如下表所示:

b0fb2d7e-b138-11ee-8b88-92fbcf53809c.png

我们可以看到,开源模型和闭源模型之间存在着明显的性能差距。在开源模型中,我们可以发现扩大模型规模可以有效降低产生幻象的倾向。另外我们发现,MaHR 和 MiHR 的正相关性并不强,这是因为有些模型倾向于用较少的事实生成较短的回答,从而减少幻象的发生,但同时也减少了回答中信息的丰富性。更多的实验结论与分析详见论文。

幻象的来源和缓解

我们进行了广泛的实验,从预训练(pre-training)、有监督微调(supervised fine-tuning)、提示设计(prompt design)和推理(inference)四个方面探索可能诱发 LLM 幻象的因素:

b116e320-b138-11ee-8b88-92fbcf53809c.jpg

我们研究了基于人类反馈的强化学习(RLHF)、检索增强(retrieval augmentation)、反思(self-reflexion)、提示改进(prompt improvement)等广泛使用的方法减轻 LLM 幻象的有效性:

b1267e3e-b138-11ee-8b88-92fbcf53809c.jpg

下面是各部分的实验结论,更多的实验细节、结果和分析详见论文。

预训练:在更多 tokens 上进行预训练对减少 LLM 幻象的影响较小,而将专业数据(如科学文本)纳入预训练则可以极大地减轻特定领域的幻象。预训练知识的频率对幻象的来源有很大影响,即频率越低,幻象越多。

微调:通过改进指令对 LLM 进行有监督微调有助于减轻幻象。平衡指令的复杂性有利于减少幻象,而使用过于复杂的指令则会导致更高水平的幻象。RLHF 是减轻 LLM 幻象的有效方法,但其效果依赖于所在领域。

推理:在专业领域如医学,以多样性为导向的解码方法会诱发更多幻象,而在开放领域,贪心搜索会加剧幻象。逐个 token 生成的方式可能会让 LLM 在先前生成错误的基础上继续出现错误,从而导致幻象。量化虽然加快了推理速度,但在很大程度上也会导致 LLM 幻象的产生。

提示设计:在任务描述中加入更多细节并利用上下文学习可以减少幻象的产生。改写问题或将任务描述放在问题之后会诱发更多幻象。对于更易读和表达更正式、更具体的问题,LLM 产生幻象的倾向较低。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    3323

    浏览量

    42475
  • 语言模型
    +关注

    关注

    0

    文章

    521

    浏览量

    10268
  • 自然语言处理

    关注

    1

    文章

    618

    浏览量

    13553
  • LLM
    LLM
    +关注

    关注

    0

    文章

    286

    浏览量

    327

原文标题:HaluEval 2.0:大语言模型事实性幻象的实验性分析

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    【大语言模型:原理与工程实践】大语言模型的预训练

    数据格式的转换、数据字段的匹配和整合等。通过数据级净化,可以进一步提高数据的质量和可用,为后续的数据分析和建模提供更有价值的数据支持。 在得到了大语言模型的数据之后,就是对其进行预
    发表于 05-07 17:10

    【大语言模型:原理与工程实践】大语言模型的评测

    是否与事实或逻辑相符;以及推理过程的完整,即模型在解题过程中是否提供了完整的推理链或证据支持。 摘要生成类评测任务:考察大语言模型在内容
    发表于 05-07 17:12

    基于信号完整分析的高速数字PCB的设计方法

    以依据芯片引脚的功能选用相似的或缺省的IBIS模型。当然,也可以通过实验测量来建立简化的IBIS模型。   对于PCB板上的传输线,在进行信号完整
    发表于 06-14 09:14

    系统的电磁兼容分析模型及设计方法

    本帖最后由 sder1357 于 2011-10-24 09:21 编辑 系统的电磁兼容分析模型及设计方法1 电磁干扰的途径及耦合过程1.1电磁干扰途径透过屏蔽体将干扰耦合至屏蔽体内透过
    发表于 10-19 19:51

    PCB设计常用板级信号完整分析模型zz

    的PCB板级信号完整分析,因此在高速数字PCB板设计中,需要混合上述几种模型来最大程度地建立关键信号和敏感信号的传输模型。对于分立的无源器件,可以寻求厂家提供的SPICE
    发表于 11-20 10:31

    请问这两种机械手模型哪种实验性能更好,可扩展性更好

    `我打算买个六轴机械手模型用来验证自动运行算法,但不知道从机械角度上来来说哪种实验性能更好,可扩展性更好,这两种都是数字舵机带动的。麻烦给出为什么的理由,谢谢!左上角那种好像是工业机械手的模型,右下角那种是什么呢?两种应该都可以
    发表于 07-15 17:00

    【下载】《信号完整分析

    `编辑推荐《国外电子与通信教材系列:信号完整与电源完整分析(第二版)》强调直觉理解、实用工具和工程素养。作者以实践专家的视角指出造成信号完整性问题的根源,并特别给出了设计阶段前期的问题解决
    发表于 09-19 18:21

    基于信号完整分析的高速数字PCB板的设计开发

    以依据芯片引脚的功能选用相似的或缺省的IBIS模型。当然,也可以通过实验测量来建立简化的IBIS模型。   对于PCB板上的传输线,在进行信号完整
    发表于 08-29 16:28

    用于自制合成器的实验性5键键盘

    描述5 开关阵列用于自制合成器的实验性 5 键键盘。旨在与磁感应簧片开关、霍尔效应传感器或其他简单的按钮和开关一起使用。五个通道可以独立运行,也可以由一个公共输入馈送并混合到一个公共输出。在“混音”模式下,您可以为电阻、二极管等使用额外的空间/焊盘。大量未连接的焊盘用于其他定制。
    发表于 08-16 07:07

    一个用于Z20X的实验性CPU升级模块

    描述Z20X电脑的ZNEO CPU板这是一个 用于 Z20X 的实验性 CPU 升级模块,带有 ZiLOG 的 16 位 ZNEO 处理器。与默认的 eZ80 模块不同,ZNEO 具有非常不同的引脚
    发表于 08-23 07:04

    实验性源极跟随器电路图

    实验性源极跟随器电路图
    发表于 08-08 16:43 804次阅读
    <b class='flag-5'>实验性</b>源极跟随器电路图

    实验性AI将COVID轻度与严重区分开

    由纽约大学的研究人员与中国的两家医院合作开发的实验性决策支持工具可以帮助ER医师确定哪些患者可以住院,哪些患者可以回家。这是在大流行期间做出的一个关键决定,大流行使许多医院的资源超出了产能。
    的头像 发表于 05-21 10:20 1866次阅读

    基于模型的航空飞行安全分析技术综述

    近年来,基于模型的安全分析技术(MBSA)在航空等领堿有着广泛应用,因此对以ⅹSAP安全分析平台为核心,基于MBSA的系统安全评估方法进
    发表于 06-07 15:06 6次下载

    生成式摘要的经典模型

    以往的标题模型产生的都是平实标题,即简单语言描述的事实性标题。但是,实际上我们可能更需要有记忆点的爆款标题来增加点击量/曝光率。因此,衍生出了一个新任务——带有风格的标题生成,即 S
    的头像 发表于 07-08 17:04 2336次阅读

    用于自制合成器的实验性5键键盘

    电子发烧友网站提供《用于自制合成器的实验性5键键盘.zip》资料免费下载
    发表于 07-28 11:38 0次下载
    用于自制合成器的<b class='flag-5'>实验性</b>5键键盘