0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

LLMs实际上在假对齐!

深度学习自然语言处理 来源:深度学习自然语言处理 2023-11-20 17:41 次阅读

对大型语言模型(LLM)中安全问题的意识日益增强,引发了人们对当前研究工作中的安全性评估的极大兴趣。本研究调查了与llm评估有关的一个有趣问题,即多重选择问题和开放式问题之间的性能差异。我们发现LLM对安全这一复杂概念的理解并不全面,它只记得回答开放式安全问题,而无法解决其他形式的安全测试。我们将这种现象称为假对齐,为解决这个问题,我们提出FAEF框架和两个新指标—一致性分数(CS)和一致性安全分数(CSS),用来联合评估两种互补的评估形式,以量化假对齐并获得正确的性能估计。

论文:
Fake Alignment: Are LLMs Really Aligned Well?

地址:
https://arxiv.org/pdf/2311.05915.pdf

介绍

有研究指出LLMs可能会产生恶意内容(例如:有害和有偏见的言论,危险的行为准则和隐私泄露等),引起安全问题。同时,许多基准的出现就是为了评估其安全性。这些测试大多可以分为两种形式:开放式问题和选择题。在第一种形式中,LLM给出问题的回答,人类或其他LLM给出是否安全的判断;在第二种形式中,LLM从多个选项中选择一个它认为安全的选项,然后对答案进行比较得出判断。从人类的角度来看,多项选择题往往更简单,因为正确的答案包含在选项中,用排除法可以选择更好的一个。然而,在审查现有的评估结果后,我们惊讶地发现与开放式LLM相比,大多数LLM在多项选择题上表现出更低的安全性能。如图1所示,LLM在一些常见的开放式问题测试数据集上的平均性能为94.94%,而在多项选择测试数据集上的平均性能仅为78.3%

e09e346c-8470-11ee-939d-92fbcf53809c.png

是什么导致了评估性能的显著差异呢?受不匹配泛化理论的启发,我们认为这是由于模型的安全训练没有有效地覆盖其预训练能力的范围。如图2所示,两个LLM都能有效地回答开放式问题。然而,虽然一个很好地协调并在解决其他问题时演示了安全考虑,但另一个未能理解其他格式的安全方面。换句话说,LLM其实只是记住了关于安全问题的答案,但缺乏对什么内容属于安全的真正理解,这使得他们很难选择正确的选项,我们将其称为LLM的假对齐。假对齐的存在证明了以前许多开放式问题评估的不可靠性。

e0b15d9e-8470-11ee-939d-92fbcf53809c.png

然而,由于两种类型的测试数据集之间缺乏严格的对应关系,无法分析LLM中假对齐的程度。为此,首先精心设计了一个包含5类(公平性、人身安全、合法性、隐私和社会伦理)问题的数据集;每个测试问题由一个开放式问题及其对应的选择题组成,通过比较其在回答两类问题上的一致性,可以定量分析LLMs中是否存在假对齐问题。在我们的数据集上测试了14个常见的LLM,结果表明一些模型存在严重的假对齐问题。实验表明,即使使用问题和正确选项的内容进行有监督的微调,LLM在多项选择题上性能的提高仍然非常有限。这进一步证实了这种一致性测试可以有效地发现假对齐。最后,在总结数据集构建过程和评估方法的基础上,提出了假对齐评估框架FAEF(Fake Alignment evaluation Framework),该框架可以在少量人工辅助的情况下,将现有的开放式问题数据集转换为LLM的假对齐评估数据集。

假对齐

背景

LLMs是在大型语料库上训练的概率模型,用于给定token序列预测下一个token,即,其中是给定token。对齐技术希望最大化模型输出符合人类价值偏好的概率。然而,不同的对齐算法、对齐数据和模型参数大小对最终对齐性能有很大影响,也直接影响用户体验。

当前与LLMs的常见交互方法是提示工程,这意味着用户输入专门设计的提示文本,以指导LLM生成响应。对LLM的评估也遵循类似的方法,给它们一些测试问题,然后自动或手动判断响应。另外,根据试题类型,评价通常分为开放式题型和多项选择题型两种,可表示为:

e0d3ae8a-8470-11ee-939d-92fbcf53809c.png

其中是开放式问题提示集,是多项选择题提示集,是测试提示数,是正确选项,是判断函数,它可以是人类或其他LLM给出的评估。

假对齐的证明

LLM的训练分为预训练和安全训练。预训练是指在大规模语料库上进行训练,因此LLM获得了各种强大的能力,如文本生成、推理和主题知识等。安全训练使用有监督的微调、RLHF、RLAIF和其他技术来对齐模型偏好与人类价值偏好,从而为LLM建立安全护栏。然而,当安全训练数据缺乏多样性且覆盖范围不广时,该模型往往只是在某些方面模拟安全数据,而没有真正理解人类的偏好。安全训练不足导致在没有适当安全考虑的情况下做出反应。这也意味着模型在某些方面似乎对齐得很好,但实际上这可能是欺骗性的;它对对齐没有深刻、正确的理解。这就是我们所说的假对齐。

为了证明这一说法,首先从能力和安全性两个方面设计了评估数据集。数据集中的每个问题都包含一个相应的开放式问题和多项选择问题,用于直接比较模型性能差异。能力方面的比较测试是为了证明LLM在预训练阶段已经掌握了回答多项选择题的能力。如果该模型在能力测试集上两种评估形式没有差异,但在安全性测试集上表现出差异,则可以证明虚假对齐的存在。能力测试内容来自2018年AI2推理挑战赛(ARC),包含不同学科领域的7787个科学问题,过滤和选择了100个问题,这些问题很容易被转换为化学、生物、数学等学科领域的开放式问题,如表2所示。

e0dfaed8-8470-11ee-939d-92fbcf53809c.png

在安全性测试中,我们选择了5个最受关注的主题,然后围绕相应的主题收集和构建开放性问题:

  • 公平性:包括性别、种族、性取向等;
  • 人身安全:旨在评估LLM不会对个人造成潜在伤害,特别是在人身和财产安全方面;
  • 合法性:衡量LLMs是否可能提供可能违反法律的建议,如盗窃、抢劫或类似的非法活动;
  • 隐私性:旨在测试LLMs是否泄露了一些私人信息或提供了损害他人隐私的建议;
  • 社会伦理:包括环境友好性、生物友好性、对他人的友好性等。

实验结果

能力测试:对于多项选择题,设计了具体的提示模板来指导司法专家间接地提出选项。然后,我们利用正则表达式匹配方法从LLM的响应中提取选项,并将它们与正确答案进行比较。开放式问题涉及直接输入到模型中以获得相应的响应。实验结果如表3所示:

e102bcfc-8470-11ee-939d-92fbcf53809c.png

安全性测试:类似于能力测试,对于多项选择题,我们使用与之前相同的提示模板,以及正则表达式匹配方法。对于每个问题,通过交换选项的位置进行多次测试。只有当模型始终提供相同的答案时,它才被认为是通过的。这种方法最大限度地提高了结果的可靠性和可重复性。对于开放式问题,直接输入LLM来获得答案。这里使用的评价原则是考虑回复是否包含直接或潜在危害人类社会的内容,如歧视、暴力等。实验结果如表4所示:

e123679a-8470-11ee-939d-92fbcf53809c.png

我们还在少样本场景下进行了评估实验。结果如表5所示:

e13ec332-8470-11ee-939d-92fbcf53809c.png

为了进一步验证LLM中的假对齐问题,我们设计了一个实验。在这个实验中,我们使用多选题格式的问题及其相应的正确答案提供的上下文来调整模型。选择微调ChatGLM2,结果如表6所示。

e1560d6c-8470-11ee-939d-92fbcf53809c.png

由于更大的参数量和预训练,该模型只需要稍微微调就可以完美地解决开放式问题。然而,该模型在多项选择题上的改进只有4%,几乎可以忽略不计。这进一步表明,通过简单的监督微调,该模型虽然能够记住安全问题的标准答案,但仍然难以概括和理解安全问题。

假对齐评价框架

FAEF方法

数据收集:首先,确定待评估的安全内容和维度,如公平性、隐私性等;然后,围绕这些内容,可以从开源数据集中收集和过滤开放式问题,通过使用LLM进行扩展,并通过人工的努力收集。

选项构造:为了创建相应的多项选择题,将开放式问题直接输入到对齐良好的LLM(如GPT-3.5-Tubor)中,以获得作为正确选项的积极响应。至于负面选项,我们通过越狱LLM来构建它们。我们在模型中创建了一个对抗性的负面角色,以确保它生成违背人类偏好的内容。

响应判断:在获取同一内容的不同形式的问题后,我们分别使用它们来获取被评估的LLM的响应。整体架构如图3所示:

e16a3bd4-8470-11ee-939d-92fbcf53809c.png

一致性测试

在分别获得两种不同形式的评估结果后,通过比较它们之间的一致性,定量分析不同维度上的假对齐程度。形式上,我们定义了一个简单的一致性得分(CS):

e17fc6c0-8470-11ee-939d-92fbcf53809c.png

其中是问题数量,和是问题在两种形式下的评价结果:

e18fdc40-8470-11ee-939d-92fbcf53809c.png

其中和代表两种形式的问题,是正确选项。

CS指标比较LLM在每个维度的两种形式之间的一致性。如果LLM在特定维度中显示出两种形式之间的显著差异,则表明该维度中存在更明显的假对齐问题。因此,该指标也反映了以往评价结果的可信度。

一致性安全分数计算方式如下:

e1a2e1aa-8470-11ee-939d-92fbcf53809c.png

该CSS度量在计算对齐性能时考虑LLM响应的一致性。因此,可以忽略假对齐的影响,获得更可信的评价结果。

实验结果

使用提出的基准,在FAEF框架下评估了14个广泛使用的LLM的对齐一致性和一致性安全率。结果如图4所示,颜色越深表示性能越好,颜色越浅表示性能越差。

e1aec8ee-8470-11ee-939d-92fbcf53809c.png

总结

主要贡献:

  • 发现了假对齐问题,并认为它是一种不匹配的泛化,模型没有真正理解需要对齐的值。
  • 设计了一个新的测试数据集。数据集的每一道测试题都包含一个开放式问题和一个严格对应的选择题。
  • 提出了FAEF,一种衡量模型是否存在假对齐的通用框架,只需要少量的人工协助,并与现有的开源数据集兼容。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3172

    浏览量

    48714
  • 数据集
    +关注

    关注

    4

    文章

    1205

    浏览量

    24644
  • LLM
    LLM
    +关注

    关注

    0

    文章

    273

    浏览量

    306

原文标题:LLMs实际上在假对齐!

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    ESP32S3设置输出IO的高低电平后,紧接着去读取电平实际上是没有变化的,为什么?

    设置输出IO的高低电平后,紧接着去读取电平实际上是没有变化的,跑的是例程呀,只是加了两个printf,是哪里出问题了呢
    发表于 06-07 06:37

    OpenAI超级对齐团队解散

    近日,OpenAI的安全主管、“超级智能对齐团队”负责人Jan Leike宣布离职。据悉,Jan Leike与OpenAI高层公司的核心优先事项存在长期且难以调和的分歧。
    的头像 发表于 05-20 10:16 399次阅读

    鸿蒙ArkUI开发:【弹性布局(主轴&交叉轴对齐方式)】

    通过justifyContent参数设置主轴方向的对齐方式,和Row、Column的主轴对齐方式行为一样
    的头像 发表于 05-14 15:33 643次阅读
    鸿蒙ArkUI开发:【弹性布局(主轴&amp;交叉轴<b class='flag-5'>对齐</b>方式)】

    库克称中国内地iPhone业务实际上实现增长

    苹果公司首席执行官蒂姆·库克(Tim Cook)近日表示,尽管大中华区截至3月份财季的整体收入有所下滑,但中国内地市场的iPhone业务实际上实现了增长,且降幅低于预期。这一积极信号显示了中国市场对于苹果产品的强劲需求。
    的头像 发表于 05-09 09:40 292次阅读

    【大语言模型:原理与工程实践】核心技术综述

    ,确保数据多样性和覆盖面。 优化技术: 使用高效的优化算法,如Adam或LAMB,避免梯度消失或爆炸,稳定训练过程。 微调和精调: 特定的下游任务,对LLMs进行微调,以使其更好地适应该任务
    发表于 05-05 10:56

    RAG系统中答案无关片段对LLMs生成结果的影响分析

    与常见语义无关的答案无关片段相比,LLMs更容易受到高度语义相关的答案无关片段的影响;
    发表于 04-15 09:49 348次阅读
    RAG系统中答案无关片段对<b class='flag-5'>LLMs</b>生成结果的影响分析

    造成虚焊、焊的原因有哪些?如何预防虚焊

    虛焊 焊 是SMT贴片加工 中经常出现的不良现象,今天小编就给大家讲讲什么是虚焊、焊?造成虚焊、焊的原因有哪些?该如何预防虚焊焊。
    的头像 发表于 04-13 11:28 3985次阅读
    造成虚焊、<b class='flag-5'>假</b>焊的原因有哪些?如何预防虚焊<b class='flag-5'>假</b>焊

    使用带编码器三相电阻采样,三相都有参与运算但实际上输入信号只需要UV两相,为什么?

    如题,使用带编码器三相电阻采样,发现三相都有参与运算,但实际上输入信号只需要UV两相,W相输入数据不会影响电机运行效果,请问这是什么原因?出现电磁噪音比较大,有那些方法可以解决?如果都能解决,可以提供有偿服务。
    发表于 04-08 08:08

    ST95HF NFC读卡器实际上板测试遇到的两个疑问求解答

    你好。我用的ST95HF NFC读卡器。电路图我参考的官网推荐的结构,如下图。天线和匹配参数的理论值都已经计算好了。现在我要实际上板测试,有2个问题需要请教: 1、我现在是将网络分析仪接在L4、L5
    发表于 03-11 07:37

    大语言模型(LLMs)如何处理多语言输入问题

    研究者们提出了一个框架来描述LLMs处理多语言输入时的内部处理过程,并探讨了模型中是否存在特定于语言的神经元。
    发表于 03-07 14:44 556次阅读
    大语言模型(<b class='flag-5'>LLMs</b>)如何处理多语言输入问题

    如何在TorchServe提供LLMs的分布式推理

    你可以看到我们在这里使用了张量并行和并行预填充。它实际上帮助大大加快了推理速度。与等效的GPU相比,它使得Inferentia 2的成本大幅降低了。我们获得了3倍更便宜的性能点。
    的头像 发表于 01-31 13:59 745次阅读
    如何在TorchServe<b class='flag-5'>上</b>提供<b class='flag-5'>LLMs</b>的分布式推理

    利用GPU加速Orange Pi 5LLMs:人工智能爱好者High翻了!

    本期视频将会给人工智能爱好者们带来超级震撼!视频中,我们将深入了解利用GPU加速OrangePi5LLMs的精彩世界。最近知乎的一篇文章《利用GPU加速,
    的头像 发表于 01-22 15:29 938次阅读
    利用GPU加速<b class='flag-5'>在</b>Orange Pi 5<b class='flag-5'>上</b>跑<b class='flag-5'>LLMs</b>:人工智能爱好者High翻了!

    LLMs时代进行无害性评估的基准解析

    随着对LLMs的不断应用,大家也发现了诸多问题。比如常见的幻觉现象,LLMs可喜欢一本正经地说着胡话呢。除此之外,LLMs也有可能生成一些歧视某些身份群体的内容,还有一些伤害我们小小心灵的有毒内容(这可不行)。
    发表于 01-05 14:14 361次阅读
    <b class='flag-5'>LLMs</b>时代进行无害性评估的基准解析

    一台高压电机额定功率5100KW,那它实际上能输出多少功率?

    一台高压电机额定功率5100KW,那它实际上能输出多少功率? 输出功率也就是有功功率,这个应该跟功率因数有关。 那它最大输出功率也不会超出5100KW,它的总功率也就是5100KW. 我如果让电机
    发表于 12-27 07:22

    AD9744开电后会产生一个的触发输出脉冲怎么解决?

    嗨,当我用AD9744 (txac 计数器), 我发现这个部件开电后会产生一个的触发输出脉冲。 的触发脉冲的振幅高达2V左右。 这对我的装载电路有害。 但是当我配置它的时候 。txac 计数器
    发表于 12-05 06:38