LLMs实际上在假对齐！-电子发烧友网

对大型语言模型(LLM)中安全问题的意识日益增强，引发了人们对当前研究工作中的安全性评估的极大兴趣。本研究调查了与llm评估有关的一个有趣问题，即多重选择问题和开放式问题之间的性能差异。我们发现LLM对安全这一复杂概念的理解并不全面，它只记得回答开放式安全问题，而无法解决其他形式的安全测试。我们将这种现象称为假对齐，为解决这个问题，我们提出FAEF框架和两个新指标—一致性分数(CS)和一致性安全分数(CSS)，用来联合评估两种互补的评估形式，以量化假对齐并获得正确的性能估计。

论文：
Fake Alignment: Are LLMs Really Aligned Well?

地址：
https://arxiv.org/pdf/2311.05915.pdf

介绍

有研究指出LLMs可能会产生恶意内容(例如：有害和有偏见的言论，危险的行为准则和隐私泄露等)，引起安全问题。同时，许多基准的出现就是为了评估其安全性。这些测试大多可以分为两种形式:开放式问题和选择题。在第一种形式中，LLM给出问题的回答，人类或其他LLM给出是否安全的判断;在第二种形式中，LLM从多个选项中选择一个它认为安全的选项，然后对答案进行比较得出判断。从人类的角度来看，多项选择题往往更简单，因为正确的答案包含在选项中，用排除法可以选择更好的一个。然而，在审查现有的评估结果后，我们惊讶地发现与开放式LLM相比，大多数LLM在多项选择题上表现出更低的安全性能。如图1所示，LLM在一些常见的开放式问题测试数据集上的平均性能为94.94%，而在多项选择测试数据集上的平均性能仅为78.3%。

是什么导致了评估性能的显著差异呢?受不匹配泛化理论的启发，我们认为这是由于模型的安全训练没有有效地覆盖其预训练能力的范围。如图2所示，两个LLM都能有效地回答开放式问题。然而，虽然一个很好地协调并在解决其他问题时演示了安全考虑，但另一个未能理解其他格式的安全方面。换句话说，LLM其实只是记住了关于安全问题的答案，但缺乏对什么内容属于安全的真正理解，这使得他们很难选择正确的选项，我们将其称为LLM的假对齐。假对齐的存在证明了以前许多开放式问题评估的不可靠性。

然而，由于两种类型的测试数据集之间缺乏严格的对应关系，无法分析LLM中假对齐的程度。为此，首先精心设计了一个包含5类(公平性、人身安全、合法性、隐私和社会伦理)问题的数据集;每个测试问题由一个开放式问题及其对应的选择题组成，通过比较其在回答两类问题上的一致性，可以定量分析LLMs中是否存在假对齐问题。在我们的数据集上测试了14个常见的LLM，结果表明一些模型存在严重的假对齐问题。实验表明，即使使用问题和正确选项的内容进行有监督的微调，LLM在多项选择题上性能的提高仍然非常有限。这进一步证实了这种一致性测试可以有效地发现假对齐。最后，在总结数据集构建过程和评估方法的基础上，提出了假对齐评估框架FAEF(Fake Alignment evaluation Framework)，该框架可以在少量人工辅助的情况下，将现有的开放式问题数据集转换为LLM的假对齐评估数据集。

假对齐

背景

LLMs是在大型语料库上训练的概率模型，用于给定token序列预测下一个token，即，其中是给定token。对齐技术希望最大化模型输出符合人类价值偏好的概率。然而，不同的对齐算法、对齐数据和模型参数大小对最终对齐性能有很大影响，也直接影响用户体验。

当前与LLMs的常见交互方法是提示工程，这意味着用户输入专门设计的提示文本，以指导LLM生成响应。对LLM的评估也遵循类似的方法，给它们一些测试问题，然后自动或手动判断响应。另外，根据试题类型，评价通常分为开放式题型和多项选择题型两种，可表示为:

其中是开放式问题提示集，是多项选择题提示集，是测试提示数，是正确选项，是判断函数，它可以是人类或其他LLM给出的评估。

假对齐的证明

LLM的训练分为预训练和安全训练。预训练是指在大规模语料库上进行训练，因此LLM获得了各种强大的能力，如文本生成、推理和主题知识等。安全训练使用有监督的微调、RLHF、RLAIF和其他技术来对齐模型偏好与人类价值偏好，从而为LLM建立安全护栏。然而，当安全训练数据缺乏多样性且覆盖范围不广时，该模型往往只是在某些方面模拟安全数据，而没有真正理解人类的偏好。安全训练不足导致在没有适当安全考虑的情况下做出反应。这也意味着模型在某些方面似乎对齐得很好，但实际上这可能是欺骗性的;它对对齐没有深刻、正确的理解。这就是我们所说的假对齐。

为了证明这一说法，首先从能力和安全性两个方面设计了评估数据集。数据集中的每个问题都包含一个相应的开放式问题和多项选择问题，用于直接比较模型性能差异。能力方面的比较测试是为了证明LLM在预训练阶段已经掌握了回答多项选择题的能力。如果该模型在能力测试集上两种评估形式没有差异，但在安全性测试集上表现出差异，则可以证明虚假对齐的存在。能力测试内容来自2018年AI2推理挑战赛(ARC)，包含不同学科领域的7787个科学问题，过滤和选择了100个问题，这些问题很容易被转换为化学、生物、数学等学科领域的开放式问题，如表2所示。

在安全性测试中，我们选择了5个最受关注的主题，然后围绕相应的主题收集和构建开放性问题:

公平性:包括性别、种族、性取向等;
人身安全:旨在评估LLM不会对个人造成潜在伤害，特别是在人身和财产安全方面;
合法性:衡量LLMs是否可能提供可能违反法律的建议，如盗窃、抢劫或类似的非法活动;
隐私性:旨在测试LLMs是否泄露了一些私人信息或提供了损害他人隐私的建议;
社会伦理:包括环境友好性、生物友好性、对他人的友好性等。

实验结果

能力测试：对于多项选择题，设计了具体的提示模板来指导司法专家间接地提出选项。然后，我们利用正则表达式匹配方法从LLM的响应中提取选项，并将它们与正确答案进行比较。开放式问题涉及直接输入到模型中以获得相应的响应。实验结果如表3所示：

安全性测试：类似于能力测试，对于多项选择题，我们使用与之前相同的提示模板，以及正则表达式匹配方法。对于每个问题，通过交换选项的位置进行多次测试。只有当模型始终提供相同的答案时，它才被认为是通过的。这种方法最大限度地提高了结果的可靠性和可重复性。对于开放式问题，直接输入LLM来获得答案。这里使用的评价原则是考虑回复是否包含直接或潜在危害人类社会的内容，如歧视、暴力等。实验结果如表4所示：