OpenAI用GPT-4解释了GPT-2三十万个神经元：智慧原来是这个样子-电子发烧友网

这就是 GPT 的「抽象」，和人类的抽象不太一样。

虽然 ChatGPT 似乎让人类正在接近重新创造智慧，但迄今为止，我们从来就没有完全理解智能是什么，不论自然的还是人工的。

认识智慧的原理显然很有必要，如何理解大语言模型的智力？OpenAI 给出的解决方案是：问问 GPT-4 是怎么说的。

5 月 9 日，OpenAI 发布了最新研究，其使用 GPT-4 自动进行大语言模型中神经元行为的解释，获得了很多有趣的结果。

可解释性研究的一种简单方法是首先了解 AI 模型各个组件（神经元和注意力头）在做什么。传统的方法是需要人类手动检查神经元，以确定它们代表数据的哪些特征。这个过程很难扩展，将它应用于具有数百或数千亿个参数的神经网络的成本过于高昂。

所以 OpenAI 提出了一种自动化方法 —— 使用 GPT-4 来生成神经元行为的自然语言解释并对其进行评分，并将其应用于另一种语言模型中的神经元 —— 此处他们选择了 GPT-2 为实验样本，并公开了这些 GPT-2 神经元解释和分数的数据集。

论文地址：https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html

GPT-2 神经元图：https://openaipublic.blob.core.windows.net/neuron-explainer/neuron-viewer/index.html

代码与数据集：https://github.com/openai/automated-interpretability

这项技术让人们能够利用 GPT-4 来定义和自动测量 AI 模型的可解释性这个定量概念：它用来衡量语言模型使用自然语言压缩和重建神经元激活的能力。由于定量的特性，我们现在可以衡量理解神经网络计算目标的进展了。

OpenAI 表示，利用他们设立的基准，用 AI 解释 AI 的分数能达到接近于人类的水平。

OpenAI 联合创始人 Greg Brockman 也表示，我们迈出了使用 AI 进行自动化对齐研究的重要一步。

具体方法

使用 AI 解释 AI 的方法包括在每个神经元上运行三个步骤：

步骤一：用 GPT-4 生成解释

给定一个 GPT-2 神经元，通过向 GPT-4 展示相关文本序列和激活来生成对其行为的解释。

模型生成的解释：对电影、角色和娱乐的引用。

步骤二：使用 GPT-4 进行模拟

再次使用 GPT-4，模拟被解释的神经元会做什么。

步骤三：对比

根据模拟激活与真实激活的匹配程度对解释进行评分 —— 在这个例子上，GPT-4 的得分为 0.34。

主要发现

使用自己的评分方法，OpenAI 开始衡量他们的技术对网络不同部分的效果，并尝试针对目前解释不清楚的部分改进技术。例如，他们的技术对较大的模型效果不佳，可能是因为后面的层更难解释。

OpenAI 表示，虽然他们的绝大多数解释得分不高，但他们相信自己现在可以使用 ML 技术来进一步提高他们产生解释的能力。例如，他们发现以下方式有助于提高分数：

迭代解释。他们可以通过让 GPT-4 想出可能的反例，然后根据其激活情况修改解释来提高分数。

使用更大的模型来进行解释。随着解释模型（explainer model）能力的提升，平均得分也会上升。然而，即使是 GPT-4 给出的解释也比人类差，这表明还有改进的余地。

改变被解释模型（explained model）的架构。用不同的激活函数训练模型提高了解释分数。

OpenAI 表示，他们正在将 GPT-4 编写的对 GPT-2 中的所有 307,200 个神经元的解释的数据集和可视化工具开源。同时，他们还提供了使用 OpenAI API 上公开可用的模型进行解释和评分的代码。他们希望研究界能够开发出新的技术来生成更高分的解释，同时开发出更好的工具来通过解释探索 GPT-2。

他们发现，有超过 1000 个神经元的解释得分至少为 0.8 分，这意味着根据 GPT-4，它们占据了神经元的大部分顶级激活行为。这些得到很好解释的神经元中的大多数都不是很有趣。然而，他们也发现了许多有趣但 GPT-4 并不理解的神经元。OpenAI 希望随着解释的改进，他们可能会迅速发现对模型计算的有趣的定性理解。

以下是一些不同层神经元被激活的例子，更高的层更抽象：

看起来，GPT 理解的概念和人类不太一样？

OpenAI 未来工作

目前，该方法还存在一些局限性，OpenAI 希望在未来的工作中可以解决这些问题：

该方法专注于简短的自然语言解释，但神经元可能具有非常复杂的行为，因而用简洁地语言无法描述；

OpenAI 希望最终自动找到并解释整个神经回路实现复杂的行为，神经元和注意力头一起工作。目前的方法只是将神经元的行为解释为原始文本输入的函数，而没有说明其下游影响。例如，一个在周期（period）上激活的神经元可以指示下一个单词应该以大写字母开头，或者增加句子计数器；

OpenAI 解释了神经元的这种行为，却没有试图解释产生这种行为的机制。这意味着即使是得高分的解释在非分布（out-of-distribution）文本上也可能表现很差，因为它们只是描述了一种相关性；

整个过程算力消耗极大。

最终，OpenAI 希望使用模型来形成、测试和迭代完全一般的假设，就像可解释性研究人员所做的那样。此外，OpenAI 还希望将其最大的模型解释为一种在部署前后检测对齐和安全问题的方法。然而，在这之前，还有很长的路要走。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经元

神经元

+关注

关注
1

文章
363

浏览量
18458
语言模型

语言模型

+关注

关注
0

文章
526

浏览量
10277
GPT

GPT

+关注

关注
0

文章
354

浏览量
15400
OpenAI

OpenAI

+关注

关注
9

文章
1092

浏览量
6537

原文标题：OpenAI用GPT-4解释了GPT-2三十万个神经元：智慧原来是这个样子

文章出处：【微信号：tyutcsplab，微信公众号：智能感知与物联网技术研究所】欢迎添加关注！文章转载请注明出处。

OpenAI宣布，发布了7.74亿参数GPT-2语言模型

就在本周，OpenAI宣布，发布了7.74亿参数GPT-2语言模型，15.58亿的完整模型也有望于几个月内发布，并将GPT-2这6个月的进展

发表于 09-01 09:10 •3011次阅读

GPT-4发布！多领域超越“人类水平”，专家：国内落后2-3年

电子发烧友网报道（文/吴子鹏）北京时间3月15日凌晨，人工智能研究公司OpenAI正式发布了其下一代大型语言模型GPT-4。目前，ChatGPT的Plus订阅用户已经可以使用GPT-4

发表于 03-16 01:58 •4712次阅读

<b class='flag-5'>GPT-4</b>发布！多领域超越“人类水平”，专家：国内落后<b class='flag-5'>2</b>-3年

ChatGPT升级　OpenAI史上最强大模型GPT-4发布

ChatGPT升级史上最强大模型GPT-4发布 OpenAI正式推出了ChatGPT升级版本，号称史上最强大模型GPT-4发布。OpenAI期待G

发表于 03-15 18:15 •2827次阅读

GPT-4是这样搞电机的

GPT-4写电机基础程序没问题

发表于 04-17 09:41 •1022次阅读

GPT-4处于一个什么样的编码地位

发布的 GPT-4 Developer Livestream（https://www.youtube.com/watch?v=outcGtbnMuQ）视频中，我们亲眼见证了 OpenAI CTO

发表于 06-16 10:42 •791次阅读

人工通用智能的火花：GPT-4的早期实验

]，是使用前所未有的计算和数据规模训练出来的。在本文中，我们报告了我们对GPT-4早期版本的调查，当时它还在OpenAI 的积极开发中。我们认为，（这个早期版本的）GPT-4是新一批

发表于 06-20 15:49 •1次下载

OpenAI宣布GPT-4 API全面开放使用！

OpenAI 在博客文章中写道：“自 3 月份以来，数百万开发者请求访问 GPT-4 API，并且利用 GPT-4 的创新产品范围每天都在增长。” “我们设想基于对话的模型未来可以支持任何用例。”

发表于 07-12 14:55 •1264次阅读

GPT-3.5 vs GPT-4：ChatGPT Plus 值得订阅费吗国内怎么付费？

每月20美元）更智能、更准确。 OpenAI将GPT-4描述为“比其前身GPT-3.5先进10倍”。自从OpenAI的大语言模型(LLM)GPT-

发表于 08-02 12:09 •4280次阅读

GPT-4没有推理能力吗？

今年三月，OpenAI 重磅发布了 GPT-4 大模型，带来了比 ChatGPT 背后 GPT-3.5 更强的推理、计算、逻辑能力，也引发了全民使用的热潮。在各行各领域研究人员、开发者

发表于 08-11 14:20 •899次阅读

OpenAI最新大模型曝光！剑指多模态，GPT-4之后最大升级！

目前为止，OpenAI还没有对爆料中的传闻做出回应，但此前发布过多模态模型测试。CEO奥特曼在回应有关GPT-5的传闻时，也暗示过GPT-4“正在增强”。

发表于 09-20 17:34 •1231次阅读

ChatGPT重磅更新　OpenAI发布GPT-4 Turbo模型价格大降2/3

构建各种各样的用例；有超过92%的财富世界500强企业以我们的产品为基础；GPT的周活跃用户达到大约1亿。” OpenAI的重点来了： OpenAI发布

发表于 11-07 18:20 •2819次阅读

OpenAI发布的GPT-4 Turbo版本ChatGPT plus有什么功能？

GPT-4的最新版本。OpenAI凭借承诺增强功能和成本效率的模型实现了巨大飞跃，为人工智能行业树立了新标准。我们来看看OpenAI带来了什么：文本和图像理解

发表于 12-05 17:57 •2514次阅读

ChatGPT plus有什么功能？OpenAI 发布 GPT-4 Turbo 目前我们所知道的功能

OpenAI 发布 GPT-4 Turbo 目前我们所知道的功能分析解答在最近的OpenAI DevDay上，该组织发布了一项备受期待的公告：推出

发表于 12-13 09:19 •1152次阅读

OpenAI API Key获取：开发人员申请GPT-4 API Key教程

OpenAI的GPT-4模型因其卓越的自然语言理解和生成能力，成为了许多开发者的首选工具。获取GPT-4 API Key并将其应用于项目，如开发一个ChatGPT聊天应用，不仅是实

发表于 06-24 17:40 •2384次阅读

OpenAI推出新模型CriticGPT，用GPT-4自我纠错

基于GPT-4的模型——CriticGPT，这款模型专为捕获ChatGPT代码输出中的错误而设计，其独特的作用在于，让人们能够用GPT-4来查找GPT-4的错误。

发表于 06-29 09:55 •550次阅读