OpenAI用GPT-4解释了GPT-2三十万个神经元：智慧原来是这个样子

白癜风初期症状

机器之心报道

机器之心编辑部

这就是GPT的「抽象」，和人类的抽象不太一样。

虽然ChatGPT似乎让人类正在接近重新创造智慧，但迄今为止，我们从来就没有完全理解智能是什么，不论自然的还是人工的。

认识智慧的原理显然很有必要，如何理解大语言模型的智力？OpenAI给出的解决方案是：问问GPT-4是怎么说的。

5月9日，OpenAI发布了最新研究，其使用GPT-4自动进行大语言模型中神经元行为的解释，获得了很多有趣的结果。

可解释性研究的一种简单方法是首先了解AI模型各个组件（神经元和注意力头）在做什么。传统的方法是需要人类手动检查神经元，以确定它们代表数据的哪些特征。这个过程很难扩展，将它应用于具有数百或数千亿个参数的神经网络的成本过于高昂。

所以OpenAI提出了一种自动化方法——使用GPT-4来生成神经元行为的自然语言解释并对其进行评分，并将其应用于另一种语言模型中的神经元——此处他们选择了GPT-2为实验样本，并公开了这些GPT-2神经元解释和分数的数据集。

论文地址：https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.htmlGPT-2神经元图：https://openaipublic.blob.core.windows.net/neuron-explainer/neuron-viewer/index.html代码与数据集：https://github.com/openai/automated-interpretability

这项技术让人们能够利用GPT-4来定义和自动测量AI模型的可解释性这个定量概念：它用来衡量语言模型使用自然语言压缩和重建神经元激活的能力。由于定量的特性，我们现在可以衡量理解神经网络计算目标的进展了。

OpenAI表示，利用他们设立的基准，用AI解释AI的分数能达到接近于人类的水平。

OpenAI联合创始人GregBrockman也表示，我们迈出了使用AI进行自动化对齐研究的重要一步。

具体方法

使用AI解释AI的方法包括在每个神经元上运行三个步骤：

步骤一：用GPT-4生成解释

给定一个GPT-2神经元，通过向GPT-4展示相关文本序列和激活来生成对其行为的解释。

模型生成的解释：对电影、角色和娱乐的引用。

步骤二：使用GPT-4进行模拟

再次使用GPT-4，模拟被解释的神经元会做什么。

步骤三：对比

根据模拟激活与真实激活的匹配程度对解释进行评分——在这个例子上，GPT-4的得分为0.34。

主要发现

使用自己的评分方法，OpenAI开始衡量他们的技术对网络不同部分的效果，并尝试针对目前解释不清楚的部分改进技术。例如，他们的技术对较大的模型效果不佳，可能是因为后面的层更难解释。

OpenAI表示，虽然他们的绝大多数解释得分不高，但他们相信自己现在可以使用ML技术来进一步提高他们产生解释的能力。例如，他们发现以下方式有助于提高分数：

迭代解释。他们可以通过让GPT-4想出可能的反例，然后根据其激活情况修改解释来提高分数。使用更大的模型来进行解释。随着解释模型（explainermodel）能力的提升，平均得分也会上升。然而，即使是GPT-4给出的解释也比人类差，这表明还有改进的余地。改变被解释模型（explainedmodel）的架构。用不同的激活函数训练模型提高了解释分数。

OpenAI表示，他们正在将GPT-4编写的对GPT-2中的所有307,200个神经元的解释的数据集和可视化工具开源。同时，他们还提供了使用OpenAIAPI上公开可用的模型进行解释和评分的代码。他们希望研究界能够开发出新的技术来生成更高分的解释，同时开发出更好的工具来通过解释探索GPT-2。

他们发现，有超过1000个神经元的解释得分至少为0.8分，这意味着根据GPT-4，它们占据了神经元的大部分顶级激活行为。这些得到很好解释的神经元中的大多数都不是很有趣。然而，他们也发现了许多有趣但GPT-4并不理解的神经元。OpenAI希望随着解释的改进，他们可能会迅速发现对模型计算的有趣的定性理解。

以下是一些不同层神经元被激活的例子，更高的层更抽象：

看起来，GPT理解的概念和人类不太一样？

OpenAI未来工作

目前，该方法还存在一些局限性，OpenAI希望在未来的工作中可以解决这些问题：

该方法专注于简短的自然语言解释，但神经元可能具有非常复杂的行为，因而用简洁地语言无法描述；

OpenAI希望最终自动找到并解释整个神经回路实现复杂的行为，神经元和注意力头一起工作。目前的方法只是将神经元的行为解释为原始文本输入的函数，而没有说明其下游影响。例如，一个在周期（period）上激活的神经元可以指示下一个单词应该以大写字母开头，或者增加句子计数器；

OpenAI解释了神经元的这种行为，却没有试图解释产生这种行为的机制。这意味着即使是得高分的解释在非分布（out-of-distribution）文本上也可能表现很差，因为它们只是描述了一种相关性；

整个过程算力消耗极大。

最终，OpenAI希望使用模型来形成、测试和迭代完全一般的假设，就像可解释性研究人员所做的那样。此外，OpenAI还希望将其最大的模型解释为一种在部署前后检测对齐和安全问题的方法。然而，在这之前，还有很长的路要走。

参考内容：

https://openai.com/research/language-models-can-explain-neurons-in-language-models

https://news.ycombinator.com/item?id=35877402

https://www.reddit.com/r/MachineLearning/comments/13d4b3o/language_models_can_explain_neurons_in_language/

https://techcrunch.com/2023/05/09/openais-new-tool-attempts-to-explain-language-models-behaviors/