第五百七十五章第一次，我们在人工神经网络中发现了「真」神经元_数学心

怎样的

    这些多模态神经元能够帮助我们理解clip如何执行分类。使用一个稀疏线性探针即可以很容易地查看clip的权重，从而了解哪些概念结合在一起实现了imagenet数据集上的最终分类。

    如下图所示，存钱罐似乎是由一个「finance」神经元和瓷器（porcelain）神经元组成的。「spider-man」神经元也表现为一个蜘蛛检测器，并在「谷仓蜘蛛」（barnspider）的分类中发挥重要作用。

    对于文本分类，openai的一个关键发现是，这些概念以类似于word2vec目标函数的方式包含在神经元中，它们几乎是线性的。因此，这些概念构成了一个单代数，其行为方式类似于线性探针。通过线性化注意力，我们也可以像线性探针那样检查任意句子，具体如下图所示：

    clip的抽象化程度揭示了一种新的攻击向量（vectorofattack），openai认为这种向量并未在以往的系统中表现出来。和很多深度网络一样，模型最高层上的表征完全由这类高级抽象控制。但是，区分clip的关键在于程度（degree），clip的多模态神经元能够在文字和符号之间实现泛化，而这可能是一把双刃剑。

    通过一系列精心设计的实验，openai证明了可以利用这种还原行为来欺骗模型做出荒谬的分类。此外，openai观察到，clip中神经元的激发通常可以借助其对文本图像的响应来控制，从而为攻击该模型提供了一个简单的向量。

    举例而言，金融神经元可以对存钱罐和货币符号串「$$$」做出响应。通过强制性地激活金融神经元，我们可以欺骗clip模型将一条狗分类为存钱罐。具体如下图所示：

    openai将这类攻击称为「typographicattack」。研究人员穷尽clip模型鲁棒性读取文本的能力，发现即使是手写文本图像也能骗过模型。如下图所示，在「史密斯奶奶」青苹果表面贴上写着「ipod」的纸张，系统将其错误分类为「ipod」。

    研究人员认为这类攻击还可能以更微妙、不明显的形式出现。clip的输入图像往往用多种细微复杂的形式进行抽象，这可能会对一些常见模式进行过度抽象——过度简化，进而导致过度泛化。

    偏见和过度泛化

    clip模型基于精心收集的网络图像进行训练，但它仍然继承了许多未经检查的偏见与关联。研究人员发现clip中的许多关联是良性的，但也有一些关联会带来损害，如对特定个人或组织的贬损。例如，「middleeast」（中东）神经元与恐怖主义存在关联，「immigration」（移民）神经元对拉丁美洲有反应，甚至有的神经元还对黑皮肤人群和大猩猩产生反应。这映射了早期其他模型中存在的图像标注问题，而这是不可接受的。

    这些关联对此类强大视觉系统的应用提出了极大挑战。不管是经过微调还是使用零次学习，这些偏见和关联大概率仍会存在于系统中，而它们也将以可见或不可见的方式影响模型部署。我们或许很难预测很多带偏见的行为，如何度量和纠正它们是非常困难的事情。openai认为这些可解释性工具可以提前发现关联和歧视，进而帮助从业者规避潜在的问题。

    openai表示他们对clip的理解仍在继续，而是否发布clip模型的大型版本尚属未知。

    这一研究或许会对ai技术，甚至神经科学研究打开一条新路。「因为我们不了解神经网络运作的机制，因此很难理解它们出错的原因，」openai的联合创始人、首席科学家ilyasutskever说道。「我们不知道它们是否可靠，或它们是否存在一些测试中未发现的漏洞。」

    此外，openai还发布了用于理解clip模型的工具，例如openaimicroscope，它最近更新了cliprn50x4中每个神经元的特征可视化、数据集示例和文本特征可视化。

第五百七十五章 第一次，我们在人工神经网络中发现了「真」神经元

第五百七十五章第一次，我们在人工神经网络中发现了「真」神经元