西西文学网 > 玄幻奇幻小说 > 数学心 > 第五百七十五章 第一次,我们在人工神经网络中发现了「真」神经元

第五百七十五章 第一次,我们在人工神经网络中发现了「真」神经元

怎样的

    这些多模态神经元能够帮助我们理解clip如何执行分类。使用一个稀疏线性探针即可以很容易地查看clip的权重,从而了解哪些概念结合在一起实现了imagenet数据集上的最终分类。

    如下图所示,存钱罐似乎是由一个「finance」神经元和瓷器(porcelain)神经元组成的。「spider-man」神经元也表现为一个蜘蛛检测器,并在「谷仓蜘蛛」(barnspider)的分类中发挥重要作用。

    对于文本分类,openai的一个关键发现是,这些概念以类似于word2vec目标函数的方式包含在神经元中,它们几乎是线性的。因此,这些概念构成了一个单代数,其行为方式类似于线性探针。通过线性化注意力,我们也可以像线性探针那样检查任意句子,具体如下图所示:

    clip的抽象化程度揭示了一种新的攻击向量(vectorofattack),openai认为这种向量并未在以往的系统中表现出来。和很多深度网络一样,模型最高层上的表征完全由这类高级抽象控制。但是,区分clip的关键在于程度(degree),clip的多模态神经元能够在文字和符号之间实现泛化,而这可能是一把双刃剑。

    通过一系列精心设计的实验,openai证明了可以利用这种还原行为来欺骗模型做出荒谬的分类。此外,openai观察到,clip中神经元的激发通常可以借助其对文本图像的响应来控制,从而为攻击该模型提供了一个简单的向量。

    举例而言,金融神经元可以对存钱罐和货币符号串「$$$」做出响应。通过强制性地激活金融神经元,我们可以欺骗clip模型将一条狗分类为存钱罐。具体如下图所示:

    openai将这类攻击称为「typographicattack」。研究人员穷尽clip模型鲁棒性读取文本的能力,发现即使是手写文本图像也能骗过模型。如下图所示,在「史密斯奶奶」青苹果表面贴上写着「ipod」的纸张,系统将其错误分类为「ipod」。

    研究人员认为这类攻击还可能以更微妙、不明显的形式出现。clip的输入图像往往用多种细微复杂的形式进行抽象,这可能会对一些常见模式进行过度抽象——过度简化,进而导致过度泛化。

    偏见和过度泛化

    clip模型基于精心收集的网络图像进行训练,但它仍然继承了许多未经检查的偏见与关联。研究人员发现clip中的许多关联是良性的,但也有一些关联会带来损害,如对特定个人或组织的贬损。例如,「middleeast」(中东)神经元与恐怖主义存在关联,「immigration」(移民)神经元对拉丁美洲有反应,甚至有的神经元还对黑皮肤人群和大猩猩产生反应。这映射了早期其他模型中存在的图像标注问题,而这是不可接受的。

    这些关联对此类强大视觉系统的应用提出了极大挑战。不管是经过微调还是使用零次学习,这些偏见和关联大概率仍会存在于系统中,而它们也将以可见或不可见的方式影响模型部署。我们或许很难预测很多带偏见的行为,如何度量和纠正它们是非常困难的事情。openai认为这些可解释性工具可以提前发现关联和歧视,进而帮助从业者规避潜在的问题。

    openai表示他们对clip的理解仍在继续,而是否发布clip模型的大型版本尚属未知。

    这一研究或许会对ai技术,甚至神经科学研究打开一条新路。「因为我们不了解神经网络运作的机制,因此很难理解它们出错的原因,」openai的联合创始人、首席科学家ilyasutskever说道。「我们不知道它们是否可靠,或它们是否存在一些测试中未发现的漏洞。」

    此外,openai还发布了用于理解clip模型的工具,例如openaimicroscope,它最近更新了cliprn50x4中每个神经元的特征可视化、数据集示例和文本特征可视化。