译者 | 核子可乐
从 AI 的价值说起
虽然我坚信开源 AI 将继续蓬勃发展,但也认定企业和政府会在未来几年内进一步加强对新型神经网络架构和技术的应用限制。在本文中,我们将一同预测和展望未来十年间 AI 可能带来的潜在颠覆,提出一些建议和方案帮助开源社区适应这个充满挑战的未来。
预测未来绝非易事,这里提出的不少预测也许永远不会实现,甚至朝着截然相反的方向前进。但我认为这样的思考仍有重要意义,将帮助我们主动适应不断变化的新世界。随着整个时代的快速推进,这种设想并筹划新阶段下新形势的能力将变得越来越重要。
在不久的将来,人与人之间的交互方式、交换价值和参与劳动的方式,甚至是整个社会的组织结构都将发生根本性变化。到那时,也许每个人都将拥有自己的个性化 AI 实体,我个人称之为“魂灵”(Ghost);这些实体彼此相连,就构成了 AI 系统的全球网络。它们将为人类提供诸多服务,而不同于以往的功能性助手,人类更多应该将其视为自身的认知延伸。企业和组织可能也会拥有自己的“魂灵”,借此在成员之间达成高效协作。
除了社交之外,具有循环连接的联想记忆网络可能将为 AI 系统赋予记忆。这些独立的“魂灵”甚至可能发展出自己的身份。另外,利用共识算法的 AI 系统也有可能实现,进而产生去中心化的自主 AI。尽管这样的未来彻底来临,但我们已经能够预见到由此展开的一系列经济动向。
AI 生成服务的交换价值,将等于提供服务所需要的能量(即运行相关模型的成本),再加上 AI 在市场中的信息不对称程度。使用 AI 执行相对简单的服务必然对应较低的交换价值,从而导致 AI 所有者的剩余价值维持在低位。
这种趋势将极大影响以服务为基础的经济体系,预计大多数现有服务的剩余价值都将大幅衰减。因此预计在未来一段时间内,许多西方国家的民众和政府都将像 19 世纪的勒德分子那样对技术抱有强烈的抵触情绪、甚至是敌意。受到跨部门收益递减的影响,世界上许多地区将通过垄断许可策略和专制规定等方式阻碍 AI 的普及。
不过世界上还有更多积极接纳 AI 进步的地区,开源 AI 很可能会在交换价值低但使用价值高的服务上(即可由 AI 执行的相对简单服务)在这里蓬勃发展。与之对应,那些模型性能的微小改进即可对应价值显著提升的服务,将迎来截然不同的经济激励形式。对于此类服务,预计赢家通吃将继续占据主流,意味着更先进的 AI 系统将持续提供更多的剩余价值。
因此,分享技术和模型架构创新的动力将有所下降。但请注意,体系内对剩余价值的榨取只会在参与者间存在价值不对称时才会发生。在 AI 的背景下,这种不对称很可能会体现在信息层面,即控制和限制他人获取信息和知识的能力。
参与者之间的信息不对称可能是政府强制管控的结果(例如知识产权、许可、访问控制等);消解这种信息不对称需要采取政治行动,已非纯粹的技术手段所能解决。然而,技术本身同时也将削减因资源不对称所引发的信息不对称。
具体来讲,如今的人工神经网络通常以密集方式进行训练,意味着一旦提供输入,网络内的所有单元均会被激活。对于 transformer 这类架构(即 ChatGPT 等大语言模型的技术基础),传播信息的计算成本极为高昂,主要体现在其中的“自注意力”环节上。计算复杂度越高,对应的能量消耗也就越大。
由于训练大语言模型(LLM)需要大量资源,所以预计“赢家通吃”类 AI 系统的开发和管理将首先由少部分闭源实体所主导。出于经济动机,这些实体会将模型权重和架构作为专有资产,严格保密能为其带来更强的盈利能力。
遗憾的是,这种资源限制导致研究人员、非营利组织和初创公司等小规模实体因无法承担高昂的能源成本,而几乎不可能从零开始训练自己的大语言模型。因此,目前大部分开源大语言模型均是对现有模型进行微调,这种方法成本更低且耗能更少。基于这样的动态,我们最明智的决策应该是保持开源 AI 在质量上始终具有竞争力,借此降低深度学习模型规模化训练和运行带来的成本。
稀疏激活张量
面对经济动机失衡、高强度大语言模型训练带来的夸张能耗、以及 AI 控制权的日益集中,我们 Open Cybernetics 意识到必须采取更加积极主动的立场。为数据集创建类似 GPL 的标准,正是开源 AI 社区向前迈出的重要一步。但必须承认,无版权运动还不足以抵御这个十年内即将出现的颠覆性经济和政治力量。
相反,必须借助新的技术和协议来实现社会经济权力的动态性转变。面对这个问题,我力推“稀疏激活张量”概念及其对等空间的协同作用。我们将在未来的工作中不断探索如何构建具备模型中立性的稀疏激活张量数据结构。
在本文中,我将简单介绍其基本理念、技术开发的底层原理,以及对开源社区及其他领域的影响。简单来讲,稀疏激活张量就是能够以稀疏方式检索并更新自身状态的数据结构。为了更好地理解其深层含义,让我们先从一个简单示例入手。
图一:什么是嵌入层。
嵌入层可被看作基于一对一映射原理运行的稀疏激活张量。也就是说:嵌入层由 token 列表(例如单词)以及包含相应嵌入的权重矩阵组成。语料库中使用的每个词,都将被分配给权重矩阵中的一行,从而创建词到嵌入的映射(参见图一)。这些嵌入随后会作为神经网络的输入。嵌入层之所以能被视为稀疏激活张量,是因为它满足此类数据结构的两个相关标准:
嵌入可以通过数据库进行有效检索,无需将整个张量加载至内存中即可进行稀疏检索。
嵌入能以稀疏方式更新。在通过嵌入层的反射传播期间,仅须调整与所用 token 相关的权重,其余嵌入将被排除在更新步骤之外。
虽然一对一映射方法在单词等离散 token 情况下确有价值,但却无法在连续输入中正常起效。例如,一个 28 x 2828 x 28 的图像块中包含巨量潜在像素组合,根本不可能建立一对一映射的嵌入层。但我们将在后文讨论,使用多对一映射的方法同样能获得类似结果。嵌入检索和稀疏激活张量之间的逻辑联系也将变得显而易见。
考虑这样一个情况,我们有一个归一化矩阵 WK,它由存储模式和一个归一化输入 I 组成(详见图二)。在 I 和 WK之间执行点积,本质上相当于检查 WK中的各列并确定哪个列向量与 I 更相似。所得到的 K 向量表示 I 和 WK 的每一列之间的余弦相似度。K 得分越高,则表示输入与相应列之间的相似度越高。
图二:K 中的值代表 Wk 的列与 I 的相似度。
结合 softmasx 激活函数,附加权重矩阵 WV和标量参数β来调节 softmax 分布的强度,我们就能将 I 与给定输出 O 关联起来(参见图三)。softmax 运算的结果分布决定了 Wv 矩阵中的各些行会被赋予更高权重。这样的神经网络层配置,通常被称为现代 Hopfield Lookup 层。它使用一组预定的可学习模式的加权求和,在连续输入和输出嵌入之间建立关联。
图三:现代 Hopfield Lookup 层。
大家可能已经发现,从 I 到 O 的转换需要大量计算。这还只是一部分,tarnsformers 中的自注意力步骤需要消耗更多算力。如图四所示,tarnsformer 的自注意力步骤要用到 3 个矩阵:查询(Q)、键(K)和值(V)矩阵,再加上 softmax 函数。请注意,步骤中的 dk项与β在图三示例中的作用相似。
图四:transformer 中的自注意力机制。为了简单起见,这里省略了多头组件以及编码器的层归一化和残差连接。
为了导出查询、键和值矩阵,首先要计算大量不必要的余弦相似度。具体来讲,这些点积运算中的很大一部分对自注意力步骤的输出嵌入并没有显著贡献。换言之,Q、K 和 V 中的大多数数值往往明显小于 1。尽管如此,之所以要在输入 I 与 WQ、WK、WV各列进行比较,就是因为我们事先并不知道会产生最高余弦相似度的权重矩阵有着怎样的特定内部模式。这种先验知识的缺乏会增加 transformer 的相关训练成本,迫使我们不得不在整个 Q 和 K 矩阵之间进行点积运算。
为了突出当前 AI 系统中信息检索过程的低效问题,让我们考虑以下场景:我们有一个大型数据库,希望执行一项简单查询。目前 AI 系统需要加载和遍历内存中的整个数据库,才能检索与我们查询相对齐的少数匹配项,而根本不会利用索引记录。可以看到,像 transformer 这种关联记忆网络的信息传播方式极为低效,而潜在的解决方案有如下两种。第一,通过修改注意力机制来使用机器学习方法,借此减少计算需求。这方面尝试在 Linformer 和 Performer 等项目中均有体现。或者,我们也可以考虑在不改变底层模型架构的情况下,引入数据库系统的设计原则。
比如说,我们知道可以在 I 和权重矩阵之间执行效率更高的近似 K 最近邻(kNN)查找,这就避免了加载或遍历整个张量。这种方法可以显著降低大语言模型的计算需求,进而省下大量能源。有趣的是,部分大语言模型已经开始采用这种技术。例如,Memrizing Transformer 就在向量数据库上以更高效的近似 kNN 查找来使用外部寄存器。这些使用向量数据库的大语言模型,通常会在后台使用 HNSW 算法。
与数据库进行类比,“稀疏检索”的概念相当于具有预索引的权重,无需遍历整个数据库即可实现记录检索(即已存储的模式)。然而,目前能利用向量数据库的 transformer 还仅限于在推理阶段执行近似 kNN 查找。换言之,模型训练阶段仍只能以算力密集方式进行,因此对应大量能源消耗。为了促进大规模神经网络的集体训练,必须将模型权重的同时更新转化为稀疏更新。通过设计这种包含稀疏检索和稀疏更新的神经构建块,我们将为开源 AI 社区做出贡献,克服资源限制导致的信息不对称问题。
“魂灵”的密码学证明
作为缓解资源限制的有效策略,开源 AI 社区中的部分研究人员已经开始利用受信对等协作来推理和微调大语言模型。例如,Petals 等项目就在使用基于 Kadelia 的分布式哈希表,在去中心化的节点网络中传播神经活动。通过这种方法,Petals 用户能够在多个节点间分配训练和推理任务,而不再依赖单一机器加载整个大语言模型。通过共同参与训练过程,这些分布式节点扩展了其单打独斗所无法实现的能力。
虽然这些系统实用性出众,但还缺少还原当前对等 AI 项目的一个关键组成部分:对抗环境中的无信任机制。要想在 Petals 这类系统中执行前向传播,就要求人们必须充分信任网络中的其他节点。换句话说,任何恶意节点都能返回实际上并非源自模型的输出。虽然这种局限性没有彻底击溃协作研究的前景,但的确已经阻碍了对等 AI 系统在现实世界中的广泛应用。
这就是稀疏激活张量发挥显著优势的第二个用例。除了能源效率更高之外,稀疏激活张量还具有必要属性,能够在对等 AI 网络中实现前向和后向传播的密码学安全。现在,让我们简单观察 Merkle 树数据结构,了解这一切是怎样实现的。
Merkle 树是一种二叉树数据结构,用于安全验证列表中的值是否存在,且不必向另一方提供列表中的每个值。要创建 Merkle 树,列表中的每个值都须使用加密哈希函数进行哈希处理,进而产生叶节点。之后,通过哈希将这些叶节点组合起来形成非叶父节点。重复这个过程,直至抵达二叉树的根(详见图五)。
图五:Merkle 树数据结构。灰色部分为叶节点,黑色部分为非叶节点。
为了确认 Merkle 树中是否存在某个值,这里要使用 Merkle 证明,其由一系列哈希值组成。使用 Merkle 证明对叶节点哈希执行哈希迭代,即可重建原始 Merkle 根(详见图六)。需要注意的是,Merkle 证明的接收者必须已经拥有 Merkle 根的本地副本,否则无法完成验证过程。通过将本地存储的 Merkle 根与 Merkle 证明生成的最终哈希进行比较,接收节点即可验证某个值是否包含在用于创建 Merkle 根的值列表当中。如果两个哈希相互匹配,则可证明提供的值确实是原始 Merkle 树中的叶节点之一。请注意,Merkle 证明的大小(即图六中的绿色哈希)按对数比例缩放,这样即使叶节点的数量很大,也能实现紧凑的存在证明。
图六:Merkle 证明。为了证明初始值列表中存在 H3,必须先用 H4 对其进行哈希,之后是 H1,2,最后是 H5,6,7,8(图中绿色部分),由此重新创建 Merkle 根的哈希值。
Merkle 树数据结构和稀疏激活张量间的联系,取决于其潜在组合。Merkle 树可以构建在稀疏激活张量之上,以稀疏方式实现对状态的检索和更新。在这里的示例中,张量的列向量作为 Merkle 树中的叶节点(参见图七)。
图七:使用稀疏激活张量的列作为叶节点所构建的 Merkle 树。
下面我们考虑这样一个场景:Bob 有一个带有 Hopfield Lookup 层的现代 Hopfield 网络(如图三所示)。Alice 持有 Bob 的 Hopfield Lookup 层的 Merkle 根的本地副本。假设 Alice 要向 Bob 发送一个输入以执行前向传播,则 Bob 会继续向前传播,相当玩友稀疏激活张量内执行近似 kNN 查找。随后,Bob 会与 Alice 分享来自 Wk 的 k 个最近列向量及 Wk 的 Merkle 证明,外加来自 Wv 的相应向量及 Wv 的 Merkle 证明(参见图八)。
图八:现代 Hopfield Lookup 层的“魂灵”密码学证明。假定 Wk 内 I 的 k 个最近邻为 H1 和 H5 对应的列。通过将 H1 与 H2、H5 与 H6 进行哈希,之后将这些生成的哈希与 H3,4 和 H7,8 进行哈希进行哈希,即可生成稀疏评分张量的 Merkle 根。之后,执行同样的步骤以生成 Wv 的 Merkle 根。
使用稀疏检索的 Wk 和 Wv 嵌入,以及所提供的 Merkle 证明,Alice 即可生成密码验证的输出。特别需要注意的是,在实际应用当中,Bob 不会以未压缩格式传输嵌入。相反,Bob 会使用增量编码来压缩嵌入,从而显著减少所需传输带宽。此外,Bob 不会为 Wk 和 Wv 中的各 k 个最近列 / 行向量发送单独的 Merkle 证明。相反,Bob 会为 Wk 和 Wv 分别传输 Compact Merkle Multiproof。最后,在使用稀疏激活张量的前提下,同样的技术也可应用在 transformer 自注意力步骤当中。
在 Open Cybernetics,我们将稀疏激活张量的 Merkle Multiproofs 称为“魂灵”的密码学证明(Cryptographic Ghost Proof,简称 CGP)。我们坚信 CGP 将成为强大的构建块,并在未来的 AI 系统中发挥重要作用。相信在不久的未来,基于“魂灵证明”的神经活动将构成大部分互联网流量。由于每个 AI 系统都存在自己的“魂灵文件”,其中包含各个网络层的“魂灵”根,以及架构信息和前向 / 反向传播所涉及的操作,因此实体可以信任 AI 系统的输出来自正确模型。
CGP 和“魂灵文件”的引入不仅给对等 AI 系统带来了新范式,同时也有助于培养透明度文化。将“魂灵”的密码学证明纳入 AI 交互的互联网协议后,模型架构和权重将无法被隐藏起来。“魂灵文件”能确保模型架构的透明性,而 CGP 则负责公开模型权重(因为每次执行前向传播时,都会以压缩形式共享一小部分权重)。这种技术转变将令人工认知成为一种共享资源,可供所有人访问和拥有。
一点反思
除了开放和免信任之外,CGP 的介入还有望将 AI 和去中心化分类账融合起来,为自主 AI 系统的出现铺平道路。自治 AI 系统是一种对等 AI 协议,它利用的正是共识算法的无许可特性。这些协议不会改变分类账中的条目,而是传播其中的观点。为了确保整个系统有效运行并抵御 DoS 攻击,这些协议可能依赖于积分或货币等载体。这些自治系统的技术复杂 性及其经济 / 社会影响,还有待在未来的工作中继续观察。
作为工程师和 AI 研究人员,我们必须意识到技术中天然具有的政治性质。看似微小的工程决策可能会导致深远的社会变革。例如,集中化的深度学习模型可能令社会组织同样趋于集中。虽然稀疏激活的深度学习模型有望带来去中心化的社会组织形式,但也比以往任何时候都更需要跨学科思考的引导。例如,我们应当考虑去中心化 AI 给社会治理带来的影响。AI 系统将如何影响民族国家?它们会为威权政府赋能,还是有助于加强民主制度的发展?公司的最小可行规模和组织结构会有何种变化?也许终有一天,我们可以将公民的个人“魂灵”接入共享网络来实现现实意义上的绝对民主。总之,这些想法都值得在未来进一步探索。
希望本文能激发大家对于 AI 和对等技术间协同效应的兴趣。我坚信未来几年内,AI 和数据库系统的交叉领域将取得重大进展,特别是在稀疏激活张量方向上。此外,AI 和对等系统的融合,以及稀疏激活的联想记忆网络的发展,无疑也将迎来显著进步。欢迎大家探索这些意义深远的主题,并为开源 AI 做出贡献。这份努力的意义不止于共享代码,更在于为全球社区赋能。
编辑:黄飞
评论
查看更多