去中心化训练：伟大的登月计划

本文信息来源：chainofthought

登月计划是真实存在的。什么已经奏效，什么还缺失，接下来会发生什么。

让我们先说说我们的观点：

去中心化训练是当前 AI 与加密领域最具雄心的登月计划。

它挑战了只有少数资金雄厚的实验室才能构建和控制大型模型的假设。

如果成功，它会将密码学和区块链直接编织进 AI 技术栈的基础层。到那时，全世界都不得不关注这一点。

我们将在这里探讨两个核心观点：

大型 AI 模型如何在去中心化网络中进行训练，以及这为什么重要
AI 模型的代币化

我们正进入一个新的阶段，在这个阶段，你不仅仅是使用一个 AI 模型。你可以参与训练它。你可以拥有它的一部分。在链上，与他人共同拥有。

上图展示了几次去中心化训练的过程，每次都使用了不同的数据集和目标。虽然这不是一个直接的对比（模型类型和设置各不相同），但整体趋势非常明显。

模型规模正在稳步扩大，曲线也在不断向上和向右移动。

小提示：它们大多数仍然依赖于白名单贡献者，因此还没有完全开放或无许可化。

第一部分：去中心化训练

核心思想很简单：在不依赖集中式基础设施的情况下构建前沿规模的模型。

不再将所有内容都通过单一、受信任的计算集群进行路由，而是将训练分布在一个无需许可的网络中，在这里，协调、通信和信任成为首要问题。

Sam Lehman 来自 Symbolic Capital，在他的关于去中心化训练的文章中明确区分了这一点：

“ 真正的去中心化训练，是可以由互不信任的各方完成的训练。”

所以……“非信任方”才是真正重要且复杂的部分。

在真正的去中心化训练中，任何节点都可以加入训练过程。无论是数据中心的机架，还是你家地下室的一块独立 GPU，都没有区别。

最近，涌现出大量新的研究和开发者热情，正在不断突破去中心化训练的极限。

过去三个月发生了什么

Nous Research 以分布式方式预训练了一个拥有 150 亿参数的模型，目前正在训练一个 400 亿参数的模型。
Prime Intellect 在分布式网格上微调了一个 32B Qwen 基础模型，在数学和代码方面超越了其 Qwen 基线。
Templar 从零开始使用代币奖励训练了一个 12 亿参数的模型。早期阶段的损失始终低于集中式基线。
Pluralis 展示了低带宽、模型并行训练（曾被认为不可能）实际上是完全可行的。

这些胜利提醒我们，去中心化训练已经不再只是一个思想实验。

到目前为止，进展主要集中在100亿到400亿参数的范围，这表明我们正在触及数据并行在开放、去中心化网络上高效实现的极限。

要突破这个范围，向1000亿甚至1万亿以上参数的模型从零开始训练，可能将依赖于模型并行，而这将带来数量级更高的挑战。

要理解是什么阻碍了更大规模的训练，我们需要拆解三个主要限制因素以及并行化的使用方式。

去中心化训练的“神圣三位一体”

为了实现规模化，去中心化网络需要解决我们所说的 “神圣三位一体” 设计约束：

1. 协调

谁来决定每个节点训练什么、在哪里训练、何时训练？如何应对节点的加入和退出？

在集中式训练中，协调非常简单。调度器决定什么被训练、在哪台机器上训练以及何时训练。如果某个节点崩溃，系统要么重启，要么重新路由。一切都假设系统可靠且可控。

去中心化训练则没有这种便利。节点分布在不同的网络上，运行在不同的硬件上，随时可能掉线或重新加入。这正是去中心化训练协议需要解决的核心挑战之一。

Prime Intellect 的 Orchestrator（https://www.primeintellect.ai/blog/intellect-2-release）

Prime Intellect 的 Orchestrator 通过在全球网格中分配任务、跟踪参与情况，并在节点故障时无需重启整个系统即可恢复，来应对这一挑战。它与 PCCL 协同工作，PCCL 是他们的通信层，即使部分机器离线也能保持同步。新节点可以在训练过程中加入，获取最新状态，并开始贡献，而不会拖慢整个网络的进度。

Nous Psyche 遵循了类似的逻辑。协调器作为训练过程状态的权威，并以智能合约的形式存在于链上。节点在各个训练周期之间加入或离开，系统会根据实时可用的资源自我调整。

协调器本身的去中心化程度可以有所不同，这仍然是一个关键的设计选择。并不是每个项目都依赖于中心化的协调，这也引发了系统是否真正去中心化的质疑。

GenSyn 采用点对点的方法。通过他们的强化学习群体，节点可以训练自己的基础模型，同时彼此产生影响。它们既可以从其他模型中学习，也可以影响其他模型的学习。最终，表现最好的模型可以被选出或进行蒸馏。在未来的迭代中，他们可能会实现梯度的直接交换。

在所有情况下，核心挑战都是一样的：当系统本质上不稳定时，如何保持训练的一致性。每种解决方案都以不同的方式在结构与灵活性之间取得平衡。

2. 可验证性

你如何知道一个节点正确完成了工作且不是恶意的？

去中心化训练的一个核心假设是节点不被信任。

任何计算机都可以加入，其中一些可能会有恶意行为：提交虚假更新、注入有毒数据，或者只是装作在贡献其实什么都没做。系统需要一种方法来验证每个参与者都在做有效的工作，而不需要一个中央权威来监督他们。

最基本的方法是冗余计算 。将同一个任务分配给多个节点并比较输出。如果结果一致，则认为是正确的。这种方法有效，但会浪费不必要的计算资源，且扩展性很差。

更先进的方法尝试使用轻量级的分层验证方案。

Prime Intellect 的 TOPLOC 就是一个例子。它使用局部敏感哈希（LSH）为每个模型输出生成一个紧凑的指纹。同行无需重新运行完整模型来检查结果，只需重新计算并验证这个指纹。TOPLOC 只跟踪模型隐藏状态中最具信息量的值，使验证速度比完整前向传播快多达 100 倍。

GenSyn 使用名为 Verde 的系统进行裁判式委托。验证者会检查某个节点的输出，如果发现异常可以提出质疑。如果双方存在分歧，系统会定位到训练过程中结果分歧的具体步骤。只有这一步会由中立的第三方（如智能合约或其他可信同行）重新执行。这样可以在保持完整性的同时，将开销降到最低。

还有一个硬件层面的复杂性。在不同设备上进行训练——比如 A100 和 H100——即使运行相同的代码，也可能产生细微的数值差异。许多验证系统在这种情况下会失败，因为它们期望输出完全一致。Verde 通过 RepOps 来解决这个问题，这是一种低层级库，可以在不同硬件类型之间强制实现逐位一致性。它确保所有节点运行相同的数学运算，并返回完全相同的结果，无论底层架构如何。

目前也有关于 proof-of-learning 和 proof-of-training-data 的早期研究，节点会对中间权重状态或数据样本发布加密承诺。这些方法最终可能为训练步骤是否在有效数据上执行提供轻量级、最小信任的保障。

虽然像 TOPLOC 和 Verde 这样的系统提供了有前景的基础性思路，但它们目前更像是概念验证的支架，而不是完全成熟的安全架构。核心问题在于结构性：

提交垃圾内容的成本很低。
验证、证明和升级挑战的成本很高。
在开放网络中，防御者之间的协调非常困难。

3. 公开互联网下的性能

如何在数据中心之外保持速度和可靠性？

训练大型模型依赖于高速通信和紧密协调。在集中式环境中，这通常通过像 NVLink 和 InfiniBand 这样的高速互连来实现，速度分别可达 900 GB/s 和 200 GB/s。硬件集中部署，热量得到控制，一切都为保持同步而设计。

这些条件在去中心化环境中都不适用。

节点分布在全球各地，运行在家庭 Wi-Fi 或不稳定的云基础设施上。互联网带宽可能只有 50-200 MB/s（慢了 1000 倍）。延迟不可预测，硬件不一致，故障频发。

这造成了根本性的瓶颈。训练本质上是迭代的，梯度必须共享，时序需要保持一致。一个缓慢或不稳定的节点就可能拖慢整个过程，甚至导致全部训练中断。

正如 Alexander Long (Pluralis) 所说：

“去中心化的模型并行问题解决了吗 → 没有。与数据中心相比，通信带宽要差得多，即使达到 90%也远远不够。我们需要实现大约 300 倍的压缩，才能与中心化训练持平。 目前仍有一个巨大的疑问，这是否真的可行 ——这样做会损失大量的训练信号。”

这正是最近大部分研究努力的方向：让通信效率足以在开放互联网环境下运行。

我们有几种方法可以实现这一目标：

在同步前多训练几步。 节点不是每一步都同步更新，而是在本地训练 16、32 步或更多步后再同步。这样可以有更多时间发送数据，因此不需要进行太多压缩。Open DiCoLo（来自 Prime Intellect）报告称通信开销减少了 500 倍，同时对模型收敛没有影响。
只发送重要的数据。 你不需要发送所有的训练更新。大多数更新都接近于零。使用像 DiLoCo 或 DeMo 这样的算法，你只需发送最重要的 0.1%–1%的数值（那些最关键的部分）。
使用数学压缩技巧。 有些系统会使用变换（比如将数字转换为频率），只发送最重要的部分。还有的使用低秩近似。这些方法可以减少需要发送的数据量，同时保持结果的准确性。

让我们用 DeMo 作为例子来说明（2）和（3）。DeMo 是一个优化器：

每个 GPU 都会保留一个“动量”，类似于对过去更新的滑动平均。
GPU 不会发送完整的动量（因为太大了），而是对其进行离散余弦变换（DCT）。这样就将其转换到了频域。
然后，它会选择最重要的前 k 个分量。
这几个数字被发送到其他 GPU。
然后，每个节点使用这组小数字来重建原始动量的近似值 。

在一些实验中，这种方法相比于简单的方法最多可将带宽使用量减少一万倍。

到目前为止，大多数高效通信技术都集中在数据并行上，其主要挑战是共享权重梯度。

模型并行要困难得多。它需要更激进的压缩，因为每次前向和反向传播时还必须传输激活值（在层之间传递的中间输出）。这些信号对降质更加敏感，并且需要实时传输，这使得带宽挑战更加严峻。

并行性

来源：Philip Lippe

让我们花点时间来讨论并行性，因为这是理解底层运行机制的关键。

在大多数去中心化训练系统中，你会看到它们采用多种并行策略的组合，每种策略在内存、通信和效率方面都有权衡。

数据并行

这会在所有节点上复制完整模型，每个节点在不同的数据批次上进行训练。这种方式对内存的需求很高，并且需要企业级 GPU，因为每个节点都必须存储整个模型。通信相对较轻，因为每次训练步骤后才同步更新。

随着模型规模的增长，可扩展性成为一个挑战。以这种方式训练一个拥有 1000 亿以上参数的模型，可能需要非常大的节点，或许需要 100 块 H100 显卡。这自然将许多人排除在参与之外。

数据并行还有另一个缺点。每个节点都持有完整模型，这使得隐私和模型保护变得困难。

模型并行

在这里，模型被分割到各个节点中，没有任何一个节点拥有全部的模型权重。

张量并行将同一层内的计算在多个节点之间纵向拆分。一次矩阵乘法可能会跨越多个 GPU，这意味着它们需要不断交换部分结果。这使得可以训练更大的模型，但也带来了高强度、低延迟的通信需求。
流水线并行将不同的层分配给不同的节点。输入数据依次向前通过模型，然后梯度再向后传播。这样可以分散内存负载并减少通信需求，但由于每个阶段都要等待轮到自己，导致存在空闲时间。

像 GenSyn 的 SkipPipe 这样的技术允许在某些阶段过载或宕机时临时跳过这些阶段，帮助流水线继续运行而无需等待。在测试中，SkipPipe 使流水线训练速度提升了 55%，并且在节点故障高达 50%的情况下仍能继续训练。

总结：

大规模训练依赖于紧密的协调。如果没有快速、可靠的通信，整个过程就会开始崩溃。

这正是去中心化网络所面临的难题。它们缺乏光纤互连、自定义硬件以及超大规模数据中心的统一环境。相反，它们运行在分布于全球的消费级 GPU 和不稳定的连接组成的拼凑网络上。

激励机制设计

即使你解决了协调、验证和性能等问题，如果没有让人们参与的理由，去中心化训练也无法实现。算力成本高昂。没有强有力的激励，大多数人不会参与。

到目前为止，像 Prime Intellect 和 Nous Research 这样的团队依靠的是小型、理念一致的社区。志愿贡献者要么在哲学上支持这个使命，要么希望未来能获得代币。这对于早期实验来说没问题，但无法扩展为一个开放、可持续的网络。

Templar 采取了不同的方法。它是一个专注于大语言模型预训练的 Bittensor 子网，并且从一开始就将激励机制设计视为核心问题。

Templar 中的矿工在本地数据上进行训练，将他们的更新压缩为伪梯度，并提交到网络。他们的目标是提升模型并赚取 TAO 代币。

Templar 使用 DeMo（解耦动量），这是一种为压缩而设计的优化器。它大幅减少了通信开销，使得在较慢、不稳定的连接下进行训练成为可能。

核心激励机制被称为 Gauntlet。这是由验证者运行的评分机制。每次提交都会根据以下方面进行评估：

它对模型的提升程度（损失降低）
无论其是否为原创（未被复制或重放）
无论其是否按时提交，并与当前模型状态同步

收益取决于表现，而不仅仅是通过/未通过的检查。系统通过每次更新对模型的改进程度以及与其他矿工的排名来衡量贡献。这种设计具有竞争性，从而推动了质量提升。

防止欺诈同样至关重要。每位贡献者都会被分配独特的数据。验证者会比较这些数据以及噪声数据上的表现。如果某次更新在随机输入上表现良好，但在指定任务上表现不佳，则很可能不是诚实计算的。系统可以根据风险采用快速启发式方法或较慢但更深入的检查。

话虽如此，博弈损失是真实存在的。资源充足的对手会在乐观或纯粹基于损失的激励机制中找到漏洞。过拟合、梯度操控攻击以及其他边缘案例可能会悄悄绕过天真的检查。防止这种情况可能需要分层的方法：更好的验证、代币质押与惩罚，最终还需要像零知识证明这样的加密工具。

2025 年 5 月，Templar 训练了一个拥有 12 亿参数的模型，在早期训练阶段（尤其是第 1000 步到第 4000 步之间）表现出比集中式基线更快的收敛速度。该模型始终保持更低的损失值，暗示其样本效率更高：这可能得益于激励机制，即对矿工的有意义改进给予奖励。

如果这些结果能够持续，Templar 有望扩展到更大规模的模型，并向希望协作训练模型的组织开放该系统。

去中心化训练流程

为了展示整个流程如何协同运作，以下是实际中去中心化训练的高层次流程：

一个模型发起者向网络提交训练请求。这可能包括上传数据集和模型架构，或定义更复杂的设置，比如强化学习循环。
协调层/调度器将任务拆分为更小的子任务。这些子任务通常是微批次、回合或针对现实通信限制优化的参数块。然后，这些任务会被分配给可用的工作节点 。
随着训练的进行， 验证者会对输出结果进行验证。这并不意味着要重新运行每一步。相反，大多数系统采用乐观验证 ：除非有人提出质疑，否则输出会被接受。
模型参数会在每次迭代中持续合并。当训练完成后，最终模型会交付给请求方或用于部署。

流程中的每个环节都通过代币奖励或微支付进行激励。正确性通过加密经济机制来保障，这些机制会惩罚恶意行为者并奖励诚实劳动。

距离 GPT-4 仍有很长的路要走

我们距离在去中心化基础设施上训练类似 GPT-4 的模型还很遥远。这还需要更多的突破，可能需要数年时间。

像 DeMo 和 DiLoCo 这样的技术通过缩小更新的规模来减少带宽需求。但这会将负担转移到本地计算上。这些优化器并不能解决延迟、信任、故障恢复或全局一致性的问题。而且它们还没有在前沿规模上进行过测试。

为了让大家了解背景，像 GPT-4 或 Claude 3.7 这样的模型是在以下条件下训练的：

10 到 100 万亿以上的 tokens
超过 1000 万小时的 H100 运行时间
数十个专家模型或层，总参数量达到1至5万亿
数千个同步节点运行张量和流水线并行

要让开放、去中心化网络达到这一水平，解决的不仅仅是带宽问题。你还需要突破协作瓶颈——如不稳定的延迟、不可靠的硬件、不受信任的参与者、过时的更新。系统必须能够从故障中恢复，并持续前进而不崩溃。

真正需要的是一个新的技术栈：

允许节点之间更松散耦合的架构
协议，对齐激励并证明工作成果
以带宽为瓶颈构建的计算拓扑结构
即使部分参与者采取对抗性行为也能保持稳定的经济系统

也就是说，基线已经发生了变化。如今，拥有100亿到400亿参数的模型正在分布式网络上进行训练。

仅仅在一两年前，这听起来还非常不可思议。

去中心化训练的兴趣激增

为什么去中心化训练很重要？因为它改变了谁有能力构建最强大的模型。

目前，基础模型的训练仅限于少数几家大型实验室。OpenAI、Anthropic、Meta 和 xAI 拥有运行大规模训练流程的预算、基础设施和人才。其他所有人都依赖于他们的模型。这其中包括初创公司、学术研究人员，甚至整个国家级项目。

对“开放基础”模型的需求

开发者和开源社区正在寻找替代方案。 不可阻挡的模型无法被速率限制或政策变更所限制或关闭。

去中心化训练为打造任何单一实体都无法控制的模型提供了一条路径。没有中心化的 API，也没有哪家公司拥有一键关闭的权力。任何拥有合适硬件的人都可以参与。这也为新型经济模式创造了空间。系统会根据贡献者提升网络整体性能的程度，以代币进行奖励。

其根本思想是，如果通过降低门槛让更多人能够参与 AI 模型训练，进步将会更快发生。

中心化算力正触及物理极限

在集中式集群中训练越来越大的模型正开始遇到物理限制。电力、冷却和土地已不再容易扩展。高端芯片的供应链也承受着压力。存在一个上限，而我们正接近这个上限。

去中心化协议的本质使其能够突破传统的国家和物理边界进行扩展，从而实现全球最高效、最大规模的算力和智能市场。它们可以利用全球各地未被充分利用的算力资源。即使是 NVIDIA 的黄仁勋也曾指出，异步分布式训练是未来的关键方向。

技术栈正在成熟

几年前，去中心化训练还只是理论上的概念。现在情况已经发生了变化。

Nous 已经在分布式硬件上成功训练了一个拥有 150 亿参数的模型。Prime Intellect 训练了 INTELLECT-2，这是一个分布在多个大洲、拥有 320 亿参数的模型。这些都是实时运行的系统。

每一次成功的训练都在提升上限。它证明了可能性，并让人们相信。这吸引了新的开发者，也带来了更多资本。基础设施还处于早期阶段，但已经开始稳固起来。

第二部分：分词 = 拥有你自己的 AI

“我们共同拥有我们训练的模型。”

开源权重 ≠ 免费生产。

如今那些“免费”的模型，是由投入巨资的实验室，比如 Meta、Mistral 或 DeepSeek，为了战略利益而发布的。

它们背后的流水线一点也不开放。如果主要实验室因为监管、安全担忧或激励变化而停止发布检查点，开源模型生态可能会停滞。届时将没有备选方案，也没有独立前进的道路。

去中心化训练为构建模型提供了一种无需依赖企业支持的方式，并通过共享激励机制为这项高度资本密集型的工作提供资金。

这些训练好的模型可以以链上代币的形式表示。参与者通过贡献算力、提供数据或验证结果来获得份额。如果模型日后实现盈利，收入将根据贡献者的持有份额进行分配。

这改变了一切：

贡献者提供算力、数据或专业知识
他们获得模型的所有权。
如果模型取得成功，他们将共享收益

变现方式

代币化为资助和管理人工智能引入了新的方式。一个模型可以成为具有可交易所有权的数字资产。开发者可以通过代币授权访问，研究人员可以在不放弃控制权的情况下将训练好的模型变现，全球参与者也可以直接投资于基础设施本身。

这为围绕人工智能使用的可编程市场奠定了基础：

按使用量或订阅制访问 。模型部署在去中心化推理网络上。用户按请求付费或通过月度计划付费。收入会在计算提供者和原始贡献者之间自动分配。
按次微调付费 。组织可以通过支付微调费用，将基础模型定制为满足特定需求。该费用会与那些参与原始版本训练的人共享。
赞助型公共模型 。一些网络可能选择免费发布模型，资金来源包括代币通胀、资助或社区主导的金库，这类似于当今开源软件的维护方式。

在这一框架下，拥有一个模型不仅仅意味着可以访问其权重，还意味着在该模型的使用方式上拥有财务和治理权益。

治理可以由 DAO 来处理。代币持有者将对关键决策进行投票：

该模型应该完全开放还是受控访问？
应当制定哪些规则来规范其使用？
未来的训练或微调资源应如何分配？

但模型不就是商品吗？

这在我个人的交流中经常被提到：如果高质量的开源模型已经免费了，那再将一个新模型代币化还有什么意义？

Meta、Mistral、DeepSeek 和 Qwen 不断发布强大的模型检查点。一旦权重公开，任何有 GPU 的人都可以在一个周末内对其进行微调或量化。这让复制变得很便宜。

因此，要让模型代币真正具有价值，仅仅是访问权限还不够。模型还需要具备其他人难以轻易复制的东西。这通常来自于：

专有数据集 ，例如未公开的法律或医疗语料库
持续强化 ，即模型通过社区的积极贡献不断改进。随着时间推移，实时模型变得越来越难以被复制。

没有这些护城河，模型就像商品一样。它们可以被分叉、换皮和重新部署。它们的市场价值会逐渐接近推理成本。

这就是为什么在专业领域中采用代币化最有意义。那些基于难以获取的数据（如医药、金融、法律）训练的模型更难被复制，也更具防御性。在这些情况下，模型本身就成为了一项真正的资产。

但即使拥有独特的模型，仍然存在一个更深层次的问题：在发布后如何保持模型的稀缺性。

如果有人能在训练或推理过程中拼凑出所有权重，他们就可以泄露或重新托管整个模型。到那时，代币就只是一个包装。稀缺性也就消失了。

为了让代币的价值能够持续，必须满足两个条件：

没有任何单一参与者能够看到完整且可用的权重。
推理和更新必须始终与网络保持关联。

纯数据并行训练违反了（1），因为每个节点都有完整模型的副本。这就是 Pluralis 正在开发其协议学习的原因，这是一种将权重分片到各个节点的模型并行方法。没有任何单一参与者能够重建整个模型，这使得代币化所有权更加可行。

还有一个经济层面。如果模型在网络上持续改进，任何泄露的快照都会很快过时。只有持续连接的贡献者才能从持续的进步中受益。这种动态为实时模型形成了一种软护城河。

如果这些技术壁垒无法维持，那么价值就会转移。“代币化模型”可能仍然有一定价值，但不是因为模型本身。它的价值可能来自于：

治理权 ，即对训练/改进模型的协议的管理权。
访问权 ，即对模型持续改进流程的参与权。
投机价值

目前还没有人围绕代币化模型建立起一个完全运作的经济系统。关键问题依然存在：价值由谁获取、模型如何升级，以及权利能否在实践中得到保障。

但请记住，我们很快就会看到这些实验。可能比我们预想的还要早。

我们的观点

小型专业化模型是最佳选择

我们认为，去中心化训练的更直接机会在于专用、特定领域的模型 。

训练前沿规模的模型仍然需要数亿美元、庞大的计算集群和高度优化的基础设施。只要去中心化系统的效率哪怕略低于超大规模云服务商的配置，复制这些模型在目前看来仍然遥不可及。

中等规模的模型—— 参数量在 5B 到 30B 范围内，甚至可能达到 50B 到 100B——则是另一回事。这些模型很快就可以在去中心化基础设施上进行训练。

它们还具备战略优势：

有针对性的数据集减少了对大规模泛化的需求，并允许进行更有针对性的微调。
中等硬件就足够了，这与分布式网络中可用的机器类型相符。
商业模式更加清晰 。这些模式可以服务于特定的高价值领域，在这些领域中，性能可以直接转化为实用价值。

想象一下，一个去中心化网络正在训练一个专注于生物医学研究的语言模型。贡献者提供算力/数据，获得代币化的所有权，并从未来的使用中获益。这可以通过 API 调用、订阅或授权协议等形式实现，全部无需传统的风险投资。

（顺便说一句，如果你正在医疗健康领域构建 AI 模型，可以私信我）

这种方法的一个例子是 Bagel，一个为协作训练特定领域、可变现模型构建基础设施的团队。Bagel 并不试图与前沿 AI 实验室竞争，也不仅限于轻量级微调。它处于中间地带：训练足够重要但又专注到可行的模型。

为此，Bagel 正在研究在训练过程中嵌入领域特定推理的模型架构（不仅限于变换器）。目标不仅是让模型知道什么，还要教会它们如何在特定领域内进行思考。这不仅仅是调整输出，更是塑造学习过程本身，从而带来更可靠、更有说服力的表现。

简而言之，中端模型提供了一条切实可行的前进道路。这些模型更易于训练，更便于部署，更重要的是，更容易实现盈利。

总是存在权衡取舍

去中心化训练带来了平衡。你用速度和可预测性换取了开放性和韧性。

即使通信变得更高效，系统实现扩展，成本依然是一个悬而未决的问题。这些网络存在实际的开销：同步缓慢、重复验证以及不可靠的硬件。中心化集群已经优化到了极致，而去中心化的方案还在摸索之中。

安全性带来了摩擦。开放网络容易受到攻击。攻击面更广，防御也更复杂。你需要防范中毒更新、女巫攻击和搭便车者的护栏。零知识证明、乐观检查和质押机制有所帮助，但它们也带来了复杂性。有些会降低速度，其他则将成本转移到激励或协调上。没有哪种方案是即插即用的。

要让去中心化训练可行，你必须解决整个技术栈的问题。这意味着：

在不损失信号的前提下压缩梯度
在不可预测的网络中实现协调
构建无需中央权威即可运作的信任机制

进展将取决于更好的验证层和能够容忍节点间噪声与漂移的模型架构。

我们已经描绘了前方挑战的严峻图景，但归根结底，去中心化训练能够解决集中式系统无法应对的问题：

所有权、抗审查、全球覆盖和开放参与

权衡取舍非常明显。问题在于这是否值得。

🚦 关于 AI 安全与伦理的简要说明

去中心化训练带来了一个难题：如果任何人都可以参与构建强大的模型，谁来确保它们的安全？

有人认为开放性让系统更容易被审计。当训练过程是公开的，代码是透明的，检查点在链上时，整个过程无处可藏。任何人都可以检查所做的事情以及如何完成的。没有秘密的权重，没有私有补丁，没有闭门决策。

也有人担心相反的情况。没有中央权威来执行政策或审查输出，像红队测试或人工监督这样的关键安全步骤可能会消失。一旦强大的模型被训练出来，可能就没有人能够阻止其被滥用。

这就是核心的矛盾所在。

结论

去中心化训练是否正让我们站在变革的边缘，还是我们仍在追逐遥不可及的目标？很可能两者兼而有之。

我们是现实主义者，也很清楚仅凭意识形态进行论证是不够的。如果去中心化 AI 要发挥作用，它必须证明自己能够训练出

更便宜的模型，

更快，

而且更加适应性强 。

否则，从长远来看，这都无关紧要。

技术差距依然存在。公共网络更慢、更不可预测，也更脆弱。验证需要时间。信任是有代价的。

但进步是真实的。就在一年前，在公共互联网中训练数十亿参数的模型还看起来不可能。现在我们已经看到中等规模的 AI 模型取得了有竞争力的训练结果。基线在不断提升。

随着模型规模的扩大和集中式基础设施达到极限，去中心化训练的理由变得更加充分。它可能起步很小，也可能在一段时间内仍然属于小众。但当成本曲线发生变化时，看似实验性的系统可能会比预期更快成为标准。

这正是让这一时刻值得关注的原因。

致敬，

Teng Yan

团队概述与最新进展

一组专注的团队正在积极推进去中心化训练，每个团队都在探索去中心化、压缩方法和激励机制的不同组合。目前的主要参与者包括 Pluralis、Gensyn、Prime Intellect、Nous Research、Bagel、Templar 和 Macrocosmos。

在这些团队中，目前只有 Templar 和 Macrocosmos 的预训练子网通过可交易的 Bittensor 子网代币提供流动性敞口。其余团队仍处于早期阶段，仅能通过私人投资参与。

Pluralis Research

由 Alexander Long 领导的 Pluralis 是一个由机器学习博士组成的小型团队，专注于通过一种称为协议学习的方法实现去中心化、开源的人工智能。

他们专注于低带宽的模型并行训练，将权重分片存储在各个节点上，因此没有任何一个节点能看到完整的模型。这使得模型权重可以封闭管理，实现所有权和变现的可能，同时保留开源开发的优势。

2025 年 6 月，Pluralis 发布了关于模型并行的新研究，提出了一种压缩技术，使去中心化训练的通信效率更高。该方法实现了：

高达100倍的通信量减少
激活值和梯度均可无损重建
即使在十亿参数规模下也无收敛性下降

模型训练进展： 目前没有模型在公开训练。在实验环境中，Pluralis 使用流水线并行架构，在分布于 4 个不同地理区域的 64 块 GPU 上训练了一个 8B Llama 模型。

融资：760 万美元，由 USV 和 Coinfund 领投

Gensyn

Gensyn 旨在将全球闲置算力转变为一个庞大的开放式 AI 集群。他们的系统支持数据并行和流水线并行训练。其架构遵循六项原则（GHOSTLY），确保低开销、无需信任，并支持异构硬件。

Gensyn 的一些关键创新包括：

Verde：以高效的方式进行节点训练验证，无需重新运行全部计算
RL 群体：一种点对点系统，小型模型通过强化学习进行训练并相互学习。每个参与者都运行自己的基础模型副本。通过互动，他们能够像学习小组一样以更少的步骤更快提升，无需协调带来的额外负担。
SkipPipe：具备内置容错机制的更快流水线训练

模型训练进展： Gensyn 目前正处于其 RL 群体的测试网阶段，在自定义的以太坊 rollup 上，使用强化学习对 0.5B 到 72B 的模型进行无需许可的后训练。

融资：4300 万美元 A 轮融资，由 a16z crypto 领投

至高智能

Prime Intellect 是一个由 Vincent Weisser 和 Johannes Hagemann 领导的全栈去中心化 AI 平台，已获得 Founders Fund 和 Andrej Karpathy 超过 2000 万美元的资金支持。该平台基于以太坊（Base）构建。

关键组件包括计算交换 、PRIME & PRIME-RL（训练框架）、GENESYS（合成数据）、TOPLOC（可验证计算）以及 PCCL（即使在机器频繁进出、环境混乱的情况下也能帮助计算机通信）

模型训练进展： INTELLECT-2，一个拥有 320 亿参数的模型，最近在 Qwen 基础上通过全球分布式强化学习进行了微调（并非从零开始训练）。微调数据集 INTELLECT-2-RL 主要聚焦于数学和编程任务。结果显示，在这些领域，微调后的模型相比基础模型 QwQ-32B 有明显提升。

融资：总计 2000 万美元，包括 Founders Fund 和 Menlo Ventures

Nous Research

Nous 是一个以社区为根基的 AI 研发集体，专注于让分布式训练在消费级硬件上变得可行。他们的训练架构包括 DisTrO 和 DeMo 优化器 ，将通信开销最多降低了 1 万倍。2024 年，他们利用这一方法训练了一个拥有 150 亿参数的模型。

https://psyche.network/runs/consilience-40b-1/0

模型训练进展 ：Nous 正在构建 Psyche，这是一个基于 Solana 的去中心化训练网络。首次运行，即使用 DeepSeek 模型架构的稠密版本和 22 万亿个 token 对一个全新的 400 亿参数基础模型进行预训练，于 2025 年 5 月中旬启动。你可以在这里观看其进展

融资：总计 7000 万美元，由 Paradigm 领投，其他投资方包括 Delphi Digital、Distributed Global、North Island Ventures

Templar（子网 3）

Templar 是一个专注于大语言模型预训练的 Bittensor 子网。其核心理念很简单：将激励机制设计置于架构之上。该系统采用去中心化的独立节点网络（矿工和验证者）

矿工在本地进行训练，将他们的更新压缩为伪梯度，并提交到网络。验证者通过 Gauntlet 对每次提交进行评分，这是一种根据实际模型改进情况奖励更新的机制。由于奖励与性能挂钩，矿工可以自由尝试和优化自己的训练方法。

模型训练进展 ：2025 年 5 月，Templar 完成了一个基于 FineWebEdu 语料库训练的 12 亿参数全新基础模型，该语料库包含 2 万亿个标记，被定位为比 Common Crawl 更干净的替代方案。该模型在同等规模下表现优异，尽管在整体能力上仍落后于更大规模的模型。完整论文见此。

目前正在训练一个 80 亿参数的模型。

资金来源： 无风险投资基金，资金来源于 Bittensor

Macrocosmos 的预训练（子网 9）

就在上周，Macrocosmos 宣布了 IOTA——即“激励式编排训练架构”（Incentivized Orchestrated Training Architecture）的缩写。这是他们用于在分布式矿工网络上扩展大型模型的去中心化训练系统。

IOTA 是一种激励式流水线并行设置。与每个节点都持有完整模型不同，矿工被分配到一个或多个顺序层。这避开了数据并行常见的内存瓶颈。模型规模随着参与者数量扩展，而不是每个节点的显存容量。它还使得在业余级 GPU 上进行训练成为可能。如果某个节点宕机，SWARM 路由会介入并动态绕过故障节点。

有几项新颖的设计尤为突出：

一个定制的瓶颈变换器模块 ，改编自 LLaMA 3，可将激活值和梯度压缩高达 128 倍 。它使用部分残差，即使在高压缩下也能保持梯度流动。
同步通过改进的 Butterfly All-Reduce 进行。每个矿工的通信量为 O(1)而不是 O(N)，这意味着无论网络中有多少矿工，每个矿工只需发送和接收固定数量的数据 ，并允许矿工交叉验证分片。
激励机制由 CLASP 负责，这是一种受 Shapley 启发的评分系统，会考察每个矿工的输出实际对损失的改变程度。如果某个矿工在搭便车或提交垃圾数据，CLASP 会将其暴露出来。

资金来源： 无风险投资资金，资金来源于 Bittensor

模型训练进展 ：目前正在使用 IOTA 训练一个 15B 模型，训练于 2025 年 6 月 2 日开始。目前尚无生产结果。

本文仅供教育用途，不构成任何财务建议。本文不建议买卖资产或做出财务决策。投资前请务必自行研究并谨慎行事。

#大模型内核 #深度学习 #Crypto x AI #DePin (去中心化网络)#Web3 前沿

去中心化训练：伟大的登月计划

第一部分：去中心化训练

过去三个月发生了什么

去中心化训练的“神圣三位一体”

1. 协调

2. 可验证性

3. 公开互联网下的性能

并行性

数据并行

模型并行

激励机制设计

去中心化训练流程

距离 GPT-4 仍有很长的路要走

去中心化训练的兴趣激增

对“开放基础”模型的需求

中心化算力正触及物理极限

技术栈正在成熟

第二部分：分词 = 拥有你自己的 AI

变现方式

但模型不就是商品吗？

我们的观点

小型专业化模型是最佳选择

总是存在权衡取舍

🚦 关于 AI 安全与伦理的简要说明

结论

团队概述与最新进展

Pluralis Research

Gensyn

至高智能

Nous Research

Templar（子网 3）

Macrocosmos 的预训练（子网 9）

推荐阅读

语言模型的政治经济学

推理市场将如何成熟

前沿 AI —— 联合嵌入预测架构

生成式 AI 的经济学：两年之后

去中心化训练：伟大的登月计划

第一部分：去中心化训练

过去三个月发生了什么

去中心化训练的“神圣三位一体”

1. 协调

2. 可验证性

3. 公开互联网下的性能

并行性

数据并行

模型并行

激励机制设计

去中心化训练流程

距离 GPT-4 仍有很长的路要走

去中心化训练的兴趣激增

对“开放基础”模型的需求

中心化算力正触及物理极限

技术栈正在成熟

第二部分：分词 = 拥有你自己的 AI

变现方式

但模型不就是商品吗？

我们的观点

小型专业化模型是最佳选择

总是存在权衡取舍

🚦 关于 AI 安全与伦理的简要说明

结论

团队概述与最新进展

Pluralis Research

Gensyn

至高智能

Nous Research

Templar（子网 3）

Macrocosmos 的预训练（子网 9）

推荐阅读

语言模型的政治经济学

推理市场将如何成熟

前沿 AI —— 联合嵌入预测架构

生成式 AI 的经济学：两年之后

了解 RecodeX 的更多信息