Yotta:全球 GPU 的操作系统

Adventuring through the Canadian Rockies

如何让分散、不可靠的 GPU 像一台机器一样运行

我关注计算网络已经有一段时间了。

大多数讨论很少解释为什么这些网络中只有极少数实现了真正意义上的去中心化(即便它们产生了可观的收入),或者为什么企业端的采用一直停滞不前。

因此,这篇深度探讨是关于当一支敏锐的团队专注于核心问题,并围绕其创建创新的商业模式时会发生什么 Yotta Labs 正在将不可靠的机器转化为表现足够稳定、能够支持严肃 AI 工作负载的资源。

如果你关心 AI 基础设施,以及去中心化计算究竟需要什么才能从演示阶段走向实际生产,这是一个非常有用的案例研究。

这不是一篇关于愿景的文章。这是一个关于系统的故事。

让我们开始吧。

这是我的赌注:

去中心化计算领域最重要的基础设施公司,其形态将不会像一个 GPU 市场,而会更像一个操作系统。

我在机场等待 4 小时航班时刷着 YouTube,脑海中浮现出了那个想法。一条视频推荐吸引了我的注意。

PewDiePie 上传了一段名为 《立刻停止使用 AI》 的视频。它已经有了数百万次播放。好奇心战胜了理智,我点了进去。

视频本身极具观赏性。他演示了自己如何组装一台拥有九块显卡、分叉 PCIe 通道,以及足以让电工退避三舍的 DIY 电力改造的“性能怪兽”。这一切都是为了在本地运行大型开源模型。

Yotta:全球 GPU 的操作系统

接着,他几乎是顺带提到了一个我没想到的细节。

他一直利用那台机器为医学研究中的蛋白质折叠模拟贡献算力,在夜间运行去中心化工作负载,并在“慈善排行榜”上追踪自己的排名。

全球订阅量最高的 YouTube 频道之一,向 1.1 亿订阅用户解释去中心化算力?这完全超出了我的预料。

这让我开始思考:

如果连 PewDiePie 都在谈论去中心化算力,它是否已经进入主流视野了?

从文化角度来看,也许是。但从技术角度来看,并非如此。

他所做的事情与存在多年的志愿者工作负载(如 Folding@Home)完美契合:能够容忍缓慢、故障和性能不一的机器。它们是去中心化计算的理想用例。

但现代 AI 并非如此。它需要更可靠的东西。

认知与性能之间的差距

在几个月前我写的 《开放计算论文》 中,我曾写道:

AI 的下一阶段对计算的需求将超过任何单一供应商所能提供的极限。即便 NVIDIA 扩大生产规模,在 AI 向各行各业扩展的推动下,对 GPU 的需求可能仍将持续超过供应。

去中心化计算网络正处于吸收部分溢出需求的有利位置。并非全部需求,也并非无处不在。但它们可以服务于边缘领域:即超大规模平台无法支持,或无法提供具有竞争力的价格的工作负载。

还认为,去中心化计算目前仍存在一些瓶颈,阻碍其找到产品市场契合点。

评估任何去中心化计算网络的一个有效方法是按顺序询问以下三个问题:

  1. 协同: 能否让全球分散的 GPU 表现得像一台机器一样?

  2. 可靠性: 当节点掉落或硬件出现异常时,系统能否提供可预测的性能?

  3. 开发者体验: 真实的团队能否在不成为分布式系统专家的情况下,对其进行部署和运维?

如果一个系统在早期就失败了,那么下游的一切都无关紧要。因此,虽然这三者都很重要,但显而易见,其中一个比其他两个更重要。

Yotta:全球 GPU 的操作系统

协作:最难的问题

我的工作预测是,在协调问题解决之前,去中心化计算不会成为真正的基础设施。可靠性和开发者体验是随之而来的结果,而非引领变革的先导。

其原因在于结构性差异。 散布在外的 GPU 表现与数据中心里的 GPU 完全不同。它们具有不同的 VRAM 限制、内存带宽、网络质量、在线时长和故障特性。它们按照自己的时间表出现和消失。它们位于嘈杂的 ISP、家用路由器以及每当有人打开微波炉就会闪烁的电源之后。

简而言之: 没有任何事物是稳定的。没有任何事物是可预测的。没有任何事物是标准化的。

然而,超大规模云厂商所依赖的主流 AI 运行时(如 DeepSpeed、Megatron-LM)的假设前提却恰恰相反。它们需要纯净的链路和稳定的延迟。如果将一个 LLM 分布在一群性能不一的消费级 GPU 上,整个性能概况就会彻底崩溃。

这就是为什么去中心化计算让人感觉停滞不前。 性能和大规模采用尚未实现。

如果它要达到与 AWS 相同的可靠性级别, 基础设施必须使碎片化的硬件表现得像一台可靠的机器。这就是障碍所在。而这正是 Yotta Labs 的开局机会。

Yotta:全球 GPU 的操作系统

Yotta 登场的背景

解决这一问题是一个艰巨的工程和系统设计难题。只有当你能从这种极其痛苦的磨砺中获得某种奇特的满足感时,才会承担这类工作。Yotta 正是如此。

他们意识到,如果我们希望去中心化计算实现规模化运行,就不能将其强行粘合在现有技术栈上。你必须从底层开始重建整个 AI 技术栈。让异构性成为你的盟友,而非敌人。

从调度器到通信层,再到内存优化器,Yotta 系统的每一个部分都经过精心设计,旨在应对以下现实情况:

  • 不同的加速器(B200、H100、5090、MI300X),

  • 不同的云平台(AWS、GCP、Lambda、Nebius 等),

  • 不同的可靠性配置,

  • 以及不同的网络条件。

其结果并非一个新的 GPU 市场,而是一个全新的协作层: 一个让分散且不完美的硬件表现得像一个单一、稳定的集群,从而实现 AI 任务可预测执行的软件系统。

而这正是真正的技术故事开始的地方。

Yotta:全球 GPU 的操作系统

第一节:深入底层细节

本节内容涉及较深的技术层面,但会有丰厚的回报。读完之后,你将对训练和推理的实际运作方式有更清晰的认识!

如果去中心化算力就像把一堆 GPU 扔进全球市场那么简单,我们现在就不会还在讨论这个问题了。但事实并非如此。

核心挑战:四个相互依存的约束条件

每个分布式人工智能系统都在四个基本约束条件下运行:算力、内存、带宽和编排。

在中心化基础设施中,由于一切都是统一的,管理这些约束条件易如反掌。但在去中心化基础设施中,它们变成了主要的工程挑战:

异构性打破了我们的常规假设。一块 16GB 的消费级 GPU 和一块 80GB 的 H100 是不可互换的。跨区域延迟也是不可预测的。

这就是协调问题的核心: 在不牺牲吞吐量的前提下,让全球分散、规格不一的硬件像一个协同一致的系统一样运行。

Yotta:全球 GPU 的操作系统

大多数去中心化网络通过仅接受能够容忍失败和延迟的工作负载来规避这一问题。这严重限制了其潜在的市场规模。

Yotta 瞄准了一个更宏大的目标:使去中心化基础设施能够用于计算密集型、对性能要求极高的 AI 工作负载,并能在明确的 SLA(服务水平协议)下容忍有限的延迟 )。

极低延迟仍然是中心化云的领域。但并非所有 AI 工作负载都需要毫秒级的精准响应时间。只要性能保持在约定的服务水平内,许多团队愿意用一定的延迟空间来换取容量、灵活性以及大幅降低的成本。

Yotta 的解决方案:包含五个组件的操作系统

Yotta 操作系统 (DeOS) 围绕五个相互依赖的组件构建,每个组件针对协作问题的特定维度:

  • Yotta-S (调度)

  • Yotta-C (通信)

  • Yotta-O (卸载)

  • Yotta-F (容错)

  • Yotta-V (核实)

让我们来深入分析 Yotta 是如何通过去中心化计算的核心支柱来实现这一目标的。

支柱 #1:让异构硬件像团队一样协作

马尼拉的 80GB H100、多伦多的 24GB RTX 4090 显卡以及法兰克福的 180GB B200,它们各自拥有不同的优势、劣势和网络连接。Yotta 的第一大支柱就是接纳这种复杂性。

Yotta-S:重写游戏规则的调度器

在运行 AI 工作负载时,大多数系统会尝试将整个模型放置在一组 GPU 上,并寄希望于硬件表现稳定。

Yotta 则另辟蹊径。它将模型分解为结构化的片段,并将每个片段分配给最适合它的 GPU 类型

为了直观地理解这一点,我们不应再将并行化视为单一的技巧,而应开始将其视为一个五维的设计空间。

在现代 AI 基础设施中,从业者通常将其称为 5D 并行 :即通过五种不同的方式对模型或其工作负载进行切分,从而让更多 GPU 能够同时工作。

  • 数据并行

    数据并行是最常见的形式。每个 GPU 都持有模型的完整副本,但处理输入数据的不同切片。随后,结果会进行同步,以确保所有副本保持一致。这种方式在 GPU 物理距离较近且通信速度较快时效果最好,通常应用于单个数据中心或站点内。

  • 流水线并行

    流水线并行(Pipeline parallelism)将模型视为一条流水线。模型不再是在单台机器上运行完整版本,而是被拆分为多个阶段,每个 GPU 负责不同的片段。当一个阶段处理微批次(microbatch)时,下一个阶段已经在处理前一个微批次,从而保持系统端到端的繁忙运行。

    这种方法在跨站点场景下尤为有效,因为这些场景带宽有限且延迟不可避免。通过最小化阶段间需要传输的数据量,流水线并行使 Yotta 能够将单个模型部署在地理位置分散的硬件上。

  • 张量并行(Tensor parallelism)

    它不是复制模型,而是将内部的大型计算拆分到多个 GPU 上。每个设备处理计算的一部分,然后将部分结果缝合在一起。这使得超大型模型即使在单个 GPU 内存不足以容纳的情况下也能运行。

  • 序列并行

    序列并行是张量并行的一种改进,专为长上下文设计。它不是拆分权重或批次,而是拆分代币序列本身。每个 GPU 处理序列的一个切片,这对于处理极长输入时面临挑战的注意力层和归一化层特别有用。随着上下文窗口的增长,这一维度的重要性日益凸显。

  • 专家并行

    最后,专家并行适用于混合专家模型(MoE)。在这种架构中,每个输入仅激活模型参数的一小部分(即“专家”),从而使模型能够在扩大规模的同时,无需每个 GPU 都对每个代币进行计算。

    Yotta 将不同的专家模型分布在多个 GPU 上并动态路由 Token,因此每个设备仅计算其负责的部分。其结果是在不线性增加计算成本的情况下,实现了海量的模型容量。

Yotta 并非这些技术的发明者。但其高明之处在于自适应并行,它将这些技术视为可互换的工具,而非固定的架构选择 。Yotta 会审视模型的每一层并询问:

这项操作之所以缓慢,是因为它需要大量的数学运算(计算或 FLOPs),还是因为它需要移动大量数据?

有些层是计算密集型的(代数、数学),而另一些层则极度消耗内存。Yotta 会选择最合适的并行策略,让 GPU 减少等待时间,增加工作时间。

这使得 Yotta-S 的表现不再像一个静态运行时,而更像是一个面向分布式系统的 AI 优先编译器 ,能够在任何可用硬件上优化执行效率。

在涵盖四个 AWS 区域、以训练吞吐量(有效 FLOPs)为衡量标准的早期内部测试中,Yotta 的吞吐量比 DeepSpeed 高出 2.8 倍,比 Megatron 高出 1.6 倍,且比最强的去中心化基准方案 (SHE) 高出 21%。

简短科普:什么是 DeepSpeed 和 Megatron?为什么要超越它们?

DeepSpeed(由 Microsoft 开发)和 Megatron-LM(由 NVIDIA 开发)是在统一的数据中心 GPU 集群上训练巨型 AI 模型的行业标准框架。

它们经过了极致优化,专注于并行技巧和内存分区。它们的前提是拥有完全相同的 GPU、高速连接和严格受控的环境。

因此,当 Yotta 的性能超越了 DeepSpeed、Megatron 等成熟系统,甚至超过了最出色的去中心化基准 (SHE) 时,它发出了一个明确的信号:去中心化计算并不一定缓慢。通过正确的调度和编排,去中心化系统可以接近当今生产环境中最快的中心化框架的性能。

更令人瞩目的是,两者之间的差距已缩短到如此程度。即使流量跨越多个大洲 ,Yotta 的去中心化架构运行效率也能达到完全中心化集群的 ~85% 左右

这正是经济效益发生转变的地方。

一旦去中心化计算在吞吐量和有效算力(FLOPS)上足够接近中心化水平,效率损耗就不再是决定性因素。计算资源不再必须集中在单个集群中。容量变得具有弹性,任务可以跨区域流转而无需在队列中等待,闲置资源也终于得到了利用。

成本才是真正的优势。电力价格因地域而异,大量计算资源处于低效利用状态。跨区域调度让工作负载能在电费更低廉的地方运行,这直接转化为更高的性价比。

在大规模应用中,微小的性能损失很容易被更低的能源成本和更高的可用性所抵消。灵活性比单纯的运行速度更重要。

Yotta:全球 GPU 的操作系统

Prefill/Decode 分离:一种实用的超级能力

当你向 ChatGPT 提问时,它并非在进行单一的连续计算,而是在两个截然不同的阶段之间切换:

  1. 预填充 (Prefill): 模型读取你的整个提示词,并构建其所需的所有内部上下文。

    这一阶段会触及网络的每一层,消耗最多的内存和带宽,并决定了你在模型输出第一个代币之前需要等待多久。

  2. 解码: 一旦上下文构建完成,模型就会进入一个循环,一次产生一个代币。

    每一步都会重用存储的上下文(KV 缓存),运行的计算量少得多,并且可以在较慢的硬件上运行。更重要的是,解码阶段本质上是顺序的。每个代币都依赖于前一个代币,这使得它难以并行化。

大多数框架在同一个 GPU 上同时运行这些过程。Yotta 则不然。

Yotta S 将预填充 (prefill) 推向性能最强的 GPU,并将解码 (decode) 交给性能较弱的 GPU,这意味着:

  • 高端 GPU(H100、B200/300)处理高昂的“深度思考”

  • 廉价 GPU(消费级显卡、L40、RTX 显卡)处理重复但具有顺序性的“续写下一个词”

事实证明,这在全球网络中非常有效。

性能较弱的 GPU 仍能发挥效用,性能强大的 GPU 不会被拖累,整体吞吐量显著提升。

但在互联网上拆分工作负载会产生一个新问题: 在节点、集群和区域之间移动模型的“工作内存”。

当 LLM 处理文本时,它会存储中间计算结果,以便无需每次重新计算。这就是 KV 缓存 可以将 KV 缓存看作模型的短期记忆。 它的体积可能变得非常庞大。在 66B 模型上的单个请求可能会产生超过 1GB 必须存储在内存中的数据。

如果移动方式不当,就像强迫一个人在每写一句话之间都要重写一遍笔记。这就是为什么通信策略与原始算力同样重要。

跨区域的长距离互联网连接(即广域网链路)传输数 GB 的工作内存,既缓慢又不稳定。只要其中一个跳点出现故障,任何加速效果都将化为乌有。

这就是接下来的两个组件旨在解决的问题。

Yotta-C:隐藏互联网延迟

在大多数分布式推理系统中,迁移 KV 缓存(KV cache)会成为致命的瓶颈。你通常只能:

  • 要么通过一次大规模传输发送整个缓存并导致所有操作停滞,要么

  • 尽量避免完全分布式推理,因为通信成本会抵消掉所有的性能增益。

Yotta 两者皆不采用。

Yotta-C 并没有将通信视为单一的重型操作, 而是将 KV 缓存拆分为许多小块,并在计算进行的同时持续流式传输它们。

这就像是等待一辆货运卡车到达与运行一条持续输送物品的传送带之间的区别。

理论上,其他运行时也可以尝试这样做,但在开放的互联网环境下(面对延迟波动、数据包抖动和异构 GPU),要实现这一点极其困难。Yotta 的调度器和运行时正是围绕这种通信模式构建的,这也是该方法在实践中行之有效的原因。

持续流式传输在几个重要方面改变了规则:

  • GPU 不会停顿。
    当一个数据块仍在较慢的网络路径上传输时,另一个数据块已经到达并正在被处理。

  • 计算与通信相互重叠。
    即使在网络不完美的情况下(互联网总是存在瑕疵),系统也能持续运行。

  • 小数据块能够有效抑制长尾延迟。
    如果一个数据包发生延迟,它只会减慢极小一部分的工作负载,而不会冻结整个任务。

为了进一步推进这一目标,Yotta-C 采用了一种数学压缩方法( 对 KV 缓存进行 SVD 压缩 ),将其体积缩小了 3–5 倍 ,并将跨区域通信量降低了 90% 以上。

这意味着:

  • 更少的数据字节通过长途链路传输,

  • 更快的跨区域传输,

  • 以及更大的余地去使用更便宜、更慢的 GPU,而不会降低系统速度。

当流式传输、压缩和调度协同工作时,一个关键的转变发生了:

网络延迟不再主导架构。

互联网通常是去中心化计算中最大的瓶颈,而该系统能有效地将其隐藏。Yotta 大幅降低了“互联网损耗”,使得分布式推理的表现开始趋近于中心化集群。

这就是为什么 Yotta 系统即便在 GPU 遍布全球各大洲的情况下,依然能保持竞争力的关键原因之一。

Yotta-O:灵活而非固定的内存管理

如果说 Yotta-C 解决了通过互联网传输数据的问题,那么 Yotta-O 则应对了一个更局部但同样具有限制性的瓶颈:GPU 显存容量

许多消费级 GPU 在原始算力(FLOPs)方面表现出色,但由于单次前向传播可能超出其显存(VRAM)容量,导致无法用于大模型。这就是为什么大多数去中心化计算网络仅依赖高端显卡,而忽略了全球 GPU 资源池中的绝大部分。

Yotta-O 改变了这一现状,它不再将显存视为一道不可逾越的硬性障碍。

相反,它将 CPU 内存视为 GPU 显存的扩展 ,并动态决定:

  • 哪些张量必须保留在 GPU 上,

  • 哪些内容可以暂时卸载到 CPU 内存中,以及

  • 何时将数据移回而不会导致执行停滞。

这种方法基于由 Yotta 首席科学家李东博士领导的研究 ,他在 2021 年的工作证明了,经过周密规划的 CPU–GPU 卸载可以将小型 GPU 的有效容量扩展到远超其 VRAM 限制的程度。一直以来的挑战在于如何智能地自适应地实现这一点,而不是依赖简单的规则。

Yotta-O 的核心创新在于,它的决策是基于对每台机器的实际测量数据而做出的。

它会根据每台机器的 PCIe 速度、总线质量和内存压力进行持续调整,因此卸载策略是为每块 GPU 量身定制的,而非千篇一律。

这避免了静态启发式算法的典型失效模式,即当硬件差异巨大时(如在去中心化网络中),这类算法往往会崩溃。

有了这种自适应规划器,小显存显卡再次变得有用。原本无法运行 30B 模型的 16GB 或 24GB GPU,现在成为了分布式集群中可用的计算节点。

Yotta-O 带来的实测提升非常显著:

  • 比 SwapAdvisor 快 23–37%,这意味着 Yotta 的规划器能让 GPU 保持忙碌,而不是等待内存数据搬运。

  • 比 Microsoft 的 L2L 快 14%,L2L 是专为超大规模环境构建的最强卸载系统之一。

  • CPU 与 GPU 之间的通信比传统卸载器减少 7 倍 ,这一点至关重要,因为每一次额外的传输都会直接降低推理速度。

(注:这些结果基于 Yotta 的内部基准测试。性能对比是在特定的模型大小、硬件配置和工作负载下测得的,在实际部署中可能会有所不同。)

结合 Yotta-C 的延迟隐藏和压缩技术,Yotta-O 确保了显存有限的 GPU 也能贡献可观的吞吐量,而不再是袖手旁观。

这扩大了能够实际贡献算力的硬件范围,对于任何试图超越少数受控数据中心节点、实现规模化增长的去中心化计算网络而言,这才是真正的破局关键。

支柱 #2:通过利用时间而非仅仅依靠硬件来扩展模型

一旦 Yotta-S 和 Yotta-C 处理了并行和通信问题,就还剩下一个无法回避的约束: 广域延迟 。即使有巧妙的路由和压缩技术,跨洲传输的数据包仍需要时间。任何压缩手段都无法消除光速限制。

问题变成了: 当 GPU 等待下一条指令或数据到达时,你该如何让它们保持忙碌?

Yotta 的答案是投机推理 ,但它是针对去中心化环境进行了适配。系统不再等待,而是进行合理的猜测并提前开展有用的工作。

投机机制的工作原理(直观理解)

把它想象成一个较小的“侦察模型”,它运行在主 LLM 稍微领先的位置,在主计算路径完成工作之前预测接下来的几个 token。当主模型赶上时:

  • 如果侦察模型猜对了,系统会一次性接受多个 token。

  • 如果猜错了,系统只需回滚并正常继续。

在中心化集群中,这主要是一种吞吐量的提升。但在去中心化集群中,它是变革性的,因为它填补了等待时间。

推测执行让远程或速度较慢的 GPU 在通常的空闲时间内保持繁忙 。Yotta 实时监控采纳率,并开启或关闭推测功能,确保不会在无意义的猜测上浪费任何计算周期。

由于 Yotta-C 已经以小块形式流式传输数据,投机机制与持续执行能够很好地契合。即使在网络缓慢的情况下,也总有任务准备就绪可以运行。

这使得全球范围内的 GPU 分散化从一种责任转变为运行时可以吸收的优势,这也是 Yotta 能够跨洲运行并保持与中心化集群竞争力的原因之一。

Yotta:全球 GPU 的操作系统

支柱 #3:无拖累的信托层

即便拥有智能调度、卸载和延迟隐藏技术,去中心化计算仍然面临一个最终无法回避的现实: 你是在自己无法控制的机器上运行工作负载。

在中心化的数据中心里,信任是隐含的。

在全球未知的 GPU 网络中,信任必须通过赢取获得,但不能让核实过程变成第二项工作负载,从而使你的计算账单翻倍。

这就是 Yotta-VYotta-F 发挥作用的地方。

Yotta-V:随模型运行的验证机制

大多数验证系统要么运行冗余计算(缓慢且昂贵),要么依赖于会增加显著开销和延迟的可信执行环境(TEE)或零知识证明。这些都不适合需要持续运行推理的系统。

Yotta 采取了不同的方法:它将验证嵌入到模型的常规行为中。

投机性推理(Speculative inference)已经会生成需要校验的草稿令牌(draft tokens)。Yotta-V 利用了这一天然的校验机制,通过审计随机位置并对比预期的收敛模式,无需运行完整的重复计算即可完成审计。

其目标是使错误或恶意行为在统计上可检测,且在经济上不划算 ,同时保持足够低的开销以满足实时推理的需求。

其结果是实现随工作负载同步扩展的信任。

Yotta-F:将故障视为常态,而非异常

在开放网络中,节点会掉线。连接会发生抖动。整个区域可能在运行中途消失。

Yotta-F 在设计之初就充分考虑了这一假设。

它通过以下方式保持系统稳定:

  • 使用心跳机制快速检测故障节点,

  • 存储中间激活值,以便工作可以立即恢复;以及

  • 仅在关键位置应用局部冗余,而非全盘套用。

这使得系统能够自我修复并持续重新路由工作任务,而不是在单个节点或区域出现波动时陷入崩溃。

Yotta-V 和 Yotta-F 共同构成了信任与韧性层,使整个技术栈的其余部分变得切实可行。

它们让你能够使用去中心化硬件,而无需时刻盯着。这是将全球分散、规格不一的 GPU 阵列转变为协调且容错系统的最后一步。

在经过测试的工作负载中,该技术栈相比现有的去中心化基准实现了数倍的吞吐量提升,并将与中心化集群的性能差距缩小到了大约 15% 以内。这是以往任何去中心化系统都未能实现的突破。

Yotta:全球 GPU 的操作系统

从架构到产品

到目前为止,我们主要是自下而上地描述 Yotta。

专为不可靠网络设计的调度系统。执行层。使分布式 GPU 协同工作的优化技术。

这一切都至关重要。但如果不退后一步审视,就很简单错过大局。

Yotta 并非一个单一的庞大平台。它刻意由两个独立的产品组成,分别解决 AI 基础设施问题的不同方面,并通过一个共享的智能层进行统一。

它们作为一个集成系统共同运作。而作为个体,每个产品又都能独立存在。

  1. OptimuX,AI 驱动的优化与控制平面

  2. 去中心化 GPU 供应网络 ,执行与数据平面

这种分离是刻意为之的。它既解释了 Yotta 如今的进入市场策略,也说明了其长期架构为何具有复利效应。

产品 #1:OptimuX,优化层

OptimuX 是 Yotta 架构理念转化为产品的层级。

它作为一个 AI 原生控制平面,能够持续优化工作负载在不同云平台、区域和加速器类型上的执行方式。OptimuX 不再将基础设施决策视为静态配置,而是将其转化为实时的自适应选择。

对于每一项工作负载,OptimuX 都会决定:

  • 哪种加速器最符合性能、成本和可靠性要求

  • 工作负载应在哪个地理位置以及哪家服务商运行

  • 在实时流量条件下,精度、批处理和并行度应如何调整

  • 何时针对即将发生的故障进行重新路由、重新调度或主动恢复

这就是前文所述的许多优化措施(如路由、故障预测和硬件感知执行)实际落地与执行的地方。

重要的是,OptimuX 与底层算力供应是解耦的。企业可以将其部署在现有基础设施(如 AWS、GCP、Azure、Neo Clouds 或本地集群)上以优化工作负载,也可以将同样的优化层应用于运行在 Yotta 去中心化 GPU 网络上的工作负载。

在这两种情况下,OptimuX 纯粹作为软件控制平面运行 ,无需与加密货币或无许可系统进行交互。这种分离正是 OptimuX 目前的实现方式,未来它将作为一款独立的商业产品,以 SaaS 业务模式提供。

但优化系统需要不断完善,而它们只有通过从实际执行中学习才能得到提升。

产品 #2:去中心化 GPU 供应网络

Yotta 系统的另一半是去中心化 GPU 供应网络。

该网络汇集了全球个人和微型数据中心的 GPU。加密经济学在此发挥作用,用以激励 GPU 供应商并启动网络。

Yotta 借此可以直接观察 AI 工作负载在杂乱、异构的真实环境中的运行表现。

不同类型的 GPU。不同的散热和电力配置。不同的显存限制。以及各种各样的故障方式。

随着工作负载在这一网络中运行,Yotta 观察到了在整洁、统一的数据中心内部极少出现的模式。随着时间的推移,这形成了一个不断增长的数据集,记录了模型在真实世界条件下的实际表现。

从实际层面来看,这意味着 Yotta 能够学习到:

  • 哪些 GPU 在特定工作负载下能提供最佳性能

  • 在持续负载下瓶颈出现的位置

  • 散热、内存压力和硬件差异如何影响可靠性

  • 不同设备类型的实际性价比权衡情况

这些数据经过聚合和匿名化处理,仅用于改进 Yotta 的优化层。

那些能够构建真实数据飞轮的公司总能吸引我的注意。正如我在 《数据共和国》 中所写, 最优秀的公司会让日常的产品使用过程转化为专有的数据资产 ,从而使边际数据获取成本趋向于零。Yotta 正符合这一模式。

智能循环

这种架构变得能够自我强化。

来自去中心化网络的数据会反馈至 OptimuX,不断磨练其优化模型。硬件选择变得更加精准。调度决策变得更加敏锐。故障预测也从被动应对转变为主动预防。

优化提升了性能并降低了用户的成本。这吸引了更多的工作负载。更多的工作负载在更广泛的硬件范围内生成了更丰富的遥测数据。

这个循环不断复利:

  • 优化器从网络中学习。

  • 网络改进了优化器。

随着时间的推移,Yotta 建立了植根于硬件多样性和真实执行数据的智能优势。这种优势无法通过简单地向单个数据中心增加更多 GPU 来复制;它需要在全球计算环境的复杂多变中进行运营。

开发者体验:全方位的复杂性,零负担的痛苦

我非常欣赏 Yotta 的一点是,这些复杂性从未浮现到用户层面。

运行时环境或许是为充满不可预测性的开放互联网而构建,但其接口则是为那些只希望工作负载能够可靠运行的普通开发者所打造。

Yotta 在这方面采取了一种深思熟虑的方法:

让后端激进,让前端平庸。

隐藏复杂的运行机制,让开发者只需接触简洁、可预测的界面。

这至关重要。开发者交互的控制台感觉更接近 AWS,而非一个 DePIN 项目。精致的仪表板、托管端点、一键部署、清晰的日志、模型 API,以及符合开发者既有思维模型的流程。

对于大多数团队来说,这就是“有趣”的产品与真正“可用”的产品之间的区别。

一个卓越 (而不只是优秀)的开发者体验是 Yotta 的市场进入策略:入门越顺畅,实际工作负载的迁移就越快。通过在开发者现有的习惯领域与其对接,Yotta 可以消除切换成本并加速采用。

一旦进入控制台,工作流程会让你感到倍感亲切:

  • GPU Pods 与虚拟机 让你能够启动单个 GPU 实例、选择加速器、挂载存储、通过 SSH 接入并运行 Jupyter。

  • 弹性部署 是面向生产环境的层级,提供多节点集群、自动扩缩容以及针对可扩展应用的多区域路由。

  • 自定义模板允许团队自带环境(PyTorch、JAX、vLLM、微调技术栈),并将其打包为简单的 Docker 镜像。

Yotta:全球 GPU 的操作系统

一切都经过精心组织,使心智模型简化为: 启动 → 提供服务 → 扩容 ,而无需了解底层调度或通信层究竟是如何工作的。

讽刺的是,Yotta 也许拥有去中心化计算领域最复杂的运行时之一,但其开发者界面却极其简洁。而这正是去中心化计算若要从实验阶段走向真正落地所必须具备的特质。

第二部分:业务模式

到目前为止,这个故事一直围绕着 如何 通过更智能的调度、更高效的压缩、智能卸载、隐藏延迟以及在不降低速度的情况下验证正确性,使 Yotta 让去中心化硬件变得井然有序。

这三大支柱解释了 为什么 Yotta 能够在分散的 GPU 上运行大型模型而不会崩溃。

接下来的一个自然而然的问题是:

他们的 GPU 从何而来?

目前,Yotta 的大部分供应来自微型数据中心和新型云合作伙伴 ,通过单独谈判签署 3-6 个月的机架租赁合同。仅此一项就提供了一个极其多样化且高质量的车队:RTX 4090、5090、Pro 6000、H100、H200、B200、B300,甚至还包括对 AMD GPU 和 AWS Trainium 等小众加速器的早期探索,Yotta 已经开始为后者开源自定义性能优化内核。

但真正的转变在于接下来的计划。

团队计划从这种重合同模式转向自助供应商平台 ,届时:

  • 个人

  • 微型数据中心

  • 精品托管集群

  • 以及新型云合作伙伴

可以直接将他们的 GPU 接入 Yotta,几乎无需人工干预。

这彻底改变了供应经济学。Yotta 不再是逐一谈判每一笔交易,而是成为了一个分发渠道。供应可以随需求升温而扩张,随需求冷却而收缩。这就像是拥有出租车车队与运营 Uber 之间的区别。

这完美契合了 Yotta 的技术世界观:一个旨在利用任何出现的硬件而设计的系统。

需求从何而来

需求随价格下降而扩大。

阿尔弗雷德·马歇尔(《经济学原理》)

其核心吸引力很简单: 团队每美元可获得更高的可用吞吐量 ,因为该系统能让 GPU 保持繁忙,并避免了通常会导致分布式设置性能流失的问题。

Yotta 的内部基准测试清楚地表明了这一点。GPU 成本通常比 AWS 的按需 GPU 价格便宜 50-80%,因为目前的云平台在路由和避免热点方面效率低下。更优的调度、更高的利用率以及对更廉价硬件的访问,意味着工程师可以减少维护基础设施的时间,将更多精力投入到开发中。双赢!

但廉价只有在产品出色时才奏效。Yotta 很早就意识到了这一点,这就是为什么他们的市场策略始于建立技术公信力,而非竞速式地获取客户。他们早期的很大一部分精力投入到了研究合作伙伴关系、社区实验以及高性能计算(HPC)级的性能优化工作中。

这包括为 EigenAI 的 GPT-OSS 计划提供动力,并参与在真实条件下压力测试分布式系统的开发者挑战赛。

几个典型的例子脱颖而出:

  • 2025 年 AMD 开发者挑战赛: Yotta 荣获第一名 ,他们通过在 MI300X 上构建 All-to-All、GEMM-ReduceScatter 和 GEMM-AllGather 算子的高性能实现,利用算子融合和针对 ROCm 的特定优化,实现了吞吐量的重大提升。

  • 强化学习突破: 通过使用 Verl 调整 3D 并行性,Yotta 证明了在 MI300X 硬件上,RL rollout 速度提升了 4.3 倍,训练周期缩短了 72%。这并非通过增加更多 GPU 实现,而是通过高效的编排实现的。

  • 异构硬件突破(AWS Trainium): 在 AWS Trainium 上,Yotta 的研究团队构建了 NeuronMM,这是一种用于 LLM 推理的定制矩阵乘法内核 ,在不改变硬件的情况下,其端到端吞吐量比 AWS 自身的 Trainium 基准高出 1.66 倍(最高达 2.49 倍)。

    这些提升源于软件:减少了 Trainium 存储层级间的数据移动,最大化了片上 SRAM 的利用率,并使张量布局与加速器的物理架构保持一致。换句话说,Yotta 通过理解芯片的实际运行机制,从同样的硅片中榨取了更高的性能。

这种研究优先的姿态服务于两个目的。

它证明了 Yotta 的架构在极限状态下依然稳健。同时,它也赢得了那些真正关注性能而非营销的开发者和研究人员的信任。在一个充斥着夸大其词的领域,Yotta 选择用实力说话。

即便有着这样的研究重心,顾客的需求也并未在旁观望。

Yotta 已经运行了 10 多个付费商业试点项目 ,所有项目均在生产负载中使用该系统。这些案例包括视频超分辨率应用、图像编辑流水线和智能招聘系统,在这些场景中,吞吐量和可靠性都至关重要。

自 2025 年 5 月推出以来,这些客户在一年内共同创造了超过 230 万美元的收入,这相当于 Yotta 约 700 万美元的年度经常性收入(ARR)运行率 。对于一家仍处于早期阶段且在供应端尚未实现无许可准入的公司来说,这种收入水平是市场需求的强烈信号。

那么,未来的需求增长点在哪里? 在我看来,它始于那些对价格敏感且难以获取超大规模云服务商(hyperscaler)GPU 的早期采用者。

  1. AI 初创公司: 他们从零开始构建,尚未被锁定在超大规模云服务商的生态系统中。同时他们对成本非常敏感。大规模推理成本高昂,而推理模型(reasoning models)可能需要 5 到 25 倍的算力,这使得更便宜、高性能的替代方案变得难以忽视。

  2. 学术界和开源社区: 研究人员、实验室和草根模型构建者长期受到算力限制。与 EigenAI 和 SGLang 的合作表明,开源团体将 Yotta 视为可用于实验的易用基础设施。

  3. Web3 构建者: 他们关注可验证计算,并会倾向于选择具有去中心化保证和云级性能的系统。

企业级客户需要一定时间(销售周期较长),但很可能会紧随其后。 许多 AI 原型已经开始转化为生产系统。大多数团队不会直接撤出 AWS 或 Azure,而且许多团队本身就受限于长期合同。他们需要的是溢出容量和更可预测的推理成本。这为 Yotta 创造了一个天然的角色,即作为第二个计算池来吸收来自第一个计算池的压力。

更令人感兴趣的是 OptmuX。作为一个编排层,它可以接入现有的超大规模云服务商并跨平台管理资源,在不强制企业改变其核心算力购买渠道的前提下,应用同样的优化技术。

我相信,随着人工智能用途的扩大和算力成为制约因素,只有那些能够处于性能、灵活性和成本帕累托前沿的平台,才真正有能力从巨头手中夺取市场份额。

当然,这是一场艰苦的战斗,但 Yotta 正致力于成为其中之一。

商业模式:优化优先,算力即分发

要理解 Yotta 如何盈利,请不要再将其视为“租赁去中心化 GPU”。从根本上说,Yotta 可以被看作是一个套利引擎。

其经济学论文逻辑非常直观:来自 AWS 或 GCP 的原生算力带有品牌溢价和稀缺加价。而来自游戏机、微型数据中心或加密货币矿机、新兴云平台的杂乱算力,则因感知的可靠性风险而以极高的折扣进行交易。

Yotta 的业务是弥合可靠性差距的软件,将混乱的算力转化为表现足够稳定、足以处理实际工作负载的基础设施。因此, 它获取了原始算力成本与客户在风险降低后愿意支付的价格之间的差价。

在实践中,这可以分解为三条截然不同的营收线,每条线都具有完全不同的经济模型。

营收线 #1:无服务器与计算层

Yotta 聚合了来自微型数据中心和新兴云合作伙伴未充分利用的硬件 GPU 算力,并通过一个无服务器、弹性的计算层将其呈现出来,其表现类似于企业级集群。与 AWS 等超大规模云厂商相比,这实现了更快的启动速度和显著降低的成本。

虽然该细分市场的毛利率在结构上较低(估计为 20–30%),但其战略价值巨大。通过无服务器与计算层执行的每个工作负载都会生成高保真系统遥测数据 ,包括调度结果、硬件级性能差异、故障模式,以及跨地区和 GPU 类型的成本与延迟权衡。

这些真实的执行数据持续反馈给 OptimuX(Yotta 的优化引擎),从而提升其在日益复杂的环境中做出智能系统级决策的能力。

战略角色: 无服务器与计算是 Yotta 的执行层和数据飞轮,为学习、优化和长期防御力提供动力。

收入线 #2:模型 API(具备智能模型路由功能)

在原始算力之上,Yotta 还提供生产级的模型 API,通过内置的智能模型路由托管开源及自定义模型。传入的请求会根据延迟目标、成本限制、可用性以及实时性能信号,在不同模型、地域和硬件后端之间进行动态路由。

这项业务由规模驱动,且利润率高于原始算力。更重要的是,它是 Yotta 切入企业内部高频生产级推理的切入点。通过抽象化基础设施和模型选择,Yotta 让团队能够以极少的运维工作交付 AI 功能,而系统则在后台持续进行优化。

模型 API 还创造了一条自然的升级路径:

  • 从单一模型端点 → 多模型路由

  • 从静态部署 → 自适应、性能感知的推理

  • 从 API 调用 → 深度采用 Yotta 的控制平面

营收线 #3:托管控制平面与 OptimuX 编排软件

该产品目前仍在开发中,但规划已经非常明确。Yotta 旨在为企业提供托管式 AI 控制平面 (由 OptimuX 驱动),在不强制客户迁移其基础设施的情况下,实现跨 AWS、Azure、本地集群以及其他云服务商的工作负载编排。

这是一个纯软件 (SaaS) 业务

  • 无硬件所有权或资产负债表风险

  • 高毛利率(60–80%+

  • 深度系统集成带来的强留存率

一旦 OptimuX 负责路由生产工作负载,例如根据成本、性能、可靠性和政策来决定模型在何处以及如何运行,切换系统将需要对机器学习和推理流水线进行全面的架构重组 ,从而产生显著的用户锁定效应。

随着时间的推移,控制平面将成为 AI 执行决策的记录系统,使 OptimuX 成为企业级 AI 基础设施的操作层

长期愿景: 托管控制平面和 OptimuX 编排层将成为 Yotta 的主要收入驱动力,也是平台长期防御能力的基石。

防御能力的真正来源

我们深知,GPU 供应并非护城河。

拥有 H100 或 4090 矿机的运营商会选择目前支付费率最高的网络。如果 io.net 提供更高的利用率,或者 Aethir 提供更好的费率,供应量会在一夜之间发生迁移。商品化硬件租赁毫无忠诚度可言。

这意味着 Yotta 的护城河不能建立在供给侧,而必须源于需求侧。

真正的护城河是数据,它源自“智能闭环”。对我而言,这是证明这项业务能够长期运作的最强有力的技术论据。

通过在数以千计异构且不可靠的 GPU 上运行 AI 工作负载,Yotta 生成了一份超大规模云厂商(Hyperscalers)从未见过的专有运营数据集:即 GPU 和模型在非理想条件下的表现。

AWS 和 GCP 不会遇到这些动态变化。它们的环境是刻意追求纯净的:相同的硬件、相同的网络、相同的冷却系统。它们为一致性而优化,这意味着它们永远学不会如何管理混乱。

而 Yotta 可以。

每一次任务失败、温度激增和网络波动都会反馈到 OptimuX 优化器中,从而提升故障预测和自适应路由的能力。Yotta 管理的硬件环境越混乱,其编排软件就变得越智能。

这在运维知识领域建立了一道数据护城河。最终,Yotta 可能成为唯一拥有足够实战经验,能够实现在低成本、异构基础设施上可靠运行高性能 AI 的平台。

这是具有防御性的。

接下来的计划

2026年将是关键时刻。

Yotta 的下一个里程碑是在 2026 年第二季度前让 OptimuX 投入全面运行 ,并启动遥测引擎,将真实世界的性能数据反馈给优化器和调度器。到 2026 年底,目标是建立一个完全运行的无许可 GPU 计算网络,向任何想要贡献硬件的人开放,而不仅仅是经过筛选的合作伙伴。

从长远来看,愿景是实现完全自主。基础设施利用自身的空闲周期来训练管理它的优化模型,随着运行数据在无需人工监督的情况下不断完善调度决策,实现自我进化。

团队:研究 + 行业的真实优势

去中心化计算处于一个尴尬的交汇点:GPU 研究、分布式系统,以及让事物在论文或实验室之外运行的那些枯燥工作。大多数团队能在一个领域拥有真正的深度已属幸运,极少数能兼具所有领域。这就是为什么这么多团队举步维艰的原因。

Yotta 却不知何故兼而有之。

Daniel Li 首席执行官兼联合创始人 )的主线始终是计算。他的职业生涯始于索尼美国研究实验室的 GPU 工程师,那时 NVIDIA 芯片还被称为“显卡”。随后他加入了 Meta,负责 Facebook 和 Instagram 的基础设施、隐私和透明度系统。这些系统必须在全球规模下运行并保持完美。没有什么比负责一个当十亿人刷新动态时可能崩溃的系统,更能让你学会敬畏可靠性了。

当 Daniel 加入 Chainlink Labs 领导 CCIP 项目时,他已经见识过从宏观视角审视下的现代基础设施全貌。不同的网络、不同的架构、不同的激励机制。每个人都理所当然地认为,会有其他人来负责将这一切整合在一起。

Daniel 观察到推理成本正在螺旋式上升。提供大模型服务的成本如此之高,以至于公司在每一个请求上都在亏钱。他告诉我,有些团队为了产生 1 美元的收入,需要承担 2 美元的 GPU 成本 。这根本不是一个可持续的商业模式。

在 Daniel 看来,问题并不在于绝对的稀缺,而在于低效和碎片化 。企业的算力散布在不同的云平台、地区和供应商手中,缺乏一个智能层来进行协调。于是他离职去构建这个层。从索尼到 Meta 再到 Chainlink,他职业生涯的每一站都指向同一个结论:算力稀缺在很大程度上是协调失败的结果。

那个想法并没有停留在草图阶段太久。丹尼尔需要一个活跃在 GPU 性能极限领域的人,一个职业生涯都在致力于从那些被他人视为黑盒的硬件中榨取性能的人。

李东(Dong Li)博士登场。

Yotta:全球 GPU 的操作系统

李东在加州大学美塞德分校(UC Merced)领导并行架构与系统实验室,并共同管理其高性能计算(HPC)系统小组。他曾在橡树岭国家实验室(Oak Ridge National Lab)任职,那是少数几个能让“大规模计算”名副其实的地方之一。他甚至还领导过一个 NVIDIA GPU 研究中心,这是学术界最接近 GPU 创新前沿阵地的地方。

他的研究直击 Yotta 想要消除的每一个痛点:内存溢出执行、容错机制、异构内存、巨型模型的训练效率。他的一些想法已经融入了 Microsoft 的 DeepSpeed,这无声地证明了你不仅仅是在写论文,你正在塑造整个技术栈。

在丹尼尔(Daniel)看到系统级故障的地方,董(Dong)看到了物理层面的局限:GPU 的速度越来越快,但它们之间的数据传输速度却跟不上。分布式训练的瓶颈不在于数学计算,而在于通信和内存移动。

但仍然缺少一块拼图。

仅仅知道什么应该发生以及为什么会失败是不够的。必须有人真正去构建这些系统,将这些想法转化为生产级的底层设施——这些系统需要能让真正的开发者在真实的约束条件下,进行真实规模的应用。

这正是 Johnny Liu 大显身手的地方。

Johnny(首席技术官兼联合创始人)的职业生涯致力于将雄心勃勃的 AI 研究转化为能够经受生产环境考验的系统。在 Amazon,他领导工程和科学团队打造了 Amazon Rufus,这是最早的大规模生成式 AI 驱动的购物助手之一。他的工作涵盖了基础模型训练、DeepSeek R1 规模的智能体强化学习,以及业内要求最严苛的数据流水线(处理互联网规模的数据和实时顾客信号)。

在加入 Amazon 之前,Johnny 任职于 TikTok,在那里他发起并领导了公司的多项关键基础设施项目。他是字节跳动内部早期推动 Ray 应用于 NLP 的倡导者,随后领导创建了 KubeRay,该项目现已成为开源生态系统中 Ray 的官方 Kubernetes 原生解决方案。为单一内部用例构建基础设施是一回事,而将其推广为行业标准的平台则是另一回事。Johnny 两者兼得。

在不同的职位上,他的核心关注点始终如一:AI 系统 。在字节跳动,他领导了诸如 Spark AutoTune 等机器学习驱动的自动调优项目,以减少数千个生产作业中的资源浪费。他还构建了 TikTok 的首个无服务器 NLP 平台 RayRTC,在显著缩短训练时间、降低 GPU 空闲率的同时,提升了数百个机器学习团队的开发效率。

职业生涯早期,Johnny 曾在劳伦斯伯克利国家实验室工作,专注于在拥有数千个节点的超级计算机上进行大规模训练和数据分析。他在人工智能(AI)和高性能计算(HPC)领域的顶级会议及期刊上发表了大量论文,并自 2015 年起担任美国国家科学基金会(NSF)和美国能源部的评审小组成员,负责评审并资助 AI、系统与高性能计算交叉领域的研究工作。

如果说 Daniel 带来了运营洲际规模操作系统的直觉,Dong 带来了将 GPU 推向物理极限的能力,那么 Johnny 则带来了将两者转化为生产级基础设施的严谨。

这正是几种视角交汇融合之处。

他们正试图重写计算的协调方式 ,跨越云端、跨越架构、跨越一切。

很难见到一支团队能与问题的本质如此契合。 更难得的是,意识到这个问题在他们职业生涯的大部分时间里一直伴随着他们。

融资 – 350 万美元

Yotta 最早且最可靠的验证并非来自风险投资市场,而是来自美国国家研究和战略计算计划。

2025 年, 美国国家科学基金会(NSF)授予 Yotta 一项 30 万美元的 SBIR 助学金 ,用于支持 AI 计算去中心化操作系统的开发。该奖项经过了分布式系统、高性能计算和大规模基础设施领域专家的严格同行评审评估。 

美国国家科学基金会(NSF)的小型企业创新研究(SBIR)资金旨在发掘那些在技术上具有非显见性、执行密集型,且具有战略重要性,但在早期阶段往往难以被传统资本市场理解的系统。因此,这一奖项将 Yotta 置于了围绕战略计算基础设施的更广泛国家对话之中。它与美国科学云(American Science Cloud)以及联邦政府支持的 AI 和 HPC 基础现代化举措紧密相连。

事后看来,机构的认可首先来自于那些在组织架构上具备评判深层基础设施工作能力的机构,这远早于风险投资(VC)的关注。

从一开始,Yotta 在融资策略上就非常有针对性。团队刻意制作了一份技术含量极高的路演 PPT 和商业计划书,重点强调底层系统设计、调度、内存卸载和分布式执行。这是一个自觉的选择,旨在筛选出具备足够技术深度、能真正理解该领域问题并认同团队长期愿景的投资者。

因此,许多通用型投资者自动退出了。这一过程与其说是广泛的接触,不如说是寻找契合度。那些能够深入理解技术实质的投资者,才是始终积极参与并希望领投的人。

团队将此视为一个信号,表明该策略正在奏效,且合作伙伴的质量正在提升。最终,几家技术实力雄厚的基金都有意领投,Yotta 选择其中两家作为其首个机构轮的回合共同领投方。

该公司筹集了Big Brain Holdings 和 Eden Block 共同领投的 350 万美元融资 ,参投方包括 Mysten Labs、KuCoin Ventures、Generative Ventures 和 MH Ventures。

我们的观点

看涨理由

Yotta 的成败在于它能否真正实现自动化,替代目前企业支付高昂费用聘请专家手动完成的工作。对于任何 AI 初创公司来说,这都是一个重要的切入点。

如今,在混合硬件上优化 GPU 工作负载仍是一项手艺活。你要么聘请年薪 30 万至 50 万美元的内核工程师,要么请高性能计算(HPC)咨询公司逐一针对工作负载进行性能调优。这个市场规模已经很大, 每年约 400 亿美元以上 ,且仍以 7% 的速度持续增长。

Yotta 的 OptimuX 实现了这项工作的自动化。这与 Terraform(自动化基础设施咨询)或 Databricks(自动化数据工程)的模式如出一辙。

现实的预期是,对于那些 30-40% 的效率提升足以支撑切换成本的工作负载,Yotta 将成为首选解决方案。

如果 Yotta 在 5 到 7 年内能占据 GPU 优化咨询市场 5% 到 10% 的份额,那么你所面对的将是 5 亿至 10 亿美元的潜在年度经常性收入 (ARR)。当然,这一结果绝非板上钉钉,它取决于若干环节的顺利推进。

首先,它需要在大规模应用中证明,生产负载可以在不牺牲可靠性的情况下以更低的成本运行。其次,它需要真正的企业粘性 ,即少数每年投入 200 万美元或更多资金的客户,一旦 Yotta 嵌入其业务流程,他们会发现将其撤换将非常痛苦。

这就是机会所在:将昂贵的专业化工作自动化,并从中分得咨询预算的一杯羹。而不是去推翻超大规模云服务商。

又一个去中心化计算协议?

我知道你想问——我们真的需要另一个“去中心化 GPU 市场”吗?这是一个拥挤的赛道。对于大多数投资者来说,这些项目看起来都大同小异。

典型的 DePIN 策略是聚合闲置 GPU、发行代币、构建市场,并将其营销为“民主化 AI”。问题在于,这些都无法解决协同问题。聚合 GPU 很简单,但让它们协同高效运作却很困难。

这就是为什么去中心化网络只能吸引容错型工作负载(如渲染、批处理任务),而无法承载生产级的 AI 推理。

Yotta 的不同之处在于:

  • 需求先于供应 :在开放无许可供应之前,700 万美元的年度经常性收入(ARR)证明了真实需求的存在

  • 性能对等 :与中心化集群的差距在 ~15% 以内

我的观点是,支付 AI 基础设施费用的企业可能并不关心 GPU 的来源。他们关心的是成本和性能。

真正的差异化不在于“我们是去中心化的”,而在于 “我们让分布式 GPU 的性能表现得像中心化基础设施一样”。 这是一个技术护城河(强),而非意识形态护城河(弱)。

单纯的定位并不能创造防御力。随着复杂性的提升,面对更多的客户、更大的模型以及日益异构的硬件,Yotta 仍需证明其性能表现能够保持稳定。

从“10 个企业试点 → 700 万美元年度经常性收入(ARR)”到“100+ 客户 → 1 亿多美元 ARR”之间的差距,是大多数新兴基础设施公司难以逾越的鸿沟。Yotta 能否跨越这一障碍,在接下来的几个月里将见分晓。

结语

长期以来,AI 一直受制于数据中心的物理特性:相同的硬件、严格控制的环境。而这种模式正在瓦解。算力正散落在不同的云平台、地区、供应商、芯片类型以及数百万台未被充分利用的机器之中。

Yotta 的赌注既简单又困难。不要试图对抗碎片化,而是要顺势而为,构建能在碎片化环境中蓬勃发展的软件。

如果 Yotta 取得成功,去中心化计算将不再让人感到激进。它会让人感到平淡。像电力一样平淡。无形、可靠、无处不在。

在这个世界里,问题不再是谁拥有最大的数据中心,而变成了谁控制着能让所有 GPU 协同工作的操作系统。

Yotta 正在为分布式智能时代构建协调层。如果他们取得成功,或许就能抹平与中心化算力之间的差距。

—-

注:Yotta 这个名字代表了规模。当今的前沿是艾级规模(exascale),即 10¹⁸ FLOPS。而尧级规模(Yotta Scale)是 10²⁴,比前者大一百万倍。

你无法在单个数据中心内构建一台尧阶(yottascale)电脑。其功率密度会使电网熔化。达到该规模的唯一途径是协同分布在全球各地的潜在闲置算力。

感谢阅读,

Teng Yan 和 0xAce

了解 RecodeX 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读