Standard Intelligence 获 7500 万美元 A 轮融资，红杉和 Spark Capital 领投：6 人团队用 1100 万小时电脑操作视频训练 FDM-1 模型，视频编码器效率是 OpenAI 方案的 50-100 倍

项目速览

项目名称 Standard Intelligence

融资轮次 Series A

融资金额 $75M

投资方 Sequoia (co-lead), Spark Capital (co-lead), Andrej Karpathy (angel)

Standard Intelligence 获 7500 万美元 A 轮融资，红杉和 Spark Capital 领投：6 人团队用 1100 万小时电脑操作视频训练 FDM-1 模型，视频编码器效率是 OpenAI 方案的 50-100 倍

在 AI 行业几乎被“语言”统治的今天，一家只有 6 人的初创公司 Standard Intelligence 却拿到了 7500 万美元的 A 轮融资，领投方是 Sequoia Capital 和 Spark Capital，天使投资人名单里还有 Andrej Karpathy。他们的赌注是：用 1100 万小时的计算机屏幕视频，训练一个“观看”而非“阅读”的模型。这不仅仅是一笔融资，更是一次对当前 AI 发展路径的公开挑战——当所有人都忙着让 AI 学会说话时，Standard Intelligence 想让 AI 学会看。

六人团队、7500 万美元：一场反直觉的“视频预训练”豪赌

Standard Intelligence 的创始人是 Galen Mead 和 Devansh Pandey，两人在 2022 年的 Atlas Fellowship 上相识时还是青少年，随后双双从大学辍学。这支仅 6 人的团队，却构建了一个名为 FDM-1 的基础模型，其训练数据不是文本，而是 1100 万小时的计算机操作视频——从设计 CAD 齿轮到驾驶自动驾驶汽车，再到调试软件代码。这笔 7500 万美元的 A 轮融资，意味着投资人对“视频预训练”这一反主流路线的认可。Sequoia 将其描述为“将特斯拉 FSD 的方法应用于电脑屏幕上的知识工作”，这一类比精准地揭示了其核心逻辑：就像 FSD 通过观看驾驶视频学习驾驶一样，FDM-1 通过观看人类操作计算机的视频来学习如何完成任务。

但问题在于：6 人团队能否驾驭如此庞大的工程？Standard Intelligence 给出的答案是“能”。他们自建了一个 30PB 的存储集群，成本不到 50 万美元，比超大规模云服务商便宜了 20 倍。这种极致的成本控制，既是技术能力的体现，也是资源匮乏下的被迫创新。然而，这也意味着团队在数据清洗、模型训练、部署运维等环节上，必须依赖高度自动化的工具链和极简的架构设计。一旦模型进入商业化阶段，这种“小而美”的模式能否承受用户量的冲击，仍是一个未知数。

视频编码器效率是 OpenAI 的 50-100 倍：技术突破还是营销话术？

Standard Intelligence 宣称其视频编码器效率比 OpenAI 的同类方案高出 50-100 倍。具体而言，FDM-1 可以在 100 万个 token 的上下文窗口中处理 2 小时 30FPS 的视频。这意味着，它能够“观看”长达两小时的完整操作流程，而不需要像语言模型那样依赖分步推理或外部工具。在演示中，FDM-1 无需链式思维（Chain-of-Thought）或任何工具调用，就能直接完成从设计 CAD 齿轮到查找软件漏洞等任务。

这一技术指标如果属实，确实具有颠覆性。当前主流的 AI 代理方案，如 OpenAI 的 GPT-4 with Vision，在处理长视频时通常需要将视频分段、提取关键帧、再结合文本描述进行推理，这不仅增加了延迟，也丢失了时间序列中的连续性信息。而 FDM-1 的端到端视频处理能力，理论上可以捕捉到人类操作中的细微动作、界面响应延迟、甚至错误操作后的修复过程——这些正是“知识工作”中最具价值的部分。

但我们必须保持审慎。效率提升 50-100 倍，这一数字在 AI 领域往往意味着特定的对比基准。是比 OpenAI 的视觉模型在相同精度下更快？还是在相同延迟下精度更高？抑或是针对特定类型的视频任务？Standard Intelligence 并未披露详细的评估指标和对比条件。此外，视频编码器的效率并不直接等同于模型的实际任务表现。一个高效的编码器可能只是减少了 token 数量，但如果模型无法从这些 token 中提取有效信息，那么效率提升就失去了意义。

从 Blender 到自动驾驶：FDM-1 的“万能”能力是真实力还是过拟合？

Standard Intelligence 展示了三个令人印象深刻的演示：在 Blender 中设计 CAD 齿轮、经过 1 小时微调后驾驶自动驾驶汽车、以及发现软件漏洞。这些任务跨越了 3D 建模、机器人控制和软件工程三个截然不同的领域，且 FDM-1 均未依赖链式思维或外部工具。这种“零样本”或“少样本”的泛化能力，如果能够规模化验证，将彻底改变我们对 AI 能力的认知。

然而，演示与产品之间存在巨大鸿沟。在 Blender 中设计一个齿轮，与设计一个完整的机械结构之间，是量级的差距；驾驶自动驾驶汽车 1 小时，与通过图灵测试式的全场景驾驶之间，是质的不同。更重要的是，Standard Intelligence 的训练数据来自 1100 万小时的计算机操作视频，这些视频的来源、多样性、标注质量都是未知数。如果数据主要来自特定类型的任务（如软件开发、设计工具），那么模型在自动驾驶等新领域的表现，可能更多是迁移学习的偶然成功，而非真正的通用智能。

此外，FDM-1 的“无需工具”特性既是优势也是隐患。在现实世界的知识工作中，工具（如搜索引擎、计算器、代码解释器）是必要的外延。一个完全依赖“观看”学习的模型，如何理解它从未见过的工具？例如，当遇到一个全新的软件界面时，FDM-1 能否像人类一样通过“试错”来学习？这些问题的答案，将决定 FDM-1 是否能从“演示级”走向“生产级”。

Sequoia 的“特斯拉 FSD 类比”：一个危险的隐喻

Sequoia 将 Standard Intelligence 的方法比作“特斯拉 FSD 应用于知识工作”，这一类比揭示了投资逻辑的核心：FSD 通过端到端的视频学习取代了传统的规则引擎和模块化架构，而 Standard Intelligence 试图用同样的方法取代当前基于语言模型的 AI 代理。这一逻辑在理论上极具吸引力——如果视频数据真的包含了人类知识工作的全部信息，那么通过大规模视频预训练，AI 应该能够学会任何计算机操作任务。

但这一类比也暗藏风险。特斯拉 FSD 虽然在视频预训练上取得了突破，但其实际表现仍远未达到“全自动驾驶”的水平，事故和争议不断。将同一方法论应用于知识工作，意味着 Standard Intelligence 必须面对 FSD 面临的相同挑战：长尾场景的处理、边缘案例的覆盖、以及安全性的保障。在知识工作中，一个错误的 CAD 设计可能导致数百万美元的损失，一个未发现的软件漏洞可能引发安全灾难。FDM-1 目前的演示中，并没有展示任何失败案例或错误处理机制。

更关键的是，FSD 的成功依赖于特斯拉庞大的车队和数十亿英里的真实驾驶数据。Standard Intelligence 的 1100 万小时视频数据虽然庞大，但相较于人类在计算机上产生的海量操作数据（全球每天数十亿小时），仍只是沧海一粟。数据规模的增长速度、数据多样性的覆盖范围，将直接决定 FDM-1 的能力上限。

30PB 存储的“穷人心态”：成本优势能否转化为竞争壁垒？

Standard Intelligence 最令人惊讶的成就之一，是仅用不到 50 万美元就搭建了一个 30PB 的存储集群，成本仅为超大规模云服务商的 1/20。这种“穷人心态”驱动的工程创新，在 AI 行业普遍依赖 AWS、GCP 的今天，显得格外另类。它意味着 Standard Intelligence 在硬件采购、网络架构、数据管理上拥有独特的技术积累，这既是成本优势，也是技术壁垒。

但成本优势能否转化为持久的竞争壁垒？首先，50 万美元的存储集群虽然便宜，但维护和扩展的成本不会线性增长。随着数据量的增加，Standard Intelligence 需要持续投入硬件和人力，而 6 人团队在运维上的瓶颈会逐渐显现。其次，超大规模云服务商虽然贵，但它们提供了弹性扩展、高可用性和全球分发能力。如果 Standard Intelligence 的模型需要服务企业客户，其自建集群能否满足 SLA 要求？最后，这一成本优势本质上是对现有云服务商定价策略的“套利”，一旦云服务商调整定价或推出更具竞争力的存储方案，这一优势可能会被快速侵蚀。

Standard Intelligence 的 7500 万美元融资，是当前 AI 行业“反语言中心主义”浪潮中的一次重要赌注。它挑战了“AI 必须先学会语言才能理解世界”的教条，试图用最原始的视频数据直接建模人类行为。这种技术路线的激进性，既是其最大魅力，也是其最大风险。如果 FDM-1 能够证明视频预训练在知识工作上的通用性，那么 Standard Intelligence 将可能成为下一个 OpenAI；如果它无法跨越从演示到产品的鸿沟，那么这笔 7500 万美元的投资，将成为又一个关于“技术浪漫主义”的警世故事。在 AI 的进化史上，Standard Intelligence 已经写下了自己的注脚——至于它是一笔伟大的投资，还是一次昂贵的实验，时间会给出答案。