Standard Intelligence 获 7500 万美元 A 轮融资,红杉和 Spark Capital 领投:6 人团队用 1100 万小时电脑操作视频训练 FDM-1 模型,视频编码器效率是 OpenAI 方案的 50-100 倍
在 AI 行业几乎被“语言”统治的今天,一家只有 6 人的初创公司 Standard Intelligence 却拿到了 7500 万美元的 A 轮融资,领投方是 Sequoia Capital 和 Spark Capital,天使投资人名单里还有 Andrej Karpathy。他们的赌注是:用 1100 万小时的计算机屏幕视频,训练一个“观看”而非“阅读”的模型。这不仅仅是一笔融资,更是一次对当前 AI 发展路径的公开挑战——当所有人都忙着让 AI 学会说话时,Standard Intelligence 想让 AI 学会看。
六人团队、7500 万美元:一场反直觉的“视频预训练”豪赌
Standard Intelligence 的创始人是 Galen Mead 和 Devansh Pandey,两人在 2022 年的 Atlas Fellowship 上相识时还是青少年,随后双双从大学辍学。这支仅 6 人的团队,却构建了一个名为 FDM-1 的基础模型,其训练数据不是文本,而是 1100 万小时的计算机操作视频——从设计 CAD 齿轮到驾驶自动驾驶汽车,再到调试软件代码。这笔 7500 万美元的 A 轮融资,意味着投资人对“视频预训练”这一反主流路线的认可。Sequoia 将其描述为“将特斯拉 FSD 的方法应用于电脑屏幕上的知识工作”,这一类比精准地揭示了其核心逻辑:就像 FSD 通过观看驾驶视频学习驾驶一样,FDM-1 通过观看人类操作计算机的视频来学习如何完成任务。
但问题在于:6 人团队能否驾驭如此庞大的工程?Standard Intelligence 给出的答案是“能”。他们自建了一个 30PB 的存储集群,成本不到 50 万美元,比超大规模云服务商便宜了 20 倍。这种极致的成本控制,既是技术能力的体现,也是资源匮乏下的被迫创新。然而,这也意味着团队在数据清洗、模型训练、部署运维等环节上,必须依赖高度自动化的工具链和极简的架构设计。一旦模型进入商业化阶段,这种“小而美”的模式能否承受用户量的冲击,仍是一个未知数。
视频编码器效率是 OpenAI 的 50-100 倍:技术突破还是营销话术?
Standard Intelligence 宣称其视频编码器效率比 OpenAI 的同类方案高出 50-100 倍。具体而言,FDM-1 可以在 100 万个 token 的上下文窗口中处理 2 小时 30FPS 的视频。这意味着,它能够“观看”长达两小时的完整操作流程,而不需要像语言模型那样依赖分步推理或外部工具。在演示中,FDM-1 无需链式思维(Chain-of-Thought)或任何工具调用,就能直接完成从设计 CAD 齿轮到查找软件漏洞等任务。
这一技术指标如果属实,确实具有颠覆性。当前主流的 AI 代理方案,如 OpenAI 的 GPT-4 with Vision,在处理长视频时通常需要将视频分段、提取关键帧、再结合文本描述进行推理,这不仅增加了延迟,也丢失了时间序列中的连续性信息。而 FDM-1 的端到端视频处理能力,理论上可以捕捉到人类操作中的细微动作、界面响应延迟、甚至错误操作后的修复过程——这些正是“知识工作”中最具价值的部分。
但我们必须保持审慎。效率提升 50-100 倍,这一数字在 AI 领域往往意味着特定的对比基准。是比 OpenAI 的视觉模型在相同精度下更快?还是在相同延迟下精度更高?抑或是针对特定类型的视频任务?Standard Intelligence 并未披露详细的评估指标和对比条件。此外,视频编码器的效率并不直接等同于模型的实际任务表现。一个高效的编码器可能只是减少了 token 数量,但如果模型无法从这些 token 中提取有效信息,那么效率提升就失去了意义。
从 Blender 到自动驾驶:FDM-1 的“万能”能力是真实力还是过拟合?
Standard Intelligence 展示了三个令人印象深刻的演示:在 Blender 中设计 CAD 齿轮、经过 1 小时微调后驾驶自动驾驶汽车、以及发现软件漏洞。这些任务跨越了 3D 建模、机器人控制和软件工程三个截然不同的领域,且 FDM-1 均未依赖链式思维或外部工具。这种“零样本”或“少样本”的泛化能力,如果能够规模化验证,将彻底改变我们对 AI 能力的认知。
然而,演示与产品之间存在巨大鸿沟。在 Blender 中设计一个齿轮,与设计一个完整的机械结构之间,是量级的差距;驾驶自动驾驶汽车 1 小时,与通过图灵测试式的全场景驾驶之间,是质的不同。更重要的是,Standard Intelligence 的训练数据来自 1100 万小时的计算机操作视频,这些视频的来源、多样性、标注质量都是未知数。如果数据主要来自特定类型的任务(如软件开发、设计工具),那么模型在自动驾驶等新领域的表现,可能更多是迁移学习的偶然成功,而非真正的通用智能。
此外,FDM-1 的“无需工具”特性既是优势也是隐患。在现实世界的知识工作中,工具(如搜索引擎、计算器、代码解释器)是必要的外延。一个完全依赖“观看”学习的模型,如何理解它从未见过的工具?例如,当遇到一个全新的软件界面时,FDM-1 能否像人类一样通过“试错”来学习?这些问题的答案,将决定 FDM-1 是否能从“演示级”走向“生产级”。
Sequoia 的“特斯拉 FSD 类比”:一个危险的隐喻
Sequoia 将 Standard Intelligence 的方法比作“特斯拉 FSD 应用于知识工作”,这一类比揭示了投资逻辑的核心:FSD 通过端到端的视频学习取代了传统的规则引擎和模块化架构,而 Standard Intelligence 试图用同样的方法取代当前基于语言模型的 AI 代理。这一逻辑在理论上极具吸引力——如果视频数据真的包含了人类知识工作的全部信息,那么通过大规模视频预训练,AI 应该能够学会任何计算机操作任务。
但这一类比也暗藏风险。特斯拉 FSD 虽然在视频预训练上取得了突破,但其实际表现仍远未达到“全自动驾驶”的水平,事故和争议不断。将同一方法论应用于知识工作,意味着 Standard Intelligence 必须面对 FSD 面临的相同挑战:长尾场景的处理、边缘案例的覆盖、以及安全性的保障。在知识工作中,一个错误的 CAD 设计可能导致数百万美元的损失,一个未发现的软件漏洞可能引发安全灾难。FDM-1 目前的演示中,并没有展示任何失败案例或错误处理机制。
更关键的是,FSD 的成功依赖于特斯拉庞大的车队和数十亿英里的真实驾驶数据。Standard Intelligence 的 1100 万小时视频数据虽然庞大,但相较于人类在计算机上产生的海量操作数据(全球每天数十亿小时),仍只是沧海一粟。数据规模的增长速度、数据多样性的覆盖范围,将直接决定 FDM-1 的能力上限。
30PB 存储的“穷人心态”:成本优势能否转化为竞争壁垒?
Standard Intelligence 最令人惊讶的成就之一,是仅用不到 50 万美元就搭建了一个 30PB 的存储集群,成本仅为超大规模云服务商的 1/20。这种“穷人心态”驱动的工程创新,在 AI 行业普遍依赖 AWS、GCP 的今天,显得格外另类。它意味着 Standard Intelligence 在硬件采购、网络架构、数据管理上拥有独特的技术积累,这既是成本优势,也是技术壁垒。
但成本优势能否转化为持久的竞争壁垒?首先,50 万美元的存储集群虽然便宜,但维护和扩展的成本不会线性增长。随着数据量的增加,Standard Intelligence 需要持续投入硬件和人力,而 6 人团队在运维上的瓶颈会逐渐显现。其次,超大规模云服务商虽然贵,但它们提供了弹性扩展、高可用性和全球分发能力。如果 Standard Intelligence 的模型需要服务企业客户,其自建集群能否满足 SLA 要求?最后,这一成本优势本质上是对现有云服务商定价策略的“套利”,一旦云服务商调整定价或推出更具竞争力的存储方案,这一优势可能会被快速侵蚀。
Standard Intelligence 的 7500 万美元融资,是当前 AI 行业“反语言中心主义”浪潮中的一次重要赌注。它挑战了“AI 必须先学会语言才能理解世界”的教条,试图用最原始的视频数据直接建模人类行为。这种技术路线的激进性,既是其最大魅力,也是其最大风险。如果 FDM-1 能够证明视频预训练在知识工作上的通用性,那么 Standard Intelligence 将可能成为下一个 OpenAI;如果它无法跨越从演示到产品的鸿沟,那么这笔 7500 万美元的投资,将成为又一个关于“技术浪漫主义”的警世故事。在 AI 的进化史上,Standard Intelligence 已经写下了自己的注脚——至于它是一笔伟大的投资,还是一次昂贵的实验,时间会给出答案。