General Intuition谈判融资3亿美元:当20亿游戏视频成为训练AI”直觉”的终极燃料,这家拒绝了OpenAI收购的公司正在重新定义世界模型的数据范式
当整个AI行业还在为”下一个token在哪里”而焦虑时,一家脱胎于游戏视频平台的创业公司正悄然重塑关于AI训练数据的根本叙事。
2026年6月18日,据TechCrunch独家报道,总部位于纽约的AI研究实验室General Intuition正在谈判一轮约3亿美元的新融资,估值将突破20亿美元大关。参与这轮融资的投资人名单堪称豪华——Jeff Bezos和Eric Schmidt两位科技巨头的个人资金赫然在列,种子轮的领投方Khosla Ventures和General Catalyst也将继续加注。这距离这家公司2025年10月宣布1.34亿美元的天价种子轮,仅仅过去了八个月。
在大语言模型(LLM)主导的AI叙事里,General Intuition提出了一个截然不同的命题:文本世界的智能不等于物理世界的智能。ChatGPT可以写一篇关于如何过马路的完美文章,但它无法像一个五岁孩子那样,在一个繁忙的十字路口判断车速、预判行人轨迹、并在恰当的时机迈出脚步。这种”看一眼就知道该怎么做”的能力,正是General Intuition试图赋予AI的——他们称之为”通用直觉”(General Intuition)。
而训练这种直觉的燃料,来自一个出人意料的来源:每年20亿条游戏视频。
| 融资信息 | 详情 |
|---|---|
| 公司名称 | General Intuition |
| 总部 | 美国纽约(日内瓦设有研究团队) |
| 融资轮次 | 新一轮融资(谈判中) |
| 融资金额 | 约3亿美元 |
| 估值 | 约20亿美元 |
| 核心投资人 | Jeff Bezos、Eric Schmidt |
| 现有投资人跟投 | Khosla Ventures、General Catalyst |
| 上一轮融资 | 种子轮1.34亿美元(2025年10月) |
| 种子轮领投 | Khosla Ventures、General Catalyst |
| 种子轮参与 | The Raine Group |
| 创始人兼CEO | Pim de Witte |
| 联合创始人 | Eloi Alonso、Adam Jelley、Vincent Micheli |
| 核心技术 | 基于游戏视频数据的时空推理基础模型 |
从RuneScape私服到拒绝OpenAI 5亿美元收购:一个荷兰少年创业者的非线性路径
要理解General Intuition的野心,必须先理解它的创始人Pim de Witte——一个在14岁就展现出惊人商业直觉的荷兰人。
De Witte的创业故事始于一个几乎所有千禧一代玩家都熟悉的游戏——RuneScape。2008年前后,年仅14岁的他创建了Soulsplit,这是当时最大的RuneScape私人服务器之一,巅峰时期拥有超过300万注册账户,年收入超过100万美元。一个正在上中学的荷兰少年,靠运营游戏社区赚到了大多数成年人梦寐以求的收入——这段经历不仅塑造了他对游戏社区动力学的深刻理解,更让他在极早的年龄就建立了对规模化数字平台的运营直觉。
但De Witte并非一个典型的”少年创业天才”叙事中的角色。在2014年到2017年间,他选择为无国界医生组织(Médecins Sans Frontières)担任软件工程承包商,参与了包括应对埃博拉疫情在内的多个医疗危机响应项目。这段经历看似与游戏和AI无关,却可能深刻影响了他对”在混乱、不可预测环境中做出快速决策”这一核心能力的理解——而这恰恰是General Intuition试图赋予AI的核心能力。
2015年,De Witte联合创立了Medal.tv(后简称Medal),一个专注于游戏精彩瞬间录制和分享的平台。在他的领导下,Medal经历了多次关键转型——从最初的竞技游戏环境,逐步演变为一个社交化的游戏短视频平台。新冠疫情期间,当全球玩家被迫在线上重建社交连接时,Medal迎来了爆发式增长,最终发展到月活跃用户超过1000万、年上传视频量超过20亿的规模。
这组数字的真正价值,直到AI时代才被充分理解。
据The Information报道,OpenAI曾出价5亿美元试图收购Medal,看中的正是这个平台上庞大的、带有丰富行为标注的第一人称视角游戏视频数据集。但De Witte拒绝了这笔交易。他的判断是:与其把数据卖给别人训练模型,不如自己用这些数据去做更本质的事情——教会AI理解物理世界。
这个决策的勇气不容低估。5亿美元的确定性回报摆在面前,他选择了一条充满不确定性的路。但从结果来看——八个月内估值从种子期跃升至20亿美元——这个赌注目前看来正在兑现。
“从文字到世界”:为什么LLM的语言智慧在物理世界里几乎一文不值?
General Intuition的技术叙事建立在一个核心洞察之上:当前主流AI模型存在一个巨大的”视觉推理鸿沟”(visual reasoning gap)。
GPT-4o可以描述一个篮球场上的挡拆战术,Gemini可以分析一段比赛录像中的关键回合。但如果你让它们——或者任何当前的AI模型——在一个真实的3D环境中实时导航,预判一辆急转弯的汽车会在几秒后出现在哪个位置,或者在一个杂乱的仓库里规划最优的搬运路径,它们就会陷入困境。
这不是模型不够大或训练数据不够多的问题。这是一个根本性的架构局限:大语言模型是在文本序列上训练的,它们理解的是词汇之间的统计关系,而非物体在三维空间中的物理关系。它们知道”球从高处落下会加速”这个文本事实,但不理解重力、碰撞和弹性形变的动态过程。
General Intuition的创始团队将这种差距概括为一个简洁的口号:”从文字到世界”(From Words to Worlds)。他们认为,真正的通用智能——尤其是能够在物理世界中运作的智能——需要两种核心能力:
空间推理(Spatial Reasoning)——理解深度、几何关系、遮挡以及物体在三维环境中的相对位置。当你驾驶汽车通过一个十字路口时,你需要同时处理数十个物体的空间关系:前方卡车的距离和高度、侧面行人的移动方向、后视镜中逐渐靠近的摩托车。这种多维度的空间感知对当前AI来说极其困难。
时间推理(Temporal Reasoning)——理解事件如何随时间展开,预判未来状态,并在动态、快速变化的场景中做出适时反应。一个职业电竞选手可以在200毫秒内判断对手的走位意图并做出反应;一个经验丰富的司机可以在模糊的视觉线索中预判前方车辆即将变道。这种”下意识”的时间预判能力,是人类在数百万年进化中获得的核心生存技能,也是当前AI最薄弱的环节。
General Intuition的根本赌注是:这两种能力不能通过阅读文本或分析静态图片来学习。它们必须通过沉浸在大量的、连续的、具有因果关系的视觉体验中来获得——就像人类儿童通过在世界中跌跌撞撞地行走来建立空间直觉一样。
而游戏,恰恰提供了这种体验的最大规模、最高密度的来源。
20亿条游戏视频的秘密:为什么Medal的数据是这场竞赛中最被低估的资产?
在AI训练数据的军备竞赛中,文本数据已经被几大巨头瓜分殆尽——Common Crawl、维基百科、书籍语料、代码库,这些资源要么已经被充分利用,要么正在面临版权诉讼的围剿。视频数据成了新的前沿,但YouTube上的视频虽然数量庞大,却存在几个关键缺陷:视角不一致、动作不连贯、很少有可靠的行为标注。
Medal的数据集之所以独特,在于它完美地解决了这些问题。
第一,视角的一致性。 大多数游戏视频都是第一人称视角(FPS视角),这意味着摄像头就是”玩家的眼睛”。这种一致的视角与未来AI在真实世界中的应用场景——无人机、机器人、自动驾驶车辆——高度吻合。相比之下,YouTube上的视频可能是从任何角度拍摄的:航拍、多机位、斜视角,这种多样性反而增加了训练的噪音。
第二,动作的密度和关联性。 游戏视频中的每一秒都充满了决策和行动——玩家在移动、射击、跳跃、转向、与环境交互。更关键的是,Medal的平台天然地将这些视频片段与游戏中的”动作语义”关联起来——系统知道某一帧中玩家”向前移动了”、”开了一枪”、”进了一个球”。这种”行为标注”数据在传统视频数据集中几乎不存在,却对训练AI理解”动作-结果”的因果链至关重要。
第三,复杂性和不可预测性。 游戏环境——尤其是多人在线游戏——是人类创造的最复杂、最不可预测的模拟环境之一。在一场50人的《堡垒之夜》大逃杀中,每一秒都可能有数十个意外事件发生:建筑被摧毁、对手从意想不到的方向出现、风暴圈缩小改变了所有人的策略。AI在这种环境中学习,相当于在一个高度压缩的”物理世界模拟器”中接受训练。
第四,规模的压倒性。 每年20亿条视频,来自1000万月活跃用户——这个规模意味着General Intuition拥有的训练数据在数量上可能超过了任何单一竞争对手。更重要的是,这些数据每天都在增长,这是一个”活的”数据飞轮,而不是一个静态的数据集。
据知情人士透露,OpenAI并不是唯一一家对Medal数据表示兴趣的大型AI实验室。这个细节揭示了一个行业共识:这类高质量的、带有行为标注的第一人称视觉数据,正在成为构建下一代AI(尤其是物理AI和具身智能)的关键瓶颈资源。
General Intuition的策略是:不卖数据,用数据训练自己的模型和智能体。用De Witte的话说,Medal的数据是”人类在模拟世界中行为方式的终极数据集”。
NeurIPS聚光灯论文背后的科学团队:DIAMOND和IRIS如何奠定技术基底?
如果说De Witte是General Intuition的商业愿景和数据战略的设计者,那么联合创始人Eloi Alonso、Vincent Micheli和Adam Jelley则是将这一愿景转化为可落地技术的核心引擎。
这三位研究者的学术背景值得细读。Alonso和Micheli来自日内瓦大学François Fleuret教授的研究组,Jelley则来自爱丁堡大学。在加入General Intuition之前,他们已经在”世界模型”这一前沿领域发表了多项突破性工作。
他们最具影响力的贡献是DIAMOND(DIffusion As a Model Of eNvironment Dreams)——一个完全在扩散模型(Diffusion Model)框架内训练强化学习智能体的系统。这项工作在NeurIPS 2024上获得了”聚光灯”论文(Spotlight Paper)的荣誉,意味着它被顶级学术同行评审委员会认定为该年度最重要的研究成果之一。
DIAMOND的核心创新在于:传统的世界模型通常将视觉输入压缩到离散的潜在空间(discrete latent space)中,这个过程不可避免地丢失了大量视觉细节——而这些细节往往包含着对空间推理至关重要的信息(比如物体边缘的细微形变、远处物体的模糊轮廓)。DIAMOND使用扩散模型来”梦见”环境,保留了远超传统方法的视觉保真度,从而让在其中训练的智能体获得了更精确的空间感知能力。
在DIAMOND之前,Micheli和Alonso还开发了IRIS(Transformers are Sample-Efficient World Models)——一个使用Transformer架构的、样本效率极高的世界模型。IRIS在ICLR 2022深度强化学习研讨会上获得了最佳论文奖,并在ICLR 2023正式会议上发表。IRIS证明了一件重要的事:世界模型不需要海量数据就能学到有用的环境表示,关键在于架构设计的精妙。
他们后续的工作Δ-IRIS则进一步引入了上下文感知的分词机制,提高了世界模型的计算效率。
将这些学术成果连点成线,General Intuition的技术路线图变得清晰:他们不是在构建一个”大力出奇迹”的蛮力系统,而是在用最前沿的、经过同行评审验证的架构创新(扩散世界模型 + 高效Transformer)来处理Medal平台上独一无二的大规模游戏视频数据。这种”顶级架构 × 独占数据”的组合,构成了General Intuition在技术层面的核心壁垒。
更值得注意的是,这三位联合创始人都不是”学术型创业者”的刻板形象。他们选择加入一家创业公司而非继续学术生涯或加入大厂AI实验室,这本身说明了他们对General Intuition方向的信念——以及对De Witte提供的独占数据资源的认可。
“世界模型大战”升温:General Intuition的差异化打法与它面对的竞争丛林
General Intuition并非在真空中运作。2025年下半年到2026年上半年,”世界模型”赛道已经变成了AI领域最炙手可热的战场之一。
World Labs——由斯坦福大学教授、”AI教母”李飞飞联合创办——专注于”空间智能”(Spatial Intelligence),其旗舰产品Marble能够生成持久的、可导航的、可控的3D世界。World Labs从学术界最顶尖的计算机视觉研究出发,走的是”构建3D世界理解的基础层”路线。
Decart——以色列创业公司,主打实时、低延迟的世界模型。其产品Oasis系列能够生成可交互的、高保真度的环境,用于模拟、游戏和物理AI(如自动驾驶和机器人)场景。Decart最近的突破是其世界模型可以模拟数小时的逼真驾驶场景——尽管仍存在一些视觉瑕疵。
Odyssey——另一家世界模型实验室,获得了Amazon/AWS、AMD和Nvidia的支持,专注于构建”因果性的、多模态的通用世界模型”,目标是在长时间跨度上学习和模拟物理动态。
Google DeepMind——巨头中的巨头,其Genie 3模型专注于3D世界建模,最近开始整合Google Maps数据来增强真实世界的模拟能力。SIMA则是一个可以在3D环境中接受自然语言指令的智能体。
Nvidia——通过Cosmos平台提供物理AI和世界基础模型的硬件+软件生态系统,几乎是整个赛道的”军火商”。
Runway——从视频生成出发,逐步向世界模型领域拓展,最近发布了新的模型产品。
TechCrunch的原文提供了一个关键洞察:在这个拥挤的赛道中,General Intuition的差异化不在于构建世界模型本身,而在于用世界模型来训练智能体。换句话说,世界模型不是产品,智能体才是产品——世界模型是训练智能体的”梦境工厂”。
这个策略上的区分极其重要。World Labs和Decart的商业模式本质上是”卖世界模型”——它们的价值在于能够生成逼真的、可交互的3D环境,客户付费使用这些环境来做模拟、培训或内容创作。General Intuition则反过来:它利用自己独占的游戏数据训练世界模型,然后在这些世界模型”生成”的虚拟环境中训练AI智能体,最终销售的是这些能够在真实世界中执行复杂任务的智能体。
这就像是一个武术学校和一个搏击选手的区别。World Labs在建造最好的训练场,General Intuition在训练最好的选手——虽然它也自建训练场,但训练场不对外出售。
General Intuition面临的核心竞争风险在于:如果Google DeepMind或其他大厂能够凭借更大的计算资源和更多样化的数据源(比如Google Maps的街景数据、YouTube的海量视频、以及可能的机器人实操数据)训练出同样甚至更优秀的时空推理模型,那么General Intuition的数据优势可能被侵蚀。但反过来说,游戏视频数据的独特属性——高密度的行动决策、一致的第一人称视角、天然的行为标注——是YouTube视频和街景图像无法复制的。这是一场”数据质量”对”数据规模”的较量,目前尚无定论。
Bezos的”物理世界AI”论文和Schmidt的赌注:为什么这两个人在此刻入场?
Jeff Bezos参与这轮融资,绝不是一个孤立事件。
2026年,Bezos的投资重心已经发生了根本性的转移。他不再只是”投资AI”,而是明确押注”物理世界AI”——即能够理解并操纵原子世界(而非仅仅是比特世界)的AI系统。
就在General Intuition融资消息曝光的一周前,Bezos联合创办并担任联席CEO的Prometheus刚刚完成了120亿美元的B轮融资,估值410亿美元。Prometheus的目标是构建”人工通用工程师”(Artificial General Engineer),用AI来设计、测试和制造复杂的物理产品——从喷气发动机到医疗设备。Bezos还领投了Cambridge初创公司CuspAI的4亿美元融资轮,后者用生成式AI和分子模拟来发现新材料。
将这些投资连点成线,Bezos的战略逻辑变得清晰:他认为AI的下一个万亿美元市场不在聊天机器人或代码助手,而在于让AI理解并操纵物理世界。General Intuition——一个训练AI在3D环境中感知、预判和行动的公司——完美契合了这一论文。
Eric Schmidt的参与同样值得解读。Schmidt近年来通过Schmidt Futures和个人投资,在AI前沿研究、国防科技和自主系统领域进行了大量布局。他对General Intuition的兴趣,很可能与这家公司的技术在军事模拟、自主无人系统等领域的潜在应用有关——尽管General Intuition目前的公开叙事主要集中在游戏和民用机器人场景。
Khosla Ventures和General Catalyst的持续加注同样关键。这两家在种子轮领投1.34亿美元后选择在新一轮继续跟投,说明它们对General Intuition过去八个月的进展感到满意。在当前的融资环境下——尤其是在AI基础设施类公司估值普遍面临回调压力的背景下——从种子期的”隐含估值”跃升到明确的20亿美元估值,这个增长幅度表明公司在这段时间内展示了具有说服力的技术或商业进展。
The Raine Group在种子轮中的参与也颇有深意。Raine是一家专注于媒体、娱乐和科技领域交叉地带的精品投资银行和投资公司,它的存在暗示了General Intuition技术在游戏和娱乐产业中的潜在商业化路径。
悬崖边的信仰:商业化时间窗口、计算瓶颈与”直觉”能否被工程化的终极挑战
尽管General Intuition的故事充满了叙事魅力——荷兰少年创业者、拒绝5亿美元收购、NeurIPS聚光灯论文、Bezos个人下注——但冷静审视这家公司,几个根本性的风险不容回避。
第一,商业化路径的模糊性。 截至目前,General Intuition尚未发布商业产品。据知情人士透露,公司计划在2026年夏末或初秋发布新产品。但”用世界模型训练的AI智能体”究竟卖给谁、以什么形式交付、定价模型是什么,这些关键的商业化问题仍然不清楚。是卖给游戏开发商作为NPC引擎?卖给机器人公司作为感知模块?还是卖给工业企业作为模拟训练平台?每一个方向都意味着完全不同的go-to-market策略、销售周期和竞争格局。在烧掉超过4亿美元(种子轮1.34亿 + 新一轮约3亿)之后,投资人的耐心不会是无限的。
第二,从游戏到现实的迁移鸿沟。 General Intuition的核心假设是:在游戏环境中学到的空间-时间推理能力可以迁移到真实的物理世界。这是一个合理但远未被验证的假设。游戏世界——即使是最复杂的开放世界游戏——在物理模拟的精度上与真实世界仍有巨大差距。游戏中的物理引擎是简化的、理想化的;现实世界中的摩擦力、弹性形变、流体动力学、光照条件的复杂度远超任何游戏引擎能够模拟的范围。一个能在《使命召唤》中导航战场的AI,不一定能在一个真实的仓库里避开一个突然滚出的油桶。这个”sim-to-real gap”(模拟到现实的鸿沟)是整个具身AI领域最核心、最困难的挑战之一,General Intuition也无法绕过。
第三,计算成本的悬崖。 训练世界模型——尤其是基于扩散模型的高保真世界模型——对计算资源的需求是惊人的。每年处理20亿条视频的数据管线、训练需要渲染大量”梦境”的DIAMOND式架构、以及在这些梦境中运行数十亿步强化学习——这一切都需要巨量的GPU集群。据知情人士透露,这轮3亿美元融资的主要用途之一就是扩充计算能力。在当前GPU供应仍然紧张、算力成本居高不下的环境里,General Intuition的”烧钱速率”将是投资人密切关注的核心指标。
第四,”直觉”能否被工程化的哲学问题。 公司的名字本身——”通用直觉”——提出了一个深刻的认知科学问题:人类的空间直觉(比如一个篮球运动员不假思索地闪避防守球员的能力)是否可以通过在大量视频上训练神经网络来复现?还是说这种能力本质上依赖于embodied(具身的)经验——即必须通过真实的身体与真实的世界互动才能获得?这不是一个纯技术问题,而是一个关于智能本质的根本性问题。General Intuition的整个技术路线赌的是前者为真。如果后者才是正确答案,那么再多的游戏视频也无法弥补这个缺口。
终局判断:”通用直觉”不是一个产品,是一场关于智能本质的实验
八个月内从种子轮到20亿美元估值——这个速度在当前的AI融资市场中即使不是独一无二,也极为罕见。但估值飙升的速度本身不应成为评判一家公司前景的标准。真正重要的问题是:General Intuition正在进行的这场实验,其成功的概率和成功后的价值分别有多大?
从概率角度看,这场实验面临的挑战是巨大的。从游戏到物理世界的迁移鸿沟、商业化路径的不确定性、与Google DeepMind等拥有无限资源的巨头的竞争——每一项都是可能导致失败的因素。
但从价值角度看,如果General Intuition的核心假设是正确的——如果游戏视频数据确实是训练物理世界AI”直觉”的最佳(甚至唯一可规模化的)燃料——那么这家公司掌控的资产价值将远超当前20亿美元的估值。因为它意味着,在所有人都在追逐下一个万亿token文本语料的时候,真正稀缺的资源是20亿条带有行为标注的第一人称视角交互视频。
De Witte在14岁时通过运营RuneScape私服展示了一种对数字经济的本能理解。十多年后,他做出了一个更大胆的赌注:他相信让AI在《堡垒之夜》和《CS2》的数十亿场战斗中观摩人类玩家的一举一动,最终能够教会机器一种比语言更深层的智能——一种不需要思考就知道该怎么做的”直觉”。
这个赌注的结果,将在未来12到18个月内变得更加清晰——当General Intuition发布其首款商业产品、当它的智能体第一次在游戏之外的真实世界场景中接受检验的时候。在那之前,这家公司是AI领域最引人注目的高风险、高回报实验之一。它的成功或失败,将为一个根本性的问题提供部分答案:智能究竟是语言的产物,还是世界的产物?