返回首页
2026.03.16 05:17 约 7 分钟 AI

自主性已来:现在,智能体也能做事了

作者:Parul Singh, Board Partner @ Initialized

机器人
机器人

几天前,我看着一个微小的 GitHub 仓库让我大脑中熟悉的一部分安静了下来。

Karpathy 的新项目 autoresearch 大约有 630 行 Python 代码。它在单个 GPU 上运行。你无需接触训练代码;你只需编写一个名为 program.md 的 Markdown 文件来描述研究目标。然后,一个 AI 智能体编辑 train.py,运行 5 分钟的实验,并只保留那些能够改善指标的更改。在你睡觉的时候,它会运行大约一百个实验,将一个小语言模型在单个显卡上向 GPT-2 更近一步。

从理论上讲,这听起来并不新奇。十多年来,我们已经拥有了 AutoML、超参数调整以及“让我们彻底进行网格搜索”等技术。但是,看着这个特殊的循环——人类编写研究计划,智能体编写和重写代码,GPU 在角落里嗡嗡作响——感觉却有所不同。

这感觉就像雇佣了你创业公司的第一位优秀员工。

你给他们一个目标、几个系统的钥匙和一些限制。他们稍后会带着一个更好的世界版本回来。他们做出你没有指定的决定,进行你不会排队的实验,并呈现出你几乎没有时间阅读的结果。

这就是自主性的感觉,当你第一次近距离看到它时。你将一个智能体指向一个问题,给予它访问权限和一个指标,然后它就开始做事了。一旦你体验到这一点,就很难想象回到一个除非有人推动否则一切都一动不动的世界。

在过去的几年里,创业文化重新发现了能动性的真理:你可以直接去做事。不需要许可单,不需要委员会,只需要一个人注意到某些东西坏了并修复它。我们把这句话当作赞美能动性的口头禅告诉创始人和早期员工。

autoresearch 令人感到疯狂的是,能动性不再是人类独有的特质。你友好的邻里自主智能体也可以自己做事。你给它们一个问题、一些钥匙和一个明确的指标,它们就会在你在做其他事情的时候,悄悄地进入技术栈,让现实变得稍微好一点。

autoresearch 是一个清晰的例证:“工作”不是“变得聪明”,而是“在这个沙箱内,利用这些数据,在不破坏任何东西的情况下,尽可能快地改善这个指标。”你编写研究目标,智能体编辑代码并运行实验。这与你与一位优秀的第一位员工的关系相同:你定义竞技场和标准,他们决定如何在其中行动。他们只是去做事。

在操作上,这提出了一种新的工作设计:

对于增长:“在这个实验文件夹和分析堆栈中,持续运行入职和定价测试,以最大化 LTV/CAC,并记录每一次更改。”

对于产品:“在这个功能标志系统中,持续进行 A/B 测试文案和流程,以最小化注册第二步的流失率。”

对于机器学习:“在这个训练脚本和数据集中,搜索架构和超参数以改善验证损失,并且只提交那些达到标准的更改。”

如果你能为一个精力充沛、多才多艺的人类描述这个角色,那么你离为自主循环描述它也就不远了。创始人的工作从“做这件事”转变为“指定工作并构建智能体可以安全地完成它的沙箱。”

第二个转变则更令人不安:优化不再是稀缺资源。

从历史上看,你需要一个数据科学团队、机器学习基础设施和真正的预算来完成这类工作。建立管道、训练循环、日志记录、仪表板——这就是全部。现在,一个工程师可以将一个小代码库指向一个 GPU,加上一个像 autoresearch 这样的智能体循环,就能获得过去需要一个团队才能达到的探索水平。

很快,一个半技术型的创始人将能够为更简单的问题做同样的事情。如果你能抓取它,你就能分析它。如果你能记录它,你就能优化它。计算、推理、生成——它们并非字面上免费,但它们已经便宜到可以被视为充裕的资源。

如果优化是充裕的,那么创始人的问题就从:

“我们能负担得起解决这个问题吗?”

变为

“如果我假设探索基本上是免费的,那么什么会成为可能?”

未来十年最有趣的公司将是那些在这种假设下重新审视其机会集的公司。十年前“太难”或“太贵”的问题突然变得触手可及。约束不再是“我们能尝试足够多的事情吗?”而是“我们是否选择了正确的问题来指向我们的循环?”

autoresearch 还有一个让人难以忽视的模式。

相当一部分机器学习人士会告诉你,这不是“真正的”机器学习。它不是一种新颖的架构,不是一种新的优化器,也不是一个巧妙的定理。它是一个循环:一个 Markdown 文件、一个训练脚本、一个指标和一个愿意尝试的智能体。

这种区别在学术上很有趣。但当世界在你脚下发生变化时,这恰恰是那种会让你慢下来的论点。

这个时代将奖励那些愿意变得 scrappy 和有点野蛮的团队。那些乐于连接丑陋、高吞吐量循环的文化,将比那些等待一个优雅的框架在他们周围凝结的文化发现得更多、更快。

你可以从不同生态系统对这类工具的反应中看到这一点。有些人立即 fork 仓库并将其指向自己的模型、交易策略或内部排名问题。其他人则在争论它是否符合某个分类法。

如果你是创始人,你不会因为分类法而获得报酬。你会因为首先到达某个地方并将其变为现实而获得报酬。市场不关心你的循环是否漂亮。它关心的是你的产品是否在其他人还在开会的时候变得更好。

如果你认真对待优化是充裕的、自主性是真实的想法,那么你还必须面对一个不那么舒服的含义:很多技术“护城河”的故事都变弱了。

如果每个人都可以下载一个不错的模型,租用一个 GPU,并在上面加上一个智能体循环,那么拥有“一个机器学习团队”就不再是一个很大的差异化因素。autoresearch 背后的模式——设计竞技场、冻结指标、让智能体迭代——将会传播开来。

优势会转移到哪里?

转移到那些无聊、困难、全栈的事情上:

拥有客户和他们的信任。

在混乱的现实世界背景下理解问题。

捕获和构建正确的数据废气。

设计足够清晰的系统——产品、技术、组织——以便智能体可以在其中行动。

网络效应仍然重要。分销仍然重要。品味仍然重要。那些能够持续复利的公司,将是那些能够将所有这些整合在一起,然后将自主性插入其中,而不是将智能体视为附属品。

启动一个智能体只是一个戏法。在你的公司里安全、连贯地、为真正的战略服务地协调许多智能体,这才是真正有趣的地方。

autoresearch 是一个单一的循环,但你已经可以看到下一步的雏形:多个具有不同角色的智能体,交接实验,互相批评对方的更改,在共享环境中运行。一个完整的代码形式的研究组织。它一开始会很笨拙且容易出错,就像每个早期的人类组织一样笨拙且容易出错。

学会设计这些“智能体组织”的创始人拥有不公平的优势。他们会:

为每个重要功能定义循环:增长实验、定价、入职、风险检查。

构建可观察性和安全护栏,以便智能体可以在不让公司掉下悬崖的情况下行动。

雇佣那些工作是为每个循环编写相当于 program.md 的人:清晰、明确地定义“更好”意味着什么,以及在此过程中允许什么。

在那个世界里,资本不会消失,但它会改变形态。你不会用它来购买那么多的人类迭代。你会用它来购买数据、分销和时间——这些让你的智能体实验室比隔壁的更有价值的要素。

当你可以启动一支永不眠倦的初级队友军队时,困难的部分不再是“我们能尝试足够多的事情吗?”,而变成了“我们是否将他们指向了正确的问题?”

这就是 autoresearch 留给我的问题。不是“这是真正的机器学习吗?”不是“这已经是通用人工智能了吗?”而是一个更实际的问题:

如果你在角落里有一个 GPU 和一个你信任的可以通宵工作的智能体,你会让它先做什么?

如果你的答案是“我不确定”,那现在真正的限制就是这个。

了解 RecodeX 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读