前谷歌顶尖研究员研发出新型 AI 智能体

使命是什么?教会模型更深入地理解如何构建代码,将催生出超级智能 AI。
一种新型人工智能代理,通过大量消化公司数据来理解软件构建过程,并学习这些数据如何转化为最终产品,它既能成为更强大的软件助手,也是迈向更智能 AI 的一小步。
这款名为"阿西莫夫"的新型智能体由 Reflection 公司开发,这家雄心勃勃的初创企业由谷歌顶尖 AI 研究人员联合创立。阿西莫夫不仅能阅读代码,还能解析电子邮件、Slack 消息、项目更新及其他文档,旨在理解所有这些元素如何协同作用以产出完整的软件产品。
Reflection 的终极目标是打造超级智能 AI——其他顶尖 AI 实验室也宣称正朝此方向努力。Meta 最近成立了新的超级智能实验室, 向有意加入该新项目的研究人员提供巨额资金 。
我探访了 Reflection 位于纽约布鲁克林威廉斯堡区的总部,马路对面就是一家外观豪华的匹克球俱乐部,目的是了解这家公司如何在竞争中率先实现超级智能的蓝图。
公司首席执行官米莎·拉斯金表示,构建超级智能 AI 代理的理想方式是让它们真正掌握编程,因为这是它们与世界互动最简单、最自然的方式。当其他公司正在开发通过人类用户界面浏览网页的代理时,这位曾参与谷歌 DeepMind 双子座项目和代理开发的专家指出,这对大型语言模型而言几乎谈不上自然。拉斯金补充说,教会 AI 理解软件开发也将催生实用得多的编程助手。
拉斯金表示,阿西莫夫的定位是花更多时间阅读代码而非编写代码。"所有人都在聚焦代码生成,"他告诉我,"但如何让代理在团队协作中发挥作用仍是个未解难题。我们正处于这种半自主阶段——代理才刚刚开始投入工作。"
阿西莫夫本质上是由风衣之下数个小型代理组成的协同系统。这些代理通过分工协作来理解代码并回答用户疑问:小型代理负责检索信息,而一个大型推理代理则将这些信息整合成连贯的解答。
Reflection 公司声称,根据某些指标衡量,Asimov 已被认为优于部分领先的 AI 工具。该公司开展的调查显示,从事大型开源项目的开发者提出的问题中,82%的情况下更倾向于选择 Asimov 给出的答案,而 Anthropic 旗下 Claude Code 运行 Sonnet 4 模型的得票率为 63%。
麻省理工学院计算机科学家丹尼尔·杰克逊表示,鉴于 Reflection 信息收集范围更广,其方法似乎前景可期。但他补充说,这种方法的优势仍有待观察,仅凭公司调查不足以让他信服其广泛益处。他指出该方法还可能增加计算成本,并可能引发新的安全问题。"它会读取所有这些私人信息,"他说。
Asimov 部署在客户的虚拟私有云内部,因此所有数据都由客户保留。
在纽约,我见到了这家初创公司的首席技术官约安尼斯·安东诺格鲁。他在训练 AI 模型进行推理和游戏方面的专业知识,正被应用于让模型构建代码和执行其他有用任务。
作为谷歌 DeepMind 的创始工程师之一,安东格鲁在强化学习技术领域做出了开创性研究。这项技术最著名的应用成果是开发出 AlphaGo——该程序通过强化学习掌握了古老围棋游戏,并达到了超越人类水平的棋力。
强化学习通过来训练 AI 模型,近年来备受瞩目,因为它能指导大型语言模型生成更优质的输出。结合人工训练后,强化学习可让 LLM 对查询做出更连贯、更令人满意的回答。经过额外训练,强化学习还能帮助模型掌握某种模拟推理能力——将复杂问题分解为多个步骤,从而更高效地解决。Asimov 目前使用开源模型,但 Reflection 正通过强化学习对定制模型进行后期训练,据称其表现更为优异。
该模型并非学习如何在围棋等游戏中取胜,而是掌握构建完整软件的方法。通过整合企业内更多数据,能为 AI 智能体提供更丰富的信息,最终使其独立产出优质代码。"反思"系统既采用人工标注数据,也自主生成合成数据,但不会使用客户数据作为训练素材。
大型 AI 企业已普遍采用强化学习来优化智能体。例如 OpenAI 开发的深度研究工具 ,就以专家人类的反馈作为强化学习信号,指导智能体在生成详细报告前系统检索网络信息。
"我们实际上构建了类似深度研究的系统,但针对的是工程体系,"安东诺格鲁指出,超越代码范畴的训练能带来优势,"我们发现大型工程团队中,大量知识实际存储在代码库之外。"
红杉资本合伙人斯蒂芬妮·詹评价这家获得投资的新创企业"与前沿实验室实力相当"。红杉资本目前正为 Reflection 项目提供支持。
随着人工智能行业正朝着超级智能的目标迈进,Meta 等资金雄厚的公司投入巨资进行人才招聘和基础设施建设,像 Reflection 这样的初创企业可能会发现竞争变得更加困难。
我询问 Reflection 的领导者们,通往更先进技术的道路究竟会是怎样的。他们认为,一个日益智能的代理最终将成为企业制度和组织知识的"先知"。它应该学会自主构建和修复软件,最终还能自主发明新算法、硬件和产品。
而最迫切的下一步可能没那么宏大。"实际上我们一直在与客户沟通,他们开始询问:我们的技术销售人员或技术支持团队能否使用这个?"拉斯金说道。