模型远不如系统重要:大多数人都错过的最重要 AI 理念
本文信息来源:investinginai
祝周日愉快,欢迎来到《投资 AI》。如果你还没有看过我们新推出的《纽约 AI》播客, 请在 Spotify 上收听或在此观看视频版本。我们的最新嘉宾是来自 RealityDefender 的 Ben Colman,这是一家深度伪造检测公司。
在工作任务基准测试中,一个由小型模型组成的系统能够比 GPT-5 高出 15 个百分点。这是一个重大发现,今天我想解释一下我们在 NeuroMetric 所做的一些研究,来展示这一反直觉的结果。
这一切始于 Stephen Wolfram。我见过 Stephen 几次,他同意在我于 2024 年夏末组织的一次会议上发言。炉边谈话的主持人遇到了问题,不得不在最后一刻取消,所以我亲自采访了 Stephen。我的最后一个问题是关于 AI 模型的未来,Stephen 提出了一个我之前真的没怎么听过的观点。他说了大意是” 这些模型很大,包含了大量知识,但对于你正在做的大多数任务,你真的不需要那么多知识。所以未来是更小、更专业化的模型 。”
上周,我们在 NeuroMetric 推出了一个排行榜 ,突出展示了这个反直觉的理念——小型模型组成的系统表现优于前沿模型。我们的发布被 The Deep View 报道 (我强烈推荐的一份通讯),正是因为这个原因——这个结果很新颖。
我们在 CRM-Arena 上进行了研究,这是最能反映真实世界工作任务的公开数据集之一。让我们比较一下模型加思维算法的系统与前沿模型在这项任务上的表现。 这篇研究论文显示 GPT-5 的表现为 58%。相比之下,我们的研究表明,采用”N 选最佳”方法的 GPT-OSS-120b 可以达到 63.8%,而使用 5 个不同模型并针对每项任务选择合适模型的系统成功率为 72.7%。而且成本也低得多(我们很快会发布自己的成本分析。)
Wolfram 是对的。但结果比预期的还要好。小型模型运行更快,占用更少内存,因此,模型系统往往能让你获得性能三重优势: 比使用单一前沿模型更快、更便宜、更准确。
这应该是显而易见的,因为前沿实验室正在转向使用路由前端,从几个最适合该工作的模型中进行选择。但是,他们最可能不会做的是从数千个特定任务模型中进行选择,其中包括一些针对特定企业需求的独特模型。
这种向模型系统转变的趋势对企业具有深远的影响。
- 这意味着他们可以通过结合使用基于自有数据训练的模型和各类公开模型,来保护其核心知识产权和工作流程。并非所有任务都需要依赖前沿模型实验室。
- 这意味着他们拥有众多调节手段来优化成本、延迟、准确性,甚至模型性能的一致性。
- 这意味着智能部分转移到了系统层,而不仅仅是模型层。如何调用和探测这些模型(最佳 N 选择 vs 束搜索 vs 思维链等)至关重要。我预计最终我们会看到系统层的嵌入反馈给模型,通过提供更多系统上下文使模型表现更佳。
这并不意味着人们会停止使用前沿模型。只是意味着随着 AI 的持续成熟,他们会使用更多不同类型的模型。当我与风投交流时,他们似乎仍然执着于”OpenAI 将包揽一切,我们都会使用一个巨型模型”的论调。这是一个极其缺乏认知的 AI 论断。它几乎违背了我作为技术专家和商业人士的所有经验。但他们提供的证据是”大多数公司都只基于一个模型构建产品。”是的,这就像说大多数初创公司只使用一台没有负载均衡的服务器——这不是关于 AI 架构的论断,而是对早期阶段的描述。这是 AI 成熟度的问题。我所知的 100%在市场上推出 AI 产品并在产品中使用真正智能达到一定时间的公司,都已超越了单一模型的使用。而且我知道至少有一家上市公司在我们想到这个点子之前,就已经内部构建了 NeuroMetric 来管理各种任务的模型系统。
规模更小、效率更高的模型系统有助于缓解电力和数据中心危机。它们让 AI 响应更快。它们有助于保护企业知识产权。这些必须实现,生态系统才能向前发展。如果你是投资者,下一个机会就是思考未来 5 年模型系统会是什么样子。创新就在那里,资金也将从那里来。
当然,如果你有兴趣自己探索了解这个话题,可以查看我们的排行榜 ,或者联系我聊聊——这个话题在过去一年里一直是我痴迷的对象,所以如果你需要帮助在公司里思考这个问题,我很乐意交流。
感谢阅读。