Sakana AI 的 TreeQuest：部署多模型团队，性能超越单一 LLMs 达 30%

Image credit: VentureBeat with ChatGPT

日本 AI 实验室 Sakana AI 推出了一项新技术，允许多个大型语言模型(LLMs)协同完成单一任务，有效组建 AI 智能体的”梦之队”。这项名为 Multi-LLM AB-MCTS 的方法，使模型能够通过试错过程结合各自独特优势，解决对任何单一模型都过于复杂的难题。

对企业而言，这种方法为开发更强大、更高效的 AI 系统提供了可能。企业不必局限于单一供应商或模型，而是可以动态利用不同前沿模型的最佳特性，为任务的每个环节匹配合适的 AI，从而获得更优异的结果。

集体智慧的力量

前沿 AI 模型正在快速发展。然而，由于训练数据和架构的独特性，每个模型都有其特定的优势与短板——有的擅长编程，有的精于创意写作。Sakana AI 的研究人员认为，这些差异不是缺陷，而是特性。

研究人员在博客文章中表示：”我们视这些偏差和多样化的能力倾向并非局限，而是构建集体智慧的珍贵资源。”他们认为，正如人类最伟大的成就来自多元化团队，AI 系统也能通过协作实现更大突破。”通过汇聚智能，AI 系统能解决任何单一模型都无法攻克的难题。”

延长推理时的思考时间

Sakana AI 的新算法属于”推理时扩展”技术（也称测试时扩展），这个研究方向在过去一年备受关注。当 AI 领域多数研究聚焦于”训练时扩展”（扩大模型规模并用更庞大数据集训练）时，推理时扩展通过在模型训练完成后分配更多计算资源来提升性能。

一种常见的方法是使用强化学习来促使模型生成更长、更详细的思维链（CoT）序列，这在 OpenAI o3 和 DeepSeek-R1 等流行模型中已有体现。另一种更简单的方法是重复采样，即多次输入相同提示让模型生成多种潜在解决方案，类似于头脑风暴会议。Sakana AI 的工作融合并推进了这些理念。

“我们的框架提供了一种更智能、更具策略性的’最佳 N 选一’（即重复采样）方案，”Sakana AI 研究科学家、论文合著者 Takuya Akiba 告诉 VentureBeat，”它通过强化学习对长思维链等推理技术形成补充。通过动态选择搜索策略和合适的 LLM，这种方法在有限次数的 LLM 调用范围内实现性能最大化，在复杂任务上获得更优结果。”

自适应分支搜索的工作原理

这种新方法的核心是一种名为自适应分支蒙特卡洛树搜索（AB-MCTS）的算法。它使 LLM 能够通过智能平衡两种不同的搜索策略来有效进行试错：”深度搜索”和”广度搜索”。深度搜索是指选取一个有潜力的答案并反复优化它，而广度搜索则意味着从头开始生成全新的解决方案。AB-MCTS 将这两种方法结合起来，使系统既能改进一个好想法，又能在遇到死胡同或发现其他有希望的方向时灵活转向尝试新方案。

为实现这一目标，该系统采用了蒙特卡洛树搜索（MCTS）——一种因 DeepMind 的 AlphaGo 而闻名的决策算法。在每一步中，AB-MCTS 都会使用概率模型来判断是优化现有方案还是生成新方案更具策略优势。

Sakana AI 的 TreeQuest：部署多模型团队，性能超越单一 LLMs 达 30% — *不同测试阶段扩展策略来源：Sakana AI*

研究人员进一步开发了 Multi-LLM AB-MCTS 系统，该系统不仅能决定”做什么”（优化还是生成），还能确定”由哪个”LLM 来执行。在任务开始时，系统并不清楚哪个模型最适合当前问题。它会先尝试均衡调用所有可用 LLMs，随着任务推进，系统会学习哪些模型效率更高，并逐渐将更多工作分配给这些优质模型。

测试 AI”梦之队”的实战表现

研究团队在 ARC-AGI-2 基准测试中对 Multi-LLM AB-MCTS 系统进行了验证。ARC（抽象与推理语料库）专为测试类人解决新型视觉推理问题的能力而设计，这对 AI 来说堪称 notoriously difficult（ notoriously difficult 保留原文）。

团队采用了前沿模型的组合，包括 o4-mini、Gemini 2.5 Pro 和 DeepSeek-R1。

这个模型集合在 120 个测试问题中找到了超过 30%的正确解决方案，这一成绩显著优于任何单一模型的表现。该系统展现出为特定问题动态分配最佳模型的能力。对于存在明确解决路径的任务，算法能快速识别最有效的 LLM 并更频繁地使用它。

AB-MCTS vs individual models (source: Sakana AI) — *AB-MCTS 对比单模型表现来源：Sakana AI*

更令人惊叹的是，研究团队发现该系统能解决任何单一模型都无法攻克的难题。其中一个案例中，o4-mini 模型生成的解决方案存在错误，但系统将这个有缺陷的尝试传递给 DeepSeek-R1 和 Gemini-2.5 Pro 后，这两个模型成功分析了错误并进行修正，最终输出了正确答案。

研究人员写道：”这表明 Multi-LLM AB-MCTS 能够灵活组合前沿模型来解决以往无法攻克的难题，通过将 LLMs 作为集体智能来使用，突破了单 LLM 所能达到的极限。”

AB-MTCS can select different models at different stages of solving a problem (source: Sakana AI) — *AB-MTCS 能在解决问题的不同阶段选择不同模型来源：Sakana AI*

“除了每个模型各自的优缺点外，它们的幻觉倾向也可能存在显著差异，”秋叶说道。“通过整合一个不易产生幻觉的模型，我们或许能实现两全其美：既保留强大的逻辑能力，又具备扎实的根基。由于幻觉问题是商业应用中的主要痛点，这种组合方案对缓解该问题具有重要价值。”

从研究到实际应用

为帮助开发者和企业应用这一技术，Sakana AI 已将底层算法作为开源框架 TreeQuest 发布，采用 Apache 2.0 许可证（可商用）。TreeQuest 提供灵活 API，允许用户通过自定义评分和逻辑，为自身任务实现多 LLM AB-MCTS 方案。

“虽然我们目前将 AB-MCTS 应用于具体商业问题的研究尚处早期阶段，但实验数据表明该方法在多个领域具有显著潜力，”秋叶表示。

除了 ARC-AGI-2 基准测试外，该团队还成功将 AB-MCTS 应用于复杂算法编码和提高机器学习模型准确性等任务。

“AB-MCTS 对于需要反复试错的问题也非常有效，比如优化现有软件的性能指标，”秋叶表示。”例如，它可以用来自动寻找提高网络服务响应延迟的方法。”

一款实用开源工具的发布，可能为更强大、更可靠的企业级人工智能应用开辟新道路。

#大模型内核 #企业级应用 #深度学习

Sakana AI 的 TreeQuest：部署多模型团队，性能超越单一 LLMs 达 30%

集体智慧的力量

延长推理时的思考时间

自适应分支搜索的工作原理

测试 AI”梦之队”的实战表现

从研究到实际应用

推荐阅读

大重组：人类指南

共识来得太早

世界正在变重

炮灰：AI 时代的种子前投资

消费乘数 vs. 效率乘数

你只需要终值

Sakana AI 的 TreeQuest：部署多模型团队，性能超越单一 LLMs 达 30%

集体智慧的力量

延长推理时的思考时间

自适应分支搜索的工作原理

测试 AI”梦之队”的实战表现

从研究到实际应用

推荐阅读

大重组：人类指南

共识来得太早

世界正在变重

炮灰：AI 时代的种子前投资

消费乘数 vs. 效率乘数

你只需要终值

了解 RecodeX 的更多信息