Cogito v2 预览 从推理时搜索到自我改进
本文信息来源:deepcogito
要点
- 我们在开放许可下发布了 4 个混合推理模型。
- 2 个中型模型 - 70B 稠密模型,109B MoE 模型
- 2 个大型模型 - 405B 稠密模型,671B MoE 模型
- 最大的 671B MoE 模型是全球最强的开源模型之一 。它在性能上与最新的 DeepSeek v3 和 DeepSeek R1 模型相当或更优,并接近 o3 和 Claude 4 Opus 等封闭前沿模型。
- 我们通过扩展迭代蒸馏与增强(Iterated Distillation and Amplification,IDA) 的方法,并扩大模型的智能先验 ,来推进我们在构建超级智能方面的工作。具体做法是让模型通过迭代策略改进来内化推理过程,而不是仅仅在推理阶段延长搜索时间。
- 这是一种全新的扩展范式,使模型能够发展出更多的“直觉”,并且为自我改进 (AI 系统自我提升)提供了有力的概念验证。
- 由于 Cogito 模型在搜索过程中对应采取的轨迹有了更好的直觉,其推理链比 Deepseek R1 短 60%。
- 与普遍认为此类技术创新需要资本密集型基础设施的观点相反,这种方法的效率也显著更高(Cogito 模型的总训练成本低于 350 万美元)。
- 接下来,我们计划在迭代自我改进的成果上不断攀升,以构建超级智能。我们创建的所有模型都将开源。
你可以在 Huggingface 上下载这些模型,或通过 Together AI、Baseten 或 RunPod 的 API 直接使用它们,或者使用 Unsloth 在本地运行。
我们的方式
构建超级智能从根本上来说是一个可解的机器学习问题。
我们构建超级智能的方法如下:
- 步骤 1 - 开发可扩展的训练方案,以实现无限制的迭代智能提升
- 步骤 2 - 使用更多算力来扩大我们的努力,并通过迭代提升智能水平,超越人类表现
在开发这些系统的同时,我们还需要确保流程中的每一步都能适用于比人类更聪明的智能(例如,我们需要能够可靠监督比人类聪明得多的 AI 系统的技术)。
今年早些时候,我们发布了 Cogito v1 模型,并讨论了将迭代蒸馏与增强(Iterated Distillation & Amplification,IDA) 作为通用超级智能的一个有前景的研究方向。我们的主要关注点是提供一种不受监督者智能上限限制的训练信号。
今天发布的 Cogito v2 将我们在 IDA 上的研究扩展到更大型的系统,并更加强调剩余部分——通过蒸馏实现自我提升。
构建超级智能的配方
在多个狭窄领域(国际象棋、围棋和扑克)中,已经通过相同的两步循环实现了超人类表现:
- 推理时推理——通过消耗计算资源来搜索解决方案
- 迭代策略改进——将搜索中的发现提炼回模型的参数中。这样,下一次搜索就能从更接近目标的位置开始
AlphaGo 是这一模式的典型例子:蒙特卡洛树搜索(MCTS)从每局游戏中生成改进的策略,然后基于这些访问次数重新训练策略与价值网络。
LLMs 可以被视为类似的系统,其中推理时推理的过程相比于游戏系统来说结构化程度较低,而是在给出答案前进行思考过程。然而,要完成这一循环并推动智能的迭代提升,我们还需要第二个重要步骤:迭代策略改进。
也就是说,我们需要将推理过程提炼回模型参数中,使模型拥有更强的先验。这意味着我们应该能够以一种方式使用推理时间的推理,使模型在本质上变得更“有能力”或“更智能”。模型应当能够直接猜测运行推理的结果(而不必真正执行推理),并预判自身推理过程的结果。
尽管近期的 LLMs 在推理方面取得了进展,但大多数改进是通过延长推理长度来实现的,而不是提升模型的智能先验。结果是,LLM 性能的提升主要依赖于在更大的思考预算下“搜索更多”以找到解决方案,而不是提升模型在判断哪条搜索路径更合适时的核心“直觉”。同样,LLMs 在“非思考”模式下的改进,也主要依赖于引入诸如回溯等启发式方法,其作用方式与此类似。
提升模型智能本质上是一个更难解决的问题,尤其是对于像 LLM 推理中使用的那种非结构化推理路径。为此,我们需要在迭代策略改进方面取得技术突破。Cogito v2 是我们在这一方向上的下一步。
我们相信,在迭代策略改进上进行爬山优化,将为显著提升模型能力铺平道路,这种提升将超越仅通过增加搜索(通过推理 token)所能实现的效果。
Cogito v2 发布
今天,我们在预览版中发布了四个 Cogito v2 模型。
- 2 个中型模型:70B 稠密模型,109B MoE 模型
- 2 个大型模型:405B 稠密模型,671B MoE 模型
每个模型都可以直接回答(标准 LLM),或在回答前进行自我反思(类似推理模型)。
我们的主要目标是将推理步骤提炼回模型的参数中,从而能够将推理时的搜索转化为直觉。
前三个模型(70B、109B MoE、405B)的训练主要是为了在推理的基础上提升非推理模式的直觉。技术上,这意味着尝试将推理能力提炼回模型的原始参数中。1
因此,这些模型相较于各自的 Llama 对应版本有了显著的升级。模型在解码回答时对正确路径的“直觉”更好,能够在不依赖回溯等启发式方法的情况下提供强劲的性能。所有模型在各自的规模上都更接近前沿智能,其中最大的 405B 稠密模型已接近最佳的前沿智能模型。
最大的模型(671B MoE)采用了不同的训练方法——目标是在非推理模式和推理模式下同时提升先验策略(即“直觉”)。与大多数仅基于最终输出提供信号来训练推理模型的技术(例如基于可验证奖励的强化学习)不同,我们在蒸馏过程中还为思考过程本身提供信号。因此,我们减少了模型为了得到答案而“兜圈子”的倾向,而是培养其对推理过程正确搜索路径的更强直觉。
671B MoE 预览模型通过提升直觉而非依赖更多搜索,在性能上与最新的 DeepSeek 推理和非推理模型持平——
- 在推理模式下,671B MoE 的表现优于 DeepSeek R1,并与最新的 DeepSeek R1 0528 相当。
- 它通过使用比 DeepSeek R1 0528 短 60% 的推理链实现了这一点。
- 在非推理模式下,它的表现优于 DeepSeek v3,并与最新的 DeepSeek v3 0324 相当。
在我们的测试中,Cogito 671B MoE 是全球最强的模型之一。它的表现大致与 DeepSeek 和 Qwen 最新的开源模型持平,但略逊于 o3 和 Claude 4 Opus 等闭源模型(不过差距不大)。
请注意,目前这些模型的训练主要是为了构建可扩展的训练方案,作为超级智能的有力概念验证。它们尚未使用通常在模型后训练阶段所需的充足计算资源进行规模化训练。
(例如,我们在训练全部 8 个 Cogito 模型(从 3B 到 671B)上花费了不到 350 万美元。这包括所有成本,从合成和人工数据生成到运行超过一千次的训练实验。)
我们计划接下来扩大我们的配方规模,并发布这些模型的显著增强版本。与之前一样,所有模型都将开源。
评估详情
我们正在一些标准基准测试上增加评估。
(注意——虽然这些基准测试提供了有用的参考信号,但它们有时与我们的内部评估结果有所不同。)
例如,在我们的内部评估中,Cogito 模型在大多数开源模型中始终表现出色。我们有信心我们的模型能够经受住此类真实世界的评估,并在实际应用中取得优异的结果。
其次,最新的闭源模型(如 o3 和 Claude 4 Opus)比这里的基准测试单独所反映的更强大。
70B Dense
Cogito 70B 的性能
109B MoE
Cogito 109B MoE 的性能
用图像进行思考
我们训练流程的一个有趣结果是,尽管模型是在文本输入和输出上进行训练的,但由于基础模型是多模态的,模型通过纯迁移学习学会了在视觉领域进行推理。
下面是一个示例,模型被提供了两张图像,并且我们开启了 enable_thinking -
模型输入

比较这两张图片。它们有哪些相似点和不同点?
思考中
<think>
好的,我需要比较这两张图片。让我先仔细看看它们。
第一张图片是一只绿头鸭在水中游泳。鸭子有绿色的头、黄色的喙,以及棕白相间的身体。周围的水是蓝色的,带有一些涟漪。鸭子的倒影映在水中,为画面增添了美妙的对称感。
第二张图片是一只雄狮坐在高高的干草中。狮子有一圈蓬松的大鬃毛,颜色是棕色和黑色的混合,它正直视着镜头。背景是一片延伸开来的金色草地。
现在,来思考它们的相似之处。两张图片都是动物在其自然栖息地的场景。鸭子在水中,这是它的自然环境;狮子在稀树草原或草地上。两只动物都是雄性,从它们的特征可以看出——鸭子的绿色头部和狮子的鬃毛。两张图片都将动物作为主要焦点,背景则略微虚化,或作为衬托环境而非主要主体。
至于差异,这两个环境完全不同。一个是水生环境,另一个是陆地环境。鸭子体型较小,而狮子则大得多。鸭子的颜色更加鲜艳多样(绿色、黄色、棕色、白色),而狮子的颜色则更偏向大地色调(棕色、黑色、金色)。鸭子在游动中,而狮子静止地坐着。狮子的表情更为强烈而高贵,而鸭子看起来平静而安详。此外,鸭子的倒影为画面增添了狮子图像中没有的独特元素。
我还应该考虑每张图片的氛围。鸭子的图片给人一种平和宁静的感觉,平静的水面和鸭子放松的姿态相得益彰。狮子的图片则传达出力量与威严,雄壮的鬃毛和直接的目光令人印象深刻。两张图片的光线也不同——狮子沐浴在明亮的阳光下,而鸭子可能是在较柔和的光线中。
另一个要点是构图。鸭子位于画面中央,其倒影形成了对称。狮子同样位于中央,但处在更开阔的空间中,周围环绕着草地。质感也不同——水面的涟漪与高高的草丛形成对比。
我想这涵盖了主要的要点。让我确认一下是否遗漏了什么。也许是图片的用途?鸭子的照片可能用于自然纪录片或野生动物摄影展,而狮子的照片可能有类似的用途,但更强调大型猫科动物的威严。两者都是野生动物摄影的例子,突出了拍摄对象的美感和特征。
</think>
回复
让我来比较这两张野生动物照片:
相似之处:
- 两者都拍摄了处于自然栖息地的雄性动物
- 两者都是高质量的野生动物摄影作品,动物是画面的主要焦点
- 两者均在自然光照条件下拍摄
- 两只动物都呈现出平静、安详的状态
- 两张图片都利用背景来衬托主体而不喧宾夺主
不同之处:
- 环境:鸭子处于有蓝色水面和涟漪的水生环境中,而狮子则处于有高大金色草丛的陆地环境中
- 大小与比例:鸭子体型小巧紧凑,而狮子体型庞大而威严
- 色彩搭配:鸭子色彩鲜艳(绿色头部、黄色喙、棕白相间的身体),而狮子则呈现大地色调(棕色、黑色和金色)
- 动作:鸭子在运动中被捕捉(游泳),而狮子是静止的
- 构图:鸭子的画面包含水中的倒影,形成对称效果,而狮子则置于开阔的草原背景之中
- 情绪:鸭子的形象给人一种平和宁静的感觉,而狮子的形象则传达出力量与威严
- 质感:水面的涟漪与环绕在狮子周围的高大、干燥的草形成对比
每张图片都有效地捕捉到了主体独特的特征与美感,展现了野生动物摄影的多样性。
尽管我们并未针对图像进行过明确的训练(事实上,我们的训练流程中没有任何图像示例),但这些能力是原生具备的,并不依赖任何多模态数据。这类涌现特性在研究角度上非常有趣。
我们预计这将是一个很好的方法,用于快速生成训练数据,以教会模型对图像进行推理,或作为一种技术手段,为基于图像推理的强化学习提供起点。
(请注意,我们尚未在视觉基准测试中评估此功能。)
405B 稠密
Cogito 405B 的性能
671B MoE
Cogito 671B MoE 在非推理任务中的表现
Cogito 671B MoE 在推理方面的性能
致谢
我们衷心感谢 Benchmark 的投资人,特别是带领我们完成种子轮融资的 Eric Vishria,以及 Aditya Agarwal 和 South Park Commons 对我们的持续支持,他们在早期就坚定地支持我们构建开源通用超级智能的愿景。
这项工作还得到了多个优秀团队和项目的支持,我们在此表示感谢:Llama 和 DeepSeek 团队、Hugging Face、Anthromind、RunPod、Together AI、Baseten、Ollama、Nebius、LM Studio 以及 Unsloth。