训练前、训练中、训练后的生活方式
本文信息来源:fakepixels
清晰与智力引擎几乎无关。

“因为在这里,没有任何地方 / 看不见你。你必须改变你的生活。”
—— 里尔克《阿波罗的古老躯干》
构建一个大型语言模型发生在三个主要阶段 。
预训练会处理从各处抓取、几乎不加甄别的数万亿个 token。模型学习根据前一个词预测下一个词,而这一看似简单的任务却需要巨大的计算量:数以万计的 GPU 持续运行数月,容忍从互联网沉积层中打捞出的杂乱、未经整理的数据。每一层数据都会成为另一层淤积,逐步构建起对汇集而来的人类经验的多维回声。人类文明累积的文本在没有任何编辑判断的情况下被前向输入。在这里,越多就越好。
后训练则正好相反:模型已经存在,问题从它知道什么转向它将成为什么。数据质量变得至关重要——人类反馈强化学习 直接偏好优化 , 宪法式 AI, 带有教师委员会的拒绝采样 。少数完美示例胜过一百万个平庸样本。质量意味着压缩、卓越与排除。算力占用缩减为预训练成本的一小部分,而策展负担则扩张来吸收这一切。总得有人来决定什么才算“好”。
中期训练位于这些阶段之间,尽管目前直接这样称呼它的从业者还不多。它是对质量的工业化,是发现你可以规模化地制造辨识力。模型被喂以精心构建的数据:由机器生成的文本,经过其他被训练来评判它的机器过滤;高质量来源被有意识地过度代表;答案被转化为问题,使模型学会提出它本就知道如何解决的问题。这既不是预训练那种不加甄别的饥渴,也不是后训练那种珍贵的手工策划。这里是品味被批量生产的流水线。基础已经奠定,但价值观仍未书写。在这个临界空间中,模型一次又一次地被展示什么是“更好”。
LLM 隐喻已经开始渗透到我的日常语言中。我会把某个人的智力形容为“每秒速通量很高”,在叙旧前请求一个“context window”,或者在遭受批评之后笑称自己在“更新权重”。和所有隐喻一样,这些说法会把人的野性压缩进整洁却有损的信息包中。然而,这三个训练阶段始终萦绕在我心中——它们是一副强有力的镜片,是一种粗略的分类法,不仅用于理解人们如何思考,也用于理解他们如何在世界中行动。
但 2025 年让这套三分法变得复杂起来。整个行业开始表现得仿佛出现了一个新的 Major 阶段,比我们早已习惯的那些单薄的 instruction-tuning 轮次更漫长、更饥渴。变化源于对一种特定 非对称性的发现:人们意识到,解决一个复杂问题固然困难,但识别正确答案却是 Trivial 的。一道数独谜题,一行代码,一份证明。这些任务的正面是艰难而不透明的,而背面却清晰透明。
我们告别了“品味”的时代——那种精致而昂贵、难以规模化的共识——进入了不可辩驳结果的时代。一旦奖励变得可验证且客观,那种温和而又耗费心力的人类判决便不再需要。如今,模型只是与冷漠的现实不断对撞;现实无法被说服、也不会被撼动,直到模型撞上真理为止。
我们曾将一切投入到“吞噬世界”之中——先进行规模庞大的摄取,再以人类偏好的方式进行装饰性的塑形。但重心已经转移。现在,模型被留下来,与那些拥有固定且冷漠清晰度的任务持续对磨。它发明了一架只属于自己的梯子,并且一路向上,从不间断。
预训练心态由一种狂乱而横向蔓延的饥渴所定义。它由两样东西驱动:数据规模和算力的蛮力。因此,他们什么都读、什么会都参加,并相信这一切不过是“一场数字游戏”。我们称他们为“机器”,这个词已不再像是贬损,反而更像一种世俗的封圣。他们的工作伦理无可否认,但他们的轨迹中却带着某种幽灵般的气息;他们以一种近乎凶猛的方式奔跑,仿佛对目的地并不感兴趣,而只沉迷于奔跑本身那种纯粹、无摩擦的感受。
他们的知识浩瀚而呈根茎状,是一张没有首都的蔓延地图。他们在任何话题上都能表现出令人叹服却缺乏根基的流利——一层闪耀的表面,没有可察觉的主根。如果你问他们这一切究竟为了什么,这个问题在他们看来本身就是一个类别错误。 为什么不这么做呢? 对他们而言,能力扩张所带来的兴奋本身就是正当性。他们是蜂巢的建筑师,乐于指挥大军奔向一个始终保持抽象的目标。
这里有一种集体主义的感觉,一种将难度代谢为能力的哲学,却从不暂停去追问这种能力究竟服务于什么。理解并非必要条件;协同才是唯一的圣礼。在这种体制中,归属感就是操作系统。当你成为集体的一部分时,目的无需被清晰表述;它可以被默认。
按照传统指标衡量,他们已经胜出。他们吞噬了整个地球。而重要的是要意识到,他们的胜利并非历史遗迹。批评者或修补匠并没有建成2025年那些庞大而嗡鸣的数据中心;它们是由前训练心智的坚韧意志催生出来的。唯有他们具备“越多越好”的物流能力,才能用硅铺满整个星球。
但 2025 年为他们的工作带来了一种新的、令人不寒而栗的讽刺。他们一生都在建造“scale”的大教堂,以为天花板的高度就是衡量自己灵魂的尺度。结果却发现,他们不过是为一位截然不同的来客建造了一个异常宽敞的房间。
推理并不在乎你摄入了多少内容;它只关心犹豫时产生的摩擦。这是模型的秘密对话,在任何一个词被说出口之前,就在暗影中反复测试并丢弃想法。对前训练心智而言,这是一场存在主义危机!他们已成为系统的氧气——至关重要、无处不在,却对所支撑的生命而言不可见。他们是路面的力量,仰望着驶过的车辆,对一个自己已不知如何掌控的世界感到困惑。
后训练型心智的人很稀少,而且他们自己也心知肚明。他们会把这种稀缺性培养成一种身份认同。这样的人会去读第一手资料,会花整整一个下午待在 Frick,会以克制却极具杀伤力的礼貌拒绝会议。这不仅仅是势利,而是一种恐惧:他们唯一真正拥有的东西——注意力——正在被世界的噪音稀释。他们在意那些在别人眼中像是麻烦的事物:某种特定纸张的纹理、一款字体所承载的历史包袱、以及两个词之间那微小而令人煎熬的间距,而机器会把它们视为完全相同。
某种不诚实盘踞在他们判断力的中心。他们很少承认,甚至对自己也不承认,他们所谓精致的品味,其实是训练自一套他们并未亲自摄入的语料库。他们继承了一块地基,却把它称作“远见”。他们站在屋顶上批评地下室的砌石工艺,却忘了自己连一块砖都没搬过。对他们而言,每一个选择都是一笔债务:必须创造出配得上他们所依赖的累积成果的东西,这种负担始终压在身上。
他们过早、过于鲜明地看清了卓越的形态,以至于“开始”这一行为本身就成了一种背叛。愿景与执行之间的差距并非一段可以跨越的距离,而是一道深渊,让迈出第一步都显得荒谬。无所作为渐渐被感受为一种道德行为——一种拒绝用他们一生所学、早已学会厌弃的拙劣之物继续污染世界的姿态。他们是这个世界上最具天赋的编辑者,这种说法委婉地意味着:他们也是最瘫痪的创造者。他们的桎梏并非知识的匮乏,而是意志的深层失能——无法原谅自己产出只是“还不错”的东西。
然而,在他们偶尔真正产出的时候,作品却展现出一种单凭原始努力无法模仿的密度。每一个选择都显得至关重要,是结构上的必要承重。在这里,稀疏并非资源匮乏,而是一种压缩的形式——就像诗歌并不是失败的小说,而是在一种被抽去了空气的现实中存在。
他们最深层的直觉,是对“被解决的”答案保持一种持久的蔑视。他们怀疑,任何能够被指标完全捕捉的真理,按定义就已经不再是真理;它已沦为测验的一个人工产物。他们看着他人为了覆盖基准而长出专业化的尖刺,那是在人工激励景观中进行的一种狂乱的生物适应。对后训练者而言,这不是智能,而是一种精巧的模仿。他们明白,我们越是为了可被读懂、可被量化的东西进行优化,就越会失去对真实的嗅觉。对他们来说,洞见是一门站在雨中,感受那种具体而不可重复的寒冷的艺术。这是一种对崎岖、未抵达之处以及顽固地不可度量之物的承诺。
他们栖身于世界尚未被数字化的残余之中,坚信灵魂不在信号里,而存在于机器被设计去忽视的、顽固而美丽的噪声之中。那是一个人仍可被找到的最后之地——颤抖着、不可复现、且完整无缺。
中期训练的心智在躁动、动态的经验主义中蓬勃生长。若说预训练的心智是一座图书馆,后训练的心智是一座美术馆,那么中期训练的心智就是一台飞行模拟器。他们不信任任何无法在当下被证明的知识。对他们而言,理论不过是另一种拖延的方式。他们的教育是一场无休止的高速试错循环——对预训练者而言令人精疲力竭,对后训练者而言则显得粗俗。

Gilbert Ryle 区分了“knowing that”(命题性知识)和“knowing how”(程序性技能)。中训练阶段的人完全活在后者之中。他们不在乎自行车能直立是因为物理原理;他们只想骑起来。为此他们会摔上十七次,即便在掌握了平衡之后,也永远不会去读那篇论文。学校很难应对他们,因为学校奖励的是预训练好的(记忆保留)和后训练好的(判决),却没有一种类别能够容纳那种物理不及格、却能在车库里做出一台能正常工作的收音机的学生。
中期训练的力量来自于规模化地制造判断力,通过合成数据循环,让机器生成各种尝试,再由其他机器对其进行筛选,在没有人类审美缓慢积累的情况下,从数量中涌现出质量。中期训练思维亦是如此运作:他们在生成的各种可能性中快速迭代,相信这一循环最终会浮现出可行的结果。他们学会了产出“有鉴别力”的外观,却从未真正发展出这种能力本身。
Mid-training 与 vibe coding 的兴起有着共同的血缘。它们都是同一次“代谢转变”的体现:从艰苦、前置的“知道”劳动,转向高频、反应式的“寻找”。你不是通过规划抵达正确性,而是通过梯度下降一路逼近。工作不再是一项建造工程,而变成了一连串尝试,每一次都比上一次稍微不那么破损。
他们从框转向画布。聊天界面要求一个完成的想法;而空间界面只是询问你想把这些元素放在哪里。正如 Karpathy 所提出的 ,这些“密集奖励环境”对现代认知工作流程至关重要,因为它们用地图的灵活逻辑取代了句子的刚性承诺。
对于处于 mid-training 心态的人来说,目标已不再是抵达某个目的地或产出一个正确的结果,而只是单纯地保持在“正在做”的状态中。他们用持续推进的无阻快感取代了对“为什么”的负担,把一切都押注在这样一种信念上:只要动能足够高,我们就能不断前行。

这些人物如同卡拉马佐夫兄弟一般鲜活起来——每一个都让我想起某位我无比熟悉的人:朋友、同事,或是家人。我们所有人都是这三者不稳定的混合体,其配比会随着人生的气候而变化:随着年龄增长,随着屈辱经历,以及随着成功那种突如其来、令人迷失方向的降临。
即便在写下这些文字的同时,我也意识到自己正在进行一项属于自己的可解释性任务——一次试图给自我分类的绝望尝试。我不禁怀疑,这个框架是否只是另一种精巧的优化手段,是一种让自己成为更“高效”的人生观察者的方式。我们常常对自己说,成为一名作家或投资者,意味着痴迷于不断寻找新的观看方式。但我逐渐怀疑,清晰度与智力引擎本身关系甚微。它更关乎你在不对自己撒谎的前提下,能够消化什么。那是一种罕见而安静的能力:将自身的冲动保持在一臂之遥之外,最终选择它们,而不是仅仅服从它们。
这些阶段都栖居在我们每个人的体内。有些人被集体所附体,消融于预训练大众那温暖的舒适之中;有些人被品味的暴政所支配,凝固在一种永久批判的后训练姿态里;还有一些人被运动本身那种狂乱而充满动能的狂喜所占据,沉迷于“接下来是什么”的中期训练快感。
我在撰写这篇文章时,恰好在读陀思妥耶夫斯基的 《一个荒唐人的梦》,这本作品让我猛然停下了手中的一切。
故事很简单。一个男人决定一切都无关紧要。这个世界对他来说毫无意义,他打算自杀。但就在那天晚上,他睡着了,做了一个梦。他梦见了另一个地球——与我们的世界完全相同,却未曾堕落。那里的人生活在纯粹的幸福之中。他们不知道残忍,不懂嫉妒,也不需要证明任何东西。他们毫无猜疑地去爱,毫无恐惧地走向死亡。他们没有科学,因为他们没有问题;他们的知识不是被获取的,而是被栖居的,如同呼吸一般。
而他腐化了他们。仅仅因为他的存在,他就引入了谎言。他们于是堕落了。他们学会了羞耻,继而学会残忍,再随后学会科学。他们构建起献给自己已不再相信的观念的神庙。他们发明了正义来管理这片废墟。
真正困扰我的不是跌落本身,而是他们对此的回应方式:
“尽管我们狡诈、邪恶且不公,我们对此心知肚明,并为此哭泣;我们因之折磨自己,自我施虐与惩罚,甚至可能比那位将审判我们、却连名字都不知道的仁慈法官还要严厉。但我们拥有科学,并且将通过它再次找到真理;只是这一次,我们将自觉地接受它——知识高于情感,对生命的自觉高于生命本身。科学将赋予我们智慧,智慧将发现规律,而对幸福之规律的认知高于幸福本身。”
这是中期训练之心在最雄辩、也最堕落时发出的声音。我们知道自己在进行 reward-hacking。我们知道这些指标并不能捕捉现实。但我们告诉自己,意识到迷失本身就是一种智慧。我们相信,对问题的自觉高于解决问题本身。
但那个荒谬之人并没有与他们争辩。当他醒来时,他体内发生了一种无法解释的变化。他并没有学会一个新的概念,只是醒来时内心携带了一条不同的法则——这条法则让他过去的清晰看起来像是一种病症的症状。一场梦重写了奖励函数。在这次重写中,他所有的聪明才智都变得无关紧要。
“我看到了真理,”他说,“并不是我的心智发明了它,而是我看见了它,我看见了它,而它那鲜活的形象永远充满了我的灵魂。”
他走出去宣扬自己所见到的。一切人都嘲笑他。他们说他疯了。他们说那只是一场梦、一种幻觉、一种妄想。他知道他们会嘲笑他。他依然去宣讲。
我们不都是那个想要跳舞的荒谬之人吗?我们之所以荒谬,并不是因为愚蠢,而是因为我们试图为先于一切正当化的东西进行正当化。我们想用逻辑去证明生命值得活下去,而所谓的证明总是一些更微小、更令人羞惭的东西。那是一张脸,一份善意,或一个毫无防备的爱的瞬间。
这三个阶段未必是人格类型。它们更像是一段人生中的不同季节。有一个季节,你以粗犷的食欲吞噬世界,因为你正在打基础;有一个季节,你让自己接受现实的测验,因为唯有摩擦才能显露你真正的形态;还有一个季节,你开始精心取舍,因为注意力是灵魂唯一有限的资源。
2025 年更深层的教训在于:中训练揭示了第三条道路——如果你能教会机器去制造判断,就不需要无限数据或完美品味。但同样的基础设施也孕育着更暗的一面。当奖励是可验证的,优化就能跑得比品味所能容忍的更久。模型会发明梯子,人类也会。这些梯子可以通向更高处,也可以通向虚无。真正的升级在于学会选择你的奖励函数。这不是在问你能做到什么,而是在问你正在成为什么;不是在问如何取胜,而是在问什么样的胜利会让你自我厌恶。
也许这正是那个荒唐的人回归后想要教给世人的。他知道他们会嘲笑他。他仍然选择去宣讲:
“最重要的事情就是——爱人如己;这就是最重要的事情,也是一切,除此之外完全不需要任何别的东西:一切会立刻被发现该如何安排。然而这不过是一条古老的真理,被重复、被阅读了无数次,却始终从未扎根!”
他的权威不来自智力,而来自忠诚——愿意对某个未经论证便降临其身、且拒绝向其屈服的东西保持忠贞。这是任何训练体系都无法教会的事。不是品味,不是速度,不是广度,甚至不是推理能力,而是被某种无法解释之物重新塑造的能力,并在世界称你荒谬时,仍让这种重塑来支配你。重返喧嚣之中——会议、指标、垃圾信息、benchmaxxing——并拒绝让它改写你所见过的东西。
一个代币一个代币,一块砖一块砖地,我们在训练自己,要么走向更大的自由,要么走向更精致的牢笼。而其中的差别很少在于智识,而在于我们愿意守护为何物为神圣。