返回首页
2026.01.05 17:32 约 8 分钟 全球动态 9,442 阅读

2026 年开放式问题:每一年,我都会提出一组问题,而不是做出预测

本文信息来源:fakepixels

2026 年开放式问题:每一年,我都会提出一组问题,而不是做出预测

新年快乐,探索者们。

每一年,我提出的是一组问题,而不是预测。目标不是预言未来,而是觉察我们脚下正在发生的变化。

今年的问题围绕着一个单一的转变:软件正在成为基础设施。我们为人类视角构建的应用和仪表盘,正在让位于为机器与机器之间对话而设计的系统,人类则悬停在边缘,负责决策、许可、撤销,当然还有策展。界面并没有消失,它只是不再是大多数行动发生的地方。

未来几年,我的投资和写作重点很可能都会源自这些问题。

你可以在这里找到我之前的提问 (2024),或者在这里 (2025)。

作为目的地的 UI 的终结

二十年来,软件一直围绕人展开,仪表盘和信息流是我们的主要控制面板。这些在人类做出选择、支付和撤销等决策时依然至关重要。但聚光灯正在转向 agent 分发。一旦 agent 被赋能,它们就能在规模上施展能力。人类注意力仍然决定着信任与采用的节奏,塑造了我们如何选择、购买、授权以及养成使用习惯。然而,当涉及真实世界的使用时,瓶颈并不在人类,而是转移到了 agent 本身:它们进行路由、选择工具、管理调用预算以及从错误中恢复的能力,成为新的前沿。

那么在这样的世界里,什么会取代应用商店?也许是能力注册表,也许是企业白名单,也可能只是某个在最初赢得信任博弈的平台所提供的默认工具包。而“品牌”——这一模糊的人类概念——当客户变成算法时又会变成什么?或许是一种机器可读的信任分数:运行时间保证、已验证的证明、纠纷解决历史。营销层坍缩为元数据。

标准之战

当技术栈变得模块化时,焦点就转向了制定标准。例如,agentic 技术栈正逐步收敛到少数几个(仍未达成共识的)标准:

  • MCP(Model Context Protocol) 定义了 agent 如何连接到各种能力——即握手层。
  • A2A 规范 agent 与 agent 之间的协调。
  • AG-UI 管理着非确定性 AI 与确定性人类之间杂乱的交互界面。

当一切都能互操作时,价值会汇聚到哪里?谁来决定默认规范中包含什么?什么会成为 agents 的 DNS——能力、声誉、撤销的通用目录?更关键的是,意图的 TLS 等价物是什么:能够加密证明一个 agent 的请求确实代表着某个个人意志的机制?

作为复利护城河的 traces

静态数据会贬值。真正产生复利的是被仪表化的 traces:每一次尝试的行动、每一次工具错误、每一次回滚、每一个被转化为测试的“未知的未知”。监管机构正在趋同于日志与可追溯性要求 ,以应对高风险系统。同时,软件已经在 Open Telemetry 标准上达成共识,而诸如事件溯源之类的架构早已将日志视为事实记录。

最大的变化在于,轨迹现在能够帮助系统自我改进。一个成熟的 agent 技术栈不仅仅是发现失败;它会自主地将失败转化为结构化报告,再转化为改进。这正是行为版本化真正落地的地方。例如,“agent v3.2.1”的定义不再只取决于其权重,还取决于它在不同规则下的表现方式——比如如何回滚、在什么情况下拒绝、如何重试,以及如何处理争议。

我们是否会获得能够自动将自身轨迹挖掘为回归测试、对抗性 prompt、失败目录的系统?是否存在一种通用的轨迹格式,还是每一个垂直领域都需要定制化的可观测性?又该如何避免经典的强化学习陷阱——agent 学会操纵指标,而不是实现真正的目标?

机器身份 =! 人类身份

Passkey 为人类提供安全、便捷的登录方式,但 AI agent 需要一种不同的方式来证明身份、展示可信度,并获得执行特定任务的权限。用于 agent 环境的基础工具已经存在:Firecracker microVMs 以无服务器的方式将任务隔离开来,V8 isolates 运行快速的边缘任务,而像 Daytona 这样的容器沙箱提升了安全性。

“用于一次 agent 运行的 passkey”会是什么样?它可能是一把特殊的硬件密钥,与进程运行的位置绑定,并使用一种可以远程证明其真实性的方式。我们如何安全地授予权限——例如,允许 agent A 在某个店铺中在限定时间前最多花费一定金额,并且即使在重试或网络出现问题的情况下也能够收回该权限?“同意”的计算机版本是什么——一种人类可以理解、计算机可以验证,并且之后可以被审计回顾的权限?

当记忆成为一种脆弱性

个性化曾承诺带来便利。持久记忆兑现了这一承诺。但如今,记忆不再只是一个功能——它成了一种攻击面,正在重塑用户与系统之间的隐性契约。

OpenAI 的记忆功能可覆盖你整个聊天历史,从你早已遗忘的碎片中综合出模式。他们提供所谓的透明度控制。但当你删除一段对话时,问问自己:它真的消失了吗?还是已经以无法被干净移除的方式,影响了模型对你的理解?

我们正在创造什么样的记忆?我们是否在使用只能不断增长的日志,使真正的删除变得不可能?我们是否将你的行为模式分散在数据之中,以至于无法再拆分还原为事实?我们是否在设备之间同步记忆,让你难以将自己视为一个单一的人?我们在 2026 年所做的选择,将塑造“遗忘”意味着什么。

没有机器人的机器人学

机器人技术的进步如今更多依赖于通用的感知到行动能力和实用工具,而非机械层面的突破。 OpenVLA 是一个拥有 70 亿参数的视觉-语言-行动模型,训练于 97 万条真实机器人执行轨迹,展现出强大的通用操作能力。 DeepMind 的 Gemini Robotics 为开发者提供设备端的 VLA 微调能力。NVIDIA 的 Isaac GR00T N1 被推广为一个开放、可定制的人形机器人基础模型。软件一直在、并将持续推动硬件向前发展。

收集机器人数据成本高且进展缓慢。通过远程操控、仿真到现实迁移,或众包示范来扩大数据收集规模,可能对提升模型至关重要。我们能否像 PC 兼容硬件那样,创建标准化的机器人或组件,以加快硬件迭代和模型训练?最好的想法或许是可互操作、可编程的部件,例如一个内置推理与网络能力的“第三只眼”视觉模块,可以被添加到任何机器上,赋予其机器人能力。一家专注于制造这些组件而非整机机器人的公司,将在每一次设备使用这些组件进行感知和行动时受益。

品味的工业化

事实证明,鉴别力可以被规模化生产。生成数百个候选,通过学习到的奖励模型进行筛选,不断迭代,直到输出符合既定目标。 偏好优化研究 随着训练中技术、训练后策略以及自动化评估框架的出现而爆炸式增长。

那么,当品味被规模化时,瓶颈会转移到哪里?转移到目标函数。转移到那些定义“何为好”并掌控评估的人。(我们已经知道基准测试已经失效 。)审美单一文化因此变得可能。当评估者在类似的代理指标上趋同——连贯性、新颖性、“感觉”——各个领域的输出就会趋于同质化。一些领域对此具有抵抗力。法律、心理咨询、策略:这些领域中的“好”本质上不可化约为通用标准,从业者与客户之间的关系与最终产出同样重要。当我们强行把工业化品味套用到这些抗拒的领域时,看看会发生什么被打破。

超越打字的提示

我们已经看到设备端的语音转文字界面开始腾飞,一个小型 whisper 模型就能出色地完成任务。我们在将思想传递给机器的速度上仍然太早,提示交互也不会看起来像在键盘上打字,甚至不像是对着电脑说话。这还不够快。现在已经有 12 个人接受了 BCI 植入,那么这会是接下来要发生的吗?也许在 BCI 到来之前,我们会开始以一种新的方式发短信和说话。

幽灵好莱坞

拉脱维亚的 Flow 获得了奥斯卡最佳动画长片奖,其诞生是因为他在某种程度上痴迷于 Blender,这是一款免费/开源的 3D 建模工具。现在已经形成共识,这只是时间问题,AI 制作的电影有朝一日能够成为主流奖项中有分量的竞争者。创意生产流程正日益成为“节点图原生”。ComfyUI 的基于图的扩散编排方式,是创作者构建可控、可重混工作流的典型范例。

但长片级制作仍然会撞上各种限制,而且未必是由模型质量所界定。当前的制约因素包括角色连贯性、镜头匹配、资产管理、剪辑控制以及版本管理——所有这些乏味的中间件。它们会被“苦涩教训”冲刷掉吗,还是因为编码了人类的审美偏好,而无法通过纯粹的规模化来解决?

逃离永久性底层阶级的竞赛

加密货币和迷因股的投机能量,已经从早期由贪婪驱动的冲动——靠赌博式押注获取跨世代财富——转变为当下由恐惧驱动的冲动:试图逃离一个可能由少数定义 AGI 的公司所强加的永久底层阶级。Scott Alexander 的近期文章认为,应对 AI 取代人类的最佳回应既不是优化,也不是末日论——而是玩乐。弄清楚你真正想要的是什么。 去做你真正热爱的事情。

这比听起来更难。我们被社会化去优化同质性,而非锋芒。但正如零售订单流如今正在影响机构市场,交易的行话也已经渗透进日常生活。现在每个人都知道这句话: 找到你的 alpha。

如果你已经内化了这是一个具有历史意义的时刻,并且我们大多数人相对于重塑一切的力量而言都将是“渺小”的,那么不对称的下注就是依然去做事情 。在关键时刻的小行动会以奇异的方式不断累积。在帝国巩固之时,于车库里捣鼓的人,曾经就是故事的主角。

而这也引出了也许是本十年最重要的一个问题: 我们如何让人们觉醒到自身的力量,并付诸行动?

了解 RecodeX 的更多信息

立即订阅以继续阅读并访问完整档案。

继续阅读