为什么可观测性正成为智能体系统的真实层

AI Observability Is the Missing Layer in Human–Agent Systems » { design@tive } information design

AI 正在从聊天界面迈向自主软件系统，这类系统能够进行规划、执行操作、使用工具，并在持续时间更长的工作流中协调工作。随着这一转变加速，围绕智能体编排的新基础设施层正在形成：即管理规划、执行、记忆、交接、治理和控制的系统。

在这一技术栈中，有一层既至关重要又建设不足：可观测性。

在多智能体系统中，可观测性不仅仅是调试功能。它会成为对实际发生情况的记录：任务是如何被拆解的、选择了哪个智能体、它看到了哪些上下文、调用了哪些工具、读取或写入了哪些记忆、交接发生在何处、防护机制是否介入、何时触发了人工审批，以及延迟和成本在何处累积。

在实践中，这会成为系统实际行为方式的唯一可靠记录，而不只是它本应如何运行，从而实际上充当了智能体执行的“真相层”。

这与第一代 LLM 可观测性所面对的问题不同。如今的许多工具都是围绕一种更简单的基本模式构建的：一个应用、一个提示词、一个输出。这适用于提示词检查和基础日志记录，但无法解决更困难的问题——在非确定性执行图中重建因果关系。

这就是为什么多智能体系统看起来更不像聊天产品，而更像分布式系统。但在某些方面，它们比传统分布式软件更难观测，因为许多重要事件是非结构化的，规划器行为具有概率性，而破坏性最大的故障往往是语义层面的，而非二元式的。

而这类软性故障，正是这一类别变得最为重要的地方。服务崩溃或 API 调用失败很容易检测。这些正是传统可观测性原本就被设计用来捕捉的那类故障。

更难察觉的是：智能体选错了工具，却仍返回看似合理的结果；检索步骤调出了过时的记忆；交接过程中丢失了关键上下文；或者某个子智能体做出了薄弱推断，而下游智能体却将其当作事实。这些并非边缘案例，而是多智能体系统中非确定性、状态衰减、错误放大、通信开销和冲突解决所带来的自然结果。

在生产环境中，这类故障很少触发警报。它们会悄然侵蚀性能，随着时间推移不断累积，并让那些表面上看似正常运行的系统滋生出虚假的信心。

这正是编排技术栈不断演进的背景。规划与路由层、智能体注册表、共享状态、治理、协议、工作流引擎以及框架生态系统都在快速发展。模型提供商也在沿着这条技术栈向上延伸。

OpenAI 的 Agents SDK 围绕工具使用、交接和追踪构建，并将智能体应用描述为能够保留“发生过事情的完整追踪”的系统。Anthropic 也正朝着类似方向发展，推出了 Claude Managed Agents——一项面向长周期智能体任务的托管服务，即便底层支撑框架不断演进，仍围绕稳定接口构建。

这印证了这一层的重要性，但并不意味着创业机会就此消失。大多数企业不会运行一个干净、单一提供商的技术栈。它们会采用某种组合：提供商托管的智能体、开放框架、内部工作流、遗留编排系统以及特定领域软件。这使得中立性不仅有价值，而且是必要条件。持久的机会不仅在于暴露某一个运行时内部的遥测数据，而在于成为贯穿所有这些系统的真相层。

这一类别中最强的公司，最终可能看起来根本不像一家提示词分析供应商。

相反，它看起来可能更像是那家为智能体系统定义规范遥测模型的公司。实际上，这意味着要定义如何衡量执行过程：针对智能体跨度、交接、记忆事件、工具调用、政策检查、审批关卡、重放以及分支级成本归因的“评分”标准。类似于传统系统中的可观测性最终围绕共享惯例趋于统一，定义这些标准的系统将拥有异常强大的市场塑造能力。

我们的观点是，可观测性是当今智能体编排领域最锋利的切入点之一。随着智能体系统从演示走向生产环境，挑战已不再只是如何运行它们，而是如何理解它们。没有清晰的真相层，团队就无法可靠地管理成本、建立信任，或维持对那些不再以确定性方式运行的系统的控制。

为什么可观测性正成为智能体系统的真实层

推荐阅读

AI 系统即将开始自我构建

如今的孩子们 Palantir 走进校园

情绪监控的兴起

中间商经济的终结：AI 智能体将如何颠覆高抽成平台

Workday 的最后一个工作日？

智能体打破了安全堆栈，而这正让你付出高昂代价

为什么可观测性正成为智能体系统的真实层

推荐阅读

AI 系统即将开始自我构建

如今的孩子们 Palantir 走进校园

情绪监控的兴起

中间商经济的终结：AI 智能体将如何颠覆高抽成平台

Workday 的最后一个工作日？

智能体打破了安全堆栈，而这正让你付出高昂代价

了解 RecodeX 的更多信息