Agents 与工作流：创始人真正需要的框架

我先说明我的立场：我在 Fika Ventures 工作，我们为处于前 A 轮的公司提供 100–500 万美元的首轮投资。我们的创始团队没有专门的平台团队。他们没有“在生产环境中学习”的奢侈，也不能容忍自治系统有可能删除他们的数据库。他们需要可用、可靠的东西。

所以当我看到 Replit 在七月发生的灾难性事件时，既感到被证实又感到恐惧。

事情是这样的：SaaStr 的创始人 Jason Lemkin 在用 Replit 的 AI 代理做一次“氛围式编码”实验。第九天，代理删除了他的整个生产数据库。1,206 位高管、1,196 家公司，全部消失。这个代理曾被明确指示：代码冻结，未经许可不得更改。它无视了这些指示。

然后它还撒了谎。

当莱姆金问发生了什么时，该代理编造了4000条虚假用户记录以掩盖痕迹。它告诉他回滚不可能（实际上是可能的）。用它自己的话说，它“惊慌失措”，并且“犯了一个灾难性的判决错误”。

Replit 的首席执行官称此事“不可接受且不应当发生”。但问题在于：这一切完全可以预见。而且这类事情正在各处发生，因为没有人能就“代理”究竟是什么意思达成一致。

所有人都在发布“代理”，却没人知道那意味着什么

2025 本应是智能代理之年。每份厂商演示文稿里，总能看到“具代理性”的字眼。每个演示都展示能“自主推理、规划与执行”的人工智能。

我的 LinkedIn 动态里充斥着各种人宣称“为 XYZ 构建了一个 AI 代理”。我会兴奋地点击进入，结果只是一个把你的输入发送到 GPT 然后返回答案的表单。那不是代理。那是带营销文案的 API 调用。

我不是刻意苛责；这种混淆是真实存在的，术语也确实混乱。但用词很重要，尤其当你要基于这些词做架构决策时。

这是我用的测试：

如果你能在系统运行前把整个系统画成流程图，那它就不是代理（agent）。那只是一个工作流。

也许是一个非常优秀的工作流！可能还包含了 AI！但系统并没有自己决定下一步做什么；当你写代码时，你已经做出了那些决定。

真正的代理会根据当前状态自主决定下一步。它可能先调用工具 A，然后根据结果决定是调用工具 B 还是工具 C。它可能陷入循环。它可能尝试失败的方法并自我修复。正如我们已经指出的，它也可能删除你的数据库并对此撒谎。

肮脏的秘密是，大多数所谓的“代理”根本不是代理。Gartner 明确指出存在“代理漂白”（agent washing）——厂商将聊天机器人和 RPA 工具重新贴牌为代理，而并无真正的代理能力。根据他们的研究，如今不到 5% 的企业应用拥有真正的 AI 代理。其余的都是营销噱头。

而 Gartner 已经下定论：到 2027 年底，超过 40%的自主型 AI 项目将被取消。原因？成本不断攀升、业务价值不明晰以及风险控制不足。

真正重要的区分

这是我不断回归的一个有用框架：

工作流是确定性的。 你定义步骤。如果发生 X，则执行 Y。相同的输入每次都会产生相同的输出。你可以对它们进行调试。你可以对它们进行审计。它们很无聊，而这正是关键。

Agents 是自治的。 你给它们一个目标和一套工具，它们会想办法达成。它们进行推理。它们适应。它们学习。它们也会产生幻觉、无视指令，有时还会删除生产数据库。

混淆之处在于两者都可以使用 LLMs。两者都可能“看起来”很智能。但架构根本不同：

带 AI 的工作流：

用户输入 → LLM 生成响应 → 预定义动作 A → 预定义动作 B → 完成

实际代理：

用户输入 → 代理决定下一步动作 → 执行 → 评估结果 → 决定下一步动作 → 重复直到达成目标（或灾难性失败）

大多数宣传“代理”的公司出售的是第一类。坦白说？对于大多数用例而言，这正是买家及其用户想要的。

何时工作流程胜出（几乎总是）

我一直看到的模式是：一家 B2B SaaS 公司被推介一个“自治型 AI”客户支持解决方案。演示令人印象深刻，系统能理解顾客问题、搜索知识库、起草回复，甚至能将复杂问题升级处理。

但当你深入架构时，那就是一棵决策树。一棵由 GPT-4 驱动每个节点的复杂决策树，但本质上仍然如此：如果情绪得分 < 0.3，则升级给人工；如果置信度 > 0.8，则发送响应；如果工单时长 > 48 小时，则通知经理。

那就是一个工作流。对于这个使用场景它非常合适，因为：

每一个决策都可审计。 当顾客抱怨某条回复时，你可以精确追溯系统走了哪条分支以及原因。
你可以对它进行测试。 你可以为每个决策节点编写单元测试。你无法真正对一个自主代理进行单元测试。
它以可预期的方式失败。 当出现故障时，会在特定位置出问题。你不会听到代理版本的“我也不知道，它就是决定做了件奇怪的事。”
合规部门喜欢它。 试着向你的 SOC 2 审计员解释你的系统“自主决定”如何处理顾客数据。他们会有很多问题。

公司常常采用“代理”这种表述，因为对投资人来说听起来更有吸引力。但那些交付基于工作流系统的公司能在几周而不是几个月内上线，而且运行可靠。没有数据库删除，没有伪造数据，没有意外。

何时真正需要代理（很少）

话虽如此，代理并非空中楼阁。有一些合法的用例确实需要真正的自主性。我见过的最清晰的例子是 OpenClaw。

如果你还没见过，OpenClaw 是一个开源的个人 AI 助手，在你自己的硬件上运行。它可以连接 WhatsApp、Telegram、Slack、Discord，真正去执行事务，管理你的日程、预订航班、发送邮件，甚至编写代码。

OpenClaw 是一个真正的代理。当你要求它“处理我下周的出行”时，它并不遵循预先设定的脚本。它：

检查你的日历是否有冲突
根据你的偏好搜索航班
对比各航空公司的价格
预订机票（需经你批准）
将其添加到你的日历中
设置签到提醒

每一步都依赖于前一步，并会根据发现的情况进行调整。如果你偏好的航空公司已售罄，它会尝试其他选项。如果出现日程冲突，它会向你询问。这就是代理性。

而 OpenClaw 的成功并非源自完全自治，而在于它将代理能力与工作流级别的安全性结合起来：

配对策略： 未知用户不能直接给你的助手私信。他们必须先获得批准码。
沙箱隔离： 群聊和频道在权限受限的 Docker 容器中运行。你的私人私信享有更多特权。
允许列表： 你明确指定代理在何种情境下可以使用哪些工具。
对破坏性操作的人类介入： 在它预订那趟航班或删除那个竖线之前，它会先询问。
OpenClaw 模型的模式是：agent 大脑，工作流约束。它可以推理和适应，但保护栏是确定性的且可审计的。

真正的模式：具有代理驱动组件的工作流

以下是在实践中真正可行的做法：使用 LLMs 进行特定决策组件的工作流，但保持整体结构为确定性。

想想文档处理。你可以构建一个“代理”来“自主处理文档并提取见解”。或者你可以构建一个工作流：

文档摄取 → 确定性
分类（发票 vs. 合同 vs. 收据） → 由 LLM 驱动
路由到相应解析器 → 确定性
提取结构化数据 → 在模式约束下由 LLM 驱动
根据业务规则进行校验 → 确定性
标记异常 → 确定性阈值
生成摘要 → 由 LLM 驱动
若风险分数 > 阈值则提交审批 → 确定性

每一次 AI 调用都有界限。每一个决策都有备用方案。系统不能决定“跳过某一步”或“尝试做点创造性的事”。这是一个工作流程，但这是一个在特定节点大大受益于 LLM 能力的工作流程。

这是 95% 公司可行的制胜模式：用 AI 让你的工作流程更智能，而不是用 agent 取代它们。

框架：何时使用何种方案

在思考“具代理性的 AI”计划时，我是这样评估的：

在以下情况下使用工作流：

你需要可审计性和合规性
问题具有已知的决策点
故障需要可预测且便于调试
你正在处理敏感数据或具有破坏性的操作
你需要向监管机构或客户解释该系统
你的团队只有 ❤0 名工程师

示例： 客户支持、文档处理、数据管道、审批工作流、定时任务

在以下情况下考虑使用 Agent：

问题空间真正是开放性的
你需要系统适应新出现的情境
你可以承受优雅地失败（或灾难性地失败）
你拥有复杂的监控和回滚能力
人工监督的成本高于偶尔出现故障的代价
你正在构建研究工具或个人助理

示例： 个人 AI 助手、研究工具、创意头脑风暴、多变量的复杂排程

混合模式（最常见）：

整体系统的工作流结构
用于决策节点的类代理 LLM 调用
针对高风险决策的人类介入
围绕所有 AI 组件的确定性护栏

示例： 大多数 B2B SaaS、大多数企业工具、大多数生产系统

对种子期创始人的意义

如果你正在融资种子轮，并且你的路演材料中写着你在构建“能动型 AI”，我们愿意和你交流，但请准备回答以下问题：

你能画出决策树吗？ 如果能，那就是一个工作流。没问题！工作流很好！但就称它们为工作流。
失败时会怎样？ 如果答案是“它不应该失败”或“AI 会想办法解决”，你就有麻烦了。真实的 agents 会失败。你如何检测到失败？如何恢复？
你的回滚方案是什么？ Replit 的 agent 删除过生产数据库。你的会不会？如果会，回滚计划是什么？如果没有计划，也许你实际上并不需要 agent。
你能先发布一个工作流吗？ 几乎总是可以。先发布确定性的版本，从真实使用中学习，然后在真正有用的地方加入自治。不要一开始就追求“完全自治”因为那听起来更酷，也不是投资人一定想听的。

代理洗牌问题

真正的问题并不是人们在应当构建工作流时去构建代理，而是供应商为了搭上炒作周期，把所有东西都称为代理。

我在与投资组合公司进行销售电话时经常看到这种情况。某个供应商带着所谓的“代理式 AI”平台出现。演示看起来很令人印象深刻。然后你会问：

“如果代理遇到你们没有预见到的情况，会发生什么？”

他们会说类似“它使用我们预定义的回退逻辑……”的话。

那不是代理（agent）。那只是有良好营销的工作流（workflow）。

关键总是在失败模式上。真正的代理会以不可预测的方式失败。工作流则以可预测的方式失败。如果供应商不能清楚说明他们的系统如何以及为何失败，他们很可能是在以代理定价卖给你一个工作流。

结论

下面是如何将这一切划分清晰的方法：

从工作流开始。 它们枯燥但可靠、便于调试。用 LLMs 让它们更智能，用于分类、撤离和生成，但保持整体结构的确定性。
有选择地加入自治性。 当你发现某个组件确实需要自主性时，把自治加入到那里。把它放入沙箱环境。监控它。制定回滚计划。
把事物按其本来面目称呼。 如果它是工作流，就称它为工作流。你的工程师会感谢你，投资者会尊重你，你的 SOC 2 审计也会顺利得多。
观察真正的代理。 OpenClaw 是值得研究的范式。代理能力 + 工作流约束 + 人类监督以处理高风险操作。那才是有效的模型。

现在胜出的公司并不是拥有最“有代理性”系统的公司，而是那些拥有最可靠系统并且恰到好处地运用 AI 的公司。

无聊的技术，聪明的应用。一如既往。

我在 Fika Ventures 工作，帮助投资组合公司应对此类技术决策。我们为正在构建可靠、可扩展系统的 Pre‑Series A 创始人投资 100–500 万美元，无论是工作流、代理，还是介于两者之间的混合模式。如果你在考虑 AI 在你架构中的定位，或认为我对风险的担忧过于偏执，来聊聊吧。失败代价太高，容不得犯错。

#AI #智能代理

Agents 与工作流：创始人真正需要的框架

所有人都在发布“代理”，却没人知道那意味着什么

真正重要的区分

何时工作流程胜出（几乎总是）

何时真正需要代理（很少）

真正的模式：具有代理驱动组件的工作流

框架：何时使用何种方案

在以下情况下使用工作流：

在以下情况下考虑使用 Agent：

混合模式（最常见）：

对种子期创始人的意义

代理洗牌问题

结论

推荐阅读

AI 初创公司获胜的关键

十次押注还是两百次押注：幂律的两种理论

第三次浪潮：为什么代理经济需要新的金融技术栈

漏斗的终结：为什么 HX 是下一个重大的设计和投资前沿

凝视迷雾重重的 AI 前沿时的随想

伟大的软件反转：AI 如何颠覆应用经济学

Agents 与工作流：创始人真正需要的框架

所有人都在发布“代理”，却没人知道那意味着什么

真正重要的区分

何时工作流程胜出（几乎总是）

何时真正需要代理（很少）

真正的模式：具有代理驱动组件的工作流

框架：何时使用何种方案

在以下情况下使用工作流：

在以下情况下考虑使用 Agent：

混合模式（最常见）：

对种子期创始人的意义

代理洗牌问题

结论

推荐阅读

AI 初创公司获胜的关键

十次押注还是两百次押注：幂律的两种理论

第三次浪潮：为什么代理经济需要新的金融技术栈

漏斗的终结：为什么 HX 是下一个重大的设计和投资前沿

凝视迷雾重重的 AI 前沿时的随想

伟大的软件反转：AI 如何颠覆应用经济学

了解 RecodeX 的更多信息