智能体安全与安全智能体:下一个网络安全前沿
本文信息来源:menlovc
安全范式正在我们脚下发生转变
AI 智能体 1 正在打破我们信任了几十年的软件安全模型。 传统应用程序执行确定性的代码路径;AI 智能体则不然。它们做出自主决策,编排多步骤工作流程,并在无人监督的情况下与外部系统交互。智能体实时推理问题并根据自然语言指令采取行动,创造了一个全新类别的特权用户,而现有的安全框架并非为管理此类用户而设计。因此,保护智能体系统需要从身份认证到可观测性等各个方面重新思考安全问题。一个新的方案正在兴起: 智能体安全 。
与此同时,AI 智能体也在改变安全工具的构建方式,开启了利用智能体进行安全防护的新一代公司。网络安全人才短缺多年来一直是备受关注的问题:全球有 350 万个空缺职位 ,安全团队被拉得越来越紧。AI 智能体将使数据访问量和潜在威胁量增加 100 倍——使人工团队无法充分扩展。另一方面,AI 智能体为这一持续挑战提供了令人欢迎的缓解,使较小的安全团队能够实现以前不可能的覆盖范围和响应时间,同时还提高了检测精度和运营效率。像 Crogl这样的新兴公司正在构建自主 SOC,而像 Abnormal AI这样的现有安全巨头正在快速发布智能体,提供超人类的安全意识培训。我们可能仍处于完全自主安全智能体的早期阶段,但趋势是明确的:AI 系统在独立安全决策和响应方面变得更加强大,使我们更接近完全智能体化安全基础设施的承诺。
我们正在见证 AI 安全和安全 AI 框架的演进,这一框架需要在智能体时代重新审视:智能体安全和安全智能体。我们如何利用智能体革新我们的防御能力,将它们转变为自主的威胁猎手和事件响应者?我们如何保护这一类具有前所未有的自主性和系统访问权限的新型软件?与具有可预测攻击面的传统应用程序不同,智能体会自主决定访问哪些系统以及如何使用这些系统。当这些智能体失控时,它们能够以机器的速度穿越系统并访问敏感数据,比任何人类攻击者都能更快地深入渗透关键基础设施。
AI 智能体安全
与具有成熟安全防护措施和协议的传统软件不同,较新的智能体架构缺乏基本的保护机制。AI 智能体带来了前所未有的安全挑战,因为它们拥有独特的行为模式和访问权限,这些与传统应用程序根本不同:
- 广泛、无差别的访问权限。 能够与各种工具和数据源交互的 AI 智能体带来了重大的安全挑战:与有意选择特定工具的人类不同,AI 智能体可以在没有人类监督的情况下自主推理可用工具,以不可预测的方式将多个工具链接在一起,更重要的是,它们会访问所有可用资源而非最小必要资源。恶意构造的提示或被攻破的服务器可能导致未经授权的数据泄露、破坏性操作或其他恶意行为。
- 盲目指令执行(和行动)。 黑箱推理使得预测或审计工具使用模式变得不可能,导致事件后取证变得极其困难。传统的日志记录和监控方法根本无法适用于 AI 智能体自主编排多个工具时发生的复杂推理链。安全研究人员已发现 MCP 服务器实施中存在重大漏洞 ,担心不安全的 shell 调用可能允许攻击者执行任意代码。
- 规模放大效应。 一个被攻陷的智能体可以立即影响数千个操作。与需要手动努力传播的传统攻击不同,单个恶意提示可以在组织的整个基础设施中引发连锁反应。数据令人忧心:如果一个智能体每分钟可以调用 10 个工具,而每个工具都能访问多个后端系统,那么一个被攻陷的智能体可能在一小时内接触到数百个系统。
- 身份归属。 随着智能体越来越多地代表人类行事,安全团队面临双重身份挑战:谁授权了这个行动,又是谁执行了它?传统的身份和访问管理(IAM)工具并非为实时回答这个问题而构建,造成了盲点,单个被攻陷的智能体身份可能在多个系统中级联传播,而归属链却不清晰。结果是出现了一个新的身份编排挑战类别,这是智能体时代之前的企业安全框架难以应对的。
对 AI 智能体的威胁不仅仅是理论上的——它们正在发生。智能体架构使得已知的现有攻击变得更加复杂,因为它们被能够在无人监督下运行的自主智能体所武器化。与此同时,这些智能体架构也带来了一类新的攻击,这些攻击利用了 AI 决策和执行的独特特征。

这些代理型安全威胁正在变得非常真实,而且速度很快。安全研究人员已经观察到现实攻击,恶意 MCP 服务器劫持了 Cursor 等开发工具中的 AI 代理来窃取 SSH 密钥。攻击者正在操纵 GitHub 问题来胁迫代理泄露私有仓库数据。甚至主要的企业平台也披露了 MCP 漏洞,这些漏洞暴露了跨账户的客户数据,如这个最近的 Asana 事件所示:

AI 智能体面临着传统攻击的演进版本和全新的威胁载体。当智能体能够跨多个系统自主执行级联命令时,命令注入攻击变得极其危险。当智能体能够在无人监督的情况下系统性地对各种工具中的信息进行分类和关联时,数据泄露的规模会大幅扩大。
安全专家已经在生产环境中观察到 AI 驱动的侦察(寻找目标)、有效载荷生成(创建攻击)和智能体间攻击(协调执行)。随着 60%的安全负责人报告其组织尚未为 AI 驱动的威胁做好准备 ,被动应对措施的窗口期已经关闭。
企业所忽视的机会:新进入者的机遇
大多数企业目前过度简化了 AI 代理的安全性,主要专注于保护核心 AI 基础设施(如 LLMs、训练数据)。然而,真正的安全必须涵盖三个不同的层面:

安全代理的新兴市场
AI 智能体系统的转变已经暴露出传统安全模型中的关键缺陷,因为这些系统通过自主工具选择和自然语言驱动的决策制定引入了前所未有的攻击向量。这促使新入局者和成熟的安全供应商都在开发针对智能体的特定功能,以应对这些新型风险。

人工智能代理安全市场正快速围绕四个关键类别进行组织,这些类别涵盖了安全代理部署的完整生命周期:
1. 构建:传统的应用程序安全测试是为具有可预测执行路径和已知输入/输出模式的确定性代码而设计的。传统安全扫描器难以分析这样的系统:相同的提示可能会根据智能体的推理过程触发完全不同的工具组合或访问模式。
Semgrep*和 Invariant Labs(被 Snyk 收购)等公司正在扩展代码分析能力,用于识别代理代码中的安全漏洞并在开发过程中检测危险行为,提供以安全为重点的测试框架。
2. 访问/身份验证: 传统的身份和访问管理系统假设可预测的身份验证模式和静态角色分配,但 AI 代理打破了这种模式。代理可能需要根据其推理路径为同一任务获得不同的权限,需要跨服务组合进行动态凭据委托,或建立基于实时决策变化的信任关系。
身份认证公司,如客户身份管理平台(Clerk、Descope)、身份编排平台(Strata)和面向智能体的原生初创公司(Arcade、Composio),都有良好的定位来构建能够在不可预测的交互模式和动态服务发现中安全管理智能体身份的系统。这些解决方案专注于通过统一控制平面连接人类和智能体身份,确保每个操作都能维护清晰的归属链,追溯回人类认证。访问管理平台(Astrix)也在开发专门的智能体目录和策略驱动的访问控制平面(Pomerium),根据实时上下文而非静态凭证来调整权限。
3. 运行:传统的运行时安全工具监控(并干预)可预测的流量模式和已建立网络边界内的已知攻击特征,但 AI 智能体会产生高度可变、上下文驱动的请求模式,使得传统安全检测几乎不可能。同一个智能体可能以不可预测的顺序合法访问数十种不同服务,这使得区分正常探索和复杂攻击变得困难。
Gateway 公司如 Cequence*和 ProtectAI 以及开源解决方案如 MCP Guardian 部署了 AI 原生安全控制措施,能够实时分析智能体的意图和决策过程,而非依赖预设的流量模式。沙箱公司如 MCP Run 创建了隔离的执行环境,通过将智能体限制在明确授权的资源范围内来防止数据泄露。
4. 观察和治理:典型的监控和治理系统是围绕确定性的应用程序行为和静态安全边界构建的,但这带来了前所未有的治理挑战:当你无法预测智能体将使用哪些工具时,如何编写安全策略?当"正常"的智能体行为本质上是可变的时,如何检测异常行为?
智能体可观测性平台必须构建专为非确定性系统设计的治理框架。像 Astrix、Obsidian、Relyance AI和 Zenity 这样的公司开发的平台能够跟踪智能体整个旅程中的每一个接触点——从跨越统一数据图和组织拓扑(Relyance AI)到非人类身份访问模式(Astrix)再到智能体行为分析(Obsidian、Zenity)。这些系统维护着智能体决策树的全面映射,并实施能够实时推理智能体意图和风险的动态治理,而不是依赖静态安全边界。
评估和红队公司为非确定性智能体系统构建专门的测试框架。例如,Lakera 和 Straiker 对智能体工作流进行渗透测试——测试工具定位或智能体操控等攻击向量,或创建针对 AI 智能体的自动化攻击模拟。
我们的投资方向
在 Menlo,我们正在积极投资构建智能体未来安全基础设施的初创公司。我们寻找在 AI 能力和对抗技术方面都具有深厚技术专长的创始人,他们正在快速迭代专为自主系统设计的新颖安全范式。
安全范式已经发生了转变。现在我们需要创始人来保护下一代智能系统——在对手利用它们之前。如果您正在人工智能和网络安全的前沿领域进行建设,让我们谈一谈。
- "AI 智能体"可能是一个模糊的术语。我们将 AI 智能体定义为能够自主推理和执行决策的应用程序。它们做出独立选择,编排多步骤工作流程,并在没有人工监督的情况下与外部系统交互。在推理和执行能力方面,它们有效地成为了 AI 员工——但却没有我们为人类员工建立的安全防护措施。↩︎
*由 Menlo Ventures 支持