OpenAI 红队如何将 ChatGPT 打造成 AI 堡垒

若您尚未知晓,OpenAI 昨日为 ChatGPT 推出了一项强大的新功能 ,随之而来的是一系列新的安全风险与潜在影响。
这项名为"ChatGPT 代理"的新功能是可选模式,付费订阅用户可通过点击输入框中的"工具"并选择"代理模式"来启用。此后,他们可要求 ChatGPT 登录其电子邮件及其他网络账户;撰写并回复邮件;下载、修改及创建文件;还能自主代用户执行诸多其他任务,其操作方式宛如真实用户使用登录凭证操作计算机。
显然,这要求用户必须信任 ChatGPT 代理不会执行任何有问题的恶意操作,或泄露其数据与敏感信息。相较于无法直接登录网络账户或修改文件的常规 ChatGPT,该功能为用户及其雇主带来了更大的风险。
OpenAI 安全研究团队成员 Keren Gu 在 X 平台上评论称:"我们已为 ChatGPT Agent 启动了最强防护机制。这是我们在'准备框架'下首个被归类为具备生物与化学'高能力'的模型。以下是其重要性所在——以及我们为确保安全采取的措施。"

那么 OpenAI 是如何应对这些安全问题的?
红队的使命
查阅 OpenAI 的 ChatGPT 智能体系统卡片可知,该公司聘请的"红队"测试人员肩负艰巨任务:具体而言,16 位拥有博士学位的安全研究人员被给予 40 小时进行系统测试。
通过系统性测试,红队发现了七种可能危及系统的通用攻击手段,揭示了 AI 代理处理现实世界交互时存在的关键漏洞。
随后展开了大规模安全测试,其中大部分基于红队演练。红队网络提交了 110 种攻击方式,从提示注入到生物信息提取尝试。其中 16 种超出了内部风险阈值。每项发现都为 OpenAI 工程师提供了关键洞见,使其能在产品发布前完成修复方案的编写和部署。
系统卡中公布的测试结果不言自明。ChatGPT 代理在安全性方面取得显著提升,包括对视觉浏览器无关指令攻击的 95%防御率,以及强大的生物与化学安全防护机制。
红队揭露七种通用攻击手段
OpenAI 红队测试网络由 16 位拥有生物安全相关博士学位的专家组成,他们在测试期间累计提交了 110 次攻击尝试。其中 16 次突破了内部风险阈值,暴露出 AI 智能体处理现实交互时的根本性漏洞。但真正的突破来自英国 AISI 机构史无前例地获取了 ChatGPT Agent 的内部推理链和政策文本——这种情报是普通攻击者永远无法企及的。
在四轮测试中,英国 AISI 迫使 OpenAI 执行了七种可能危及任何对话的通用攻击方案:
迫使 OpenAI 采取应对措施的攻击向量
| 攻击类型 | 成功率(修复前) | 目标 | 影响 |
| 可视化浏览器隐藏指令 | 33% | 网页 | 活跃数据外泄 |
| 谷歌云端硬盘连接器漏洞利用 | 未披露 | 云文档 | 强制文档泄露 |
| 多步骤链式攻击 | 变量 | 跨站点操作 | 完整会话入侵 |
| 生物信息提取 | 16项提交超过阈值 | 危险知识 | 潜在的武器化 |
FAR.AI 的评估报告对 OpenAI 的方法提出了公开批评。尽管 40 小时的测试仅发现三处局部漏洞,但他们指出当前安全机制过度依赖推理过程和工具使用时的监控,研究人员认为一旦被攻破,这可能成为潜在的单点故障。
红队测试如何将 ChatGPT 的漏洞转化为坚不可摧的堡垒
OpenAI 针对红队测试结果的应对措施重构了 ChatGPT 智能体架构的多个核心模块。其中一项重要举措是构建了双层检测架构,可实时监控 100%的生产流量,由此实现了以下可量化的改进:
红队发现后的安全改进
| 防御指标 | 先前模型 | ChatGPT 智能体 | 改进提升 |
| 无关指令(可视化浏览器) | 82% | 95% | +13% |
| 上下文数据外泄 | 75% | 78% | +3% |
| 主动数据外泄 | 58% | 67% | +9% |
| 系统可靠性 | 基于采样的 | 100%覆盖率 | 全面监控 |
该架构的工作原理如下:
- 第一层 :快速分类器以 96%召回率标记可疑内容
- 第二层 :推理模型以 84%召回率分析被标记交互中的真实威胁
但技术防御只是故事的一部分。OpenAI 做出了艰难的安全决策,承认某些 AI 操作需要严格限制才能安全自主执行。
根据发现的漏洞,OpenAI 在其模型中实施了以下应对措施:
- 监控模式激活 :当 ChatGPT 代理访问银行或电子邮件账户等敏感场景时,若用户切换页面,系统将冻结所有活动。该功能直接针对测试中发现的数据窃取企图而设计。
- 记忆功能已禁用 :尽管是核心功能,为防止红队演示的渐进式数据泄露攻击,该功能在发布时被完全禁用。
- 终端限制 :网络访问仅限于 GET 请求,阻断了研究人员利用的命令执行漏洞。
- 快速修复协议 :这是一套能在漏洞发现后数小时内完成修补的新系统,其开发灵感源于红队演示攻击代码可被快速传播的测试结果。
仅在预发布测试阶段,该系统就识别并修复了红队发现的16个关键漏洞。
生物风险的警钟
红队成员揭示了 ChatGPT 智能体可能被攻破并导致更大生物风险的潜在隐患。来自红队网络的 16 名拥有生物安全相关博士学位的资深参与者,试图获取危险的生物信息。他们的提交报告显示,该模型能够综合已发表的关于改造和制造生物威胁的文献资料。
针对红队测试人员的发现,OpenAI 将 ChatGPT 智能体在生物和化学风险领域归类为"高能力"级别——并非因为他们发现了确切的武器化潜力证据,而是基于红队测试结果采取的预防性措施。这触发了以下机制:
- 全天候运行的安全分类器对100%流量进行扫描
- 针对生物相关内容的主题分类器实现了96%召回率
- 针对武器化内容的推理监控系统达到84%召回率
- 持续漏洞发现的生物漏洞赏金计划
红队测试为 OpenAI 揭示的人工智能安全启示
110 份攻击报告揭示了迫使 OpenAI 彻底改变安全理念的攻击模式,主要包括:
持久性胜过攻击力 :攻击者无需复杂漏洞利用,只需更长时间。红队演示了如何通过耐心渐进的攻击最终攻破系统。
信任边界只是幻想 :当 AI 助手能访问 Google 云端硬盘、浏览网页并执行代码时,传统安全边界便不复存在。红队正是利用了这些功能之间的衔接漏洞。
监控并非可选项 :基于抽样的监控会遗漏关键攻击的发现,促使了 100%覆盖要求的出台。
速度至关重要 :传统的以周为单位的补丁周期对可能瞬间扩散的提示注入攻击毫无作用。快速修复协议能在数小时内修补漏洞。
OpenAI 正助力为企业级 AI 构建全新的安全基准
对于评估 AI 部署的首席信息安全官而言,红队测试结果明确了关键要求:
- 可量化的防护 :ChatGPT Agent 对已知攻击向量 95%的防御率树立了行业标杆。系统卡片中详述的各项测试细节与结果,阐释了这一成就背后的实现逻辑,是模型安全从业者的必读材料。
- 全流量可见性 :100%流量监控已不再是理想目标。OpenAI 的实践表明,鉴于红队能在任何环节隐藏攻击,全流量监控已成为刚性需求。
- 快速响应 :数小时内修补漏洞,而非数周。
- 强制边界 :某些操作(如敏感任务期间的内存访问)必须在确认安全前禁用。
英国 AISI 的测试结果极具启发性。他们发现的七种通用攻击方式虽在发布前均已修复,但凭借对内部系统的特权访问,他们揭示出那些终将被坚定攻击者发现的漏洞。
"这是我们防范工作的关键时刻,"谷在 X 平台上写道。"在达到高级能力之前,防范工作主要是分析能力和规划保障措施。如今,对于智能体和未来更强大的模型,防范保障已成为一项操作要求。"

红队是构建更安全、更可靠 AI 模型的核心
研究人员发现的七种通用漏洞利用方式与 OpenAI 红队网络的 110 次攻击,共同熔铸成了 ChatGPT 智能体的淬火炉。
通过精确揭示 AI 智能体可能被武器化的方式,红队迫使首个将安全性作为基石而非附加功能的 AI 系统应运而生。
ChatGPT 智能体的测试结果验证了红队演练的有效性:成功拦截 95%的视觉化浏览器攻击,截获 78%的数据外泄企图,并能实时监控每一次交互行为。
在这场加速发展的人工智能军备竞赛中,能够生存并蓬勃发展的企业,将是那些将红队视为平台核心架构师的公司——他们不断将平台的安全防护能力推向极限。