返回快讯
2025.04.11 10:00 (408 天前) 人工智能 1.8万 阅读

研究人员提出StruQ和SecAlign两种微调防御方法,通过结构化查询和偏好优化有效降低大语言模型中的提示注入攻击成功

研究人员提出StruQ和SecAlign两种微调防御方法,通过结构化查询和偏好优化有效降低大语言模型中的提示注入攻击成功率,提升模型安全性。

消息来源 SecAlign

阅读原文报道

bair.berkeley.edu

访问

快讯卡片预览