产品动态

OpenAI 讨论如何防御 prompt injection，重点转向“抗社会工程”设计

2026-03-113 分钟

OpenAI 在 2026 年 3 月 11 日谈到，agent 的 prompt injection 防御不能只靠过滤，还要限制系统受骗后的影响范围。

正文

来源：OpenAI

发布日期：2026-03-11

原文：https://openai.com/index/designing-agents-to-resist-prompt-injection/

OpenAI 认为，真实世界中的 prompt injection 越来越像社会工程，而不是简单字符串覆盖，因此防御重点不应只放在过滤恶意提示上，还要通过系统设计限制攻击成功后的影响。这个判断对做 agent 产品的团队很重要：权限隔离、用户确认、沙箱执行和外部内容信任边界会成为标准能力。