OpenAI表示，针对AI浏览器的提示词注入攻击难以彻底解决

即使 OpenAI 正在努力加强其Atlas AI浏览器抵御网络攻击的能力，该公司也承认，提示词注入（一种操纵 AI 代理执行通常隐藏在网页或电子邮件中的恶意指令的攻击）的风险不会很快消失——这引发了人们对 AI 代理在开放网络上安全运行的质疑。

OpenAI在周一发布的一篇博客文章中详细介绍了该公司如何加强Atlas的防御能力以应对持续不断的攻击，文章指出：“与网络上的诈骗和社会工程攻击一样，即时注入攻击不太可能被彻底‘解决’。”该公司承认，ChatGPT Atlas中的“代理模式”会“扩大安全威胁面”。

OpenAI 于 10 月发布了 ChatGPT Atlas 浏览器，安全研究人员随即发布演示，证明只需在 Google Docs 中输入几个字就能改变底层浏览器的行为。同一天，Brave发布了一篇博文，解释说间接提示注入是包括Perplexity 的 Comet在内的 AI 浏览器面临的系统性挑战。

OpenAI并非唯一意识到基于提示的注入攻击不会消失的机构。英国国家网络安全中心本月初警告称，针对生成式人工智能应用的提示注入攻击“可能永远无法完全消除”，这使得网站面临数据泄露的风险。该英国政府机构建议网络安全专业人员降低提示注入攻击的风险和影响，而不是认为这些攻击可以被“阻止”。

OpenAI 公司表示：“我们认为快速注入是一个长期的 AI 安全挑战，我们需要不断加强防御以应对它。”

该公司应对这一西西弗斯式任务的答案是什么？是积极主动、快速响应的循环，该公司表示，这种循环已初步显示出在内部发现新型攻击策略方面取得成效，防止这些策略被“在野外”利用。

这与Anthropic和谷歌等竞争对手的观点并非完全不同：为了应对持续存在的基于提示的攻击风险，防御措施必须分层部署并持续进行压力测试。例如，谷歌最近的研究工作就侧重于智能体系统的架构和策略层面的控制。

但OpenAI采取的不同策略在于其“基于LLM的自动化攻击者”。这种攻击者本质上是一个由OpenAI利用强化学习训练的机器人，它扮演黑客的角色，寻找向人工智能体偷偷发送恶意指令的方法。

该机器人可以在实际使用攻击前先进行模拟测试，模拟器会显示目标人工智能在发现攻击后的思考过程和应对措施。机器人可以研究这些反应，调整攻击策略，并反复尝试。这种对目标人工智能内部推理的洞察是外部人员无法获得的，因此，理论上，OpenAI 的机器人应该能够比现实世界中的攻击者更快地发现漏洞。

这是人工智能安全测试中的一种常见策略：构建一个代理来查找极端情况，并在模拟中快速进行测试。

OpenAI 写道：“我们利用强化学习训练的攻击者可以引导智能体执行复杂的、长期的有害工作流程，这些工作流程会持续数十（甚至数百）个步骤。我们还观察到一些新的攻击策略，这些策略在我们的人工红队演练或外部报告中都没有出现过。”

在一段演示视频（部分内容如上图所示）中，OpenAI 展示了其自动化攻击者如何将一封恶意邮件植入用户的收件箱。当 AI 代理随后扫描收件箱时，它按照邮件中隐藏的指令发送了一封辞职邮件，而不是自动回复自动回复。但据该公司称，在安全更新后，“代理模式”能够成功检测到此次恶意注入尝试，并将其标记给用户。

该公司表示，虽然很难以万无一失的方式防范快速注入攻击，但它正依靠大规模测试和更快的补丁周期来强化其系统，以防它们在现实世界的攻击中出现。

OpenAI 的一位发言人拒绝透露 Atlas 安全性的更新是否已导致成功注入次数明显减少，但表示该公司自发布前就一直在与第三方合作，以加强 Atlas 抵御快速注入的能力。

网络安全公司Wiz的首席安全研究员 Rami McCarthy表示，强化学习是不断适应攻击者行为的一种方法，但这只是其中的一部分。

“判断人工智能系统风险的一个有效方法是将自主性乘以访问权限，”麦卡锡告诉 TechCrunch。

麦卡锡表示：“代理浏览器往往处于这一领域的一个棘手位置：既拥有适度的自主权，又拥有极高的访问权限。许多现有建议都体现了这种权衡。限制已登录用户的访问权限主要降低了风险，而要求审查确认请求则会限制其自主权。”

这是OpenAI为用户降低风险提出的两项建议。一位发言人表示，Atlas也经过训练，会在发送消息或付款前征求用户确认。OpenAI还建议用户向代理提供具体指令，而不是授予其访问收件箱的权限并告诉它们“采取任何必要的行动”。

OpenAI 表示：“即使采取了安全措施，宽泛的自由度也使得隐藏或恶意内容更容易影响代理。”

虽然 OpenAI 表示保护 Atlas 用户免受提示注入攻击是首要任务，但 McCarthy 对高风险浏览器的投资回报表示怀疑。

“对于大多数日常使用场景而言，代理浏览器目前提供的价值还不足以抵消其当前的风险，”麦卡锡告诉TechCrunch。“考虑到它们可以访问电子邮件和支付信息等敏感数据，风险很高，尽管正是这种访问权限赋予了它们强大的功能。这种平衡将会逐渐形成，但就目前而言，权衡取舍仍然非常现实。”

OpenAI表示，针对AI浏览器的提示词注入攻击难以彻底解决

相关推荐

评论抢沙发

科技圈动态，尽在圈小蛙

官方TG频道

简繁切换

回顶部

相关推荐

评论 抢沙发

科技圈动态，尽在圈小蛙

官方TG频道

简繁切换

回顶部

评论抢沙发