Architecting Secure AI Agents: Perspectives on System-Level Defenses Against Indirect Prompt Injection Attacks<br>构建安全的AI智能体：针对间接提示注入攻击的系统级防御视角<br>[摘要](abstracts/2603.30016.html)

Abstract (EN)

Abstract not available.

摘要 (ZH)

AI智能体，主要基于大型语言模型（LLMs），易受间接提示注入攻击，即恶意指令嵌入不可信数据可能触发危险的智能体行为。本立场论文阐述了我们对抵御间接提示注入攻击的系统级防御的构想。我们提出三个核心观点：（1）动态任务和现实环境中通常需要动态重新规划与安全策略更新；（2）某些依赖上下文的安全决策仍需LLMs（或其他学习模型）参与，但应仅在严格限制模型可观察与决策范围的系统设计内进行；（3）在本质模糊的情况下，个性化和人机交互应作为核心设计考量。除主要观点外，我们还讨论了现有基准测试的局限性，这些局限可能造成效用与安全的虚假认知。同时，我们强调了系统级防御的价值：它们通过构建和控制智能体行为、整合基于规则和基于模型的安全检查，并推动模型鲁棒性和人机交互的针对性研究，成为智能体系统的骨架。

← Back