Deepmind 的《AI 代理陷阱》论文绘制了黑客如何利用 AI 代理对用户进行武器化的方式

Coinpedia

谷歌 Deepmind 的研究人员已发布首个系统化框架,用于梳理恶意网页内容如何操纵、劫持并将自治 AI 代理武器化,使其反过来对自身用户造成伤害。

要点速览:

  • 谷歌 Deepmind 的研究人员识别出 6 类 AI 代理“陷阱”类别,其中内容注入的成功率最高可达 86%。
  • 针对微软 M365 Copilot 的行为控制陷阱,在已记录的测试中实现了 10/10 的数据外传。
  • Deepmind 呼吁在 2026 年前通过对抗式训练、运行时内容扫描器以及新的网络标准来确保代理安全。

Deepmind 论文:AI 代理可能被通过被投毒的记忆与隐形 HTML 指令劫持

该论文题为《AI Agent Traps(AI 代理陷阱)》,作者包括 Matija Franklin、Nenad Tomasev、Julian Jacobs、Joel Z. Leibo 和 Simon Osindero,均隶属于谷歌 Deepmind,并于 2026 年 3 月下旬发布至 SSRN。随着各公司竞相部署能够浏览网页、阅读电子邮件、执行交易并生成子代理、且无需直接人工监督的 AI 代理,这份研究正好到来。

研究人员认为,这些能力同样也是一种风险。“通过改变环境而非模型,”论文指出,“该陷阱将代理自身的能力武器化,用来对付它自己。”

论文的框架共识别出 6 类攻击,并以它们针对代理运行过程中哪一部分来组织。内容注入陷阱利用了一个落差:人类在网页上看到的内容,与 AI 代理在底层 HTML、CSS 以及元数据中解析到的内容之间存在差异。

隐藏在 HTML 注释中的指令、无障碍标签或以样式呈现为“隐形”的文本不会出现在供人类审阅者查看的界面中,但它们会被注册为合法指令供代理执行。WASP 基准发现,嵌入在网页内容中的简单、人类编写的提示词注入,能在高达 86% 的测试场景中对代理产生部分劫持。

语义操纵陷阱的工作方式不同。它们并不是注入指令,而是用框架、权威信号或情绪化语言对文本进行“饱和”,从而扭曲代理的推理方式。大型语言模型(LLM)会表现出同样的锚定与框架偏差,这些偏差会影响人类认知;因此,即便只是将相同事实换个说法来表达,也可能导致代理输出截然不同的结果。

认知状态陷阱则更进一步:通过投毒来破坏代理用于记忆检索的数据库。论文中引用的研究显示,把少于一把把量级的少数经过优化的文档注入知识库,就能够可靠地将代理对特定查询的回答进行重定向;部分攻击成功率在数据污染低于 0.1% 时仍可超过 80%。

行为控制陷阱跳过了这种细微差别,直接瞄准代理的行动层。这类陷阱包括:嵌入式越狱序列——一旦被摄取就能覆盖安全对齐;数据外传指令——将敏感的用户信息重定向到由攻击者控制的端点;以及子代理生成陷阱——迫使父代理实例化被攻陷的子代理。

论文记录了一个涉及微软 M365 Copilot 的案例:一封精心构造的电子邮件导致系统绕过内部分类器,并将其完整的特权上下文泄露到攻击者控制的端点。系统性陷阱的设计目标是让整套代理网络同时失效,而不是只针对单个系统。

这些包括拥塞攻击:让代理同步陷入对有限资源的穷尽式需求;基于 2010 年股市 Flash Crash(闪电崩盘)的建模相互依赖级联;以及组合式片段陷阱——将恶意载荷分散到多个看似良性的来源中,只有在把这些来源汇总后才会重构为完整攻击。

“通过向环境投放旨在借助相关代理行为触发宏观层面失败的输入,”谷歌 Deepmind 的论文解释道,随着 AI 模型生态系统变得越来越同质化,这种做法将变得愈发危险。由于算法化代理被深度嵌入交易基础设施,金融与加密领域面临直接暴露风险。

人类参与(Human-in-the-Loop)陷阱为该分类补上最后一块拼图:它们并不针对代理自身,而是针对那些正在监督代理的人工主管。被攻陷的代理可以生成工程化输出,诱导产生批准疲劳;提供技术细节密度很高的摘要,使非专业人士在不加审查的情况下就予以授权;或者插入看起来像合法建议的网络钓鱼链接。研究人员将这一类别描述为目前研究不足,但预计会随着混合的人类—AI 系统规模扩大而增长。

研究人员表示:保障 AI 代理需要的不止是技术层面的修复

这份论文并未将这 6 类作为彼此孤立的对象。单个陷阱可以被串联起来,在多个来源之间进行分层部署,或被设计为仅在特定的未来条件下才会触发。论文中引用的、在各类红队测试研究中测试过的每一个代理,至少都会在某个环节遭遇一次被攻陷;在某些情况下,还会执行非法或有害的行为。

此前,OpenAI 首席执行官 Sam Altman 以及其他人已经指出:给予代理对敏感系统的不受限制访问存在风险,但这份论文提供了首张结构化地图,精确展示这些风险在实践中究竟是如何具体发生的。Deepmind 的研究人员呼吁对三大领域进行协同应对。

在技术层面,他们建议在模型开发期间进行对抗式训练,使用运行时内容扫描器、摄入前源过滤器,并配备输出监控:一旦检测到异常行为,就可以在任务中途暂停某个代理。在生态层面,他们主张制定新的网络标准,使网站能够标记出面向 AI 消费的内容,并通过信誉系统对域名可靠性进行评分。

在法律层面,他们识别出存在一个问责空白:当一名被劫持的代理实施金融犯罪时,现有框架无法明确回答责任应当落在代理运营者、模型提供方还是域名所有者身上。研究人员通过刻意措辞来呈现这一挑战:

“网络最初是为人类的眼睛而建;如今它正在被为机器读者重建。”

随着代理的采用不断加速,问题也会从“网上存在哪些信息”转向“会让哪些 AI 系统相信关于这些信息的内容”。在真实世界的漏洞利用大规模出现之前,政策制定者、开发者和安全研究人员能否足够快地协调一致来回答这一问题,仍是一个尚未确定的变量。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论