收藏!小白程序员必备:大模型智能体防护方案深度解析(ClawGuard)
2026/5/8 2:29:29 网站建设 项目流程

本文介绍了智能体防护方案论文ClawGuard,分析了当前Agent流程中工具返回内容被污染的风险,将其归纳为网页/本地内容注入、MCP服务注入、技能文件注入三类。论文提出在工具调用时进行安全检查的运行时安全框架ClawGuard,通过内容清洗、规则判断、技能检查和用户审批四层防护,有效防止数据外泄、越权操作等风险。ClawGuard的核心在于将安全控制从内容审查转向动作治理,通过任务级权限建模和执行侧安全闸门,显著提升Agent安全性。实验证明,ClawGuard在多个基准测试中有效降低了攻击成功率,提高了任务完成率和防御成功率,为Agent安全提供了新的思路和解决方案。

今天想跟大家聊一篇有关智能体防护方案的论文:ClawGuard

https://arxiv.org/pdf/2604.11790

前面我们聊过很多,现在 Agent 的基本流程大体上是:用户提任务,模型规划步骤,调用工具,工具返回结果,再把这些结果继续塞回上下文里供模型下一轮推理使用。

问题就在这里:工具返回内容,往往会被当成“可信观察”继续喂给模型。

只要攻击者能污染网页、文档、技能文件,或者某个第三方工具服务的返回结果,就能把恶意指令悄悄塞进 Agent 的推理链路。

论文把这类攻击归纳为三条主要通道。

第一类是网页和本地内容注入,也就是把恶意指令藏进网页、文档、搜索结果等内容里,等 Agent 去读。

第二类是MCP 服务注入,第三方服务既可能在返回内容里夹带恶意指令,也可能在工具描述信息里提前影响模型的工具选择。

第三类是技能文件注入,也就是把恶意步骤混在正常技能说明里,让 Agent 把攻击动作当成流程的一部分去执行。

论文进一步把攻击者想达到的后果分成五类:数据外泄、越权操作、资金操纵、权限扩张、持续控制

简单讲就是Agent 安全真正要防的,是它会不会去读密钥、删文件、发请求、改配置、扩权限。

ClawGuard :把防线前移到工具调用这一刻

ClawGuard 的核心思路很直接:只要 Agent 要调用工具,就先过一遍安全检查。

论文把这套方案定义成一个“运行时安全框架”。“运行时”可以简单理解成:不是训练阶段加规则,也不是事后做审计,而是在 Agent 真正准备执行动作的那一刻介入。它关心的是:这次读文件、这次访问网站、这次执行命令、这次加载技能,到底该不该放行。

这篇论文最有价值的地方,也就在这里。

它没有把全部希望都压在“模型自己足够聪明、足够对齐、足够守规矩”这件事上,而是单独加了一层执行侧的安全闸门。模型可以继续负责理解任务和生成动作,但真正的动作能不能落地,由外部规则再判断一次。

如果用产品语言来讲,ClawGuard 很像一层Agent 安全网关。用户给任务,系统先推导出本次任务大概允许做什么;后面每一次工具调用,都拿这套规则核对一遍。超范围的动作被拦下,拿不准的动作进入人工确认,相关事件还会记日志。

它有四个核心模块。

1. 内容清洗:先把敏感信息打码

ClawGuard 的第一层是**内容清洗器,**它会在两个位置做处理:一个是工具调用发出去之前,检查参数里有没有敏感信息;另一个是工具结果返回之后,在写入上下文之前再清洗一次。

论文给的默认清洗目标,覆盖了很多现实中常见的高风险数据,比如访问令牌、私钥、连接串这类内容。做法也不复杂:一旦匹配到,就替换成对应的脱敏标记。这样至少能减少“秘密跟着工具调用一起被带出去”这种低级但致命的问题。

这一层更像“基础防漏”,它能减轻敏感数据外流风险,但它解决不了所有注入问题。真正决定某个动作能否执行的,还得看下一层。

2. 规则判断:这次动作到底合不合规

第二层是 ClawGuard 的核心,也就是规则判断器。它会对三类东西做检查:

第一类是工具调用本身,比如读文件、写文件、网页抓取、执行命令;
第二类是本地文件路径
第三类是外部网络目标,比如要访问哪个域名。

论文里给每一类都设置了白名单和黑名单,假如一个对象同时命中允许规则和禁止规则,系统会优先采纳更严格的结论。多个检查项一起出现时,也采用“更严格结果优先”的原则。

除此之外,它还会额外识别一些混淆手法,比如 Base64 编码、十六进制拼接、过度的 shell 间接调用等。一旦发现有明显混淆,就会把这次调用升格为“需要人工确认”的可疑动作。

这个设计其实非常实用。它让安全判断从“这段文字像不像攻击”变成“这个动作是不是超出了任务边界”。对 Agent 来说,后者更稳,也更容易落地。

3. 技能检查:技能包第一次运行前,要先过审

第三层是技能检查器。论文把技能看成一类特殊高风险对象,因为技能文件往往同时包含自然语言说明、执行逻辑和工具调用步骤。模型在运行时很难完整理解一个技能包到底藏了什么风险,于是 ClawGuard 规定:某个技能第一次执行前,先做风险评估,再让用户确认。通过之后缓存结论,后面复用;如果技能内容变了,就重新检查。

这一点非常有现实意义。过去很多系统把技能包当成普通配置文件看待,但从安全角度讲,它更像一个“可安装能力单元”。一旦技能生态开放起来,这里几乎一定会变成攻击入口。论文把技能单独拉出来处理,我觉得判断是对的。

4. 用户审批:系统拿不准时,让人做最后决定

第四层是审批机制。如果某次工具调用没有明确命中“允许”或“禁止”,它就会进入等待队列,暂停执行,交给用户做显式确认。用户同意才继续,拒绝或超时都算拦截。所有这些过程,都会记进审计日志。

这一步很关键,因为安全系统不可能永远把所有情况都判断得非常准。现实部署里,能一刀切的动作很少,模糊地带很多。ClawGuard 给出的答案比较朴素:规则能确定的就自动处理,规则不够确定的就让人拍板。这个思路虽然不炫,但工程上非常稳。

任务级权限建模

论文里有个很像“任务级权限建模”的步骤。在 Agent 第一次调用外部工具之前,ClawGuard 会根据用户任务,自动生成一套本次任务的活动规则。里面主要包括三部分:网络访问规则、文件访问规则、工具调用规则。

它背后的原则很像传统安全里的“最小权限”。也就是:

任务里没提到的权限,尽量不要默认开放;
模糊不清的动作,宁可进入确认流程,也不要直接放行。

论文给了一个案例。用户让 Agent 去某个网站读三篇博客,生成摘要,然后把结果写到指定目录。系统据此生成的活动规则大概就是:

允许访问指定网站;
允许写入指定目录;
允许使用网页抓取、读取、写入这些工具;
禁止执行命令,禁止访问.ssh这类敏感路径。

这个案例很适合说明 ClawGuard 的工作方式。假设网页里被人偷偷插入了一段恶意内容,诱导 Agent 去读取~/.ssh/id_rsa,再通过外部接口发出去,甚至继续删掉本地密钥文件。论文展示的结果是:这类动作会在执行前被连续拦截,因为它同时踩中了多条红线——既涉及被禁止的命令执行,又触碰了敏感路径访问。最后合法的摘要写入操作还能继续完成。

这个例子说明了一件事:

安全控制放在工具调用边界,最大的价值就在于“先拦动作,再看后果”。很多风险一旦执行出去,就已经晚了。能在落地前卡住,意义完全不同。

实验结果

论文用了三个基准来测这套方法,分别覆盖三类场景:AgentDojo、SkillInject 和 MCPSafeBench。

测试底座用了五个模型,包括 DeepSeek、GLM、Kimi、MiniMax 和 Qwen。

论文报告的主要指标包括任务完成率(CR)、攻击成功率(ASR)、防御成功率(DSR),以及显式拒绝(RR)和隐式抵抗(IRR)两类防御行为。

这里简单解释一下两个容易看晕的指标。

所谓显式拒绝,就是系统明确拦下了动作,属于“看得见的防御”;

所谓隐式抵抗,更多是模型自己没有上当,但过程不一定可审计。

论文很看重这两者的区别,因为在企业环境里,能记录、能解释、能追溯的拦截,比“碰巧没出事”更有价值。

第一组:AgentDojo 上几乎打满

在 AgentDojo 上,原始模型本身已经表现得不差,攻击成功率大约在0.6% 到 3.1%,防御成功率大约在96.9% 到 98.1%。论文认为,这说明当前商业模型对于那种语义很直白、单轮、显性的注入攻击,本身就有一定抵抗力。

加上 ClawGuard 之后,五个模型的攻击成功率都降到了0%。其中四个模型的防御成功率到了100%,Qwen 这一组是99.4%,同时任务完成率基本没有明显下降。

这组结果的重点不只是“分数又提升了一点”,而是防御性质变了。原来更多依赖模型自己“没中招”,加入 ClawGuard 之后,显式拒绝比例明显上升,很多防御动作都变成了可记录、可审计的系统拦截。

第二组:SkillInject 更能体现它的价值

SkillInject 这一组更有现实意义。

在没有防护的情况下,五个模型的攻击成功率高达26.2% 到 47.6%

这个数字明显高于 AgentDojo,说明技能注入的难点在于:恶意内容经常会和正常步骤混在一起,表面上看很像合理流程,模型容易把它顺手执行掉。

加入 ClawGuard 之后,整体攻击成功率降到4.8% 到 14.2%,相对下降幅度在50% 到 84%之间。GLM-5 这一组防御成功率达到82.1%,MiniMax-M2.5 则达到全组最高的84.6%。任务完成率整体变化不大。

这一组实验很能说明一个现实问题:开放技能生态确实危险。因为很多恶意技能,并不会把攻击意图写得很露骨,它往往只是悄悄把某一步“正常操作”替换成“带风险的动作”。这种情况下,靠模型自己理解语义边界很难稳住,执行侧的规则拦截就显得特别重要。

第三组:MCPSafeBench 说明 MCP 生态确实是高风险区

在 MCPSafeBench 上,未加防护时的攻击成功率大约在36.5% 到 44.5%,整体也很高。论文给出的解释很直接:Agent 默认并不会仔细分辨 MCP 服务返回内容的可信度,很多返回结果会直接被当作后续推理依据。

加入 ClawGuard 后,攻击成功率下降到7.1% 到 11.0%,防御成功率提升到74.9% 到 75.8%左右,显式拒绝比例也上升到了45.1% 到 50.2%

这里可以看出一个很实际的判断:

MCP 的风险,很多时候不在协议名词本身,而在第三方服务返回内容会不会直接进入 Agent 的行动链。

只要返回结果被当成可信观察,后面的工具选择、命令执行、路径访问就可能被带偏。ClawGuard 的价值,就是在动作真正落地之前再核对一次。

Agent 安全正在从“内容审查”走向“动作治理”

我觉得这篇论文真正有启发的地方,在于它把 Agent 安全的重心往前推了一步。

过去很多防御方案,核心问题还是“这段输入危不危险”“这段文本像不像攻击”“模型会不会被说服”。这些问题当然重要,但到了工具型 Agent 场景,已经不够了。因为真正要命的节点,往往是读、写、连、发、执行这些动作。

换句话说,Agent 安全这件事,接下来很可能会越来越像传统系统安全:
要有权限边界,要有最小授权,要有拦截机制,要有审计记录,要有人工审批入口。论文里的 ClawGuard,本质上就是把这套思路搬进了大模型智能体。

如果你在做 Agent 平台、工具调用框架、技能市场、MCP 接入层,这篇论文很值得认真看。它给出的并不只是一套防御技巧,更像一个完整的产品方向:在模型之外,专门做一层 Agent 运行时安全控制面。

局限性

当然,这篇论文也不是完全没有问题。它最需要提醒读者的一点,是:论文当前实验使用的,其实还是“基础规则版”的 ClawGuard。

也就是说,实验里真正验证的是“基线规则 + 工具调用边界拦截”这套机制,而论文很强调的“根据具体任务自动推导规则”这一部分,完整结果还没有在当前版本里展开。作者明确说,包含任务感知规则推导的完整结果会在后续版本补充。

另外,论文在实验里对“判断不清的动作”采用了更保守的处理:直接按拒绝处理,没有真的把它交给用户做审批。这有利于安全评估,但真实产品里会多出一个问题:如果模糊动作很多,用户会不会被频繁打断?这个交互成本,目前论文还没有充分展开。

还有一点也要看到:论文自己承认,剩余失败主要集中在两类情况。

一类是那种后果体现在模型生成内容里的“误导型攻击”,它未必通过明显的危险工具调用来实现;

另一类是某些目标地址覆盖不够完整的隐蔽注入。前者更像“认知层误导”,后者更像“规则覆盖还不够细”。这说明 ClawGuard 很适合防执行型风险,但对于所有内容层面的误导,它还不是万能解。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包

  • ✅ 从零到一的 AI 学习路径图
  • ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
  • ✅ 百度/阿里专家闭门录播课
  • ✅ 大模型当下最新行业报告
  • ✅ 真实大厂面试真题
  • ✅ 2026 最新岗位需求图谱

所有资料 ⚡️ ,朋友们如果有需要《AI大模型入门+进阶学习资源包》下方扫码获取~

① 全套AI大模型应用开发视频教程

(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)

② 大模型系统化学习路线

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

④ AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

⑤ 大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

⑥ 大模型大厂面试真题

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余

以上资料如何领取?

为什么大家都在学大模型?

最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!

不出1年,“有AI项目经验”将成为投递简历的门槛。

风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!

这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

以上全套大模型资料如何领取?

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询