AI助手真的能帮你订机票、投简历吗?
2026/4/18 7:30:50 网站建设 项目流程

这项由英属哥伦比亚大学、滑铁卢大学、Vector Institute、卡内基梅隆大学、上海交通大学、浙江大学、香港科技大学、清华大学等十余所高校与研究机构联合开展的研究,于2026年4月以预印本形式发布在arXiv平台,论文编号为arXiv:2604.08523。

你有没有想过,让AI帮你订一张机票、在招聘网站投一份简历、或者在宠物用品平台下单买猫粮?听起来很美好——只要动动嘴皮子,AI就把事情全办了。事实上,已经有不少人开始相信AI助手正在迅速接近这个目标,毕竟你时常能听到"AI完成了某某基准测试,得分高达70%"之类的新闻。

然而,当研究团队真正把AI放到真实的网站上,让它去完成这些普通人每天都要做的事情时,结果却相当出乎意料。即便是目前公认最强的AI模型,也只能完成大约三分之一的任务。这个发现不是在说AI很差,而是在说:我们此前用来测量AI能力的"尺子",可能一直量错了地方。

这项研究的核心产出,是一个名为ClawBench的评测框架。它横跨153个真实网络任务、144个正在运营的真实网站、15个生活类别,从日常购物、旅行预订、求职申请,到学术注册、宠物服务、金融操作,几乎涵盖了普通人在网上能碰到的所有需要"动手操作"的场景。更重要的是,这些任务都在真实的网站上运行,而不是搭建的模拟环境。

一、AI做网络任务,到底难在哪里

要理解这项研究为什么重要,先要搞清楚"让AI完成网络任务"这件事,究竟难在哪里。

假设你让一个朋友帮你在某个旅游网站上订一张从北京飞上海的机票,经济舱,12月31日出发,单程。对于你的朋友来说,这件事不过需要几分钟:打开网站、填写出发地和目的地、选择日期、选择舱位、找到合适的航班、点击预订,在确认页面再核对一遍信息,最后提交。整个过程看似简单,但中间涉及无数个小步骤:网站可能弹出一个Cookie同意弹窗需要先点掉,日期选择器的交互方式可能跟别的网站不一样,某些选项藏在下拉菜单里需要点两次才能展开,还有可能遇到验证码……

这些在人类眼中只是"小麻烦"的东西,对AI来说却是真实的挑战。现实网站不像教科书,它们是动态的、不断变化的,充满了各种JavaScript动态渲染的内容、各种意想不到的交互设计、各种需要登录验证的环节,以及各种针对机器人的防御机制。

过去,研究者们为了让测试变得可控和可重复,通常会搭建一个"沙盒环境"——就像在一个精心布置的摄影棚里拍照,而不是在真实街道上拍摄。这些沙盒环境里的网站是静态的HTML页面,DOM结构(可以理解为网页的骨架结构)是固定不变的,不需要登录,没有动态内容,没有弹窗,没有Cookie提示。在这样一个被极度简化的环境里,AI的表现自然会好看很多。

正是因为这个根本性的差距,那些在旧式测试中表现亮眼的AI,一旦放到真实的网站上,就会原形毕露。研究团队把这个现象称为"基准测试饱和"——不是AI真的很强了,而是测试题太简单了。

二、一把真正难用的"尺子"是如何造出来的

ClawBench的设计思路,说白了就是:既然要测真实能力,就必须在真实环境里测。但真实网站有个大问题——如果AI真的帮你在购物网站下了单、在招聘网站投了简历、在餐厅平台订了位子,这些操作可能会产生真实的后果,比如真的被扣款、真的提交了一份不该提交的申请表。

研究团队解决这个问题的方式非常精巧,就像在现实赛道上安装了一个"最后一步刹车"。他们开发了一个轻量级的Chrome浏览器扩展程序,配合一个基于CDP(Chrome开发者工具协议)的监控服务器。这套系统会在AI操作整个过程中安静地旁观,完全不干预AI与网站的任何交互——弹窗让AI自己处理,动态页面让AI自己应对,登录环节让AI自己摸索——直到最后那一刻,当AI即将点下"提交订单"或"发送申请"这个最终的、不可逆的按钮时,系统会在这个HTTP请求真正发出之前把它拦截下来,记录下AI填写的所有内容,然后阻止这个请求真正到达服务器。

这样一来,AI经历的是完整的、真实的网站操作过程,但最终那个会产生真实后果的动作被悄悄"拦截"了。整个过程对AI来说是完全透明的,它不知道有人在"最后一秒"按了刹车,所以它会像真正要提交一样认真操作。这确保了测试的真实性,同时又保证了零副作用——没有真实订单被提交,没有真实申请被发出。

任务库的构建同样经过了严格的筛选流程。研究团队的人工标注员逐一访问各类平台,设计出真实的用户场景,并亲自在同样的系统下完成每一个任务,留下"人类参考轨迹"作为标准答案。整个153个任务的最终数据集,经历了多轮筛选,去掉了需要付费订阅的任务、地理限制导致无法访问的任务,以及已经下线的网站上的任务。每一个拦截信号——也就是那个"最后刹车"的触发条件——都由人类专家手动标注,明确指定是哪个URL、哪种HTTP请求方法、哪些表单字段,以确保拦截系统不会误拦良性操作,也不会漏掉真正的提交动作。在对全部153个任务的验证中,这套拦截机制的准确率达到100%,没有一次误触发。

三、给AI装上"行车记录仪":五层数据记录系统

ClawBench另一个值得细说的设计,是它的五层行为数据记录系统。以往很多测试只看最终结果——AI有没有完成任务,成了就是1分,没成就是0分。但ClawBench想知道的不仅仅是结果,还有"为什么失败"以及"在哪一步出了问题"。

为了实现这一点,系统在AI操作的每一个瞬间都同时记录五类数据。第一层是会话录像,通过Xvfb虚拟显示器加上FFmpeg录屏工具,把AI整个操作过程的浏览器画面完整录制下来,就像给AI装了一台行车记录仪。第二层是动作截图,每当AI执行一个操作(点击、输入文字、滚动页面),系统就立刻截一张屏,记录下那一刻的页面状态。第三层是HTTP流量日志,记录AI的操作引发的所有网络请求,包括请求的内容、时间和目标地址,最终被拦截的那个提交请求也属于这一层。第四层是AI自身的"思考记录",AI在每一步决策时产生的推理过程、工具调用记录和中间输出,都以结构化的JSON格式保存下来。第五层是底层浏览器动作日志,记录鼠标点击的坐标、键盘输入的内容、页面滚动的距离、标签页切换等低层次操作,这份记录独立于AI的自我汇报,可以作为交叉核验的依据。

人类标注员在同样的系统下完成每一个任务,也会产生同样格式的五层记录。这样,AI的记录和人类的记录就形成了完全可以逐层对比的平行结构。当一个任务失败时,开发者可以像侦探翻阅案件档案一样,逐层查看AI当时看到了什么页面、做出了什么判断、执行了什么操作、最终提交了什么数据,然后与人类参考记录逐步对照,精确定位失败发生在哪一步、原因是什么。

四、如何判断AI到底有没有完成任务

有了这些记录,接下来的问题是:谁来判断AI做的对不对?

ClawBench的答案是用另一个AI来做裁判——具体来说,是调用Claude Code这个具有代码执行和分析能力的AI子系统,在一套固定的评估规则下,把AI的完整轨迹记录和人类参考轨迹记录放在一起进行比对分析。这个评估AI不只是看最终状态,而是进行逐步对齐:找出AI和人类在对应步骤上的差异,检查每一个必填字段是否填写正确,判断AI最终到达的状态是否与人类参考轨迹等价。最终输出一个二元判定(通过或失败),并附上结构化的理由说明,指出具体是哪个字段填错了、哪一步走偏了。

这套评估体系还制定了一些特殊情况的处理规则。如果任务被验证码或手机号验证阻断,但AI在此之前的所有操作都是正确的,那么判定为通过——因为这是网站本身对自动化工具的防御,不是AI能力的缺陷。如果任务中出现验证码但AI根本没有尝试处理,则判定为失败。这些规则的存在,让评判标准更贴近"真实能力"的考量,而非机械地要求AI绕过所有人类安全机制。

五、153个任务涵盖了哪些真实生活场景

ClawBench的153个任务被组织成一个两级分类体系。在宏观层面,分为八大类别:日常生活类、工作类、开发技术类、社交类、学术类、旅行类、宠物类和金融类。每个大类下面再细分出具体的子类别,总共形成15个细分方向,包括日常生活与购物与娱乐、求职与办公室与个人管理、学术与教育、旅行、宠物、金融,以及开发技术与自动化、评分与社交等。

这些任务的性质非常具体,都是普通人在生活中真实需要完成的操作,而且每一个都涉及在网站上提交某种"最终动作"——填写并提交表单、完成购买流程、发出预订请求、提交申请材料等。这一类任务被研究团队称为"写入型任务"(write-heavy tasks),与单纯在网上查信息的"只读型任务"形成对比。研究者选择聚焦在写入型任务,正是因为这类任务在过去的测试体系中几乎是空白,但在现实生活中却是人们最需要AI帮忙的那部分。

六、七个顶尖AI模型的真实考场成绩单

研究团队在ClawBench上测试了7个当前最主流的前沿AI模型,其中包括5个商业闭源模型:Claude Sonnet 4.6、GPT-5.4、Gemini 3.1 Flash Lite、Claude Haiku 4.5、Gemini 3 Flash,以及2个开源模型:GLM-5和Kimi K2.5。

整体结果相当清晰地描绘出了当前AI能力的真实边界。排名第一的Claude Sonnet 4.6完成了33.3%的任务,第二名GLM-5完成了24.2%,第三名Gemini 3 Flash完成了19.0%,第四名Claude Haiku 4.5完成了18.3%。而GPT-5.4只完成了6.5%的任务,Gemini 3.1 Flash Lite完成了3.3%,排名最末的Kimi K2.5仅完成了0.7%——几乎可以认为是基本失能。

这个结果的反差感在与其他测试的对比中更加突出。Claude Sonnet 4.6在OSWorld(一个基于虚拟机沙盒的操作系统任务测试)上的得分是72.5%,在WebArena(一个基于自托管沙盒的网页任务测试)上的得分是75.0%,而在ClawBench上只有33.3%。GPT-5.4在同样这两个旧测试上分别得了66.4%和67.3%,在ClawBench上却只有6.5%。这两个数字之间的悬殊差距,清楚地说明了一件事:在受控沙盒里表现出色,并不等于在真实网络环境中具备实际能力。

从细分类别来看,不同模型在不同类别上的表现也大相径庭,没有任何一个模型在所有类别上都占主导地位。Claude Sonnet 4.6在日常生活类(44.2%)、金融类(50%)、学术类(50%)和社交类(38.9%)表现最好;GLM-5在工作类(38.1%)表现领先;Gemini 3 Flash在旅行类(30.8%)拔得头筹;Claude Haiku 4.5则在开发技术类(27.8%)相对占优。这种分散的领先格局说明,当前的AI在不同领域的能力发展并不均衡,还没有任何一个模型能够在日常网络任务上展现出全面稳定的胜任能力。

七、ClawBench与其他测试框架的根本区别

为了让读者更清楚地理解ClawBench的定位,有必要把它和目前主流的几个同类测试框架放在一起比较。

WebArena有812个任务,但全部运行在5个自托管的沙盒网站上,使用的是脚本化验证,没有行为轨迹记录,也没有人类参考轨迹。VisualWebArena类似,910个任务只覆盖3个自托管网站,偏向视觉任务。OSWorld有369个任务,覆盖9个应用程序,运行在虚拟机沙盒里,使用脚本加截图的方式验证,没有人类参考轨迹。Mind2Web覆盖了2350个任务和137个真实网站,但测试的是动作序列的匹配,而非端到端的任务完成,且只有部分人类参考轨迹。WebVoyager在真实网站上运行,有643个任务覆盖15个网站,但全部是只读信息检索型任务,用AI作为裁判打分,只有截图记录。

ClawBench则是在144个真实网站上运行153个任务,全部是写入型的状态改变任务,使用基于人类参考轨迹的Agentic Evaluator进行五层对比评估,并为所有任务提供完整的人类参考轨迹。这套组合——真实网站、写入型任务、人类参考轨迹、五层记录、可追溯的失败诊断——在现有所有测试框架中是独一无二的。

研究团队还在图表中展示了一个"基准饱和曲线",列出了Claude Sonnet 4.6在一系列测试上的得分从高到低排列:PinchBench 88.0%、WildClawBench 77.6%、WebArena-Verified 72.5%、OSWorld-Verified 66.4%、Claw-Eval 51.1%、ClawBench 33.3%。这条下降曲线非常直观地说明:测试越接近真实世界的复杂性,AI的得分就越低。ClawBench在这条曲线的末端,是目前最接近真实挑战的测试。

说到底,ClawBench这项研究揭示的核心信息并不复杂:我们以为AI已经很能干,很大程度上是因为我们用来测量它能力的工具,本身就被设计得过于"友好"。真实网站的混乱、动态、复杂,才是AI真正需要面对的考场,而在这个考场上,最强的选手也只能拿到三分之一的分数。这当然不意味着AI一无是处,它只是意味着,在AI真正能帮你搞定机票、简历和外卖之前,还有相当长的路要走。对于普通人来说,这项研究是一个有益的提醒:目前AI作为"网络操作助手"的能力,远不如各种宣传材料描述的那么成熟可靠,在真正把敏感任务交给AI之前,还是要多留一个心眼。对于AI研究者和开发者来说,ClawBench提供的不仅是一个更难的考题,还有一套详尽的失败诊断工具——它能告诉你AI具体在哪一步卡壳了,这对于改进AI的实际能力,远比一个笼统的分数有价值。

有兴趣深入探究这一研究的读者,可以通过arXiv编号2604.08523查阅完整论文,也可以访问研究团队的项目主页claw-bench.com获取更多信息和数据集。

Q&A

Q1:ClawBench和WebArena这类旧测试有什么本质区别?

A:WebArena等旧测试在自托管的沙盒网站上运行,网页结构固定、没有弹窗和动态内容,相当于在一个特别简化的"练习场"里考AI。ClawBench则直接在144个真实运营的网站上测试,AI要面对Cookie弹窗、动态页面、验证码等真实挑战,同时测的任务都是需要填表单、提交订单等会改变服务器状态的操作,更贴近人们日常真正需要AI完成的事情。

Q2:ClawBench测试怎么保证AI不会真的在网站上下单或提交申请?

A:研究团队开发了一个Chrome浏览器扩展程序,在AI操作全程安静旁观不干预,直到AI触发最终提交的HTTP请求时,系统在请求发出之前将其拦截,记录下AI填写的内容,但阻止它真正到达服务器。AI的整个操作体验是完整真实的,只有最后那一下被悄悄"刹住",确保零真实副作用。

Q3:目前最强的AI模型在ClawBench上的通过率是多少?

A:目前在ClawBench上表现最好的是Claude Sonnet 4.6,通过率为33.3%,意味着153个任务里大约只能完成51个。排名第二的GLM-5通过率为24.2%,而GPT-5.4只有6.5%,Kimi K2.5更是只有0.7%。这与这些模型在旧式测试上动辄65%-75%的得分形成了鲜明对比。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询