AI 模型跑分高却难干活?新基准 ALE 揭示 Agent 完成专业任务差距
2026/6/12 4:00:06 网站建设 项目流程

【导语:AI 模型在各类 benchmark 上表现出色,但在真实工作中却难以发挥作用。由加州大学伯克利分校牵头的研究团队提出新基准 Agents’ Last Exam(ALE),揭示了当前 AI Agent 在完成复杂专业任务上的差距。】


新基准 ALE 应运而生

如今 AI 模型看似强大,在棋类游戏和主流 benchmark 上表现优异,但却无法真正帮人类干活。研究团队认为问题在于评估体系,现有常用基准无法衡量 AI 在真实、长流程、具经济价值工作中的表现。为此,他们提出了新基准 ALE,只有通过这场“最后的考试”,AI agents 才算具备持续完成真实专业工作的能力。

ALE:考什么与怎么考

ALE 是由 250 余位行业专家共同开发的 AI Agent 评测基准,收集了 1490 个来自制造、法律、医疗、视觉媒体等多领域的真实工作任务。这些任务要求 AI 像人一样在电脑上完成完整工作流程,对 Agent 提出了更高要求,被称为 Generalist Computer - Use Agent(GCUA)。

ALE 提供了可执行和评分的任务环境,任务脚本负责加载任务、准备环境和评分,Agent 根据任务描述执行操作。93.2% 的任务能自动判分,无需人工打分。

考试成绩暴露差距

研究结果显示,主流模型在 ALE 最难层级中平均完整通过率仅为 2.6%,表现最好的配置 Codex + GPT - 5.5 完整通过率也只有 8.6%。研究团队列举了多个失败案例,如音乐转谱、注塑仿真、绿幕合成等任务,AI 因各种原因得分较低。

对失败原因分类发现,以 Claude Code + Opus 4.7 为例,理解和方法问题合计约占八成,当前系统的主要瓶颈在于领域知识,而非执行能力。同时,更换模型带来的结果差异明显大于更换 agent 框架。

ALE 的不足与未来方向

ALE 以 SOC 2018 为职业分类骨架,主要覆盖软件型、数字化专业工作,现阶段任务主要运行在 Linux 或 Windows 虚拟机中,且在不同领域覆盖不均衡。公开集目前只占完整任务池的一部分,公开子集和完整任务池在各领域通过率相关系数为 0.89。

不过,研究团队认为 ALE 是持续更新的基准,未来任务池会扩展到新工作流和新行业,私有池任务也会定期轮换进入公开集。

编辑观点:ALE 基准的提出为评估 AI Agent 在真实工作中的能力提供了新视角,虽存在不足,但指明了未来发展方向,有助于推动 AI 真正服务于专业工作。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询