【导语:AI 模型在各类 benchmark 上表现出色,但在真实工作中却难以发挥作用。由加州大学伯克利分校牵头的研究团队提出新基准 Agents’ Last Exam(ALE),揭示了当前 AI Agent 在完成复杂专业任务上的差距。】
如今 AI 模型看似强大,在棋类游戏和主流 benchmark 上表现优异,但却无法真正帮人类干活。研究团队认为问题在于评估体系,现有常用基准无法衡量 AI 在真实、长流程、具经济价值工作中的表现。为此,他们提出了新基准 ALE,只有通过这场“最后的考试”,AI agents 才算具备持续完成真实专业工作的能力。
ALE 是由 250 余位行业专家共同开发的 AI Agent 评测基准,收集了 1490 个来自制造、法律、医疗、视觉媒体等多领域的真实工作任务。这些任务要求 AI 像人一样在电脑上完成完整工作流程,对 Agent 提出了更高要求,被称为 Generalist Computer - Use Agent(GCUA)。
ALE 提供了可执行和评分的任务环境,任务脚本负责加载任务、准备环境和评分,Agent 根据任务描述执行操作。93.2% 的任务能自动判分,无需人工打分。
研究结果显示,主流模型在 ALE 最难层级中平均完整通过率仅为 2.6%,表现最好的配置 Codex + GPT - 5.5 完整通过率也只有 8.6%。研究团队列举了多个失败案例,如音乐转谱、注塑仿真、绿幕合成等任务,AI 因各种原因得分较低。
对失败原因分类发现,以 Claude Code + Opus 4.7 为例,理解和方法问题合计约占八成,当前系统的主要瓶颈在于领域知识,而非执行能力。同时,更换模型带来的结果差异明显大于更换 agent 框架。
ALE 以 SOC 2018 为职业分类骨架,主要覆盖软件型、数字化专业工作,现阶段任务主要运行在 Linux 或 Windows 虚拟机中,且在不同领域覆盖不均衡。公开集目前只占完整任务池的一部分,公开子集和完整任务池在各领域通过率相关系数为 0.89。
不过,研究团队认为 ALE 是持续更新的基准,未来任务池会扩展到新工作流和新行业,私有池任务也会定期轮换进入公开集。
编辑观点:ALE 基准的提出为评估 AI Agent 在真实工作中的能力提供了新视角,虽存在不足,但指明了未来发展方向,有助于推动 AI 真正服务于专业工作。