LLM大模型评测(ARC-AGI-2)
2026/4/24 12:16:14 网站建设 项目流程

ARC-AGI-2 是 ARC-AGI 基准体系的第二代版本,目标不是单纯把题目“做得更难”,而是更精准地测量系统在陌生任务上的抽象推理、组合泛化与高效求解能力。相比 ARC-AGI-1,ARC-AGI-2 更强调高阶规则组合、上下文条件推理、人类可解性校准,以及“准确率 + 成本”双维度评测,因此更适合用来衡量 2025 年之后推理系统的真实进展。([ARC Prize][1])

1. 背景与基准定位

ARC-AGI 系列的核心理念,是尽量避开“知识记忆型测试”,转而聚焦fluid intelligence(流体智能),也就是在有限示例下理解新规则、解决新问题、适应新情境的能力。ARC-AGI-1 采用彩色网格输入输出任务,共 800 个 puzzle-like tasks,要求系统从少量示例中归纳变换规则;ARC-AGI-2 则在保留相同任务表达形式的前提下,升级为更高阶、更严格校准、并显式考察效率的新基准。([ARC Prize][2])


2.ARC-AGI-2 的核心定义

ARC-AGI-2 仍采用 ARC 经典的网格推理格式:每个任务由若干输入-输出示例对组成,测试时给定一个新的输入网格,要求模型输出精确匹配的目标网格。官方技术指南说明,ARC-AGI-1 与 ARC-AGI-2 共享同一任务格式与数据结构,因此 ARC-AGI-2 的升级重点不在表示形式变化,而在任务设计、难度分布、人类校准和评测协议层面。([ARC Prize][3])

从官方页面看,ARC-AGI-2 的目标是为最先进推理系统提供更强的压力测试信号,并鼓励研究者探索新的求解范式。它不只是考察“是否解出”,还强调“是否高效解出”,因此 benchmark 的对象已经从“单个模型”扩展为“模型 + 搜索/修正 + 验证 + 预算控制”的完整求解系统。([ARC Prize][1])


3. 解决痛点

3.1 ARC-AGI-1 的区分能力开始下降

ARC-AGI-1 最初非常成功,因为它抓住了一个经典难题:AI 往往擅长大规模记忆与统计拟合,但不擅长在极少示例下即时学会全新规则。不过随着模型与外循环方法的发展,旧 benchmark 逐渐出现一个问题:部分题目越来越可能被高成本 test-time adaptation、程序搜索或更复杂的求解 harness 攻破,导致分数不再只反映“抽象推理质量”,而部分反映“算力预算与外循环工程能力”。ARC Prize 官方在第二代页面中明确把“效率测试”单列出来,正说明他们意识到了这一问题。([ARC Prize][2])

3.2 旧基准对更高阶组合推理测量不足

ARC-AGI-1 的题目已经很难,但对于新一代推理系统来说,仅靠“识别一个明显局部规则”已不足以拉开更细粒度差距。ARC-AGI-2 的设计说明强调,它面向的是更强的 reasoning systems,要提供更有效的 AGI progress signal。这意味着旧版在高阶组合、上下文依赖、多步推演上的带宽已经不够,需要更高天花板的第二代测试集。([ARC Prize][1])

3.3 需要更扎实的人类校准

ARC-AGI 系列一直强调“对人容易、对 AI 难”,但第二代进一步把这一原则做成了受控校准流程。ARC-AGI-2 官方页面明确给出:公开、半私有、私有三个评测集都经过校准,并结合 400 多名公众参与的测试数据;同时,正式评测任务满足至少两名人类在不超过两次尝试内解出。这说明第二代 benchmark 的提出,也是在解决“人类可解性缺少更强实验支撑”的问题。([ARC Prize][1])


4. 创新点

4.1 保留旧格式,升级评测纯度

ARC-AGI-2 的一个关键优点是向后兼容但评测升级。它没有推翻 ARC-AGI-1 的任务表达,而是在相同网格格式上重构任务集,使研究者能复用已有可视化、数据读取和求解框架,同时获得更高质量的 benchmark 信号。([ARC Prize][3])

4.2 更强调组合推理与上下文规则应用

官方将 ARC-AGI-2 定位为针对最先进 reasoning systems 的压力测试,这意味着其任务不再只是“看出一个规则”,而更偏向多规则组合、上下文控制、条件化执行与结构化归纳。虽然官网摘要没有逐条列出所有推理类型,但从其“stress-test reasoning systems”与“more useful signal”定位可以清晰看出,第二代 benchmark 旨在提升对高阶推理能力的敏感度。([ARC Prize][1])

4.3 正式引入效率维度

ARC-AGI-2 的一个标志性创新,是把cost-per-task这类效率指标放到和准确率同等重要的位置。ARC Prize 官方说明与排行榜页都强调,真正的智能不只是解题,更是以较低资源成本解题。这一点把 ARC-AGI-2 从传统“只看准确率”的 benchmark,推进成更接近“能力 + 效率”联合测量的系统评测平台。([ARC Prize][1])

4.4 评测集校准更严格

ARC-AGI-2 的 Public Eval、Semi-Private Eval 和 Private Eval 都经过统计校准,目标是提升不同子集间分数的可比性,减少“公开集高分、隐藏集失真”的问题。相比许多只依赖一次性隐藏测试集的 benchmark,这种多级校准结构更适合做长期、公开、可比较的研究迭代。([ARC Prize][1])


5. 构建流程

5.1 任务表达

ARC-AGI-2 采用和 ARC-AGI-1 相同的数据结构:任务由训练示例对与测试输入组成,底层以 JSON 网格形式保存,可视化为彩色方格图。对求解系统而言,输入不是自然语言题目,而是一组结构化视觉符号,因此 benchmark 尽量减少语言先验与世界知识带来的干扰。([ARC Prize][3])

5.2 数据集划分

ARC-AGI-2 官方页面给出的数据划分是:1000 个训练任务、120 个 Public Eval、120 个 Semi-Private Eval、120 个 Private Eval。训练集用于开发与调试;公开评测集用于本地/公开比较;半私有与私有评测集则主要用于竞赛和最终验证。([ARC Prize][1])

5.3 人类校准流程

ARC-AGI-2 的正式评测子集并不是简单随机抽样,而是经过人类测试与难度控制。官方说明,构建中结合了 400 多名公众参与的测试数据,且评测任务满足“至少两名人类在不超过两次尝试内解出”。这一步的意义在于保证 benchmark 不会滑向“人和机器都很难”的纯谜题集,而继续维持 ARC 最关键的设计原则:对普通人可解,但对当前 AI 困难。([ARC Prize][1])

5.4 评测协议

ARC-AGI-2 继承了 ARC 系列的 pass@2 精神:允许少量尝试空间,以适应少数任务潜在的合理歧义。同时,第二代 benchmark 更强调提交系统的可运行性与预算约束,因此现实中的高分方案往往不是一个“单次前向模型”,而是一个包含候选生成、规则验证、错误修正和资源管理的外循环求解器。ARC Prize 官方排行榜页对 cost/performance 关系的强调,也印证了这一点。([ARC Prize][4])


6. 优缺点分析

6.1 优点

6.1.1 更接近“抽象泛化”本质

ARC-AGI-2 最大的优点,是它继续绕开知识记忆型测试,把焦点放在从少量示例中即时学习新规则的能力上。相比很多语言 benchmark,它更不容易被简单的数据记忆或互联网检索路径“投机取巧”地解决。([ARC Prize][5])

6.1.2 人类对照更扎实

第二代 benchmark 不只强调“对人容易”,还把这一点落实到正式人类测试与任务筛选流程中,因此它的人类基线更加可信,也更适合作为“AI 离流体智能还有多远”的参考尺。([ARC Prize][1])

6.1.3 引入效率评价更符合智能定义

ARC-AGI-2 强调 cost-per-task,意味着它不鼓励无上限算力堆叠式刷分,而更看重高效问题求解。这比只看 accuracy 的传统 benchmark 更贴近“智能是高效适应能力”的理念。([ARC Prize][1])

6.2 缺点

6.2.1 任务世界仍然较窄

ARC-AGI-2 虽然非常适合评测抽象推理,但它依然局限在彩色网格与离散视觉符号世界中。它不直接覆盖自然语言长期推理、现实世界常识、工具调用、行动规划与具身交互,因此不能把 ARC-AGI-2 高分直接等价为“全面 AGI”。这一局限来自它的任务格式本身。([ARC Prize][3])

6.2.2 更容易测到“系统工程总能力”

由于 ARC-AGI-2 强调 test-time reasoning 与效率控制,当前高分方案通常依赖模型、搜索、修正、验证等多模块协作。因此它测到的常常是“完整求解系统”的综合能力,而不完全是基础模型本体的纯粹能力。这个判断与 ARC Prize 对 cost/performance 和完整求解流程的公开强调一致。([ARC Prize][4])

6.2.3 错误诊断粒度有限

ARC-AGI-2 很擅长回答“系统有没有泛化到新规则”,但当系统失败时,失败原因可能是对象分解错、规则组合错、验证器弱、候选搜索预算不够,或局部归纳路径偏离。也就是说,它是很强的总测评 benchmark,但不是天然细粒度诊断工具。这个结论属于基于其任务结构的合理推断。([ARC Prize][3])


7. 与 ARC-AGI-1、Humanity’s Last Exam、MMLU 的对比

7.1 对比表

基准主要能力侧重任务形式代表性特点主要局限
ARC-AGI-1少样本抽象推理、陌生任务泛化彩色网格输入输出推理题,800 个任务强调 fluid intelligence,“对人容易、对 AI 难”长期使用后,部分题型更容易被高成本外循环攻破 ([ARC Prize][2])
ARC-AGI-2更高阶组合推理、上下文规则应用、效率与 ARC-AGI-1 相同格式,但重构任务集并引入校准与成本指标1000 train + 120/120/120 eval,校准更强,强调 cost/performance任务世界仍偏窄,更像系统级 benchmark ([ARC Prize][1])
Humanity’s Last Exam专家级学术知识与高难闭卷问答多模态闭卷题,含选择题与简答题3,000 题,覆盖几十个学科,由专家构建更偏知识与学术推理,不是“最小先验抽象归纳” benchmark ([arXiv][6])
MMLU多学科语言理解与知识问答文本多选题覆盖 57 个任务,长期是经典语言 benchmark更偏“知道多少”,对陌生规则归纳测量有限 ([arXiv][7])

7.2 文字分析

ARC-AGI-2 vs ARC-AGI-1
两者共享任务格式,但 ARC-AGI-2 更强调高阶推理、集合校准和效率,因此可视为 ARC-AGI-1 的“严格升级版”。ARC-AGI-1 更像是“证明当前 AI 在陌生抽象任务上仍然脆弱”的里程碑;ARC-AGI-2 则进一步追问:在更复杂规则组合与预算约束下,系统能否继续保持高效泛化。([ARC Prize][2])

ARC-AGI-2 vs Humanity’s Last Exam
HLE 的目标,是在学术与专家知识边界上测试模型,属于“闭卷、多学科、多模态、高难知识推理” benchmark;ARC-AGI-2 则刻意减少世界知识依赖,更关注陌生规则归纳与抽象结构推理。前者更像“学术终极考试”,后者更像“新规则即时学习考试”。([arXiv][6])

ARC-AGI-2 vs MMLU
MMLU 测的是语言模型在 57 个学科任务上的多任务理解与问答能力,本质上仍偏向知识广度与文本推理;ARC-AGI-2 则更强调从极少示例中抽象新规则并即时应用。可以概括为:MMLU 更接近“你知道多少”,ARC-AGI-2 更接近“你能否当场学会一种从未见过的新规则”。([arXiv][7])


8. 对模型研究与系统设计的启示

从 ARC-AGI-2 的设计可以看出,未来高水平推理系统不能只依赖更大的预训练参数量,还需要更强的测试时适应能力、候选生成能力、程序化验证能力与预算控制能力。这意味着研究重点会逐渐从“单模型一次前向给答案”转向“模型 + 外循环求解器”的系统设计。ARC Prize 官方排行榜对成本与性能关系的强调,也在推动这一研究方向。([ARC Prize][4])

对于基础模型研发而言,ARC-AGI-2 特别有价值的一点是:它迫使模型真正处理组合规则发现、局部上下文切换、对象级表征、临时符号语义绑定这类问题。即便最终求解器采用了搜索与修正机制,底层模型如果缺乏这些能力,外循环的上限也会很低。因此,ARC-AGI-2 既是 benchmark,也是推理系统设计方向的牵引器。这个结论是基于其 benchmark 结构与评测导向做出的综合判断。([ARC Prize][1])


9. 结论

ARC-AGI-2 的意义,不是把 ARC-AGI-1 简单做成“更难版”,而是把 benchmark 的重点从“是否解题成功”升级为“是否能以接近人类的方式、高效完成陌生任务推理”。它在保留 ARC 原始网格范式的同时,通过更高阶任务设计、人类校准、评测集一致性和效率指标,引入了更强、更纯、更适合下一阶段研究的评测信号。与 HLE 和 MMLU 相比,ARC-AGI-2 的覆盖面更窄,但在“抽象泛化与陌生任务学习”这一维度上更锋利。([ARC Prize][1])


参考资料

  1. ARC Prize 官方:ARC-AGI-2 页面。([ARC Prize][1])
  2. ARC Prize 官方:ARC-AGI-1 页面。([ARC Prize][2])
  3. ARC Prize 官方:What is ARC-AGI。([ARC Prize][5])
  4. ARC Prize 官方:ARC-AGI-1 & ARC-AGI-2 Guide。([ARC Prize][3])
  5. Humanity’s Last Exam 论文页面。([arXiv][6])
  6. MMLU 论文页面。([arXiv][7])

参考链接:
[1]: https://arcprize.org/arc-agi/2?utm_source=chatgpt.com “ARC-AGI-2”
[2]: https://arcprize.org/arc-agi/1?utm_source=chatgpt.com “ARC-AGI-1”
[3]: https://arcprize.org/guide/1?utm_source=chatgpt.com “ARC-AGI-1 & ARC-AGI-2 Guide”
[4]: https://arcprize.org/leaderboard?utm_source=chatgpt.com “ARC Prize - Leaderboard”
[5]: https://arcprize.org/arc-agi?utm_source=chatgpt.com “What is ARC-AGI?”
[6]: https://arxiv.org/abs/2501.14249?utm_source=chatgpt.com “Humanity’s Last Exam”
[7]: https://arxiv.org/abs/2009.03300?utm_source=chatgpt.com “Measuring Massive Multitask Language Understanding”

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询