大模型评测 Benchmark 总结
2026/6/5 8:57:21 网站建设 项目流程

一、按能力维度分类(按关注度从高到低排序)

1. 综合能力 ⭐⭐⭐⭐⭐

Benchmark说明
MMLU-ProMMLU 升级版,10 选 1,难度更高,几乎每家必报
HLE (Humanity’s Last Exam)2025 新晋顶级难度综合评测,前沿模型必比
BIG-Bench / BBH200+ 任务,BBH 为 23 个高难子集,老牌对照
MMLU57 学科多任务语言理解,已饱和但仍常引用
AGIEval基于人类考试(高考、SAT、律师资格)
HELM斯坦福多维度评测框架

2. 推理能力 ⭐⭐⭐⭐⭐

Benchmark说明
GPQA / GPQA Diamond研究生级科学问答,新一代"硬指标"
AIME 2024/2025美国数学邀请赛,推理模型时代标配
MATH / MATH-500竞赛级数学题,几乎人人报
HMMT / Putnam高端数学竞赛,前沿模型开始引用
GSM8K小学数学应用题,已基本饱和
DROP阅读理解 + 离散推理
ARC科学推理
HellaSwag常识推理
WinoGrande代词消歧

3. 代码能力 ⭐⭐⭐⭐⭐

Benchmark说明
SWE-bench / SWE-bench Verified真实 GitHub issue 修复,最具代表性
LiveCodeBench持续更新,防数据污染,频率极高
Aider Polyglot多语言代码编辑,增长很快
BigCodeBench贴近真实开发
HumanEval164 道 Python 函数补全,已饱和
MBPP入门级 Python 编程,已饱和
MultiPL-EHumanEval 多语言扩展

4. Agent / 工具使用 ⭐⭐⭐⭐

Benchmark说明
τ-bench多轮工具调用与对话,主流标准
BFCL v3函数调用事实标准
GAIA通用 AI 助手真实任务
SWE-Lancer / SWE-bench Multimodal新兴 Agent 评测
WebArena / OSWorld浏览器 / 桌面操作
AgentBench8 种环境 Agent 能力
ToolBench工具使用

5. 长上下文 ⭐⭐⭐

Benchmark说明
RULER长上下文综合评测,主流标准
MRCRGoogle 系常用
LongBench / LongBench v2长文本多任务
∞Bench100K+ token
Needle in a Haystack大海捞针,逐渐被取代

6. 中文能力 ⭐⭐⭐

Benchmark说明
C-Eval中文 52 学科多选题
CMMLU中文多任务理解,67 个主题
SuperCLUE中文综合榜单
GAOKAO-Bench基于中国高考题

二、2025–2026 技术报告高频 Benchmark

基于 GPT-5、Claude 4.x、Gemini 2.5、Llama 4、DeepSeek-V3/R1、Qwen3 等报告统计

类别高频 Benchmark
综合能力MMLU-ProGPQA DiamondHLE、BBH
数学推理AIME 2024/2025MATH-500、HMMT、Putnam
代码SWE-bench VerifiedLiveCodeBench、Aider Polyglot
Agent / 工具τ-bench、BFCL v3、GAIA、SWE-Lancer
长上下文RULER、MRCR、LongBench v2
指令 / 对齐IFEvalArena-Hard v2、Chatbot Arena ELO
2025–2026 “新标配套餐”:

MMLU-Pro + GPQA Diamond + HLE + AIME + MATH-500 + SWE-bench Verified + LiveCodeBench + τ-bench + IFEval + RULER + Arena-Hard


三、选择建议

评测目标推荐 Benchmark
综合能力MMLU-Pro / Arena-Hard / HLE
推理GPQA Diamond / MATH-500 / AIME
代码SWE-bench Verified / LiveCodeBench
AgentGAIA / τ-bench

四、重点 Benchmark 详解

1. MMLU-Pro

  • 全称:Massive Multitask Language Understanding - Professional
  • 来源:TIGER-Lab,2024 年发布,MMLU 的升级版
  • 规模:约 12,000 题,覆盖 14 个学科(数学、物理、化学、法律、工程、心理等)
  • 形式:单选题,10 个选项(MMLU 是 4 选 1,难度大幅提升)
  • 特点
    • 去除原 MMLU 中噪声题、过时题
    • 加入更多需要推理的题目(非纯背诵)
    • 对 prompt 扰动更稳定(结果更可信)
  • 当前水平:顶级模型约 80%+,GPT-5 / Claude 4.5 已接近饱和
  • 意义:取代 MMLU 成为综合知识/推理新基线

2. GPQA / GPQA Diamond

  • 全称:Graduate-Level Google-Proof Q&A Benchmark
  • 来源:NYU + Cohere + Anthropic,2023 年发布
  • 规模
    • GPQA 全集:448 题
    • GPQA Diamond:198 题(最难子集,目前主流使用)
  • 领域:生物、物理、化学研究生水平问题
  • 特点
    • 由领域博士出题,非专业人员即使能上网搜索也很难答对(Google-Proof)
    • 专家正确率 ~65%,非专家即使开放搜索约 34%
    • 4 选 1,但选项设计极具迷惑性
  • 当前水平:GPT-5 ≈ 85%,Claude 4.5 Sonnet ≈ 83%,已逼近专家上限
  • 意义:测试模型真正的"科学推理"能力,无法靠记忆通过

3. SWE-bench / SWE-bench Verified

  • 全称:Software Engineering Benchmark
  • 来源:Princeton,2023 年发布
  • 任务形式
    • 给模型一个真实 GitHub 仓库(如 Django、scikit-learn)+ 一个 issue 描述
    • 模型需要生成patch(代码补丁)修复该 issue
    • 用仓库真实的单元测试验证补丁是否通过
  • 三个版本
    版本题数说明
    SWE-bench (full)2,294原始版,含噪声题
    SWE-bench Verified500OpenAI 人工筛选可解题,现行主流
    SWE-bench Lite300轻量子集
  • 特点
    • 跨多个文件、需要理解整个代码库结构
    • 衡量模型真实工程能力,不是写小函数
    • 通常配合 Agent 框架(如 SWE-agent、OpenHands、Claude Code)评测
  • 当前水平:Claude 4.5 Sonnet ≈ 77%,GPT-5 ≈ 75%(2024 初仅 ~20%,进步惊人)
  • 意义:业界公认最具代表性的"AI 程序员"指标

4. AIME 2024 / 2025

  • 全称:American Invitational Mathematics Examination
  • 形式:每年 15 题,整数答案(0–999),无选项
  • 特点
    • 美国高中数学竞赛,难度介于 AMC 和 USAMO 之间
    • 每年新题,天然防污染
    • 推理模型时代必考(OpenAI o1/o3、DeepSeek-R1、Claude Thinking 等)
  • 当前水平:o3 ≈ 96%,Claude 4.5 Opus + thinking ≈ 90%

5. MATH / MATH-500

  • 来源:UC Berkeley,2021 年发布
  • 规模
    • MATH 全集:12,500 题(7,500 训练 + 5,000 测试)
    • MATH-500:OpenAI 在 “Let’s Verify Step by Step” 论文中从测试集筛出的 500 题子集,现行主流
  • 难度:美国高中数学竞赛级(AMC/AIME 风格),覆盖代数、几何、数论、概率、微积分预备等
  • 形式:自由作答(非选择题),答案需化简为标准形式
  • 评测方式
    • 字符串匹配最终答案(需做 LaTeX 归一化)
    • 现代评测常配合 sympy 进行符号等价判断
  • 特点
    • 题目附带详细解题步骤,可用于 process reward / 步骤级评测
    • MATH-500 计算成本低、区分度好,几乎所有推理模型必报
  • 当前水平:顶级推理模型 MATH-500 ≈ 96–99%,已接近饱和
  • 与 AIME 区别:MATH 范围广、难度分布均衡;AIME 更难、纯整数答案、每年新题防污染

6. τ-bench (tau-bench)

  • 来源:Sierra(Bret Taylor 创立)
  • 任务形式
    • 模拟真实客服场景(航空订票、零售退换货)
    • 模型作为 Agent 与"模拟用户"多轮对话,调用工具完成任务
    • 用最终数据库状态判定是否成功(非主观打分)
  • 特点
    • 衡量多轮工具调用 + 遵守业务规则的综合能力
    • pass^k 指标:连续 k 次都成功的概率(测稳定性)
  • 意义:最贴近真实 Agent 落地场景的评测之一

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询