大模型评测 Benchmark 总结-酒店常州论坛

一、按能力维度分类（按关注度从高到低排序）

1. 综合能力 ⭐⭐⭐⭐⭐

Benchmark	说明
MMLU-Pro	MMLU 升级版，10 选 1，难度更高，几乎每家必报
HLE (Humanity’s Last Exam)	2025 新晋顶级难度综合评测，前沿模型必比
BIG-Bench / BBH	200+ 任务，BBH 为 23 个高难子集，老牌对照
MMLU	57 学科多任务语言理解，已饱和但仍常引用
AGIEval	基于人类考试（高考、SAT、律师资格）
HELM	斯坦福多维度评测框架

2. 推理能力 ⭐⭐⭐⭐⭐

Benchmark	说明
GPQA / GPQA Diamond	研究生级科学问答，新一代"硬指标"
AIME 2024/2025	美国数学邀请赛，推理模型时代标配
MATH / MATH-500	竞赛级数学题，几乎人人报
HMMT / Putnam	高端数学竞赛，前沿模型开始引用
GSM8K	小学数学应用题，已基本饱和
DROP	阅读理解 + 离散推理
ARC	科学推理
HellaSwag	常识推理
WinoGrande	代词消歧

3. 代码能力 ⭐⭐⭐⭐⭐

Benchmark	说明
SWE-bench / SWE-bench Verified	真实 GitHub issue 修复，最具代表性
LiveCodeBench	持续更新，防数据污染，频率极高
Aider Polyglot	多语言代码编辑，增长很快
BigCodeBench	贴近真实开发
HumanEval	164 道 Python 函数补全，已饱和
MBPP	入门级 Python 编程，已饱和
MultiPL-E	HumanEval 多语言扩展

4. Agent / 工具使用 ⭐⭐⭐⭐

Benchmark	说明
τ-bench	多轮工具调用与对话，主流标准
BFCL v3	函数调用事实标准
GAIA	通用 AI 助手真实任务
SWE-Lancer / SWE-bench Multimodal	新兴 Agent 评测
WebArena / OSWorld	浏览器 / 桌面操作
AgentBench	8 种环境 Agent 能力
ToolBench	工具使用

5. 长上下文 ⭐⭐⭐

Benchmark	说明
RULER	长上下文综合评测，主流标准
MRCR	Google 系常用
LongBench / LongBench v2	长文本多任务
∞Bench	100K+ token
Needle in a Haystack	大海捞针，逐渐被取代

6. 中文能力 ⭐⭐⭐

Benchmark	说明
C-Eval	中文 52 学科多选题
CMMLU	中文多任务理解，67 个主题
SuperCLUE	中文综合榜单
GAOKAO-Bench	基于中国高考题

二、2025–2026 技术报告高频 Benchmark

基于 GPT-5、Claude 4.x、Gemini 2.5、Llama 4、DeepSeek-V3/R1、Qwen3 等报告统计

类别	高频 Benchmark
综合能力	MMLU-Pro、GPQA Diamond、HLE、BBH
数学推理	AIME 2024/2025、MATH-500、HMMT、Putnam
代码	SWE-bench Verified、LiveCodeBench、Aider Polyglot
Agent / 工具	τ-bench、BFCL v3、GAIA、SWE-Lancer
长上下文	RULER、MRCR、LongBench v2
指令 / 对齐	IFEval、Arena-Hard v2、Chatbot Arena ELO

2025–2026 “新标配套餐”：

MMLU-Pro + GPQA Diamond + HLE + AIME + MATH-500 + SWE-bench Verified + LiveCodeBench + τ-bench + IFEval + RULER + Arena-Hard

三、选择建议

评测目标	推荐 Benchmark
综合能力	MMLU-Pro / Arena-Hard / HLE
推理	GPQA Diamond / MATH-500 / AIME
代码	SWE-bench Verified / LiveCodeBench
Agent	GAIA / τ-bench

四、重点 Benchmark 详解

1. MMLU-Pro

全称：Massive Multitask Language Understanding - Professional
来源：TIGER-Lab，2024 年发布，MMLU 的升级版
规模：约 12,000 题，覆盖 14 个学科（数学、物理、化学、法律、工程、心理等）
形式：单选题，10 个选项（MMLU 是 4 选 1，难度大幅提升）
特点：
- 去除原 MMLU 中噪声题、过时题
- 加入更多需要推理的题目（非纯背诵）
- 对 prompt 扰动更稳定（结果更可信）
当前水平：顶级模型约 80%+，GPT-5 / Claude 4.5 已接近饱和
意义：取代 MMLU 成为综合知识/推理新基线

2. GPQA / GPQA Diamond

全称：Graduate-Level Google-Proof Q&A Benchmark
来源：NYU + Cohere + Anthropic，2023 年发布
规模：
- GPQA 全集：448 题
- GPQA Diamond：198 题（最难子集，目前主流使用）
领域：生物、物理、化学研究生水平问题
特点：
- 由领域博士出题，非专业人员即使能上网搜索也很难答对（Google-Proof）
- 专家正确率 ~65%，非专家即使开放搜索约 34%
- 4 选 1，但选项设计极具迷惑性
当前水平：GPT-5 ≈ 85%，Claude 4.5 Sonnet ≈ 83%，已逼近专家上限
意义：测试模型真正的"科学推理"能力，无法靠记忆通过

3. SWE-bench / SWE-bench Verified

全称：Software Engineering Benchmark
来源：Princeton，2023 年发布
任务形式：
- 给模型一个真实 GitHub 仓库（如 Django、scikit-learn）+ 一个 issue 描述
- 模型需要生成patch（代码补丁）修复该 issue
- 用仓库真实的单元测试验证补丁是否通过
三个版本：
版本题数说明
SWE-bench (full) 2,294 原始版，含噪声题
SWE-bench Verified 500 OpenAI 人工筛选可解题，现行主流
SWE-bench Lite 300 轻量子集
特点：
- 跨多个文件、需要理解整个代码库结构
- 衡量模型真实工程能力，不是写小函数
- 通常配合 Agent 框架（如 SWE-agent、OpenHands、Claude Code）评测
当前水平：Claude 4.5 Sonnet ≈ 77%，GPT-5 ≈ 75%（2024 初仅 ~20%，进步惊人）
意义：业界公认最具代表性的"AI 程序员"指标

版本	题数	说明
SWE-bench (full)	2,294	原始版，含噪声题
SWE-bench Verified	500	OpenAI 人工筛选可解题，现行主流
SWE-bench Lite	300	轻量子集

4. AIME 2024 / 2025

全称：American Invitational Mathematics Examination
形式：每年 15 题，整数答案（0–999），无选项
特点：
- 美国高中数学竞赛，难度介于 AMC 和 USAMO 之间
- 每年新题，天然防污染
- 推理模型时代必考（OpenAI o1/o3、DeepSeek-R1、Claude Thinking 等）
当前水平：o3 ≈ 96%，Claude 4.5 Opus + thinking ≈ 90%

5. MATH / MATH-500

来源：UC Berkeley，2021 年发布
规模：
- MATH 全集：12,500 题（7,500 训练 + 5,000 测试）
- MATH-500：OpenAI 在 “Let’s Verify Step by Step” 论文中从测试集筛出的 500 题子集，现行主流
难度：美国高中数学竞赛级（AMC/AIME 风格），覆盖代数、几何、数论、概率、微积分预备等
形式：自由作答（非选择题），答案需化简为标准形式
评测方式：
- 字符串匹配最终答案（需做 LaTeX 归一化）
- 现代评测常配合 sympy 进行符号等价判断
特点：
- 题目附带详细解题步骤，可用于 process reward / 步骤级评测
- MATH-500 计算成本低、区分度好，几乎所有推理模型必报
当前水平：顶级推理模型 MATH-500 ≈ 96–99%，已接近饱和
与 AIME 区别：MATH 范围广、难度分布均衡；AIME 更难、纯整数答案、每年新题防污染

6. τ-bench (tau-bench)

来源：Sierra（Bret Taylor 创立）
任务形式：
- 模拟真实客服场景（航空订票、零售退换货）
- 模型作为 Agent 与"模拟用户"多轮对话，调用工具完成任务
- 用最终数据库状态判定是否成功（非主观打分）
特点：
- 衡量多轮工具调用 + 遵守业务规则的综合能力
- pass^k 指标：连续 k 次都成功的概率（测稳定性）
意义：最贴近真实 Agent 落地场景的评测之一

企业官网建设流程全解析

一、按能力维度分类（按关注度从高到低排序）

1. 综合能力 ⭐⭐⭐⭐⭐

2. 推理能力 ⭐⭐⭐⭐⭐

3. 代码能力 ⭐⭐⭐⭐⭐

4. Agent / 工具使用 ⭐⭐⭐⭐

5. 长上下文 ⭐⭐⭐

6. 中文能力 ⭐⭐⭐

二、2025–2026 技术报告高频 Benchmark

2025–2026 “新标配套餐”：

三、选择建议

四、重点 Benchmark 详解

1. MMLU-Pro

2. GPQA / GPQA Diamond

3. SWE-bench / SWE-bench Verified

4. AIME 2024 / 2025

5. MATH / MATH-500

6. τ-bench (tau-bench)

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

一、按能力维度分类（按关注度从高到低排序）

1. 综合能力 ⭐⭐⭐⭐⭐

2. 推理能力 ⭐⭐⭐⭐⭐

3. 代码能力 ⭐⭐⭐⭐⭐

4. Agent / 工具使用 ⭐⭐⭐⭐

5. 长上下文 ⭐⭐⭐

6. 中文能力 ⭐⭐⭐

二、2025–2026 技术报告高频 Benchmark

2025–2026 “新标配套餐”：

三、选择建议

四、重点 Benchmark 详解

1. MMLU-Pro

2. GPQA / GPQA Diamond

3. SWE-bench / SWE-bench Verified

4. AIME 2024 / 2025

5. MATH / MATH-500

6. τ-bench (tau-bench)

热门文章

文章分类

标签云

相关文章

YOLOv11城市道路车辆与行人目标检测数据集-1962张-Pedestrians-1

【Rust学习】windows安装rust

Python01-生产级项目搭建指南

需要专业的网站建设服务？