本次排名覆盖Artificial Analysis 智能指数(硬核技术能力客观评测)与LMArena 文本生成模型榜(用户真实偏好主观评测)两大权威榜单,核心信息如下:
注:LMArena 起源于加州大学伯克利分校,现由Arena Intelligence Inc.运营,排名仅供参考
综合排名
Artificial Analysis智能指数 与 LMArena文本生成模型榜
AA Intelligence Index
LMArena Text Generation
| 维度 | AA 智能指数榜 v4.0 | LMArena 文本生成榜 |
|---|---|---|
| 数据更新时间 | 2026 年 07 月 5 日 | 2026 年 07 月 1 日 |
| 评测模型数量 | 237 款 | 369 款 |
| 核心评测逻辑 | 标准化自动基准测试,综合 10 项权威评测维度,客观衡量模型数学、科学、编程、推理、智能体任务等硬核技术能力,避免单维度过拟合 | 全球最大众包盲测平台,基于用户匿名 A/B 对话投票,通过 Elo 评分体系衡量真实对话场景下的用户偏好,覆盖编程、创意写作、知识问答等高频场景 |
AA 智能指数榜排名核心结论
1、Anthropic全面领跑
Claude Fable 5以60分登顶,成为首个突破60分的模型,包揽前5名中4席(Fable 5、Opus 4.8/4.7、Sonnet 5)。
关键优势:任务规划严谨性、错误自检率提升37%,幻觉率(28.1%)显著低于GPT-5.5(42.3%)。
2、OpenAI遭遇可靠性短板
GPT-5.5系列虽包揽第3/6/8名,但高幻觉率拖累知识密集型任务(如法律/科学推理),性价比低于Anthropic(成本高2.8倍)。
3、国产模型突破全球前十
智谱GLM-5.2以51分位列第7(国产第一),企业级运维场景表现突出;
通义Qwen3.7 Max以46分居第11,Terminal-Bench终端操作得分69.7,接近国际顶尖水平。
4、谷歌Gemini未达预期
Gemini 3.1 Pro仅列第10(46分),数学推理(36.9%)与网络安全能力落后,性价比优势难掩性能代差。
LMArena文本生成模型榜国产模型亮点
1、头部格局:Anthropic微弱优势领跑
Claude Fable 5以1,509分险胜,前5名中占4席(Opus 4.6/4.7等),核心优势在于复杂任务中的逻辑严谨性与低幻觉率,但领先幅度极小(与第2名仅差5分)。
OpenAI未进前5:GPT-5.5 (high) 以1,481分排第10,高幻觉率拖累用户体验,尤其在知识密集型对话中表现不稳定。
2、国产模型表现
通义千问Qwen3.7-Max-Preview国产第一(第15名,1,475分),中文长文本处理与工具调用稳定性突出,但国际排名与头部差距约30分。
智谱GLM-5.2位列第26(1,469分),开源协议(MIT)适配企业私有化需求,中文表达自然度获用户认可,但多模态能力弱于国际头部。
代码排名
LMArena Coding Arena大模型代码编程能力排行榜
榜单基础信息
- 数据时间:2026 年 07 月 1 日
- 评测规模:共 364 款 AI 模型
- 评测机制:匿名盲测 + 真实用户投票,采用 Elo 评分(Bradley-Terry 模型),覆盖代码生成、Bug 修复、算法实现、代码解释等真实编程场景,比 SWE-bench 等静态基准更贴合实际开发、不易 “刷榜”
头部格局:Anthropic绝对统治
1、Claude系列垄断头部
Claude Fable 5以1563分登顶,前9名中占据8席(Opus 4.7/4.6等变体),核心优势在于链式思考(Thinking)模式:开启该模式的模型(如Opus 4.7 Thinking)普遍比标准版高3-6分。
关键能力:任务规划严谨性与幻觉率控制显著优于竞品。
2、OpenAI未进前十
GPT-5.5 (high) 仅排第19名(1518分),高幻觉率拖累用户体验,尤其在复杂推理任务中频繁出现“自信错误”。
GPT-5.4 (high) 以1521分位列第15,表现优于最新版,反映用户更倾向稳定版本而非激进迭代。