7月最新大模型排名
2026/7/6 2:39:48 网站建设 项目流程

本次排名覆盖Artificial Analysis 智能指数(硬核技术能力客观评测)与LMArena 文本生成模型榜(用户真实偏好主观评测)两大权威榜单,核心信息如下:

注:LMArena 起源于加州大学伯克利分校,现由Arena Intelligence Inc.运营,排名仅供参考

综合排名

Artificial Analysis智能指数 与 LMArena文本生成模型榜

AA Intelligence Index

LMArena Text Generation

维度AA 智能指数榜 v4.0LMArena 文本生成榜
数据更新时间2026 年 07 月 5 日2026 年 07 月 1 日
评测模型数量237 款369 款
核心评测逻辑标准化自动基准测试,综合 10 项权威评测维度,客观衡量模型数学、科学、编程、推理、智能体任务等硬核技术能力,避免单维度过拟合全球最大众包盲测平台,基于用户匿名 A/B 对话投票,通过 Elo 评分体系衡量真实对话场景下的用户偏好,覆盖编程、创意写作、知识问答等高频场景

AA 智能指数榜排名核心结论

1、Anthropic全面领跑

Claude Fable 5以60分登顶,成为首个突破60分的模型,包揽前5名中4席(Fable 5、Opus 4.8/4.7、Sonnet 5)。

关键优势:任务规划严谨性、错误自检率提升37%,幻觉率(28.1%)显著低于GPT-5.5(42.3%)。

2、OpenAI遭遇可靠性短板

GPT-5.5系列虽包揽第3/6/8名,但高幻觉率拖累知识密集型任务(如法律/科学推理),性价比低于Anthropic(成本高2.8倍)。

3、国产模型突破全球前十

智谱GLM-5.2以51分位列第7(国产第一),企业级运维场景表现突出;

通义Qwen3.7 Max以46分居第11,Terminal-Bench终端操作得分69.7,接近国际顶尖水平。

4、谷歌Gemini未达预期

Gemini 3.1 Pro仅列第10(46分),数学推理(36.9%)与网络安全能力落后,性价比优势难掩性能代差。

LMArena文本生成模型榜国产模型亮点

1、头部格局:Anthropic微弱优势领跑

Claude Fable 5以1,509分险胜,前5名中占4席(Opus 4.6/4.7等),核心优势在于复杂任务中的逻辑严谨性与低幻觉率,但领先幅度极小(与第2名仅差5分)。

OpenAI未进前5:GPT-5.5 (high) 以1,481分排第10,高幻觉率拖累用户体验,尤其在知识密集型对话中表现不稳定。

2、国产模型表现

通义千问Qwen3.7-Max-Preview国产第一(第15名,1,475分),中文长文本处理与工具调用稳定性突出,但国际排名与头部差距约30分。

智谱GLM-5.2位列第26(1,469分),开源协议(MIT)适配企业私有化需求,中文表达自然度获用户认可,但多模态能力弱于国际头部。

代码排名

LMArena Coding Arena大模型代码编程能力排行榜

榜单基础信息

  • 数据时间:2026 年 07 月 1 日
  • 评测规模:共 364 款 AI 模型
  • 评测机制:匿名盲测 + 真实用户投票,采用 Elo 评分(Bradley-Terry 模型),覆盖代码生成、Bug 修复、算法实现、代码解释等真实编程场景,比 SWE-bench 等静态基准更贴合实际开发、不易 “刷榜”

头部格局:Anthropic绝对统治

1、Claude系列垄断头部

Claude Fable 5以1563分登顶,前9名中占据8席(Opus 4.7/4.6等变体),核心优势在于链式思考(Thinking)模式:开启该模式的模型(如Opus 4.7 Thinking)普遍比标准版高3-6分。

关键能力:任务规划严谨性与幻觉率控制显著优于竞品

2、OpenAI未进前十

GPT-5.5 (high) 仅排第19名(1518分),高幻觉率拖累用户体验,尤其在复杂推理任务中频繁出现“自信错误”。

GPT-5.4 (high) 以1521分位列第15,表现优于最新版,反映用户更倾向稳定版本而非激进迭代

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询