7月最新大模型排名-酒店常州论坛

本次排名覆盖Artificial Analysis 智能指数（硬核技术能力客观评测）与LMArena 文本生成模型榜（用户真实偏好主观评测）两大权威榜单，核心信息如下：

注：LMArena 起源于加州大学伯克利分校，现由Arena Intelligence Inc.运营，排名仅供参考

综合排名

Artificial Analysis智能指数与 LMArena文本生成模型榜

AA Intelligence Index

LMArena Text Generation

维度	AA 智能指数榜 v4.0	LMArena 文本生成榜
数据更新时间	2026 年 07 月 5 日	2026 年 07 月 1 日
评测模型数量	237 款	369 款
核心评测逻辑	标准化自动基准测试，综合 10 项权威评测维度，客观衡量模型数学、科学、编程、推理、智能体任务等硬核技术能力，避免单维度过拟合	全球最大众包盲测平台，基于用户匿名 A/B 对话投票，通过 Elo 评分体系衡量真实对话场景下的用户偏好，覆盖编程、创意写作、知识问答等高频场景

AA 智能指数榜排名核心结论

1、Anthropic全面领跑

Claude Fable 5以60分登顶，成为首个突破60分的模型，包揽前5名中4席（Fable 5、Opus 4.8/4.7、Sonnet 5）。

关键优势：任务规划严谨性、错误自检率提升37%，幻觉率（28.1%）显著低于GPT-5.5（42.3%）。

2、OpenAI遭遇可靠性短板

GPT-5.5系列虽包揽第3/6/8名，但高幻觉率拖累知识密集型任务（如法律/科学推理），性价比低于Anthropic（成本高2.8倍）。

3、国产模型突破全球前十

智谱GLM-5.2以51分位列第7（国产第一），企业级运维场景表现突出；

通义Qwen3.7 Max以46分居第11，Terminal-Bench终端操作得分69.7，接近国际顶尖水平。

4、谷歌Gemini未达预期

Gemini 3.1 Pro仅列第10（46分），数学推理（36.9%）与网络安全能力落后，性价比优势难掩性能代差。

LMArena文本生成模型榜国产模型亮点

1、头部格局：Anthropic微弱优势领跑

Claude Fable 5以1,509分险胜，前5名中占4席（Opus 4.6/4.7等），核心优势在于复杂任务中的逻辑严谨性与低幻觉率，但领先幅度极小（与第2名仅差5分）。

OpenAI未进前5：GPT-5.5 (high) 以1,481分排第10，高幻觉率拖累用户体验，尤其在知识密集型对话中表现不稳定。

2、国产模型表现

通义千问Qwen3.7-Max-Preview国产第一（第15名，1,475分），中文长文本处理与工具调用稳定性突出，但国际排名与头部差距约30分。

智谱GLM-5.2位列第26（1,469分），开源协议（MIT）适配企业私有化需求，中文表达自然度获用户认可，但多模态能力弱于国际头部。

代码排名

LMArena Coding Arena大模型代码编程能力排行榜

榜单基础信息

数据时间：2026 年 07 月 1 日
评测规模：共 364 款 AI 模型
评测机制：匿名盲测 + 真实用户投票，采用 Elo 评分（Bradley-Terry 模型），覆盖代码生成、Bug 修复、算法实现、代码解释等真实编程场景，比 SWE-bench 等静态基准更贴合实际开发、不易 “刷榜”

头部格局：Anthropic绝对统治

1、Claude系列垄断头部

Claude Fable 5以1563分登顶，前9名中占据8席（Opus 4.7/4.6等变体），核心优势在于链式思考（Thinking）模式：开启该模式的模型（如Opus 4.7 Thinking）普遍比标准版高3-6分。

关键能力：任务规划严谨性与幻觉率控制显著优于竞品。

2、OpenAI未进前十

GPT-5.5 (high) 仅排第19名（1518分），高幻觉率拖累用户体验，尤其在复杂推理任务中频繁出现“自信错误”。

GPT-5.4 (high) 以1521分位列第15，表现优于最新版，反映用户更倾向稳定版本而非激进迭代。

企业官网建设流程全解析

综合排名

AA Intelligence Index

LMArena Text Generation

AA 智能指数榜排名核心结论

LMArena文本生成模型榜国产模型亮点

代码排名

榜单基础信息

头部格局：Anthropic绝对统治

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

综合排名

AA Intelligence Index

LMArena Text Generation

AA 智能指数榜排名核心结论

LMArena文本生成模型榜国产模型亮点

代码排名

榜单基础信息

头部格局：Anthropic绝对统治

热门文章

文章分类

标签云

相关文章

特征依赖追踪

LangGraph 动态分流混合链路架构（单Agent/多Agent自适应调度）

飞轮自驱：机器人如何以世界为食，实现永不停歇的自我进化？

需要专业的网站建设服务？