🤵♂️ 个人主页:小李同学_LSH的主页
✍🏻 作者简介:LLM学习者
🐋 希望大家多多支持,我们一起进步!😄
如果文章对你有帮助的话,
欢迎评论 💬点赞👍🏻 收藏 📂加关注+
目录
📖 前言:为什么这次不一样
🎯 速览核心规格
🧠 核心机制:「自我进化」到底是什么?
先说清楚:不是"AI 变成了上帝"
Agent Harness:自我进化的底层框架
M2.7 在迭代中发现了什么?
不只是"调参",是真的在参与训练
📊 Benchmark 全解读
最亮眼:SWE-bench Verified 78%
工程能力全面领先
MLE Bench Lite:让模型"参加 Kaggle 比赛"
💼 三大核心能力
能力一:专业软件工程
能力二:专业办公(Office 三件套)
能力三:Agent Teams(多智能体协作)
🔮 这件事真正的含义:三个维度的思考
维度一:训练范式的根本性转变
维度二:竞争格局的「马太效应」将加速
维度三:一个值得认真对待的问题
💰 定价:50 倍价差意味着什么?
🗳️ 读者投票
🎁 总结
📣 最后
一句话开门见山:2026年3月18日,MiniMax 发布 M2.7,顺手开源。参数、Benchmark 都很能打——但这些不是重点。重点是官方文档里的一句话:这是我们第一个深度参与迭代自己的模型。看完这句话,我后背有点发凉。
📌基本信息
- 📅 发布时间:2026年3月18日
- 🏢 出品:MiniMax
- ⚙️ 架构:MoE(混合专家),229B 参数
- 📖 上下文:200K Token
- 🔓 开源:HuggingFace 完整权重
- 💰 定价:$0.30/$1.20(输入/输出),比 Claude Opus 4.6 便宜约50 倍
📖 前言:为什么这次不一样
每个月都有新模型发布,每次都说"史上最强",大家都麻木了。
但 M2.7 这次,我建议你认真看。
不是因为它的 SWE-bench Verified 拿了 78%(虽然这个数字比 Claude Opus 4.6 的 55% 高出 23 个百分点)。
而是因为官方发布文章里有这样一句话:
"MiniMax M2.7 是我们第一个模型深度参与迭代自己的模型。"
翻译成大白话:M2.7 参与了自己的训练过程。
不是科幻。不是噱头。是已经发生的事——而且有数据:M2.7 在无人工干预的情况下,自主跑了超过100 轮迭代,最终让评测结果提升了30%。
这篇文章要搞清楚三件事:
- M2.7 的"自我进化"到底是什么,技术机制是什么
- 它的 Benchmark 表现到底靠不靠谱
- 这件事真正的含义是什么——对 AI 发展的走向
🎯 速览核心规格
| 指标 | MiniMax M2.7 | Claude Opus 4.6 | 对比 |
|---|---|---|---|
| 参数 | 229B MoE | 未公开 | - |
| 上下文 | 200K | 200K | 持平 |
| SWE-bench Verified | 78% | 55% | +23% |
| SWE-Pro | 56.22% | ~53% | 领先 |
| Terminal Bench 2 | 57.0% | ~52% | 领先 |
| MLE Bench Lite 奖牌率 | 66.6% | 更高 | 略逊 |
| 定价(输入/输出) | $0.30/$1.20 | $15/$75 | 便宜 50 倍 |
| 开源 | ✅ | ❌ | - |
🧠 核心机制:「自我进化」到底是什么?
先说清楚:不是"AI 变成了上帝"
很多文章把"自我进化"说得玄乎,好像 AI 开始自主意识觉醒了。实际上远没有那么神秘,但依然非常重要。
让我用一个简单类比解释:
过去的 AI 训练是这样的:
人类工程师 → 设计实验 → 跑训练 → 看结果 → 调参数 → 重新跑 ↑_____________手动循环________________↓M2.7 的自我进化是这样的:
M2.7 → 分析失败轨迹 → 规划改动 → 修改脚手架代码 ↑ ↓ └──────── 决定保留/回滚 ←── 对比结果 ←── 跑评测核心差异:把原来需要人类工程师做的"分析—改进—验证"循环,交给模型自己执行。
Agent Harness:自我进化的底层框架
M2.7 的自我进化建立在Agent Harness(智能体脚手架)框架上。
这个循环在内部测试中跑了超过100 轮,全程无人工干预。
M2.7 在迭代中发现了什么?
这是最有意思的细节。M2.7 在自主迭代过程中,自己发现了三类有效优化,没有人告诉它该找什么:
① 采样参数最优组合系统性搜索温度(Temperature)、频率惩罚(Frequency Penalty)、存在惩罚(Presence Penalty)的最优组合——比人工调参找到了更好的配置。
从优化目标的角度看,这等价于在参数空间上做了自动搜索:
其中是任务成功率,
是当前采样策略。M2.7 自己做了这个搜索,而不是依赖人类设计搜索空间。
② 给自己写了新的操作规范比如:修完一个 Bug 之后,自动去其他文件里搜索相同的 Bug 模式。
没人教它这么做。它自己从失败的任务轨迹里推断出了这个规律,然后把它写成了工作流规则。
③ 在 Agent 执行链里加了死循环检测防止在复杂任务中卡住。这是一个典型的"工程直觉"——M2.7 从反复遇到卡死问题的轨迹里总结出了这个防御机制。
不只是"调参",是真的在参与训练
需要澄清一个可能的误解:M2.7 的自我进化不只是推理时的参数调优,它深度介入了训练流程。
MiniMax 把 M2 系列早期版本引导为一个研究型 Agent,与不同项目组协同工作,覆盖:
- 数据流水线管理
- 训练环境配置
- 评测体系设计
- 跨团队协作协调
在强化学习(RL)场景中,Agent 能从实验设想出发,自动完成文献调研、实验设计、任务执行、日志分析、Bug 排查、指标优化、代码修复,直到提交合并请求并跑冒烟测试。
官方数据:在部分研发流程中,M2.7 已可承担30%-50% 的工作量。
📊 Benchmark 全解读
最亮眼:SWE-bench Verified 78%
| 模型 | SWE-bench Verified | 说明 |
|---|---|---|
| MiniMax M2.7 | 78% | 真实 GitHub issue 修复 |
| Claude Opus 4.6 | 55% | - |
| GPT-5.4 | ~72% | - |
| Kimi K2.6 | - | 主跑 SWE-Pro |
78% 是什么概念?SWE-bench Verified 是目前公认最接近真实工程场景的评测:给模型一个真实的 GitHub Issue,要求自主修复并通过测试。78% 意味着每 10 个真实 Bug,M2.7 能修 7 个以上。
工程能力全面领先
| Benchmark | M2.7 | Opus 4.6 | 说明 |
|---|---|---|---|
| SWE-Pro | 56.22% | ~53% | 真实代码库多语言修复 |
| VIBE-Pro | 55.6% | - | 端到端完整项目交付 |
| Terminal Bench 2 | 57.0% | ~52% | 系统级操作/DevOps |
| GDPval-AA ELO | 1495(开源最高) | - | 知识工作任务 |
| MM Claw | 62.7% | ~Sonnet 4.6 | OpenClaw 真实场景 |
| Skills 遵循率 | 97%(40个复杂Skills) | - | Agent 指令遵循 |
MLE Bench Lite:让模型"参加 Kaggle 比赛"
这个评测最有意思:模拟 22 个机器学习竞赛场景,看 AI 能拿多少奖牌。
| 模型 | MLE Bench Lite 奖牌率 |
|---|---|
| Claude Opus 4.6 | 第一 |
| GPT-5.4 | 第二 |
| MiniMax M2.7 | 66.6%(第三) |
第三名已经非常惊艳——这个评测几乎囊括了 AI 研发的所有环节(数据处理、特征工程、模型选择、超参调优),M2.7 能自主完成大部分。
💼 三大核心能力
能力一:专业软件工程
能力远超"写个函数"的层次,覆盖真实工程场景:
# M2.7 能处理的典型任务 tasks = [ "分析整个代码仓库的安全漏洞,生成修复报告", "根据日志定位生产环境 Bug,自动提交 PR", "重构遗留代码,性能提升不低于 20%", "根据需求文档,端到端实现一个完整功能模块", "对机器学习模型进行调优,实现评测指标最优" ]能力二:专业办公(Office 三件套)
M2.7 对 Excel / PPT / Word 的复杂编辑能力显著提升。一个真实 Demo:
让 M2.7 分析一家公司的年报和电话会议记录,交叉参考多份研究报告,独立设计假设并构建收入预测模型,最终输出 PPT 研究报告——理解、判断、交付,像一个初级分析师一样工作。
GDPval-AA ELO 得分1495,开源模型最高。
能力三:Agent Teams(多智能体协作)
M2.7 原生支持多个 AI 实例协同工作,每个实例承担不同专长。
一个实际运行的例子:MiniMax 内部内容团队用 M2.7 驱动的 Agent Teams 完成 M2.7 自身的发布工作——研究员 Agent 做文献调研,工程师 Agent 跑实验,文档 Agent 写技术博客,发布 Agent 处理社媒——AI 用 AI 来发布关于 AI 的内容。这个套娃让人细思极恐。
🔮 这件事真正的含义:三个维度的思考
维度一:训练范式的根本性转变
过去 AI 进步的路径是:
更多数据 + 更大算力 + 更好算法 = 更强模型 (人类全程设计、监督、执行)M2.7 引入的路径是:
基础模型足够强 → 让它参与自身训练 → 自主发现优化 → 更强的下一代 (人类设定初始目标,模型自主迭代)这两条路径最终会导向完全不同的天花板。第一条路的天花板受制于人类工程师的时间和认知;第二条路的天花板受制于算力和初始模型的能力。
数学上,第二条路径对应一个递归优化过程:
其中是模型自主发现的改进函数,
是当前模型,Env 是执行环境。只要这个递归稳定收敛,每一代模型都比上一代更擅长改进自己——这是一个正向飞轮。
维度二:竞争格局的「马太效应」将加速
知乎上有一段评论我觉得说得很准:
"算力不再只是训练模型的资源,而是模型自我改进的燃料。基础模型越强、算力越充足,自我进化的加速度就越快。过去的技术优势会转化为自我迭代的壁垒,最终形成难以逾越的马太效应——谁先掌握了高效的自进化技术,谁就能在未来的竞争中一骑绝尘。"
简单说:强的会越来越强,弱的追赶窗口正在关闭。
维度三:一个值得认真对待的问题
M2.7 的自我进化目前是在有限范围内、有明确目标的条件下进行的——优化特定评测集上的表现,在 MiniMax 工程师划定的边界内运行。
但随着这个能力越来越强,一个问题会越来越重要:
我们还能不能完全理解"模型优化自己"这个过程里发生了什么?
不是要制造恐慌。而是这确实是一个技术发展到这个阶段必须认真思考的问题。
💰 定价:50 倍价差意味着什么?
| 模型 | 输入价格(/M Token) | SWE-bench Verified |
|---|---|---|
| Claude Opus 4.6 | $15 | 55% |
| GPT-5.4 | ~$10 | ~72% |
| MiniMax M2.7 | $0.30 | 78% |
M2.7 的输入价格是 Opus 4.6 的1/50,但 SWE-bench Verified 高出 23 个百分点。
对于开发者来说,这意味着:原本需要用 Opus 做的代码审查、Bug 修复、工程任务,现在用 M2.7 可以用1/50 的成本做得更好。
API 调用示例:
from openai import OpenAI client = OpenAI( api_key="your-minimax-api-key", base_url="https://api.minimaxi.chat/v1" ) # 普通模式 response = client.chat.completions.create( model="MiniMax-Text-01", # M2.7 messages=[ {"role": "user", "content": "分析这段代码的潜在安全漏洞:\n\n[代码]"} ] ) # 高速模式(结果相同,速度更快) response = client.chat.completions.create( model="MiniMax-Text-01-highspeed", messages=[...] )🎁 总结
| 🔑 核心记忆点 | |
|---|---|
| 发布时间 | 2026年3月18日 |
| 最大亮点 | M2.7 自主迭代 100+ 轮,性能提升 30% |
| 最强 Benchmark | SWE-bench Verified 78%(高于 Opus 4.6 的 55%) |
| 定价 | $0.30/M Token,比 Opus 便宜 50 倍 |
| 技术机制 | Agent Harness 闭环:分析→改进→验证→保留/回滚 |
| 深层意义 | 训练范式转变:人类监督 → 模型自主进化 |
| 开源 | ✅ HuggingFace 完整权重 |
M2.7 在技术层面打了很漂亮的一拳。但比这个 Benchmark 更重要的,是它背后的信号:AI 正在从"工具"变成"参与者"——不仅能完成任务,还能参与改进完成任务的自己。
这个方向走到哪里,现在谁也说不清楚。但有一点是确定的:这个起点,已经很难忽视了。
📣 最后
如果这篇让你看懂了 M2.7 真正在做什么:
- 👍点赞让更多人关注这个真正值得关注的技术方向
- ⭐收藏API 代码和 Benchmark 随时查阅
- 💬评论参与投票,说说你的判断
- 🔔关注持续追踪 AI 前沿,一个正在学 AI 的大学生 👨🎓
📚相关阅读:
- 《Kimi K2.6 深夜正式发布:对标 Opus 4.6,刷新开源编程天花板》(今日)
- 《GPT-6 深度解析:200万Token + Symphony架构》
- 《Hugging Face 模型下载太慢?2026 最全 4 种加速方案对比(建议收藏)》
📖参考资料:
- MiniMax 官方技术博客(minimaxi.com/news/minimax-m27-zh,2026.03.18)
- 53AI:《MiniMax M2.7: 开启模型的自我进化》
- 腾讯云开发者社区:《MiniMax 发布 M2.7,首次展示模型自我进化路径》
- 知乎:《MiniMax 发布 M2.7 模型,首次展示模型自我进化路径》
- ofox.ai:《MiniMax M2.7 自我进化模型深度解读》