2026 年 Codex 还能买吗?GPT-5-Codex 已弃用,能用新一代代码模型的平台与 Pro 升级指南
本文更新时间:2026 年 7 月 5 日。模型、套餐和额度变化很快,购买前请以文末官方页面为准。
很多人搜索“Codex 还能买吗”,其实混淆了三个东西:Codex 编程智能体、ChatGPT 订阅,以及 GPT-5-Codex 模型。
先给结论:
- Codex 仍然可以买到并正常使用,但它不是一个单独售卖的“软件盒子”。官方目前把 Codex 纳入 Free、Go、Plus、Pro、Business、Edu、Enterprise 等 ChatGPT 套餐,不同套餐的核心差异是额度、并发能力和组织管理能力。
- 原始 GPT-5-Codex 已经不是应该追的新型号。OpenAI 的模型目录已将它标记为 Deprecated;现在更接近其定位的是 GPT-5.3-Codex,以及用于复杂编码与专业任务的新一代 GPT-5 系列。
- 想获得类似体验,有三条路:直接用 OpenAI Codex、在 GitHub Copilot 等 IDE/代码托管平台选择 Codex 类模型,或者通过 Responses API 自建编码智能体。
- ChatGPT Pro 不等于 API 套餐。Pro 适合高频使用官方 Codex 的个人开发者;API 调用仍是独立计费,不能因为订阅了 Pro 就默认获得等额 API 余额。
下面不只列平台,还会解释:为什么同一个模型放进不同工具,最终效果可能差一大截;什么情况下升级 Pro 才真正划算;以及如何做一个最小可用的代码审查智能体。
一、Codex 到底是什么?为什么“同模型”不等于“同体验”
普通聊天模型通常完成的是:输入问题,输出一段代码。
编码智能体完成的是一个闭环:
- 读取仓库结构与项目约束;
- 搜索相关文件,建立修改计划;
- 编辑一个或多个文件;
- 调用终端、测试、构建或浏览器;
- 检查 diff,发现问题后继续修正;
- 输出可审查的结果,必要时创建 Pull Request。
因此,代码模型的落地效果可以粗略写成:
实际产出质量 ≈ 模型能力 × 上下文质量 × 工具链能力 × 验证闭环 × 权限边界这解释了一个常见现象:即使两个平台都显示同一个模型名,一个只能回答代码片段,另一个能检索仓库、执行测试并根据失败结果迭代,两者的生产力不是一个量级。
选择平台时,不要只盯着模型排行榜,还要检查五项能力:
- 能否读取整个仓库,而不是只看当前文件;
- 能否执行命令、测试与构建;
- 是否展示修改 diff,并允许逐项审查;
- 是否支持项目级规则,例如
AGENTS.md、团队规范或自定义指令; - 是否有明确的权限、密钥、日志与数据策略。
二、2026 年 Codex 还能买吗?正确答案是“能,但买法变了”
OpenAI 官方帮助中心显示,Codex 已包含在 Free、Go、Plus、Pro、Business、Edu 和 Enterprise 等套餐中,使用上限随套餐而变化。换句话说,用户通常不是“单买 Codex”,而是通过 ChatGPT 套餐获得 Codex 使用权,再根据需要使用或购买额外额度。
这带来两层选择:
1. 个人使用:Free / Plus / Pro
- Free:适合验证工作流,例如让 Codex 解释陌生项目、修一个小 Bug、生成测试。
- Plus:适合日常轻到中度开发,重点是比免费档更稳定的使用空间。
- Pro:适合每天长时间使用智能体、多轮运行测试、同时推进多个任务,或者不希望频繁被额度打断的个人开发者。
2. 团队使用:Business / Enterprise / Edu
团队真正需要的不只是“更多次数”,而是管理员控制、成员权限、统一账单、数据策略和组织级治理。企业代码库含有商业逻辑、客户数据或部署凭据时,应先看组织套餐和安全规则,而不是让每个成员自行购买个人 Pro。
一个必须说清楚的误区
ChatGPT Pro 与 OpenAI API 是两套消费通道。
你可以使用 ChatGPT 账号登录 Codex,并享受该订阅对应的使用额度;但如果你的服务端代码直接调用v1/responses,那属于 API 平台用量,按 API 账户单独计费。不要用“买了 Pro,所以 API 应该免费”来做预算。
三、GPT-5-Codex 还能用吗?别再追旧型号
原始gpt-5-codex曾是面向智能体编程优化的 GPT-5 版本,支持 Responses API、函数调用和结构化输出。但截至本文更新时,OpenAI 模型目录已将它标记为弃用。
更合理的选择是:
- GPT-5.3-Codex:面向智能体式软件开发,适合代码库探索、跨文件修改、测试驱动修复和长任务;
- GPT-5.5 / GPT-5.4:适合复杂推理、架构分析、疑难调试和综合专业任务;
- GPT-5.4 mini 等小模型:适合高频、低延迟、成本敏感的检索、分类、简单修补和子任务。
这里有一个实用策略:不要让最强模型包办所有步骤。
例如,仓库搜索、日志归类、简单格式化可以交给更快的小模型;架构判断、跨模块重构和安全审查再切到强模型。真正成熟的 Agent 系统往往是“任务路由”,而不是“永远选择最贵模型”。
四、哪些平台能用上类似 GPT-5-Codex 的代码模型?
路线 A:OpenAI Codex——最完整的原生体验
适合:希望开箱即用、直接操作本地仓库或云任务的开发者。
它的优势不是只提供模型,而是把模型、仓库上下文、文件编辑、终端、测试、代码审查和任务管理组合起来。对于“修复 Bug 并验证”“重构一个模块”“审查 PR”这种目标导向任务,通常比裸 API 更省搭建成本。
如果你的主要需求是让智能体真正完成工程任务,而不是把代码复制到聊天框,原生 Codex 应作为第一选择。
路线 B:GitHub Copilot——适合 IDE 与 Pull Request 工作流
适合:团队已经围绕 GitHub、VS Code 或 JetBrains 工作,希望模型选择、代码补全、聊天、Agent 和 PR 流程集中在一个入口。
GitHub 官方模型列表显示,Copilot 已支持 GPT-5.3-Codex 等代码模型;具体可见模型会受到套餐、IDE、组织策略和区域的影响。它的强项是贴近现有开发流程:开发者不必离开编辑器,管理员也能统一控制可用模型。
需要注意:平台支持某模型,不代表所有套餐、所有入口都能立即选择。购买前应在模型选择器和官方套餐表中核对,而不是只看一篇旧评测。
路线 C:Cursor 等多模型 AI IDE——适合重度编辑器用户
适合:更看重代码索引、Tab 补全、多模型切换、前台/后台 Agent 和编辑器交互的开发者。
Cursor 官方资料显示其支持 GPT-5 系列及多种前沿模型,并按照模型推理成本消耗套餐内用量。它与“原生 Codex”的差异在于:你购买的是 Cursor 的编辑器与 Agent 编排体验,而不是 OpenAI 原生产品本身。模型名称、上下文注入、工具权限和计费方式都可能不同。
如果你追求的是“类似 GPT-5-Codex 的编码能力”,它是可选项;如果你必须使用某个精确模型版本,则要以产品内模型列表为准。
路线 D:OpenAI Responses API——适合自建内部研发助手
适合:想把代码审查、Issue 分流、迁移脚本、CI 修复或内部平台做成自己的产品。
API 的优势是可控:你可以定义工具、权限、上下文、输出结构、审计记录与预算。代价也很明确:文件系统、命令执行、Git 操作、沙箱、重试和人工审批都需要自己实现。
| 路线 | 上手成本 | 工程闭环 | 可定制性 | 更适合谁 |
|---|---|---|---|---|
| OpenAI Codex | 低 | 强 | 中高 | 高频个人开发、完整 Agent 工作流 |
| GitHub Copilot | 低 | 强 | 中 | GitHub/IDE 重度用户、团队 |
| Cursor 等 AI IDE | 低 | 强 | 中 | 多模型与编辑器体验优先 |
| Responses API 自建 | 高 | 取决于实现 | 最高 | 平台团队、内部工具、SaaS |
五、技术教程:用 Responses API 做一个最小代码审查器
下面的示例展示“模型调用层”,而不是完整生产 Agent。它读取本地 diff,让模型输出审查意见。实际项目中还应加入脱敏、大小限制、超时、审计和人工确认。
1. 安装 SDK
pipinstallopenai将 API Key 写入环境变量,不要硬编码进源码或提交到 Git:
$env:OPENAI_API_KEY="你的 API Key"2. 编写审查脚本
importsubprocessfromopenaiimportOpenAI client=OpenAI()diff=subprocess.run(["git","diff","--unified=40","HEAD"],capture_output=True,text=True,check=True,).stdoutifnotdiff.strip():raiseSystemExit("当前没有待审查的变更")prompt=f""" 你是一名严格的高级代码审查员。 请只报告会影响正确性、安全性、性能或可维护性的具体问题。 每个问题必须包含:严重级别、文件/位置、触发条件、原因、最小修复建议。 不要为了凑数量报告纯风格问题;无法从 diff 证明的问题请明确标为“需验证”。 Git diff:{diff}"""response=client.responses.create(model="gpt-5.3-codex",reasoning={"effort":"high"},input=prompt,)print(response.output_text)3. 为什么这个示例还不能直接进生产?
因为真正的代码审查至少还缺六层:
- 上下文补全:仅有 diff 可能看不到调用方、类型定义和测试;
- 工具调用:模型需要按需读取相关文件,而不是把整个仓库塞进提示词;
- 验证机制:发现问题后应运行相关测试或静态分析;
- 结构化输出:让结果符合固定 JSON Schema,便于写回 PR;
- 安全沙箱:执行陌生仓库命令时限制网络、文件和密钥访问;
- 人工审批:模型可以提出或生成补丁,但高风险修改不应自动合并。
4. 一个更可靠的 Agent 提示词模板
目标:修复 Issue #123,不改变公开 API。 工作约束: - 先定位根因并列出计划,再修改文件; - 修改范围保持最小; - 不更新无关依赖,不改写用户已有变更; - 先运行最相关的单元测试,再运行受影响模块测试; - 最终给出根因、修改文件、验证命令、已知风险。 完成标准: - 原失败用例通过; - 新增覆盖回归场景的测试; - lint/typecheck 无新增错误; - diff 中没有调试日志和密钥。高质量提示词的核心不是“请写得更好”,而是给出目标、边界、验证方式和完成标准。这四项越清楚,智能体越不容易跑偏。
六、什么时候应该升级 ChatGPT Pro?
不要因为“Pro 听起来更强”就升级。先观察一周,记录三个数据:
- 每天有多少次任务因额度或等待被打断;
- Codex 每周真正帮你节省了多少小时;
- 你的任务是一次性问答,还是会持续读仓库、改文件、跑测试。
如果出现以下情况,Pro 通常更匹配:
- 你几乎每天都用 Codex 完成长链路开发任务;
- 经常同时推进多个仓库或多个智能体任务;
- 需要反复测试、修复、复查,而不是偶尔生成一个函数;
- 中断一次就会破坏上下文,造成明显的时间损失;
- 你是独立开发者,希望少维护一套自建 Agent 基础设施。
一个朴素的回报计算公式是:
月度价值 = 每月节省小时 × 你的有效时薪 - 订阅与额外用量成本如果 Codex 每月只节省一两个小时,Plus 或 Free 可能已经足够;如果它每天都能替你完成代码检索、样板修改、测试与文档同步,升级 Pro 的价值往往不是“回答更漂亮”,而是减少工作流中断,让智能体真正跑完闭环。
但以下情况不应直接买个人 Pro:
- 公司代码必须接受统一数据治理——优先评估 Business/Enterprise;
- 主要需求是程序化批处理——应按 API 成本建模;
- 只需要快速补全和偶尔问答——先比较 IDE 套餐;
- 项目没有测试与清晰规范——先补工程基础,否则更高额度只会更快地产生不可验证代码。
七、购买前的 10 分钟检查清单
- 我需要的是聊天、IDE 补全,还是能执行任务的 Agent?
- 目标平台能否访问整个仓库并运行测试?
- 我需要的模型在当前套餐、地区和 IDE 入口是否可选?
- 套餐额度按消息、请求、Token 还是信用额度计算?
- 超额后是停止、降级,还是继续按量计费?
- ChatGPT 订阅和 API 预算是否已分开计算?
- 企业代码、密钥和客户数据能否进入该平台?
- 是否支持人工审批、diff 审查与回滚?
- 是否能保存仓库规范和验证命令?
- 用一个真实 Issue 做过端到端试跑吗?
总结
“Codex 还能买吗”的答案是肯定的,但 2026 年再围绕旧的 GPT-5-Codex 型号做选择,已经抓错重点。
更好的决策顺序是:
- 先判断需要聊天模型还是编码智能体;
- 再选原生 Codex、GitHub Copilot、AI IDE 或自建 API;
- 用真实仓库测试读取、修改、测试、审查的完整闭环;
- 轻度使用从 Free/Plus 开始;
- 高频个人开发、并发任务和长链路工作明显受额度影响时,再升级 Pro;
- 团队与敏感代码优先考虑组织治理,而不是简单堆个人订阅。
模型会更新,平台会换名字,但判断标准不会变:能否理解真实代码库、正确调用工具、验证结果,并在权限边界内交付可审查的改动。
官方资料
- OpenAI:使用 ChatGPT 套餐访问 Codex
- OpenAI:GPT-5.3-Codex 模型页
- OpenAI:GPT-5-Codex 模型页(已弃用)models/supported-models)
- GitHub:Copilot 模型选择建议
免责声明:本文不构成价格承诺。套餐、模型、倍率、额度和地区可用性会动态变化,请在付款页再次确认。