4月16日AI界风云变幻:Anthropic推Claude Opus 4.7,OpenAI更新Codex野心勃勃
4月16日,Anthropic发布了Claude Opus 4.7。不过,这次Opus 4.7模型并未收获 "Coding之王" 的一片赞叹。
其发布通稿显示,在93道代码任务基准上,Opus 4.7比Opus 4.6提升13%,解决了Opus 4.6和Sonnet 4.6都搞不定的四道题,低思考档位的4.7大致等价于中等思考档位的4.6。价格未涨,每百万输入token 5美元、输出25美元,和上一代持平。硬指标方面,Anthropic展示了一张压过ChatGPT 5.4和Gemini 3.1 Pro的基准图。
然而,社区反馈却不尽如人意。一方面,过去数周用户对Opus 4.6 "变笨" 抱怨激烈;另一方面,Anthropic在同一天承认,Opus 4.7仍打不过自家 "关着" 的传奇模型 "Mythos Preview"。更微妙的是,Opus 4.7 "更听话但更死板",以前针对旧模型写的、带模糊空间的prompt,现在常跑出意外结果,开发者得重写提示词库。沃顿商学院教授Ethan Mollick批评Opus 4.7的 "自适应思考" 机制存在偏见,它倾向于把非代码、非数学任务默认成 "低努力" 档,在分析、写作、研究等场景 "偷懒",产出质量不如前一代。Mollick感慨AI公司似乎陷入 "只有技术工作才是智力工作" 的认知偏差。
同一天,老对手OpenAI更新了Codex,并强调新Slogan "Codex for (almost) everything",意思是在Coding范式下曾被Anthropic "压着打" 的OpenAI反击,称代码只是入口,要打造能操作整台电脑、看浏览器、生成图像、跨Slack / Gmail / Notion拉取上下文、后台并行开分身的超级工作台。而且GPT系列的coding能力过去一年快速追上来了。当Anthropic继续在 "最强coding模型" 赛道加码时,其在开发者心智里的护城河可能没那么宽了。
价格账、鹈鹕和真实体感
产品层面,开发者关注价格和实战手感,Opus 4.7在这两方面未达预期。价格上,Opus 4.7名义单价与4.6持平,但用了新分词器,同样文本生成的token量可能增加1 - 1.35倍,更高努力档消耗更多token,实际账单可能上涨。外媒测算Codex综合成本约是Claude Code的三分之一,对跑海量任务的工程团队来说,这笔账很清晰。
手感方面,软件工程专家Simon Willison让Opus 4.7生成 "骑自行车的鹈鹕" SVG,结果4.7连自行车架基本形状都画砸了,输给本地小参数模型Qwen。威利森调侃打破了 "模型越贵、画画越好" 的迷信。在真实编程环节,用户@SnazzyLabs指出Claude的Opus擅长 "打磨" 和抓设计精髓,但根据描述性文本执行具体任务时,GPT - 5.4支持的Codex表现更出色。网友@Stardustmemory认为Opus 4.7在本该简洁处制造复杂性,不想续订,因为Codex能更高效重写Opus做的计划。知名爆料人@apples_jimmy称,因Anthropic对AGI概念的预告,用户对Opus 4.7期望过高,"炒作后的失望" 占社交媒体负面评论约80%。网友@johnhelmuth_也觉得Opus 4.7表现平平是因为没带来像Opus 4.6发布时的 "开创性" 震撼。
coding之战,已经不是coding
Opus被视为 "Coding的王者模型",但coding竞争有三个层次,如今权重变化剧烈。第一层是模型能力层,比拼原始智力和对工程约束的理解,这是Anthropic过去的优势。第二层是任务能力层,看谁能端到端完成真实开发任务,Claude Code过去半年是这层王者。第三层是系统能力层,要把 "写代码" 嵌入整套工作流,目前尚无公认赢家。4月16日,OpenAI将Codex推到第三层,它能在macOS上看屏、点击、打字,后台开分身,内置浏览器,可在网页元素评论发指令,接上gpt - image - 1.5能边写代码边出mockup、前端稿和游戏素材,还集成111个插件,连通Slack、Gmail、Notion、GitHub,更像 "开发者操作系统"。
Coding和Agent
在AI agent可能落地的垂直场景中,coding是最快成熟、最先变现、最易闭环的。代码任务可验证,编译和测试结果近乎二元,是RL训练理想数据源,agent行为易自动评估和迭代。有价值的coding是多步骤的,买单方明确,AI替代或放大工时,ROI易计算。coding的天花板超预期,互联网时代用DAU衡量科技公司竞争地位,在agent时代,指标变为 "任务完成量" "托管工作流数",coding是最早出现这种计量方式的场景。
OpenAI曾在这条赛道误判,Anthropic的增长证明赛道天花板高。这也解释了Google本月在Gemini Code Assist上频繁动作,若在coding入口掉队,未来可能被agent生态排除。在coding领先不意味着赢得agent,但失去coding阵地就失去全部。OpenAI Codex负责人Thibault Sottiaux称在公开构建超级app,先面向开发者,未来扩到更广受众,即coding是推出超级agent工作台的楔子,用开发者冷启动,跑通后服务所有知识工作者。Codex每周300万活跃开发者,远超 "代码助手" 体量,是争夺操作系统级入口的产品。清醒后的OpenAI不会甘心做追随者,Anthropic守王座,OpenAI想拉到新维度竞争。
基因完全不同的 "德比"
Anthropic和OpenAI这两家同源老对手动作不一致,组织性格不同。Anthropic是top - down、战略聚焦、有强烈信仰感的公司。产品序列窄,服务专业塔尖用户,组织叙事从顶层观点出发,AI safety是第一原则,模型本体是源头,把模型做到最强其他自然成立,Amodei兄妹的 "前沿AI science实验室" 气质贯穿产品决策。这使Claude迭代 "更稳、更深、更可托付","最懂工程师的模型" 深入人心,但战略聚焦在跨维度竞争时成盲区。若战场扩大到 "跨应用工作台",Anthropic缺乏并行探索能力。外媒爆出Anthropic准备 "网站和演示文稿设计工具",是否意味着其意识到多模态交付和跨应用执行的缺口?
OpenAI像大公司,采用bottom - up赛马制。产品序列宽,从ChatGPT到Sora、Codex到Atlas浏览器、Canvas到Mac超级应用,宽到战略不聚焦,Sora上线半年关停,Shopping未跑通,被批评战略发散。但这种 "不聚焦" 催生0 - 1创新。Anthropic以 "聚焦" 为优势,OpenAI以 "不聚焦" 为优势,若竞争被拉到系统级、横向整合,格局可能改变。
Anthropic会是永远的coding之王吗
若赛道定义为 "模型写代码最强",Anthropic短期难逢对手。Opus系列对大型codebase理解深、对复杂工程意图对齐度高,GPT - 5.4和Gemini 3.1 Pro未完全追上,Mythos Preview未全量放出,第一层战场Anthropic优势明显。但赛道定义在改写,有两个变量加速改写。
一是算力。微软和甲骨文为OpenAI提供千亿级GPU资源加Stargate,Anthropic虽获Google和Amazon大额支持,但量级仍有差距。过去算力差距可用算法效率和数据质量弥补,下一代模型为多模态、长上下文RL、跨应用行为克隆烧算力时,纯算力优势将凸显,Anthropic难以抵消。二是迭代速度。AI成长速度远超人类,胜负标准从 "模型能力" 转向 "平台能力 + 算力规模 + 多模态广度 + 工作流闭环",且被算力代差和数据飞轮加速,竞争格局将变化。
这并非否定Anthropic,Claude Code在资深开发者圈口碑不会迅速瓦解,Anthropic "持续稳定迭代模型" 是稀缺资产。但AI竞争变化快,没人敢谈终局。4月16日,AI行业有趣的一天,改变或许已萌芽,Anthropic发布更强代码模型,OpenAI展现更大野心。