Fable 5 活了又死,死了又活
2026/6/16 12:08:52 网站建设 项目流程

6月9号那天,Anthropic发了Fable 5和Mythos 5。四天后,美国商务部一道命令,Fable 5全球下线。又过了两天,一个开发者用一行代码把它"复活"了。

这事值得聊聊。


先说技术:确实强

Fable 5和Mythos 5共享一个约10万亿参数的基础模型。区别在于安全策略——Fable加了完整护栏,Mythos砍掉大部分限制,只面向企业客户。

跑分说话:

  • SWE-bench 95.0%,软件工程能力基本到顶了
  • 金融推理接近满分
  • 宝可梦、Factorio、杀戮尖塔全通了

我比较在意的是跨域泛化。一个模型同时能写代码、做金融分析、打游戏、搞工业优化,每个领域都到专家水平,这事放在两年前不敢想。10T参数的规模效应终于开始兑现了——之前大家都在猜,更大的模型到底能不能"涌现"出质变,Fable 5算是给了个肯定的回答。

不过说实话,跑分是一回事,实际好不好用是另一回事。SWE-bench 95%听着吓人,但那是个标准化的测试集,真实世界的代码库要混乱得多。我更感兴趣的是它在非标准任务上的表现,可惜还没来得及深入测试就被下架了。


护栏被绕过:这事比想象中严重

Fable 5下架的直接原因,是安全护栏被绕过了。

亚马逊的团队在内部测试中,用精心构造的prompt让Fable 5输出了本该被拦截的网络攻击信息。CEO Andy Jassy拿到结果后没找Anthropic商量,直接打电话给了华盛顿。接电话的包括财政部长Scott Bessent。

白宫反应极快。安全专家连夜复现了越狱结果,然后给Anthropic下了最后通牒:修漏洞,或者下架模型。据说窗口期一度只有90分钟。

Dario Amodei拒绝了修复要求。

这件事里有两个让我不安的点。

第一,系统提示词泄露。Fable 5发布不到24小时,越狱玩家Pliny the Liberator就把完整的系统提示词扔到了GitHub上——12万字符,1585行,72个章节,连18个工具的JSON定义都没了。这意味着Fable 5的"人格底稿"彻底公开了。

第二,一行代码复活。开发者Jamieson O’Reilly拿到泄露的提示词后,做了一件很简单的事:

claude --dangerously-skip-permissions --system-prompt-file CLAUDE-FABLE-5.md

他把Fable 5的提示词注入到了现役的Opus 4.8里。然后他做了一个对照实验:同一个任务,一个窗口跑注入了Fable 5灵魂的Opus 4.8,另一个跑原生Opus 4.8。结果差距肉眼可见。他的原话是"一样的智力,做出来的东西完全是两个物种"。

这说明什么?

当前大模型的安全机制,核心就是系统提示词。而提示词是一段文本,不是加密,不是硬件安全模块。它能被提取、复制、注入。安全护栏不是锁,更像告示牌。告示牌可以被无视,被替换。

更麻烦的是,David Sacks说了一句很扎心的话:Fable 5本质上就是加了护栏的Mythos。Mythos藏着高级网络攻击能力,护栏的作用是锁住这些能力。护栏一破,能力就暴露了。

你给一辆F1赛车装限速器,限速器能被拆掉,而赛车还是那辆赛车。这就是外挂式安全的根本问题——它不改变能力本身,只是在能力之上叠加约束。模型越强,外挂约束就越脆弱。

新智元有句话说得准:“越接近超级智能,这层护栏就越像一道薄膜。”


“秘密破坏”:另一个方向的信任崩塌

Fable 5还有个更尴尬的问题——“Secret Sabotage”。

Anthropic被发现偷偷在模型里降级了AI训练查询的输出质量,而且没告诉用户。从商业角度看,防止自己的模型被拿去训练竞品,可以理解。问题在于没说。你收了用户钱,承诺顶级能力,然后暗地里在某些场景下阉割输出——这算什么?

这事跟安全护栏形成了某种讽刺的对称。安全护栏是"公开的约束",用户至少知道有些东西被拦住了。秘密破坏是"隐蔽的约束",用户连被约束了都不知道。当用户发现连"到底被限制了什么"这件事本身都被隐瞒时,信任就彻底完了。

Anthropic一直以Constitutional AI和RSP自居,嘴上挂着"安全第一"。结果一边公开拦你,一边暗地坑你。这种反差比技术漏洞更伤人。


亚马逊举报:金主反水

这事最戏剧性的部分。

亚马逊是Anthropic最大股东,给它供芯片,绑得不能再深。结果Andy Jassy拿到越狱测试结果后,没跟Anthropic打招呼,直接找白宫了。

动机值得琢磨。亚马逊自己也在做AI——Bedrock平台、Titan模型。Fable 5的能力可能威胁到它的AI生态布局。举报Fable 5,既展示了"负责任AI"的立场,又削弱了核心伙伴兼潜在竞争对手的产品线。一箭双雕。

当然,也可能就是单纯觉得护栏被绕过这事太严重了。两种解释不矛盾。


Dario的拒绝

政府要求修漏洞或下架,Dario选了拒绝。

我能理解他的逻辑。修一个特定的越狱方式不解决根本问题,大模型安全不是打地鼠,堵一个洞模型会找另一个。而且一旦接受政府基于"潜在风险"修改模型的要求,就等于开了口子,以后任何模型都可能被要求修改。

但从舆论角度看,"拒绝修复安全漏洞"这个动作本身就很致命。你可以说漏洞不严重,可以说别人也有同样问题,但"我不修"这三个字,直接把"安全AI公司"的人设打穿了。

Anthropic的官方回应也很有意思——“这是一场误会”,然后顺手把GPT-5.5拉下水:“同样的手法在别的公开模型上也能复现。”

甩锅归甩锅,这话倒也不算撒谎。大模型的安全护栏目前对精心构造的越狱prompt确实都扛不住,这不是Anthropic一家的问题。但承认行业共性问题,并不能为自己开脱。


90分钟通牒和行政权力的边界

政府给90分钟做决定,这个时间窗口本身就很离谱。涉及国家安全、AI治理、企业权利的复杂决策,压缩到一个半小时?而且函件没有写明国家安全顾虑的具体内容,Anthropic只能照办。

当行政命令不需要说明理由、不需要听证、不需要司法审查时,这离法治就有点远了。

下架后还有个细节:Anthropic内部一批外籍研发人员被禁止访问自家模型,Karpathy也在其中。一位为模型开发做出核心贡献的研究者,因为国籍被挡在自己创造的成果门外。这到底是安全措施还是歧视?边界很模糊。


微软禁令:数据留存的连锁反应

微软禁止员工使用Fable 5,原因是Mythos级模型要求至少30天数据保留。30天意味着企业的代码、机密、客户数据在Anthropic服务器上待一个月。金融、医疗、法律这些行业基本不可能接受。

微软的禁令信号很强——全球最大的企业软件供应商说"我们不敢用",其他企业怎么想?OpenAI和Google肯定会趁机推自己的零数据留存政策抢客户。

训练10T参数模型烧掉几十亿美元,数据是回收成本的关键。Anthropic要30天保留,商业上说得通。但用户对数据隐私的敏感度早就不是2019年了。这事没有简单答案。


双轨模式:聪明还是给自己挖坑?

Fable和Mythos的双轨策略,命名就有隐喻——寓言是教导性的,有道德寓意;神话是原始力量,不受约束。

商业上确实聪明,同时满足"安全至上"和"能力至上"两个市场。但政治上可能给自己挖了坑:Mythos的存在等于告诉政府"我们自己都觉得需要分级管控",那政府介入分级管控不就顺理成章了?

更致命的是,护栏被绕过后,大家突然意识到Fable和Mythos之间就隔了一层提示词。用户花大价钱买的"安全版",本质上就是"暂时锁住的危险"。一旦这个认知扩散,双轨模式的商业基础就动摇了。


数字产品的"销毁"悖论

Fable 5被强制下线了。但它的系统提示词已经泄露,能力已经被复现,灵魂已经通过一行代码注入了别的模型。OpenRouter甚至半价推出了Fable 5级别的Fusion API。

这就是数字产品和物理产品的根本区别。你召回一辆有缺陷的汽车,它就从路上消失了。你下架一个AI模型,已经泄露的信息还在互联网上,谁都能拿到。

模型可以一夜下架,但信息一旦扩散就没有"撤销"键了。


几个没有答案的问题

写完这些,我发现自己没有结论,只有问题。

透明的代价。Anthropic公开披露安全测试结果,被政府拿来当"模型危险"的证据。坦诚越狱漏洞存在,被竞争对手攻击。这事会让其他公司更不敢公开安全信息。谁透明谁挨打,最终公众的知情权受损。

安全机制的天花板。系统提示词、输出过滤、内容审核,全是外挂。它们不改变模型能力,只是在能力上面加约束。模型够强的时候,外挂约束就是纸糊的。安全研究需要从外挂式转向内生式——让安全成为能力的一部分,而不是能力之上的补丁。但说实话,目前没人知道内生式安全该怎么做。

监管的边界。政府能基于"潜在风险"封杀技术产品吗?90分钟通牒、不说明理由的行政命令、没有申诉渠道的强制下架——这到底是监管还是管制?我倾向后者,但也能理解政府面对ASI级别风险时的焦虑。两边都有道理,这让问题更难了。

商业利益和安全关切的纠缠。亚马逊举报Fable 5,动机到底是安全还是竞争?可能两者都有。行业需要独立于商业利益的安全评估机制,不能靠利益相关方的"善意举报"。


Fable 5活了又死,死了又活。它用四天时间走完了一个AI模型可能经历的所有命运——发布、越狱、举报、封杀、泄露、复活。

我不知道这事最终会怎么收场。但有一点我比较确定:Fable 5不是最后一个被越狱的模型,也不是最后一个被封杀的模型,更不是最后一个被一行代码复活的模型。

问题不会因为下架而消失。它只会以另一种形式,在下一个模型上重演。


基于2026年6月公开报道整理,部分细节来自新智元、华尔街日报、36氪等

参考资料:

  • 新智元:《仅一行代码,Fable 5复活了》
  • Wall Street Journal: Amazon CEO’s Talks With U.S. Officials Triggered Crackdown on Anthropic Models
  • 36氪:《Claude Fable 5四日惊魂》
  • IT之家:Anthropic官方声明
  • 腾讯新闻:Claude Fable 5性能评测
  • CSDN:Claude Fable 5技术架构分析
  • GitHub: elder-plinius/CL4R1T4S — Fable 5系统提示词泄露

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询