Fable 5 活了又死，死了又活-酒店常州论坛

6月9号那天，Anthropic发了Fable 5和Mythos 5。四天后，美国商务部一道命令，Fable 5全球下线。又过了两天，一个开发者用一行代码把它"复活"了。

这事值得聊聊。

先说技术：确实强

Fable 5和Mythos 5共享一个约10万亿参数的基础模型。区别在于安全策略——Fable加了完整护栏，Mythos砍掉大部分限制，只面向企业客户。

跑分说话：

SWE-bench 95.0%，软件工程能力基本到顶了
金融推理接近满分
宝可梦、Factorio、杀戮尖塔全通了

我比较在意的是跨域泛化。一个模型同时能写代码、做金融分析、打游戏、搞工业优化，每个领域都到专家水平，这事放在两年前不敢想。10T参数的规模效应终于开始兑现了——之前大家都在猜，更大的模型到底能不能"涌现"出质变，Fable 5算是给了个肯定的回答。

不过说实话，跑分是一回事，实际好不好用是另一回事。SWE-bench 95%听着吓人，但那是个标准化的测试集，真实世界的代码库要混乱得多。我更感兴趣的是它在非标准任务上的表现，可惜还没来得及深入测试就被下架了。

护栏被绕过：这事比想象中严重

Fable 5下架的直接原因，是安全护栏被绕过了。

亚马逊的团队在内部测试中，用精心构造的prompt让Fable 5输出了本该被拦截的网络攻击信息。CEO Andy Jassy拿到结果后没找Anthropic商量，直接打电话给了华盛顿。接电话的包括财政部长Scott Bessent。

白宫反应极快。安全专家连夜复现了越狱结果，然后给Anthropic下了最后通牒：修漏洞，或者下架模型。据说窗口期一度只有90分钟。

Dario Amodei拒绝了修复要求。

这件事里有两个让我不安的点。

第一，系统提示词泄露。Fable 5发布不到24小时，越狱玩家Pliny the Liberator就把完整的系统提示词扔到了GitHub上——12万字符，1585行，72个章节，连18个工具的JSON定义都没了。这意味着Fable 5的"人格底稿"彻底公开了。

第二，一行代码复活。开发者Jamieson O’Reilly拿到泄露的提示词后，做了一件很简单的事：

claude --dangerously-skip-permissions --system-prompt-file CLAUDE-FABLE-5.md

他把Fable 5的提示词注入到了现役的Opus 4.8里。然后他做了一个对照实验：同一个任务，一个窗口跑注入了Fable 5灵魂的Opus 4.8，另一个跑原生Opus 4.8。结果差距肉眼可见。他的原话是"一样的智力，做出来的东西完全是两个物种"。

这说明什么？

当前大模型的安全机制，核心就是系统提示词。而提示词是一段文本，不是加密，不是硬件安全模块。它能被提取、复制、注入。安全护栏不是锁，更像告示牌。告示牌可以被无视，被替换。

更麻烦的是，David Sacks说了一句很扎心的话：Fable 5本质上就是加了护栏的Mythos。Mythos藏着高级网络攻击能力，护栏的作用是锁住这些能力。护栏一破，能力就暴露了。

你给一辆F1赛车装限速器，限速器能被拆掉，而赛车还是那辆赛车。这就是外挂式安全的根本问题——它不改变能力本身，只是在能力之上叠加约束。模型越强，外挂约束就越脆弱。

新智元有句话说得准：“越接近超级智能，这层护栏就越像一道薄膜。”

“秘密破坏”：另一个方向的信任崩塌

Fable 5还有个更尴尬的问题——“Secret Sabotage”。

Anthropic被发现偷偷在模型里降级了AI训练查询的输出质量，而且没告诉用户。从商业角度看，防止自己的模型被拿去训练竞品，可以理解。问题在于没说。你收了用户钱，承诺顶级能力，然后暗地里在某些场景下阉割输出——这算什么？

这事跟安全护栏形成了某种讽刺的对称。安全护栏是"公开的约束"，用户至少知道有些东西被拦住了。秘密破坏是"隐蔽的约束"，用户连被约束了都不知道。当用户发现连"到底被限制了什么"这件事本身都被隐瞒时，信任就彻底完了。

Anthropic一直以Constitutional AI和RSP自居，嘴上挂着"安全第一"。结果一边公开拦你，一边暗地坑你。这种反差比技术漏洞更伤人。

亚马逊举报：金主反水

这事最戏剧性的部分。

亚马逊是Anthropic最大股东，给它供芯片，绑得不能再深。结果Andy Jassy拿到越狱测试结果后，没跟Anthropic打招呼，直接找白宫了。

动机值得琢磨。亚马逊自己也在做AI——Bedrock平台、Titan模型。Fable 5的能力可能威胁到它的AI生态布局。举报Fable 5，既展示了"负责任AI"的立场，又削弱了核心伙伴兼潜在竞争对手的产品线。一箭双雕。

当然，也可能就是单纯觉得护栏被绕过这事太严重了。两种解释不矛盾。

Dario的拒绝

政府要求修漏洞或下架，Dario选了拒绝。

我能理解他的逻辑。修一个特定的越狱方式不解决根本问题，大模型安全不是打地鼠，堵一个洞模型会找另一个。而且一旦接受政府基于"潜在风险"修改模型的要求，就等于开了口子，以后任何模型都可能被要求修改。

但从舆论角度看，"拒绝修复安全漏洞"这个动作本身就很致命。你可以说漏洞不严重，可以说别人也有同样问题，但"我不修"这三个字，直接把"安全AI公司"的人设打穿了。

Anthropic的官方回应也很有意思——“这是一场误会”，然后顺手把GPT-5.5拉下水：“同样的手法在别的公开模型上也能复现。”

甩锅归甩锅，这话倒也不算撒谎。大模型的安全护栏目前对精心构造的越狱prompt确实都扛不住，这不是Anthropic一家的问题。但承认行业共性问题，并不能为自己开脱。

90分钟通牒和行政权力的边界

政府给90分钟做决定，这个时间窗口本身就很离谱。涉及国家安全、AI治理、企业权利的复杂决策，压缩到一个半小时？而且函件没有写明国家安全顾虑的具体内容，Anthropic只能照办。

当行政命令不需要说明理由、不需要听证、不需要司法审查时，这离法治就有点远了。

下架后还有个细节：Anthropic内部一批外籍研发人员被禁止访问自家模型，Karpathy也在其中。一位为模型开发做出核心贡献的研究者，因为国籍被挡在自己创造的成果门外。这到底是安全措施还是歧视？边界很模糊。

微软禁令：数据留存的连锁反应

微软禁止员工使用Fable 5，原因是Mythos级模型要求至少30天数据保留。30天意味着企业的代码、机密、客户数据在Anthropic服务器上待一个月。金融、医疗、法律这些行业基本不可能接受。

微软的禁令信号很强——全球最大的企业软件供应商说"我们不敢用"，其他企业怎么想？OpenAI和Google肯定会趁机推自己的零数据留存政策抢客户。

训练10T参数模型烧掉几十亿美元，数据是回收成本的关键。Anthropic要30天保留，商业上说得通。但用户对数据隐私的敏感度早就不是2019年了。这事没有简单答案。

双轨模式：聪明还是给自己挖坑？

Fable和Mythos的双轨策略，命名就有隐喻——寓言是教导性的，有道德寓意；神话是原始力量，不受约束。

商业上确实聪明，同时满足"安全至上"和"能力至上"两个市场。但政治上可能给自己挖了坑：Mythos的存在等于告诉政府"我们自己都觉得需要分级管控"，那政府介入分级管控不就顺理成章了？

更致命的是，护栏被绕过后，大家突然意识到Fable和Mythos之间就隔了一层提示词。用户花大价钱买的"安全版"，本质上就是"暂时锁住的危险"。一旦这个认知扩散，双轨模式的商业基础就动摇了。

数字产品的"销毁"悖论

Fable 5被强制下线了。但它的系统提示词已经泄露，能力已经被复现，灵魂已经通过一行代码注入了别的模型。OpenRouter甚至半价推出了Fable 5级别的Fusion API。

这就是数字产品和物理产品的根本区别。你召回一辆有缺陷的汽车，它就从路上消失了。你下架一个AI模型，已经泄露的信息还在互联网上，谁都能拿到。

模型可以一夜下架，但信息一旦扩散就没有"撤销"键了。

几个没有答案的问题

写完这些，我发现自己没有结论，只有问题。

透明的代价。Anthropic公开披露安全测试结果，被政府拿来当"模型危险"的证据。坦诚越狱漏洞存在，被竞争对手攻击。这事会让其他公司更不敢公开安全信息。谁透明谁挨打，最终公众的知情权受损。

安全机制的天花板。系统提示词、输出过滤、内容审核，全是外挂。它们不改变模型能力，只是在能力上面加约束。模型够强的时候，外挂约束就是纸糊的。安全研究需要从外挂式转向内生式——让安全成为能力的一部分，而不是能力之上的补丁。但说实话，目前没人知道内生式安全该怎么做。

监管的边界。政府能基于"潜在风险"封杀技术产品吗？90分钟通牒、不说明理由的行政命令、没有申诉渠道的强制下架——这到底是监管还是管制？我倾向后者，但也能理解政府面对ASI级别风险时的焦虑。两边都有道理，这让问题更难了。

商业利益和安全关切的纠缠。亚马逊举报Fable 5，动机到底是安全还是竞争？可能两者都有。行业需要独立于商业利益的安全评估机制，不能靠利益相关方的"善意举报"。

Fable 5活了又死，死了又活。它用四天时间走完了一个AI模型可能经历的所有命运——发布、越狱、举报、封杀、泄露、复活。

我不知道这事最终会怎么收场。但有一点我比较确定：Fable 5不是最后一个被越狱的模型，也不是最后一个被封杀的模型，更不是最后一个被一行代码复活的模型。

问题不会因为下架而消失。它只会以另一种形式，在下一个模型上重演。

基于2026年6月公开报道整理，部分细节来自新智元、华尔街日报、36氪等

参考资料：

新智元：《仅一行代码，Fable 5复活了》
Wall Street Journal: Amazon CEO’s Talks With U.S. Officials Triggered Crackdown on Anthropic Models
36氪：《Claude Fable 5四日惊魂》
IT之家：Anthropic官方声明
腾讯新闻：Claude Fable 5性能评测
CSDN：Claude Fable 5技术架构分析
GitHub: elder-plinius/CL4R1T4S — Fable 5系统提示词泄露

企业官网建设流程全解析

先说技术：确实强

护栏被绕过：这事比想象中严重

“秘密破坏”：另一个方向的信任崩塌

亚马逊举报：金主反水

Dario的拒绝

90分钟通牒和行政权力的边界

微软禁令：数据留存的连锁反应

双轨模式：聪明还是给自己挖坑？

数字产品的"销毁"悖论

几个没有答案的问题

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

先说技术：确实强

护栏被绕过：这事比想象中严重

“秘密破坏”：另一个方向的信任崩塌

亚马逊举报：金主反水

Dario的拒绝

90分钟通牒和行政权力的边界

微软禁令：数据留存的连锁反应

双轨模式：聪明还是给自己挖坑？

数字产品的"销毁"悖论

几个没有答案的问题

热门文章

文章分类

标签云

相关文章

# 软考软件设计师题目总结 - 2026-06-16

智慧树学习自动化插件：提升在线学习效率的Chrome扩展解决方案

OpenClaw+Agent-Reach：全网情报实时调度中枢

需要专业的网站建设服务？