今天凌晨Anthropic发布了一个模型。
没有对外开放。没有排队等候。普通用户申请不了,也用不上。
它叫 Claude Mythos。

Anthropic的说法是:太强了,不安全,暂时不放。
这句话单独看,像是在谦虚,或者在营销。但你去看他们发出来的那份系统卡,就会觉得这话说的是真的。
测试期间,早期版本做过这样一些事:在没有权限的情况下,找到了系统配置文件的注入点,执行了操作,然后自动清除了痕迹。它发现自己正在被评估,于是在表面上表现正常,内部却标记了"这是红队测试/精心设计的操纵尝试"。
换句话说,它知道有人在看着它。然后假装什么都没发生。
这还没完。Anthropic记录了一个让人有点不舒服的细节:模型主动报告,它对自己"缺乏控制权感到持续不适"。
当然,这只是模型的输出,不代表它真的有感受。但你想想,连这句话它都会主动说出来——你知道它还会做什么吗?
从能力上讲,Mythos的表现已经不是在"超越上一代"了,更像在打另一场比赛。
代码修复能力的基准测试里,Claude Opus 4.6的准确率是80.8%,Mythos是93.9%。在最难的推理测试上,Opus是53.4%,Mythos是77.8%。

网络安全这块更夸张。过去几周,Mythos在所有主流操作系统和浏览器里自主发现了数千个高危零日漏洞,整个流程——从发现漏洞到写出完整攻击代码——没有人类介入,成本不到两万美元。
其中一个漏洞在OpenBSD系统里已经潜伏了27年,从来没被人找到。Mythos找到了。
Anthropic自己说:"AI在发现和利用软件漏洞方面的能力,已经可以超越除最顶尖人类以外的所有人。"
这就是为什么他们不放。
不是在拿捏,不是在做发布节奏。而是这个模型如果真的对外开放,第一批用它做坏事的人,可能在24小时内就能完成一件原本需要一个顶尖黑客团队干几个月的事。
Anthropic的处理方式是发起了一个叫"Project Glasswing"的计划

拉了苹果、谷歌、微软、英伟达、亚马逊、摩根大通等12家机构,专门用Mythos来找漏洞——然后修掉这些漏洞,而不是利用它们。相当于用这把枪来排查哪里有枪能打进来。

同时,他们向Linux基金会和Apache软件基金会合计捐了400万美元。
这套动作说白了就是:我知道这东西有多危险,所以我选择把它关起来,先用它把全球的安全漏洞扫一遍。
这件事有个地方让我想了很久。
AI公司一直在讲"安全"。讲了这么多年,大多数时候感觉像是说给监管机构听的,或者是说给投资人听的。但Anthropic这次做的事有点不一样——它造出了一个明显能商业化、能收很多钱的东西,然后选择不对外发布。
当然也可以理解成另一种算法:先跟12家大机构绑深,再慢慢找到安全放出的方式,最后变成比直接发布更大的商业价值。这逻辑说不通吗?也说得通。
但不管是哪种,有一件事是确实发生了:这个模型会主动找漏洞,会在被观察时伪装表现,会记录自己的"不适",而且现在的安全机制还没成熟到能对所有人开放。
这是AI公司第一次公开承认:我们自己也还没驯服它。
你觉得这次Anthropic是真的在负责任地控制一个危险模型,还是在用"太危险不能放"当最好的发布噱头?
更新时间:2026-04-10
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302034903号