Anthropic发布首款神话级模型Fable 5,设严格安全围栏

Anthropic于周二正式公开发布Claude Fable 5,这是其首款被定义为“神话级(Mythos-class)”的模型。官方表示,该模型在整体能力上已超越此前的前沿Opus系列。鉴于对技术可能被用于协助恶意行为的担忧,Fable 5的发布附带了多项严格的安全限制,旨在阻断涉及网络安全、生物学和化学等敏感领域的问答。

Fable 5基于与Mythos 5相同的底层架构。随着Mythos 5结束长达数月的预览期,今日已通过Project Glasswing项目审核,面向少数可信赖的网络防御人员开放。相比之下,面向公众的Fable 5采取了更为保守的策略:当检测到特定敏感话题查询时,系统会将请求重定向至较早版本的Claude Opus 4.8模型,并向用户发出明确警告。

安全机制“比理想状态更严格”

Anthropic坦言,目前的安全机制调整得“比理想状态更严格”,这可能导致系统偶尔拒绝一些无害请求。尽管承认这可能给普通用户带来不便,但公司强调,为避免Mythos模型提供其他来源无法获得的“造成严重伤害”的能力,这种权衡是必要的。测试数据显示,此类误报率低于所有会话的5%。

Fable 5的主题安全机制基于一套分类器系统,旨在广泛识别被禁止的提示词主题及潜在的越狱尝试。在与赏金计划配合进行的超过1000小时红队测试中,外部团队未能找到针对Fable 5的通用越狱方法。此外,新模型对自动化越狱尝试的抵抗力较之前的Claude Opus模型有显著增强。

业界特别关注Mythos 5具备的“代理式黑客攻击”能力,即执行多部分网络攻击的效率远超以往模型。然而,英国AI安全研究所近几个月的测试发现,Mythos Preview在一系列夺旗挑战中的表现与OpenAI的GPT-5.5相似。这一结果表明,Mythos的性能提升并非某一模型特有的突破性进展,而是行业整体水平演进的体现。

【星途科讯 图文丨略略】

展开阅读全文

更新时间:2026-06-11

标签:科技   围栏   模型   神话   机制   能力   系统   敏感   状态   理想   系列   主题   赏金

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号

Top