干货:Claude Sonnet 4.5震撼发布,宣称“最强编码模型”

前言

北京时间9月30号凌晨,Anthropic 正式发布了 Claude Sonnet 4.5,官方宣称这是迄今为止 “最强大的编码模型” 与 “最符合前沿技术的模型”。与之前的 Claude 模型相比,在多个领域都有了很大的改进,接下来我们一起看看它的关键升级都有哪些吧。


关键升级

让我们深入了解一下它的新特性、它与其他前沿模型的比较,以及为什么它可能是目前市场上适合开发人员、企业和高级用户的最佳模型。

Claude Sonnet 4.5 在SWE-bench Verified测试中展现了卓越的性能,该测试旨在评估 AI 模型在现实世界中的软件工程能力,它的准确率达到了77.2%,在使用并行测试时计算时则提升至 82.0% 。这些结果使 Claude 领先于包括 OpenAI 的 GPT-5 和谷歌的 Gemini 2.5 Pro 在内的竞争对手。

Anthropic表示,Claude 4.5能够持续长达30小时的不间断编码,相比今年早些时候Claude Opus 4实现的7小时基准测试,实现了显著提升。在内部测试中,该模型能够自主构建和部署完整的软件堆栈,包括后端服务、域配置,甚至安全审计。

Claude Sonnet 4.5还显示出在推理和数学等广泛评估方面的改进能力。

金融、法律、医学和 STEM 领域的专家发现,与包括 Opus 4.1 在内的旧模型相比,Sonnet 4.5 表现出了更出色的领域特定知识和推理能力。

在安全性能方面,Claude Sonnet 4.5取得了显著进步,它减少了诸如谄媚、欺骗、权力追求以及鼓励妄想思维倾向等令人担忧的行为。对于该模型的代理和计算机使用功能,在防御即时注入攻击方面也取得了显著进展。

Anthropic同时推出了Claude Agent SDK,这是构建Claude Code所使用的基础设施,现在可供所有开发者使用,这意味着开发者可以构建与自己使用的相同能力的智能体。


写在最后

Claude Sonnet 4.5的发布标志着AI安全领域的一个重要里程碑。通过在安全性、对齐能力和透明度方面的显著改进,该模型为未来AI技术的发展设立了新的标准。

在人工智能快速发展的今天,这种全面而深入的安全评估不仅为行业提供了宝贵经验,也为未来AI技术的发展指明了方向。

展开阅读全文

更新时间:2025-10-05

标签:科技   干货   最强   模型   开发者   能力   领域   功能   上下文   时计   测试   检查点   性能

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号

Top