大数据文摘出品
8月6日,也就是今天,Anthropic正式推出了其旗舰模型Claude Opus 4.1,对Opus 4进行全面升级。
Claude Opus 4.1目前已上线于Claude的付费服务、Claude Code平台、API接口、Amazon Bedrock,以及Google Cloud的Vertex AI。
价格维持不变,还是那个会员价。
该版本最引人注目的是在SWE-bench Verified基准测试中拿下了74.5%的得分,打破了此前记录。这是测试衡量的是AI模型在开源代码中的实际Bug修复能力。
图片来源:Anthropic
Opus 4.1的得分比前代Opus 4高出约两个百分点,领先OpenAI最新的o系列模型约五个百分点。
GitHub方面指出,Claude Opus 4.1在多文件代码重构方面表现尤为突出,几乎所有指标相较于Opus 4均有提升。
Rakuten Group提供了实战数据:该模型能在庞大代码库中精准识别问题位置,避免不必要的修改,也不会引入新Bug。
这种“只动该动的地方”的风格,恰恰适合日常调试。
曾专注AI编程的创业公司Windsurf称,Claude Opus 4.1在其“初级开发者测试”中取得了一整标准差的提升。他们把这种飞跃比作Sonnet 3.7升级到Sonnet 4时的表现差距。
也就是说,对一线开发者而言,这不是微调,而是质变。
01 更聪明的“AI agent”
除了编程能力之外,Claude Opus 4.1在数据分析和研究任务中的能力也大幅增强。
Anthropic表示,模型在细节跟踪与**任务搜索(agentic search)**方面变得更加可靠。
agentic能力指的是AI能否独立完成多步骤、目标明确的复杂任务。
这类能力越来越成为AI竞赛的主战场。
Opus 4.1在这方面已经显现出对比其他主流模型的领先优势。
在Anthropic公布的基准测试中,Opus 4.1在agentic编码、视觉推理、数学竞赛任务上,全面超越Sonnet 4、Gemini 2.5 Pro以及OpenAI的o3版本。
Claude Opus 4.1 在代理式编程、视觉推理和数学竞赛等领域略胜其他领先的 AI 模型一筹。| 图片来源:Anthropic
Claude官方建议所有使用Opus 4的用户尽快迁移到Opus 4.1。如果是API用户,只需要更换模型tag为 claude-opus-4-1-20250805
即可接入。
整个迁移过程无缝衔接。
02 正面迎战GPT-5
Claude Opus 4.1的发布时间并不巧合。OpenAI的下一代重量级模型GPT-5即将发布。(有消息称是本周四)
据《The Information》报道,GPT-5的改进集中于编程、数学和代理任务,但不会像GPT-3到GPT-4那样带来“断层式”进化。
换言之,GPT-5很强,但不会一骑绝尘。
Anthropic的动作就是在这个时间点,推出Opus 4.1,并公开承诺:更大幅度的模型升级将在“未来几周内”陆续上线。这既是回应,也是挑衅。
他们显然意识到,如果GPT-5仅有“渐进式提升”,那么Claude 4.1就是一个可以维持技术制高点的“缓冲带”。
对开发者来说,这意味着无需观望GPT-5,Claude已经足够先进,值得继续押注。
显然,这是Anthropic“为GPT-5发布预先埋下的棋子”。而且棋下得很准。
同时,他们鼓励开发者阅读系统卡(System Card)、模型页面、价格页和技术文档,全面了解Opus 4.1的全貌。
作者长期关注 AI 产业与学术,欢迎对这些方向感兴趣的朋友添加微信 Q1yezi,共同交流行业动态与技术趋势!
GPU 训练特惠!
H100/H200 GPU算力按秒计费,平均节省开支30%以上!
更新时间:2025-08-08
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号