阶跃发布并开源Step 3.7 Flash,“多快好省”拉高模型效率上限

视频加载中...

今天(5月29日),基础大模型创业公司阶跃星辰(StepFun)发布并开源Step 3.7 Flash模型。这是一款专为生产级Agent打造的Flash模型,官方称其致力于在速度、成本、可靠执行和复杂任务处理能力之间实现更好平衡。

当前,Agent正在从演示阶段快速走向真实的企业生产环境,这对基础模型竞争提出了全新要求:不只是追求峰值智能,而要追求能够在应用场景实现规模化的高效智能。这意味着模型不仅要回答问题,更要理解复杂输入、主动搜索信息、稳定调用工具,并在多轮长程任务中保持执行一致性。

阶跃星辰官方介绍,Step 3.7 Flash采用稀疏MoE架构,总参数196B+1.8B(ViT)、激活参数仅11B ,最高生成速度可达400Tokens/s,特别适合高频、多轮的Agent应用场景,能显著提升任务完成效率。值得关注的是,模型针对生产级Agent场景需求优化了关键能力:原生多模态理解与执行、联网与视觉搜索增强、高可靠工具调用与编排及Agent生态兼容优化。

Step 3.7 Flash能够直接处理UI界面、图表、文档、图片以及各类应用界面,并将复杂视觉信息转化为结构化结果和可执行任务,并在信息不确定时主动发起搜索进行交叉验证;而在生产级Agent最核心的工具调用可靠性上,Step 3.7 Flash进行了针对性优化,可在长程多轮工作流中稳定调用API、浏览器、终端、Office工具等,显著降低跑偏和执行失败风险。

Step 3.7基准测试结果

基准测试显示,Step 3.7 Flash在SimpleVQA(Search)、V* (Python)等复杂视觉任务Benchmark上,展现出媲美更大规模旗舰模型的能力表现。而在考察多工具协同的Toolathlon上,这款模型的分值达到了49.5%,并在考察真实环境下日常自主任务执行的ClawEval-1.1上达到了67.1%;在横跨44种职业的GDPval上达到了45.8%;在τ²-bench Telecom的低、中、高三档推理难度下通过率均达到98%以上。

这意味着,它能在多轮Agent工作流中稳定调用API、浏览器、终端、Office和外部系统,保持任务轨迹一致,降低跑偏和执行失败。

阶跃还对主流Agent框架和工具调用协议进行了兼容优化,可稳定接入Claude Code、OpenClaw、Hermes Agent等主流Coding与Agent工具,并支持云端部署与本地部署,降低开发者接入和工作流编排成本。

业内人士认为,随着各行各业加速推进Agent落地,Step 3.7 Flash的设计理念也反映出Flash类模型的角色转变:从单纯的轻量替代品,逐步成为支撑生产级Agent规模化落地的基础设施。今年2月,阶跃开源了该系列上一个版本模型Step 3.5 Flash,同样主打极速、高效地完成Agent场景任务,上线一个月即登顶OpenRouter平台OpenClaw调用量月榜全球第一。

阶跃表示,后续将围绕Step 3.7 Flash推出生态共建计划和生态伙伴限时体验活动,与开发者一起探索Agent效率的评估方式、工程实践和生产化路径。

展开阅读全文

更新时间:2026-05-30

标签:科技   多快好省   拉高   上限   模型   效率   工具   长程   工作流   场景   稳定   高效   终端   生态   视觉

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号

Top