春节刚过,AI圈炸了。
2月14日,字节跳动发布豆包2.0;2月16日除夕,阿里开源千问3.5;2月11日,智谱GLM-5悄悄登顶全球榜单;2月12日,MiniMax M2.5宣布成本仅为GPT-5的1/20。
四大国产大模型,在一周内齐刷刷交卷。
这不是巧合,这是决战。2026年,中国AI从"能用"到"好用"的转折点,就在这几天发生了。
你手里的AI工具,可能要换一批了。
豆包2.0:全栈多模态,成本杀疯了
字节跳动这次没藏着掖着,豆包2.0直接对标GPT-5.2和Gemini 3 Pro。
最狠的是价格。豆包2.0 Pro的token定价,比GPT-5.2低了一个数量级。32K上下文,输入3.2元/百万tokens,输出16元/百万tokens。Lite版本更是便宜到0.6元/百万tokens。
这是什么概念?以前用AI写一篇2000字的文章,成本可能要几块钱。现在?几分钱。
但降价不是目的,目的是让更多企业用得起。豆包2.0这次出了四款模型:Pro、Lite、Mini、Code。Pro主打深度推理,Lite兼顾性能和成本,Mini追求快和省,Code专门给程序员用。
核心能力的提升更明显。豆包2.0在多模态理解、高精度文字提取、图表理解、空间理解、运动理解等方面表现出色。在IMO、CMO数学奥赛和ICPC编程竞赛中获得金牌成绩,超越了Gemini 3 Pro在Putnam Bench上的表现。
视频生成是另一个杀手锏。Seedance 2.0支持多镜头连贯大片,音画口型精准同步。某知名导演用它做了一版从未面世的真人电影预告片,仅用20分钟,花费60美元。游戏科学CEO冯骥评价:"当前地表最强的视频生成模型。"
日均调用量63万亿Tokens,中国第一、全球前三。这就是字节跳动全栈布局的底气。
千问3.5:原生多模态,以小胜大
阿里这次玩了个大的。
千问3.5-Plus总参数3970亿,但激活参数仅170亿。不到40%的参数量,性能超过了万亿参数的Qwen3-Max。
怎么做到的?NeurIPS 2025最佳论文的门控技术,直接融入了模型架构。线性注意力机制加稀疏混合专家MoE架构,让推理效率大幅提升。32K上下文场景,推理吞吐量提升8.6倍;256K超长上下文,最大提升19倍。
更厉害的是原生多模态。以前的模型是"视觉编码器+语言模型"拼接,千问3.5从零开始基于视觉和文本混合token预训练。模型学习"苹果"这个概念时,不再只是通过文字描述,而是同时看到了红色的圆形物体、咬下去的清脆声音。
MMLU-Pro知识推理87.8分,超越GPT-5.2;GPQA博士级难题88.4分,高于Claude 4.5;IFBench指令遵循76.5分,刷新所有模型纪录。
视频理解支持长达2小时的直接输入。手绘界面草图可以转成可用前端代码,一张截图就能定位并修复UI问题。视觉编程成了生产力工具。
春节期间,千问AI购物Agent帮用户完成了1.2亿笔订单。这是全球首次AI Agent在大规模真实世界中的商业化验证。
开源,是阿里最大的牌。全球下载量突破10亿次,单月下载量是DeepSeek、Meta、OpenAI、智谱、Kimi、MiniMax等2到8名总和。开发者基于千问开发的衍生模型超20万。
API价格每百万Token仅0.8元,是Gemini 3 Pro的1/18。
GLM-5:开源SOTA,编程对齐Claude
智谱这次搞了个"Pony Alpha"的代号,在海外OpenRouter平台悄悄登顶热度榜首。
2月11日,谜底揭晓——GLM-5。
参数规模从355B翻倍至744B,激活参数提升至40B,预训练数据扩容至28.5T。但真正厉害的不是"大",而是"能干活"。
编程能力逼近Claude Opus 4.5。SWE-bench Verified得分77.8%,逼近Opus 4.6的80.9%;Terminal Bench 2.0得56.2分,开源第一;Vending Bench 2的经营模拟中拿了第一。
一个真实的例子:搭建高并发电商库存系统,GLM-5不只生成代码,还自主设计Redis缓存、消息队列、数据库锁等复杂组件。生成的代码直接能上线运行。
Agent能力达到开源SOTA。BrowseComp、MCP-Atlas、τ²-Bench均位列开源第一。智能体能自主操作手机与电脑,支持主流APP的复杂指令,PC端能处理跨应用数据整理。
核心技术是MoE稀疏架构。总参数744B,但激活参数仅40B,稀疏度仅5.9%。首次集成DeepSeek稀疏注意力机制,部署成本降低30%以上。
推理成本仅0.14美元,不足Claude Opus 4.6的1/40。
国产算力适配是另一张王牌。GLM-5已在华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等7家国产芯片平台完成深度推理适配与算子级优化。
这是全球首个在非NVIDIA硬件上完成全流程训练的前沿级MoE大模型。
MiniMax M2.5:10B激活,效率杀疯了
MiniMax这次走了极端路线。
M2.5总参数2300亿,但激活参数仅10B。这是第一梯队旗舰模型里参数最小的。
10B激活,能跑出旗舰成绩?
MiniMax的答案是:专门练。
传统大模型先练通用底座,再微调到具体场景。M2.5从训练阶段就把Agent场景放在核心位置。原生Agent RL训练框架,inference server把训练引擎和Agent环境彻底解耦。任意Agent都能接入训练,Claude Code、OpenClaw、第三方工具,M2.5在训练阶段就已经见过了。
SWE-Bench Verified得分80.2%,Multi-SWE-Bench得51.3%。在多语言复杂环境中超越Claude Opus 4.6。
推理速度达到Opus 4.6的3倍。每秒输出100token的情况下,连续工作一小时只需花费1美金;每秒输出50token,只需要0.3美金。
实战场景表现更惊人。一个Boss级任务:从需求分析到代码编写到三维图形实现到交互设计,GLM-5一个人全干完,交付一个功能完整、界面漂亮的3D地图。
MiniMax内部已率先受益。整体任务的30%由M2.5自主完成,覆盖研发、产品、销售、HR、财务等职能。编程场景表现尤为突出,M2.5生成的代码已占新提交代码的80%。
50 TPS版本的输出价格是Opus、Gemini 3 Pro以及GPT-5的1/10到1/20。
四大模型,谁最值得选?
没有谁更好,只有谁更适合。
豆包2.0:全栈多模态+成本优势
适合:内容创作者、视频生成、中小企业的全场景AI应用
优势:视频生成能力强,价格亲民,生态完善
劣势:国际生态不完善,企业出海场景暂时满足不了
千问3.5:原生多模态+开源生态
适合:开发者、科研机构、需要私有化部署的企业
优势:原生多模态能力强,开源生态最完善,性价比高
劣势:3D图像识别和动态视频理解仍有差距
GLM-5:编程+Agent+国产算力
适合:程序员、需要复杂系统工程开发、国产化替代的场景
优势:编程能力强,Agent能力开源SOTA,国产算力适配完善
劣势:与顶级闭源模型仍有3-5%的性能差距
MiniMax M2.5:极致效率+办公场景
适合:追求极致效率、办公自动化、需要快速响应的场景
优势:参数效率最高,推理速度快,办公场景适配深
劣势:大型项目的Bug率还需优化
AI战争的下半场,怎么打?
四大模型各有侧重,但指向同一个方向:从"能用"到"好用",从"实验室"到"生产环境"。
豆包靠全栈多模态+成本优势,千问靠原生多模态+开源生态,GLM-5靠编程+Agent+国产算力,MiniMax靠极致效率+办公场景。
这不是参数竞赛,这是工程能力的较量。
以前企业用AI,要么靠国外模型又贵又不好用,要么用国内基础模型落地难、体验差。现在,四家都交出了"好用、用得起"的答卷。
阿里千问App春节期间1.2亿订单验证了AI Agent的商业化可行性;智谱GLM-5在多个行业落地,三一重工设备故障排查效率提升62.5%,协和医院复杂手术成功率提升15%;MiniMax内部30%任务由M2.5自主完成,编程场景80%代码由AI生成;字节跳动豆包日均调用量63万亿Tokens,服务上百万企业。
这不是PPT,这是真金白银的落地。
你需要换工具吗?
如果你的需求是:
视频生成、内容创作、全场景AI应用 → 豆包2.0
私有化部署、二次开发、开源生态 → 千问3.5
编程开发、复杂系统工程、国产化替代 → GLM-5
办公自动化、极致效率、快速响应 → MiniMax M2.5
换不换,取决于你的场景和预算。
但有一件事是确定的:AI的门槛,真的低了。
以前是中小企业碰不起的奢侈品,现在花小钱就能降本增效。以前是实验室模型,现在能直接接入生产环境。
这不是终点,这是起点。
国产大模型,已经从"能用"变成"好用、用得起"。
下一步,是"离不开"。
你准备好了吗?
更新时间:2026-02-24
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight All Rights Reserved.
Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号