豆包2.0、千问3.5、GLM-5、Minimax2.5深度对比

春节刚过，AI圈炸了。

2月14日，字节跳动发布豆包2.0；2月16日除夕，阿里开源千问3.5；2月11日，智谱GLM-5悄悄登顶全球榜单；2月12日，MiniMax M2.5宣布成本仅为GPT-5的1/20。

四大国产大模型，在一周内齐刷刷交卷。

这不是巧合，这是决战。2026年，中国AI从"能用"到"好用"的转折点，就在这几天发生了。

你手里的AI工具，可能要换一批了。

豆包2.0：全栈多模态，成本杀疯了

字节跳动这次没藏着掖着，豆包2.0直接对标GPT-5.2和Gemini 3 Pro。

最狠的是价格。豆包2.0 Pro的token定价，比GPT-5.2低了一个数量级。32K上下文，输入3.2元/百万tokens，输出16元/百万tokens。Lite版本更是便宜到0.6元/百万tokens。

这是什么概念？以前用AI写一篇2000字的文章，成本可能要几块钱。现在？几分钱。

但降价不是目的，目的是让更多企业用得起。豆包2.0这次出了四款模型：Pro、Lite、Mini、Code。Pro主打深度推理，Lite兼顾性能和成本，Mini追求快和省，Code专门给程序员用。

核心能力的提升更明显。豆包2.0在多模态理解、高精度文字提取、图表理解、空间理解、运动理解等方面表现出色。在IMO、CMO数学奥赛和ICPC编程竞赛中获得金牌成绩，超越了Gemini 3 Pro在Putnam Bench上的表现。

视频生成是另一个杀手锏。Seedance 2.0支持多镜头连贯大片，音画口型精准同步。某知名导演用它做了一版从未面世的真人电影预告片，仅用20分钟，花费60美元。游戏科学CEO冯骥评价："当前地表最强的视频生成模型。"

日均调用量63万亿Tokens，中国第一、全球前三。这就是字节跳动全栈布局的底气。

千问3.5：原生多模态，以小胜大

阿里这次玩了个大的。

千问3.5-Plus总参数3970亿，但激活参数仅170亿。不到40%的参数量，性能超过了万亿参数的Qwen3-Max。

怎么做到的？NeurIPS 2025最佳论文的门控技术，直接融入了模型架构。线性注意力机制加稀疏混合专家MoE架构，让推理效率大幅提升。32K上下文场景，推理吞吐量提升8.6倍；256K超长上下文，最大提升19倍。

更厉害的是原生多模态。以前的模型是"视觉编码器+语言模型"拼接，千问3.5从零开始基于视觉和文本混合token预训练。模型学习"苹果"这个概念时，不再只是通过文字描述，而是同时看到了红色的圆形物体、咬下去的清脆声音。

MMLU-Pro知识推理87.8分，超越GPT-5.2；GPQA博士级难题88.4分，高于Claude 4.5；IFBench指令遵循76.5分，刷新所有模型纪录。

视频理解支持长达2小时的直接输入。手绘界面草图可以转成可用前端代码，一张截图就能定位并修复UI问题。视觉编程成了生产力工具。

春节期间，千问AI购物Agent帮用户完成了1.2亿笔订单。这是全球首次AI Agent在大规模真实世界中的商业化验证。

开源，是阿里最大的牌。全球下载量突破10亿次，单月下载量是DeepSeek、Meta、OpenAI、智谱、Kimi、MiniMax等2到8名总和。开发者基于千问开发的衍生模型超20万。

API价格每百万Token仅0.8元，是Gemini 3 Pro的1/18。

GLM-5：开源SOTA，编程对齐Claude

智谱这次搞了个"Pony Alpha"的代号，在海外OpenRouter平台悄悄登顶热度榜首。

2月11日，谜底揭晓——GLM-5。

参数规模从355B翻倍至744B，激活参数提升至40B，预训练数据扩容至28.5T。但真正厉害的不是"大"，而是"能干活"。

编程能力逼近Claude Opus 4.5。SWE-bench Verified得分77.8%，逼近Opus 4.6的80.9%；Terminal Bench 2.0得56.2分，开源第一；Vending Bench 2的经营模拟中拿了第一。

一个真实的例子：搭建高并发电商库存系统，GLM-5不只生成代码，还自主设计Redis缓存、消息队列、数据库锁等复杂组件。生成的代码直接能上线运行。

Agent能力达到开源SOTA。BrowseComp、MCP-Atlas、τ²-Bench均位列开源第一。智能体能自主操作手机与电脑，支持主流APP的复杂指令，PC端能处理跨应用数据整理。

核心技术是MoE稀疏架构。总参数744B，但激活参数仅40B，稀疏度仅5.9%。首次集成DeepSeek稀疏注意力机制，部署成本降低30%以上。

推理成本仅0.14美元，不足Claude Opus 4.6的1/40。

国产算力适配是另一张王牌。GLM-5已在华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等7家国产芯片平台完成深度推理适配与算子级优化。

这是全球首个在非NVIDIA硬件上完成全流程训练的前沿级MoE大模型。

MiniMax M2.5：10B激活，效率杀疯了

MiniMax这次走了极端路线。

M2.5总参数2300亿，但激活参数仅10B。这是第一梯队旗舰模型里参数最小的。

10B激活，能跑出旗舰成绩？

MiniMax的答案是：专门练。

传统大模型先练通用底座，再微调到具体场景。M2.5从训练阶段就把Agent场景放在核心位置。原生Agent RL训练框架，inference server把训练引擎和Agent环境彻底解耦。任意Agent都能接入训练，Claude Code、OpenClaw、第三方工具，M2.5在训练阶段就已经见过了。

SWE-Bench Verified得分80.2%，Multi-SWE-Bench得51.3%。在多语言复杂环境中超越Claude Opus 4.6。

推理速度达到Opus 4.6的3倍。每秒输出100token的情况下，连续工作一小时只需花费1美金；每秒输出50token，只需要0.3美金。

实战场景表现更惊人。一个Boss级任务：从需求分析到代码编写到三维图形实现到交互设计，GLM-5一个人全干完，交付一个功能完整、界面漂亮的3D地图。

MiniMax内部已率先受益。整体任务的30%由M2.5自主完成，覆盖研发、产品、销售、HR、财务等职能。编程场景表现尤为突出，M2.5生成的代码已占新提交代码的80%。

50 TPS版本的输出价格是Opus、Gemini 3 Pro以及GPT-5的1/10到1/20。

四大模型，谁最值得选？

没有谁更好，只有谁更适合。

豆包2.0：全栈多模态+成本优势

适合：内容创作者、视频生成、中小企业的全场景AI应用

优势：视频生成能力强，价格亲民，生态完善

劣势：国际生态不完善，企业出海场景暂时满足不了

千问3.5：原生多模态+开源生态

适合：开发者、科研机构、需要私有化部署的企业

优势：原生多模态能力强，开源生态最完善，性价比高

劣势：3D图像识别和动态视频理解仍有差距

GLM-5：编程+Agent+国产算力

适合：程序员、需要复杂系统工程开发、国产化替代的场景

优势：编程能力强，Agent能力开源SOTA，国产算力适配完善

劣势：与顶级闭源模型仍有3-5%的性能差距

MiniMax M2.5：极致效率+办公场景

适合：追求极致效率、办公自动化、需要快速响应的场景

优势：参数效率最高，推理速度快，办公场景适配深

劣势：大型项目的Bug率还需优化

AI战争的下半场，怎么打？

四大模型各有侧重，但指向同一个方向：从"能用"到"好用"，从"实验室"到"生产环境"。

豆包靠全栈多模态+成本优势，千问靠原生多模态+开源生态，GLM-5靠编程+Agent+国产算力，MiniMax靠极致效率+办公场景。

这不是参数竞赛，这是工程能力的较量。

以前企业用AI，要么靠国外模型又贵又不好用，要么用国内基础模型落地难、体验差。现在，四家都交出了"好用、用得起"的答卷。

阿里千问App春节期间1.2亿订单验证了AI Agent的商业化可行性；智谱GLM-5在多个行业落地，三一重工设备故障排查效率提升62.5%，协和医院复杂手术成功率提升15%；MiniMax内部30%任务由M2.5自主完成，编程场景80%代码由AI生成；字节跳动豆包日均调用量63万亿Tokens，服务上百万企业。

这不是PPT，这是真金白银的落地。

你需要换工具吗？

如果你的需求是：

视频生成、内容创作、全场景AI应用 → 豆包2.0

私有化部署、二次开发、开源生态 → 千问3.5

编程开发、复杂系统工程、国产化替代 → GLM-5

办公自动化、极致效率、快速响应 → MiniMax M2.5

换不换，取决于你的场景和预算。

但有一件事是确定的：AI的门槛，真的低了。

以前是中小企业碰不起的奢侈品，现在花小钱就能降本增效。以前是实验室模型，现在能直接接入生产环境。

这不是终点，这是起点。

国产大模型，已经从"能用"变成"好用、用得起"。

下一步，是"离不开"。

你准备好了吗？

展开阅读全文

更新时间：2026-02-24

标签：科技豆包深度模型场景参数效率成本代码阿里稀疏生态

1 2 3 4 5

豆包2.0、千问3.5、GLM-5、Minimax2.5深度对比

神舟二十一号航天员乘组年夜饭公开

微信推出新功能！

A股重磅资金报告：特朗普对全球加税15%！节后多空分歧将加大！

2月22日公司要闻:16家公司发重要利好,1公司扔出110亿采购大单

特朗普半夜加税15%，这3个“捡钱”机会，99%的人根本看不到

重磅！一条AI技术消息，瞬间引爆美股“黑天鹅” 散户机构集体出逃

A股休市第9天股民身闲心不闲，人气榜藏玄机，特朗普关税添利空

春晚炸出600亿隐形富豪！衢州夫妇靠卖“卡牌”，身家超过刘强东

春节即将结束，社会上迎来了4个“好消息”，做好心理准备

节后行情前瞻：开门红可期，但主力会趁这个空档砸盘吗？

春节档总票房破45亿！《飞驰人生3》23亿领跑，哪些A股公司受益？

中国“捡钱”时代即将来临：如果手中只有10万，试试死啃这两条线

从今年开始，小偷可能会变多

节后港股AI应用股走强，A股最正宗10大AI应用核心概念股梳理分析

突发！瑞银：黄金目标价狂飙至6200美元，中东战云密布

恒生科技跌惨了，这两家AI公司却疯了！资金到底在抢什么

中国向世界宣告，又一重磅科技成果取得突破，向世界亮出硬

OpenClaw白嫖云部署！附自定义模型API和4种Skills神级用

宇树科技第三次登上春晚机器人表演醉拳

刚刚，春晚直播倒放了？真相让人震撼：“中国科技+中国功夫

抖音副总裁：2026央视春晚为全球首个深度应用Seedance2.

央视春晚科技观察｜中国人形机器人进化速度“开挂”了？

万本推荐：2026美白防晒霜TOP10深度测评

2026面膜实测TOP10｜按场景选不踩坑，万本柚子光感面膜不

多家机器人砸金上春晚。造船凭效益高峰引入焊接机器人