以小博大登顶全球榜单:一款中国世界模型凭什么跑赢Google?

谁能想到?一个只有50亿参数的“小模型”,居然在全球顶尖AI团队的围堵下,拿下了世界模型权威评测的双料好成绩!上周,WorldArena公布Track-1视频质量赛道结果,中国团队的“无界世界模型”(BWM)直接炸了AI圈——开源版BLM得分64.54,在13个参评模型里全球第一;闭源版BWM-Fast得分67.87,在86个模型中排第二,离榜首只差0.39分!

要知道,这次参赛的阵容可是豪华到离谱:Google、NVIDIA、高德、智元机器人……国内外大厂和顶尖机构都来了,大家都以为又是算力堆得最多的那个赢,结果杀出个“非大厂”的黑马,这事儿能不让人意外吗?

不是大厂堆算力,50亿参数凭啥拿第一?

更让人惊讶的是,BWM不是出自那些手握千张GPU卡的大厂,而是由同济大学申恒涛教授牵头,朱磊团队联合考拉悠然、上海码极客做的。他们基于阿里开源的Wan2.2-TI2V-5B模型,用50亿参数的小体量,干翻了一堆参数比它大好几倍的对手。在“算力即正义”的AI圈,这简直是反套路操作!

那这个“世界模型”到底是啥?简单说,就是让AI不光能看见画面,还能“预见”接下来会发生什么。比如给它一张桌子的照片,说“机器人把杯子放上去”,它就能生成整个动作的视频——相当于给AI装了一双能看未来的眼睛。这样机器人就不用在真实世界里一次次试错,直接在虚拟世界彩排一万遍就行。

世界模型:给AI装一双“预见未来”的眼睛

2026年,世界模型成了AI圈最火的赛道。图灵奖得主Yann LeCun和谢赛宁搞了AMI Labs,融资10亿美金;李飞飞的World Labs持续加码;贝索斯的Project Prometheus押注制造业AI。连咱们国家的“十五五”未来产业规划都把具身智能列进去了,政策资本双驱动,巨头们都在疯狂涌入。

但大家都在走“军备竞赛”路线:参数越大越好,数据越多越好,算力卡堆得越长越好。可BWM团队偏不,他们走了条“巧劲”路线——不靠堆数据拼算力,靠架构创新和数据效率取胜。

不靠堆算力,靠这三招“巧劲”赢了

具体来说,他们有三个核心创新:首先是DiT架构,用Transformer代替传统扩散模型的卷积骨干。这玩意儿处理长视频时,能记住更远的时空关系,比如第100帧的时候还能记得第1帧杯子在哪。然后是动态记忆机制,解决了长时序推演里的“遗忘”问题。最后是首帧引导+双通路动作控制:首帧锚定场景,保证时空连贯;双通路把机器人动作精准映射到视频里,实现可控的物理仿真。这三招组合起来,让BWM在时空连贯、动作可控、物理一致上都领先。

光说技术不行,得看实际表现。BWM在评测里覆盖了六大具身任务场景,每一个都在考验它的物理直觉。比如空间重排,按大小排积木、堆叠碗碟,它能保持物体稳定;铰链交互,打开微波炉、翻笔记本,长时序里物体状态不变;精细操作,拧开关、挂杯子,理解物体“怎么用”;双臂协同,传递积木不碰撞;长程放置,把东西放进柜子,遮挡时物体不会消失;最牛的是分布外泛化——用没见过的场景让它推演,它居然还能保持动作和物理一致,说明不是靠“背题”,是真懂物理规律!

六大场景实测:AI真的懂物理规律了?

现在BWM团队还搞了开源闭源并举:开源版BLM把模型权重、推理代码放GitHub和Hugging Face,训练代码也在逐步放出,已经收获1600多星。这解决了行业痛点——很多学术成果难复现,大家没法验证。开源底座能让更多人参与进来,加快迭代速度。

行业里现在路线之争也很激烈:LeCun的JEPA路线、李飞飞的3D生成路线、华为系的类脑认知路线,还有BWM的动作条件视频生成路线。英伟达的Jim Fan甚至说“VLA已死,WAM当立”,复旦大学团队也发综述呼应。不管最后哪条路线赢,BWM的成绩已经证明:中国团队在世界模型赛道不仅在场,还能站在最前面!

世界模型的竞争才刚刚开始,未来AI的物理直觉会发展到什么程度?会不会真的让机器人像人一样理解世界?评论区聊聊你的看法,觉得有用的话别忘了点赞收藏转发,让更多人看到中国AI的实力!

展开阅读全文

更新时间:2026-06-08

标签:科技   博大   中国   模型   全球   世界   路线   物理   团队   动作   物体   参数   赛道   连贯

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302034903号

Top