从"抽风"到"稳健",TACO框架如何给机器人VLA模型装上"稳定器"

机器人干活时突然"手抖"?最近VLA模型推理不稳定的问题让不少研究者头疼。

明明是同一个模型,微调完了干活,就因为初始参数有点小波动,成功率能从0%蹦到80%,这种"薛定谔的成功率"谁受得了。

要说这问题有多普遍,搞机器人具身智能的同行怕是最有体会,你让模型去抓个杯子,有时候稳得像老师傅,有时候能把杯子直接挥到地上。

这种不确定性,直接让不少VLA模型没法走出实验室。

这时候中国电信、清华、中科大的团队站出来了,他们搞出个TACO框架,专门治VLA模型的"手抖病"。

这框架一出来,业内不少人都觉得眼前一亮,毕竟这可是困扰大家好久的老大难问题。

VLA模型为啥总"走神"?

要说这背后的原因,还得从模型训练的两个阶段说起,VLA模型刚开始预训练时,就像厨师进了菜市场,啥都学一点,煎炒烹炸炖全会。

可到了微调阶段,相当于突然让他专攻川菜,问题就来了。

预训练时吸收的那些五花八门的动作模式,就像脑子里存了太多菜谱,微调时根本来不及彻底"格式化"。

结果就是干活的时候,模型时不时蹦出些不相关的动作,比如炒川菜呢突然来了个法式煎鹅肝的手法,不乱才怪,更麻烦的是微调数据集这摊子事。

这些数据往往来自不同的操作员,有人习惯左手拿勺,有人喜欢右手颠锅,甚至还有人喜欢边炒菜边抖腿。

模型学了这么多风格迥异的"武功秘籍",最后练出来的可能就是套"四不像"拳法,举个例子就明白了。

你让模型学做鱼香肉丝,结果训练数据里混着十个人的做法,有人先放糖有人先放盐,有人勾芡厚有人勾芡薄。

模型学完了,下次做的时候可能这次按张师傅的路子来,下次又模仿李师傅的手法,味道能稳定才怪。

给机器人装个"稳定器"

中国团队搞出来的TACO框架,思路其实挺反常识的,一般解决模型不稳定,大家都想着从训练阶段下手,他们偏不,直接在推理阶段做文章。

这种"不修改模型参数"的思路,说实话刚开始我还捏把汗,没想到效果这么好,核心秘诀就在于"反探索"原理。

一般模型推理时喜欢尝试新动作,TACO偏要让它"保守"点,就像老司机开车,遇到复杂路况不会随便变道,而是盯着前车尾灯保持安全距离。

TACO让模型推理时只在已知的成功模式里选动作,不乱"创新",Test-TimeScaling(TTS)这招确实聪明。

它不碰模型的"大脑",只在输出结果时加个"过滤器",就像给模型配了个经验丰富的老师傅,不管模型脑子里多混乱,老师傅总能挑出最靠谱的那个动作执行。

这种"不动内核只调输出"的做法,既安全又高效,耦合伪计数估计器这玩意儿,说穿了就是让模型自己当自己的"裁判"。

团队在VLA模型最后加了个轻量级的Coin-FlippingNetwork,专门判断当前动作靠不靠谱。

本来想单独训练个验证模型,后来发现直接让VLA自己验证自己更省事,还省了不少计算资源,高保真特征搜索的操作也挺巧妙。

他们让模型用不同噪声水平跑N次,然后挑个最接近成功案例的结果。

这就像学生考试遇到不会的题,先在草稿纸上多算几遍,哪个答案出现次数多就选哪个,正确率自然高。

从实验室到生产线的跨越

模拟环境测试的时候,TACO框架的表现就让人眼前一亮,在RoboTwin基准测试里,模型成功率一下子提了不少,Simpler-WindowX测试里也有明显进步。

最让人惊讶的是LIBERO-long终生学习测试,在已经很高的成功率基础上还能再往上提一提,真实机器人实验更有说服力。

他们用RealMan75双臂机器人做了五个常见任务,接收书籍、收纳充电器、整理纸和笔、操作笔记本电脑,还有同时拿两本书。

本来平均成功率也就四成,用上TACO框架后直接冲到五成六,要说哪个任务进步最明显,整理纸和笔那个活儿提升了足足四分之一,笔记本电脑操作也提高了一成五。

有个细节挺有意思,之前机器人拿笔记本电脑老怕捏坏了不敢用力,现在能稳稳抓住边缘,开合屏幕也不会晃悠了。

这框架最难得的是不挑模型,不管你是flow-matching还是diffusion架构的VLA模型,都能直接用。

而且加的这些模块都特别轻巧,不会给机器人增加多少计算负担,实时控制完全没问题,如此看来,TACO框架不光解决了稳定性问题,还指明了一条新路子。

以后搞VLA模型,可能不用老想着从头改网络结构了,在推理阶段动动脑筋说不定更有效。

中国团队这次的创新,确实给机器人具身智能领域提了个醒,有时候解决问题的钥匙,可能藏在你没想到的地方。

现在不少实验室已经开始试用水TACO框架,有人开玩笑说这下机器人终于不会"间歇性抽风"了。

从实验室到工厂车间,VLA模型要走的路还长,但TACO框架至少让我们看到了突破瓶颈的希望。

说不定过两年,我们身边的服务机器人,背后都藏着这个"稳定器"呢。

展开阅读全文

更新时间:2025-12-29

标签:科技   稳健   机器人   框架   模型   稳定   成功率   老师傅   阶段   动作   笔记本电脑   实验室   团队

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号

Top