家人们最近科技圈被一个机器人刷了屏,PhysicalIntelligence刚发布的π*0.6模型,硬是把意式浓缩咖啡做了13个小时不翻车,折衣服、装纸箱更是手到擒来,关键任务成功率全飙到90%以上。
网友看完直呼:“这比我家那位连袜子都叠不明白的室友靠谱多了!”

但要是你以为这只是“机器人打工皇帝”,那可就看浅了。翻完论文才发现,比起连做13小时咖啡的“劳模体质”,π*0.6真正的牛掰之处,是学会了人类的终极技能,从错误里长记性。

咱先聊聊它那些出圈名场面。制作意式浓缩这活儿,别说机器人,连人类新手都得练上几周:磨豆粗细、粉饼松紧、萃取时间,差一点味道就天差地别。
但π*0.6能从早到晚连轴转13小时,每一杯的油脂都绵密得像云朵,成功率还稳定在90%以上。

更绝的是折衣服,不是那种规整的T恤,是皱巴巴的衬衫、滑溜溜的裤子、还有容易卷边的毛衣。
它手指(机械臂)翻飞间,愣是把各种“疑难杂症”衣物叠得方方正正,连续几小时不重样。工厂里的纸箱组装就更不用说了,折叠、粘合、封箱一气呵成,比流水线老员工还精准。
但这些“肌肉记忆”级别的操作,其实只是表象。真正让业内人激动的,是它背后那套叫RECAP的学习方法,说通俗点,就是“教练带练+自主复盘”,跟咱上学时老师教题、纠错、刷题的逻辑一模一样。
过去的机器人学东西,就像只会抄答案的小学生。人类示范一遍“怎么做”,它就照着葫芦画瓢,一旦遇到没见过的情况,比如咖啡粉突然结块、衣服上沾了个小线头,就直接卡壳,只能等着人类来救场。

但π*0.6不一样,它搞出了“三步走”战术:
指导阶段:人类示范基础动作,比如握咖啡手柄、捏衣服边角,相当于给它打基础。
辅导阶段:要是它做错了,比如折衬衫时领子翻折错了方向,专家远程“手把手”纠正,教它“错了该怎么改”。
练习阶段:重头戏来了!它会自己反复练,成功了就记住“这个动作能加分”,失败了就分析“刚才哪步掉链子了”,越练越精。
这套方法的核心,其实是解决了机器人学习的老大难问题:怎么从“坏数据”里学东西。就像咱们考试做错的题比做对的题更有价值,机器人的失败经验要是用好了,进步速度能翻倍。


说起来简单,但背后的技术巧思可不少。首先得搞懂一个关键问题:机器人怎么判断“刚才那步是对是错”?
研究团队没走传统路线,而是搞了个价值函数,你可以把它理解成机器人的“错题本评分系统”。
它会给每个动作打分:折对衬衫领子加10分,咖啡萃取时间太长扣5分,叠衣服时把袖子扯变形扣8分这些分数不是乱给的,是通过分析成千上万条成功和失败的操作轨迹算出来的。
更聪明的是“优势条件化”策略。普通机器人学动作是“不管好坏照单全收”,但π*0.6会额外收到一个“优势信号”:比如“这个握手柄的动作比刚才那个好30%”“刚才扯衣服袖子的动作是劣势,下次别这么干”。

相当于老师在错题本上画红圈,告诉它“重点改这里”。
为啥不按传统方法来?这里有两个坑:一是机器人的“学习资料”太杂了,人类示范、专家纠错、自己瞎试的记录都有,传统算法根本消化不了。
二是π*0.6用的是“流匹配”技术生成动作,没法像传统机器人那样直接算“动作梯度”。
所以研究团队干脆换了个思路:把强化学习的问题,变成了机器人最擅长的“监督学习”,就像给学生画重点,效率立马上去了。
这套方法到底好不好使?看数据说话。在折叠多样化衣物和制作咖啡这两个最难的任务里,跟只靠人类示范学习的模型比,π*0.6的吞吐量(每小时成功次数)直接翻了一倍,失败率降了一半。

更重要的是稳定性。过去机器人做复杂任务,做着做着就“失忆”,得人类时不时重置一下。
但π*0.6能连续13小时做咖啡、2小时折衣服,全程不用人管。这背后的秘诀就是它会“自我修正”:比如咖啡粉磨粗了,下一杯就自动调细;衣服叠歪了,下一件就调整机械臂角度。
中国科学院大学教授赵东斌就评价说,π*0.6这种“利用强化学习获取数据链”的方法,是具身智能领域的重要突破,让机器人朝着“通用”又近了一步。

可能有人会问:不就是个会叠衣服、做咖啡的机器人吗?至于这么激动吗?

还真至于。因为π*0.6的突破不是“会做某件事”,而是“学会了怎么学”。
过去机器人要掌握一个新任务,得人类重新录一堆示范数据,成本高得吓人。但有了RECAP,它能从旧任务的经验里“举一反三”,比如学会了折衬衫,再学折毛衣就快多了;会装纸箱,再学装快递盒也不用从头教。
更关键的是,它证明了机器人能从“不完美”中成长。现实世界里哪有那么多“标准答案”?咖啡粉可能受潮,衣服可能有破洞,纸箱可能大小不一。
过去机器人遇到这些“意外”就傻眼,但现在它们能像人类一样,在错误中摸索出解决方案。

网友说得有意思:“从错误中学习,这不比人都强?”其实倒不是说机器人比人聪明,而是它终于掌握了人类学习的核心逻辑,不是追求一次做对,而是做错了能改过来。
未来,要是家里的扫地机器人能自己纠正“卡沙发底”的错误,工厂的机械臂能自己调整“拧螺丝”的力度,快递站的分拣机器人能自己分辨“异形包裹”……这些场景想想就很美好。而π*0.6,正是朝着这个方向迈出的关键一步。
更新时间:2025-11-25
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号