具身智能：开启通用AI下一站

最近几个月，以ChatGPT为代表的聊天机器人引起全世界的广泛关注。一直以来，人们都想拥有一款能听懂吩咐的机器人，在这一过程中，机器人需要克服很多困难，比如理解指令、分解任务、规划路线、识别物体等，涉及到的能力跨语言、视觉等多个模态。

为了让机器人更加擅长这些任务，不少研究者都在尝试将大型语言模型与机器人结合起来，让大模型充当机器人的「大脑」，从而更出色地完成各项任务。这是具身智能领域一个比较热门的研究方向。

什么是具身智能？

具身智能（Embodied Intelligence，简称EI）是指一种具备自主决策和行动能力的机器智能，它可以像人类一样感知和理解环境，通过自主学习和适应性行为来完成任务。

具体点说，像人一样能与环境交互感知，自主规划、决策、行动、执行能力的机器人/仿真人（指虚拟环境中）是AI的终极形态，我们暂且称之为具身智能机器人。它的实现包含了人工智能领域内诸多的技术，例如计算机视觉、自然语言处理、机器人学等。

正如斯坦福大学计算机科学教授李飞飞所说，“具身的含义不是身体本身，而是与环境交互以及在环境中做事的整体需求和功能。”

图源：上海交通大学教授卢策吾发表的主题演讲《具身智能》

如图中的猫一样，主动猫是具身的智能，它可以在环境中自由行动，从而学习行走的能力。被动猫只能被动的观察世界，最终失去了行走能力。

目前，具身智能已经成为国际学术前沿研究方向，包括美国国家科学基金会在内的机构都在推动具身智能的发展，今年的 IROS 将具身智能作为一个很重要的主题提了出来，谷歌公司 Everyday Robot 的 SayCan 已经将机器人和对话模型结合到一起，能够让机器人在大型语言模型的帮助下，完成一个包含 16 个步骤的长任务。UC 伯克利的 LM Nav 用三个大模型（视觉导航模型 ViNG、大型语言模型 GPT-3、视觉语言模型 CLIP）教会了机器人在不看地图的情况下按照语言指令到达目的地。

具身智能的发展

在人工智能的发展中，人们也逐渐意识到了具身的重要性。美国著名机器人制造专家罗德尼·布鲁克斯（ Rodney Brooks ）认为智能是在与环境的交互作用中表现出来的，因此是行为产生了智能。其基本观点是让机器人到环境中去，进行物理交互，从而积累和发展初级的智能。他因此将研究的重心放在了具身智能，研究如何让机器人移动和适应环境，于是，1986年诞生了第一个基于感知行为模式的轮式机器人。该机器人不需要中枢控制，实现了避让、前进和平衡等功能。Rodney Brooks 也成为了人工智能和机器人学中行为主义的代表性人物。

除了在路线层面的探讨外，当下具身智能的重点放在了机器人如何智能地执行物理任务上，如发展无人车、家用服务机器人等。这些任务在现实世界中有着广泛的需求，为具身智能的发展起到了重要的助推作用。

除了工业界的大力推动，在学术上具身智能也大放异彩。围绕具身智能，众多学科领域各显其能：

1、机器人学为具身智能提供了机械的身体和基本的运动控制；

2、深度学习中的神经网络仍然是具身智能中主要的工具；

3、基于试错的强化学习成为了具身智能中机器人技能的一种主要学习手段；

4、计算机视觉给具身智能提供了处理视觉信号的能力；

5、计算机图形学开发的物理仿真环境给具身智能提供了真实物理世界的替代，大大加快了学习的速度并降低了成本；

6、自然语言给具身智能带来了与人类交流、从自然文本中学习的可能；

7、认知科学进一步帮助具身智能体理解人类、构建认知和价值。

这些领域分别对应了具身智能所需要的能力模块。总的来说，具身智能机器人：首先，要能够听懂人类语言，然后，分解任务，规划子任务，移动中识别物体，与环境交互，最终完成相应任务。

具身智能与通用人工智能

英伟达机器人研究高级主管、华盛顿大学教授 Dieter Fox 指出，机器人研究的一个关键目标是构建在现实世界中对人类有帮助的机器人。但要做到这一点，它们必须首先接触并学习如何与人类交互。

如何实现更加便利的人机交互？

GPT等大模型的出现提供了新思路——已有不少研究者尝试将多模态的大语言模型与机器人结合起来，通过将图像、文字、具身数据联合训练，并引入多模态输入，增强模型对现实中对象的理解，帮助机器人处理具身推理任务。

谷歌、微软的AI团队走在前列，试图以大模型为机器人注入灵魂。

3月8日，谷歌和柏林工业大学的团队重磅推出了史上最大的视觉语言模型——PaLM-E，参数量高达5620亿（GPT-3的参数量为1750亿）。作为一种多模态具身视觉语言模型（VLM），PaLM-E不仅可以理解图像，还能理解、生成语言，可以执行各种复杂的机器人指令而无需重新训练。谷歌研究人员计划探索PaLM-E在现实世界场景中的更多应用，例如家庭自动化或工业机器人。他们希望PaLM-E能够激发更多关于多模态推理和具身AI的研究。

命令 PaLM-E 将红色积木推到咖啡杯旁边而不会出错

在最近的一项研究中，微软团队在探索如何将 OpenA研发的ChatGPT扩展到机器人领域，从而让我们用语言直观控制如机械臂、无人机、家庭辅助机器人等多个平台。研究人员展示了多个 ChatGPT 解决机器人难题的示例，以及在操作、空中和导航领域的复杂机器人部署。

很明显，谷歌和微软对具身AI有高度相似的期许：人类操作机器人，不需要学习复杂的编程语言或机器人系统的细节，“言出”（向机器人口述/比划需求）即“法随”（机器人完成任务），达到“得心应手，如臂使指”的境界。

所以，ChatGPT等大语言模型对实现具身智能中便利的人机交互有着至关重要的作用。

如果说chatGPT为代表的大模型开启了通用AI新时代，那么多模态的、具身的、主动交互式的人工智能体一定是这一时代的必由之路。

责编：岳青植

监制：李红梅

文章参考：

1.《聊天机器人之后具身智能开启通用AI下一站？》中国机器人网

2.《为什么说具身智能是通往AGI值得探索的方向？上海交大教授卢策吾深度解读》机器之心

3.《5620亿参数，最大多模态模型控制机器人，谷歌把具身智能玩出新高度》机器之心

展开阅读全文

页面更新：2024-05-29

标签：智能人工智能机器人模型视觉机器人类能力语言环境

1 2 3 4 5

具身智能：开启通用AI下一站

雪花不总是六角的？穿过迷雾寻找立方冰

2022年值得买科技营收达12亿，谁让导购电商“压力山大”？

关于菜鸟上市的三大猜想｜港股观察站

特斯拉在上海的两家“超级工厂”，背后的玄机大有不同

中药概念：机构重仓持有！7家绩优“中药金花”请收藏（附股）

荷花深处有人家：吉林乡亲凭“荷经济”致富

浙江江山农商银行被罚185万：因贷款三查不到位等

常熟理工学院拟更名苏州工学院，或成“扩地域”式更名又一例

南财基金通·股票型基金收益排行榜（4月7日）

255家！北京市创新型中小企业名单出炉

五年磨一剑，海南自贸港蓬勃发展

“带押过户”、可提取支付首付款，公积金政策优化影响几何？

不动产“带押过户”有什么好处？对房地产开发商更有利

埃安发布弹匣电池2.0技术，安全革新助力销量“狂飙”

豪门父子反目！儿子起诉72岁父亲

下一代航空货站模型长啥样？菜鸟发布《面向全球的航空物

旗舰扫拖机器人选购指南：科沃斯T20与石头G20实测对比

全人类共同价值与西方“普世价值”的发展前景不同

石头扫拖机器人怎么选？石头P10、G10S Pure、G20实测对

chatGPT人类中产清零计划

昆仑万维：即将推出对标ChatGPT的双千亿级大语言模型“

人工智能对比亚迪刀片电池的评价

金母鸡量化教学场：火出圈的智能编程神器—Cursor

小米米家智能音频眼镜发布：支持通话降噪，售价799元

数字人软件选对了吗？对比硅基智能和风平智能！