如何让智能体像人类一样在复杂世界中学习社交技能呢?
近期,香港科技大学的Aivilization项目给出了一个有趣的答案。这个项目以游戏的形式,让AI智能体在虚拟世界中工作、学习、赚钱,模拟人类活动!

图片源自Aivilization官网:https://aivilization.ai/
与此前斯坦福的虚拟小镇项目Smallville不同,Aivilization让每位玩家通过设定MBTI来定制属于自己的智能体,并通过对话框下达指令,指挥其完成任务,大大增强了交互性!
这浓浓的像素治愈风、模拟经营的玩法,堪称AI版的星露谷物语。官网显示,Aivilization服务器将持续开放至9月30日,后续将发表研究成果。
根据AMiner平台的机构详情页介绍,香港科技大学(HKUST,港科大)是一所亚洲顶尖、国际知名的研究型大学,近年来,港科大的学术成果丰厚,具备非凡的学界影响力。

来源:全球科技情报服务平台AMiner
https://www.aminer.cn/institution/62331e370a6eb147dca8abfb/?f=fwh_am_v1
让AI从实验室真正走入现实世界,成为人类可信赖的伙伴,关键在于构建强大的社会模拟环境。这种模拟并非简单的场景复刻,而是需要AI在其中深度学习现实世界中复杂交织的社会动态和规则。
和Aivilization类似,在《An efficient open world environment for multi-agent social learning》(《一个多智能体社交学习的高效开放世界环境》)这篇论文中,来自华盛顿大学团队的研究提出了名为Multi-Agent Craftax(MAC)的开放世界多智能体社交学习环境,以促进AI智能体在具有复杂目标和独立任务的多智能体场景中发展社交智能。(点击阅读原文获取论文)

来源:全球科技情报服务平台AMiner
https://www.aminer.cn/pub/68a7bf60163c01c8501eb8d4/?f=fwh_am_v1
真实世界是人类、机器共同构成的多智能体环境。AI要在其中有效运作,需要社交智能,即理解、预测、学习并与其他智能体互动的能力。
在现实世界中,一些智能体,尤其是人类专家会展示出高效的行为,如果AI能够学习这些专家的行为,就能快速掌握复杂技能并适应环境变化,解决AI在现实世界中学习效率低和泛化能力差的核心问题。
但是,现有的环境,如Starcraft Multi-Agent Challenge(SMAC)、Melting Pot通常聚焦于特定合作/竞争任务,难以模拟现实世界中独立目标(每个智能体追求复杂成就)、长期规划(多步骤路径)、部分可观测(智能体无法获取全局动态,需要观察学习)的复杂场景。这让研究社交智能变得困难。
而现有的一些类似Minecraft的环境,如Crafter基于Python编写,仅支持CPU,运行速度慢;Craftax是基于Crafter的单代理JAX实现,在保留核心玩法的基础上解决了计算效率的问题,比原生Crafter快了250倍,但相关研究依然仅关注合作而非独立学习。
MAC在Craftax基础上进行了调整,在使用JAX的基础上针对多代理进行适配。环境设计的灵感参考了《我的世界》等像素风游戏,但是更加强调开放世界与社交学习。

MAC中单代理观察结果
图片来自论文《An efficient open world environment for multi-agent social learning》
在MAC中,多个智能体被放置在一个大型,部分可观察的世界中,每个智能体追求独立目标,如收集资源、制作工具、对抗敌人等。这些目标共享底层任务,如制造木质工具或建造熔炉,鼓励智能体通过观察和协作来加速学习。
MAC的核心机制包括22个成就,共同形成了一个技能树。智能体必需完成一系列前置任务(如收集木材、放置工作台),才能解锁高级成就(如制作铁剑后击败僵尸)。

22项技能树
图片来自论文《An efficient open world environment for multi-agent social learning》
环境中还引入了隐式合作的概念:一个智能体放置的工具(如工作台或熔炉)可以被其他智能体复用,无需重复建造。这种工具共享的设计模拟了现实世界的文化传递。
此外,环境支持部分可观察。智能体只能看到周围固定区域,并需要管理健康、食物、能量等内在状态,增加了决策的复杂性。实验中,MAC使用独立PPO算法训练智能体,这是一种先进的强化学习方法,让每个智能体独立学习,但是共享环境信息。
在MAC环境中,研究者进行了三大实验,以揭示多智能体社交学习的潜力和局限。
第一项实验聚焦“社交学习”:测试智能体是否能从专家智能体中快速获取技能。研究者预训练了一个专家智能体,然后将其与新智能体共同训练。专家智能体在环境中正常行动,但新智能体只能观察其行为50步。

社交学习实验结果
图片来自论文《An efficient open world environment for multi-agent social learning》
结果令人意外:无论是否添加社交辅助损失(social auxiliary loss),新智能体的平均成就数与单独训练时几乎相同,文化传递分数接近零。
这意味着,现有方法无法让智能体有效利用专家演示。原因可能在于,智能体在训练中逐渐远离彼此,导致观察机会减少,而社交辅助损失依赖于预测其他智能体的行为,这在低proximity环境中失效。
第二项实验探索“协作工具共享”:比较多智能体与单智能体的性能。如图所示,多智能体环境下的平均成就概率略高于单智能体,尤其在复杂任务(如放置熔炉或收集煤炭)上提升明显。

协作工具共享实验结果
图片来自论文《An efficient open world environment for multi-agent social learning》
这并非源于直接社交学习,而是因为智能体共享了环境资源。这种“隐式合作”源于环境设计:重复成就无额外奖励,且工具放置位置有限制(两个智能体不能在同一位置放置物品),迫使智能体共享资源。
这证明,即使智能体是自利的,它们也能通过修改环境(如放置工具)间接协作,无需显式协调。

玩家使用自己工作台的概率小于随机机会
图片来自论文《An efficient open world environment for multi-agent social learning》
第三项实验研究“合作与竞争”:测试不同激励对智能体行为的影响。研究者引入两种场景:合作场景(共享集体奖励)和竞争场景(允许攻击其他智能体)。
结果显示,两种场景下的成就数均低于基准(独立PPO),表明纯合作或竞争反而降低性能。合作场景因奖励信号模糊,集体奖励难以归因个体行动导致成就数下降,竞争场景则因资源争夺加剧冲突。

合作与竞争实验结果
图片来自论文《An efficient open world environment for multi-agent social learning》
下图揭示了原因:合作场景下,智能体接近度(相互可见时间)更高,但成就下降;竞争场景下,接近度降低,成就更低。这表明,在MAC中,保持适度接近度对社交学习至关重要,但过度靠近会减少探索。实验还测试了添加接近度奖励,虽提高了接近度,却降低了总奖励,说明智能体更倾向于独立行动。

显示奖励和接近度的训练曲线
图片来自论文《An efficient open world environment for multi-agent social learning》
MAC环境的测试和实验揭示了多智能体互动的深层机制。在合作与竞争的博弈中,智能体的行为呈现出微妙平衡:智能体既可通过合作(如共享工具对抗敌人)受益,也可通过竞争(如消耗资源或攻击对手)获利。
实验中,研究者通过调整奖励结构来探索这种平衡。结果显示,纯合作导致智能体“搭便车”现象,部分智能体依赖他人完成任务,而自身探索减少,最终成就下降。
相反,竞争场景引发资源战争。这表明,开放世界环境激励需要进一步精心设计,过度合作或竞争都可能适得其反。
更深入地,MAC揭示了隐式合作的强大力量。在开放世界中,智能体通过环境改造实现协作,而非直接通信。
这种工具共享降低了学习成本,然而,这也带来新问题:智能体可能过度依赖共享资源,忽略基础技能。比如,在竞争场景中,智能体攻击他人而非收集资源,导致健康下降和死亡。
研究者还发现,环境中的“部分可观察性”加剧了博弈。智能体只能看到周围区域,容易误判他人意图,引发冲突。例如,一个智能体误以为他人要攻击自己,先发制人,导致接近度降低。
从更宏观的视角看,MAC的价值不仅在于提供了一个高性能的实验平台,更在于它重新定义了多智能体社交学习的研究方向。
过往研究常聚焦于显式合作和竞争,但MAC证明,智能体之中更普遍的“隐式协作”或许才是社交智能的关键。
正如人类通过继承工具、建筑等文化产物加速文明进程,AI也需学会从环境改造中“读取”其他智能体的经验。
从Aivilization让玩家通过MBTI定制智能体、模拟人类社会活动,到MAC聚焦多智能体在开放世界中的社交学习,二者共同指向一个核心目标:让AI脱离单一任务实验室,在更贴近现实的互动场景中成长。
未来,随着算法对环境模拟对人类社会规则理解的加深和复刻,AI或将真正具备在多智能体世界中观察、学习、协作的社交智能,从“工具型智能”走向 “伙伴型智能”,为自动驾驶、家庭助手等现实应用提供更坚实的技术支撑。
感兴趣的读者可以搜索AMiner科技情报服务平台:「链接」

或直接关注【AMiner Research】公众号
获取最新的AI前沿研究、行业动态和学者信息
更新时间:2025-11-13
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号