最强斗地主AI！网易互娱AI Lab提出基于完美信息蒸馏的方法

机器之心专栏

作者：网易互娱 AI Lab

网易互娱 AI Lab 联合上海交通大学和 CMU 提出了基于完美信息蒸馏的斗地主 AI--PerfectDou，击败了一众 AI 模型，成为目前的最强斗地主 AI。

近几年随着强化学习技术的发展，游戏 AI 技术已经成功应用在了围棋、德州扑克、星际争霸等不同种类的游戏中。斗地主是非常流行的一种纸牌游戏，它的玩法存在非完美信息 (地主和农民双方均不能看到对方的手牌) 以及策略合作(2 名农民玩家需要通过配合来击败手牌多 3 张的地主)，被认为是非常具有挑战性的研究领域。除此以外，游戏本身的出牌组合数较多(27472 种)，也极大地限制了如 CFR 等的搜索类算法的使用。

针对上述斗地主游戏的难点，网易互娱 AI Lab 联合上海交通大学和 CMU 提出了基于完美信息蒸馏的斗地主 AI--PerfectDou，击败了一众 AI 模型，成为目前的最强斗地主 AI。相关论文已被 NeurIPS 2022 接收，同时也已经公开了代码以及试玩地址，大家感兴趣可以去和 AI 对战。

论文链接：https://arxiv.org/abs/2203.16406
开源代码地址: https://github.com/Netease-Games-AI-Lab-Guangzhou/PerfectDou
试玩地址：https://outer-perfectdou-demo-gzailab.nie.netease.com

针对斗地主游戏存在的非完美信息、策略合作和动作空间巨大的问题，PerfectDou 主要提出了如下几点贡献：

1. 提出了 PTIE(Perfect-Training-Imperfect-Execution)框架和 node reward 来解决非完美信息问题和策略合作问题

2. 牌类游戏特征的合理建模以及对可行动作的简化来减少模型探索空间，加速 AI 的训练过程

方案介绍

完美信息蒸馏(PTIE)

在斗地主游戏中，非完美信息的引入主要是由于三位玩家均不能看到别人的手牌，对于任意一位玩家而言，仅可知道其余两位玩家当前手牌的并集，而难于精准判断每位玩家当前手牌。完美信息蒸馏的思路是针对这种非完美问题，构建一个第三方角色，该角色可以看到三位玩家的手牌，该角色在不告知每位玩家完美信息的情况下通过信息蒸馏的方式引导玩家打出当前情况下合理的出牌。

以强化学习常用的 Actor-Critic 算法为例，PTIE 在 Actor-Critic 算法的应用中可以利用 Critic 的 Value 输出作为蒸馏手段来提升 Actor 的表现。具体而言即在训练中 Critic 的输入为完美信息(包含所有玩家的手牌信息)，Actor 的输入为非完美信息(仅包含自己手牌信息)，此种情况下 Critic 给予的 Value 值包含了完美信息，可以更好地帮助 Actor 学习到更好的策略。

从更新公式上来看，正常的 Actor-Critic 算法 Actor 更新的方式如下：

在 PTIE 模式下，对于每个非完美信息状态 h，我们可以在 Critic 中构建对应的完美信息状态 D(h)，并用 Critic 的输出来更新 Actor 的策略梯度，从而达到完美信息蒸馏的效果。

PTIE 框架的整体结构如下图所示：

无论是训练还是执行过程中智能体都不会直接使用完美信息，在训练中通过蒸馏将完美信息用于提升策略，从而帮助智能体达到一个更高的强度。

PTIE 的另一种蒸馏方式是将完美信息奖励引入到奖励值函数的训练中，PerfectDou 提出了基于阵营设计的完美信息奖励 node reward，以引导智能体学习到斗地主游戏中的合作策略，其定义如下：

如上所示，完美信息部分

代表 t 时刻地主手牌最少几步可以出完，在斗地主游戏中可以近似理解为是距游戏获胜的距离，

代表 t 时刻地主阵营和农民阵营距游戏获胜的距离之差，

为调节系数。通过此种奖励设计，在训练时既可以一定程度地引入各玩家的手牌信息(出完的步数需要知道具体手牌才能计算)，同时也鼓励农民以阵营的角度做出决策，提升农民的合作性。

特征构建：

PerfectDou 针对牌类游戏的特点主要构建了两部分特征：牌局状态特征和动作特征。其中牌局状态特征主要包括当前玩家手牌牌型特征、当前玩家打出的卡牌牌型特征、玩家角色、玩家手牌数目等常用特征，动作特征主要用于刻画当前状态下玩家的所有可能出牌，包括了每种出牌动作的牌型特征、动作的卡牌数目、是否为最大动作等特征。

牌型特征为 12 * 15 的矩阵，如下图所示：

该矩阵前 4 行代表对应每种卡牌的张数，5-12 行代表该种卡牌的种类和对应位置。

网络结构和动作空间设计

针对斗地主游戏出牌组合数较多的问题，PerfectDou 基于 RLCard 的工作上对动作空间进行了简化，对占比最大的两个出牌牌型：飞机带翅膀和四带二进行了动作压缩，将整体动作空间由 27472 种缩减到 621 种。

PerfectDou 策略网络结构如下图所示：

策略网络结构同样分为两部分：状态特征部分和动作特征部分。

在状态特征部分，LSTM 网络用于提取玩家的历史行为特征，当前牌局状态特征和提取后的行为特征会再通过多层的 MLP 网络输出当前的状态信息 embedding。
在动作特征部分，每个可行动作同样会经过多层 MLP 网络进行编码，编码后的动作特征会与其对应的状态信息 embedding 经过一层 MLP 网络计算两者间的相似度，并经由 softmax 函数输出对应的动作概率。

实验结果

为了验证 PerfectDou 的强度，我们将 PerfectDou 和各个斗地主 AI 分别进行了 1 万局的对战来评估，包括之前的 SOTA 方法 DouZero。主要指标包括两种：WP(胜率)和ADP(场均得分)。其中 ADP 为主要指标，因为其更符合斗地主游戏规则，WP 为辅助指标。

(上表中加粗数字代表 A 对战 B 胜率超过 50% 或者 ADP 大于 0)

从实验结果中可以发现 PerfectDou 能够击败所有的 AI 程序，达到了新的 SOTA 水平。

除此以外PerfectDou还提供了各个核心模块的消融实验结果。

表中的 ImperfectDou、RewardlessDou 是分别去除了 PTIE 和 Node Reward 模块后训练的斗地主 AI，Vanilla PPO 是同时去除两个模块后训练的斗地主 AI，ImperfectDouZero 是尝试使用 PerfectDou 设计的特征和 DouZero 方法进行训练的斗地主 AI。通过上表我们可以发现 PerfectDou 的强度提升还是得益于 PTIE 和 Node Reward，并且两部分均发挥了不可获缺的作用。这也进一步验证了论文主要贡献点的有效性。

展开阅读全文

页面更新：2024-03-23

标签：完美牌局信息网易最强特征状态策略动作玩家方法游戏网络

1 2 3 4 5

最强斗地主AI！网易互娱AI Lab提出基于完美信息蒸馏的方法

这6条铁路是上一个五年未开工的线路！目前项目可研也还没有批复

全线上涨！10月7日茅台行情价

我在上海卖豪宅：中介年赚百万有点难 80后90后是买房主力

富豪们集体移民，带走上万亿财富？他们都去了哪里？

湖北这家企业研发出超长寿命的铅碳储能电池…

太突然！惠誉将英国评级展望下调为“负面”！特拉斯上任一个月，英国市场蒸发2.42万亿元

刘强东的时代落幕了？套现640亿携妻远走美国，祖宅被泼油漆

黄金储备国前十名：美国8133吨居首，日本765吨，那中俄呢？

财知道 - 首破31万亿美元！美国国债“信用卡”又快刷爆了

A股：美股大跌，人民币贬值，港股下跌，三大利空不影响A股开门红

专业解答“在网上或银行买保险靠谱吗？”等问题

南昌楼市的神话结束了，南昌楼市被空置率击败了，南昌楼市降温

但凡个股巨量涨停，为什么次日却反常低开？你知道是怎么回事吗？

个股分析：天赐材料

海天酱油事件发酵后，我们应该如何选择一款家用酱油？

「小河游戏杂谈」理性评价，RNG两位上单，Bin 和呼吸哥谁

解密姆巴佩网络评价为何急转直下！时间节点或指出答案

以科技之名描绘太空魅力，《和平精英》这次如何让玩家玩

全球电竞赛事奖金超3亿刀！一场电竞的“鱿鱼游戏”

《羊了个羊》们「围猎」玩家，移动端休闲小游戏靠什么点

去灰指甲我悟了！不得不服这个方法真的给力

想种植铁皮石斛？这些环境条件要控制好，种植方法分享给大

一款休闲类冒剧情策略游戏

最强安卓游戏掌机曝光！雷蛇高通打造，畅玩火爆游戏

餐桌上的中医之道-宝宝鼻炎的食疗方法