主页 > 新闻 > 【时讯】携Science封面、NIPS最佳论文，CMU大神Noam博士毕业，论文已公开

【时讯】携Science封面、NIPS最佳论文，CMU大神Noam博士毕业，论文已公开

来源：人民时评网作者：史承泽更新时间：2021-01-26 12:12:29 阅读：

本篇文章2879字，读完约7分钟

机心报道

作者:杜伟

还记得双人无限扑克和多人无限扑克战胜人类顶级玩家的游戏ai系统吗？最近，这两个ai系统的开发者之一，cmu大神宣布完成博士论文，cmu毕业。

当地时间9月21日，fair研究科学家noam brown在推特上宣布顺利完成了cmu博士论文的答辩，长达230页的超硬核博士论文《EQuilibrium Finding Forlargeadversarialim Perfect

noam是论文的序言，他说，除了第5.3章所述的rebel算法外，论文中的所有其他研究都是与导师tuomas sandholm合作完成的。在研究过程中，tuomas耐心地指导了noam。 noam说，没有领导的细心指导，一定无法顺利获得博士学位。

noam brown及其领导人tuomas sandholm教授(右)。

noam brown博士论文的主题是“大型对抗性不完全新闻游戏的均衡发现”。不完整的新闻游戏模拟了多个代理和私人新闻的互动。32 在这个设定中，典型的目标是近似均衡，其中所有代理的战略都是最优的。

完美的新闻游戏( perfect-information games )和不完全的新闻游戏( imperfect-information games )是游戏中新闻游戏的两种主要形式。在游戏中，完美的新闻游戏的前提是所有玩家都知道关于游戏的消息，如规则。不完全的新闻游戏玩家对玩的游戏没有共同的知识，例如其他玩家是谁，它们的策略和行动是可能的，结果如何依赖于行动。关于难度，新闻的不完整增加了玩家决定选择的难度，也增加了游戏分解的难度。

【时讯】携Science封面、NIPS最佳论文，CMU大神Noam博士毕业，论文已公开

围棋、国际象棋、棋盘等国际象棋游戏是完美的新闻游戏。扑克是典型的不完全新闻游戏，这也是noam brown以往的研究重点。年的ai系统libratus到2019年的新算法pluribus属于不完全新闻游戏的范畴。

论文总结了noam brown博士期间的一系列研究成果。机心简要介绍了这篇论文的核心复印件，使感兴趣的网民可以阅读原论文。

论文地址: cs.cmu.edu/~noamb/thesis.pdf

slides地址: cs.CMU.edu/~ noamb/thesis _ slides.PDF

博士论文介绍

这篇博士论文详细阐述了大型抗性不完全新闻游戏中均衡计算的一系列进展。这些新技术带来了ai代理第一次在无限扑克游戏中打败顶级玩家的可能性。这是几十年来ai和博弈论行业中存在的重大挑战性课题。

相反遗憾的是最小化( cfr )的改善

作者首先介绍了两人零和游戏中收敛于纳什均衡迭代算法的反事实遗憾最小化( cfr )的改进。还介绍了cfr的新变体。利用折扣，大幅提高收敛速度。

cfr的做法。

然后作者介绍了理论上合理的剪枝技术，这些技术在大型游戏中可以分几个阶段加快收敛速度。

cfr中剪枝的流程。

把cfr扩展到大型游戏

作者阐述了通过自动抽象和函数近似算法将cfr扩展到大型游戏的新方法。

具体来说，介绍了不完全新闻游戏中离散化连续动作空之间的第一个算法，说明了该算法在局部是最好的。但是，该算法需要很多行业知识，并且很难扩展到其他游戏。

传统做法的界限。

因此，作者提出了采用神经网络函数近似而不是bucketing的抽象化的cfr的变形deep cfr。 deep cfr是第一个可以扩展到大型游戏的non-tabular形式的cfr，cfr是在几乎没有行业知识的设定下部署的。

利用deep cfr扩展为大型游戏。

持续改进的搜索技术。

作者提出了防止代理搜索策略被对方利用的新的不完全新闻游戏搜索技术。这些新的检索形式在理论和实践两方面优于以往的做法。

另外，作者介绍了深度限制( depth-limited )的检索方法，其计算价格明显低于传统方法。

pluribus算法中的深度限制搜索。

最后，作者提出了在训练和测试时加强学习和检索，为缩小完美新闻游戏和不完全新闻游戏研究的差距迈出了重要一步的新rebel算法。

两个人在德克萨斯扑克上无限赌注的结果是。

博士论文的章节目录如下。

致力于德扑游戏ai研究的cmu大神noam brown

facebook人工智能实验室的研究科学家noam brown将计算博弈论与机器学习相结合，致力于开发能够在不完全的新闻多代理环境中进行战略推理的ai系统，其研究成果是两人无限特朗普这两个游戏ai系统给noam brown带来了很大的荣誉。

年，noam brown及其领导人tuomas sandholm开发的ai系统libratus在宾夕法尼亚州匹兹堡rivers赌场持续了20天1比1的无限德扑克比赛，战胜了世界顶级职业4人。这项研究刊登在《科学》杂志上，还获得了与研究相关的另一篇论文“safeandnestedsubgamesolvingforimperfect-information games”。

【时讯】携Science封面、NIPS最佳论文，CMU大神Noam博士毕业，论文已公开

另外，noam队至此获得了ijcai颁发的第二枚马文·明斯基奖牌( marvin minsky medal )。

noam在ijcai 2019大会上收到了马文·明斯基奖牌证书。

2019年，noam brown及其领导人tuomas sandholm基于libratus开发了所需计算能力更少的新算法pluribus。在12天内，在超过10000手的比赛中，pluribus打败了15名人类顶级玩家。

这是ai第一次在玩家数量(或团队)大于2的大规模标杆游戏中打败顶级玩家。 pluribus不仅刊登在科学杂志的封面上，还被列为2019年十大突破科学研究的成果之一。

pluribus登在了《科学杂志》的封面上。

另外，noam获得了年度allen newell“优秀研究奖”，在mit科学技术评审中被选为2019年度“35岁以下科学技术精英”( mit tr35 )。 2019年，noam brown及其领导人tuomas sandholm合作的论文“Solving imperfect-informationgamesviadiscountedregretminimization”获得。

【时讯】携Science封面、NIPS最佳论文，CMU大神Noam博士毕业，论文已公开