...
【24h】

Learning in Two-Player Matrix Games by Policy Gradient Lagging Anchor

机译:通过策略梯度滞后锚定,在双人矩阵游戏中学习

获取原文
获取原文并翻译 | 示例
           

摘要

We propose a novel multi-agent reinforcement learning (MARL) algorithm which is called a policy gradient lagging anchor (PGLA) algorithm. Then, we consider 2 two-player matrix games as illustrative examples. And it is shown by simulation that behaviors of the games using the PGLA algorithm can converge to Nash equilibria in both pure and mixed policies.
机译:我们提出了一种新型多功能加强学习(MARL)算法,称为策略梯度滞后锚(PGLA)算法。 然后,我们认为2个双人矩阵游戏作为说明性示例。 并且通过模拟显示使用PGLA算法的游戏的行为可以收敛到纯粹和混合策略中的纳什均衡。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号