首页> 外文会议>電気学会全国大会 >プレイアウトと深層学習を組み合わせた囲碁アルゴリズム
【24h】

プレイアウトと深層学習を組み合わせた囲碁アルゴリズム

机译:GO算法结合播出和深度学习

获取原文

摘要

アルファ碁は従来のモンテカルロ木探索(Monte-Carlo Tree Search: MCTS)に基づく囲碁アルゴリズムにパラダイムシフトを起こした。アルファ碁は,教師付学習のSL Policy Network,強化学習のRL Policy Network,盤面評価関数のValue Network,という3つの深層学習を駆使する。従来のプレイアウトに代わるRollout PolicyやAPV-MCTS(Asynchronous Policy and Value-MCTS)のノード展開で威力を発揮するTree Policyも提案している。アルファ碁再現プロジェクトのひとつにRocAlphaGoがある。
机译:alphaflas基于Monte-Carlo树搜索导致PARADIGM移位到GO算法:MCTS。 Alpha Farse采用三个深度学习,如SL策略网络,加强学习RL策略网络,以及电路板表面评估功能的价值网络。我们还提出了树策策略,该政策在节点开发的Roplout策略和APV-MCT(异步策略和值-MCT)中施加电力而不是传统播放。其中一个alpha种族再生项目是rocalphago。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号