机译:通过政策放松和重要加权在连续空间中增量加强学习
Nanjing Univ Dept Control & Syst Engn Sch Management & Engn Nanjing 210093 Peoples R China;
City Univ Hong Kong Dept Syst Engn & Engn Management Hong Kong Peoples R China|Cent South Univ State Key Lab High Performance Complex Mfg Changsha 410083 Peoples R China;
Nanjing Univ Dept Control & Syst Engn Sch Management & Engn Nanjing 210093 Peoples R China;
Task analysis; Learning systems; Heuristic algorithms; Function approximation; Robots; Navigation; Neural networks; Continuous spaces; dynamic environments; importance weighting; incremental reinforcement learning (RL); policy relaxation;
机译:使用Dyna和策略逼近在连续状态和动作空间中进行有效的强化学习
机译:连续空间中仅限批评家的强化学习的策略推导方法
机译:在连续状态和动作空间中使用粒子群优化策略(PSO-P)进行强化学习
机译:在连续行动空间中批评的批评加强学习的政策推导方法
机译:通过在连续的感官和动作空间中的演示来学习控制策略。
机译:更正:在连续状态和动作空间中基于峰值的强化学习:当策略梯度方法失败时
机译:连续时间和空间中加强学习问题的政策迭代 - 基础理论与方法