heuristics; reinforcement learning; reward shaping;
机译:一种基于策略迭代的平均奖励强化学习算法:收益管理与收敛性分析的实证结果
机译:在线学习塑造强化学习中的奖励。
机译:利用Lyapunov稳定性理论对强化学习的原则奖励塑造
机译:钢筋学习中奖励塑造的理论与实证分析
机译:奖励预测错误在加固学习期间形状内存
机译:增强Q学习控制在半主动假肢膝关节中为摆动相位控制的奖励塑造功能
机译:基于普通奖励政策迭代的加强学习算法:屈服管理和收敛分析的经验结果
机译:从人类奖励中学习强化学习:奖励积极性,时间贴现,情节性和表现。