Reinforcement learning; STRIPS; reward shaping; symbolic planning;
机译:基于计划的奖励成型,用于多主体强化学习
机译:在线学习塑造强化学习中的奖励。
机译:在基于计划的奖励塑造中克服不正确的知识
机译:基于计划的加固学习奖励塑造
机译:奖励预测错误在加固学习期间形状内存
机译:增强Q学习控制在半主动假肢膝关节中为摆动相位控制的奖励塑造功能
机译:在线学习在强化学习中塑造奖励
机译:从人类奖励中学习强化学习:奖励积极性,时间贴现,情节性和表现。