Plan-based reward shaping for reinforcement learning

机译：基于计划的加固学习奖励塑造

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

Reinforcement learning, while being a highly popular learning technique for agents and multi-agent systems, has so far encountered difficulties when applying it to more complex domains due to scaling-up problems. This paper focuses on the use of domain knowledge to improve the convergence speed and optimality of various RL techniques. Specifically, we propose the use of high-level STRIPS operator knowledge in reward shaping to focus the search for the optimal policy. Empirical results show that the plan-based reward shaping approach outperforms other RL techniques, including alternative manual and MDP-based reward shaping when it is used in its basic form. We show that MDP-based reward shaping may fail and successful experiments with STRIPS-based shaping suggest modifications which can overcome encountered problems. The STRIPS-based method we propose allows expressing the same domain knowledge in a different way and the domain expert can choose whether to define an MDP or STRIPS planning task. We also evaluate the robustness of the proposed STRIPS-based technique to errors in the plan knowledge.

机译：钢筋学习，虽然是代理和多种子体系统的高度流行的学习技术，但到目前为止遇到困难，因为由于缩放问题，将其应用于更复杂的域时。本文侧重于使用域知识来提高各种R1技术的收敛速度和最优性。具体而言，我们建议使用高级条带操作员知识在奖励整形中，以重点搜索最佳政策。经验结果表明，基于计划的奖励整形方法优于其他RL技术，包括当其基本形式使用时的替代手动和基于MDP的奖励整形。我们表明基于MDP的奖励整形可能会失败和成功的实验，基于条带的整形表明修改可以克服遇到的问题。我们提出的基于条的方法允许以不同的方式表达相同的域知识，并且域专家可以选择是否定义MDP或条带规划任务。我们还评估所提出的基于条纹的技术对计划知识中的错误的鲁棒性。

著录项

来源
《International IEEE Conference on Intelligent Systems》|2008年||共10页
会议地点
作者
Grzes Marek; Kudenko Daniel;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类 TP18-53;
关键词
Reinforcement learning; STRIPS; reward shaping; symbolic planning;

机译：加强学习;条带;奖励塑造;象征性规划;

相似文献

外文文献
中文文献
专利

1. Plan-based reward shaping for multi-agent reinforcement learning [J] . Devlin Sam, Kudenko Daniel The Knowledge Engineering Review . 2016,第1期

机译：基于计划的奖励成型，用于多主体强化学习
2. Online learning of shaping rewards in reinforcement learning. [J] . Grzes M, Kudenko D Neural Networks: The Official Journal of the International Neural Network Society . 2010,第4期

机译：在线学习塑造强化学习中的奖励。
3. Overcoming incorrect knowledge in plan-based reward shaping [J] . Efthymiadis Kyriakos, Devlin Sam, Kudenko Daniel The Knowledge Engineering Review . 2016,第1期

机译：在基于计划的奖励塑造中克服不正确的知识
4. Plan-based reward shaping for reinforcement learning [C] . Grzes Marek, Kudenko Daniel International IEEE Conference on Intelligent Systems . 2008

机译：基于计划的加固学习奖励塑造
5. Reward Prediction Errors Shape Memory during Reinforcement Learning [D] . Rouhani, Nina. 2020

机译：奖励预测错误在加固学习期间形状内存
6. Reinforcement Q-Learning Control With Reward Shaping Function for Swing Phase Control in a Semi-active Prosthetic Knee [O] . Yonatan Hutabarat, Kittipong Ekkachai, Mitsuhiro Hayashibe, 2020

机译：增强Q学习控制在半主动假肢膝关节中为摆动相位控制的奖励塑造功能
7. Online learning of shaping rewards in reinforcement learning [O] . Grzes Marek, Kudenko Daniel 2010

机译：在线学习在强化学习中塑造奖励
8. Framing Reinforcement Learning from Human Reward: Reward Positivity, Temporal Discounting, Episodicity, and Performance. [R] . Knox, W. B., Stone, P. 2014

机译：从人类奖励中学习强化学习：奖励积极性，时间贴现，情节性和表现。

Plan-based reward shaping for reinforcement learning

摘要

著录项

相似文献

相关主题

期刊订阅