首页> 外文会议>Machine learning >A Generalized Reinforcement-Learning Model: Convergence and Applications
【24h】

A Generalized Reinforcement-Learning Model: Convergence and Applications

机译:通用强化学习模型:融合与应用

获取原文
获取原文并翻译 | 示例

摘要

Reinforcement learning is the process by which an autonomous agent uses its experience interacting with an environment to improve its behavior. The Markov decision process (MDP) model is a popular way of formalizing the reinforcement-learning problem, but it is by no means the only way. In this paper, we show how many of the important theoretical results concerning reinforcement learning in MDPs extend to a generalized MDP model that includes MDPs, two-player games and MDPs under a worst-case optimality criterion as special cases. The basis of this extension is a stochastic-approximation theorem that reduces asynchronous convergence to synchronous convergence.
机译:强化学习是一个过程,在此过程中,自治代理会利用自己的经验与环境进行交互来改善其行为。马尔可夫决策过程(MDP)模型是形式化强化学习问题的一种流行方法,但绝不是唯一的方法。在本文中,我们显示了关于MDP强化学习的重要理论成果有多少扩展到广义MDP模型,该模型包括MDP,两人游戏和MDP(在最坏情况下的最优性条件下作为特殊情况)。此扩展的基础是一个随机近似定理,该定理将异步收敛减少为同步收敛。

著录项

  • 来源
    《Machine learning》|1996年|310-318|共9页
  • 会议地点 Bari(IT);Bari(IT)
  • 作者单位

    Department of Computer Science Brown University Providence, RI 02912-1910, USA;

    Research Group of Artificial Intelligence 'Jozsef Attila' University, Szeged Szeged 6720, Aradi vrt tere 1. HUNGARY;

  • 会议组织
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类 计算机的应用;
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号