首页> 外文会议>Machine learning >Approximating Value Trees in Structured Dynamic Programming
【24h】

Approximating Value Trees in Structured Dynamic Programming

机译:结构化动态规划中的近似值树

获取原文
获取原文并翻译 | 示例

摘要

We propose and examine a method of approximate dynamic programming for Markov decision processes based on structured problem representations. We assume an MDP is represented using a dynamic Bayesian network, and construct value functions using decision trees as our function representation. The size of the representation is kept within acceptable limits by pruning these value trees so that leaves represent possible ranges of values, thus approximating the value functions produced during optimization. We propose a method for detecting convergence, prove errors bounds on the resulting approximately optimal value functions and policies, and describe some preliminary experimental results.
机译:我们提出并研究了一种基于结构化问题表示的马尔可夫决策过程的近似动态规划方法。我们假设使用动态贝叶斯网络表示MDP,并使用决策树作为函数表示构造值函数。通过修剪这些值树,将表示的大小保持在可接受的范围内,以使叶子表示值的可能范围,从而近似优化过程中产生的值函数。我们提出了一种检测收敛性的方法,证明了由此产生的近似最优值函数和策略的误差范围,并描述了一些初步的实验结果。

著录项

  • 来源
    《Machine learning》|1996年|54-62|共9页
  • 会议地点 Bari(IT);Bari(IT)
  • 作者单位

    Department of Computer Science University of British Columbia Vancouver, BC V6T 1Z4, CANADA;

    Department of Computer Science University of British Columbia Vancouver, BC V6T 1Z4, CANADA;

  • 会议组织
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类 计算机的应用;
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号