...
首页> 外文期刊>Automatic Control, IEEE Transactions on >Thompson Sampling for Stochastic Control: The Finite Parameter Case
【24h】

Thompson Sampling for Stochastic Control: The Finite Parameter Case

机译:用于随机控制的汤普森采样:有限参数情况

获取原文
获取原文并翻译 | 示例
           

摘要

In this paper, we apply Thompson sampling to a class of average reward stochastic control problems with parameter uncertainty. Specifically, we study an average reward stochastic control problem over an infinite horizon in which both the reward and state transition distributions are parameterized by an unknown parameter taking values in a finite space. The main result of this paper is a proof showing that Thompson sampling achieves a worst case average per period regret of O(T-1), which is asymptotically optimal.
机译:在本文中,我们将汤普森采样应用于一类具有参数不确定性的平均奖励随机控制问题。具体来说,我们研究了无限范围内的平均奖励随机控制问题,其中奖励和状态转换分布均由在有限空间中取值的未知参数进行参数化。本文的主要结果是证明汤普森采样达到了每周期后悔O(T -1 )的最坏情况平均,这是渐近最优的。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号