首页> 外文期刊>Statistics & Probability Letters >Randomized allocation with nonparametric estimation for contextual multi-armed bandits with delayed rewards
【24h】

Randomized allocation with nonparametric estimation for contextual multi-armed bandits with delayed rewards

机译:随机分配与延迟奖励的上下文多武装匪徒的非参数分配

获取原文
获取原文并翻译 | 示例
           

摘要

We study a multi-armed bandit problem with covariates in a setting where there is a possible delay in observing the rewards. Under some reasonable assumptions on the probability distributions for the delays and using an appropriate randomization to select the arms, the proposed strategy is shown to be strongly consistent. (C) 2020 Elsevier B.V. All rights reserved.
机译:我们在一个在观察奖励时可能延迟的环境中研究了一个多武装强盗问题。 在延迟概率分布的一些合理假设下,使用适当的随机化选择武器,所提出的策略被认为是强烈一致的。 (c)2020 Elsevier B.V.保留所有权利。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号