College of International Business Management, Shanghai University, Shanghai 201800, China;
机译:使用总预期折现报酬函数优化求解马尔可夫决策过程:重新考虑线性规划
机译:具有无界转移和折扣率的连续时间马尔可夫决策过程
机译:具有折扣奖励的连续时间马尔可夫决策过程:波兰空间的案例
机译:连续时间马尔可夫决策流程,预期折扣总奖励
机译:基于后悔的马尔可夫决策过程的奖励启发。
机译:学习最大化奖励率:基于半马尔可夫决策过程的模型
机译:连续时间马尔可夫决策流程,预期折扣总奖励
机译:具有无限奖励的可数州折现马尔可夫决策过程