University of Massachusetts Amherst.;
机译:原型功能:一个拉普拉斯框架,用于学习马尔可夫决策过程中的表示和控制
机译:马尔可夫决策过程中价值函数的进化算法发现
机译:通过价值函数发现学习马尔可夫决策过程中的最优策略
机译:在非绑定奖励中发现非静止马尔可夫决策过程中最佳解决方案视野
机译:隐藏马尔可夫模型的现代方法和止痛性的部分可观察马尔可夫决策过程
机译:不确定性下的决策:基于部分可观察的马尔可夫决策过程的神经模型
机译:马尔可夫决策过程中价值函数的进化算法发现