首页> 中文学位 >POMDP近似算法的研究与设计
【6h】

POMDP近似算法的研究与设计

代理获取

目录

声明

摘要

第1章 绪论

1.1 引言

1.2 POMDP研究现状与主要算法

1.2.1 精确算法

1.2.2 近似算法

1.3 本文工作

1.4 文章结构

第2章 POMDP介绍

2.1 MDP模型

2.1.1 模型定义

2.1.2 性能准则

2.1.3 策略

2.1.4 求解

2.2 POMDP模型

2.2.3 策略

2.2.4 信念状态

2.2.5 求解

2.3 本章小结

第3章 基于迭代函数和基于点的近似算法

3.1 基于迭代函数的近似算法

3.1.1 最优值函数的上下界

3.1.2 基于MDP的近似

3.1.3 快速告知边界法

3.1.4 基于完全不可观测MDP的近似

3.1.5 Blind policy

3.2 基于点的近似算法

3.2.1 基于点算法的主要思想

3.2.2 基于点的值迭代

3.2.3 Perseus算法

3.2.4 启发式搜索值迭代

3.2.5 前向搜索值迭代

3.2.6 最优策略下可达空间的连续近似

3.3 本章小结

第4章 下界近似算法-相关状态更新

4.1 引言

4.2 可达信念状态空间

4.3 相关状态更新法

4.4 状态采样

4.5 近似值迭代

4.6 利用拓扑结构加速迭代

4.7 本章小结

5.1 引言

5.2 值函数上下界

5.3 启发式搜索值迭代

5.4 信念状态空间选择

5.5 多路启发式搜索值迭代

5.5.1 信念点选择

5.5.2 信念点的剪枝

5.5.3 算法描述

5.5.4 算法收敛陛

5.6 本章小结

第6章 实验与分析

6.1 问题模型

6.1.1 Hallway

6.1.2 Hallway2

6.1.3 RockSample(4,4)

6.1.4 Tag

6.1.5 Underwater Navigation

6.2 实验结果

6.3 实验分析

6.4 本章小结

第7章 总结与展望

7.1 本文工作总结

7.2 展望

参考文献

致谢

在读期间发表的学术论文与取得的研究成果

展开▼

摘要

部分可观测马尔科夫决策过程(Partially Observable Markov Decision Process,POMDP)是处理不确定条件下决策问题的一个通用框架,它在机器人控制,口语系统,医疗诊断等领域都有很大的应用前景。但是由于POMDP问题的历史灾难和纬度灾难性质,精确求解算法是NP难问题,这就大大限制了其在实际中的应用。近年来,近似算法,特别是基于点的近似算法在POMDP策略求解上取得了很大的进步。
  基于点的算法只考虑初始信念点的可达空间,在可达空间的采样点上进行值迭代,不同算法之间的区别主要在于采样方法和迭代策略。其代表性的算法有基于点的值迭代(PBVI),前向搜索值迭代(FSVI)和启发式搜索值迭代(HSVI),它们通常能够得到最优或近似最优的策略。另一类重要的近似算法是基于迭代函数的近似,如基于MDP的近似(QMDP),快速告知边界法(FIB),它们得到的是精确值函数的上下界。这类算法通常简单快速,能够处理规模较大的问题,但是对产生策略的质量没有保证。
  为了在较短的时间内得到一个良好的下界,本文提出了相关状态提升法(RSU),它的主要思想是用对信念点相关状态的提升去近似对信念点的提升,同时借助内在的MDP探索最优策略下的可达状态空间,然后在得到的状态空间中利用近似值迭代和状态转移树的拓扑结构来加速迭代的进程。
  利用得到的上下界,本文给出了一个改进的基于点的算法——多路启发式搜索值迭代(MHSVI),依据可能的最优值函数产生信念点路径,对路径可能达到的值进行评估,并依据评估值对路径进行剪枝,使得值函数能够快速地收敛。
  本文在几个代表性问题上对提出的算法和已有算法进行了实验,实验结果证明了RSU和MHSVI的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号