POMDP近似算法的研究与设计

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

部分可观测马尔科夫决策过程(Partially Observable Markov Decision Process，POMDP)是处理不确定条件下决策问题的一个通用框架，它在机器人控制，口语系统，医疗诊断等领域都有很大的应用前景。但是由于POMDP问题的历史灾难和纬度灾难性质，精确求解算法是NP难问题，这就大大限制了其在实际中的应用。近年来，近似算法，特别是基于点的近似算法在POMDP策略求解上取得了很大的进步。
　　基于点的算法只考虑初始信念点的可达空间，在可达空间的采样点上进行值迭代，不同算法之间的区别主要在于采样方法和迭代策略。其代表性的算法有基于点的值迭代(PBVI)，前向搜索值迭代(FSVI)和启发式搜索值迭代(HSVI)，它们通常能够得到最优或近似最优的策略。另一类重要的近似算法是基于迭代函数的近似，如基于MDP的近似(QMDP)，快速告知边界法(FIB)，它们得到的是精确值函数的上下界。这类算法通常简单快速，能够处理规模较大的问题，但是对产生策略的质量没有保证。
　　为了在较短的时间内得到一个良好的下界，本文提出了相关状态提升法(RSU)，它的主要思想是用对信念点相关状态的提升去近似对信念点的提升，同时借助内在的MDP探索最优策略下的可达状态空间，然后在得到的状态空间中利用近似值迭代和状态转移树的拓扑结构来加速迭代的进程。
　　利用得到的上下界，本文给出了一个改进的基于点的算法——多路启发式搜索值迭代(MHSVI)，依据可能的最优值函数产生信念点路径，对路径可能达到的值进行评估，并依据评估值对路径进行剪枝，使得值函数能够快速地收敛。
　　本文在几个代表性问题上对提出的算法和已有算法进行了实验，实验结果证明了RSU和MHSVI的有效性。

著录项

作者
刘冰冰;
展开▼
作者单位

中国科学技术大学;

展开▼
授予单位中国科学技术大学;
学科控制科学与工程
授予学位硕士
导师姓名康宇;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类人工智能理论;
关键词
马尔科夫决策过程; 近似算法; 算法设计; 值迭代; 可达空间; 最优策略;

相似文献

中文文献
外文文献
专利

1. 基于采样的POMDP近似算法 [J] . 陈茂 ,陈小平 . 计算机仿真 . 2006,第005期
2. 基于环境状态分布优化的POMDP值迭代求解算法 [J] . 朱荣鑫 ,王譞 ,刘峰 . 计算机应用研究 . 2022,第2期
3. 基于POMDP的单用户认知移动边缘计算资源分配 [J] . 刘伯阳 ,马杰 ,李伟 . 西安邮电大学学报 . 2021,第004期
4. 基于循环卷积神经网络的POMDP值迭代算法 [J] . 于丹宁 ,倪坤 ,刘云龙 . 计算机工程 . 2021,第002期
5. 基于POMDP算法的微铣削优化切削策略研究 [J] . 任星宇 ,刘同舜 ,李怡 . 工具技术 . 2021,第10期
6. 基于EM算法的POMDP模型获取研究 [C] . 唐芸 ,刘云龙 ,戴宗雄 . 全国冶金自动化信息网2015年会 . 2015
7. 基于POMDP的仿生鼻主动感知研究 [A] . 冯永进 . 2015

POMDP近似算法的研究与设计

目录

摘要

著录项

相似文献

相关主题

期刊订阅