基于环境状态分布优化的POMDP值迭代求解算法

朱荣鑫; 王譞; 刘峰; 赵志宏

首页> 中文期刊> 《计算机应用研究》 >基于环境状态分布优化的POMDP值迭代求解算法

基于环境状态分布优化的POMDP值迭代求解算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

基于点的值迭代算法是一类解决POMDP问题的有效算法,PBVI是基于点集的经典算法,但是其算法效率较为低下。FSVI使用内在的MDP最优策略来降低算法复杂度,但求解大规模问题的效果较差。为解决上述问题,提出了基于环境状态分布优化的前向搜索值迭代算法(PBVI-OSD),通过基于权重值的Q^(MDP)选出最佳的动作,基于信念状态和转换函数选取最大可能的状态,基于动作和状态从观察中随机选取一个观察概率大于阈值的观察,由此获得更具探索价值的后继信念点集,提升值迭代收敛的质量。在四个基准问题上的实验表明,相比于FSVI和PBVI,PBVI-OSD能保证收敛效率,特别是在大规模问题上能收敛到更好的全局最优解。

著录项

来源
《计算机应用研究》 |2022年第2期|374-378|共5页
作者
朱荣鑫; 王譞; 刘峰; 赵志宏;
展开▼
作者单位

海南大学网络空间安全学院;

海口570208;

南京特殊教育师范学院;

南京210038;

南京大学软件学院;

南京210093;

南京工业大学;

南京211816;

展开▼
原文格式 PDF
正文语种 chi
中图分类人工智能理论;
关键词
部分可观测马尔可夫决策过程; 可达信念空间; 智能体规划;

相似文献

中文文献
外文文献
专利

1. 基于杂合标准的POMDP值迭代求解算法 [J] . 刘峰 . 模式识别与人工智能 . 2016,第011期
2. 一种基于最优策略概率分布的 POMDP 值迭代算法 [J] . 刘峰 ,王崇骏 ,骆斌 . 电子学报 . 2016,第005期
3. 基于策略迭代和值迭代的POMDP算法 [J] . 孙湧 ,仵博 ,冯延蓬 . 计算机研究与发展 . 2008,第010期
4. 基于循环卷积神经网络的POMDP值迭代算法 [J] . 于丹宁 ,倪坤 ,刘云龙 . 计算机工程 . 2021,第002期
5. 基于点的POMDPs在线值迭代算法 [J] . 仵博 ,吴敏 ,佘锦华 . 软件学报 . 2013,第001期
6. 基于违约个体适应度值修正法的求解复杂约束优化问题的遗传算法 [C] . 王春香 ,李现友 ,尹宁 . 第十三届全国机械设计年会 . 2007
7. 基于点的值迭代算法在POMDP问题中的研究 [A] . 房俊恒 . 2015

基于环境状态分布优化的POMDP值迭代求解算法

摘要

著录项

相似文献

相关主题

期刊订阅