首页> 中文学位 >交互式动态影响图的建模及优化算法研究
【6h】

交互式动态影响图的建模及优化算法研究

代理获取

目录

声明

厦门大学学位论文著作权使用声明

摘要

第一章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.2.1 不确定决策

1.2.2 MDPs

1.2.3 基于单Agent的影响

1.2.4 基于多Agent的影响图

1.3 本文的主要内容和结构

第二章 交互式动态影响图基础知识

2.1 引言

2.2 影响图

2.3 动态影响图

2.3.1 POMDPs模型

2.3.2 DIDs模型

2.4 交互式动态影响图

2.4.1 I-POMDPs基本模型

2.4.2 I-DIDs模型

2.4.3 I-POMDPs和I-DIDs之间的联系

2.4.4 行为等价原理与DMU方法

2.5 本章小节

第三章 基于部分策略的行为等价原理

3.1 引言

3.2 行为等价原理和I-DIDs求解方法

3.3 近似行为等价原理

3.3.1 修正的BE原理

3.3.2 部分策略树的长度求解

3.4 算法复杂度和误差区间

3.5 实验例子

3.5.1 多Agent老虎问题

3.5.2 多Agent演唱会问题

3.5.3 多Agent UAV问题

3.6 实验结果

3.7 本章小节

第四章 增量式行为等价原理

4.1 引言

4.2 行为等价原理及其定义

4.3 增量式行为等价原理定义

4.3.1 近似的BE原理

4.3.2 增量式对比方法

4.3.3 算法

4.4 算法复杂度和误差区间

4.5 实验结果

4.6 本章小节

第五章 多Agent交互式动态影响图建模与求解

5.1 引言

5.2 相关方法介绍

5.2.1 DMU方法

5.2.2 贝叶斯网参数学习

5.3 I-MADIDs建模

5.4 I-MADIDs求解算法

5.4.1 DMU方法

5.4.2 贝叶斯网参数学习方法

5.5 算法复杂度和误差区间

5.5.1 DMU方法

5.5.2 贝叶斯网参数学习方法

5.6 实验结果

5.7 本章小节

第六章 总结与展望

6.1 总结

6.2 展望

6.2.1 继续研究I-MADIDs的建模及求解技术

6.2.2 研究通信行为在I-DIDs和I-MADIDs中的应用

6.2.3 研究I-DIDs的应用

附录

参考文献

在学期间发表及完成的论文

在学期间参与的课题项目

致谢

展开▼

摘要

随着Agent技术在工业、交通、国防、军事、商务等领域日益广泛的应用和深入的发展,基于单Agent和多Agent的决策问题日益复杂多样,一系列复杂的大规模动态决策问题日益突出,因此,迫切需要一种更加有效解决多Agent决策问题的理论、方法和模型,以期提高Agent决策的智能水平和决策响应速度。
   影响图(IDs)方法是一种利用有向图构造决策问题的概率模型和数量计算框架的统计决策技术。其后产生的动态影响图(DIDs)技术是在动态贝叶斯网络(DBNs)和影响图的基础上提出一种模型,它可以用来建模不确定环境下的Agent动态决策问题,以降低动态决策问题的复杂性。目前国际上的新课题与新挑战是交互式动态影响图(I-DIDs),其图形表述和模型求解尤为引人瞩目。目前的I-DIDs主要通过对其他Agent模型的猜测和识别来推断其可能的决策,这存在着主观性和不确定性,从而导致模型效用降低,求解困难,并局限于解决2个Agent的决策问题。
   本文在前期工作的基础上,应用部分可观测马尔可夫决策过程性质、最大奖励期望值原理和行为等价原理(BE),提出新的模型求解方法,降低计算难度,确保模型解的最优性;根据概率图模型理论、贝叶斯参数学习方法等尝试面向多个Agent进行建模和模型求解;在一般典型问题(譬如多Agent老虎问题和多AgentUAV问题)上对上述新方法进行验证。主要研究内容有:
   (1)提出利用部分策略识别行为等价模型的方法
   提出一种用于识别Agent模型是否行为等价(精确或近似)的新方法。在多Agent环境中,无论决策还是博弈都必须考虑其他Agent的行为模型以预测他们的动作。一种用于降低其他Agent行为模型空间复杂度的方法是组合行为等价的模型,判定模型行为等价需要求解模型并比较整个策略树。由于策略树随时间推移指数增长,整个策略树的比较计算量很大,新方法对部分决策树进行比较,并确定策略树叶子节点信度更新后的距离不大,通过交互动态影响图(I-DIDs)来检查和评价方法的性能。
   (2)提出利用增量式策略识别行为等价模型的方法
   提出用部分策略树聚类近似行为等价模型的改进方法,允许部分策略树中分支对比在没有到达需考虑的分支最大长度时中止,这样每个分支中止的长度不同,因而可能产生一个不对称的部分策略树以聚类更多的近似行为等价模型。新方法可以节省更多的存储空间,可以解决更大时间片的多Agent问题域。
   (3)多Agent交互式动态影响图的建模与求解
   在交互动态影响图中,决策Agent常常需要求解其他Agent的行为模型以预测他们的行为,但是目前考虑的其他Agent只有一个,这显然不能满足大规模复杂问题的决策需求。本文将需考虑的其他Agent推广到多个,研究他们之间的关系,建立面向多Agent的交互式动态影响图模型(I-MADIDs),并探讨了如果两个非建模Agent之间存在稳定关系时,如何简化I-MADIDs模型。在求解方面,面向多Agent的I-MADIDs的求解难度随着其他Agent数目的增加指数增长,且原有的行为等价算法不能普遍的简单应用。本文将原有的DMU行为等价方法应用于I-MADIDs,并提出基于贝叶斯网参数学习的PL求解算法和二者结合的DL方法。实验证明三种方法都可以有效降低模型求解的难度,其中DL方法更加节省求解时间。
   本文是智能Agent决策理论和决策模型领域的论文。通过本文的研究,将为实时动态决策问题的建模和求解打下更为坚实的基础,对决策支持系统、多Agent模型、不确定决策分析等领域也有较高的学术价值和广泛的应用前景,并可用于解决复杂的多Agent决策问题。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号