首页> 中文学位 >基于交互式动态影响图的多Agent序贯决策问题求解
【6h】

基于交互式动态影响图的多Agent序贯决策问题求解

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景和意义

1.2 多Agent决策的主要问题

1.2.1 决策问题的不确定性

1.2.2 多Agent决策技术

1.2.3 多Agent通信

1.2.4 对手建模

1.3 国内外研究现状

1.3.1 多Agent通信决策方法

1.3.2 多Agent对手建模方法

1.3.3 IDs的研究现状

1.4 本文的主要研究内容和结构

第2章 I-DIDs的基础知识

2.1 I-POMDPs模型

2.2 图模型

2.2.1 IDs模型

2.2.2 DIDs模型

2.2.3 I-IDs模型

2.2.4 I-DIDs模型

2.3 I-DIDs的求解算法

2.3.1 精确算法

2.3.2 近似算法

2.4 本章小结

第3章 I-DIDs的近似算法

3.1 引言

3.2 基于相对熵的DMU改进算法

3.2.1 DMU算法及相对熵

3.2.2 算法的描述

3.2.3 算法的复杂性与误差分析

3.3 基于N步前瞻的近似行为等价算法

3.3.1 N步前瞻的思想

3.3.2 近似行为等价算法

3.3.3 算法复杂性与误差分析

3.4 实验结果与分析

3.4.1 基于相对熵的DMU改进算法实验

3.4.2 基于N步前瞻的算法实验结果

3.5 本章小结

第4章 COM-IDIDs模型与算法研究

4.1 引言

4.2 COM-IDIDs的建模方法

4.3 COM-IDIDs建模与求解

4.3.1 COM-IDIDs的建模

4.3.2 COM-IDIDs的信度更新和值函数

4.3.3 基于EVD的COM-IDIDs的求解方法

4.3.4 COM-IDIDs的DMU算法

4.4 问题描述与试验结果

4.4.1 多Agent老虎问题

4.4.2 实验结果

4.5 本章小结

第5章 基于I-DIDs的对手建模

5.1 引言

5.2 识别对手模型

5.2.1 问题描述

5.2.2 应用贝叶斯学习识别模型

5.3 基于互信息的模型识别方法

5.3.1 互信息的相关概念

5.3.2 模型相关性和互信息

5.3.3 互信息识别模型的算法描述

5.4 实验结果与分析

5.4.1 公共物品博弈问题

5.4.2 敌对多Agent老虎问题

5.5 本章小结

第6章 总结与展望

6.1 总结

6.2 展望

参考文献

攻读博士期间发表的论文和参与项目

致谢

展开▼

摘要

不确定性环境的决策和规划是人工智能领域研究的基本问题之一。交互式动态影响图(Interactive Dynamic Influence Diagrams,I-DIDs)直观地表示了多Agent决策的基本要素,包括决策、不确定性、目标以及Agent之间如何相互影响,成为求解多Agent决策的新工具。I-DIDs模型涵盖了多Agent合作,中立或竞争的问题。I-DIDs模型求解受信度表示的复杂性和策略空间的复杂性两个高复杂度问题的困扰,只能求解很小规模的问题。为了求解问题的需要,更多情况是为I-DIDs设计一些切实可行的近似求解算法。论文首先为一般的I-DIDs问题设计高效的近似算法。(1)针对I-DIDs精确求解的困难,提出了基于相对熵的区别模型更新(Discrimative Model Update,DMU)改进算法。该近似算法比DMU算法更快的识别行为等价模型,迅速压缩行为等价模型,避免模型空间随决策周期的增加指数倍增长,有效的节省了内存空间,提高了求解效率。实验结果印证了基于相对熵的近似算法在多Agent求解上的诸多优势。(2)提出了基于N步前瞻搜索的近似行为等价算法。该算法改变了以往算法需要事先生成完整策略树,然后比较行为等价模型的做法。该算法将策略生成问题建模为选择动态决策网络的部分解的问题,并在此基础上提出了求解I-DIDs的快速近似算法。在实验结果中,N步前瞻算法在运行时间上比之前的算法更快,能够对大规模决策问题进行近似最优的求解。
  在以上工作基础上,分别对多Agent合作与竞争两种环境下,I-DIDs模型求解展开详细探讨。
  在合作的多Agent环境下,通信是减少环境的不确定性,提高决策质量的重要技术手段,将通信行为引入I-DIDs模型既是对I-DIDs的发展,也使得I-DIDs成为解决多Agent合作决策问题的新工具。本文针对当前COM-IDIDs仅适合单向通信(告诉或者查询类型)这一局限,采用同步类型通信方式,构建了双向通信的COM-IDIDs模型。该模型能直观的表示通信行为与其它决策变量之间的关系。在算法求解过程中,将I-DIDs的一些精确算法进一步拓展应用到COM-IDIDs模型的求解工作中,并结合通信的期望值设计COM-IDIDs的求解算法,从而提高了COM-IDIDs的求解效率。
  目前I-DIDs和COM-IDIDs的所有算法及其验证都是假设其他Agent的真实模型包含于被考虑的候选模型空间。然而在实际问题中,特别是竞争环境,由于不愿意共享信息,以及信息的缺乏,不能保证其他Agent的真实模型存在于被考虑的模型空间中,导致求解质量下降,因此探索和了解其他Agent的真实模型对提高I-DIDs的求解质量有重要的作用,这类问题也被称为对手建模问题。本文应用I-DIDs作为一种新的对手建模语言,直观描述和刻画了对手模型的变化。由于贝叶斯学习方法在识别真实模型存在的一些不足之处,本文提出了基于互信息识别对手模型的方法,当其他Agent的真实模型不在模型空间的情况,该算法能够识别一个与真实模型相关的模型。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号