基于交互式动态影响图的多Agent序贯决策问题求解

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

不确定性环境的决策和规划是人工智能领域研究的基本问题之一。交互式动态影响图（Interactive Dynamic Influence Diagrams，I-DIDs）直观地表示了多Agent决策的基本要素，包括决策、不确定性、目标以及Agent之间如何相互影响，成为求解多Agent决策的新工具。I-DIDs模型涵盖了多Agent合作，中立或竞争的问题。I-DIDs模型求解受信度表示的复杂性和策略空间的复杂性两个高复杂度问题的困扰，只能求解很小规模的问题。为了求解问题的需要，更多情况是为I-DIDs设计一些切实可行的近似求解算法。论文首先为一般的I-DIDs问题设计高效的近似算法。(1)针对I-DIDs精确求解的困难，提出了基于相对熵的区别模型更新(Discrimative Model Update，DMU)改进算法。该近似算法比DMU算法更快的识别行为等价模型，迅速压缩行为等价模型，避免模型空间随决策周期的增加指数倍增长，有效的节省了内存空间，提高了求解效率。实验结果印证了基于相对熵的近似算法在多Agent求解上的诸多优势。(2)提出了基于N步前瞻搜索的近似行为等价算法。该算法改变了以往算法需要事先生成完整策略树，然后比较行为等价模型的做法。该算法将策略生成问题建模为选择动态决策网络的部分解的问题，并在此基础上提出了求解I-DIDs的快速近似算法。在实验结果中，N步前瞻算法在运行时间上比之前的算法更快，能够对大规模决策问题进行近似最优的求解。
　　在以上工作基础上，分别对多Agent合作与竞争两种环境下，I-DIDs模型求解展开详细探讨。
　　在合作的多Agent环境下，通信是减少环境的不确定性，提高决策质量的重要技术手段，将通信行为引入I-DIDs模型既是对I-DIDs的发展，也使得I-DIDs成为解决多Agent合作决策问题的新工具。本文针对当前COM-IDIDs仅适合单向通信（告诉或者查询类型）这一局限，采用同步类型通信方式，构建了双向通信的COM-IDIDs模型。该模型能直观的表示通信行为与其它决策变量之间的关系。在算法求解过程中，将I-DIDs的一些精确算法进一步拓展应用到COM-IDIDs模型的求解工作中，并结合通信的期望值设计COM-IDIDs的求解算法，从而提高了COM-IDIDs的求解效率。
　　目前I-DIDs和COM-IDIDs的所有算法及其验证都是假设其他Agent的真实模型包含于被考虑的候选模型空间。然而在实际问题中，特别是竞争环境，由于不愿意共享信息，以及信息的缺乏，不能保证其他Agent的真实模型存在于被考虑的模型空间中，导致求解质量下降，因此探索和了解其他Agent的真实模型对提高I-DIDs的求解质量有重要的作用，这类问题也被称为对手建模问题。本文应用I-DIDs作为一种新的对手建模语言，直观描述和刻画了对手模型的变化。由于贝叶斯学习方法在识别真实模型存在的一些不足之处，本文提出了基于互信息识别对手模型的方法，当其他Agent的真实模型不在模型空间的情况，该算法能够识别一个与真实模型相关的模型。

著录项

作者
田乐;
展开▼
作者单位

厦门大学;

展开▼
授予单位厦门大学;
学科系统工程
授予学位博士
导师姓名罗键;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类自动推理、机器学习;
关键词
多Agent系统; 交互式动态影响图; 等价模型; 改进算法;

相似文献

中文文献
外文文献
专利

1. 基于多Agent的交互式动态影响图研究、应用与展望 [J] . 罗键 ,李波 ,潘颖慧 . 厦门大学学报（自然科学版） . 2011,第002期
2. 动态信息系统中基于序贯三支决策的属性约简方法 [J] . 李艳 ,张丽 ,陈俊芬 . 计算机科学 . 2019,第0z1期
3. 基于模糊聚类预报与序贯决策的水资源开发利用总量动态管理模式 [J] . 严子奇 ,王浩 ,桑学锋 . 中国水利水电科学研究院学报 . 2017,第003期
4. 基于影响图的多Agent决策问题研究 [J] . 王浩 . 合肥工业大学学报（自然科学版） . 2005,第009期
5. 基于知识影响图的多Agent集成诊断与决策 [J] . 陆宝春 ,张卫 ,徐永新 . 南京理工大学学报（自然科学版） . 2003,第003期
6. 基于动态影响图的多Agent决策模型 [C] . 姚宏亮 ,王浩 ,张佑生 . 第十四届中国神经网络学术会议 . 2004
7. 基于交互式动态影响图的通信模型研究 [A] . 周玲 . 2013

基于交互式动态影响图的多Agent序贯决策问题求解

目录

摘要

著录项

相似文献

相关主题

期刊订阅