首页> 中文学位 >基于惩罚高斯混合模型的高维数据聚类分析
【6h】

基于惩罚高斯混合模型的高维数据聚类分析

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 研究背景

1.2 国内外研究现状

1.3 研究方向与思路

1.4 本文的主要工作和结构安排

第二章 基于惩罚高斯混合模型的聚类

2.1 标准的基于高斯混合模型的聚类分析

2.1.1 基本模型

2.1.2 参数估计

2.1.3 模型小结

2.2基于惩罚高斯混合模型的聚类

2.2.1 函数形式

2.2.2 惩罚函数

2.2.3 L1-GMM模型参数估计

2.2.4 Adaptive-L1-GMM模型参数估计

2.2.5 Adaptive-H-GMM模型参数估计

2.3 本章小结

第三章 模型选择

3.1 聚类个数的估计

3.2 模型选择

第四章 模拟数据实验

4.1 数据模拟

4.2 结果及分析

4.2.1 估计聚类个数

4.2.2 模型选择

4.2.3 模型总结

第五章 基因表达数据实验

5.1 基因表达数据聚类分析简述

5.2 结果及分析

5.2.1 估计聚类个数

5.2.2 模型选择

5.2.3 模型总结

第六章 总结与展望

6.1 本文总结

6.2 进一步的工作

参考文献

致谢

展开▼

摘要

本文假设数据来自高斯混合模型,通过对该类模型施加惩罚函数,实现变量选择及聚类分析。我们选取了三种关于均值参数的惩罚函数:L1-惩罚、Adaptive-L1-惩罚、Adaptive-分层-惩罚,对应的模型分别记为L1-GMM、Adaptive-L1-GMM、Adaptive-H-GMM。模型确立后,我们首先利用Gap Statistics对聚类个数进行估计,然后利用EM算法对模型中πk(s),μkp(s),σp(s)三组参数进行估计,在此过程中通过μkp的值可判断第 p变量是否为信息变量,同时将改进的BIC作为模型选择准则,实现对惩罚系数λ的选择。模型的有效性通过模拟数据及基因表达数据实验得以检验。对模拟数据集,三种模型效果良好,聚类情况与原数据一致,并且正确选择出了非信息变量。对基因表达数据集,三种模型效果不一,Adaptive-H-GMM模型最终在300个变量中选择出了14个信息变量,有效地减少了计算量和复杂度,聚类错误率为4/72,效果较好。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号