首页> 中文学位 >变分自编码器结合t分布随机邻域嵌入降维及聚类分析
【6h】

变分自编码器结合t分布随机邻域嵌入降维及聚类分析

代理获取

目录

声明

1. 绪论

1.1 研究内容及意义

1. 图像处理

2. 文本数据

1.2 国内外研究现状

1.3 研究思路与内容

2. 变分自编码器初步降维

2.1 基本概念

信息量

平均信息量

Kullback-Leibler散度

边缘分布

后验分布

似然函数

2.2 生成模型

2.3 VAE降维基础—编码器

2.4 基于编码器的改进

2.4.1 变分推理

2.4.2 VAE简介

2.4.3 随机梯度变分贝叶斯评估器优化模型

2.4.4 重参数技巧

2.4.5 RMSprop算法训练模型

2.4.6 VAE变体形式

3. t分布随机邻域嵌入二次降维

3.1 非线性流形学习

3.2 随机邻域嵌入

3.3 t分布随机邻域嵌入进一步降维

3.4 Spearman相关系数

4. 降维数据的K-means聚类分析

4.1 算法原理

4.2 K值的选取

4.3 效果评价指标

4.4 基于聚类结果的有监督预测

5. 数值算例

5.1 数据集介绍

5.2 结果及分析

结论

参考文献

攻读硕士学位期间发表学术论文情况

致谢

大连理工大学学位论文版权使用授权书

展开▼

摘要

当今互联网日渐繁荣,我们获得的信息也随着科技技术的发展而迅速增长,大数据的发展已经进入白热化阶段。然而各领域接触到的数据往往都是高维数据,成百上千的维度为后续的分析以及计算带来了巨大的挑战,许多常用算法在高维数据集中往往失效。为了能从高维数据中挖掘并分析其潜在信息,有关数据降维的一系列算法应运而生。 数据降维的核心思想是:在高维数据集中对数据采用某种映射,对高维数据进行变换得到其在低维空间的表示,使其可以应用到已有的低维空间下有效的算法。 本文提出了一种基于全连接神经网络的变分自编码器模型和t分布随机邻域嵌入算法相结合的方式进行高维数据的无监督降维。我们设计编码器和解码器均为三层全连接神经网络结构,编码器提取样本数据特征,再通过解码器逼近原始输入样本。网络的训练采用小批量梯度下降法,利用编码器将高维数据降维至中间维度,再结合t分布随机邻域嵌入算法进一步降维,然后对低维数据采用K-means聚类分析。实验证明:变分自编码器模型在样本量较大,维度高的数据集中,黑盒变分推断提高了模型的可变性和通用性,使得降维效果较好。其次,t分布随机邻域嵌入算法一定程度上保证了高维空间数据样本的概率分布与低维空间下数据的概率分布的一致。当编码器对高维数据初步降维至中间维度后,t分布随机邻域嵌入在中间维度空间距离较远的数据点映射到低维空间中避免了数据点聚集,使最终结果与中间维度空间保持最大程度的一致性。与传统的PCA降维方法比较,本文方法能更有效的提取数据特征,在聚类分析中提高了类间离散度,有较好的聚类效果。最后给出数值算例来说明本文算法的有效性。

著录项

  • 作者

    郭韵颖;

  • 作者单位

    大连理工大学;

  • 授予单位 大连理工大学;
  • 学科 应用统计
  • 授予学位 硕士
  • 导师姓名 郭庆杰;
  • 年度 2019
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    变分; 编码器; 分布; 随机邻域; 嵌入; 降维;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号