变分自编码器结合t分布随机邻域嵌入降维及聚类分析

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

当今互联网日渐繁荣，我们获得的信息也随着科技技术的发展而迅速增长，大数据的发展已经进入白热化阶段。然而各领域接触到的数据往往都是高维数据，成百上千的维度为后续的分析以及计算带来了巨大的挑战，许多常用算法在高维数据集中往往失效。为了能从高维数据中挖掘并分析其潜在信息，有关数据降维的一系列算法应运而生。数据降维的核心思想是：在高维数据集中对数据采用某种映射，对高维数据进行变换得到其在低维空间的表示，使其可以应用到已有的低维空间下有效的算法。本文提出了一种基于全连接神经网络的变分自编码器模型和t分布随机邻域嵌入算法相结合的方式进行高维数据的无监督降维。我们设计编码器和解码器均为三层全连接神经网络结构，编码器提取样本数据特征，再通过解码器逼近原始输入样本。网络的训练采用小批量梯度下降法，利用编码器将高维数据降维至中间维度，再结合t分布随机邻域嵌入算法进一步降维，然后对低维数据采用K-means聚类分析。实验证明：变分自编码器模型在样本量较大，维度高的数据集中，黑盒变分推断提高了模型的可变性和通用性，使得降维效果较好。其次，t分布随机邻域嵌入算法一定程度上保证了高维空间数据样本的概率分布与低维空间下数据的概率分布的一致。当编码器对高维数据初步降维至中间维度后，t分布随机邻域嵌入在中间维度空间距离较远的数据点映射到低维空间中避免了数据点聚集，使最终结果与中间维度空间保持最大程度的一致性。与传统的PCA降维方法比较，本文方法能更有效的提取数据特征，在聚类分析中提高了类间离散度，有较好的聚类效果。最后给出数值算例来说明本文算法的有效性。

著录项

作者
郭韵颖;
展开▼
作者单位

大连理工大学;

展开▼
授予单位大连理工大学;
学科应用统计
授予学位硕士
导师姓名郭庆杰;
年度 2019
页码
总页数
原文格式 PDF
正文语种中文
中图分类
关键词
变分; 编码器; 分布; 随机邻域; 嵌入; 降维;

相似文献

中文文献
外文文献
专利

1. 基于t分布随机邻域嵌入算法的工业过程故障分类 [J] . 陶飞 ,苗爱敏 ,李鹏 . 南京理工大学学报（自然科学版） . 2020,第003期
2. 基于Schur分解和正交邻域保持嵌入算法的故障数据集降维方法 [J] . 刘韵佳 ,赵荣珍 ,王雪冬 . 中国机械工程 . 2017,第021期
3. 一种邻域竞争线性嵌入的降维方法 [J] . 李燕燕 ,闫德勤 . 计算机科学 . 2015,第002期
4. t分布随机近邻嵌入机械故障特征提取方法研究 [J] . 谷玉海 ,韩秋实 ,徐小力 . 机械科学与技术 . 2016,第012期
5. 结合表示学习与嵌入子空间学习的降维方法 [J] . 陶洋 ,鲍灵浪 ,胡昊 . 计算机工程 . 2021,第006期
6. 降维投影四维变分同化系统(DRP-4DVar)在WRF模式上的构建和初步试验 [C] . 甘少华 ,李俊 ,闫炎 . 第29届中国气象学会年会 . 2012
7. 复杂地形下结合谱逼近和三维变分方法同化地面资料的高分辨率降尺度模拟研究 [A] . 李洪兵 . 2020

变分自编码器结合t分布随机邻域嵌入降维及聚类分析

目录

摘要

著录项

相似文献

相关主题

期刊订阅