首页> 中文期刊> 《计算机学报》 >灵活自适应的无监督降维

灵活自适应的无监督降维

         

摘要

无标签高维数据在图像处理、自然语言处理、数据挖掘等实际场景中无处不在.人工手动标记工作量大、劳动密集、时间开销高、易受主观因素影响且普适性差.计算机在处理高维数据时,时间复杂度大且对硬件配置要求高.因此,无监督降维成为一项迫切的需求.常规基于图的无监督降维方法,使用提前构建的、固定的相似度图学习得到高维数据的低维表示.然而,使用固定不变的相似度图无法修改噪点、离群值和样本外数据引起的不可靠相似度信息.这对于复杂多样的实际任务要求过于严格.为此,本文提出一种灵活自适应的无监督降维(Flexible and Adaptive Unsupervised Dimensionality Reduction,FAUDR)方法.FAUDR通过引入一个回归项,使严格的线性映射规则得到灵活地松弛,以更好地处理可能会引起不可靠信息的噪点、离群值和样本外数据.在降维过程中,该方法同时依赖原始高维数据和动态变化的低维表示,自适应地学习相似度图.将相似度图的构建和低维表示结合起来.自适应学习的相似度图在原始高维空间以及低维空间都实现了理想的邻居分配.这也促进了最佳低维子空间的探索.此外,本文采用了一种有效的交替迭代优化算法,依次更新目标问题中的所有变量.结束迭代后,同时得到相似度矩阵和低维表示的最优解.最后,本文从理论上分析了该算法的收敛性、计算复杂度和存储复杂度.实验分别在两个合成数据集上和八个基准数据集上进行.合成数据集上的实验直观地展示了FAUDR处理噪点和离群值的能力.基准数据上的实验从降维性能、参数敏感性和收敛性三个方面分别验证了FAUDR的有效性.综合实验结果表明,相比于一些经典方法和当前有代表性的方法,本文所提出方法表现出良好的降维性能.不同维度基准数据集上的实验结果显示,该方法比结果第二好的方法在精度(ACCuracy,ACC)、标准化互信息(Normalized Mutual Information,NMI)和纯度(Purity)上分别提升了至少3.25%、0.73%和3.00%.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号