首页> 中文学位 >大规模机器学习:矩阵低秩近似与在线学习
【6h】

大规模机器学习:矩阵低秩近似与在线学习

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

主要符号对照表

第一章 导言

第二章 相关工作

2.1 Nystr?m方法

2.2 集成Nystr?m算法

2.3 随机低秩近似算法

2.4 谱聚类

2.5 使用Nystr?m的谱聚类

2.6 使用MILES的多样例学习

2.7 在线学习

第三章 对Nystr?m的改进

3.1 结合Nystr?m和随机SVD

3.2 误差分析

3.3 图形卡

3.4 实验

第四章 基于Nystr?m的谱聚类算法

4.1 Single-Pass算法

4.2 实验

第五章 在线多样例学习

5.1 在线多样例学习

5.2 实验

总结与展望

参考文献

致谢

攻读学位期间发表的学术论文目录

展开▼

摘要

在本文我们将探讨两种适合大规模计算的框架——矩阵的低秩近似和在线学习——来解决机器学习中的两个重要问题:非监督学习与监督学习。对大规模矩阵进行特征值分解是在非监督学习中最经常遇到的问题,例如核主成分分析,谱聚类。但是其三次方的算法复杂度阻碍了其在大规模数据集上的应用。另一方面,支持向量机是在监督学习中是最常用的方法。在大规模数据集中,稀疏性规约通常用来保证模型不会过拟合。然而,稀疏性规约的加入则使得优化算法异常复杂。
  Nystrm方法是一个有效的对大规模核矩阵进行特征值分解的手段。但是,为了保证足够的的近似精度,Nystr?m方法需要从核矩阵中采样足够多的列。而在大数据集上,作用在采样的子矩阵上的SVD算法会很快凸显出耗时的缺点,以致于严重到影响Nystr?m方法的效率。在这篇文章里,我们通过使用一个近似的奇异值分解算法来对Nystr?m方法进行改进,使其可以被高效地应用在超大规模的数据集上。理论分析表明该改进后的算法和标准的Nystr?m方法一样精确。一系列在大规模数据集上的测试验证了该算法的以上特性。此外,我们还将其从在CPU上运行扩展到了在GPU上运行,从而使得8百万×8百万的核矩阵可以在1分钟之内被很好的近似。
  Nystr?m方法的一个重要应用是在谱聚类上。然而,当数据量足够大时,谱聚类处理和存储采样列的代价仍然非常昂贵。在这篇文章里,我们提出了一个在时间和空间上同时高效的算法,使得谱聚类可以被应用在超大规模数据集上。同时被提出的还有一个一般化的正交化方法,该方法用于正交化近似得到的特征向量。我们对大量的规模从数万到数百万的数据集,进行了谱聚类实验,来测试并验证了该算法的准确和高效。更进一步,我们将其应用到图片分割上。该算法可以在1台机器上,于1分钟之内,处理千万像素的图片。
  多样例学习是一个最近提出的监督学习框架,与传统的监督学习相比,前者能处理模糊的标号。一般来说,多样例学习被应用在离线的学习框架下。但是,诸如物体跟踪等应用并不能作用于离线框架下。因此,在基于已有成功应用的离线多样例学习算法MILES上,我们提出了一个在线的多样例学习算法。其通过在线的方法来对一个有稀疏性规约的支持向量机求解。该算法有O(√T)的(累计)后悔量上界,即,能很快收敛,且该算法性能达到了最佳解法;这里T表示迭代次数。算法的有效性在多样例分类和物体跟踪实验中被证明。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号