技术领域
本发明涉及数据挖掘、机器学习和模式识别等领域,尤其是面向图像内容的多视图聚类任务。
背景技术
聚类是一种常用的数据分析方法,其目的是将无标签的数据按照一定的规则划分为若干个簇,使得每个簇内的数据相似,而不同簇之间的数据相异,即一个簇内部的任意两个样本具有较高的相似度,而属于不同簇的两个样本具有较高的相异度。在过去的几十年中,已经提出了许多经典的聚类方法(例如K-means聚类,谱聚类,核聚类等),并在图像处理、计算机视觉和文本挖掘等领域取得了巨大的成功。
在现实世界中,随着摄像机以及传感器等技术的广泛应用,数据通常由不同的领域、模态或特征组成,例如,图一包含了三种类型的多视图数据,图一(a)表明图像可以从不同的角度进行拍摄,每一个角度的图像是一个视图;图一(b)表明同一个事件可由不同的语言进行报道,每一种语言对应一个视图;图一(c)表明人脸图像在可见光(VIS)和近红外光(NIR) 下得到,即图像由不同的特征描述,每一种特征对应一个视图;所有这些都称之为多视图数据,是指对同一事物从不同角度或者按不同方式所得到的两个或两个以上的描述。
当前用于机器学习的主要方法是对单个视图表示的数据进行聚类,这种方法称为单视图聚类(或传统的聚类),因为它不考虑来自不同视图的相关信息,容易造成以偏概全的问题,不能够真实的反应数据的全貌。多视图聚类的目的是考虑不同视图的权重,通过融合各个视图的兼容和互补信息,全面的反映数据整体结构,使得聚类性能的效果得到提升。
随着大数据时代的到来,针对多视图数据的聚类引起了越来越多研究者的关注,它把无任何标注的多视图数据信息通过有效的处理将其划分成不同的簇。尤其是在计算机视觉和模式识别等领域,通过对不同视图的特征所构造的图像样本进行分析,将其融合成同一空间下的一致性表示,实现多视图的图像聚类,从而可进一步采用模式识别的方法对聚类好的图像进行识别,具有广泛的应用价值。
在多视聚类方法中,多视K均值聚类由于其效率和简易性而备受关注,这类方法主要是将大规模的多视图数据分解为多个聚类中心矩阵和一个公共的指标矩阵。但是其存在两处不足:1)多视K均值聚类仅使用一个中心对每个视图中的每个簇进行建模,无法准确地捕获不同视图中复杂的子簇数据分布。2)在大多数多视K均值聚类方法中,都需要引入一个额外的超参数对不同视图的权重进行分配,但是其超参数的设置在很大程度上都取决于人们的经验,所以其可用性不是很强。
发明内容
针对以上问题,提出了一种新的多视图聚类的方法,即基于自适应权重的多视K多均值聚类(Adaptive K-Multiple-Means for Multi-view Clustering,AKM
技术方案
一种基于自适应权重的多视K多均值的图像聚类方法,AKM
具体的讲,AKM
(1)获取多视图的图像数据库,此数据库中共包含有V个视图的数据,表示为χ={X
(2)从每个视图数据中随机的生成M个子簇中心以捕获复杂的数据分布,即一共有V个视图的子簇中心矩阵,表示为
(3)构造AKM
其中w
表1,表2和表3分别显示了在NMI、ACC和Purity这三个指标上的聚类性能。在表中用粗体和下划线标记出性能最佳和性能次佳的结果。从这三个表中可以看出,本发明所述方法优于单视K-means聚类,并且在大多数情况下,在所有数据集上均实现最佳的聚类效果。
总之,本发明所述的图像聚类方法可以从多视图像中提取更多的区分性信息,并适当的融合这些信息以实现更好的图像聚类,与其它的多视聚类方法相比获得更佳的性能,从而能够在多视图像的目标识别和检测方面得到更广泛的应用。
附图说明
图1:多视图数据的展示,其中,图一(a)表明图像可以从不同的角度进行拍摄,每一个角度的图像是一个视图;图一(b)表明同一个事件可由不同的语言进行报道,每一种语言对应一个视图;图一(c)表明人脸图像在可见光(VIS)和近红外光(NIR) 下得到,即图像由不同的特征描述,每一种特征对应一个视图;
图2、AKM
图3、本发明所述AKM
具体实施:
1、以BUAA多视图像数据库为例,此数据库包含有150个对象,每个对象呈现出9种不同的姿势或表情,构成1350张图像。其中第一个视图下的1350张图像是在可见光下拍摄得到,第二个视图下的1350张图像是在近红外光下拍摄得到的,这两个视图下每个对象的姿势和表情都是相同的,只不过在不同的光源条件下拍摄得到,由此构成多视图数据。将此数据库包含的2个视图的多视数据作为输入,即χ= {X
2、从每个视图数据中随机的生成M个子簇中心,即一共有2个视图的子簇中心矩阵,表示为
3、将χ和
为了便于求解,以下具体描述如何对模型进行优化求解,下述内容属于模型具体计算过程:
首先对公式(2)进行优化可得到公式(3):
在公式(3)中如果参数λ足够大,则Tr(F
(1)初始化S。
首先固定w
s.t S≥0,SI=1
对公式(4)采用自适应近邻的方法求解得到一个共享的二部图S,S是一个N×M的矩阵,N代表的是数据库中的图像样本数量,M是子簇的个数,s
(2)判断归一化拉普拉斯矩阵L
(3)固定w
当w
min Tr(F
s.t F∈R
令
经化简后,可进一步写为:
则U和V的最优解分别是
(4)固定w
由归一化拉普拉斯矩阵的性质,可得:
令
s.t S≥0,SI=1,
此时w
(5)固定F,A
w
(6)固定F,w
根据第v个视图中所有样本的加权平均来计算第v个视图中每个子簇中心的值:
综上所述,通过迭代更新w
本实例用于进行图像的聚类,分别在Extended Yale B,CMU-PIE,BUAA和UMIST这四个多视图像数据库上进行评估。其中在Extended Yale B,CMU-PIE和UMIST数据库中,提取每个图像的LBP,GABOR和GIST这三种类型特征构造出多视数据库;BUAA数据集是从150个对象中收集到的多视图数据库,此数据库包含1350个图像,2个视图,150个类别。
为了验证所提出方法在图像聚类上的优越性,将AKM
本实验使用归一化互信息熵(NMI)、正确度(ACC)和纯度(Purity)这三个指标来评价其图像聚类的性能,指标的值越高会反映出更好的聚类性能。具体结果如表1-表3所示。
表一:基于NMI的四个图像数据库的聚类性能对比
表二:基于ACC的四个图像数据库的聚类性能对比
表三:基于Purity的四个图像数据库的聚类性能对比
机译: 构建基于均值的除法聚类方法
机译: 基于K均值算法的数据聚类方法及装置
机译: 基于大量视觉特征变化的三维图像的视疲劳监测装置及方法,一种减少视疲劳度的装置及方法