公开/公告号CN105740881A
专利类型发明专利
公开/公告日2016-07-06
原文格式PDF
申请/专利权人 天津中科智能识别产业技术研究院有限公司;
申请/专利号CN201610041234.X
申请日2016-01-22
分类号G06K9/62;G06F17/30;
代理机构天津市三利专利商标代理有限公司;
代理人韩新城
地址 300465 天津市滨海新区天津经济技术开发区第二大街57号泰达MSD-G1-1001单元
入库时间 2023-06-19 00:02:20
法律状态公告日
法律状态信息
法律状态
2023-10-27
专利权人的姓名或者名称、地址的变更 IPC(主分类):G06K 9/62 专利号:ZL201610041234X 变更事项:专利权人 变更前:天津中科智能识别产业技术研究院有限公司 变更后:天津中科智能识别有限公司 变更事项:地址 变更前:300465 天津市滨海新区天津经济技术开发区第二大街57号泰达MSD-G1-1001单元 变更后:300457 天津市滨海新区经济技术开发区第二大街57号泰达MSD-G1座1001单元
专利权人的姓名或者名称、地址的变更
2019-04-19
授权
授权
2016-08-03
实质审查的生效 IPC(主分类):G06K9/62 申请日:20160122
实质审查的生效
2016-07-06
公开
公开
技术领域
本发明涉及模式识别技术领域,尤其是一种基于矩阵分解的部分标注图像聚类方 法及装置。
背景技术
随着图片分享网站如Flickr的迅速发展,互联网上存在着数以亿计的图片信息, 如何对这些图片信息进行组织受到越来越多的关注。聚类技术作为一种有效数据组织方 式,在图像组织中起着重要的作用。
传统的图像聚类技术一般提取图像本身局部特征(如SIFT特征)或者全局特征(如 GIST特征)以实现图像聚类。然而,近些年来,随着图像标注信息的快速增长,如越来越多的 用户在Flickr网站上对自己分享的图片进行标注,如何利用标注这一高层语义信息来辅助 图像聚类受到越来越多的关注。
为利用标注信息辅助图像聚类,研究者提出了一系列的技术手段,如层次聚类 (hierarchicalclustering)、联合聚类(co-clustering)以及多视角聚类(Multi-view clustering)。然而上述方法一般假设图像具有完整的标注词特征,即每一副图像都有完整 的标注词进行描述,这在现实中是难以满足的,比如用户一般仅对部分图像进行标注,或者 在图像标注时仅仅给出一部分的标注词。在上述场景中,标注信息是不完整的,使得传统的 利用标注信息辅助图像聚类的方法面临着较大的性能下降。因此,需要提出有效的算法实 现部分标注图像聚类任务。
发明内容
本发明的目的在于解决上述技术问题而提供一种基于矩阵分解的部分标注图像 聚类方法及装置,以解决现有方法不能有效地满足部分标注图像聚类的需求的技术问题。
本发明是这样实现的,一种基于矩阵分解的部分标注图像聚类方法,包括步骤:
提取聚类数据集中图像的特征以及反映图像标注词是否存在于图像中的图像标 注词的特征;
基于图像字典学习获得所述聚类数据集中所有图像的稀疏表达;
对观测到的图像标注词的特征进行矩阵分解,学习得到图像标注词的隐变量表 达,并保持所述图像的稀疏表达和所述图像标注词的隐变量表达与图像和图像标注词的共 生关系的一致性;
结合图像字典学习与所述矩阵分解构建优化目标函数;
采用交替优化方式求解所述优化目标函数,得到所有图像最终的稀疏表达;
基于所述稀疏表达利用聚类算法得到预设类别的图像聚类。
本发明的目的还在于提供一种基于矩阵分解的部分标注图像聚类装置,包括:
特征提取模块,用于提取聚类数据集中图像的特征以及反映图像标注词是否存在 于图像中的图像标注词的特征;
图像稀疏表达获得模块,用于基于图像字典学习获得所述聚类数据集中所有图像 的稀疏表达;
标注词隐变量表达获得模块,用于对观测到的图像标注词的特征进行矩阵分解, 学习得到图像标注词的隐变量表达,并保持所述图像的稀疏表达和所述图像标注词的隐变 量表达与图像和图像标注词的共生关系的一致性;
优化目标函数构建模块,用于结合图像字典学习与所述矩阵分解构建优化目标函 数;
最终稀疏表达形成模块,用于采用交替优化方式求解所述优化目标函数,得到所 有图像最终的稀疏表达;
图像聚类模块,用于基于所述稀疏表达利用聚类算法得到预设类别的图像聚类。
本发明图像聚类的方法以及装置,基于字典学习的方法,学习得到图像数据集中 每一幅图像的稀疏表达,同时通过对图像的部分观测的图像标注词特征进行矩阵分解,学 习得到每一个图像标注词的隐变量表达,最终使图像的稀疏表达与图像标注词的隐变量表 达通过图像与图像标注词的共生关系建立连接,保持共生关系的一致性,从而可以利用图 像标注词的高层语义信息辅助图像特征的学习进行图像的聚类,获得图像聚类的结果,大 大地提升了图像聚类性能。
附图说明
图1所示为本发明提供的基于矩阵分解的部分标注图像聚类方法的流程图;
图2是本发明提供的基于矩阵分解的部分标注图像聚类方法原理示意图;
图3所示为本发明提供的基于矩阵分解的部分标注图像聚类装置的结构原理图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照 附图,对本发明进一步详细说明。
本发明通过利用不完整观测的具有高层语义的图像标注词辅助图像稀疏表达的 学习,进而使得图像稀疏表达能够融合图像和标注词两方面的信息,从而以利用图像标注 词的高层语义信息辅助图像特征的学习,进行图像聚类,获得图像聚类的结果,大大提高了 图像聚类的性能。
参见图1所示,一种基于矩阵分解的部分标注图像聚类方法,包括步骤:
S101:提取聚类数据集中图像的特征以及反映图像标注词是否存在于图像中的图 像标注词的特征;
S102:基于图像字典学习获得所述聚类数据集中所有图像的稀疏表达;
S103:对观测到的图像标注词的特征进行矩阵分解,学习得到图像标注词的隐变 量表达,并保持所述图像的稀疏表达和所述图像标注词的隐变量表达与图像和图像标注词 的共生关系的一致性;
S104:结合图像字典学习与所述矩阵分解构建优化目标函数;
S105:采用交替优化方式求解所述优化目标函数,得到所有图像最终的稀疏表达;
S106:基于所述稀疏表达利用kmeans聚类算法得到预设类别的图像聚类。
具体实现上,在步骤S106中,基于上述图像的最终的稀疏表达可以是利用kmeans 聚类算法得到预设类别的图像聚类,如通过给定聚类数目,将kmeans聚类算法作用于图像 的稀疏表达就可以得到最终的图像聚类,获得图像聚类的结果。
本发明基于字典学习的方法,学习得到图像数据集中每一幅图像的稀疏表达,同 时通过对图像的部分观测的图像标注词特征进行矩阵分解,学习得到每一个图像标注词的 隐变量表达,最终使图像的稀疏表达与图像标注词的隐变量表达通过图像与图像标注词的 共生关系建立连接,从而以利用图像标注词的高层语义信息辅助图像特征的学习,进而能 有效地提升图像聚类性能。
需要说明的是,本发明中,所述聚类数据集中的图像的部分图像包含完整的标注 词,部分图像没有标注词或者仅有不完整的标注词;在提取图像的标注词特征时,不但对含 完整的标注词的特征进行提取,也对不完整的标注词的特征进行提取。
本发明中,所述图像的特征一般是视觉描述算子,具体实现上可以是图像的局部 特征如SIFT特征,或者图像的全部特征,如GIST特征,所述图像标注词的特征则有0和1组 成,以反应标注词是否存在于图像中。
具体的,本发明中,在步骤S102中,所述所有的图像的稀疏表达建模方式可以为:
其中,X为图像的视觉特征,每一列表示一个图像,D为学习得到的图像字典,所设 计约束条件作用于矩阵的每一列防止图像字典过拟合。S为所有图像的稀疏表达所构成的 矩阵,si为S的第i列,对应图像i的稀疏表达,||si||1定义为si所有元素绝对值之和,该正则 项使得所求得的表达具有稀疏特性。
本发明中,步骤S103中,对图像标注词的特征进行矩阵分解的建模方式可以采用 以下:
其中,sj为图像j的稀疏表达,O为观测到的图像与标注词关系,即图像j包含标注 词i。T为标注词特征,每一列对应一副图像,由0和1组成,反应图像标注词是否存在于该图 像中。参见图2所示,如第一列对应第一幅图像,观测到图像标注词t1和t3(T11=T31=1),利 用提取的观测到的图像标注词通过部分矩阵分解得到图像稀疏表达与标注词的隐变量表 达的关系。利用提取的图像特征通过图像字典学习得到图像的稀疏表达与图像字典。图像 标注词的特征和图像的特征通过图像的稀疏表达建立联系。R是学习得到的图像标注词的 隐变量表达,ri为R的第i行,对应图像标注词i的隐变量表达。所设计约束条件作用于矩阵 的每一列防止学习得到的隐变量表达过拟合。上述基于矩阵分解建立了图像稀疏表达与图 像标注词的隐变量表达的联系,即满足两者与图像和图像标注词共生关系的一致性。
考虑到图像标注词不存在于图像中可能是由于未观测到该图像标注词,即图像是 部分标注的,在矩阵分解的建模(2)的基础上增加权重矩阵,形成优化的矩阵分解的建模, 即:
其中I为权重矩阵,以对图像是否存在标注词进行权重设定,当图像j包含标注词i 时,Iij给定一个较大的值,反之,Iij给定一个较小的值;
该步骤S104:中,所述的优化目标函数可以为:
其中γ1和γ2为预设的比例系数,以控制优化目标函数中不同项的权重;
需要说明的是,本发明中在,在步骤S106,采用交替优化的方式求解上述优化目标 函数,以得到图像最终的稀疏表达、字典以及标注词的隐变量表达,所述采用交替优化方式 求解D,S和R,直至算法收敛,具体如下:
固定D和R,则优化目标函数改写为:
针对sj,上述优化目标函数可以改写为:
其中lj为L的第j列,且L定义为矩阵I的平方根,tj为矩阵T的第j列。上述优化目标 函数为基本稀疏建模问题,可通过SLEP工具包进行求解。
固定S和R,则目标函数改写为:
上述优化目标可通过拉格朗日乘子法进行求解,即:
D=XST(SST+τ)-1
其中τ为对角矩阵,其第i个对角元素τi可以通过优化目标函数 得到。
固定S和D,则优化目标函数改写为:
其可以进一步改写为:
因此,R和D具有相似的求解过程。
为了验证本发明的实施效果,接下来以PASCALVOC2007数据库为例进行说明, 并以归一化互信息和准确率为评价指标展示本发明的实施效果。该数据库包含20类图片, 其中训练和测试图像数目分别为5,011和4,952。具体步骤如下:
步骤S1,将训练和测试两个集合合并得到聚类数据集,并收集图像的标注信息,在 此数据库中30副图像不包含任何标注信息。在后续实验中,随机去除具有完整标注的图像 的部分标注词以模拟部分图像包含不完整的标注词这一情况。
步骤S2,提取图像的颜色特征X,并构造图像的标注词特征T,若图像j包含标注词 i,则Tij=1,否则为0。
步骤S3,基于图像字典学习获得图像的稀疏表达S。
步骤S4,对部分观测的标注词特征T进行矩阵分解,以保持图像稀疏表达S和所求 得的图像标注词的隐变量表达R与图像和图像标注词的共生关系的一致性。
步骤S5,结合图像字典学习与部分观测图像标注词的矩阵分解构建最终目标函 数。
步骤S6,令γ1和γ2取值为1,并采用交替优化方式求解上述优化目标得到图像稀 疏表达S,图像字典D以及图像标注词的隐变量表达R。
步骤S7,将kmeans聚类算法作用于图像的稀疏表达S得到最终的图像聚类。
选用PASCALVOC2007数据库并以归一化互信息和准确率为评价指标,将本发明 的聚类方法与其它聚类方法在部分图像没有标注词以及部分图像包含一定比例不完整标 注词的情况下的聚类性能进行比较,获得如下表1与表1的比较数据:
表1
表2
表中,NMI和ACC分别为归一化互信息和准确率两个指标。SC,PairwiseSC, CentroidSC,PVC和My为不同的图像聚类方法,分别表示基于图像特征构造稀疏表达的聚类 方法,基于谱分解正则化的两种聚类方法,基于非负矩阵分解的不完整多视角聚类方法和 本发明的方法。0%-90%为不完整标注词的比例。
可以看出,本发明方法在对具有不完整图像标注词的图像的聚类性能上大大优于 其它的图像聚类方法的图像聚类性能。
参见图3所示,本发明的目的还在于提供一种矩阵分解的部分标注图像聚类装置, 包括:
特征提取模块10,用于提取聚类数据集中图像的特征以及反映图像标注词是否存 在于图像中的图像标注词的特征;
图像稀疏表达获得模块20,用于基于图像字典学习获得所述聚类数据集中所有图 像的稀疏表达;
标注词隐变量表达获得模块30,用于对观测到的图像标注词的特征进行矩阵分 解,学习得到图像标注词的隐变量表达,并保持所述图像的稀疏表达和所述图像标注词的 隐变量表达与图像和图像标注词的共生关系的一致性;
优化目标函数构建模块40,用于结合图像字典学习与所述矩阵分解构建优化目标 函数;
最终稀疏表达形成模块50,用于采用交替优化方式求解所述优化目标函数,得到 所有图像最终的稀疏表达;
图像聚类模块60,用于基于所述稀疏表达利用聚类算法得到预设类别的图像聚类 的结果。
需要说明的是,本发明中,所述聚类数据集中的图像的部分图像包含完整的标注 词,部分图像没有标注词或者仅有不完整的标注词;在提取图像的标注词特征时,不但对含 完整的标注词的特征进行提取,也对不完整的标注词的特征进行提取。
本发明中,所述图像的特征一般是视觉描述算子,具体实现上可以是图像的局部 特征如SIFT特征,或者图像的全部特征,如GIST特征,所述图像标注词的特征则有0和1组 成,以图像反应标注词是否存在于图像中。
具体在,本发明中,所述所有的图像的稀疏表达建模方式可以为:
其中,X为图像的视觉特征,每一列表示一个图像,D为学习得到的图像字典,所设 计约束条件作用于矩阵的每一列防止字典过拟合。S为所有图像的稀疏表达所构成的矩阵, si为S的第i列,对应图像i的稀疏表达,||si||1定义为si所有元素绝对值之和,该正则项使 得所求得的表达具有稀疏特性。
本发明中,对图像标注词的特征进行矩阵分解的建模方式可以为:
其中,sj为图像j的稀疏表达,O为观测到的图像与标注词关系,即图像j包含标注 词i。T为标注词特征,每一列对应一副图像,由0和1组成,反应标注词是否存在于该图像中。 参见图2所示,如第一列对应第一幅图像,观测到标注词t1和t3(T11=T31=1),利用观测到 标注词通过部分矩阵分解得到图像稀疏表达与图像标注词的隐变量表达间的关系。利用提 取的图像特征则通过图像字典学习得到图像的稀疏表达与图像字典。图像标注词特征和图 像特征通过图像的稀疏表达建立联系。R是学习得到的标注词的隐变量表达,ri为R的第i 行,对应标注词i的隐变量表达。所设计约束条件作用于矩阵的每一列防止学习得到的隐变 量表达过拟合。上述基于矩阵分解建立了图像稀疏表达与图像标注词的隐变量表达的联 系,即满足两者与图像和标注词共生关系的一致性。
考虑到标注词不存在于图像中可能是由于未观测到该标注词,即图像是部分标注 的,在矩阵分解的建模(2)的基础上增加权重矩阵,形成优化的矩阵分解的建模,即:
其中I为权重矩阵,以对图像是否存在标注词进行权重设定,当图像j包含标注词i 时,Iij给定一个较大的值,反之,Iij给定一个较小的值;
该步骤S104:中,所述的优化目标函数可以为:
其中γ1和γ2为预设的比例系数,以控制优化目标函数中不同项的权重;
需要说明的是,本发明中在,采用交替优化的方式求解上述优化目标函数,以得到 图像最终的稀疏表达、图像字典以及图像标注词的隐变量表达,所述采用交替优化方式求 解D,S和R,直至算法收敛,具体如下:
固定D和R,则优化目标函数改写为:
针对sj,上述优化目标函数可以改写为:
其中lj为L的第j列,且L定义为矩阵I的平方根,tj为矩阵T的第j列。上述优化目标 函数为基本稀疏建模问题,可通过SLEP工具包进行求解。
固定S和R,则目标函数改写为:
上述优化目标可通过拉格朗日乘子法进行求解,即:
D=XST(SST+τ)-1
其中τ为对角矩阵,其第i个对角元素τi可以通过优化目标函数得到。
固定S和D,则优化目标函数改写为:
其可以进一步改写为:
因此,R和D具有相似的求解过程。
可以看出,本发明图像聚类的方法以及装置,基于字典学习的方法,学习得到图像 数据集中每一幅图像的稀疏表达,同时通过对图像的部分观测的图像标注词特征进行矩阵 分解,学习得到每一个图像标注词的隐变量表达,最终使图像的稀疏表达与图像标注词的 隐变量表达通过图像与图像标注词的共生关系建立连接,保持一致性,从而以利用图像标 注词的高层语义信息辅助图像特征的学习进行图像的聚类,获得聚类结果,大大地提升了 图像聚类性能。
以上所述的具体实施例,对本发明的目的、技术方案和效果进行了进一步详细说 明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本 发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范 围之内。
机译: 用于压缩和解压缩彩色数字视频数据的视频电信系统和方法技术领域本发明涉及一种用于压缩电信系统视频中数字彩色视频数据的方法,该方法具有用于生成视频信号的装置,该装置是用于生成视频信号的装置。将视频信号转换为多个彩色视频帧速率,每个帧图像由多个扫描线组成,扫描线由多个像素组成,图像中的每个像素由彩色数字分量组成(该方法包括确定功能的步骤);基于彩色数字(b)的三个分量中的至少一个的亮度像素,基于两个像素之间的亮度差异,针对当前图像表的扫描线中的至少大部分像素,确定至少一个参数决策。与每条扫描线中至少一个像素相距预定距离的像素,以及至少(c)比较决策参数与
机译: 基于票价部分的图像标注
机译: 基于图像结构信息的图像聚类方法及装置