首页> 中国专利> 基于曼哈顿距离的图像聚类方法、终端设备及存储介质

基于曼哈顿距离的图像聚类方法、终端设备及存储介质

摘要

本发明公开了基于曼哈顿距离的图像聚类方法、终端设备及可读存储介质,该方法包括:对各个待聚类图像预处理,得到每个待聚类图像的多个特征图像矩阵;根据每个待聚类图像的多个特征图像矩阵,确定每个待聚类图像的曼哈顿距离;根据每个待聚类图像的曼哈顿距离,确定每个待聚类图像的无向图;将无向图输入至第一预设学习模型,以得到每个待聚类图像的图聚类指示矩阵;根据每个待聚类图像的图聚类指示矩阵确定每个待聚类图像的聚类标签。本发明的方法实现对待聚类图像中离群值和噪声进行处理以使获得的无向图能较好地表征多特征图像数据底层真实的簇结构,以提高获得的无向图的质量,以通过无向图使得最终获取得到的聚类标签更准确提高聚类精度。

著录项

  • 公开/公告号CN114821140A

    专利类型发明专利

  • 公开/公告日2022-07-29

    原文格式PDF

  • 申请/专利号CN202210417687.3

  • 发明设计人 卢志强;

    申请日2022-04-20

  • 分类号G06V10/762;G06K9/62;

  • 代理机构深圳市世纪恒程知识产权代理事务所;

  • 代理人刘瑞花

  • 地址 100032 北京市西城区德胜门外大街11号5幢400室(德胜园区)

  • 入库时间 2023-06-19 16:08:01

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-29

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及图像处理技术领域,尤其涉及一种基于曼哈顿距离的图像聚类方法、终端设备及存储介质。

背景技术

聚类是指将物理或抽象对象的集合分成由类似的对象组成的多个类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一簇中的对象彼此相似,与其他簇中的对象相异。随着计算机及网络技术的发展,我们常常需要面对大量的图像数据,并且常常希望将具有相同或相似对象的图像数据聚类到一起,诸如在相册图片管理等应用中。常规的聚类方法首先对图像中的感兴趣区进行特征提取,随后通过欧氏距离或余弦距离衡量特征的相似度来实现聚类,这类聚类算法容易受到噪声干扰,导致最终获得的聚类结果并不准确。

上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是相关技术。

发明内容

本发明实施例通过提供一种基于曼哈顿距离的图像聚类方法、终端设备及存储介质,旨在解决通过欧氏距离或余弦距离衡量特征的相似度来实现聚类,这类聚类算法容易受到噪声干扰,导致最终获得的聚类结果并不准确的技术问题。

本发明实施例提供了一种基于曼哈顿距离的图像聚类方法,所述基于曼哈顿距离的图像聚类方法,包括:

对各个待聚类图像进行预处理,得到每个所述待聚类图像的多个特征图像矩阵;

根据每个所述待聚类图像的多个特征图像矩阵,确定每个所述待聚类图像的曼哈顿距离;

根据每个所述待聚类图像的曼哈顿距离,确定每个所述待聚类图像的无向图;

将所述无向图输入至第一预设学习模型,以得到每个所述待聚类图像的图聚类指示矩阵;

根据每个所述待聚类图像的图聚类指示矩阵确定每个所述待聚类图像的聚类标签。

可选地,根据每个所述待聚类图像的多个特征图像矩阵,确定每个所述待聚类图像的曼哈顿距离的步骤包括:

获取每个所述待聚类图像的每个特征图像矩阵中矩阵点数据之间的差值;

确定所述差值对应的两个所述矩阵点数据属于同类型数据时的概率值;

根据每个所述特征图像矩阵的矩阵点数据对应的所述差值以及所述概率值,确定每个所述待聚类图像的曼哈顿距离。

可选地,根据每个所述特征图像矩阵对应的所述差值以及所述概率值,确定每个所述待聚类图像的曼哈顿距离的步骤包括:

获取所述差值对应的两个所述矩阵点数据对应的权重值;

根据每个所述特征图像矩阵对应的所述差值、所述概率值以及权重值,确定每个所述待聚类图像的曼哈顿距离。

可选地,根据每个所述特征图像矩阵的矩阵点数据对应的所述差值、所述概率值以及权重值,确定每个所述待聚类图像的曼哈顿距离的步骤包括:

根据所述矩阵点数据对应的所述差值、所述差值、所述概率值以及权重值,确定所述矩阵点数据的乘积值;

获取每个所述特征图像矩阵的所有所述矩阵点数据的乘积值的和值,确定每个所述待聚类图像的曼哈顿距离。

可选地,将所述无向图输入至第一预设学习模型,以得到每个所述待聚类图像的图聚类指示矩阵的步骤之后,还包括:

将所述图聚类指示矩阵输入至第二预设学习模型,以优化所述图聚类指示矩阵;

根据优化后的所述图聚类指示矩阵更新所述图聚类指示矩阵。

可选地,第二预设学习模型为所述无向图确定度矩阵,取所述图聚类指示矩阵的转置矩阵,并根据所述度矩阵、所述无向图、所述转置矩阵以及所述图聚类指示矩阵进行建模获得。

可选地,根据每个所述图聚类指示矩阵确定对应所述待聚类图像的聚类标签的步骤包括:

确定每个所述图聚类指示矩阵中每张图像对应标签类型的概率值;

获取每张图像对应标签类型的概率值中最大概率值对应的标签类型;

根据最大概率值对应的标签类型确定所述待聚类图像的聚类标签。

此外,为实现上述目的,本发明还提供了一种基于曼哈顿距离的图像聚类装置,所述基于曼哈顿距离的图像聚类装置包括:

预处理模块,用于对各个待聚类图像进行预处理,得到每个所述待聚类图像的多个特征图像矩阵;

第一确定模块,用于根据每个所述待聚类图像的多个特征图像矩阵,确定每个所述待聚类图像的曼哈顿距离;

第二确定模块,用于根据每个所述待聚类对象的曼哈顿距离,确定每个所述待聚类图像的无向图;

输入模块,用于将所述无向图输入至第一预设学习模型,以得到每个所述待聚类图像的图聚类指示矩阵;

第三确定模块,用于根据每个所述图聚类指示矩阵确定对应所述待聚类图像的聚类标签。

此外,为实现上述目的,本发明还提供了一种终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于曼哈顿距离的图像聚类程序,所述基于曼哈顿距离的图像聚类程序被所述处理器执行时实现上述的基于曼哈顿距离的图像聚类方法的步骤。

此外,为实现上述目的,本发明还提供了一种可读存储介质,其上存储有基于曼哈顿距离的图像聚类程序,所述基于曼哈顿距离的图像聚类程序被处理器执行时实现上述的基于曼哈顿距离的图像聚类方法的步骤。

本发明实施例中提供的一种基于曼哈顿距离的图像聚类方法、终端设备及存储介质的技术方案,通过对待聚类图像进行预处理得到每个待聚类图像的多个特征图像,进而根据每个待聚类图像的多个特征图像,确定每个待聚类图像的曼哈顿距离,通过每个待聚类图像的曼哈顿距离,确定每个待聚类图像的无向图,以实现对待聚类图像中离群值和噪声进行处理,以使获得的无向图能较好地表征多特征图像数据底层真实的簇结构,以提高获得的无向图的质量,将无向图输入至第一预设学习模型,以得到每个待聚类图像的图聚类指示矩阵,根据每个待聚类图像的图聚类指示矩阵确定每个待聚类图像的聚类标签,以使得最终获取得到的聚类标签更准确,提高聚类精度。

附图说明

图1为本发明的基于曼哈顿距离的图像聚类方法各个实施例涉及的终端设备的结构示意图;

图2为本发明的基于曼哈顿距离的图像聚类方法第一实施例的流程示意图;

图3为对待聚类图像预处理后得到的多个特征图像矩阵;

图4为无向图的形状;

图5为本发明的基于曼哈顿距离的图像聚类方法第一实施例中确定曼哈顿距离的流程示意图;

图6为确定待聚类图像的聚类标签的整体流程图;

图7为本发明的基于曼哈顿距离的图像聚类方法第一实施例的流程示意图;

图8为本发明提供的基于曼哈顿距离的图像聚类装置的模块组成示意图。

具体实施方式

为了更好的理解上述技术方案,下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。

在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或者“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或者“单元”可以混合地使用。

请参考图1,图1为本发明的基于曼哈顿距离的图像聚类方法各个实施例涉及的终端设备的结构示意图。其中,本发明的基于曼哈顿距离的图像聚类方法所涉及的终端设备可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑以及个人数字助理(PersonalDigital Assistant,PDA)等终端设备。

如图1所示,该终端设备可以包括:存储器101以及处理器102。本领域技术人员可以理解,图1示出的终端的结构框图并不构成对终端的限定,终端可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中,存储器101中存储有操作装置以及基于曼哈顿距离的图像聚类程序。处理器102是终端设备的控制中心,处理器102执行存储在存储器101内的基于曼哈顿距离的图像聚类程序,以实现本发明的基于曼哈顿距离的图像聚类方法各实施例的步骤。

可选地,终端设备还可包括显示单元103,显示单元103包括显示面板,可采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-EmittingDiode,OLED)等形式来配置显示面板,用于输出显示用户浏览的界面。

可选地,终端设备还可包括通信单元,通信单元通过网络协议与其他终端设备如电脑建立数据通信(该数据通信可为IP通信或者蓝牙通道),以实现与其他终端设备之间进行数据传输。

本发明实施例提供了基于曼哈顿距离的图像聚类方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

基于上述终端设备的结构框图,提出本发明的基于曼哈顿距离的图像聚类方法的各个实施例。请参考图2,图2为本发明的基于曼哈顿距离的图像聚类方法第一实施例的流程示意图。在该实施例中,基于曼哈顿距离的图像聚类方法包括以下步骤:

步骤S10,对各个待聚类图像进行预处理,得到每个所述待聚类图像的多个特征图像矩阵;

待聚类图像是指还未确定聚类标签的图像。对待聚类图像进行预处理的方法包括但不限于对待聚类图像进行尺度不变特征变换(Scale-invariant feature transform,SIFT)、方向梯度直方图(Histogram of Oriented Gradient,HOG)以及局部二值模式(Local Binary Pattern,LBP)的特征提取方法。

对各个待聚类图像进行预处理,得到每个待聚类图像的多个特征图像矩阵,可参考图3,图3为对待聚类图像预处理后得到的多个特征图像矩阵,其中,X

步骤S20,根据每个所述待聚类图像的多个特征图像矩阵,确定每个所述待聚类图像的曼哈顿距离;

步骤S30,根据每个所述待聚类图像的曼哈顿距离,确定每个所述待聚类图像的无向图;

无向图反应了待聚类图像的原始数据在特征空间的相似性。请参考图4,图4为无向图的形状,无向图是主对角线成块状结构的矩阵,每一块代表待聚类图像一个类别。

在实际应用过程中,采集的图像数据往往是有噪声或者离群值的,基于噪声或者离群值会影响聚类的准确度,通过采用曼哈顿距离以应对图像数据中的噪声和离群值,使得通过曼哈顿距离构建的无向图更具有鲁棒性。

作为一种可选的实施方式,请参考图5,图5为本发明的基于曼哈顿距离的图像聚类方法第一实施例中确定曼哈顿距离的流程示意图,步骤S20包括:

步骤S21,获取每个所述待聚类图像的每个特征图像矩阵中矩阵点数据之间的差值;

步骤S22,确定所述差值对应的两个所述矩阵点数据属于同类型数据时的概率值;

步骤S23,根据每个所述特征图像矩阵的矩阵点数据对应的所述差值以及所述概率值,确定每个所述待聚类图像的曼哈顿距离。

示例性地,假设

其中,||·||

步骤S30根据每个所述待聚类图像的曼哈顿距离,确定每个所述待聚类图像的无向图,可具体通过下述公式计算获得无向图:

其中,

可选地,步骤S23包括:

获取所述差值对应的两个所述矩阵点数据对应的权重值;

根据每个所述特征图像矩阵对应的所述差值、所述概率值以及权重值,确定每个所述待聚类图像的曼哈顿距离。

需要说明的是,由于可能出现距离最近样本的概率分配为1,与其它样本距离的概率分配为0的情况,也即Xi-Xi概率为1,Xi-Xj概率都是为0。

为了充分利用目标对象的多个特征图像矩阵,通过加入对无向图S

其中,w

可选地,根据每个所述特征图像矩阵对应的所述差值、所述概率值以及权重值,确定每个所述待聚类图像的曼哈顿距离的步骤包括:

根据所述矩阵点数据对应的所述差值、所述概率值以及权重值,确定所述矩阵点数据的乘积值;

获取每个所述特征图像矩阵的所有所述矩阵点数据的乘积值的和值,确定每个所述待聚类图像的曼哈顿距离。

步骤S40,将所述无向图输入至第一预设学习模型,以得到每个所述待聚类图像的图聚类指示矩阵;

步骤S50,根据每个所述待聚类图像的图聚类指示矩阵确定每个所述待聚类图像的聚类标签。

需要说明的是,将无向图输入至第一预设学习模型,以得到每个待聚类图像的图聚类指示矩阵,也即基于获取得到每个待聚类图像的无向图输入至第一预设学习模型,计算出每个待聚类图像的图聚类指示矩阵。

可选地,第一预设学习模型可采用通过无向图计算出图聚类指示矩阵的常规计算方式。

作为一种可选的实施方式,步骤S50包括:

确定每个所述图聚类指示矩阵中每个待聚类图像对应标签类型的概率值;

获取每个待聚类图像对应标签类型的概率值中最大概率值对应的标签类型;

根据最大概率值对应的标签类型确定所述待聚类图像的聚类标签。

需要说明的是,图聚类指示矩阵学习的目的是找到一个反应图像类别的概率矩阵F,其中F的每一行表示一张待聚类图像,列数对应待聚类图像的类别数,其中每一行的最大值所在的列表示该张待聚类图像属于该类,示例性地,如下是图聚类指示矩阵的示意图:

可选地,步骤S40之后,包括:将所述图聚类指示矩阵输入至第二预设学习模型,以优化所述图聚类指示矩阵,并根据优化后的所述图聚类指示矩阵更新所述图聚类指示矩阵,该步骤的具体实现可参见第二实施例,在此不进行详细说明。

可选地,将上述的多个实施方式进行结合,可建模为如下最优化模型:

其中α是一个大于0的参数,前两项是无向图学习,通过探究真实数据的曼哈顿距离,使其更好地应对待聚类图像中的离群值和噪声,第三项是图聚类指示矩阵F学习,使图学习和图聚类指示矩阵学习相互优化,大大提升无向图的质量,提升聚类精度。

示例性地,可参考图6,图6为确定待聚类图像的聚类标签的整体流程图。

通过对大量无标签的待聚类图像如原始人脸图像进行特征提取(以SIFT、HOG和LBP特征为例)可得到反应原始人脸图像的特征图像矩阵X

在本实施例公开的技术方案中,通过对待聚类图像进行预处理得到每个待聚类图像的多个特征图像矩阵,进而根据每个待聚类图像的多个特征图像矩阵,确定每个待聚类图像的曼哈顿距离,通过每个待聚类图像的曼哈顿距离,确定每个待聚类图像的无向图,以实现对待聚类图像中离群值和噪声进行处理,以使获得的无向图能较好地表征多特征图像数据底层真实的簇结构,以提高获得的无向图的质量,将无向图输入至第一预设学习模型,以得到每个待聚类图像的图聚类指示矩阵,根据每个待聚类图像的图聚类指示矩阵确定每个待聚类图像的聚类标签,以使得最终获取得到的聚类标签更准确,提高聚类精度。

基于上述第一实施例提出本发明的基于曼哈顿距离的图像聚类方法的第二实施例,请参考图7,图7为本发明的基于曼哈顿距离的图像聚类方法第一实施例的流程示意图。在该实施例中,步骤S40之后,包括:

步骤S60,将所述图聚类指示矩阵输入至第二预设学习模型,以优化所述图聚类指示矩阵;

步骤S70,根据优化后的所述图聚类指示矩阵更新所述图聚类指示矩阵。

图聚类指示矩阵学习就是找到一个反应图像类别的概率矩阵F,其中F的每一行表示一张图像,列数对应图像的类别数,其中每一行的最大值所在的列表示该张图像属于该类。

通过引入图聚类指示矩阵学习,使得图学习和图聚类指示矩阵学习相互迭代优化,进一步提升图聚类的准确度。因此可用最优化问题对图聚类指示矩阵学习进行建模获得第二预设学习模型:

其中,第二预设学习模型为据所述无向图确定度矩阵,取所述图聚类指示矩阵的转置矩阵,并根据所述度矩阵、所述无向图、所述转置矩阵以及所述图聚类指示矩阵进行建模获得,第二预设学习模型具体表达式如下:

其中,

在本实施例公开的技术方案中,通过将图聚类指示矩阵输入至第二预设学习模型,以优化图聚类指示矩阵,进而根据优化后的图聚类指示矩阵更新图聚类指示矩阵,实现对图聚类指示矩阵的迭代优化,进而优化后的图聚类指示矩阵确定每个所述待聚类图像的聚类标签,可进一步提升图聚类的准确度。

如图8所示,图8为本发明提供的基于曼哈顿距离的图像聚类装置的模块组成示意图,基于曼哈顿距离的图像聚类装置100包括:

预处理模块110,用于对各个待聚类图像进行预处理,得到每个所述待聚类图像的多个特征图像矩阵;

第一确定模块120,用于根据每个所述待聚类图像的多个特征图像矩阵,确定每个所述待聚类图像的曼哈顿距离;

第二确定模块130,用于根据每个所述待聚类对象的曼哈顿距离,确定每个所述待聚类图像的无向图;

输入模块140,用于将所述无向图输入至第一预设学习模型,以得到每个所述待聚类图像的图聚类指示矩阵;

第三确定模块150,用于根据每个所述图聚类指示矩阵确定对应所述待聚类图像的聚类标签。

本发明的基于曼哈顿距离的图像聚类装置的具体实施方式与上述基于曼哈顿距离的图像聚类方法各实施例基本相同,在此不再赘述。

本发明还提出一种终端设备,所述终端设备包括:包括存储器、处理器以及存储在存储器里并可在处理器上运行的基于曼哈顿距离的图像聚类程序,基于曼哈顿距离的图像聚类程序被第一终端的处理器执行时实现上述任一实施例中的基于曼哈顿距离的图像聚类方法的步骤。

本发明还提出一种可读存储介质,该可读存储介质上存储有基于曼哈顿距离的图像聚类程序,所述基于曼哈顿距离的图像聚类程序被处理器执行时实现如以上任一实施例所述的基于曼哈顿距离的图像聚类方法的步骤。

在本发明提供的终端设备和可读存储介质的实施例中,包含了上述基于曼哈顿距离的图像聚类方法各实施例的全部技术特征,说明书拓展和解释内容与上述基于曼哈顿距离的图像聚类方法的各实施例基本相同,在此不做再赘述。

本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号