首页> 中国专利> 基于WordNet语义相似度的多特征图像标签排序方法

基于WordNet语义相似度的多特征图像标签排序方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及一种基于WordNet语义相似度的多特征图像标签排序方法，包括：建立训练样本库，提取样本库中图像的显著性区域图，训练SVM分类器，测试图像标签预处理，判断测试图像的类型，测试图像标签排序。本发明融合相关性、视觉性、多特征等方法，不仅考虑了场景类图像整幅图像的不同特征，而且考虑了对象类图像显著图的不同特征。在对图像标签进行排序之前，对图像标签的不正确性和标签的不全面性等问题进行改进，提高图像标签与图像内容之间的相关度，以及图像标签的准确性和全面性；本发明不仅考虑了图像视觉特征之间的相似度，而且考虑了标签文本之间的语义相似度，使图像标签的排序更准确。

著录项

公开/公告号CN103810274A

专利类型发明专利
公开/公告日2014-05-21

原文格式PDF
申请/专利权人北京联合大学;
展开▼

申请/专利号CN201410049041.X
发明设计人刘宏哲;袁家政;吴焰樟;王棚飞;
展开▼

申请日2014-02-12
分类号G06F17/30(20060101);G06K9/62(20060101);
代理机构11203 北京思海天达知识产权代理有限公司;
代理人吴荫芳
地址 100101 北京市朝阳区北四环东路97号
入库时间 2024-02-20 00:11:30

法律信息

法律状态公告日

法律状态信息

法律状态
2017-03-29

授权

授权
2014-06-18

实质审查的生效 IPC(主分类):G06F17/30 申请日:20140212

实质审查的生效
2014-05-21

公开

公开

说明书

技术领域

本发明属于互联网社群图像标签处理领域，涉及一种利用现有数据库（NS-WIDE）图像与对应的标签列表基于WordNet语义相似度的多特征图像标签排序方法。

背景技术

随着互联网技术的不断发展，尤其是web2.0的快速发展，我们步入了信息化时代。同时社交网络的数量也在不断增多，而其中最具代表性的社交媒体网站有Facebook，Google的视频分享网站YouTube以及Yahoo的社交图像分享网站Flicker。这一类的社交网站都允许网络用户自行上传图像或者视频，用户可以通过关键字对图像的内容、时间、地点等信息进行标注，这些标注的信息被称为“标签（Tag）”，而为媒体添加关键字标签的过程被称为 “Tagging”。由于大部分网络用户没有受过专门的媒体信息标注训练，同时也受到其个人的文化背景、个人因素等影响，故图像存在标注信息与图像本身相关度不大等问题，并且标签的相关性、重要性等方面不能够由现有的标签次序所反映。

为解决这个问题，近些年来大量的学者对此问题进行了研究，目前已有的对图像标签排序办法大致可以分为两类：一、基于全局特征的标签处理办法，即利用图像的全局特征对标签进行处理。二、利用显著图特征进行图像标签排序处理，此种方法首先必须从各图像提取相应的显著图，然后利用图像显著图特征找到k个最近邻显著图像，最后使用这k个图像的标签对目标图像的标签的相关性进行投票。上述两类方法在很大程度上都将标签改善与标签排序分为两个不同的研究内容，故它们在标签排序的过程中很少对图像标签本身做太多的处理，只是对图像标签进行简单的预处理。

发明内容

针对现有技术存在的上述问题，本发明提出了一种基于WordNet语义相似度的多特征图像标签排序方法，在对图像标签进行排序之前，对图像标签的不正确性和标签的不全面性等问题进行改进，提高图像标签与图像内容之间的相关度，以及图像标签的准确性和全面性；同时在图像标签排序的过程中，将图像划分为场景类与对象类图像，场景类图像利用图像的全局特征进行处理，对象类图像利用图像的显著图进行处理。

为了实现上述目的，本发明采取了如下技术方案：

步骤1，建立训练样本库。

利用现有的数据库NS-WIDE中的图像建立一个应用于SVM线性分类器训练的样本图像库，包括场景类图像(Sense Image)和对象类图像(Object Image)。

步骤2，提取样本库中图像的显著性区域图。

利用现有的Itti模型原理方法，提取两类图像的显著性区域图。对象类和场景类图像显著图分别为和Sense_SaliencyMap{S₁,S₂,S₃,……,S_n}，其中，O、S分别表示对象类、场景类图像集合，图像样本数目大小分别为m、n，O_i、S_i分别表示对象类、场景类图像集合中某一幅图像。

步骤3，训练SVM分类器。

步骤3.1，获取显著性区域图的灰度直方图特征。

任何一幅图像的灰度直方图都包含了丰富的信息，它表示一幅图像灰度分布情况。本发明利用图像灰度直方图上述特点，分别提取对象类和场景类图像的显著性区域直方图特征。

步骤3.2，训练SVM分类器。

两类图像的灰度直方图具有明显的区别，因此可以将对象类与场景类图像作为SVM线性分类器的正负样本，其对应的灰度直方图特征向量OBw_f、SBw_f作为SVM分类器的输入特征向量。通过SVM线性分类器训练得到一个线性分类器，其权重与偏置分别为 Weight＝{Weight₁、Weight₂、Weight₃……Weight_n}、Bias，其中，n的大小等于灰度直方图特征向量的维数。

步骤4，对测试图像标签进行预处理。

首先读取数据库NS-WIDE中的任意一张图像作为测试图像(TestImage)，并获取其对应的标签数据信息，接着对拼写错误标签进行过滤，然后利用知识库WordNet对测试图像标签进行扩充，其中知识库WordNet将英语的名词、动词、形容词和副词组织为synsets，每一个 synset表示一个基本的词汇概念，并在这些概念之间建立了包括同义关系（synonymy）、反义关系（antonymy）、上下位关系（hypernymy&hyponymy）、部分关系（meronymy）等多种语义关系，其中同义关系、上下位关系与图像标签联系更为紧密，故在本发明中使用同义关系和上下位关系。

步骤4.1，改善标签的不准确性。

本发明中考虑的标签不准确性为图像标签的拼写错误，鉴于知识库WordNet涵盖了大量的英语单词，故在本发明中使用知识库这一特点判定图像标签单词的正确性，首先读取数据库（NS-WIDE）中的任意一张图像作为测试图像，同时得到其对应的标签，将标签与知识库 WordNet中的单词一一匹配，如果在知识库WordNet中找到与之匹配的标签，则默认单词拼写准确，剔除未匹配到的图像标签。

步骤4.2，对标签进行扩充处理。

读取测试图像对应的标签数据信息，其标签集合用T＝{T₁,T₂,......,T_n}表示，获取标签集合 T对应知识库WordNet中同义词、上位词、下位词集合，扩充标签集合可用 Extend＝{Extend₁,Extend₂,...,Extend_n}表示，扩充后的标签集合用T_Extend，此集合包括了图像原有标签信息及扩充的标签信息，其具体扩充过程可表示为：

$T_Extend = Σ_{i = 1}^{n} (T_{i} + {Extend}_{i})$

其中，图像标签数目为n，T_i表示标签序号为i的标签，Extend_i表示标签序号为i的扩充词集合。

步骤4.3，对标签进行去噪处理。

利用知识库WordNet对图像标签进行扩充，会出现一些不正常的标签，比如，重复出现的标签，由多个单词组成的标签，称这些标签为噪声标签。如果不进行去噪处理，将会影响整个标签排序处理的性能。故需对扩充后的标签集合T_Extend进行去噪处理，即删除噪声标签。去噪过程表示为：

T′_Extend＝T_Extend-N_Extend

其中，T′_Extend表示去噪后的标签，N_Extend表示噪声标签集合。

步骤5，判断测试图像的类型。

读取测试图像(TestImage)，根据Itti模型原理提取测试图像的显著区域图 (TestImage_SalienyMap)，其显著区域图直方图特征为：

TBw_f＝{TBw_f₁、TBw_f₂、TBw_f₃……、TBw_f_n}

SVM分类器利用图像灰度直方图特征向量判断测试图像类型(Type)：场景类图像或者对象类图像。将该问题表示为一个函数f(x)，则判断测试图像类型问题可以归结为求f(x)的范围问题，判断f(x)的范围就可知道图像类型(Type)。

步骤6，测试图像标签排序。

根据图像的类型选择不同的标签投票方法，对于场景类图像采用不同维数全局特征进行标签投票，对象类图像采用测试图像的显著图不同维数特征进行标签投票。然后对投票结果处理并进行排序。

步骤6.1，利用全局特征对场景类图像标签投票。

对于场景类测试图像I，获取其不同维数全局特征，例如64维的颜色直方图、75维的边缘方向直方图、128维的小波纹理、144维的颜色相关图、255维的基于5×5块的颜色矩、 500维的基于词袋模型等维数特征，并利用不同维数全局特征获取相对应的测试图像的近邻图像，然后利用不同特征得到的近邻图像标签对测试图像标签进行投票，当近邻图像标签与扩充标签相等时，票数增一。

步骤6.2，利用显著特征对象类图像标签投票。

对于对象类图像，本发明中利用李旻显等人提出的基于Itti模型外接矩形框迭代方法获得图像的显著图，并获取显著图不同维数的特征，然后利用不同维数显著图特征获取测试图像的最近邻显著图像，最后利用不同特征得到的近邻图像标签对测试图像的标签进行投票，当近邻图像标签与扩充标签相等时，票数增一。

步骤6.3，对最后测试图像标签进行排序。

将测试图像同一标签不同特征投票结果乘上一定权重并累加得到初步标签票数。接着将图像原有标签、同义词、上位词、下位词标签票数乘以不同比例得到进一步标签票数，并将此标签票数归一化得到单个标签概率。然后根据经验值删除概率过高和过低的标签信息，因为出现概率很高的标签往往它的表现能力很弱，出现概率很低的标签与图像内容之间的相关度很低。最后将图像标签按照标签出现概率的大小进行排序即得到测试图像标签排序结果。

与现有的图像标签排序方法相比，本发明具有以下明显优势：

（1）本发明融合了相关性、视觉性、多特征等方法，不仅考虑了场景类图像整幅图像的不同特征，而且考虑了对象类图像显著图的不同特征。

（2）利用WordNet语义相似度对测试图像原有标签进行扩展，这不仅考虑了图像原有标签，同时考虑了标签的语义结构信息，使得图像标签包含的信息更广。

（3）本发明不仅考虑了图像视觉特征之间的相似度，而且考虑了标签文本之间的语义相似度，可得到图像标签更准确的排序。

附图说明

图1为本发明所涉及方法的流程图；

图2为测试图像及标签的示意图；

图3为测试图像的显著性区域图；

图4为测试图像显著性区域直方图；

图5为标签排序结果示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

本发明所述方法的流程图如图1所示，包括以下步骤：

步骤1，建立训练样本库。

利用现有的数据库NS-WIDE中的269648张图像建立一个专门应用于SVM线性分类器训练的样本图像库，包括场景类图像(Sense Image)和对象类图像(Object Image)。

步骤2，提取样本库中图像的显著性区域图。

步骤2.1，获取初级视觉特征。

利用现有的Itti模型原理方法，通过计算中央周边差分采样，分别得到亮度、颜色和方向特征图N(I)、N(C)和N(O)，并将三种特征图组合成显著性区域图S。

S＝α*N(I)+β*N(C)+γ*N(O)

其中，N(·)为归一化函数，α、β和γ分别代表亮度、颜色和方向特征图的权值系数。

步骤2.2，基于人脑过滤冗余信息机制过滤冗余噪声信息。

由于自然环境下的图像存在着很多噪声，而大脑可以去除很多冗余成分，基于人脑这个过滤冗余信息机制，对于初级特征图融合成显著特征图也要进行冗余信息的去除，得到过滤图像初级特征的冗余噪声信息图像。

步骤2.3，通过禁止返回的检测机制、就近转移的原则和注意尺寸的确定来实现焦点的注意和转移。

对于步骤2.2中融合的显著区域图中的注意焦点(FOA)并不明确，故需将显著图中显示的各个目标通过竞争机制吸引注意焦点。显著图中各目标采用胜者为王（WTA）的策略来实现，而由于待注意目标在所有参与者中总是最显著的，在竞争中总会获得胜利，焦点总会恒定的锁定在同一个目标上，注意焦点就无法转移到其他目标上，故可以通过禁止返回的检测机制、就近转移的原则，和注意尺寸的确定来实现焦点的注意和转移。

步骤3，训练SVM分类器。

步骤3.1，获取显著性区域图的灰度直方图特征。

分别提取对象类和场景类图像的显著性区域直方图特征 Object_Bw_SaliencyMap{O₁,O₂,O₃,…,O_m}和Sense_Bw_SaliencyMap{S₁,S₂,S₃,…,S_n}。对象类、场景类图像灰度直方图特征向量分别为：

OBw_f＝{OBw_f₁,OBw_f₂,OBw_f₃,...,OBw_f_i,...,OBw_f_m}

SBw_f＝{SBw_f₁,SBw_f₂,SBw_f₃,...,SBw_f_i,...,SBw_f_n}

其中，OBw_f_i与SBw_f_i分别为某幅对象类和场景类图像的灰度直方图特征向量。

步骤3.2，训练SVM分类器。

将对象类与场景类图像作为SVM线性分类器的正负样本，其对应的灰度直方图特征向量OBw_f、SBw_f作为SVM分类器的输入特征向量，通过SVM线性分类器训练得到一个线性分类器，其表达式为：

$f = Bw_f * Σ_{i = 1}^{n} {Weight}_{i} + bias$

其中，Bw_f=OBw_f或SBw_f，Weight＝{Weight₁,Weight₂,...,Weight_n}为分类器的权重，n为灰度直方图的特征维数，bias为偏置。

步骤4，测试图像标签预处理。

在对测试图像标签排序之前，考虑到测试图像原有标签的不准确性、不全面性等问题，故需对图像标签进行预处理。测试图像及标签的示意图如图2所示。

步骤4.1，改善标签的不准确性。

本发明中考虑的标签不准确性为图像标签的拼写错误，鉴于知识库WordNet涵盖了大量的英语单词，故在本发明中使用知识库这一特点判定图像标签单词的正确性，首先读取数据库（NS-WIDE）中的任意一张图像作为测试图像，图像对应的标签集合可用 T＝{T₁,T₂,...,T_i,...,T_n}表示，其中T_i表示测试图像第i个标签，一个标签表示一个独立的单词，将标签集合T中每个标签与知识库WordNet中的单词进行匹配，如果在知识库WordNet中找到与之匹配的标签，则默认单词拼写准确；否则，认为单词拼写有误，剔除该标签。

步骤4.2，改善标签的不全面性。

使用知识库WordNet中的同义词、上位词和下位词对原有标签进行扩充，扩充后的标签集合包括了图像原有标签信息及扩充后的标签信息。

（1）读取测试图像的标签数据信息T＝{T₁,T₂,......,T_n}，获取标签集合T对应知识库 WordNet中同义词集合Syn，得到同义词集合Syn＝{Syn₁,Syn₂,Syn₃,......,Syn_n}，同时根据同义词集合获取知识库WordNet中对应的上位词、下位词集合，得到的上位词、下位词集合分别表示为：

Hyper＝{Hyper₁,Hyper₂,Hyper₃,......,Hyper_n}

Hypo＝{Hypo₁,Hypo₂,Hypo₃,......,Hypo_n}。

（2）利用同义词、上位词、下位词集合对测试图像原有标签进行扩充，扩充后的标签集合用T_Extend表示。

标签扩充过程可表示为：

$T_Extend = Σ_{i = 1}^{n} (T_{i} + {Syn}_{i} + {Hyper}_{i} + {Hypo}_{i})$

其中，图像标签数目为n，T_i表示标签序号为i的标签，Syn_i、Hyper_i、Hypo_i分别表示第 i个标签的同义词、上位词、下位词集合。

步骤4.3，标签去噪。

由于利用知识库WordNet扩充之后的同义词、上位词、下位词标签集合，会包含一些非正常标签，比如，重复出现的标签，由多个单词组成标签，这些标签就是噪声标签。对扩充后的标签进行去噪处理，就是删除这些噪声标签。扩充后的标签集合用 T′_Extend＝{T′_Extend₁,T′_Extend₂,...,T′_Extend_i,...}表示。

步骤5，判断测试图像的类型。

利用步骤2方法提取测试图像的显著性区域图，并提取显著区域图的灰度直方图特征。提取的显著区域图及其直方图分别如图3、图4所示。将此特征向量输入SVM分类器，求出 f的值，并根据f的值判断测试图像类型Type：场景类图像或对象类图像。

判别公式如下：

$Type = (\begin{matrix} 1, & f \in [α_{1}, β_{1}] \\ 0 & f \in [α_{2}, β_{2}] \end{matrix})$

其中，α₁和β₁、α₂和β₂表示对象类、场景类图像经过SVM分类器分类取值范围上、下限，α₂＜β₂≤α₁＜β₁。当Type=1时表示测试图像为对象类图像，Type=0为场景类图像。

步骤6，测试图像标签排序。

步骤6.1，利用全局特征对场景类图像标签进行投票。

对于场景类测试图像I，获取其不同维数全局特征，例如64维的颜色直方图、75维的边缘方向直方图、128维的小波纹理、144维的颜色相关图、255维的基于5×5块的颜色矩、 500维的基于词袋模型等维数特征F＝{F₁,F₂,F₃,F₄,F₅,F₆}，用F₁、F₂、F₃、F₄、F₅、F₆分别表示64D、75D、128D、144D、255D、500D特征，并利用上述特征获取测试图像的k个最近邻图像，k的取值与判定近邻图像的限制条件有关，判定近邻图像的限制条件范围越大，k的取值越大。然后利用近邻图像标签对测试图像每个标签进行投票，当近邻图像标签与扩充标签相等时，票数增一。

投票过程表示为：

$(\begin{matrix} Type = 0 \\ Vote (T^{'}_{Extend}_{i}, I, F_{j}, k) = Vote (T^{'}_{Extend}_{i}, I, F_{j}, k) + 1 \end{matrix})$

式中，Type＝0表示测试图像为场景类图像，Vote(T′_Extend,I,F_i,k)表示测试图像I利用特征F_j获得的k个最近邻图像标签对测试图像标签T′_Extend_i的投票计数。

步骤6.2，利用显著特征对对象类图像进行标签投票。

对于对象类图像I，本发明中利用李旻显等人提出的基于Itti模型外接矩形框迭代方法获得图像的显著图IS及显著图不同维数的特征FS＝{FS₁,FS₂,FS₃,FS₄,FS₅,FS₆}，并利用此特征获取测试图像的k个最近邻显著图像，k的取值方法同步骤6.1。然后利用近邻图像的标签对测试图像的标签进行标签投票，当近邻图像标签与扩充标签相等时，票数增一。

投票过程表示为：

$(\begin{matrix} Type = 1 \\ Vote (T^{'}_{Extend}_{i}, I, {FS}_{j}, k) = Vote (T^{'}_{Extend}_{i}, I, {FS}_{j}, k) + 1 \end{matrix})$

式中，Type＝1表示测试图像为对象类图像，Vote(T′_Extend_i,I,FS_j,k)表示测试图像I利用特征FS_j获得的k个最近邻显著图像标签对测试图像标签T′_Extend_i的投票计数。

步骤6.3，对测试图像标签进行排序。

（1）统计测试图像标签票数。

将测试图像I同一标签不同特征投票结果乘上一定权重并累加得到标签票数。对于对象类图像用Vote(T′_Extend,I,FS_i,k)表示利用特征FS_i获得的k个最近邻显著图像标签对测试图像标签T′_Extend的投票结果，用Vote(T′_Extend,I,FS,k)表示对象类图像标签投票结果。则测试图像标签票数为：

$(\begin{matrix} Type = 1 \\ Vote (T^{'}_Extend, I, FS, k) = Σ_{i = 1}^{6} a_{i} * Vote (T^{'}_Extend, I, {FS}_{i}, k) \end{matrix})$

式中，a_i表示第i个特征对应的权重。

如果测试图像I为场景类图像，则可用Vote(T′_Extend,I,F_i,k)表示利用特征F_i获得的k 个最近邻图像标签对测试图像标签T′_Extend的投票结果，Vote(T′_Extend,I,F,k)表示场景类图像标签投票结果。则测试图像标签票数为：

$(\begin{matrix} Type = 0 \\ Vote (T^{'}_Extend, I, F, k) = Σ_{i = 1}^{6} b_{i} * Vote (T^{'}_Extend, I, F_{i}, k) \end{matrix})$

式中，b_i表示第i个特征对应的权重，b_i的取值可以与a_i相同或者不同。

由于扩充后的标签中，图像原有标签、同义词、上位词和下位词与图像内容联系的紧密程度不同，原有标签最为紧密，同义词集合次之，最后是上位词集合、下位词集合。故需将图像原有标签、同义词、上位词、下位词标签票数分别乘以不同比例。本发明上述4个因子可分别取1.0、0.7、0.2、0.1。

（2）对投票结果进行排序。

将标签投票结果归一化得到单个标签概率，然后根据经验值去除概率高或者低的标签信息，因为出现概率很高的标签往往它的表现能力很弱，出现概率很低的标签与图像内容之间的相关度很低。最后将图像标签按照标签出现概率的大小进行排序即得到测试图像标签排序结果。

测试图像排序结果如图5所示，根据经验值去除了概率很高的标签“nature”，同时将与测试图像最为相关的标签“birds”排列到整个标签列表的前面。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于WordNet语义相似度的多特征图像标签排序方法 [P] . 中国专利： CN103810274B . 2017.03.29
2. 基于WordNet语义相似度的多特征图像标签排序方法 [P] . 中国专利： CN103810274A . 2014-05-21
3. METHOD AND SYSTEM FOR EVALUATING AND RANKING IMAGES WITH CONTENT BASED ON SIMILARITY SCORES IN RESPONSE TO A SEARCH QUERY [P] . 韩国专利： KR101932618B1 . 2018-12-27

机译：基于相似度的搜索查询图像内容评估与排序方法及系统
4. METHOD AND SYSTEM FOR EVALUATING AND RANKING IMAGES WITH CONTENT BASED ON SIMILARITY SCORES IN RESPONSE TO A SEARCH QUERY [P] . 韩国专利： KR20170138333A . 2017-12-15

机译：基于相似度的搜索查询图像内容评估与排序方法及系统
5. METHOD AND SYSTEM FOR EVALUATING AND RANKING IMAGES WITH CONTENT BASED ON SIMILARITY SCORES IN RESPONSE TO A SEARCH QUERY [P] . 美国专利： US2017351710A1 . 2017-12-07

机译：基于相似度的搜索查询图像内容评估与排序方法及系统