法律状态公告日
法律状态信息
法律状态
2019-07-05
专利权的转移 IPC(主分类):G06F17/30 登记生效日:20190614 变更前: 变更后: 申请日:20150522
专利申请权、专利权的转移
2018-01-30
授权
授权
2015-09-02
实质审查的生效 IPC(主分类):G06F17/30 申请日:20150522
实质审查的生效
2015-08-05
公开
公开
技术领域
本发明涉及图像分类和检索方法。
背景技术
在室外视觉定位中,需要采集带有地理位置信息(地理坐标)的图像作为定位算法的数据库图像。在基于视觉的定位方法中,首先需要根据用户所采集图像对数据库图像进行检索,得到检索图像后,再根据这些图像的位置信息,确定用户所在的位置。在定位过程中,数据库图像的检索效率是保证定位实时性的关键。基于内容的图像检索技术作为信息检索技术重要的一部分,已成为国内外的研究热点。该技术主要利用图像的视觉特征如颜色、纹理、形状和空间关系等检索图像库中与待查询图像相似的图像。在以往的图像检索技术中,图像的视觉信息往往作为图像的主要特征。但是,在某些情况下,图像的视觉特征往往不具有良好的区分性,从而导致室外图像仅依靠视觉特征进行场景分类时精度低。
在基于视觉的定位与导航算法中,图像的快速检索是保证算法实时性的关键。在该领域的研究中,已有算法主要是通过全局遍历的搜索方法进行数据库图像检索。但是,随着数据库规模的不断增大,图像检索过程耗费大量的时间,影响导航定位算法的实时性,无法保证用户的位置服务需求。
发明内容
本发明的目的是为了解决现有室外图像仅依靠视觉特征进行场景分类时精度低以及随着数据库规模的不断增大,图像检索过程耗费大量的时间,影响到导航定位算法的实时性,无法保证用户的位置服务需求的问题,而提出了基于地理位置特征与全局视觉特征的图像分类和检索方法。
上述的发明目的是通过以下技术方案实现的:
步骤一、数据库初始化:
在室外采集带有地理位置信息的图像作为数据库数据进行存储;
步骤二、数据库图像预处理:
将数据库中图像转换成灰度图像,提取Gist特征作为全局视觉特征,并用向量G表示,然后将数据库中灰度图像的位置信息作为灰度图像的位置特征L,数据库中灰度图像的融合特征向量为Ft={αG,(1-α)L};
步骤三、数据库图像聚类:
利用K-means算法对步骤二中的融合特征向量进行聚类,并计算聚类中心,得到聚类中心后,将聚类中心的全局视觉特征向量作为数据库中灰度图像类别的视觉特征;
步骤四、数据库图像类排序:
当用户上传查询图像后,对查询图像提取全局视觉特征和SIFT特征,并计算查询图像全局视觉特征与数据库中灰度图像类别的视觉特征的欧氏距离,根据欧式距离由小到大对数据库中灰度图像的各个类别进行排序;
步骤五、图像类内检索:
查询图像按照步骤四得到的类别排序结果,逐一对各个类别进行检索,在类内检索时,首先提取类内每一幅灰度图像的全局视觉特征,然后根据查询图像的全局视觉特征与类内灰度图像的全局视觉特征的欧氏距离,由小到大进行排序,查询图像根据此排序结果进行图像特征匹配,在图像匹配过程中,提取数据库灰度图像和查询图像的SIFT特征点,并对特征点进行匹配,设定匹配阈值kmatch,若ε≥kmatch,则数据库图像与查询图像匹配,并将匹配的数据库灰度图像作为检索结果;否则,继续检索。
发明效果
采用本发明的基于地理位置特征与全局视觉特征的图像分类和检索方法,
(1)本发明中提出的结合视觉特征与地理位置特征的图像聚类算法,解决了室外图像仅依靠视觉特征进行场景分类时精度偏低的问题,使图像分类精度提高了18%以上。
(2)通过对数据库图像进行离线阶段分类,实现了在线阶段的定向检索,使检索效率大大提高。本算法中提出了以图像的位置特征与全局特征融合的方式进行聚类,该方法可以在离线阶段将数据库图像以场景进行分类,并提取出不同场景类别的视觉特征。在检索过程中,查询图像根据自身的视觉特征,从视觉特征最接近的类别进行检索,并按照视觉特征的相似程度对类别进行逐一检索,直到检索出满足相似性阈值的图像为止,解决了随着数据库规模的不断增大,图像检索过程将耗费大量的时间,直接影响到导航定位算法的实时性,无法保证用户的位置服务需求的问题,使图像检索过程耗费的时间减少了20%以上。
附图说明
图1为本发明流程图;
图2为数据库离线处理过程流程图;
图3为查询图像在线检索过程流程图;
图4为实施例中仿真实验图。
具体实施方式
具体实施方式一:结合图1、图2和图3说明本实施方式,基于地理位置特征与全局视觉特征的图像分类和检索方法,具体是按照以下步骤进行的:
步骤一、数据库初始化:
在室外采集带有地理位置信息的图像作为数据库数据进行存储;
步骤二、数据库图像预处理:
将数据库中图像转换成灰度图像,提取Gist特征作为全局视觉特征,并用向量G表示,然后将数据库中灰度图像的位置信息作为灰度图像的位置特征L,数据库中灰度图像的融合特征向量为Ft={αG,(1-α)L};
步骤三、数据库图像聚类:
利用K-means算法对步骤二中的融合特征向量进行聚类,并计算聚类中心,得到聚类中心后,将聚类中心的全局视觉特征向量作为数据库中灰度图像类别的视觉特征;
步骤四、数据库图像类排序:
当用户上传查询图像后,对查询图像提取全局视觉特征和SIFT特征,并计算查询图像全局视觉特征与数据库中灰度图像类别的视觉特征的欧氏距离,根据欧式距离由小到大对数据库中灰度图像的各个类别进行排序;
步骤五、图像类内检索:
查询图像按照步骤四得到的类别排序结果,逐一对各个类别进行检索,在类内检索时,首先提取类内每一幅灰度图像的全局视觉特征,然后根据查询图像的全局视觉特征与类内灰度图像的全局视觉特征的欧氏距离,由小到大进行排序,查询图像根据此排序结果进行图像特征匹配,在图像匹配过程中,提取数据库灰度图像和查询图像的SIFT特征点,并对特征点进行匹配,设定匹配阈值kmatch,若ε≥kmatch,则数据库图像与查询图像匹配,并将匹配的数据库灰度图像作为检索结果;否则,继续检索。
具体实施方式二:本实施方式与具体实施方式一不同的是:所述步骤二中数据库图像预处理:将数据库中图像转换成灰度图像,提取Gist特征作为全局视觉特征,并用向量G表示,然后将数据库中灰度图像的位置信息作为灰度图像的位置特征L,数据库中灰度图像的融合特征向量为Ft={αG,(1-α)L};具体过程为:
(1)将数据库中图像大小按比例缩放至300*300像素,并转换成灰度图像,灰度图像灰度值取值范围为0~255中的整数;
将灰度图像划分成3*3规则网格,则网格块数为9,每个网格像素为100*100像素;
将灰度值取值范围等距划分为8个尺度,尺度1的灰度值取值范围为0~31,尺度2的灰度值取值范围为32~63,尺度3的灰度值取值范围为64~95,尺度4的灰度值取值范围为96~127,尺度5的灰度值取值范围为128~159,尺度6的灰度值取值范围为160~191,尺度7的灰度值取值范围为192~223,尺度8的灰度值取值范围为224~255;
滤波方向为0,
(2)计算灰度图像的全局视觉特征:
对步骤(1)中9个网格块分别提取Gist特征,利用Gabor滤波器对数据库中灰度图像的网格块进行滤波,Gabor滤波器公式为:
式中,x为网格块中某一像素点的横(X轴方向)坐标,y为网格块中某一像素点的纵(Y轴方向)坐标,
定义不同尺度、不同方向时的滤波函数:
gmθ=a-mg[a-m(x cosθ+y cosθ),a-m(-x sinθ+y cosθ)] (2)
式中,gmθ为Gabor滤波器(方向取值为θ,尺度取值为m)的滤波结果;a-m为母小波膨胀的尺度因子,m为滤波器尺度,m的取值为1,2,3,4,5,6,7,8;θ为滤波器方向,取值为0,
通过取不同的m和θ值,可以得到32个滤波器,分别对应不同方向和不同尺度,其中,θ分别取0,
利用滤波函数对灰度图像网格块进行滤波,可以得到32个滤波结果gmθ,级联这32个滤波结果,可以得到灰度图像第i个网格块的Gist特征Gi(x,y):
>
式中,cat为级联运算符,f(x,y)为灰度图像,
通过计算9个网格块的Gist特征,可得G1(x,y),G2(x,y),…G9(x,y),将9个网格块的Gist特征值组合,可得灰度图像的全局视觉特征G:
G={G1(x,y),G2(x,y),…G9(x,y)} (4)
(3)将数据库中灰度图像的位置信息作为灰度图像的位置特征L,其中L=(xl,yl),xl为灰度图像采集地理位置的经度值,yl为灰度图像采集地理位置的纬度值;将灰度图像的融合特征向量表示为Ft:
Ft={αG,(1-α)L} (5)
式中,α为权重系数,0<α<1。
其它步骤及参数与具体实施方式一相同。
具体实施方式三:本实施方式与具体实施方式一或二不同的是:所述步骤三中数据库图像聚类:利用K-means算法对步骤二中的融合特征向量进行聚类,并计算聚类中心,得到聚类中心后,将该向量中的全局视觉特征向量作为数据库中灰度图像类别的视觉特征;具体过程为:
步骤三一、从数据库中任意选择p幅灰度图像,并将这些灰度图像的融合特征向量作为初始聚类中心;
步骤三二、计算数据库中每一幅灰度图像的融合特征向量与每个初始聚类中心的欧式距离,如式(6)所示:
>
式中,f11为灰度图像的融合特征向量中的第1个元素,f21为初始聚类中心的第1个元素,f12为灰度图像的融合特征向量中的第2个元素,f22为初始聚类中心的第2个元素,f1n为灰度图像的融合特征向量中的第n元素,f2n为初始聚类中心的第n个元素;
将欧式距离最近的聚类中心划归为一个类别;可得到基于每一个聚类中心划分的p个灰度图像类别;由此得到的数据库灰度图像类别划分结果,即为聚类结果;
步骤三三、对于p个灰度图像聚类类别,计算每一个类别中所有图像的融合特征向量的平均值,如式(7)所示,并将该融合特征向量的平均值作为新的聚类中心:
>
式中,Zj为聚类中心,Nj为第j个图像类别中的图像数量,fm1为第j个图像类别中第m幅图像的融合特征向量的第1个元素,fm2为为第j个图像类别中第m幅图像的融合特征向量的第2个元素,fmn为第j个图像类别中第m幅图像的融合特征向量的第n个元素,m为第j个图像类别中图像的序号;
步骤三四、计算目标函数J的值,若J值收敛,则进行步骤三五;否则,转到步骤三二,
定义目标函数J为:
>
式中,p为灰度图像聚类类别数量,Nj为第j个灰度图像类别中的灰度图像数量,Zj为聚类中心,Ft为数据库中灰度图像的融合特征向量,t为灰度图像序号,j为灰度图像类别序号;
步骤三五、得到聚类结果和聚类中心后,将聚类中心的全局视觉特征部分G作为该灰度图像类别的视觉特征,记为Kj(j=1,2,…,p)。
其它步骤及参数与具体实施方式一或二相同。
具体实施方式四:本实施方式与具体实施方式一、二或三不同的是:所述步骤四中数据库图像类排序:当用户上传查询图像时,首先对查询图像提取全局视觉特征和SIFT特征,然后,根据查询图像的全局视觉特征,分别计算该图像的全局视觉特征与数据库中灰度图像类别的视觉特征的欧式距离,并根据欧式距离由小到大对数据库中的灰度图像的各个类别进行排序;具体过程为:
步骤四一、当用户上传查询图像(查询图像为灰度图像)时,需要对上传查询图像提取全局视觉特征和SIFT特征;对上传查询图像提取全局视觉特征,记为Gquery,计算方法如式(4)所示:
具体方法如步骤二中(1)至(3)所示。SIFT是一种尺度不变特征转换,全拼为Scale-Invariant Feature Transform。SIFT变换是一种数字图像处理领域中常用的特征提取方法。数字图像通过SIFT变换,可以得到图像对应的特征点。
对上传查询图像进行SIFT特征,并将特征点数记为Numquery,特征点w对应的SIFT特征向量记为
步骤四二、分别计算查询图像全局视觉特征Gquery={G1(x,y),G2(x,y),…G9(x,y)}={g1,g2,…gn}与类别的视觉特征
>
式(9)中,g1是查询图像全局视觉特征向量中的第1个元素,g2是查询图像全局视觉特征向量中的第2个元素,gn是查询图像全局视觉特征向量中的第n个元素,
根据查询图像全局视觉特征与类别的视觉特征的欧氏距离由小到大,对数据库中灰度图的各个类别进行排序。
其它步骤及参数与具体实施方式一、二或三相同。
具体实施方式五:本实施方式与具体实施方式一、二、三或四不同的是:所述步骤五中图像类内检索:查询图像按照步骤四得到的类别排序结果,逐一对各个类别进行检索,在类内检索时,首先提取类内每一幅灰度图像的全局视觉特征,然后根据查询图像的全局视觉特征与类内灰度图像的全局视觉特征的欧氏距离,由小到大进行排序,查询图像根据此排序结果进行图像特征匹配,在图像匹配过程中,提取数据库灰度图像和查询图像的SIFT特征点,并对特征点进行匹配,设定图像匹配阈值kmatch,若ε≥kmatch,则数据库图像与查询图像匹配,并将匹配的数据库灰度图像作为检索结果;否则,继续检索;具体过程为:
步骤五一、在检索过程中,对数据库中的每一幅灰度图像提取SIFT特征,将特征点数记为Numdatabase,定义数据库灰度图像特征点v对应的SIFT特征向量记为
>
式中,tv1是特征点v的SIFT特征向量的第1个元素,tv2是特征点v的SIFT特征向量的第2个元素,tvn是特征点v的SIFT特征向量的第n个元素,tw1是特征点w的SIFT特征向量的第1个元素,tw2是特征点w的SIFT特征向量的第2个元素,twn是特征点w的SIFT特征向量的第n个元素;
设定特征点匹配阈值γ,
若
若
步骤五二、根据得到的特征匹配对数量Nummatch,设置图像匹配系数ε,定义:
>
Fnum=max(Numquery,Numdatabase) (12)
其中,max为取最大值运算,其定义如下:
步骤五三、设定图像匹配阈值kmatch,若ε≥kmatch,则数据库图像与查询图像匹配,并将匹配的数据库图像作为检索结果;若ε<kmatch,则数据库图像与查询图像不匹配,重新执行步骤五一。
其它步骤及参数与具体实施方式一、二、三或四相同。
采用以下实施例验证本发明的有益效果:
数据库图像处理阶段:数据库中存储的是带有位置信息的图像。融合数据库图像的视觉特征和地理位置特征,并进行聚类。得到的聚类结果是:每一个类别中的图像是具有相近视觉特征的,并且位置较近的图像。
查询图像检索阶段:当用户上传查询图像后,对查询图像提取全局视觉特征。并计算查询图像全局视觉特征向量与各个图像类别(指的是数据库图像类别)特征向量(可以认为是聚类中心向量的视觉特征部分)的欧氏距离。根据欧式距离由小到大对数据库图像类别进行排序,查询图像按照这个排序逐一对各个类别进行检索。在类内检索时,首先提取类内每一幅图像的全局视觉特征。然后根据查询图像的全局视觉特征与类内图像的全局视觉特征的欧氏距离,由小到大进行排序。查询图像根据此排序结果进行图像特征匹配。在图像匹配过程中,提取数据库图像和查询图像的SIFT特征点,并对特征点进行匹配。如果满足匹配条件,则认为该数据库图像是检索结果;否则,继续检索。
数据库中的图像有很多幅,是预先采集的。查询图像只有一幅,图像检索的目的就是根据这一幅查询图像,找到与查询图像类似的数据库图像。在常规的图像检索过程中,查询图像需要逐一和每一幅数据库图像进行特征匹配。但是当数据库图像数量非常大的时候,时间开销会很大。因此,在此提出了一种先对数据库图像进行分类,然后,查询图像分别与每一类的聚类中心进行相似度(特征的欧氏距离)计算,让查询图像从相似度比较大的类别开始检索,这样做更有可能快速地找到与查询图像特征近似的数据库图像,这样就避免了在数据库中盲目的逐个图像搜索。
实施例1
图像检索时间实验:
实验条件:在本实验中,选定5个场景,分别为游泳馆场景、公寓场景、食堂场景、宿舍场景和教学楼场景。在每个场景中,分别采集40幅数据库图像,并记录图像采集位置的地理坐标(经度、纬度值)。另外,在每个场景中采集10幅查询图像,供图像检索时,作为查询图像使用,如图4所示。
1.本发明方法仿真:首先对数据库中的200幅图像进行聚类。然后,对每个场景中的10幅查询图像分别进行数据库检索,并记录每个场景中10幅查询图像的平均检索时间(该检索时间不包括数据库图像的聚类时间)。
步骤一、数据库初始化:
在室外采集带有地理位置信息的图像作为数据库数据进行存储;
步骤二、数据库图像预处理:
将数据库中图像转换成灰度图像,提取Gist特征作为全局视觉特征,并用向量G表示,然后将数据库中灰度图像的位置信息作为灰度图像的位置特征L,数据库中灰度图像的融合特征向量为Ft={αG,(1-α)L};
步骤三、数据库图像聚类:
利用K-means算法对步骤二中的融合特征向量进行聚类,并计算聚类中心,得到聚类中心后,将聚类中心的全局视觉特征向量作为数据库中灰度图像类别的视觉特征;
步骤四、数据库图像类排序:
首先对查询图像提取全局视觉特征和SIFT特征,然后,根据查询图像的全局视觉特征,分别计算查询图像的全局视觉特征与数据库中灰度图像类别的视觉特征的欧式距离,并根据欧式距离由小到大对数据库中的灰度图像的各个类别进行排序;
步骤五、图像类内检索:
查询图像按照步骤四得到的类别排序结果,对各个类别进行检索,计算查询图像与数据库灰度图像类别中的每一幅图像的欧氏距离,并按照欧氏距离由小到大进行检索,在检索过程中,对数据库灰度图像提取SIFT特征,并对数据库灰度图像与查询图像进行SIFT特征匹配,设定匹配阈值kmatch,若ε≥kmatch,则数据库图像与查询图像匹配,并将匹配的数据库图像作为检索结果;
步骤六、重复步骤四、五,直到所有查询图像完成检索。分别对五个场景计算查询图像的平均检索时间。
2.遍历检索方法仿真:遍历检索算法是本专利所示方法的对比算法。针对5个场景中的50幅查询图像,分别对200幅数据库图像进行检索,并记录每一个场景中10幅查询图像的平均检索时间。在对数据库图像进行遍历检索时,查询图像分别与数据库图像按图像序号由小到大进行匹配,直到检索到满足图像匹配阈值的数据库图像为止。设定图像匹配阈值k,若ε≥k,则数据库图像与查询图像匹配,并将匹配的数据库图像作为检索结果;若ε<k,则数据库图像与查询图像不匹配,重新执行步骤五一(在检索过程中,对数据库中的每一幅灰度图像提取SIFT特征,将特征点数记为Numdatabase,定义数据库灰度图像特征点v对应的SIFT特征向量记为
>
式中,tv1是特征点v的SIFT特征向量的第1个元素,tv2是特征点v的SIFT特征向量的第2个元素,tvn是特征点v的SIFT特征向量的第n个元素,tw1是特征点w的SIFT特征向量的第1个元素,tw2是特征点w的SIFT特征向量的第2个元素,twn是特征点w的SIFT特征向量的第n个元素;
设定特征点匹配阈值γ,
若
若
步骤一、对数据库中的200幅图像,进行随机编号;
步骤二、在50幅查询图像中选取一幅查询图像,并提取其SIFT特征;
步骤三、定义图像匹配系数ε,根据得到的特征匹配对数量Nummatch,定义:
>
Fnum=max(Numquery,Numdatabase) (12)
其中,max为取最大值运算,其定义如下:
首先,按数据库图像编号由小到大的顺序,逐个提取数据库图像的SIFT特征,并与查询图像进行特征匹配。然后,根据图像的特征匹配结果计算图像匹配系数ε。如果ε≥k,则数据库图像与查询图像匹配,并将匹配的数据库图像作为检索结果。否则,继续检索其他数据库图像;
步骤四、重复步骤二、三,直到所有查询图像完成检索。分别对五个场景计算查询图像的平均检索时间;
查询图像的平均检索时间如下所示。
机译: 分类的特征量选择方法,图像分类方法,视觉检查方法和视觉检查设备
机译: 基于trangolo等边的几何特征的数学棋盘游戏,基于pitagoriche细胞的数学特征以及基于九种颜色和sequenzialita数学等级的视觉关联。
机译: 一种用于产生没有技术帮助的视觉可感知的方法的安全特征,基于塑料的价值的安全特征或安全文件以及具有至少一个这样的安全特征的文件