首页> 中国专利> 基于感兴趣区域多元空间关系模型的图像分类方法

基于感兴趣区域多元空间关系模型的图像分类方法

摘要

一种基于感兴趣区域多元空间关系模型的图像分类方法本,涉及图像特征提取及模式识别,包括以下步骤:一、对原始图像检测感兴趣区域;二、提取感兴趣区域ROI的底层视觉特征;三、提取词袋特征;四、获得感兴趣区域ROI的多元空间关系;五、多元空间关系特征提取;六对词袋特征和多元空间关系特征进行特征融合及特征选择;七、使用参数优化后的分类器和步骤六获得的特征来训练样本。本发明提取的特征由于充分利用了感兴趣区域空间信息,使得图像分类精度大幅度提高;多元空间关系特征比纹理、颜色等其他图像特征更具有鲁棒性,对于训练集以外的新图像能够有效提取其自身固有的关键信息,因此取得更好的识别效果。

著录项

  • 公开/公告号CN103678680A

    专利类型发明专利

  • 公开/公告日2014-03-26

    原文格式PDF

  • 申请/专利权人 吉林大学;

    申请/专利号CN201310728374.0

  • 发明设计人 王生生;刘东;谷方明;

    申请日2013-12-25

  • 分类号G06F17/30(20060101);G06K9/62(20060101);

  • 代理机构22201 长春吉大专利代理有限责任公司;

  • 代理人王寿珍;朱世林

  • 地址 130012 吉林省长春市前进大街2699号

  • 入库时间 2023-12-17 01:00:24

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-12-11

    未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20160914 终止日期:20171225 申请日:20131225

    专利权的终止

  • 2016-09-14

    授权

    授权

  • 2014-04-23

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20131225

    实质审查的生效

  • 2014-03-26

    公开

    公开

说明书

技术领域

本发明涉及图像特征提取及模式识别

背景技术

随着移动互联网技术的迅速发展和智能手机的普及,人们能够轻易地通过各种移动设 备上传图像,使得互联网上的图片数据量呈几何级增长。因此,对海量图像进行准确的分 类和理解,成为机器视觉领域亟待解决的问题之一。除了互联网应用,图像分类技术还可 以用于遥感、医学、农业和生物等领域。近年来,图像分类技术快速发展并得到广泛应用, 已成为机器视觉、模式识别等领域的热点之一。

目前图像分类的方法可归纳为三类:基于底层视觉特征的方法,基于结构模型的方法 和基于词袋(bag of word)模型的方法。基于底层视觉特征的方法,是指直接获取图像全局 或分块的形状、颜色和纹理等特征用于图像分类,该类方法计算较简单,但分类精度往往 不能令人满意,且单一的描述算子适用的图像类别有限。基于结构模型的方法主要通过分 割技术确定图像的不同组成部分,进而考虑不同组成部分之间的相互关系来进行图像分 类。这类方法优点在于其携带了一定的语义特征,但计算复杂度很高,且依赖前期图像分 割的实现效果。基于词袋模型的方法则首先对局部图像块(patch)进行特征提取,使用聚类 方法构建视觉词典,统计每幅图像出现视觉单词的频率作为分类的特征向量。该方法既保 留了图像的局部特性又有效地压缩了全局图像的描述,且计算简单,因此其应用最为广泛。 根据局部图像块的采样方式,又可将词袋模型分为基于区域划分和基于兴趣区域检测两 种。前者将原图像划分为若干个等比例的图像块作为待训练的视觉样本,这种采样方式简 单,但容易产生冗余的信息。后者借助兴趣点检测算子(interest point detector)对原图像进行 兴趣区域检测,获取的一系列感兴趣区域ROI(Region of Interest:感兴趣区域)能够稳定地 反应一些局部显现出来的特性,由此产生的视觉单词更具代表性,并且在一定程度上能够 抵抗位置信息变化带来的影响,在图象识别中可获取更高的精度。

虽然空间关系携带了有助于图像分类的大量语义信息,但现有的图像分类方法只有很 少一部分使用了空间关系,主要使用在基于结构模型中,空间关系谓词较为简单且种类单 一(比如只有方向关系)。通过深入的理论研究和实验验证,我们发现在基于感兴趣区域 的词袋模型方法中,如果引入感兴趣区域的空间关系,将会大大提高分类精度。我们通过 三个例子加以说明。图1所示的“高楼大厦”图像中,w1、w2、w3分别为标记窗户、楼 面、天空的兴趣区域,可以发现标记窗户的兴趣区域之间存在规律性的空间关系模式,相 比于底层视觉特征,这种空间关系模式更能反映图像的本质特征。在图2所示的“海岸” 的场景中,三类不同的兴趣区域w3、w4、w5分别标记天空,沙滩和海洋,而这三者存在 上中下的空间关系,具有一定的语义信息。再看存在视觉单词类别较多的“高速公路”场 景(如图3所示),对于轿车往往存在标记后车窗、车尾、地面阴影的三类兴趣区域w6、 w9、w8,而这三者也呈上中下的空间分布。此外,在该类场景中标记斑马线的视觉单词 w7之间的分布也呈现某种固定的空间关系模式,如直线排列状。由此可见,在基于兴趣区 域的词袋模型中,提取兴趣区域之间的空间关系特征,可以大大缩小与高层语义特征之间 的鸿沟,在不明显增加时间复杂度的前提下大幅度提高图像识别的精度。

但是从上述例子也不难发现,描述感兴趣区域间的空间关系也是较为复杂的工作,其 中涉及了拓扑、方向、距离等多元化的空间关系。为此,我们设计了面向图像分类的感兴 趣区域多元空间关系模型,进而应用于基于词袋模型的图像分类。

发明内容:

为解决现有图像分类技术存在的问题,如基于结构的方法过度依赖前期处理、基本词 袋模型缺乏空间信息等,本发明提出基于兴趣区域多元空间关系模型的图像分类方法,发 明内容主要包括:感兴趣区域多元空间关系模型,本图像分类方法的流程框架以及集成了 特征融合、特征选择和优化算法的分类器。

一种基于感兴趣区域多元空间关系模型的图像分类方法,至少包括以下步骤:

步骤一:对原始图像检测感兴趣区域

使用兴趣区域检测算子检测图像库中每幅图像的感兴趣区域ROI;

步骤二:提取感兴趣区域ROI的底层视觉特征

对检测到的感兴趣区域,使用底层视觉特征描述算子提取特征向量;

步骤三:提取词袋特征

使用聚类算法对ROI底层视觉特征向量进行聚类,所有的聚类中心构成词袋模型中的 视觉词典,用ROI聚类号作为其类别标签,并统计每幅图像出现视觉单词的频率作为分类 的词袋特征;

步骤四:获得感兴趣区域ROI的多元空间关系

分两种情况来提取ROI的多元空间关系MSRR:(1)若两区域相交,则用其拓扑关系 (交叠、包含、被包含)作为MSRR关系;(2)若两区域不相交,先根据尺寸和距离判断两 区域是否相关,对于相关的区域,则根据中心点方向角获得定性方向关系作为MSRR关系;

步骤五:多元空间关系特征提取

统计感兴趣区域间每种MSRR关系出现的频率作为多元空间关系特征;

步骤六:对词袋特征和多元空间关系特征进行特征融合及特征选择

对于每个样本,首先将分别提取的词袋特征和多元空间关系特征合并作为融合后的全 部特征向量;然后采用特征选择方法过滤掉与样本标签不相关的特征;

步骤七:使用参数优化后的分类器和步骤六获得的特征来训练样本,至少包括以下步 骤:

第1步:将粒子群初始化为MSRR参数和分类器参数随机值;

第2步:更新粒子速度、位置;

第3步:获得特征并训练分类器;

第4步:若分类精度达到预期或者迭代次数超过限制则退出,否则跳转至第2步。

所述的步骤一中兴趣区域检测算子采用最大稳定极值区域MESR方法。

所述的步骤二底层视觉特征描述算子采用颜色直方图、局部二值模式LBP和SIFT算 子分别提取颜色、纹理和尺度不变特征。

所述的步骤三中聚类方法使用K均值聚类算法。

所述的步骤六特征选择方法至少包括以下步骤:

(1)初始特征集合为全部词袋法特征;

(2)使用最小化冗余最大化相关MRMR方法对空间关系特征进行评估和搜索;

(3)每次选择最佳特征加入,直至特征数目得到预期要求。

有益效果:

与现有技术相比,采用本发明所述的设计方案,可以达到以下技术效果:

1、提取的特征由于充分利用了感兴趣区域空间信息,能够更为准确地反映图像的语 义特性,使得图像分类精度大幅度提高;

2、空间关系体现了更为稳定的结构特性(比如大厦窗子的整齐排列模式,汽车的车 体、车窗、车轮结构),多元空间关系特征比纹理、颜色等其他图像特征更具有鲁 棒性,对于训练集以外的新图像能够有效提取其自身固有的关键信息,因此取得 更好的识别效果。

附图说明:

图1表示“高楼大厦”场景图片检测出兴趣区域后的效果;

图2表示“海岸”场景图片检测出兴趣区域后的效果;

图3表示“高速公路”场景图片检测出兴趣区域后的效果;

图4表示本发明实施方式的流程图;

图5表示本发明中ROI的多元空间关系示意图。

具体实施方式:

下面通过上实施例进一步详细说明本发明:

有效描述感兴趣区域间的多元空间关系,是本发明待解决的核心问题。本发明提出一 种新的多元空间关系模型专门用于描述感兴趣区域空间关系,该模型综合了距离、拓扑和 方向等多元空间关系,能够准确描述兴趣区域间的空间关系。对相关的兴趣区域可以计算 多元空间关系,并统计兴趣区域之间的空间关系频率作为特征,用于后续的图像分类。

本发明的另一项内容是提出了在分类器中集成多项技术。具体包括:使用特征融合技 术融合了基本词袋模型特征和多元空间关系特征;由于特征数量较多,而且存在冗余,采 用了基于MRMR(Maximum Relevance Minimum Redundancy:最小化冗余最大化相关)的特 征选择;分类器和多元空间关系模型的参数设置对分类精度有着直接影响,采用群智能算 法对上述参数进行了优化。

图4是我们提出的图像分类方法的主要流程。首先从原始图片提取感兴趣区域,采用 MESR(Maximally Stable Extremal Region:最大稳定极值区域)方法提取椭圆形的感兴趣区 域ROI。其次,对ROI分别进行两路处理:第一路先基于SIFT等描述算子提取底层特征, 在此基础上进行聚类操作获取词袋特征;第二路,基于我们提出的MSRR(Multi spatial  relation of ROI:感兴趣区域多元空间关系)模型,首先获取ROI多元空间关系,进而提取空 间关系特征。第一路是传统方法,第二路是我们新提出的方法。然后,将两路特征融合在 一起,由于特征数量比较多,我们使用基于MRMR方法进行特征选择。最后,训练分类 器,并且对MSRR模型和分类器参数用群智能算法进行优化。

基于感兴趣区域多元空间关系模型的图像分类方法,至少包括以下步骤:

步骤一、检测感兴趣区域(ROI)

我们使用MESR(Maximally Stable Extremal Region:最大稳定极值区域)提取每幅图像 的ROI,这里的ROI为椭圆,可表示为e=(x,y,r1,r2,θ),其中(e.x,e.y)为e的中心坐标,e.r1和e.r2分别为椭圆长轴和短轴的长度,e.θ为椭圆长轴与x轴正方向的夹角。

步骤二、提取ROI的底层视觉特征

结合使用SIFT(Scale Invariant Feature Transform:尺度不变特征转换)、LBP(Local Binary  Pattern:局部二值模式)和COLOR(Color Histogram:颜色直方图)描述算子对兴趣区域 进行描述,获取特征向量。每个兴趣区域e的特征向量为F=[ws·fs(e),wl·fl(e),wk·fk(e)], 其中fs、fl和fk分别为SIFT、LBP和COLOR的特征提取函数,ws、wl和wk为相应权重。

步骤三、提取词袋特征

使用K均值聚类算法对ROI进行聚类,所有的聚类中心形成词袋模型中的视觉词典, 并为每个ROI添加聚类后的类别标签c(即标记单词属性),进而获取每幅图像的基本词袋 模型的直方图表示Fb。

步骤四、获得ROI多元空间关系MSRR

获得MSRR的主要步骤为:若两区域相交,则用其拓扑关系(交叠、包含、被包含)作 为MSRR关系;若两区域不相交,首先根据尺寸和距离判断两区域是否相关;若相关,则 根据中心点方向角获得定性方向关系作为MSRR关系。

椭圆感兴趣区域ROI可表示为e1=(c,x,y,r1,r2,θ)其中e1.c为e1的标签,(e1.x,e1.y)为e1中心坐标,e1.r1和e1.r2分别为椭圆长、短轴长度,e1.θ为椭圆长轴和x轴正方向夹角。由此, 建立感兴趣区域多元空间关系模型MSRR,感兴趣区域e1和e2之间的多元空间关系可表示 为MSRR(e1,e2)。由于两个感兴趣区域不可能完全重叠,因为这样就会被识别为同一个感 兴趣区域,因此e1≠e2,那么我们考虑如下两种情况:e1∩e2≠φ和e1∩e2=φ。

(a)对于e1∩e2≠φ,有如下三种情况:

若则MSRR(e1,e2)=PP;

若则MSRR(e1,e2)=PPI;

若且则MSRR(e1,e2)=PO。

(b)对于e1∩e2=φ,如果满足下述条件

|e1·r1+e1·r2-e2·r1-e2·r2|e1·r1+e1·r2+e2·r1+e2·r2>ϵ1or(e1·x-e2·x)2+(e1·y-e2·y)2>ϵ2(e1·r1+e1·r2+e2·r1+e2·r2)

则称这两个兴趣区域不相关,记MSRR(e1,e2)=NR。反之,则称该两个区域相关。其中第一 条件表示两区域尺寸差距过大,第二个条件表示两区域距离过远。ε1和ε2是区域相关判定 系数。

对于两个相关的不相交椭圆,e2和e1的中心显然不会重叠。我们以e2中心为原点,y 轴正方向,e2e1中心连线构成一个角α。为方便表示,若α取负值则等同于360+α,则

MSRR(e1,e2)=DIRk当且仅当

进而,在e1中心至e2中心画直线,建立k个扇形区域。如图5所示,图中粗线椭圆为e2, 并列举了几种e1可能分布的情况(如浅线椭圆),其中取NR关系的小椭圆是由于尺度差 异过大,大椭圆则是由于距离太远。

上述共列举了k+4种MSRR关系,对于同一幅图像中的任意两个椭圆感兴趣区域,可 以获得一种且只有一种MSRR关系。

步骤五、多元空间关系特征提取

统计感兴趣区域间每种MSRR关系出现的频率作为多元空间关系特征。

设DIS(x,r,j)为与感兴趣区域x具有MSRR关系R且标签为j的感兴趣区域的个数,即:

DIS(x,R,j)=CNT{y|MSRR(x,y)=R and y.c=j}

在一副图像中,设SD(i,R,j)代表标签为i和标签为j的感兴趣区域间出现R关系的频率,则 它可通过如下公式计算:

SD(i,R,j)=K1CPΣx,x.c=iDIS(x,R,j)

其中CP为图像中感兴趣区域的总数,K1为样本集中各图像感兴趣区域的平均数。这里我 们不考虑NR关系,若设方向关系参数为k,则共k+3种空间关系。若设样本集中感兴趣 区域标签共有NL类,则空间关系特征向量的长度为(k+3)NL2

步骤六、图像特征融合与特征选择

对于每个样本,首先将分别提取的词袋特征和多元空间关系特征合并作为融合后的全 部特征向量;然后采用MRMR方法过滤掉同样本标签不相关的特征。

若设样本集中感兴趣区域标签共有NL类,由步骤三获得的基本词袋模型的特征向量 Fb长度为NL,连接步骤五中的空间关系特征,则共有NL+(k+3)NL2个。由于特征数量比较 多,而且属于稀疏特征,因此我们用特征选择方法。本发明采用最小化冗余最大化相关 MRMR特征选择方法,这是一种基于过滤的特征选择方法,基于信息论方法对每个特征的 相关性和冗余性进行度量,并据此对特征的重要性进行排序,然后采用贪心策略的选择最 佳特征子集。

由于空间关系特征依赖于词袋法特征(兴趣区域的标签来自词袋特征),不能直接应用 MRMR方法。具体方法是,特征集不从空集开始搜索,初始集合为全部词袋法特征。之后 用MRMR方法对空间关系特征进行评估和搜索,每次选择最佳特征加入,直至特征数目 得到预期要求。

步骤七、使用参数优化后的分类器和步骤六获得的特征来训练样本

本发明的分类器首选支持向量机SVM(Support Vector Machine:支持向量机),根据具体 数据集需要也可以选择其他分类器。

对MSRR模型参数设置和分类器参数设置采用粒子群算法优化。MSRR模型参数包括 方向数k、相关判定系数ε1和ε2,SVM参数包括惩罚系数C和径向基核函数参数等。

优化的主要步骤为:

(a)初始化个体种群,参数为值域范围内的随机值;

(b)更新粒子速度、位置;

(c)对每个粒子,采用粒子的MSRR模型参数进行特征提取,进而进行特征选择,并 采用粒子的SVM参数进行SVM分类学习,把分类精度作为粒子的适应度;

(d)若分类精度达到预期或者迭代次数超过限制则退出,否则跳转至步骤(b)。

本发明的创新点在于:

(1)提出了专门针对感兴趣区域的多元空间关系模型。其中包括2个椭圆感兴趣区域 间拓扑、方向和距离空间关系的定性描述,以及从一幅图像中所有感兴趣区域获得固定长 度多元空间关系特征的方法。该多元空间关系特征,能够更为准确地反映图像的语义特性, 并且相比其他图像特征更具有鲁棒性。

(2)将感兴趣区域的词袋特征和多元空间关系特征组合,形成了新的图像特征提取方 法。由于组合后的特征维度高,很可能存在冗余特征,通过基于MRMR的特征选择方法, 在组合特征中选取关键的特征,以保证分类精度。

(3)分类器和多元空间关系模型的参数设置对分类精度有着直接影响,采用群智能算 法对上述参数进行了优化,以进一步提高分类精度。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号