首页> 中国专利> 一种图像主要目标的定位与识别方法

一种图像主要目标的定位与识别方法

摘要

本发明涉及一种图像主要目标定位与识别方法,属于数字图像处理领域。其具体操作步骤为:①从待识别图像中识别单体目标;②从待识别图像中识别关系目标;③确定候选主要目标区域;④从候选主要目标区域中确定主要目标。本发明提出的一种图像主要目标定位与识别方法,可以在待识别图像中快速识别图像主要目标,该方法适用于计算机快速自动发现、定位冗长视频中包含犯罪活动或犯罪分子的关键帧。

著录项

  • 公开/公告号CN103824067A

    专利类型发明专利

  • 公开/公告日2014-05-28

    原文格式PDF

  • 申请/专利权人 北京理工大学;

    申请/专利号CN201410100575.0

  • 发明设计人 李侃;白琳;徐琛;

    申请日2014-03-18

  • 分类号G06K9/00;G06K9/32;

  • 代理机构

  • 代理人

  • 地址 100081 北京市海淀区中关村南大街5号

  • 入库时间 2024-02-20 00:02:49

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-10-05

    授权

    授权

  • 2014-06-25

    实质审查的生效 IPC(主分类):G06K9/00 申请日:20140318

    实质审查的生效

  • 2014-05-28

    公开

    公开

说明书

技术领域

本发明涉及一种图像主要目标定位与识别方法,属于数字图像处理领 域。

背景技术

随着人工智能技术的不断发展,如何实现计算机自主认识周围环境、 模仿人类自主理解周围世界,已成为当前以及今后很长一段时间计算机、 人工智能技术的主要研究目标。实现计算机自主认识周围环境、自主理解 周围世界的关键环节——实现图像主要目标定位与识别。图像主要目标是 指处于原始图像中央区域内,处于较浅深度的目标。图像主要目标定位与 识别技术是目前图像处理研究领域的一个热点、难点,其具有很宽广的应 用前景。例如:在反恐维安等警方调查活动中,实现计算机自动发现、定 位犯罪份子等。随着监控视频探头的普及与应用,越来越成为辅助警方分 析犯罪活动,抓捕罪犯的有力帮手。由于监控视频拍摄的视频图像一般都 几个小时,甚至几天的时长,而犯罪活动一般只有短短的几分钟。想要从 冗长的视频录像中发现、定位犯罪活动的时间,分析犯罪过程,目前只能 完全依靠警员长时间的观看视频录像来确定。这不仅耗费了大量的人力, 而且花费时间也比较长,降低了第一时间抓捕罪犯的机率。

目前,图像主要目标定位与识别研究仍处于初期阶段。大部分的研究 工作仍处于单个目标的识别与定位,并不能有效的确认图像中的主要目标。

美国伊利诺伊州大学香槟分校的Pedro F.Felzenszwalb博士和他的团队 开创性的提出了轮廓模型(Deformable Part Model)较好的实现了图像中各 种目标的定位与识别。开启了图像目标识别研究领域的新时代,但是轮廓 模型并不能分析、定位图像的主要目标。

美国普林斯顿大学的Li.L.J博士和Fei-Fei.L博士的研究团队长期致力 于图像分割与目标识别的研究工作,在数字图像的场景识别与目标定位研 究中取得了很好的效果。他们通过构建联合概率模型,实现了计算机自动 定位与识别图像中的各种目标,实现各种目标的简单文字标注,但是没能 找出图像的主要目标。

美国卡内基.梅隆大学的A.Gupta教授领导的研究团队和美国伊利诺伊 州大学香槟分校的Ali Farhadi博士的研究团队以概率模型为基础,进行了 大量关于图像目标定位与识别的研究。A.Gupta教授领导的研究团队提出一 种基于贝叶斯方法的概率模型,通过计算各种类型的图像中不同目标出现 的概率,来提高图像中的各种目标定位与识别的准确性。Ali Farhadi博士的 研究团队通过采用改进的轮廓模型,提高图像中各种目标的定位与识别的 准确性。而且他们还开创性的提出了图像语言短语(Visual Phrases)来发 现图像中的各种目标之间的特定关系,并通过统计的方法试图找出图像中 的主要目标。

因此,需要设计一种更符合人类认知过程的、更加高效的计算机图像 识别方法,实现计算机快速自动发现、定位冗长视频中包含犯罪活动或犯 罪分子的关键帧。

发明内容

本发明的目的是为了提供一种图像主要目标的定位与识别方法,实现 计算机快速自动发现、定位冗长视频中包含犯罪活动或犯罪分子的关键帧。

本发明的目的是通过以下技术方案实现的。

一种图像主要目标的定位与识别方法,其具体操作步骤为:

步骤一、从待识别图像中识别单体目标,操作步骤包括:

步骤1.1:轮廓模型(Deformable Part Models)集合中包含单体轮廓模 型和关系轮廓模型。单体轮廓模型和关系轮廓模型均为m×n的矩阵模型, 其中,m、n∈(0,300),且m、n均为正整数。依次使用轮廓模型集合中的每个 单体轮廓模型对待识别图像进行步骤1.2的操作。

步骤1.2:使用当前单体轮廓模型,以逐像素的方法遍历待识别图像, 将完全匹配成功的像素区域,用正好能覆盖的矩形框标记出来。

经过步骤一的操作,可以得到待识别图像中的单体目标。

步骤二、从待识别图像中识别关系目标,操作步骤包括:

步骤2.1:依据搜索关键词,从轮廓模型集合中的关系模型子集中找到 含有关键词的关系模型。

步骤2.2:依次使用步骤2.1得到的关系轮廓模型对待识别图像进行步 骤2.3的操作。

步骤2.3:使用当前关系轮廓模型,以逐像素的方法遍历待识别图像, 将完全匹配成功的像素区域,用正好能覆盖的矩形框标记出来,得到关系 目标。

经过步骤二的操作,可以得到待识别图像中的关系目标。

步骤三、确定候选主要目标区域。

依次查看步骤二得到的每个关系目标是否包含步骤一得到的某个单体 目标,如包含,则将该关系目标设定为候选主要目标区域。候选主要目标 区域构成候选主要目标区域集合,用符号W表示,W={w1,w2,……,wr},其中, r为候选主要目标区域的数量,wi为候选主要目标区域,1≤i≤r。

步骤四、从候选主要目标区域中确定主要目标,操作步骤包括:

步骤4.1:对步骤三得到的候选主要目标区域集合W中的候选主要目标 区域wi依次进行步骤4.2至步骤4.5的操作。

步骤4.2:对候选主要目标区域wi使用17种不同的滤波器进行滤波, 提取34维特征向量。所述17种不同的滤波器为9种遮罩(Law’s Masks) 滤波器、2种颜色通道滤波器和6种纹理梯度滤波器。

所述对候选主要目标区域wi使用17种不同的滤波器进行滤波,提取34 维特征向量的具体方法是:通过公式(1)在两种不同的维度下,计算候选 主要目标区域和滤波器的卷积,获得34维的特征向量。

Ei=Σp=117Σ(x,y)|I(x,y)*Fp(x,y)|k---(1)

其中,Ei表示候选主要目标区域wi的34维特征向量;(x,y)表示候选主 要目标区域wi的第x行第y列的像素点;I(x,y)表示候选主要目标区域wi的 灰度值矩阵;Fp(x,y)表示17中滤波器中的第p个滤波器;k的取值为1、2, 分别表示两种不同的维度。

步骤4.3:将候选主要目标区域wi分割为K个大小为3×3像素的图像块, K是候选主要目标区域wi能够分成的图像块的个数。

步骤4.4:遍历候选主要目标区域wi中的3×3像素的图像块,用符号kj表 示当前3×3像素的图像块,将图像块kj扩展为3种不同分辨率的图像,非别 是原始分辨率图像、1/3原始分辨率图像和1/9原始分辨率图像。

步骤4.5:使用联合高斯马尔科夫随机场,求解公式(2)的最大似然 概率计算候选主要目标区域wi的绝对深度值。

P(d|X;θ,σ)=1Zexp(-Σj=1K(dj(1)-xjTθ)22σ12-Σs=13Σj=1KΣvNs(dj(s)-dv(s))22σ22)---(2)

其中,P(d|X;θ,σ)表示最大似然概率,也是候选主要目标区域wi在3 种分辨率下的最有可能处于的绝对深度值;Z是归一化参数;exp()表示e 的指数函数;K表示候选主要目标区域wi中3×3像素的图像块数量;dj(s)代 表图像块j在分辨率s中的相对深度,dj(s)的取值范围是(0,80),单位为米; s的取值为1或1/3或1/9;xj表示图像块j的绝对深度向量,xj的取值范围 是(0,80),单位为米;θ、σ1、σ2是模型参数;Ns代表在尺度s下与图像块j 相邻的四个图像块。

步骤4.6:设定阈值,将绝对深度值小于阈值的所有图像块标记为主要 目标区域,主要目标区域中的对象即为图像中的主要目标。

本发明提出的一种图像主要目标定位与识别方法,可以在待识别图像 中快速识别图像主要目标,该方法适用于计算机快速自动发现、定位冗长 视频中包含犯罪活动或犯罪分子的关键帧。

附图说明

图1为本发明具体实施方式中的待识别图像;

图2为本发明具体实施方式中的待识别图像中的单体目标;

其中,1-第一单体目标;2-第二单体目标;3-第三单体目标;4-第四 单体目标;

图3为本发明具体实施方式中的待识别图像中的关系目标;

其中,5-第一关系目标;6-第二关系目标;

图4为本发明具体实施方式中的待识别图像中的候选主要目标区域;

其中,7-第一候选主要目标区域;8-第二候选主要目标区域;

图5为本发明具体实施方式中的待识别图像中的主要目标区域。

其中,9-主要目标区域。

具体实施方式

为了更好的说明本发明的技术方案,下面通过1个实施例,对本发明 做进一步说明。

本实施例中待识别图像为一张监控视频拍摄的偷盗自行车图像,如图1 所示,从图1中识别主要目标的操作步骤如下:

步骤一、从待识别图像中识别单体目标,操作步骤包括:

步骤1.1:轮廓模型集合中包含单体轮廓模型和关系轮廓模型。单体轮 廓模型和关系轮廓模型均为m×n的矩阵模型,其中,m、n∈(0,300),且m、n 均为正整数。单体轮廓模型包括自行车轮廓模型、瓶子轮廓模型、人轮廓 模型、汽车轮廓模型、椅子轮廓模型、狗轮廓模型、马轮廓模型和沙发轮 廓模型。依次使用轮廓模型集合中的每个单体轮廓模型对待识别图像进行 步骤1.2的操作。

步骤1.2:使用当前单体轮廓模型,以逐像素的方法遍历待识别图像, 将完全匹配成功的像素区域,用正好能覆盖的矩形框标记出来。待识别图 像图1中识别出4个单体目标,如图2中的方框1至4所示。

步骤二、从待识别图像中识别关系目标,操作步骤包括:

步骤2.1:因为要查找盗车人的图像,因此搜索关键词设定为“人”和 “自行车”,依据搜索关键词,从轮廓模型集合中的关系模型子集中找到 含有关键词的关系模型。关系模型为“人和自行车”模型。

步骤2.2:依次使用步骤2.1得到的关系轮廓模型对待识别图像进行步 骤2.3的操作。

步骤2.3:使用当前关系轮廓模型,以逐像素的方法遍历待识别图像, 将完全匹配成功的像素区域,用正好能覆盖的矩形框标记出来,得到关系 目标,如图3中的方框5和方框6所示。

步骤三、确定候选主要目标区域。

依次查看步骤二得到的每个关系目标是否包含步骤一得到的某个单体 目标,如包含,则将该关系目标设定为候选主要目标区域。候选主要目标 区域构成候选主要目标区域集合W={w1,w2}。2个候选主要目标区域如图4 中的方框7和方框8所示,分别为第一候选主要目标区域和第二候选主要 目标区域。

步骤四、从候选主要目标区域中确定主要目标,操作步骤包括:

步骤4.1:对步骤三得到的候选主要目标区域集合W中的候选主要目标 区域wi依次进行步骤4.2至步骤4.5的操作。

步骤4.2:对候选主要目标区域wi使用9种遮罩(Law’s Masks)滤波器、 2种颜色通道滤波器和6种纹理梯度滤波器共17种滤波器进行滤波,提取 34维特征向量。

所述对候选主要目标区域wi使用17种不同的滤波器进行滤波,提取34 维特征向量的具体方法是:通过公式(1)在两种不同的维度下,计算候选 主要目标区域和滤波器的卷积,获得34维的特征向量。

步骤4.3:将候选主要目标区域wi分割为K个大小为3×3像素的图像块, K是候选主要目标区域wi能够分成的图像块的个数。

步骤4.4:遍历候选主要目标区域wi中的3×3像素的图像块,用符号kj表 示当前3×3像素的图像块,将图像块kj扩展为3种不同分辨率的图像,非别 是原始分辨率图像、1/3原始分辨率图像和1/9原始分辨率图像。

步骤4.5:使用联合高斯马尔科夫随机场,求解公式(2)的最大似然 概率计算候选主要目标区域wi的绝对深度值。

经过上述步骤的操作,得到第一候选主要目标区域的绝对深度值为5 米;第二候选主要目标区域的绝对深度值为1米。

步骤4.6:设定阈值为3米,将绝对深度值小于阈值的第二候选主要目 标区域标记为主要目标区域,主要目标区域中的对象即为图像中的主要目 标。

本发明的主要内容已通过上述优选实例作了详细介绍,应当认识到上 述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内 容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的 保护范围应由所附的权利要求来限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号