首页> 中国专利> 一种图像视频场景内容的保角映射稀疏表达方法

一种图像视频场景内容的保角映射稀疏表达方法

摘要

本发明提供一种图像视频场景内容的保角映射稀疏表达方法,包括如下步骤:一、输入原始图像或视频并在特征空间中进行采样;二、计算每个样本的K近邻并建立局部完全邻接图,计算相邻样本之间的距离;三、根据保角映射规则,将其与稀疏表达方法相结合,学习具有保角性质的字典;四、利用此字典对原始图像或视频进行重构。本发明通过引入保角映射规则,最大限度地保持了相邻样本之间的角度信息,得到表达能力更强的字典。同时,保角映射促使相邻样本用相似的字典进行重构,使字典更加简洁紧凑。它在图像处理、计算机视觉和增强现实技术领域里具有广阔的应用前景。

著录项

  • 公开/公告号CN104966276A

    专利类型发明专利

  • 公开/公告日2015-10-07

    原文格式PDF

  • 申请/专利权人 北京航空航天大学;

    申请/专利号CN201510337089.5

  • 申请日2015-06-17

  • 分类号

  • 代理机构北京科迪生专利代理有限责任公司;

  • 代理人杨学明

  • 地址 100191 北京市海淀区学院路37号

  • 入库时间 2023-12-18 11:19:06

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-10-20

    授权

    授权

  • 2015-11-11

    实质审查的生效 IPC(主分类):G06T5/00 申请日:20150617

    实质审查的生效

  • 2015-10-07

    公开

    公开

说明书

技术领域

本发明涉及图像处理、计算机视觉和增强现实技术领域,具体地说是一种图像视频场景 内容的保角映射稀疏表达方法。

背景技术

近些年来,稀疏表达和字典学习技术作为一个研究热点已得到大量关注,并广泛应用于 图像处理和计算机视觉领域,例如图像超分辨率、图像去噪、分类和颜色编辑等。稀疏表达 技术是将信号用过完备字典中样本的线型组合来重构,并限制重构样本的个数以达到稀疏性 质。

目前,很多科研工作者致力于稀疏表达方法的研究,而字典在稀疏表达技术中起到非常 重要的作用。Michal Aharon等人在2006年提出了K-SVD字典学习方法并应用于图像处理。 Honglak Lee等人在2006年提出了一种快速稀疏编码方法,加快了求解速度。Mairal等人在 2009年提出了基于随机逼近的在线字典学习方法,该方法可以有效处理大数据集。这些方法 的重点在于稀疏表达的求解方法及运行效率。这些方法专注于字典的重构能力,但需要依赖 于大量的训练样本。并且,这些方法的字典个数需要手动设置,不能自动调整大小,使得到 的字典冗余。另一些稀疏表达方法在字典的紧密度和表达性方面取得一定成果。例如,Qiu 等人在2011年提出了基于最大互信息的动作属性字典学习方法;Siyahjani等人在2013年提出 了上下文感知字典并用于图像对象的识别和定位。这些字典学习方法加入了类别间的差异 性,但没有考虑数据空间中的局部关系以及上下文信息,导致字典的表达能力低下。而一些 研究表明,保持数据内部之间的局部结构关系可以在数据重构时增强保真度,避免失真情况 的发生。

稀疏表达技术越来越多地应用于图像处理和计算机视觉领域。例如,Elad等人将K-SVD 方法用于图像去噪;Yang等人在2010年提出了用稀疏表达方法同时学习出高分辨率和低分辨 率两个字典的方法,并用于图像超分辨率;Chen等人在2014年提出利用稀疏表达技术进行编 辑传播的理论,可以处理超高分辨率的图像视频并极大降低了计算内存。另外,稀疏表达技 术还可以应用于人脸识别、图像恢复、图像分类等方面。而上述应用的处理过程中,生成视 觉保真度更高的结果仍然是稀疏表达技术研究的重点。

发明内容

为了克服上述现有技术的不足,本发明提出了一种图像视频场景内容的保角映射稀疏表 达方法,该方法通过引入保角映射,最大限度地保持了相邻样本之间的局部角度信息,并得 到表达能力更强的字典。同时,保角映射促使相邻样本用相似的字典进行重构,使字典更加 简洁紧凑。最终,使图像编辑后的重构结果更好地保持原有局部结构,增强生成结果的视觉 效果和真实感。

为完成发明目的,本发明采用的技术方案是:

本发明一种图像视频场景内容的保角映射稀疏表达方法,其具体步骤如下:

步骤一:输入原始图像或视频并在特征空间中进行采样;

步骤二:在特征空间中,计算每个样本的K近邻并建立局部完全邻接图,然后计算相邻 样本之间的距离;

步骤三:根据保角映射规则,将其与稀疏表达方法相结合,学习具有保角性质的字典;

步骤四:针对具体应用,利用此字典对原始图像或视频进行重构,得到结果。

其中,在步骤二中所述的“局部完全邻接图”,是指对于某样本和它的K近邻所构成的集 合中,任意两个样本之间都是相连的。

其中,在步骤三中所述的“保角映射规则”,是一种流形学习方法,具体描述为:给定特 征空间M到另一特征空间N的映射g:M→N,(xi,xj,xk)是特征空间M中相邻的样本点并 构成三角形,(αijk)是这些样本点在特征空间N中的映射。根据保角映射规则需满足:

minΣj,kNi(||xj-xk||2-si||αj-αk||2)2,

其中,Ni表示样本xi的K近邻集合,si表示映射的尺度变换。

其中,在步骤三中所述的与稀疏表达方法相结合学习具有保角性质的字典,具体步骤为: 将保角映射规则与稀疏表达算法结合,得到如下能量公式:

minD,α,SΣi||xi-i||22+λ1Σi||α||1+λ2ΣiΣj,kNi(||xj-xk||2-si||αj-αk||2)2,

其中,x为输入样本特征,D为特征字典,α为重构系数,λ1、λ2为权重系数,通过迭代算 法最小化此能量公式,最终求得具有保角性质的字典D。

其中,此方法可以应用于图像超分辨率、视频图像颜色编辑、图像去噪等视频图像编辑 应用。

本发明与现有的技术相比,其有益的特点是:

1、在稀疏表达技术基础上,通过引入保角映射规则,最大限度地保持了相邻样本之间 的局部角度信息,得到表达能力更强的字典;通过保角映射,促使相邻样本用相似的字典进 行重构,使字典更加简洁紧凑。

2、受益于更加简洁以及表达能力更强的字典,本发明使图像编辑后的重构结果更好地 保持原有局部结构,增强生成结果的视觉效果和真实感。

3、本发明提出的方法可以应用于很多领域且效果显著,包括:图像超分辨率、视频图 像颜色编辑、图像去噪等。

附图说明

图1是本发明所述方法流程图;

图2是本发明的原理示意图;

图3是本发明的字典学习整体算法流程图;

图中符号说明如下:

D:在特定特征空间下学习的字典;

A:重构系数;

S:尺度变换系数;

xi,xj,xk:输入的样本点,即图像视频的样本特征;

αijk:映射到另一空间的样本点,即稀疏的重构系数。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图,对本发明的方法 作详细解释说明。应当理解,此处所描述的具体实例仅仅用以解释本发明,并不用于限定本 发明。

本发明提出一种图像视频场景内容的保角映射稀疏表达方法,此方法通过引入保角映射 规则,最大限度地保持了相邻样本之间的局部角度信息,得到更加简洁并且表达能力更强的 字典;使用此方法生成的字典进行视频图像编辑,其重构结果能更好地保持原有局部结构, 增强生成结果的视觉效果和真实感。同时,将该方法应用到三个典型应用,包括图像超分辨 率、视频图像颜色编辑、图像去噪。

本发明一种图像视频场景内容的保角映射稀疏表达方法,流程如图1所示,具体实施方 式如下:

步骤一:输入原始图像或视频并在特征空间中进行采样。

对输入的原始图像或视频进行采样,得到输入样本集X。根据不用的应用需求选取不同 的特征空间。例如,针对图像超分辨率应用,将图像从RGB颜色空间转换到Ycbcr颜色空 间,在patch级别上对图像的亮度通道Y进行采样。针对颜色编辑应用,在像素级别上对 RGB颜色特征进行采样;针对图像去噪应用,在patch级别上对灰度特征或RGB颜色特征 进行采样。

步骤二:在特征空间中,计算每个样本的K近邻并建立局部完全邻接图,然后计算相邻 样本之间的距离。

首先用Kd-tree方法在特征空间中计算每个样本xi的K近邻,计算时使用的是欧式距离, 在样本xi及其K个近邻样本组成的集合中,连接每两个样本构成局部完全邻接图;在特征空 间中计算连接样本之间的欧式距离。

步骤三:根据保角映射规则,将其与稀疏表达方法相结合,学习具有保角性质的字典。

给定输入样本集X=[x1,x2,…,xN],利用稀疏表达方法,可以求得过完备字典D,以及 重构系数α:

minD,αΣi||xi-i||22+λΣi||αi||1.

为了改善稀疏表达方法的性能,本发明引入了输入数据的局部结构信息,在上述公式的基础 上增加了保角项f(α)。

保角映射在流形学习领域已经被证明是可以提高流形学习效果的。具体方法为:给定特 征空间M到另一特征空间N的映射g:M→N,(xi,xj,xk)是特征空间M中相邻的样本点并 构成三角形,(αijk)是这些样本点在特征空间N中的映射,如图2所示。根据保角映射 规则需满足:

minΣj,kNi(||xj-xk||2-si||αj-αk||2)2,

其中,Ni表示样本xi的K近邻集合,si表示映射后的尺度变换。

然后,将保角映射规则与稀疏表达算法结合,得到如下能量公式:

minD,α,SΣi||xi-i||22+λ1Σi||α||1+λ2ΣiΣj,kNi(||xj-xk||2-si||αj-αk||2)2,

其中,x为输入样本特征,D为特征字典,α为重构系数,λ1、λ2为权重系数。通过迭代算 法最小化此能量公式,最终求得具有保角性质的字典D。

上述公式共有三个待求变量(D,α,S),其中D为待求字典,α为稀疏重构系数,S为尺 度变换。因此本发明将其分解为三个子问题:稀疏编码,字典更新,尺度更新。在每个子问 题求解时,只优化一个变量而固定其它两个变量。此三个步骤不断循环迭代直到得到最优解。

首先,需要初始化变量D和S的值为随机矩阵。在稀疏编码阶段,固定D和S的值,通 过如下公式求解系数α:

J(A)=argminαΣi||xi-i||22+λ1Σi||αi||1+λ2ΣiΣj,kNi(||xj-xk||2-si||αj-αk||2)2.

在这里,本发明使用迭代投影法求解此公式。

然后,在字典更新阶段,固定α和S的值来求解D,求解公式为:

J(D)=argminDΣi||xi-i||22.

这里要求字典中的每一项dj为单位向量,即满足此公式为二次规划问题,可以逐 项更新字典中的每一项。

最后,在尺度更新阶段,固定D和α来求解S,求解公式为:

J(S)=argminSΣiΣj,kNi(||xj-xk||2-si||αj-αk||2)2.

注意到上述公式中的每个si都是独立的,因此可以通过最小二乘法分别求解。求解方法为:

si=Σj,kNi||xj-xk||2·||αj-αk||2Σj,kNi(||αj-αk||2)2.

通过此三个过程的不断迭代优化,最终求得最优解。算法流程图见图3。

步骤四:利用此字典对原始图像或视频进行重构,得到结果。

本发明给出三种不同的应用来验证此方法的性能,包括图像超分辨率、视频图像颜色编 辑、图像去噪。

图像超分辨率应用是将低分辨率的图像重构为高分辨率的图像。首先建立一一对应的高 分辨率图像和低分辨率图像库,利用上述字典学习方法同时从库中学习两个字典。当输入一 个低分辨率的图像时,利用低分辨率字典进行重构求得系数,然后利用系数和高分辨率字典 重构出对应的高分辨率图像。

视频图像颜色编辑应用是通过交互方式改变视频图像的颜色信息。输入视频图像后,首 先学习出其颜色字典,当用户通过画笔在图像对象上标记颜色时,字典中对应的颜色会改变 为用户标记的颜色,同时这种改变会传播到整个视频图像,得到最终颜色编辑结果。

图像去噪应用是过滤掉图像上的高斯噪声。输入一张带噪声的图像,首先采集8*8大小 的图像块,并以此为数据学习出字典。然后利用匹配追踪方法重构图像,得到噪声过滤后的 图像。

利用本发明求得的字典具有良好的表达能力和重构能力,同时字典也更加简洁。通过和 传统方法的比较能证明这一点。例如传统字典学习方法K-SVD,求得的字典大小为256个, 本发明可以将其减少为205个,并且表达能力更强。可以通过字典内部的相关系数来表示此 字典的表达能力,系数越小表达能力越强。传统稀疏表达方法求得的字典的相关系数为 0.8817,而本发明引入保角映射后,相关系数减小为0.8477,说明本发明学习得到的字典具 有更强的学习能力。

以上所述仅为本发明的一些基本说明,依据本发明的技术方案所做的任何等效变换,均 应属于本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号