首页> 中国专利> 基于运动特征的H.264压缩域实时视频对象分割方法

基于运动特征的H.264压缩域实时视频对象分割方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及一种基于运动特征的H.264压缩域实时视频对象分割方法。本方法是：在对运动矢量场进行空域归一化后，再对归一化的运动矢量场进行加权中值滤波，然后基于运动矢量场的幅度、散度和旋度三个运动特征，采用改进的统计区域生长方法按照运动特征相似性将其分割成多个对象。经MPEG－4测试序列的实验结果表明，在一台CPU为双核2.0GHz，内存为900M的计算机上处理CIF格式的视频序列，平均每帧的处理时间为15ms，足以满足大多数实时应用30fps的要求，而且具有良好的分割质量。鉴于本发明提出的方法仅使用了运动矢量场信息，因此它也可适用于光流场的运动对象分割。

著录项

公开/公告号CN101237581A

专利类型发明专利
公开/公告日2008-08-06

原文格式PDF
申请/专利权人上海大学;
展开▼

申请/专利号CN200810034100.0
发明设计人张兆杨;陆宇;刘志;
展开▼

申请日2008-02-29
分类号
代理机构上海上大专利事务所;
代理人何文欣
地址 200444 上海市宝山区上大路99号
入库时间 2023-12-17 20:32:26

法律信息

法律状态公告日

法律状态信息

法律状态
2016-04-13

未缴年费专利权终止 IPC(主分类):H04N7/26 授权公告日:20101117 终止日期:20150229 申请日:20080229

专利权的终止
2010-11-17

授权

授权
2008-10-01

实质审查的生效

实质审查的生效
2008-08-06

公开

公开

说明书

技术领域

本发明涉及到一种基于H.264压缩域的视频对象实时分割方法，压缩域分割可免除对压缩视频的完全解码，仅通过熵解码提取出的运动矢量用作分割所需的运动特征。此外，与现有方法截然不同的是，本方法采用基于运动矢量场的幅度、散度和旋度三个运动特征，再结合改进的统计区域生长方法将视频序列中的不同对象进行分割，可比现有的基于H.264压缩域的视频对象分割方法计算量进一步降低。由于该方法只使用了运动矢量场信息，因此它同样可适用于基于光流场的运动对象分割。

背景技术

以前的视频对象分割的研究大多集中在象素域，近年来基于压缩域的运动对象分割开始受人关注。这不仅是因为当前的大多数视频序列已经压缩为某种格式，直接在此压缩域内进行运动对象分割，可免除对压缩视频进行完全解码；而且，在压缩域内处理的数据量要比象素域少很多，可使计算量显著减少；加之，从压缩视频中仅通过熵解码提取出的运动矢量和DCT系数，可直接用作分割所需的运动特征和纹理特征。因此，从压缩域分割运动对象具有快速的特点，可解决传统的象素域分割方法难于满足实时性分割的要求，从而可解决以往象素域分割因分割速度过慢而不能解决很多有实时性要求的应用场合。

随着越来越多的应用都以新的编码标准H.264取代MPEG-2，因此压缩域的分割也开始从MPEG压缩域转向H.264压缩域。由于H.264压缩域中I帧的DCT系数是在块的空间预测残差上进行变换的，不能直接用作分割的纹理特征。因此，运动矢量是在H.264压缩域进行视频对象分割唯一可直接使用的特征。目前在H.264压缩域，Zeng等首先提出一种基于块的MRF模型从稀疏运动矢量场中分割运动对象的方法，根据各个块运动矢量的幅值赋予各个块不同类型的标记，通过最大化MRF的后验概率标记出属于运动对象的块。但是，这种方法分割的准确度不高，计算量也较大。Liu等提出了基于匹配矩阵的运动对象实时分割方法，首先通过运动矢量后向投影得到累积的运动矢量场，然后对累积运动矢量场进行全局运动补偿，同时采用快速的统计区域生长方法按照运动相似性将其分割成多个区域。利用上述两方面结果，采用基于匹配矩阵的运动对象分割方法分割出运动对象。但是在这个方法中，有两个方面的问题仍然未能很好的解决。一是未能采用有效的滤波方法将奇异的运动矢量滤除，同时保留运动矢量场的主要细节信息；二是未能充分利用运动矢量场的特征来分割视频运动对象。

发明内容

本发明的目的在于针对已有技术存在的缺陷，提供一种基于运动特征的H.264压缩域实时视频对象分割方法，分割所用的唯一信息是从H.264压缩视频中提取出的基于4×4块均匀采样的运动矢量场。本方法比此前的H.264压缩域视频对象分割方法在计算量上更为减少，以充分达到实时运动对象分割的目的。

为达到上述的目的，本发明的构思是：

如图1所示，从输入的H.264压缩视频流提取运动矢量并归一化，然后进行加权中值滤波去除奇异的运动矢量。基于运动矢量场的三个运动特征幅度、散度和旋度，采用改进的统计区域生长方法将运动对象分割出来。

基于上述构思，本发明的技术方案是：

一种基于运动特征的H.264压缩域实时视频对象分割方法，其特征在于对运动矢量场进行空域归一化，获得归一化运动矢量场；再对归一化的运动矢量场进行加权中值滤波，去除奇异的运动矢量。然后基于运动矢量场的幅度、散度和旋度三个运动特征，采用改进的统计区域生长方法按照运动特征的相似性将其分割成多个对象。其步骤是：

a.运动矢量场归一化：从H.264视频中提取出运动矢量场并进行空域上的归一化；

b.加权中值滤波：将滤波窗口内的所有运动矢量乘以加权系数，再对这些运动矢量进行中值滤波；

c.基于运动矢量场幅度、散度和旋度的对象分割：基于幅度、散度和旋度三个运动特征，采用改进的统计区域生长方法将滤波后的运动矢量场分割成多个具有相似运动特征的对象。

上述中的运动矢量场归一化的步骤是：

将凡尺寸大于4×4的各个宏块运动矢量直接赋给该宏块所覆盖的所有4×4块，实现空域归一化。

上述中的加权中值滤波的步骤是：

(1)计算N×N窗口内所有运动矢量的平均运动矢量；

(2)计算N×N窗口内每个运动矢量与平均运动矢量的相关系数，并以此作为加权系数；

(3)将N×N窗口内的所有运动矢量乘以加权系数，再进行中值滤波。

上述中的基于运动矢量场幅度、散度和旋度的对象分割的步骤是：

基于幅度、散度和旋度三个运动特征，采用改进的统计区域生长方法将滤波后的运动矢量场分割成多个具有相似运动特征的对象，详细步骤如下：

(1)计算运动矢量场的三个运动特征：幅度M、散度D和旋度C，即{M，D，C}；

(2)将{M，D，C}映射到红R、绿G、蓝B颜色空间，即{R，G，B}颜色空间；

(3)计算以四邻域连接的相邻块组的运动特征差异性度量；

(4)按照运动特征差异性度量从小到大的次序进行排序；

(5)将运动特征差异性度量最小的相邻块组合并，以此处开始区域生长过程。在每次区域生长时，当前两个块组分别属于相邻的两个区域，是否将这两个区域进行合并的判断准则是这两个区域的平均运动特征之差是否小于两个区域的边界函数之和。若是，则合并；若否，则不合并；

(6)将面积小于整个运动矢量场0.5％的区域合并到其相邻的区域；

(7)以分割结果直方图中运动矢量最小的区域对应的灰度值作为阈值将分割结果二值化，得到运动对象的掩模。

本发明与现有技术相比较，具有如下的突出特点和优点：本发明不仅适用于H.264压缩域，同样适用于光流场的分割。本发明提出的基于运动特征的实时视频对象分割方法，将运动矢量场的主要特征作为分割要素，这有别于其它分割方法将运动矢量场分解为两个标量场处理，从而提高了分割的准确度，分割效果较好。本方法的处理速度达到每帧15ms，比现有的所有方法都快速，足以满足大多数实时处理的要求，因此具有很强的实用性。

附图说明

图1是本发明的基于运动特征的H.264压缩域实时视频对象分割方法的程序框图。

图2是图1中加权中值滤波的结构框图。

图3是图1中基于运动矢量场幅度、散度和旋度的对象分割的结构框图。

图4是对序列Erik中各个典型帧(第18、31、45帧)运动对象分割结果的图示。

图5是对序列Children中各个典型帧(第32、42、62帧)运动对象分割结果的图示。

具体实施方式

本发明的一个实施例子结合附图详述如下：

本发明基于运动特征的H.264压缩域实时视频对象分割方法是按图1所示程序框图，在CPU为双核2.0GHz、内存900M的PC测试平台上编程实现，图4和图5给出了仿真测试结果。

参见图1，本发明基于运动特征的H.264压缩域实时视频对象分割方法，首先对运动矢量场进行空域归一化，再对归一化的运动矢量场进行加权中值滤波，然后基于运动矢量场的幅度、散度和旋度三个运动特征，采用改进的统计区域生长方法按照运动特征相似性将其分割成多个对象。本发明提出的方法具有算法简单，对象分割速度快，分割效果好的特点。

其步骤是：

(1)运动矢量场归一化：从H.264视频中提取出运动矢量场并进行空域上归一化；

(2)加权中值滤波：将滤波窗口内的所有运动矢量乘以加权系数，再对这些运动矢量进行中值滤波；

(3)基于运动矢量场幅度、散度和旋度的对象分割：基于幅度、散度和旋度三个运动特征，采用改进的统计区域生长方法将滤波后的运动矢量场分割成多个具有相似运动特征的对象。

上述步骤(1)的运动矢量场归一化的过程如下：

将凡尺寸大于4×4的各个宏块运动矢量直接赋给该宏块所覆盖的所有4×4块，实现空域归一化。

上述步骤(2)的加权中值滤波的过程如下：

①计算3×3窗口内所有运动矢量的平均运动矢量；

②计算3×3窗口内每个运动矢量与平均运动矢量的相关系数，并以此作为加权系数；

③将3×3窗口内的所有运动矢量乘以加权系数，再进行中值滤波。

上述步骤(3)的基于运动矢量场幅度、散度和旋度的对象分割的过程如下：

①计算运动矢量场的三个运动特征：幅度、散度和旋度，即{M，D，C}；

②将{M，D，C}映射到{R，G，B}颜色空间；

③计算以四邻域连接的相邻块组的运动特征差异性度量；

④按照运动特征差异性度量从小到大的次序排序；

若小于则合并，否则不合并；

⑥将面积小于整个运动矢量场0.5％的区域合并到其相邻的区域；

⑦以分割结果直方图中运动矢量最小的区域对应的灰度值作为阈值将分割结果二值化，得到运动对象的掩模。

下面对本实施例子结合总框图(图1)的三个步骤给予进一步详细说明：

(1)运动矢量场归一化：

将凡尺寸大于4×4的各个宏块运动矢量直接赋给该宏块所覆盖的所有4×4块，实现空域归一化。

(2)加权中值滤波：

如图2所示，对运动矢量场进行加权中值滤波首先要计算出加权系数，然后各个运动矢量乘以加权系数，再进行中值滤波。

①计算3×3窗口内的所有运动矢量的平均运动矢量：

$\vec{V_{m}} = \frac{1}{3 \times 3} Σ_{i = 1}^{3 \times 3} {\vec{V}}_{i}$

②计算3×3窗口内每个运动矢量与平均运动矢量的相关系数，并以此作为加权系数：

$w_{i} = \frac{| {\vec{V}}_{i} \cdot \vec{V_{m}} |}{| | {\vec{V}}_{i} | | | | \vec{V_{m}} | |}$

③将3×3窗口内的所有运动矢量乘以加权系数，再进行中值滤波：

${\vec{V}}_{c} = \underset{3 \times 3}{med} {w_{i} {\vec{V}}_{i}}$

(3)基于运动矢量场幅度、散度和旋度的对象分割：

如图3所示，基于幅度、散度和旋度三个运动特征，采用改进的统计区域生长方法实现对滤波后的运动矢量场的对象分割。步骤详述如下：

①计算运动矢量场的三个运动特征：幅度，散度和旋度，即{M，D，C}

M＝|V_x|+|V_y|

$D = \frac{\partial V_{x}}{\partial x} + \frac{{\partial V}_{y}}{\partial y}$

$C = \frac{{\partial V}_{y}}{\partial x} - \frac{{\partial V}_{x}}{\partial y}$

其中， ${\frac{{\partial V}_{x}}{\partial x}, \frac{{\partial V}_{x}}{\partial y}, \frac{{\partial V}_{y}}{\partial x}, \frac{{\partial V}_{y}}{\partial y}}$ 由Sobel算子计算；

②将{M，D，C}映射到{R，G，B}颜色空间，就是将{M，D，C}的取值范围映射到以0～255为亮度阶的{R，G，B}颜色空间；

③计算以四邻域连接的相邻块组的运动特征差异性度量；

④按照运动特征差异性度量从小到大的次序进行排序；

⑤将运动特征差异性度量最小的相邻块组合并，以此处开始区域生长过程。在每次区域生长时，当前两个块组分别属于相邻的两个区域，是否将这两个区域进行合并的判断准则是这两个区域的平均运动特征之差是否小于两个区域的边界函数之和： $| \overline{R_{a}^{p}} - \overline{R_{b}^{p}} | < δ (R_{a}) + δ (R_{b}),$ p∈{M，D，C}，其中边界函数δ(·)定义为： $δ (R) = L \sqrt{\frac{1}{2 Q | R |} (\min (L, | R |) \log (1 + | R |) + 2 \log 6 | I |)},$ 其中Q表示量化参数，用来控制运动矢量场的分割程度，L表示亮度阶，|R|表示区域包含的运动矢量数目，|I|表示图像帧运动矢量场的大小。若小于则合并，否则不合并；

⑥将面积小于整个运动矢量场0.5％的区域合并到其相邻的区域；

⑦以分割结果直方图中运动矢量最小的区域对应的灰度值作为阈值将分割结果二值化，得到运动对象的掩模。

以下给出输入视频格式为352×288的CIF时的实例，采用JM8.6版本的H.264编码器对MPEG-4标准测试序列进行编码，作为测试用的H.264压缩视频。H.264编码器的配置如下：Baseline Profile，IPPP，每30帧插入1个I帧，1个参考帧，运动估计的搜索范围为[-16，16]，量化参数为30。

采用典型的标准测试序列Erik和Children作为输入视频进行测试，实验结果分别如图4和图5所示。两图中第1列为当前帧的原始图象，第2列为当前帧由基于运动特征分割所得的对象分割结果，第3列为将对象分割结果作为掩模叠加到原始图像而得到的结果。从图4和图5的第三列可以直观的看出分割的效果，采用本发明提出的分割方法能够将运动物体从场景中分割出来，而且很好的描述了物体的基本形状特征。在分割实验中，平均每帧的处理时间为15ms，足以满足大多数实时应用30fps的要求。

实验1：序列Erik为典型的头肩序列，序列中人物的头部和身体均有明显的运动。图4第1行(序列第18帧)为人物自右向左移动，图4第2行(序列第31帧)为人物自左向右移动，图4第3行(序列第45帧)为人物的头部自右向左快速移动。由图4第3列图象可以看出，对运动矢量场的分割结果能够比较准确地分割出运动对象所在的区域，而且分割的物体边缘能够比较好的描述原始图像中人物的边缘，从而反映出原始图像中人物的主要形状特征。因此本发明采取的对运动矢量场的加权中值滤波以及基于运动特征的分割方法是有效的，能够利用运动矢量信息获得一个适度分割的结果。

实验2：序列Children具有更复杂的运动，除了两个儿童的各种平移运动和其它不规则运动外，还有皮球的抛物线运动。而且在该序列中，皮球时而停止，时而独自运动，时而被儿童抱住一起运动，因此运动对象分割的难度很大。图5第1行(序列第32帧)场景中两个儿童无显著的运动，但是皮球在作抛物线的运动，在分割结果中较好的将运动中的皮球分割出来。图5第2行(序列第42帧)场景中儿童蹲下来要捡皮球，但是还没有接触到皮球，在分割结果中很好的将儿童分割出来，未将皮球包括在分割结果中。由图5第3行(序列第62帧)还可以看出此时儿童已经抱住皮球准备拿起来，在分割结果中较好的将皮球与儿童都分割出来。图5的分割结果说明本发明的运动对象分割方法能够很好的处理运动对象的分离和结合，再次证明本发明提出的方法适用于具有复杂运动特征的视频序列的对象分割。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于运动特征的H.264压缩域实时视频对象分割方法 [P] . 中国专利： CN101237581B . 2010.11.17
2. 基于H.264压缩域运动对象实时分割方法 [P] . 中国专利： CN100486336C . 2009.05.06
3. THE SCREEN RECOGNIZING/ TRACKING/ SECURING DEVICE FOR A MEGA PIXEL HIGH LUCID AND INTELLIGENT TYPE, THEREOF ITS ADMINISTRATION METHOD THE COMPACTION/ STORAGE/ TRANSMISSION BY THE CODEC H.264 WITH THE METHOD OF FARAWAY CONTROL GUI DESIGN BUILD ON BOTH WAY IN REAL TIME [P] . 韩国专利： KR20080085126A . 2008-09-23

机译：巨型像素高智能类型的屏幕识别/跟踪/维护设备，其管理方法是通过CODEC H.264的压缩/存储/传输以及基于双向实时构建的Faraway Control GUI设计的方法进行的
4. METHOD FOR ERROR DETECTION USING THE DATA HIDING OF MOTION VECTOR BASED ON THE RDO FOR H.264/AVC BASELINE PROFILE [P] . 韩国专利： KR20130067508A . 2013-06-25

机译： H.264 / AVC基线特征的基于RDO的运动矢量数据隐藏错误检测方法
5. Moving image compression-coding device, method of compression-coding moving image, and H.264 moving image compression-coding device [P] . 美国专利： US8520742B2 . 2013-08-27

机译：运动图像压缩编码装置，运动图像压缩编码方法和H.264运动图像压缩编码装置