法律状态公告日
法律状态信息
法律状态
2014-07-23
未缴年费专利权终止 IPC(主分类):H04N7/26 授权公告日:20091111 终止日期:20130529 申请日:20070529
专利权的终止
2012-11-21
专利权的转移 IPC(主分类):H04N7/26 变更前: 变更后: 登记生效日:20121019 申请日:20070529
专利申请权、专利权的转移
2009-11-11
授权
授权
2009-01-28
实质审查的生效
实质审查的生效
2008-12-03
公开
公开
技术领域
本发明涉及视频分析与检测领域,特别涉及一种基于故事情节发展模型分析的电影动作场景检测方法。
背景技术
随着当今数字媒体和网络的飞速发展,人们可以足不出户地在家享受各种多媒体信息。如今世界上电影工业已经成为视频制作的一股活跃力量,每年大概有4500部新电影出现。因此,如何对这些海量信息进行有效的分析、管理、查询和检索,成为目前亟待解决的问题。
在电影中,由于动作场景通常具有强烈的戏剧冲突和激烈的视觉效果,因此是电影编辑的重点,也是观众最感兴趣的场景。要对电影中的动作场景进行检测需要借助电影内容分析的方法。目前的电影内容分析方法主要分两种:
1、通过分析电影编辑规则提取视频/音频等低层特征来检测特定语义事件;
2、通过分析人类注意力变化因素来提取视频/音频等低层特征检测特定语义事件。
早期的基于内容的视频分析的主要工作是视频结构化和相似片段检索,而视频数据主要为新闻,体育等结构比较规则的视频。但是由于视觉和听觉低层特征与人类高级语义之间的“语义鸿沟”,这种视频分析和检索方式并不能满足人类需求。随着对视频语义分析研究的深入以及在新闻、体育等具有规则结构的视频中的应用,研究人员将更多的注意力放在电影语义事件检索上。但是电影视频是一种高度的艺术表达方式,具有复杂的故事情节和潜在的编辑模式,现有方法对特定语义描述的不全面性造成了语义事件检测准确率较低,导致未能全面反映电影故事情节发展的本身。
总而言之,目前主要存在两个关键的因素制约电影中语义事件检测的准确性和鲁棒性:
1、对电影编辑技术和人类注意力模型的深入理解,挖掘视频/音频等低层特征来表征这些因素;
2、综合客观的电影编辑方式和主观的观众感知两方面因素,建立合理的模型来表征故事情节的发展。
发明内容
本发明的目的是克服现有的电影内容分析方法单纯从电影编辑手法或人类感知角度关注电影语义事件,对语义事件检测准确率低的缺陷,从而提供一种融合电影编辑手法和人类感知两个角度,可实现对电影动作场景检测的电影内容分析方法,具有较高准确性和鲁棒性,有利于电影编辑人员对电影的编辑和观众对电影中感兴趣场景的选择。
为了实现上述目的,本发明提供了一种基于故事情节发展模型分析的电影动作场景检测方法,按照以下步骤顺序执行:
步骤10)、从原始视频提取视频帧,对视频帧做预处理操作,通过预处理操作得到镜头、镜头中的关键帧、场景、视频图像的宏块运动矢量;
步骤20)、计算各个镜头内所包含视频帧的个数,从而获得镜头长度;
步骤30)、利用步骤10)得到的宏块运动矢量,计算镜头的平均运动强度;
步骤40)、利用步骤20)所得到的镜头长度和步骤30)所得到的镜头平均运动强度计算电影编辑因子;
步骤50)、从原始视频提取音频帧,计算每个音频帧的短时音频能量,并通过计算镜头内短时音频能量的均值计算镜头的平均音频能量;
步骤60)、计算镜头的平均运动分散度;
步骤70)、利用步骤50)得到的镜头平均音频能量和步骤60)得到的镜头平均运动分散度,计算人类感知因子;
步骤80)、根据步骤40)得到的电影编辑因子和步骤70)得到的人类感知因子,建立故事情节发展模型,并按照时间顺序生成故事情节发展流图;
步骤90)、根据步骤80)得到的故事情节发展流图检测电影中的动作场景。
上述技术方案中,在所述的步骤30)中,计算镜头的平均运动强度具体包括以下步骤:
步骤31)、计算镜头内所有P帧中宏块的运动矢量的能量;
步骤32)、建立一个模板,为图像中的前景宏块和背景宏块赋予不同的权值;
步骤33)、根据步骤32)中为宏块所赋予的权值,计算镜头中每个P帧的运动强度;
步骤34)、将镜头中所有P帧的运动强度之和除以镜头中的P帧个数,得到镜头的平均运动强度。
在所述的步骤31)中,求P帧中宏块运动矢量能量的计算公式为:
其中,i,j表示宏块所处的位置。
所述的步骤32)具体包括以下操作:
步骤32-1)、将P帧图像的左右边缘作为图像的背景部分,计算背景中运动矢量能量的均值,得到P帧的背景运动强度;
步骤32-2)、计算镜头中所有P帧背景运动强度的均值μ和方差σ,根据计算的结果得到所述模板的阈值Th,该阈值的计算公式如下:
Th=μ+a*σ
其中,a为一个经验值,取值为3;
步骤32-3)、通过步骤32-2)所得到的阈值Th,建立模板,在模板中为图像中的不同宏块赋予不同的权值,所述模板为:
其中weight(xi,j,yi,j)为模板中赋予对应宏块的权值。
在所述的步骤33)中,计算P帧的运动强度是指:将P帧各个宏块的运动矢量能量与其对应的权值的乘积的总和作为该P帧的运动强度,所述运动强度的计算公式为:
其中,M和N分别表示水平和垂直方向的宏块数。
上述技术方案中,在所述的步骤40)中,在计算电影编辑因子之前,将所述的镜头长度和所述的镜头平均运动强度做归一化处理。
上述技术方案中,所述的电影编辑因子的计算是将镜头长度与α的乘积加上镜头平均强度与β的乘积,所述的α与β的值为0.5。
所述的步骤60)的具体操作如下:
步骤61)、计算步骤32)所建立模板中权值为“2”的宏块的运动矢量的方向;
步骤62)、将二维平面分为[-90,0),[0,90),[90,180),[180,270)四个子空间,计算每帧图像的四维方向直方图,每一维用H[i](i=1,2,3,4)表示;
步骤63)、计算每一帧的运动分散度,帧的运动分散度用MD表示,它的计算公式为:
步骤64)、根据步骤63)的计算结果,求镜头的平均运动分散度,镜头平均运动分散度用MDAVE表示,则它的计算公式为:
其中,Q表示每个镜头内P帧个数。
上述技术方案中,在所述的步骤70)中,在计算所述的人类感知因子前,将所述的镜头平均音频能量和所述的镜头平均运动分散度做归一化处理。
上述技术方案中,所述的人类感知因子的计算是将镜头平均音频能量与γ的乘积加上镜头平均运动分散度与λ的乘积,其中,所述的γ与λ值都为0.5。
上述技术方案中,所述的步骤80)包括以下步骤:
步骤81)、对所述的电影编辑因子和所述的人类感知因子做线性融合,建立故事情节发展模型,所述的故事情节发展模型是将所述的电影编辑因子与φ的乘积加上所述的人类感知因子与ψ的乘积,其中,所述的φ和ψ的值为0.5。
步骤82)、将步骤81)所建立的故事情节发展模型随镜头号n连续变化,形成故事情节发展流图。
用高斯模板平滑所述的故事情节发展流图。
所述高斯模板的系数为:窗口大小为9,标准差为1.5。
上述技术方案中,所述的步骤90)包括:首先根据步骤10)的视频预处理所得到的场景信息,统计一个场景中故事情节发展流图值超过第一阈值的个数N;然后判断所述的N是否大于第二阈值,若大于,则该场景为动作场景,否则,该场景为非动作场景。
所述的第一域值为镜头的故事情节发展流图的值中所有局部峰值最大值的三分之一,所述的第二阈值为2。
本发明的优点在于从电影编辑手法和人类感知两个角度综合考虑视觉和听觉因素,建立了故事情节发展模型,从而模拟情节发展变化,实现了电影中动作场景的准确检测。
附图说明
图1为本发明的基于故事情节发展模型分析的电影动作场景检测方法的流程图;
图2为本发明实施例中建立模板时对图像背景部分的示意图;
图3(a)为故事情节发展流图的示意图;
图3(b)为经过高斯平滑后的故事情节发展流图的示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细描述:
如图1所示,本发明的基于故事情节发展模型分析的电影动作场景检测方法具体包括以下步骤:
步骤10、对电影视频做预处理操作。在完整的电影视频中,包括用于表征图像的视频帧和用于表征声音的音频帧,在本步骤中,主要是对电影视频中的视频帧部分进行预处理。预处理操作具体包括以下步骤:
步骤11、实现对镜头的分割,本发明中的镜头是指视频中具有相似内容的连续的视频帧;
步骤12、提取镜头中的关键帧,关键帧是镜头中最能体现镜头特征的视频帧,在一个镜头中包含有至少一个关键帧;
步骤13、实现对电影场景的分割,电影场景是具有相似内容的连续几个镜头的组合;
步骤14、提取视频图像中的宏块运动矢量。
上述步骤11到步骤14中对视频的预处理操作都属于成熟的现有技术,在参考文献1《Yueting Zhuang,Yong Rui,Thomas S.Huang et al.Adaptive key frameextraction using unsupervised clustering.Image Processing,ICIP 1998和Zeeshan Rasheed,Mubarak Shah.Detection and Representation of Scenes inVideos.IEEE Transaction on Multimedia,Vol7,NO.6,December,2005》中有对步骤11-13的详细说明。而步骤14可通过从MPEG视频压缩域中提取运动矢量实现。
步骤20、计算各个镜头内所包含视频帧的个数,从而获得镜头长度信息。
步骤30、计算镜头的平均运动强度,镜头平均运动强度的计算方法如下:
步骤31、计算镜头内所有P帧中宏块的运动矢量的能量,在MPEG视频压缩域中,P帧是用于前向预测的帧,求P帧中宏块运动矢量能量的计算公式如下:
其中,i,j表示宏块所处的位置。
步骤32、建立一个模板,对前景宏块和背景宏块赋予不同权值,它的实现方法如下:
步骤32-1、计算每个P帧的背景运动强度,如图2所示,在图中的阴影部分视为一个P帧的背景部分,用F表示,则计算背景运动强度就是计算阴影区域F中运动矢量能量的均值,用BEMVAVE(Pk)表示,它的计算公式如下:
步骤32-2、计算视频中所有P帧背景运动强度的均值μ和方差σ,根据计算的结果得到模板的阈值,该阈值的计算公式如下:
Th=μ+a*σ
其中,a为一个经验值,取值为3。
步骤32-3、通过步骤32-2所得到的阈值Th,建立如下模板:
其中weight(xi,j,yi,j)为模板中赋予对应宏块的权值。
步骤33、根据步骤32中为宏块所赋予的权值,计算镜头中每个P帧的运动强度,假设某一P帧为镜头中第W个P帧,则它的运动强度的计算公式为:
其中,M和N分别表示水平和垂直方向的宏块数。
步骤34、根据步骤33的计算结果,计算镜头的平均运动强度。计算镜头的平均运动强度时就是镜头中所有P帧的运动强度之和除以镜头中的P帧个数。其计算公式如下:
其中,Q表示每个镜头内P帧个数。
步骤40、将步骤20所得到的镜头长度和步骤30所得到的镜头平均运动强度分别做归一化处理,然后根据归一化后的两个特征建立电影编辑因子。用s(n)表示镜头长度,用m(n)表示镜头平均运动强度,用n表示帧号,用P1(n)表示电影编辑因子,则该因子的计算公式如下:
P1(n)=α*s(n)+β*m(n)
α=β=0.5
所得到的电影编辑因子表示了电影编辑技术对电影动作场景检测的影响。
步骤50、从电影视频中提取音频帧,计算每个音频帧的短时音频能量,并通过计算镜头内短时音频能量的均值计算镜头平均音频能量。
本步骤中的短时音频能量是指每个音频短时帧所有样点的能量总和,它的计算方法在参考文献2《Bai Liang;Hu Yaali,Feature analysis and extraction for audioautomatic classification,Proc.of IEEE International Conference on Systems,Man andCybernetics,vol.1,pp:767-772,2005.》中有详细记载。
步骤60、计算镜头平均运动分散度,镜头平均运动分散度用来表示该镜头视觉内容变化的平均复杂度。对镜头平均运动分散度的计算包括以下具体实现:
步骤61、计算步骤32所建立模板中权值为“2”的宏块的运动矢量的方向,它的计算公式如下:
其中的θ表示运动矢量的方向。
步骤62、将二维平面分为[-90,0),[0,90),[90,180),[180,270)四个子空间,计算每帧图像的四维方向直方图,每一维用H[i](i=1,2,3,4)表示。计算四维方向直方图就是计算角度在各个子空间内的运动矢量的个数与运动矢量总数的比例。
步骤63、计算每一帧的运动分散度,帧的运动分散度用MD表示,它的计算公式如下所示:
步骤64、根据步骤63的计算结果,求镜头的平均运动分散度,镜头平均运动分散度用MDAVE表示,则它的计算公式如下:
其中,Q表示每个镜头内P帧个数。
步骤70、将步骤50得到的镜头平均音频能量和步骤60得到的镜头平均运动分散度分别做归一化操作,然后根据归一化后的两个特征建立人类感知因子。用a(n)表示镜头平均音频能量,用d(n)表示镜头平均运动分散度,用n表示镜头号,用P2(n)表示人类感知因子,则人类感知因子的计算公式如下:
P2(n)=γ*a(n)+λ*d(n)
γ=λ=0.5
所得到的人类感知因子表示了人类注意力对电影动作场景检测的影响。
步骤80、根据步骤40得到的电影编辑因子和步骤70得到的人类感知因子,建立故事情节发展模型。故事情节发展模型可以用来表征视频中各结构单元包含内容的重要性及对人类吸引力的强度。建立故事情节发展模型的具体实现步骤如下:
步骤81、对电影编辑因子和人类感知因子做线性融合,建立故事情节发展模型,其计算公式如下:
M(n)=φ*P1(n)+ψ*P2(n)
φ=ψ=0.5
步骤82、所建立的故事情节发展模型随着镜头号n的连续变化,形成故事情节发展流图。故事情节发展流图反映了整个视频中不同镜头的重要性,它将整个视频不同单元的重要性按时间顺序进行比较,体现不同镜头的重要性差异,表现了故事情节的发展变化。图3(a)就是一个故事情节发展流图的实例。
步骤83、用高斯模板平滑故事情节发展流图,其中高斯模板的系数为:窗口大小为9,标准差为1.5。图3(b)是图3(a)经过高斯平滑后的故事情节发展流图。
步骤90、检测电影中的动作场景。在检测电影中的动作场景时,首先根据视频预处理中场景分割信息,统计一个场景中故事情节发展流图M(n)值超过阈值Th1的个数N;然后判断N大于阈值Th2,则该场景为动作场景;否则,为非动作场景。其中Th1和Th2由实验确定,在本实施例中,Th1为各个镜头M(n)值中所有局部峰值最大值的三分之一;Th1的值为2。
机译: 基于二维和三维场景分析的入侵检测方法
机译: 一种基于球面的智能家居场景高效检测方法
机译: 一种基于场景需求的不良行为检测方法