首页> 中国专利> 一种基于动态神经网络的视频去模糊方法

一种基于动态神经网络的视频去模糊方法

摘要

本发明提供了一种基于动态神经网络的视频去模糊方法。首先,对输入的视频数据集进行预处理,划分得到训练数据单元;然后,将训练数据单元输入动态神经网络进行训练,动态神经网络包含三个平行子结构,每一个子结构均为一个孪生结构模块,将包含有模糊退化问题的视频帧输入到动态神经网络,输出与之对应的清晰帧;最后,利用训练好的网络对测试集中的包含有模糊退化问题的视频帧进行处理,得到去模糊后的视频。本发明的动态神经网络模型能够随输入进行调整,有效地进行不稳定视频的去模糊处理。

著录项

  • 公开/公告号CN114820342A

    专利类型发明专利

  • 公开/公告日2022-07-29

    原文格式PDF

  • 申请/专利权人 西北工业大学;

    申请/专利号CN202210268181.0

  • 发明设计人 王琦;马欣;袁媛;

    申请日2022-03-17

  • 分类号G06T5/00(2006.01);G06N3/04(2006.01);G06N3/08(2006.01);

  • 代理机构西安凯多思知识产权代理事务所(普通合伙) 61290;

  • 代理人王鲜凯

  • 地址 710072 陕西省西安市友谊西路127号

  • 入库时间 2023-06-19 16:12:48

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-16

    实质审查的生效 IPC(主分类):G06T 5/00 专利申请号:2022102681810 申请日:20220317

    实质审查的生效

说明书

技术领域

本发明属图像处理技术领域,具体涉及一种基于动态神经网络的视频去模糊方法。

背景技术

随着便携设备成像的发展与普及,视频去模糊成为近年来备受关注的研究课题之一。区别于专业的视频成像设备,手机等便携设备的成像质量受到光学元件或者环境的影响,非常容易出现失焦、炫光和模糊等问题。其中,模糊是最为主要的影响图像质量的退化现象。图像去模糊方法主要分为三类:基于传统方法的去模糊方法、基于端到端神经网络的去模糊方法和基于动态神经网络的去模糊方法。

基于传统方法的去模糊方法主要是利用自然图像的统计信息,对模糊退化图像的图像内容进行修复,包括基于变分贝叶斯框架的方法和基于最大后验概率的方法。基于变分贝叶斯框架的方法通过求解退化图像与点扩散函数的联合后验概率,以及点扩散函数的边际最值,求解得到潜在的清晰图像,但是边际最值一般较难求得。基于最大后验概率的模型,通过建立一些自然图像的先验约束,具有很好的扩展性和灵活性。整体而言的传统方法虽然有很好的数学理论基础,但是面对现实的复杂场景仍然是很难处理的。

基于端到端神经网络的去模糊方法,直接依赖于构建的数据集,通过不断的迭代训练,模型可以学习到一般模糊图像到清晰图像的映射关系。在真实的数据集上应用,取得了较为显著的效果。但是这一类方法不关注模糊本身的属性与结构信息,所以模型的大小与效率限制了其应用。

基于动态神经网络的方法是指通过对模糊数据自身属性的鉴别与判断,自适应的进行网络结构或者参数的选择,避免出现所有的模糊图像依赖于同一组参数。主要方式是基于注意力机制进行图像去模糊或通过网路结构的自适应变化进行图像去模糊。但是,已有网络模型的自适应主要关注图像内部的不均匀模糊问题,不能很好的处理视频帧之间的稳定性问题,而便携设备在拍摄视频的过程中所面对的环境是复杂而不可控的,尤其是在时间维度的不可控导致明显的图像模糊不稳定问题。

发明内容

为了克服现有技术的不足,本发明提供一种基于动态神经网络的视频去模糊方法。首先,对输入的视频数据集进行预处理,划分得到训练数据单元;然后,将训练数据单元输入动态神经网络进行训练,动态神经网络包含三个平行子结构,每一个子结构均为一个孪生结构模块,将包含有模糊退化问题的视频帧输入到动态神经网络,输出与之对应的清晰帧;最后,利用训练好的网络对测试集中的包含有模糊退化问题的视频帧进行处理,得到去模糊后的视频。本发明的动态神经网络模型能够随输入进行调整,有效地进行不稳定视频的去模糊处理。

一种基于动态神经网络的视频去模糊方法,其特征在于步骤如下:

步骤1,数据集预处理:计算DeepVideoDeblurring数据集中每个模糊帧与对应的清晰帧之间的峰值信噪比PSNR,将PSNR值为0~25的模糊与清晰帧对归为重度模糊组,将PSNR值为25~30的模糊与清晰帧对归为中度模糊组,将PSNR值为30以上的模糊与清晰帧对归为轻度模糊组;以每个组内连续三个模糊帧和对应的三个清晰帧构成一个训练数据单元;

步骤2,动态神经网络训练:将训练数据单元输入动态神经网络进行训练,采用自适应梯度下降算法不断迭代优化神经网络参数,得到训练好的网络,将任意三帧模糊帧输入到动态神经网络,输出即为其中间帧对应的清晰帧;

所述的动态神经网络包含三个平行子结构,每一个子结构均为一个孪生结构模块,不同的子结构对应的网络深度不同,用于处理不同模糊程度的数据单元,网络深度最大的子结构处理重度模糊视频帧;孪生结构模块包含孪生网络A、孪生网络B和基于U-Net的去模糊模块,孪生网络A与孪生网络B共享权重,将训练数据单元中的第一个和第三个清晰帧输入到孪生网络A,通过损失函数约束学习得到第一帧、第三帧与中间帧的变换关系,再将训练数据单元中的第一个和第三个模糊帧输入到孪生网络B,孪生网络B共享孪生网络A学习得到权重,输出修正后的连续模糊帧;基于U-Net的去模糊模块对孪生网络B输出的修正后的连续模糊帧进行去模糊处理,得到去模糊后的中间帧;

动态神经网络的损失函数按下式计算:

E=E

其中,E表示网络的总损失,E

其中,M表示数据集中包含的视频帧对数量,N表示网络包含的孪生结构模块数量,S

步骤3,视频去模糊处理:将测试的模糊视频帧输入到步骤2训练好的动态神经网络,输出对应的清晰视频帧,即去模糊后的视频。

本发明的有益效果是:由于采用孪生结构,能够有效的提取临帧之间的运动信息,具有对稳定视频帧较好的去模糊效果;同时,基于视频流中模糊退化程度不稳定的视频帧序列,采用平行子结构的架构,能够对不稳定信息进行针对性的训练和学习,具有应对真实场景适应性强的能力。本发明的动态神经网络对去模糊数据集能够表现出较好的去模糊效果。

附图说明

图1是本发明的动态神经网络结构示意图;

图2是本发明孪生结构模块示意图;

图3是采用不同方法进行去模糊处理得到的结果对比图;

图中,(a)-输入原始模糊帧图像;(b)-EDVR方法结果图像;(c)-STFAN方法结果图像;(d)-DVD-SFE方法结果图像;(e)-本发明方法结果图像;(f)-原始模糊帧对应的清晰帧图像。

具体实施方式

下面结合附图和实施例对本发明进一步说明,本发明包括但不仅限于下述实施例。

本发明提供了一种基于动态神经网络的视频去模糊方法,其具体实现过程如下:

1、数据集预处理

计算DeepVideoDeblurring数据集中每个模糊帧与对应的清晰帧之间的峰值信噪比PSNR,将PSNR值为0~25的模糊与清晰帧对归为重度模糊组,将PSNR值为25~30的模糊与清晰帧对归为中度模糊组,将PSNR值为30以上的模糊与清晰帧对归为轻度模糊组;以每个组内连续三个模糊帧和对应的三个清晰帧构成一个训练数据单元。

DeepVideoDeblurring数据集记载在文献“S.Chen,D.Mauricio,W.Jue,S.Guillermo,H.Wolfgang and W.Oliver,“Deep Video Deblurring for Hand-heldCameras,”in Proc.IEEE Conference on Computer Vision and Pattern Recognition,pp.1279-1288,2017.”中。

2、动态神经网络训练

将训练数据单元输入动态神经网络进行训练,正向传播数据,采用自适应梯度下降算法不断迭代优化神经网络参数,得到训练好的网络。

本发明设计的动态神经网络包含三个平行子结构,每一个子结构均为一个孪生结构模块(EDC网络),不同的子结构对应的网络深度不同,用于处理不同模糊程度的数据单元。其中,每一层所包含的卷积层的数量越多,即表示该层网络的深度越深,用来处理模糊程度更重的视频帧的权重更大。将包含有模糊退化信息的视频帧输入到动态神经网络,输出与之对应的清晰的视频帧。网络结构示意图如图1所示。

孪生结构模块如图2所示,包含孪生网络A、孪生网络B和基于U-Net的去模糊模块,孪生网络A与孪生网络B共享权重,将训练数据单元中的第一个和第三个清晰帧输入到孪生网络A,通过损失函数约束学习得到第一帧、第三帧与中间帧的变换关系,再将训练数据单元中的第一个和第三个模糊帧输入到孪生网络B,孪生网络B共享孪生网络A学习得到权重,输出修正后的连续模糊帧;基于U-Net的去模糊模块对孪生网络B输出的修正后的连续模糊帧进行去模糊处理,得到去模糊后的中间帧。

表1给出了一层孪生网络的一种具体参数设计。由于孪生网络A和B网络共享权值,且结构相同,所以表中只展示每一层中孪生网络A的结构参数,其中,conv表示卷积层、relu表示非线性操作、downsample表示下采样层、upsample表示上采样层、inchan表示输入的通道数、outchan表示输出的通道数、kernel表示卷积的卷积核大小、stride表示卷积的步长、skip connection表示连接求均值。其中,每层后面所表示的第一个数字表示其所处的同一尺度相同的特征层(例如con1_2表示第一个尺度相同的特征层的第二个卷积层)。

表1

按照网络结构的组成,本发明设计了一个联合的损失函数,包括三部分:

E=E

其中,E表示网络的总损失,E

其中,M表示数据集中包含的视频帧对数量,N表示平行的EDC网络数量(即网络包含的孪生结构模块数量),S

3、视频去模糊处理

将测试的模糊视频帧输入到步骤2训练好的动态神经网络,输出对应的清晰视频帧,得到去模糊后的视频。

图3给出了采用不同方法对DeepVideoDeblurring数据集中的测试集进行去模糊处理得到的结果图像,其中,INPUT表示输入的模糊视频帧图像,EDVR表示增强的可变形卷积网络进行视频修复模型(文献“W.Tao,C.CK,Y.Ke,D.Chao,and C.Chen,“Edvr:VideoRestoration with Enhanced Deformable Convolutional Networks,”in Proc.IEEE/CVFConference on Computer Vision and Pattern,pp.0-0,2019.”)、STFAN表示用于视频去模糊化的时空滤波自适应网络(文献“Z.Chen,Z.Wei,P.Shan,X.Zhe,Z.Meng and R.Jimmy,“Spatio-temporal Filter Adaptive Network for Video Deblurring,”in Proc.IEEE/CVF Conference on Computer Vision and Pattern,pp.2482-2491,2019.”)、DVD-SFE表示利用范例的锐度特征进行深度视频去模糊模型(文献“X.Guang,W.Hao and P.Shan,“Deep Video Deblurring Using Sharpness Features from Exemplars,”IEEETransactions on Image Processing,vol.29,pp.8976-8987,2020.”)。可以看出,与已有的方法相比,采用本发明方法处理的图像的边缘信息和纹理信息都有明显的提升。

表2给出了采用不同方法对DeepVideoDeblurring数据集中的测试集进行去模糊处理后计算得到的峰值信噪比(PSNR)指标值。

表2

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号