首页> 中国专利> 一种基于语义不一致性检测的图像盲修复方法

一种基于语义不一致性检测的图像盲修复方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于语义不一致性检测的图像盲修复方法，该方法包含：将带有噪声污染的图像进行预处理后作为输入；经过环形残差块组建的掩膜预测网络放大污染区域与背景的语义差异，粗糙地定位污染图像中的退化区域；再利用不同类别区域间的纹理相似性，通过掩膜细化网络获取精细的预测掩膜；将损坏图像与预测掩膜联合输入图像修复网络，基于掩膜置信度考量迭代地利用有效区域的信息补全损坏区域的内容；同时在不同尺度使用上下文注意力聚合模块提高结构的一致性；将多重特征信息融合再解码还原成图像，从而实现了退化图像的盲修复。本发明能够准确地检测出真实损坏图像中的噪声污染，满足了对各种退化图像的鲁棒修复。

著录项

公开/公告号CN114897738A

专利类型发明专利
公开/公告日2022-08-12

原文格式PDF
申请/专利权人中国石油大学（华东）;
展开▼

申请/专利号CN202210574618.3
发明设计人李昕;王志宽;刘航源;孙百乐;
展开▼

申请日2022-05-25
分类号G06T5/00(2006.01);G06T3/40(2006.01);G06N3/04(2006.01);G06N3/08(2006.01);
代理机构
代理人
地址 266580 山东省青岛市黄岛区长江西路66号
入库时间 2023-06-19 16:22:17

法律信息

法律状态公告日

法律状态信息

法律状态
2022-08-30

实质审查的生效 IPC(主分类):G06T 5/00 专利申请号:2022105746183 申请日:20220525

实质审查的生效

说明书

技术领域

本发明属于计算机图形与图像处理领域，涉及一种基于语义不一致性检测的图像盲修复方法。

背景技术

随着计算机技术和多媒体技术的发展，数字图像成为重要的信息载体。随着时间推移和一些不可抗力因素，照片的保存过程可能面临各种各样的退化，比如墨痕污染、折痕破损、发霉褪色等；另外记录时刻也可能产生意外，如拍照时抢镜、相机镜头有污渍等。以上种种会以极大的影响图像内容的表达。因此补全图像内容、提高图像质量的图像修复技术近年来发展迅速，并广泛应用于图像编辑、目标移除、生物医学图像处理和刑侦等领域。图像修复技术经过多年的发展已取得了诸多重要的研究成果，目前广泛应用的处理手段如Photoshop的修补工具等就是应用传统的修复方法，利用图像信息的冗余性，用已知区域的像素填充损坏区域。这类方法能够产生较好地修补具有重复纹理的场景图像，但由于缺乏对图像语义的理解，不能产生新的内容。

作为计算机视觉方向的一大研究热点，近年来研究学者们尝试将深度学习方法引入图像修复领域，虽然这些模型能够通过提供的有效像素推断出缺失的内容，但这些方法都假定图像中的空白内容作为损坏区域，并明确需要提供一张二值化的掩膜进行标定。这些方法能够很好的训练模型推断缺失区域的内容，然而现实生活中的损坏图像往往退化模式和位置区域是未知的，事先很难提供准确的掩膜指导待修复区域，这极大限制了以上方法在真实场景中的推广。因此，如何仅凭借损坏图像识别出图像中的损坏内容并进行修复成为了一个亟待解决的难题。

发明内容

本发明为了克服上述缺陷，提出了一种基于语义不一致性检测的图像盲修复方法，本发明具体步骤如下：

S1，输入一张损坏的图像I

S2，通过多层残差块构建掩膜预测网络，生成定位损坏区域的单通道粗糙预测软掩膜

S3，将S2中得到的粗糙的预测掩膜与损坏图像再次输入掩膜细化网络，通过强化学习提高边界等区域的预测精度，得到精细的损坏区域预测掩膜

S4，将S3中得到的精细预测掩膜作为先验信息，与损坏图像一同输入共享编码器，按照掩膜指导提取有效像素的特征并向损坏区域传播；

S5，将编码器网络提取得到的深层特征图输入多任务并行解码分支，经过多层卷积块推测缺失区域内容，并利用上下文信息保证全局语义一致性；

S6，将S5中不同分支提取的特征融合，经解码器网络解码，恢复成图像；

S7，利用S3中的精细预测掩膜，截取S6结果中损坏区域位置的像素与损坏图像中的有效像素拼接，输出最终修复图像。

本发明的技术方案特征和改进为：

对于步骤S1，本发明首先对损坏图像进行了定义，不同于现有研究中简单的使用空白像素表示待修复区域，本发明认为损坏图像应由干净的有效像素和不同类型的退化和污染像素组成。由于目前没有专门用于盲修复研究的数据集，本发明首先按照上述思想合成批量训练数据用于模型训练，数学表达如下：

式(1)中，I

优选地，在所述步骤S1中，为了使污染噪声与原图像融合更加自然，本发明中使用一个平滑高斯函数来做平滑处理，公式表示如下：

I＝I

式(2)中，I表示平滑处理过的损坏图像，I

对于步骤S2，本发明使用改良的环形残差卷积块做特征提取器，通过放大有效像素区域和污染区域之间的差异，比较图像不同区域间的固有属性进而定位出损坏区域。其中，本发明使用的环形残差块包含三个步骤，其设计来自于人脑的回忆和巩固机制，通过残差在CNN中的传播和反馈过程来实现。第一阶段为正向的残差传播，通过回忆输入特征信息来解决更深层次网络中的梯度退化问题，公式定义可表示为：

式(3)中x表示输入特征图，y

为了进一步加强损坏内容与有效内容属性之间的差异性，第二阶段使用残差反馈对输入特征信息进行整合。通过使用一个简单的门控机制来学习可辨别特征通道之间的非线性关系，避免特征信息的扩散，再经过激活函数将响应值叠加到输入特征上，放大噪声区域和有效区域的图像本质属性差异，公式定义如下：

式(4)中x是残差映射特征，y

对于步骤S3，本发明引入注意力机制来细化粗预测掩膜，通过在整幅图像上对相似纹理进行关注，提升轮廓等细节处的识别结果。具体而言，如果预测为损坏的低置信度区域与高置信度区域共享相似的纹理，则应该修改低置信度区域。为此，需要从高置信度区域提取损坏内容的关键特征，用来作为该类的全局视觉特征。本发明对粗预测掩膜计算余弦相似度作为新的偏置，再经过Softmax降低预测区域的得分图，降低得分之后依然保持高亮的区域则可以被认为特征足够显著，因此可以选择这些区域提取关键特征作为损坏区域的全局特征，计算公式如下：

CosSim(x′

式(5)中，CosSim(·)表示改良的余弦相似度计算函数，x′

优选地，在所述步骤S3中，本发明利用预测权重矩阵x′

其中i表示预测类别。将关键特征v

对于步骤S4，本发明引入门控卷积机制改良残差卷积块，通过学习的方式识别损坏区域，动态地选取图像中有效像素内容，从而使卷积结果仅取决于有效像素，代替传统的残差卷积结构进行有效区域的特征提取和整合。其中门控卷积的输出计算为：

Gating

Feature

式(7)中，I表示输入特征，W

优选地，在所述步骤S4中，为了避免预测掩膜的错误积累影响图像修复结果，本发明在改良残差块的最后使用了一种新的概率上下文归一化(PCN)进行统计信息转移，将有效像素区域的均值和方差等统计信息向损坏区域传播，确保孔内外区域的特征的分布一致，公示表示如下：

式(8)中，X表示门控残差块中最后一层卷积的输出，H表示将预测掩膜

式(9)中,X

对于步骤S5，本发明使用多尺度的上下文注意力聚合分支获取图像上下文信息，其中上下文相似度计算余弦相似度衡量缺失区域内外patch之间的相似度，为要补全区域的patch寻找有效区域内相似度最高的内容，分配以更高的参考权重，使得补全内容在语义和纹理上与上下文保持一致。相似度度量公式如下：

式(10)中，p

其中，N表示有效区域划分的patch数目。经过计算，缺失区域内的每个patch寻找到了有效像素内更值得着重关注的区域，将在之后的特征融合中赋予更高的参考权重。

优选地，在所述步骤S5中，为了减少计算量并提高推理速度，本发明使用上下文信息转移的方式将计算所得的patch间注意力相似度得分进行传播，具体来说本发明在网络深层尺寸为32×32的特征图上计算一次相似度得分，之后使用上下文注意力转移将注意力得分传播到不同尺度的较低层进行特征的加权，方式如下：

式(12)中，l表示不同的网络浅层，

本发明的基于不语义一致性检测的图像盲修复方法，解决了现有技术不能解决真实场景中多种退化模式的损坏图像修复及标定掩膜难以直接获取的问题，具有以下优点：

(1)本发明的方法分析并设计一个端到端的网络模型，与现有的修复方法研究相比不需要提供实现标定损坏区域的掩膜，自动识别图像中的污染和损坏区域，并修复获得语义一致、视觉完整的结果，修复真实图像中损坏各种损坏模式，具有鲁棒性和真实性。

(2)本发明的方法能够便捷的扩展到图像处理的其他研究领域，比如目标移除、高光去除、图像去雨去雾等，就有良好的迁移性和应用性。

附图说明

图1为本发明中基于语义不一致性检测的图像盲修复的流程图。

图2为本发明中预测掩膜细化模块的结构示意图。

图3为本发明中概率上下文内容聚合卷积块的结构示意图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明。

一种基于语义不一致性检测的图像盲修复方法，如图1所示，为本发明的基于语义不一致性检测的图像盲修复方法的流程图，该方法包含：

S1，数据预处理，读取一张带有噪声污染的损坏图像I

S2，损坏区域粗预测，将处理好的退化图像输入由六层环形残差块构建的粗糙掩膜预测网络，其整体结构是一个编解码器网络，通过卷积整合图像上下文信息学习图像固有属性，经残差传播与残差回馈的环形结构交替计算，放大有效像素区域与损坏区域间的差异，生成单通道的粗糙损坏区域预测掩膜

式(13)中，T是自适应权重，p∈{p|M

S3，预测掩膜细化，将S2生成的粗糙预测掩膜与损坏图像输入掩膜细化网络，如图2所示，首先经过一个简单编码器提取图像特征，计算预测为不同类别的像素间的余弦相似度，紧接一个softmax函数将值限制在[0,1]之间，其中数值越接近1表示该区域预测类别越不可信，经此筛选出高置信度的损坏区域关键特征作为Key，按照注意力机制的查询方式遍历整体图像特征Query获取全局注意力权重，最后经过反卷积整合更新后的特征信息并还原图像，得到细节轮廓更清晰准确的细化预测掩膜

S4，内容特征提取，将损坏图像输入编码器，为了避免预测掩膜错误积累带来的影响，同时将预测细化掩膜缩放至与特征图同尺寸后输入编码器每一层，以指导有效像素信息的提取及向损坏区域的传递。编码器由四层本发明新设计的门控残差卷积块组成，其结构如图3所示，将两个不同任务的标准卷积层的输出的逐元素相乘，其中一层后跟leayrelu函数，另一层后跟一个sigmoid函数，以一种可学习的方式从输入中自动学习更新软掩膜，限制卷积操作只在有效像素区域进行。此外选用概率上下文归一化代替批归一化，实现图像统计信息的转移，确保掩膜内外的特征信息分布一致。

S5，缺失区域内容推断，本发明提出了一种多任务并行框架，设计两个了并行的解码分支进行特征推理和内容传播。如图1所示，上行分支由扩张率2、4、8的多层空洞卷积组成，通过不同的扩张率扩大感受野，捕获多尺度上下文信息；下行分支使用了多尺度的上下文注意力整合模块，在网络深层尺寸为32×32的特征图上计算不同patch之间的注意力得分，通过上下文注意力转移模块，在不同尺度的网络浅层上进行特征加权，保证特征全局结构和语义一致性。

S6，特征解码与图像还原，将S5中不同分支提取的特征图按通道拼接输入解码器网络进行解码。解码器的结构设计与编码器结构对称，通过四层门控残差卷积块与上采样交替融合特征，最后经过一层3×3的普通卷积还原成预测的修复图像；

S7，输出最终修复结果，为保证结果更加清晰，利用预测掩膜选取输入图像的有效内容和预测结果的内容进行拼接，再经平滑处理，输出结构完整、语义一致的干净修复结果。

综上所述，本发明的基于语义不一致性检测图像盲修复方法适用于修复现实生活中真实的损坏图像，不需要额外提供标记损坏区域的二值化掩膜，通过端到端的网络实现了退化图像的高质量修复，确保修复结果具有视觉完整性和结构合理性，可以鲁棒的解决不同真实场景中面临的各种图像退化和污染，具有广泛的应用价值。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于实体语义强度的知识图谱中知识不一致性检测方法 [P] . 中国专利： CN114077675A . 2022-02-22
2. 动态场景下基于语义分割与图像修复的视觉回环检测方法 [P] . 中国专利： CN111696118A . 2020-09-22
3. METHOD FOR AUTOMATIC ITERATIVE CLUSTERISATION OF ELECTRONIC DOCUMENTS ACCORDING TO SEMANTIC SIMILARITY, METHOD FOR SEARCH IN PLURALITY OF DOCUMENTS CLUSTERED ACCORDING TO SEMANTIC SIMILARITY AND COMPUTER-READABLE MEDIA [P] . 俄罗斯专利： RU2556425C1 . 2015-07-10

机译：一种基于语义相似度的电子文档自动迭代聚类的方法，一种基于语义相似度的聚类文档的多种搜索方法及计算机可读介质
4. SURROUNDING SITUATION RECOGNITION METHOD FOR ACTIVELY DETECTING CHANGE IN OBJECT BY OVERLAPPING IMAGE-BASED OBJECT DETECTION AND SEMANTIC IMAGE SEGMENTATION [P] . 韩国专利： KR20200063349A . 2020-06-05

机译：通过重叠基于图像的对象检测和语义图像分割主动检测对象变化的周围状况识别方法
5. A method for retrieving images from an image database based on user provided semantic composition [P] . IN2014CH03644A . 2016-07-01

机译：一种基于用户提供的语义成分从图像数据库中检索图像的方法