首页> 中国专利> 一种基于深度学习的双目风格化实时渲染方法

一种基于深度学习的双目风格化实时渲染方法

摘要

本发明公开了一种基于深度学习的双目风格化实时渲染方法,该方法首先对固定风格训练一个图像转换网络;在运行时,将该网络分解为编码器和解码器部分;渲染时,通过三维场景渲染出原始图像,视差图,运动场等信息;并通过基于图像转换网络的后处理进行风格化,从而渲染出完整双目动画。相比与独立帧直接风格化法,该方法可以大大减少视觉闪烁和瑕疵;相比与基于最优化的方法,效率提高了两个数量级。

著录项

  • 公开/公告号CN108924528A

    专利类型发明专利

  • 公开/公告日2018-11-30

    原文格式PDF

  • 申请/专利权人 浙江大学;

    申请/专利号CN201810576245.7

  • 发明设计人 任重;倪朝浩;周昆;

    申请日2018-06-06

  • 分类号

  • 代理机构杭州求是专利事务所有限公司;

  • 代理人邱启旺

  • 地址 310058 浙江省杭州市西湖区余杭塘路866号

  • 入库时间 2023-06-19 07:27:48

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-07-28

    授权

    授权

  • 2018-12-25

    实质审查的生效 IPC(主分类):H04N13/122 申请日:20180606

    实质审查的生效

  • 2018-11-30

    公开

    公开

说明书

技术领域

本发明涉及图像视频处理领域,尤其涉及一种针对VR头盔等双目设备的内容风格化渲染方法。

背景技术

在艺术领域,尤其是绘画方面,人类始终具有独特的能力来创造出各种各样复杂的内容和风格。尽管科学家们对这一创造过程的神经基础原理仍未研究清楚,使用计算机来生成各种内容和风格的图像已经成为计算机界内一项热门研究。随着深度学习在近些年的快速发展,基于深度学习的图像视频风格化成为主流方法。然而已经存在的各类风格化算法都是为单目的图像视频进行设计,无法在VR及3D显示设备上得到应用。本发明解决了双目内容的艺术风格化问题。

2015年Gatys等人(Gatys L A,Ecker A S,Bethge M.A Neural Algorithm ofArtistic Style[J].Computer Science,2015.)基于卷积神经网络(convolutionalneural network,简称CNN)的艺术家风格化工作,在图像生成效果上取得了显著进步,并掀起了新一波风格化的研究浪潮。Johnson等人在2016年(Johnson J,Alahi A,Li FF.Perceptual Losses for Real-Time Style Transfer and Super-Resolution[J].2016:694-711.)首次提出了图像实时风格化方法。对于每一个固定的风格,他们都对其训练一个前向生成网络网络。当一个内容图像需要被风格化时,只需要做一次向前传播就可以得到结果。他们的系统需要两个网络,一个是进行训练的图像转换网络,一个是损失函数网络。Chen等人(Chen D,Liao J,Yuan L,et al.Coherent Online Video Style Transfer[J].2017:1114-1123.)在2017年做出了具有时序一致性的视频风格化实时算法。Chen等人将CNN分成两个子网络,一个为编码器,另一个是解码器。原始图像经过编码器得到一系列特征图像,利用光流对特征图进行插值后再输入解码器,则可以得到时序一致的风格化图像。

发明内容

本发明针对独立帧实时渲染方法造成闪烁,视差不一致的局限性,提供了一种基于深度学习优化的双目风格化实时渲染方法。该方法首先需要对某一固定的艺术风训练图像变换网络。在运行时,渲染分为两层,根据三维场景渲染出视差图,运动场,遮挡图等场景信息。再利用基于网络的前向传播将结果风格化,从而满足了时序一致性和视差一致性,渲染出了视觉良好的双目画面。

本发明的目的是通过以下技术方案来实现的(如图1):一种基于深度学习的双目风格化实时渲染方法,该方法包括以下步骤:

(1)训练图像变换网络:如图2,选择一个风格化图像,然后进行网络的训练;对于给定的固定风格,需要对齐训练出基于CNN的图像转换网络fW;使用

来求解网络中的权重,其中损失函数分别为:

其中J为选择的层数集合,对于神经网络的第l层,若它有Cl个不同的滤波器,其特征图宽和高为Wl和Hl。其中φj(y)是图像y在VGG网络中第j层的神经元输出,是图像y在VGG网络中第j层的伽马矩阵。λi为权重,内容和风格为分别1.0,40.0。

使用的图像转换网络结构中,舍去了池化层,而使用卷积来做网络中的向下采样和向上采样;网络结构使用5个残差块;所有的非残差卷积层后面都使用批规范化技术;除了输出层,在每个非残差卷积层后都加上ReLU层来保持网络的非线性;最后在输出层使用尺度化的tanh将输出值控制在0到255之间;第一层和最后一次使用9x9的内核,其他卷积层使用3x3的内核;对训练中数据集的每个图像都缩放到256x256的尺寸;采用步长为1x10-3的Adam算法进行训练;

(2)渲染层数据渲染,该步骤包括以下子步骤:

(2.1)从深度缓冲中得到当前像素的深度;根据公式d=f*b/z(其中f为相机焦距,b为相机距离,z为像素深度),我们可以计算出视差,并转换出该像素在右眼相机平面中的对应位置;

(2.2)渲染运动场;对图像中每个像素发射一条射线,得到与之相交的三角形面片;根据三角形在下一帧的位置,投影计算出该像素的移动距离;

(3)基于CNN的风格化:首先将步骤1的图像转换网络fW分解成两部分,前半部分为编码器后半部分为解码器其中编码器部分输入原始图像,输出特征图像,这一过程为图像编码;而解码器部分则输入特征图像,能够输出风格化后的图像,这一过程为特征解码,

记当前帧渲染出的原始图像为视差图为Dk,运动场为并记录经过解码器生成的特征图像为对应生成的风格化图像为

该步骤包括以下子步骤:

(3.1)对当前帧的左眼图像使用编码器,生成特征图;为了保持时序连续性,在生成时,我们首先在编码器中输入得到对应的

(3.2)将得到的特征图跟上一帧的特征图根据运动场进行混合,将混合后的特征图使用解码器得到渲染图像;我们利用上一帧的特征图结合运动场进行混合(blend),记混合后的特征图为此时将输入解码器,则得到风格化的图像

(3.3)对当前帧的右眼图像使用编码器,生成特征图;将图像输入编码器,得到其对应的特征图像

(4)将得到的特征图与左眼图的特征图根据视差场进行混合,将混合后的特征图使用解码器得到渲染图像;利用左眼图像混合之后的特征图跟视差图Dk进行图像混合,得到混合后的特征图为输入解码器即得到风格化图像

本发明的有益效果是,本发明考虑了动态的时序连续性和双目内容的立体效果;相比于独立帧直接实时风格化的方法,该方法大量地减少了渲染动画的闪烁瑕疵。相比于基于最优化的方法,该方法提高了两个数量级的效率。

附图说明

图1中是本发明方法流程图,渲染层里包括了利用场景渲染出的图像:原始图像,运动场,视差图。后处理层使用已经对固定风格训练好的图像变换网络进行风格化。

图2是图像变换网络示意图,左边的网络结构是需要训练的图像变换网络,右边是损失函数网络,用来构成图像变换网络训练时的损失函数,采用经典的已经训练好的图像分类网络VGG-19。

图3是运行时后处理层的流程图。将图像转换网络分解为编码器和解码器,使用编码器得到的特征图与上一帧的特征图进行混合,然后使用解码器重构出图像。

图4是本发明的方法与独立直接法的渲染结果对比图,其中,(a)为独立直接法渲染出的左右眼图像对,(b)为本发明方法渲染出的图像对。

图5是本发明使用岩石风格对开源动画Sintel的渲染片段图,其中,左上角为艺术风格图像,右列从上到下为连续5帧的渲染结果。

具体实施方式

本发明的具体实施方式分为三大步骤:预训练:图像变换网络的训练,运行时:渲染层的双目渲染和后处理层的基于CNN的风格化。

一、训练图像变换网络

如图2,选择一个我们希望采用的风格化图像,然后进行网络的训练(Johnson J,Alahi A,Li F F.Perceptual Losses for Real-Time Style Transfer and Super-Resolution[J].2016:694-711.)。采用表1的网络结构。对于给定的固定风格,需要对齐训练出基于CNN的图像转换网络fW。使用来求解网络中的权重,其中损失函数分别为:

其中J为选择的层数集合,对于神经网络的第l层,若它有Cl个不同的滤波器,其特征图宽和高为Wl和Hl。其中φj(y)是图像y在VGG网络中第j层的神经元输出,是图像y在VGG网络中第j层的伽马矩阵。λi为权重,内容和风格为分别1.0,40.0。

使用的图像转换网络结构中,舍去了池化层,而使用strided和fractionallystrided的卷积来做网络中的向下采样和向上采样。网络结构使用5个残差块(residualblock)。所有的非残差卷积层后面都使用批规范化(batch normalization)技术。除了输出层,我们在每个非残差卷积层后都加上ReLU层来保持网络的非线性。最后在输出层使用尺度化的tanh将输出值控制在0到255之间。第一层和最后一次使用9x9的内核,其他卷积层使用3x3的内核。我们使用微软的数据集MS-COCO。对训练中数据集的每个图像都缩放到256x256的尺寸。我们采用步长为1x10-3的Adam算法进行训练。

表1:图像转移网络的网络结构

尺寸维度输入3x256x25632x9x9卷积,步幅132x256x25664x3x3卷积,步幅264x128x128128x3x3卷积,步幅2128x64x64残差块,128滤波器128x64x64残差块,128滤波器128x64x64残差块,128滤波器128x64x64残差块,128滤波器128x64x64残差块,128滤波器128x64x6464x3x3反卷积,步幅1/264x128x12832x3x3反卷积,步幅1/232x256x2563x9x9卷积,步幅13x256x256

二、渲染层数据渲染

1、从深度缓冲中得到当前像素的深度。根据公式d=f*b/z(其中f为相机焦距,b为相机距离,z为像素深度),我们可以计算出视差,并转换出该像素在右眼相机平面中的对应位置。

2、渲染运动场。对图像中每个像素发射一条射线,得到与之相交的三角形面片。根据三角形在下一帧的位置,投影计算出该像素的移动距离。

三、基于CNN的风格化

首先我们将上述的图像转换网络fW分解成两部分,前半部分为编码器后半部分为解码器其中编码器部分输入原始图像,输出特征图像,我们将这一过程称为图像编码。而解码器部分则输入特征图像,能够输出风格化后的图像,我们将这一过程称为特征解码,如表2。

表2:编码器与解码器的网络结构

编码器解码器输入64x3x3反卷积,步幅1/232x9x9卷积,步幅132x3x3反卷积,步幅1/264x3x3卷积,步幅23x9x9卷积,步幅1128x3x3卷积,步幅2输出残差块,128滤波器残差块,128滤波器残差块,128滤波器残差块,128滤波器残差块,128滤波器

记当前帧渲染出的原始图像为视差图为Dk,运动场为并记录经过解码器生成的特征图像为对应生成的风格化图像为

如图3,该步骤包括以下子步骤:

1、对当前帧的左眼图像使用编码器,生成特征图。为了保持时序连续性,在生成时,我们首先在编码器中输入得到对应的

2、将得到的特征图跟上一帧的特征图根据运动场进行混合,将混合后的特征图使用解码器得到渲染图像。我们利用上一帧的特征图结合运动场进行混合(blend),记混合后的特征图为此时将输入解码器,则得到风格化的图像

3、对当前帧的右眼图像使用编码器,生成特征图。将图像输入编码器,得到其对应的特征图像

4、将得到的特征图与左眼图的特征图根据视差场进行混合,将混合后的特征图使用解码器得到渲染图像。利用左眼图像混合之后的特征图跟视差图Dk进行图像混合,得到混合后的特征图为输入解码器即得到风格化图像

通过上述步骤,发明人在一台配备了一个3.60GHz的Intel i7-7700CPU,16G内存,GTX 1060显卡的计算机上实现了本发明的若干实施实例。

实施例一、发明人测试了双目实时风格化渲染算法的有效性。如图4所示,发明人对同一段动画,采用了梵高星空的风格,并分别使用本发明算法和独立帧直接法进行渲染对比。从图中不难看出,独立法对左右眼视图中的对应区域没法保持一致的风格化,而本发明的渲染结果可以满足。

实施例二、如图5所示,发明人使用了本发明方法渲染了Sintel开源动画中的片段,其中采用的是岩石艺术风格。从两图中可以观察得到,本发明渲染出的动画满足时序一致性和视差一致性,提供了良好的双目观看效果。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号