首页> 中国专利> 一种基于大规模场景三维模型精细语义标注方法

一种基于大规模场景三维模型精细语义标注方法

摘要

本发明公开了一种基于大规模场景三维模型精细语义标注方法,在主动学习(Active Learning)框架下迭代执行以下几个步骤,S1使用不断扩大的带标记图像集对CNN进行语义分割网络训练;S2利用标定后的摄像机参数将所有图像中的像素标签反投影到三维网格模型上;S3以融合后的语义三维模型作为监督者;S4训练‑融合‑选择过程将不断进行,直到模型的标签变得稳定,即在先前和当前迭代中同一面片具有不同标签的百分比低于阈值,η本发明可用于对由图像重建的大规模场景三维模型进行精细标记,所提出的方法使用有限的人工,同时还可保证模型的语义标注的质量。

著录项

  • 公开/公告号CN112348972A

    专利类型发明专利

  • 公开/公告日2021-02-09

    原文格式PDF

  • 申请/专利权人 陕西土豆数据科技有限公司;

    申请/专利号CN202011011807.7

  • 发明设计人 何娇;王江安;

    申请日2020-09-22

  • 分类号G06T19/20(20110101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构

  • 代理人

  • 地址 710075 陕西省西安市雁塔区高新天谷八路211号环普科技产业园E座504

  • 入库时间 2023-06-19 09:51:02

说明书

技术领域

本发明属于无人机倾斜摄影技术领域,具体为一种基于大规模场景三维模型精细语义标注方法。

背景技术

近年来,三维模型的语义标注一直是一个具有挑战性的研究方向。当前,大规模三维模型自动语义标注方法有以下两种。一种是结合三维模型和语义去重建场景。采用预训练的决策树进行图像分割。然后结合标签图像和深度图重建语义模型。二是为三维模型分配语义标签。先对二维图像进行像素级语义分割,然后利用标定后的摄像机参数将这些标签反投影到三维模型中并融合在一起。

由于三维物体在不同场景中的种类和形状各异,很难有适合大多数场景的通用方法。三维语义模型可帮助人类和自动化系统知道在特定场景中“什么对象”在“什么地方”,并在自动驾驶,增强现实和机器人等领域具有多种应用。一个精细的大规模场景三维模型具有成千上万个面片,一种最直接的方法就是对其进行手工标注。然而,现在并没有有效的工具对每一个面片进行手工标注,并且现有的深度学习技术也无法处理大规模场景的三维模型。因此寻找一种可以对大规模场景三维模型进行标注的方法是十分有必要的。

针对相关技术中的问题,目前尚未提出有效的解决方案,为此,我们提出一种基于大规模场景三维模型精细语义标注方法。

发明内容

(一)解决的技术问题

针对现有技术的不足,本发明提供一种基于大规模场景三维模型精细语义标注方法,解决了背景技术中提到的问题。

(二)技术方案

为实现上述目的,本发明提供如下技术方案:一种基于大规模场景三维模型精细语义标注方法,在主动学习(Active Learning)框架下迭代执行以下几个步骤:

S1使用不断扩大的带标记图像集对CNN进行语义分割网络训练,然后使用训练的CNN获取未标记图像的像素级语义标签;

S2利用标定后的摄像机参数将所有图像中的像素标签反投影到三维网格模型上,然后使用MRF优化方法对标签及三维网格模型进行融合,通过结合二维语义标签和三维几何特征,给每个面片一个单独的标签;

S3以融合后的语义三维模型作为监督者,应用批量图像选择方法,选取多幅有价值的图像进行标注,在被手动标记之后,这些图像被合并到训练集中,准备下一次迭代;

S4训练-融合-选择过程将不断进行,直到模型的标签变得稳定,即在先前和当前迭代中同一面片具有不同标签的百分比低于阈值η。

优选的,该方法以SfM和MVS重建的三维网格模型和标定后的图像为输入,输出三维语义网格模型,每个面片都被贴上语义标签,不同颜色代表不同类别。

优选的,所述SfM为由多条的channel水平和垂直交错而成,每条channel提供8Gbps交换能力(supervisor720提供每channel 20Gpbs),矩阵交换的最大优点是允许多个相互不冲突的交换同时进行,并支持点对多点(Multicast)的交换。

优选的,所述MVS是一种基板,其使用两颗14Mhz的Motorola 68000CPU,可达320x224的分辨率(最大发色数65,536色,同屏显示4096色),声音处理芯片为Z80A,有8声道的FM合成音源和7声道的数字立体声音源(PSG&PCM),系统RAM为7MB(56Mbits).卡带最大容量42MB(330Mbits)。

优选的,所述语义分割为计算机视觉中的任务,在这一过程中,我们将视觉输入中的不同部分按照语义分到不同类别中,通过“语义理解”,各类别有一定的现实意义。

优选的,所述S2中的MRF优化,首先在传统的MRF图像分割算法中引入可变权重的参数来连接标记场模型与特征场模型,使得两种模型之间形成一种平衡,获取可保持图像边缘、图像重要细节和具有区域一致性的分割结果,然后在边缘处自适应地引入边缘惩罚函数,调整势函数的能量对能量函数的贡献,减少分割时对边缘的模糊,提高对边缘的定位精度,通过实验结果分析表明,所提出的优化的MRF影像分割算法比传统的ICM迭代计算MRF分割算法和变权重的MRF分割算法具有更高分割精度。

(三)有益效果

与现有技术相比,本发明提供了一种基于大规模场景三维模型精细语义标注方法,具备以下有益效果:

本发明通过确定语义分割类别数、标注数据、标注数据进行训练、对图像进行语义分割几个操作,可用于对由图像重建的大规模场景三维模型进行精细标记,所提出的方法使用有限的人工,同时还可保证模型的语义标注的质量。

附图说明

图1为本发明工作流程图;

图2为本发明图像示意图;

图3为本发明3D图像示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例

请参阅图1-3,本发明提供一种技术方案:一种基于大规模场景三维模型精细语义标注方法,在主动学习(Active Learning)框架下迭代执行以下几个步骤:

S1使用不断扩大的带标记图像集对CNN进行语义分割网络训练,然后使用训练的CNN获取未标记图像的像素级语义标签;

S2利用标定后的摄像机参数将所有图像中的像素标签反投影到三维网格模型上,然后使用MRF优化方法对标签及三维网格模型进行融合,通过结合二维语义标签和三维几何特征,给每个面片一个单独的标签;

S3以融合后的语义三维模型作为监督者,应用批量图像选择方法,选取多幅有价值的图像进行标注,在被手动标记之后,这些图像被合并到训练集中,准备下一次迭代;

S4训练-融合-选择过程将不断进行,直到模型的标签变得稳定,即在先前和当前迭代中同一面片具有不同标签的百分比低于阈值η。

其中,该方法以SfM和MVS重建的三维网格模型和标定后的图像为输入,输出三维语义网格模型,每个面片都被贴上语义标签,不同颜色代表不同类别。

具体操作如下:

步骤1:确定语义分割类别数、标注数据;

语义分割类别数:4类,label标记为0-3(分别代表其他类、建筑物、道路、植被);标注数据:使用Labelme数据标注软件对少量图像进行语义分割标注,生成.json文件;

步骤2:通过语义分割网络对标注数据进行训练,获取比较理想的分类模型;

步骤3:对图像进行语义分割,获取每个类别的概率分布;

步骤4:计算mesh网格的每一个面片对应label的概率Pr(l

Ω

步骤5:将mesh网格中的每一个面片赋予对应的label,在3D空间中进行MRF语义融合。将面片标注问题视为MRF上的能量最小化问题。MRF后验概率分布的Gibbs能量为

F是整个面片集合,A是相邻面片集合,

能量E通过α-expansion算法最小化,并生成语义三维模型,其中每个面片都有语义标签;

步骤6:批量图像选择,一旦获得了3D语义标签,它就可以用作监督者,以衡量每个图像的分割质量,并帮助选择有价值的图像进行标注,在大规模场景三维模型上进行语义标注,通过主动选择图像进行标注,可以大大节省标注成本。

其中,所述SfM为由多条的channel水平和垂直交错而成,每条channel提供8Gbps交换能力(supervisor720提供每channel 20Gpbs),矩阵交换的最大优点是允许多个相互不冲突的交换同时进行,并支持点对多点(Multicast)的交换。

其中,所述MVS是一种基板,其使用两颗14Mhz的Motorola 68000CPU,可达320x224的分辨率(最大发色数65,536色,同屏显示4096色),声音处理芯片为Z80A,有8声道的FM合成音源和7声道的数字立体声音源(PSG&PCM),系统RAM为7MB(56Mbits).卡带最大容量42MB(330Mbits)。

其中,所述语义分割为计算机视觉中的任务,在这一过程中,我们将视觉输入中的不同部分按照语义分到不同类别中,通过“语义理解”,各类别有一定的现实意义。

其中,所述S2中的MRF优化,首先在传统的MRF图像分割算法中引入可变权重的参数来连接标记场模型与特征场模型,使得两种模型之间形成一种平衡,获取可保持图像边缘、图像重要细节和具有区域一致性的分割结果,然后在边缘处自适应地引入边缘惩罚函数,调整势函数的能量对能量函数的贡献,减少分割时对边缘的模糊,提高对边缘的定位精度,通过实验结果分析表明,所提出的优化的MRF影像分割算法比传统的ICM迭代计算MRF分割算法和变权重的MRF分割算法具有更高分割精度。

本发明的附图2和附图3仅示意作用,图中具体的物体细节对本发明技术方案的实施没有直接的作用,不影响方案的公开。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。

在本发明的描述中,需要说明的是,术语“上”、“下”、“内”、“外”“前端”、“后端”、“两端”、“一端”、“另一端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号