首页> 中国专利> 一种实时高效的6D姿态估计网络、构建方法及估计方法

一种实时高效的6D姿态估计网络、构建方法及估计方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种实时高效的6D姿态估计网络、构建方法及估计方法，属于计算机视觉技术领域，涉及6D姿态估计领域，利用多向特征融合金字塔网络MFPN用于将特征进行融合和表达，多向特征融合金字塔网络MFPN可以有效的表示和处理多尺度特征，并且能够有效处理遮挡和背景复杂的情况，以跨阶段局部网络CSPNet作为基本模块，并融合YOLO框架，构建了一个能够有效提取特征的骨干网络，然后与多向特征融合金字塔网络MFPN相结合，最终设计了用于6D姿态估计的新网络MFPN‑6D，可以有效解决物体纹理不足和遮挡问题，提高了模型的预测精度和计算速度，也增强了鲁棒性。

著录项

公开/公告号CN112561995A

专利类型发明专利
公开/公告日2021-03-26

原文格式PDF
申请/专利权人中国科学院深圳先进技术研究院;
展开▼

申请/专利号CN202011430902.0
发明设计人刘鹏磊;张锲石;程俊;
展开▼

申请日2020-12-09
分类号G06T7/73(20170101);G06N3/08(20060101);G06N3/04(20060101);
代理机构11430 北京市诚辉律师事务所;
代理人范盈
地址 518055 广东省深圳市南山区深圳大学城学苑大道1068号
入库时间 2023-06-19 10:24:22

说明书

技术领域

本发明属于计算机视觉技术领域，具体涉及一种实时高效的6D姿态估计网络、构建方法及估计方法。

背景技术

6D姿态估计是指估计相机坐标系下物体的6D位姿，即3D位置和3D姿态，此时原始物体本身的坐标系可以看作是世界坐标系，也即得到原始物体所在世界系到相机系的R T变换。刚体是指物体不会发生形变。刚体的6D位姿估计的意义在于能够获得物体的精确姿态，支撑对于物体的精细操作，主要应用于机器人抓取领域和增强现实领域。6D姿势估计的最新研究趋势是训练一个深度神经网络，以直接从图像中预测3D关键点的2D投影位置，建立对应关系，最后使用Pespecctive-n-Point(PnP)算法进行姿势估计。姿态估计当前面临的挑战是，当物体纹理少，存在遮挡和场景混乱的情况时，检测精度将降低，并且现有的大多数计算模型较大且不能满足实时要求。

相关技术的6D姿态估计方法主要分为两种：基于深度信息(RGB-D)或基于图像信息(RGB)。尽管当前使用RGB-D相机进行姿势估计的方法很可靠，但深度相机仅适用于室内场景和电力不足的情况。相反，RGB摄像机适用于更大范围的场景并节省电量。在基于图像领域内，对物体的6D姿态估计算法有以关键点匹配和边缘匹配的方法，虽然可以有效处理纹理丰富的物体，但是无法处理无纹理或者纹理很少的物体。为了解决这个问题，最近在姿势估计中使用了基于深度学习的方法。例如：BB8和PVNet，这些算法通过训练深度神经网络来预测2D-3D对应关系，并通过PnP算法进一步求解姿势。尽管它们已经取得了良好的性能，但是这些方法要么需要后期处理阶段，并且很难做到实时性要求。一些算法在速度方面已经取得了不错的结果，例如：YOLO-6D，但是该方法对处理存在遮挡的物体和小物体时效果很差。

因此，相关技术关于6D姿态估计研究存在的缺点有以下两个方面：当目标物体纹理少，存在遮挡和复杂场景的情况时，会导致检测精度降低，甚至无法检测；现有的大多数计算方法所需要的参数量很大，导致了模型较大，并且大多无法满足实时性要求。

发明内容

为了解决现有技术中的问题，本发明提供了一种实时高效的6D姿态估计网络、构建方法及估计方法，能够有效地解决当物体表面纹理不足或者有其他物体遮挡目标物体的问题，在提高检测精度的同时兼顾速度，并且拥有较高的鲁棒性。

为了实现以上目的，本发明提供了一种实时高效的6D姿态估计网络，包括多向特征融合金字塔网络和骨干网络，所述多向特征融合金字塔网络和所述骨干网络相组合形成所述6D姿态估计网络，所述多向特征融合金字塔网络用于将特征进行融合和表达，所述骨干网络用于特征提取。

进一步地，所述多向特征融合金字塔网络包括残差结构，所述残差结构融合到所述多向特征融合金字塔网络的前向传播和垂直传播中。

进一步地，所述骨干网络以CSPNet网络作为基础模块，并融合YOLO框架。

进一步地，所述6D姿态估计网络的总数据集包括LINEMOD标准数据集和Occluded-LINEMOD标准数据集，所述6D姿态估计网络在所述LINEMOD标准数据集和所述Occluded-LINEMOD标准数据集上进行训练和验证。

进一步地，所述LINEMOD标准数据集包括13个序列，每个序列包含杂乱环境中单个目标的真实姿态，并且提供了所有目标的CAD模型；所述Occluded-LINEMOD标准数据集是包含有多个目标物体且存在遮挡的数据集。

进一步地，所述6D姿态估计网络的总数据集包括训练集和测试集，所述训练集占所述总数据集的20％，所述测试集占所述总数据集的80％。

进一步地，所述6D姿态估计网络以56FPS的速度运行。

本发明还提供了一种上述的实时高效的6D姿态估计网络的构建方法，包括：首先将残差结构融合到前向传播和垂直传播中，建立多向特征融合金字塔网络；然后以CSPNet网络作为基础模块，并融合YOLO框架，建立骨干网络；最后将多向特征融合金字塔网络和骨干网络相组合形成6D姿态估计网络。

进一步地，所述构建方法中6D姿态估计网络在LINEMOD标准数据集和Occluded-LINEMOD标准数据集上进行训练和验证。

本发明还提供了一种6D姿态估计方法，采用上述的实时高效的6D姿态估计网络。

与现有技术相比，本发明能够解决刚体的6D位姿估计问题，利用多向特征融合金字塔网络MFPN用于将特征进行融合和表达，多向特征融合金字塔网络MFPN可以有效的表示和处理多尺度特征，并且能够有效处理遮挡和背景复杂的情况，以跨阶段局部网络CSPNet作为基本模块，并融合YOLO框架，构建了一个能够有效提取特征的骨干网络，然后与多向特征融合金字塔网络MFPN相结合，最终设计了用于6D姿态估计的新网络MFPN-6D，可以有效解决物体纹理不足和遮挡问题，提高了模型的预测精度和计算速度，也增强了鲁棒性。

附图说明

图1是本发明的6D姿态估计神经网络MFPN-6D的示意图；

图2a是特征金字塔网络FPN的示意图；图2b是PANet网络的示意图；图2c是BiFPN网络的示意图；图2d是本发明的多向特征融合金字塔网络MFPN的示意图。

具体实施方式

下面结合说明书附图和具体的实施例对本发明作进一步地解释说明，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1，本发明实施例提供了一种实时高效的6D姿态估计网络MFPN-6D，包括多向特征融合金字塔网络MFPN和骨干网络，多向特征融合金字塔网络MFPN和骨干网络相组合形成6D姿态估计网络MFPN-6D，多向特征融合金字塔网络MFPN用于将特征进行融合和表达，骨干网络用于特征提取。多向特征融合金字塔网络MFPN包括残差结构，残差结构融合到多向特征融合金字塔网络MFPN的前向传播和垂直传播中。骨干网络以跨阶段局部网络CSPNet网络作为基础模块，并融合YOLO框架。

6D姿态估计网络MFPN-6D的总数据集包括LINEMOD标准数据集和Occluded-LINEMOD标准数据集，6D姿态估计网络MFPN-6D在LINEMOD标准数据集和Occluded-LINEMOD标准数据集上进行训练和验证。LINEMOD标准数据集包括13个序列，每个序列包含杂乱环境中单个目标的真实姿态，并且提供了目标的CAD模型；Occluded-LINEMOD标准数据集是包含有多个目标物体且存在遮挡的数据集。6D姿态估计网络MFPN-6D的总数据集包括训练集和测试集，训练集占总数据集的20％，测试集占总数据集的80％。6D姿态估计网络MFPN-6D以56FPS的速度运行，是目前6D姿态估计领域内速度最快的方法。

6D姿态估计的主要困难之一是有效的表示和处理多尺度特征，为了能够有效的表示和处理多尺度特征。如图2a所示，特征金字塔网络FPN提出了自上而下的路径来组合多尺度特征，但FPN固有地受到单向信息流的限制。为了解决这个问题，PANet在FPN的基础上增加了一个额外的自下而上的路径聚合网络，如图2b所示。PANet的精度很高，但是要花更多的参数和计算量，为了提高模型效率，Google研究员们提出了BiFPN网络，如图2c所示，有效的双向交叉尺度连接和加权特征融合网络。BiFPN的准确度比PANet高，而且成本比PANet低。BiFPN是最先进的特征网络之一，但它只考虑了正向特征传播的问题，而没有考虑特征的垂直传播的问题，这将导致特征在垂直方向传播时会丢失特征，因此无法有效使用所有特征信息。

为了更有效地处理和表示多尺度特征，将残差网络的思想应用于本发明的6D姿态估计网络MFPN-6D中。将残差结构融合到6D姿态估计网络MFPN-6D的前向传播和垂直传播中，最后提出了多向特征融合金字塔网络MFPN，如图2d所示，在BiFPN的基础上加入了前向残差结构和垂直方向的残差结构，所提出的多向特征融合金字塔网络MFPN可以提高前向和垂直传播中特征的利用率，更有效的表示和处理多尺度特征。

在骨架网络的设计方面，本发明采用了最先进的跨阶段局部网络CSPNet网络作为基础模块，融合了YOLO网络框架的思想设计了最终的特征提取骨干网络，并与多向特征融合金字塔网络MFPN相结合构建了用于6D姿态估计的神经网络MFPN-6D，如图1所示，以CSPNet结构为基础，设计了用于特征提取的骨干网络，可以高效地对图片进行特征提取，将MFPN网络作为Neck网络与骨干网络进行组合，最后的检测网络采用的是YOLO网络，最终设计的网络可以高效精准的对物体进行6D姿态估计，同时还能以56FPS的速度运行，是目前6D姿态估计领域内速度最快的方法。

本发明旨在提出高效快速并能有效处理遮挡问题的6D姿态估计，首先，设计了一种多向特征融合金字塔网络MFPN，能够有效的将特征进行融合和表达，然后以CSPNet为基础模块，融合YOLO框架设计了骨干网络用于特征提取，最后将骨干网络和多向特征融合金字塔网络MFPN进行组合形成了用于6D姿态估计网络MFPN-6D。

多向特征融合金字塔网络MFPN，可以有效的表示和处理多尺度特征，并且能够有效处理遮挡和背景复杂的情况。基于多向特征融合金字塔网络MFPN构建的6D姿态估计网络MFPN-6D能够快速的精准的对目标物体进行姿态估计。本发明经过与其他方法实验对比，在效率、速度和鲁棒性方面远远优于其他方法，可以验证本发明优于其他方法，可以有效解决当物体表面纹理不足或者有其他物体遮挡目标物体的问题，在提高检测精度的同时兼顾速度，并且拥有较高的鲁棒性。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种实时高效的6D姿态估计网络、构建方法及估计方法 [P] . 中国专利： CN112561995A . 2021-03-26
2. 基于深度学习迭代匹配的6D姿态估计网络训练方法及装置 [P] . 中国专利： CN109215080B . 2020.08.11
3. Method and apparatus for training 6D pose estimation network based on deep learning iterative matching [P] . US11200696B2 . 2021-12-14

机译：基于深度学习迭代匹配的训练6D姿态估计网络的方法和装置
4. 6D ATTITUDE ESTIMATION NETWORK TRAINING METHOD AND APPARATUS BASED ON DEEP LEARNING ITERATIVE MATCHING [P] . 世界知识产权组织专利： WO2020063475A1 . 2020-04-02

机译：基于深度学习迭代匹配的6D姿态估计网络训练方法及装置
5. Feature point-based real-time camera pose estimation method and apparatus therefor [P] . 韩国专利： KR101942646B1 . 2019-01-25

机译：基于特征点的实时相机姿态估计方法及装置