首页> 中文学位 >复杂场景下的目标检测技术研究—视觉模型方法
【6h】

复杂场景下的目标检测技术研究—视觉模型方法

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 较早期的心理物理学研究

1.2 Marr的视觉表示理论

1.3 统计学习方法

1.4 最近三十年来的主要进展

1.5 高级视觉的心理物理实验

1.6 视觉模型方法

1.7 本文的研究范围

1.8 本文的组织结构

第二章 受约束的视觉词袋模型

2.1 视觉模型方法

2.2 基于视角的2D目标检测模型

2.3 分层最大化模型

2.4 可区分的形状模型

2.5 小结

第三章 基于Gabor原子原语的形变部件模型

3.1 相关研究工作

3.2 基于视觉模型方法的分析

3.3 HOGabor

3.4 学习与推断算法

3.5 实验

3.6 小结

第四章 基于部件联合分布的姿态估计模型

4.1 相关研究工作

4.2基于视觉模型方法的分析

4.3基于max-sum算法得到目标的MAP

4.4基于根部件的姿态搜索

4.5小结

第五章 面向连续帧的视觉贝叶斯模型

5.1相关研究工作

5.2基于视觉模型方法的分析

5.3基于Gabor的视觉显著性

5.4基于Gabor的偏置显著性

5.5引入偏置显著性的形变部件模型

5.6一个实际的视觉贝叶斯模型

5.7实验

5.8小结

第六章 总结与展望

6.1 工作与总结

6.2 本文主要创新点

6.3 深入与展望

致谢

参考文献

攻博期间取得的研究成果

展开▼

摘要

复杂场景下的目标检测是一个极具挑战性的任务。一方面,光照在强度、角度、距离上的变化与观察者在观察位置、角度、距离上的变化带来背景与目标的各种复杂变化,比如亮度、对比度、阴影、位置、尺度、视角、姿态等变化;另一方面,3D到2D的成像过程中引入的噪声、造成的信息缺失使得问题更加复杂化甚至变得无法求解。
  本文围绕复杂场景下的目标检测这一任务开展了系统性的研究工作,涉及到的内容包括:视觉研究的方法论基础,单帧上的2D目标检测(包括视觉词袋模型、Pictorial模型),连续帧上的2D目标检测(朴素贝叶斯模型)。本文的研究工作既注重理论与方法的思考,也注重算法设计与实现的研究。具体的内容简述如下:
  1.本文在 Marr的视觉表示理论的基础上,结合统计学习理论,总结出了视觉模型方法,即视觉约束的统计学习方法。该方法具有两个重要特点:既注重计算的研究又注重物理约束的研究;强调视觉计算从本质上讲是一个概率推断过程。该方法将解决一个具体的视觉问题归纳为五个步骤,其中,前两个步骤对应计算理论层次,后三个步骤对应算法设计层次。该方法是贯穿本文的方法论基础,对本文研究工作的开展具有基础性的指导作用。
  2.本文采用视觉模型方法,对具有仿生特点的分层最大化模型(HMAX)进行了计算理论层次与算法设计层次上的分析,指出其本质上就是视觉词袋模型。基于此分析,本文对分层最大化模型进行了两方面的发展:首先,针对该模型采用的随机视觉单词选取方式存在的误选、低效等问题,将自下而上的视觉注意力约束引入到视觉单词的选取过程中,有效提升了视觉单词选取的有效性与效率,从而有效提升了目标检测的性能;其次,针对视觉词袋模型缺乏对目标几何结构信息进行描述的问题,将分层最大化模型与显式的形状匹配模型结合起来,提出了可区分的形状模型。从计算理论层次上讲,可区分的形状模型引入了一种额外的约束——目标的形状约束。实验表明,目标的形状约束对于提升目标的检测性能是有效的。
  3、本文采用视觉模型方法,对Pictorial模型与受约束的Pictorial模型进行了计算理论层次与算法设计层次上的分析。针对受约束Pictorial模型的一种设计——星形的形变部件模型(DPM),本文首先注意到了其采用的基于梯度原子原语的HOG特征仍有较大的提升空间,因此本文基于Gabor原子原语提出了一种具有仿生特点的底层特征HOGabor。在PASCAL VOC2007等数据集上的实验表明,该特征能够显著的提高刚性目标(如飞机、小车等)的检测性能。本文在多个数据集上对形变部件模型进行了全面的评估,并从统计学习理论的角度分析了样本、模型复杂度、模型推广能力之间的关系,对进一步的研究工作具有重要的指导意义。
  4.针对受约束Pictorial模型的另一种设计——树形的姿态估计模型(POSE),本文指出了其存在的三方面问题:部件的联合分布问题,尺度估计问题和计算效率问题。针对这些问题,本文提出了计算目标最大后验概率(MAP)、基于根部件进行姿态搜索两种改进方案。实验表明,这两种改进方案能够有效提高人体姿态估计的性能与效率。
  5.对于连续视觉输入,本文基于离线学习的目标先验与在线学习的目标偏置显著性似然,建立了一个实际的视觉贝叶斯模型。该模型采用特征条件独立假设,可以基于同样的底层特征——Gabor原子原语。该模型不同于已有的概念性的或者面向特定用途的视觉贝叶斯模型,很好的展现了在连续视觉输入上统计学习问题的有效简化,展现了自上而下与自下而上两个视觉过程的交互,展现了由粗到细的目标检测过程。
  整体上看,本文首先总结了视觉研究的方法论基础:视觉模型方法;然后在其指导下主要对三类2D目标检测模型进行了系统性的、理论与实践并重的探讨;在此基础上,本文从多个层面、多个角度对这些2D目标检测模型进行了发展、提升、改进与再创造,一些工作已经具备了潜在的工程应用价值,另一些工作则在理论与方法层面具有一定的学术价值。从相互之间关系来看,这些2D目标检测模型在计算理论层次上存在由简单到复杂的递进关系,而在算法设计层次上则存在两个基本特点:输入由单帧走向连续帧、输出由粗(目标的矩形框)到细(目标的形状、目标的部件)。值得特别注意的是,本文已经得到了由粗到细的2D目标表示,这为走向分层的3D目标表示奠定了坚实的基础。

著录项

  • 作者

    余化鹏;

  • 作者单位

    电子科技大学;

  • 授予单位 电子科技大学;
  • 学科 信号与信息处理
  • 授予学位 博士
  • 导师姓名 付承毓,王亚非;
  • 年度 2015
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP391.41;
  • 关键词

    目标检测; 复杂场景; 视觉词袋模型; 姿态估计;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号