首页> 中文学位 >基于深度学习的人类行为识别和视频描述生成
【6h】

基于深度学习的人类行为识别和视频描述生成

代理获取

目录

声明

第一章 绪论

1.1 引言

1.2 基于深度学习的人类行为识别与视频描述生成的国内外研究现状

1.3 本文的主要研究工作与创新

1.4 本文的结构安排

第二章 行为识别和视频描述生成技术基础与相关核心研究问题

2.1 行为识别的核心技术及其相关问题和挑战

2.2 视频描述生成基础及相关问题和挑战

2.3 本章小节

第三章 深度学习核心技术基础

3.1 后向传播算法(Backpropagation)

3.2 深度卷积神经网络

3.3 深度递归神经网络

3.4 本章小结

第四章 基于3D深度卷积网络的人类行为识别的方法研究

4.1 相关工作与动机

4.2 提出的方法

4.3 实验设计与结果分析

4.4 本章小节

第五章 基于语义的时域注意力机制的视频描述生成的方法研究

5.1 相关工作与动机

5.2 提出的方法

5.3 实验设计与结果分析

5.4 本章小节

第六章 全文总结与展望

6.1 全文总结

6.2 后续工作展望

致谢

参考文献

攻硕期间取得的研究成果

展开▼

摘要

视频智能分析一直是计算机视觉领域的研究热点。其中涉及到不同的研究问题,包括视频语义分割,视频追踪,视频检索,行为识别以及视频描述生成等等。为了更进一步构建视频内容与高层语义之间的桥梁,本文围绕两个具体的视频应用进行深入研究:视频中的行为识别和视频描述生成。具体而言,我们把行为识别视作低层语义分类问题。而将视频描述问题视作为高层语义生成问题。因为该任务要求同时理解视觉内容和自然语言。而针对这些问题的挑战,本文具体研究两个问题:1)如何构建一个算法计算视频对应的模式。2)如何构建一个有效的计算框架来架起视频内容与自然语言的桥梁。
  对于视频中的行为识别而言,传统的方法将此问题化为多分类问题,并且提出了不同的视频特征提取方法。然而,传统的方法基于低层信息进行提取,比如从视觉纹理信息或者视频中的运动估计值。由于提取的信息单一,不能很好的代表视频内容,进而导致所优化的分类器并不是最优的。而作为深度学习中的一项技术,卷积神经网络将特征学习和分类器学习融合为一个整体,并且成功应用在视频中的行为识别方面。然而,当前提出的并应用在行为识别方面的卷积神经网络框架仍具有三种限制:1)输入网络的视频的空间尺寸必须固定大小;2)输入网络的视频的时长固定;3)网络提取短时序结构的特征。这使得网络模型应用在极强的限制条件下,不利于现实场景下的应用扩展。为了解决以上的问题,本文提出一种基于3D卷积网络的端到端识别模型。该模型实现在任意尺度和时长的视频条件下进行行为识别。具体而言,首先将一个视频划分为一系列连续的视频片段。然后,将连续的视频片段输入到由卷积计算层和时空金字塔池化层组成的3D神经网络得到连续的视频片段特征。然后通过长短记忆模型计算全局的视频特征作为行为模式。我们在UCF101,HMDB51和ACT三个通用的数据集上评估提出的模型。实验结果显示,和目前流行的2D或3D为基础的神经网络模型相比,提出的方法在识别性能上得到了提升。
  在视频描述生成方面,以编码-解码为基础的框架已经得到了广泛的应用。最近,时序注意力机制已经被提出并且被证明能够提升以编码-解码为基础的描述生成模型的性能。然而,时序注意力机制只解决了视频内容的选取。对于语句的上下文则是由先验语义而定。然而,在视频描述生成这个方面,目前的方法没有同时考虑时序注意力机制和先验语义建模。为了解决这个问题,本文提出一个新的端到端的神经网络模型,能够将高层的视觉语义概念融入到时序注意力机制, 并促进生成更准确的视频描述。在提出的框架中,编码神经网络模型用于提取视频的视觉特征,并且通过该特征预测语义概念。同时,解码神经网络根据视觉特征与语义信息来生成连贯的自然语言句子。具体而言,解码神经网络结合了视觉特征和语义表达特征。并且将语义信息和注意力机制嵌入到GRU神经网络单元中去更加准确的学习句子的生成。本文在两个代表性的数据集上(MSVD和MSR-VTT)验证提出的框架。实验结果显示提出的网络模型在BLEU和METEOR两个评价标准上,比以往的方法得到更好的性能评估。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号