基于深度学习的人类行为识别和视频描述生成

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

视频智能分析一直是计算机视觉领域的研究热点。其中涉及到不同的研究问题，包括视频语义分割，视频追踪，视频检索，行为识别以及视频描述生成等等。为了更进一步构建视频内容与高层语义之间的桥梁，本文围绕两个具体的视频应用进行深入研究：视频中的行为识别和视频描述生成。具体而言，我们把行为识别视作低层语义分类问题。而将视频描述问题视作为高层语义生成问题。因为该任务要求同时理解视觉内容和自然语言。而针对这些问题的挑战，本文具体研究两个问题：1)如何构建一个算法计算视频对应的模式。2)如何构建一个有效的计算框架来架起视频内容与自然语言的桥梁。
　　对于视频中的行为识别而言，传统的方法将此问题化为多分类问题，并且提出了不同的视频特征提取方法。然而，传统的方法基于低层信息进行提取，比如从视觉纹理信息或者视频中的运动估计值。由于提取的信息单一，不能很好的代表视频内容，进而导致所优化的分类器并不是最优的。而作为深度学习中的一项技术，卷积神经网络将特征学习和分类器学习融合为一个整体，并且成功应用在视频中的行为识别方面。然而，当前提出的并应用在行为识别方面的卷积神经网络框架仍具有三种限制：1)输入网络的视频的空间尺寸必须固定大小；2)输入网络的视频的时长固定；3)网络提取短时序结构的特征。这使得网络模型应用在极强的限制条件下，不利于现实场景下的应用扩展。为了解决以上的问题，本文提出一种基于3D卷积网络的端到端识别模型。该模型实现在任意尺度和时长的视频条件下进行行为识别。具体而言，首先将一个视频划分为一系列连续的视频片段。然后，将连续的视频片段输入到由卷积计算层和时空金字塔池化层组成的3D神经网络得到连续的视频片段特征。然后通过长短记忆模型计算全局的视频特征作为行为模式。我们在UCF101，HMDB51和ACT三个通用的数据集上评估提出的模型。实验结果显示，和目前流行的2D或3D为基础的神经网络模型相比，提出的方法在识别性能上得到了提升。
　　在视频描述生成方面，以编码-解码为基础的框架已经得到了广泛的应用。最近，时序注意力机制已经被提出并且被证明能够提升以编码-解码为基础的描述生成模型的性能。然而，时序注意力机制只解决了视频内容的选取。对于语句的上下文则是由先验语义而定。然而，在视频描述生成这个方面，目前的方法没有同时考虑时序注意力机制和先验语义建模。为了解决这个问题，本文提出一个新的端到端的神经网络模型，能够将高层的视觉语义概念融入到时序注意力机制，并促进生成更准确的视频描述。在提出的框架中，编码神经网络模型用于提取视频的视觉特征，并且通过该特征预测语义概念。同时，解码神经网络根据视觉特征与语义信息来生成连贯的自然语言句子。具体而言，解码神经网络结合了视觉特征和语义表达特征。并且将语义信息和注意力机制嵌入到GRU神经网络单元中去更加准确的学习句子的生成。本文在两个代表性的数据集上(MSVD和MSR-VTT)验证提出的框架。实验结果显示提出的网络模型在BLEU和METEOR两个评价标准上，比以往的方法得到更好的性能评估。

著录项

作者
王轩瀚;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科计算机软件与理论
授予学位硕士
导师姓名申恒涛;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类自动推理、机器学习;
关键词
行为识别; 视频描述生成; 深度学习; 卷积神经网络; 特征学习; 语义分类;

相似文献

中文文献
外文文献
专利

1. 基于深度学习的视频异常行为识别算法 [J] . 聂豪 ,熊昕 ,郭原东 . 现代电子技术 . 2020,第024期
2. 基于深度学习的视频行为识别方法综述 [J] . 赵朵朵 ,章坚武 ,郭春生 . 电信科学 . 2019,第012期
3. 基于深度学习的视频描述方法研究综述 [J] . 常志 ,赵德新 . 天津理工大学学报 . 2020,第006期
4. 基于深度学习的X线胸片肺部描述自动生成 [J] . 黄欣 ,顾梦丹 ,易玉根 . 模式识别与人工智能 . 2021,第006期
5. 基于循环区域关注和视频帧关注的视频行为识别网络设计 [J] . 桑海峰 ,赵子裕 ,何大阔 . 电子学报 . 2020,第006期
6. 基于改进时空特征点描述的行为识别方法 [C] . 杜吉祥 ,杨凯 . 2011中国人工生命与智能机器人会议 . 2011
7. 基于运动学描述子和深度学习的行为识别新框架 [A] . 赵梦傲 . 2018

基于深度学习的人类行为识别和视频描述生成

目录

摘要

著录项

相似文献

相关主题

期刊订阅