首页> 中文期刊> 《电脑知识与技术》 >融合图像与声音信息的视频标注

融合图像与声音信息的视频标注

         

摘要

随着互联网的兴盛和信息技术的飞速发展,大众媒体开始从以文字和图像为主的形式逐渐向以视频为主的形态演变,大量视频数据不断涌出。因此,能够高效、及时地进行视频分类和管理的视频标注成为时下一大热门。视频标注本质是序列到序列的转换[1],特点在于视频的内容信息并不能用割裂的一帧帧的图像数据来表征,而需要强调视频前后的连续性和关联性。此外,对于普通观众而言,视频中附加的声音信息同样是接收和理解视频内容的关键要素。然而,现有的用于视频标注的神经网络大多没有利用声音信息来进行标注输出。对此,该文提出一种基于S2VT模型的、融合声音和图像信息的神经网络,运用循环神经网络算法以及编码解码结构,对输入的视频进行时序性学习,并最终输出一段有意义、便于理解的文字。在数据预处理方面,该文选择从图像信息中提取3D特征[2],使用业内流行的MFCC算法将输入的声音部分转化为声音特征,最后将保存这两个特征的矩阵有序拼接输入神经网络中。该文针对最终模型输出效果进行了对比实验,发现在训练条件一致的情况下,添加了声音特征的模型在处理含有声音信息的视频时,能够取得比不添加声音特征时更好、更自然的语句输出。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号