融合图像与声音信息的视频标注

袁华; 张逸帆; 陈安皓

首页> 中文期刊> 《电脑知识与技术》 >融合图像与声音信息的视频标注

融合图像与声音信息的视频标注

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

随着互联网的兴盛和信息技术的飞速发展,大众媒体开始从以文字和图像为主的形式逐渐向以视频为主的形态演变,大量视频数据不断涌出。因此,能够高效、及时地进行视频分类和管理的视频标注成为时下一大热门。视频标注本质是序列到序列的转换[1],特点在于视频的内容信息并不能用割裂的一帧帧的图像数据来表征,而需要强调视频前后的连续性和关联性。此外,对于普通观众而言,视频中附加的声音信息同样是接收和理解视频内容的关键要素。然而,现有的用于视频标注的神经网络大多没有利用声音信息来进行标注输出。对此,该文提出一种基于S2VT模型的、融合声音和图像信息的神经网络,运用循环神经网络算法以及编码解码结构,对输入的视频进行时序性学习,并最终输出一段有意义、便于理解的文字。在数据预处理方面,该文选择从图像信息中提取3D特征[2],使用业内流行的MFCC算法将输入的声音部分转化为声音特征,最后将保存这两个特征的矩阵有序拼接输入神经网络中。该文针对最终模型输出效果进行了对比实验,发现在训练条件一致的情况下,添加了声音特征的模型在处理含有声音信息的视频时,能够取得比不添加声音特征时更好、更自然的语句输出。

著录项

来源
《电脑知识与技术》 |2020年第33期|195-197|共3页
作者
袁华; 张逸帆; 陈安皓;
展开▼
作者单位

东南大学;

展开▼
原文格式 PDF
正文语种 chi
中图分类语音信号处理;
关键词
视频标注; MFCC算法; 声音特征; 3D特征;

相似文献

中文文献
外文文献
专利

1. 融合图像与声音信息的视频标注 [J] . 袁华 ,张逸帆 ,陈安皓 . 电脑知识与技术：学术交流 . 2020,第33期
2. 融合显著信息的白色污染图像自动标注算法 [J] . 汪理 ,李光辉 ,陈吹信 . 计算机仿真 . 2021,第7期
3. 基于多模态信息融合的图像情感标注方法 [J] . 唐智川 ,刘肖健 ,杨红春 . 计算机集成制造系统 . 2020,第1期
4. 基于多模态信息融合的新闻图像人脸标注 [J] . 征察 ,吉立新 ,李邵梅 . 计算机应用 . 2017,第10期
5. 基于社群隐含主题挖掘和多社群信息融合的自动图像标注 [J] . 陈烨 ,邵健 ,朱科 . 中国图象图形学报 . 2010,第6期
6. 基于社群隐含主题挖掘和多社群信息融合的自动图像标注 [C] . Chen Ye ,陈烨 ,Shao Jian . 第六届智能CAD与数字娱乐学术会议 . 2009
7. 融合标注词相关性信息的图像语义标注研究 [A] . 周宁 . 2009

融合图像与声音信息的视频标注

摘要

著录项

相似文献

相关主题

期刊订阅