【24h】

Visual versus Textual Embedding for Video Retrieval

机译:可视与文本嵌入进行视频检索

获取原文

摘要

This paper compares several approaches of natural language access to video databases. We present two main strategies. The first one is visual, and consists in comparing keyframes with images retrieved from Google Images. The second one is textual and consists in generating a text-based description of the keyframes, and comparing these descriptions with the query. We study the effect of several parameters and find out that substantial improvement is possible by choosing the right strategy for a given topic. Finally we investigate a method for choosing the right approach for a given topic.
机译:本文比较了几种自然语言访问视频数据库的方法。我们提出两种主要策略。第一个是可视化的,它包括将关键帧与从Google图像检索到的图像进行比较。第二个是文本的,主要在于生成关键帧的基于文本的描述,并将这些描述与查询进行比较。我们研究了几个参数的效果,发现通过为给定主题选择正确的策略可以实现实质性的改进。最后,我们研究一种为给定主题选择正确方法的方法。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号