Generating Question Relevant Captions to Aid Visual Question Answering

机译：生成与问题相关的标题以辅助视觉问题解答

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

Visual question answering (VQA) and image captioning require a shared body of general knowledge connecting language and vision. We present a novel approach to improve VQA performance that exploits this connection by jointly generating captions that are targeted to help answer a specific visual question. The model is trained using an existing caption dataset by automatically determining question-relevant captions using an online gradient-based method. Experimental results on the VQA v2 challenge demonstrates that our approach obtains state-of-the-art VQA performance (e.g. 68.4% on the Test-standard set using a single model) by simultaneously generating question-relevant captions.

机译：视觉问题解答（VQA）和图像字幕需要连接语言和视觉的共同知识体系。我们提出了一种改进VQA性能的新颖方法，该方法通过联合生成旨在帮助回答特定视觉问题的字幕来利用此连接。通过使用基于在线梯度的方法自动确定与问题相关的字幕，使用现有的字幕数据集对模型进行训练。针对VQA v2挑战的实验结果表明，我们的方法通过同时生成与问题相关的标题，获得了最先进的VQA性能（例如，使用单个模型的测试标准集为68.4％）。

著录项

来源
《Annual meeting of the Association for Computational Linguistics》|2019年|3585-3594|共10页
会议地点
作者
Jialin Wu; Zeyuan Hu; Raymond J. Mooney;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类
关键词

相似文献

外文文献
中文文献
专利

1. Automatically generating effective search queries directly from community question-answering questions for finding related questions [J] . Figueroa Alejandro Expert Systems with Application . 2017,第Jula期

机译：直接从社区问答中自动生成有效的搜索查询，以查找相关问题
2. Multiple answers to a question: a new approach for visual question answering [J] . Hosseinabad Sayedshayan Hashemi, Safayani Mehran, Mirzaei Abdolreza The Visual Computer . 2021,第1期

机译：问题的多个答案：一种新的视觉问题接听方法
3. Question-aware prediction with candidate answer recommendation for visual question answering [J] . B. Kim, J. Kim Electronics Letters . 2017,第18期

机译：带有候选答案推荐的问题感知预测，用于视觉问答
4. Generating Question Relevant Captions to Aid Visual Question Answering [C] . Jialin Wu, Zeyuan Hu, Raymond J. Mooney Annual meeting of the Association for Computational Linguistics . 2019

机译：生成问题相关标题，以帮助视觉问题
5. Attention Correction Mechanisms in Visual Contexts in Visual Question Answering [D] . Sharan, Komal 2018

机译：视觉问答中视觉上下文中的注意力纠正机制
6. A dataset of clinically generated visual questions and answers about radiology images [O] . Jason J. Lau, Soumya Gayen, Asma Ben Abacha, 2018

机译：临床产生的有关放射影像的视觉问题和答案的数据集
7. Generating Question Relevant Captions to Aid Visual Question Answering [O] . Jialin Wu, Zeyuan Hu, Raymond Mooney 2019

机译：生成问题相关标题，以帮助视觉问题

Generating Question Relevant Captions to Aid Visual Question Answering

摘要

著录项

相似文献

相关主题

期刊订阅