VQA; Bi-directional LSTMs; question attention; visual attention; Batch Normalization;
机译:动态内存网络增强了对问题的理解,可用于文本问题解答
机译:通过多模式分层内存周度网络应答的长期视频问题
机译:通过动态分层增强网络进行长视频提问
机译:使用分层动态内存网络应答的视觉问题
机译:推断回答质量,回答者专业知识以及对问题进行回答的社交网络的排名。
机译:用于视觉问题的有效密集的联合网络
机译:学习视觉知识记忆网络,用于视觉问题应答