首页> 中国专利> 一种基于知识的视觉问答任务下的多模态信息融合方法

一种基于知识的视觉问答任务下的多模态信息融合方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明涉及计算机视觉和自然语言处理领域，具体涉及的是一种基于知识的视觉问答任务下的多模态信息融合方法。本发明将外部知识作为一个单独的模态，拓展了基于知识的视觉问答的思路；使用纯正的注意力方法将自然语言问题、图像和三元组形式的知识这三个模态进行深层的融合，为基于知识的视觉问答任务提供了新颖有效地解决方案，本发明提出的多模态融合技术不局限于基于知识的视觉问答任务，可以将其扩展到其他多模态任务当中去；使用新颖有效地位置编码方法为图像的位置进行编码，比传统方法中不利用图像位置信息或者使用图像区域坐标作为位置信息，本发明中的位置编码更加有效，可以高效的解决基于知识的视觉问答任务中跟图像位置相关的问题。

著录项

公开/公告号CN113240046A

专利类型发明专利
公开/公告日2021-08-10

原文格式PDF
申请/专利权人哈尔滨工程大学;
展开▼

申请/专利号CN202110611831.2
发明设计人张智;杨建行;王哲;姚海波;王立鹏;张雯;韩遥;
展开▼

申请日2021-06-02
分类号G06K9/62(20060101);G06F16/583(20190101);G06F40/30(20200101);G06N3/04(20060101);G06N3/08(20060101);
代理机构
代理人
地址 150001 黑龙江省哈尔滨市南岗区南通大街145号哈尔滨工程大学科技处知识产权办公室
入库时间 2023-06-19 12:10:19

法律信息

法律状态公告日

法律状态信息

法律状态
2023-01-03

授权

发明专利权授予

相似文献

专利
中文文献
外文文献

1. 一种基于知识的视觉问答任务下的多模态信息融合方法 [P] . 中国专利： CN113240046A . 2021-08-10
2. 基于知识引导深度注意力网络的场景文字视觉问答方法 [P] . 中国专利： CN113792177A . 2021-12-14
3. A DEVICE AND METHOD FOR EVALUATING A PERFORMANCE OF A VISUAL EQUIPMENT FOR A VISUAL TASK [P] . EP3941332A1 . 2022-01-26

机译：一种用于评估视觉任务的视觉设备性能的设备和方法
4. A DEVICE AND METHOD FOR EVALUATING A PERFORMANCE OF A VISUAL EQUIPMENT FOR A VISUAL TASK [P] . EP3941331A1 . 2022-01-26

机译：一种用于评估视觉任务的视觉设备性能的设备和方法
5. A COMPUTER-IMPLEMENTED METHOD AND SYSTEM FOR PREVENTING SIGHT DETERIORATION CAUSED BY PROLONGED USE OF ELECTRONIC VISUAL DISPLAYS IN LOW-LIGHT CONDITIONS [P] . EP3759444B1 . 2021-08-25

机译：一种用于防止在低光条件下使用电子视觉显示器引起的防止视觉劣化的计算机实现的方法和系统