首页> 外文会议>IEEE International Symposium on Biomedical Imaging >MMBERT: Multimodal BERT Pretraining for Improved Medical VQA
【24h】

MMBERT: Multimodal BERT Pretraining for Improved Medical VQA

机译:MMBERT:改进医疗VQA的多模式烫伤预借鉴

获取原文

摘要

Images in the medical domain are fundamentally different from the general domain images. Consequently, it is infeasible to directly employ general domain Visual Question Answering (VQA) models for the medical domain. Additionally, medical image annotation is a costly and time-consuming process. To overcome these limitations, we propose a solution inspired by self-supervised pretraining of Transformer-style architectures for NLP, Vision, and Language tasks. Our method involves learning richer medical image and text semantic representations using Masked Vision-Language Modeling as the pretext task on a large medical image + caption dataset. The proposed solution achieves new state-of-the-art performance on two VQA datasets for radiology images – VQA-Med 2019 and VQA-RAD, outperforming even the ensemble models of previous best solutions. Moreover, our solution provides attention maps which help in model interpretability.
机译:医疗领域中的图像与总域图像根本不同。 因此,直接采用医疗领域的一般域视觉问题应答(VQA)模型即可令人遗憾。 此外,医学图像注释是一种昂贵且耗时的过程。 为了克服这些限制,我们提出了一种通过对NLP,Vision和语言任务的变压器风格架构的自我监督预借鉴的解决方案。 我们的方法涉及使用蒙版视图语言建模来学习更丰富的医学图像和文本语义表示,作为大型医学图像+标题数据集的借口任务。 该提出的解决方案在两个VQA数据集上实现了新的最新性能,用于放射线图像 - VQA-MED 2019和VQA-RAD,即使是先前最佳解决方案的集合模型也是优越的。 此外,我们的解决方案提供了注意图,有助于模型解释性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号