面向视觉语言理解与生成的多模态预训练方法

刘天义; 吴祖煊; 陈静静; 姜育刚

首页> 中文期刊> 《软件学报》 >面向视觉语言理解与生成的多模态预训练方法

面向视觉语言理解与生成的多模态预训练方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

大多数现有的视觉语言预训练方法侧重于理解任务,并在训练时使用类似于BERT的损失函数(掩码语言建模和图像文本匹配).尽管它们在许多理解类型的下游任务中表现良好,例如视觉问答、图像文本检索和视觉蕴涵,但它们不具备生成信息的能力.为了解决这个问题,提出了视觉语言理解和生成的统一多模态预训练(unified multimodal pre-training for vision-language understanding and generation,UniVL).UniVL能够处理理解任务和生成任务,并扩展了现有的预训练范式,同时使用随机掩码和因果掩码,因果掩码即掩盖未来标记的三角形掩码,这样预训练的模型可以具有自回归生成的能力.将几种视觉语言理解任务规范为文本生成任务,并使用基于模版提示的方法对不同的下游任务进行微调.实验表明,在使用同一个模型时,理解任务和生成任务之间存在权衡,而提升这两个任务的可行方法是使用更多的数据.UniVL框架在理解任务和生成任务方面的性能与最近的视觉语言预训练方法相当.此外,实验还证明了基于模版提示的生成方法更有效,甚至在少数场景中它优于判别方法.

著录项

来源
《软件学报》 |2023年第5期|2024-2034|共11页
作者
刘天义; 吴祖煊; 陈静静; 姜育刚;
展开▼
作者单位

复旦大学计算机科学技术学院;

上海市智能信息处理重点实验室(复旦大学);

上海市智能视觉计算协同创新中心(复旦大学);

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
计算机视觉; 多模态学习; 预训练;

相似文献

中文文献
外文文献
专利

1. 视觉⁃语言多模态预训练模型前沿进展 [J] . 朱若琳 ,蓝善祯 ,朱紫星 . 中国传媒大学学报:自然科学版 . 2023,第1期
2. 行动为基础的语言观及其对语言学习机制的诠释:一个有关语言习得、理解以及生成的理论 [J] . 官群 . 山东外语教学 . 2014,第2期
3. 预训练驱动的多模态边界感知视觉Transformer [J] . 石泽男 ,陈海鹏 ,张冬 . 软件学报 . 2023,第5期
4. 音频驱动跨模态视觉生成算法综述 [J] . 姜莱 ,于震 ,王鹏飞 . 图学学报 . 2022,第2期
5. 面向视觉问答的跨模态交叉融合注意网络 [J] . 王茂 ,彭亚雄 ,陆安江 . 计算机应用 . 2022,第3期
6. 论视觉符号的“文字观”和生成论的“语言观”——从“语文一体”的教学理念反思文字观和语言观 [C] . 张朋朋 . 第三届汉字与汉字教育国际研讨会 . 2012

面向视觉语言理解与生成的多模态预训练方法

摘要

著录项

相似文献

相关主题

期刊订阅