视觉语言预训练综述

殷炯; 张哲东; 高宇涵; 杨智文; 李亮; 肖芒; 孙垚棋; 颜成钢

首页> 中文期刊> 《软件学报》 >视觉语言预训练综述

视觉语言预训练综述

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

近年来深度学习在计算机视觉(CV)和自然语言处理(NLP)等单模态领域都取得了十分优异的性能.随着技术的发展,多模态学习的重要性和必要性已经慢慢展现.视觉语言学习作为多模态学习的重要部分,得到国内外研究人员的广泛关注.得益于Transformer框架的发展,越来越多的预训练模型被运用到视觉语言多模态学习上,相关任务在性能上得到了质的飞跃.系统地梳理了当前视觉语言预训练模型相关的工作,首先介绍了预训练模型的相关知识,其次从两种不同的角度分析比较预训练模型结构,讨论了常用的视觉语言预训练技术,详细介绍了5类下游预训练任务,最后介绍了常用的图像和视频预训练任务的数据集,并比较和分析了常用预训练模型在不同任务下不同数据集上的性能.

著录项

来源
《软件学报》 |2023年第5期|2000-2023|共24页
作者
殷炯; 张哲东; 高宇涵; 杨智文; 李亮; 肖芒; 孙垚棋; 颜成钢;
展开▼
作者单位

杭州电子科技大学计算机学院;

杭州电子科技大学丽水研究院;

杭州电子科技大学自动化学院;

中国科学院计算技术研究所;

浙江大学医学院附属邵逸夫医院;

展开▼
原文格式 PDF
正文语种 chi
中图分类人工智能理论;
关键词
多模态学习; 预训练模型; TRANSFORMER; 视觉语言学习;

相似文献

中文文献
外文文献
专利

1. 视觉⁃语言多模态预训练模型前沿进展 [J] . 朱若琳 ,蓝善祯 ,朱紫星 . 中国传媒大学学报:自然科学版 . 2023,第1期
2. 面向视觉语言理解与生成的多模态预训练方法 [J] . 刘天义 ,吴祖煊 ,陈静静 . 软件学报 . 2023,第5期
3. 预训练语言模型的应用综述 [J] . 孙凯丽 ,罗旭东 ,罗有容 . 计算机科学 . 2023,第1期
4. 知识增强型预训练语言模型综述 [J] . 韩毅 ,乔林波 ,李东升 . 计算机科学与探索 . 2022,第7期
5. 基于语言模型的预训练技术研究综述 [J] . 岳增营 ,叶霞 ,刘睿珩 . 中文信息学报 . 2021,第9期
6. CPLM-CSC:基于单字级别预训练语言模型的中文错别字纠正方法 [C] . Haihua XIE ,谢海华 ,Aolin LI . 第十八届中国计算语言学大会暨中国中文信息学会2019学术年会 . 2018
7. 基于预训练语言模型的自然语言理解方法研究 [A] . 刘涛 . 2021

视觉语言预训练综述

摘要

著录项

相似文献

相关主题

期刊订阅