视觉语言分析：从底层视觉特征表达到语义距离学习

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的发展，网络图像资源与日剧增，伴随而来的是围绕着网络图像为对象的众多研究课题，比如图像标注、图像检索、图像搜索结果聚类、重复图像检测、图像标签推荐、图像索引、图像分类、物体检测等。这些相关研究都需要从根本上解决一个问题，即视觉语义的表达和度量。因此该问题成为了网络图像研究的一个基本和核心的问题，也是目前学术界和工业界的重要研究方向。
　　目前来看，视觉语义的表达和度量主要包含四个基本问题，即图像表达、图像相似度量、概念表达和概念相关度量。图像表达是指图像的特征以及特征的组织形式。图像特征可以生成有一定分辨能力的视觉单词、视觉短语。图像的表达形式也是多种多样，比如有忽略特征间关系的，有考虑在一幅图像中空间关系的或者共发频率的，等等。图像的距离度量是在特定图像表达之上通过机器学习的方法得到的。选择不同的图像特征和图像表达，图像的距离度量或许不一样。同样，概念表达是指概念的特征及其组织形式。概念的特征是以众多包含某个概念的图像集合上提取的视觉特征为基础建立的模型，它的通常形式是某个视觉单词或者短语出现的频率、共发频率、条件分布、或者转移概率。目前有很多概念建模的方法，比如二维隐马尔可夫模型、条件随机场模型等。本文的后一部分章节将详细讨论我们提出的视觉语言模型，保语义单词包模型，并和其他各种模型进行比较。概念距离度量是建立在特定的概念表达模型或者文本语义关联之上的概念之间的相关性度量。目前常用的度量方法包括词网距离、谷歌距离、以及我们提出的Flickr距离。
　　本文提出了解决视觉语义的表达和度量的一系列模型和方法，既有底层特征的创新，也有高层语义模型和距离度量方面的创新。发表的工作涉及了以上提及的四个方面挑战，为视觉语义的表达和度量相关研究提供了有意义的探索。具体来说本文的成果和创新之处包括以下几点：
　　 1.本文提出了视觉语言模型，减小了视觉领域和文本领域的语义分析的鸿沟。我们认为图像的局部特征和文本中的单词一样是满足一定的语法顺序的。利用计算这些局部特征在空间位置上的条件分布来表达这种语法顺序，就可以近似的估测图像中的视觉语义。因为该模型和文本分析中的自然语言模型形式上类似，因此很多文本分析中的方法可以很容易在该模型中推广。实验结果表明该模型效果和很多复杂的模型相近，但运算速度远远超过其它模型，可以很好的应用在大规模数据上。
　　 2.本文提出了保语义单词包模型来处理语义鸿沟问题。我们提出了一种语义鸿沟度量方法，并通过选择从视觉特征到视觉单词的映射空间来最小化语义鸿沟，从而使得我们产生的词典可以有更好的分辨能力。实验也证明了利用最小化语义鸿沟方法生成的词典在图像标注问题中效果明显优于其他方法。
　　 3.本文提出了概率相关成分分析方法用来改进图像相似度量。概率相关成分分析将图像之间的边信息表达为概率的形式而不是传统的非0即1的二进制表达，提高了图像距离学习的精度。网络图像标注的应用显示出该方法比传统的距离学习方法更加高效和准确。
　　 4.本文提出了基于视觉特征的概念相关性度量方法：Flickr距离。该距离可以用来度量两个概念的不相关度。我们认为相关的概念同时出现在同一幅图像中概率比较大。因此计算和两个概念分别相关的图像的视觉语言模型的差别，就可以有效地度量概念之间的不相关度。和其它基于文本的概念距离度量方法不同，Flickr距离应用了概念相关的图片信息，从视觉角度度量了概念的相关性。在多媒体相关的应用问题中可以显著地提高性能。和人工建立的词网距离比较，Flickr距离可以自动更新以覆盖更多的新概念，和传统的谷歌距离比较，Flickr距离利用了视觉信息，实验证明其更加符合人类的认知。
　　 5.本文将传统的线性空间距离学习推广到了非线性空间距离，提出了Bregman距离函数学习方法。传统的Mahalanobis距离学习是需要学习一个距离矩阵。该距离度量在整个空间中是一致的。而样本在空间的分布疏密可能是有差别的。利用Bregman距离学习可能得到一个和样本相关的度量，考虑了局部分布的特性，因此可能更加准确。实验表明该方法可以比其他方法更好地处理高维空间的距离学习问题。
　　 6.本文将传统的静态距离推广到了动态距离，提出了QOSS子空间选取方法。我们认为观测角度(度量空间)不同，对样本的距离度量会产生很大的影响。因此在判断两个样本是否相近的时候，在多个子空间中度量比在单个子空间度量要准确。我们提出了根据样本特性，自动选取多个子空间的策略对样本相似性进行度量。在网络图像近似重复检测中，我们发现经过不超过5轮迭代，检测精度可以显著提高。

著录项

作者
吴磊;
展开▼
作者单位

中国科学技术大学;

展开▼
授予单位中国科学技术大学;
学科信号与信息处理
授予学位博士
导师姓名俞能海,李明镜;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类多媒体情报检索系统;
关键词
网络图像; 图像检索; 图像搜索; 视觉语言; 视觉特征表达; 语义距离学习;

相似文献

中文文献
外文文献
专利

1. 深度特征表达与学习的视觉跟踪算法分析 [J] . 周凤 ,佟艳艳 ,季世龙 . 黑龙江科学 . 2021,第020期
2. 基于深度特征表达与学习的视觉跟踪算法研究 [J] . . 电子与信息学报 . 2015,第009期
3. 插画艺术在当代视觉传达设计中的视觉语言分析 [J] . 章玉宛 ,蒋北汉 . 宿州学院学报 . 2019,第006期
4. 利用多层视觉网络模型进行图像局部特征表征的方法 [J] . 郎波 ,黄静 ,危辉 . 计算机辅助设计与图形学学报 . 2015,第004期
5. 现代商业空间视觉语汇特征表现探议 [J] . 孙皓 . 商业时代 . 2010,第033期
6. 不同观测条件下达到肉眼视觉阈值的无组织排放炭黑尘浓度估算 [C] . 张海波 ,汪楠 ,刘继兴 . 2015年中国环境科学学会年会 . 2015
7. 基于深度结构特征表示学习的视觉跟踪研究 [A] . 周阿健 . 2020

视觉语言分析：从底层视觉特征表达到语义距离学习

目录

摘要

著录项

相似文献

相关主题

期刊订阅