首页> 中文学位 >视觉语言分析:从底层视觉特征表达到语义距离学习
【6h】

视觉语言分析:从底层视觉特征表达到语义距离学习

代理获取

目录

文摘

英文文摘

论文说明:图表目录

声明

第1章绪论

1.1 图像分析和标注的发展简述

1.2图像分析和标注的关键问题

1.2.1语义鸿沟问题(Semantic Gap)

1.2.2大尺度问题(Large Scale)

1.2.3文本和视觉差异(Gap Between Text and Image)

1.2.4概念表达问题(Semantic Representation)

1.2.5相似性度量问题(Similarity Measurement)

1.3研究目的和任务

1.4主要内容和结构安排

第2章低层视觉分析

2.1视觉特征

2.1.1灰度平均值

2.1.2图像矩

2.1.3纹理直方图

2.1.4旋转不变纹理直方图

2.1.5尺度不变特征变换(SIFT)

2.2从视觉特征到视觉单词

2.2.1利用主成分分析进行映射

2.2.2通过聚类映射

2.2.3哈希编码映射

2.2.4通过距离学习的方法映射

2.2.5通过多种途径映射

2.3图像表达

2.4小结

第3章图像距离度量

3.1图像距离

3.2静态距离度量

3.3动态距离度量(QOSS)

3.4 Mahalanobis距离

3.5传统Mahanalobis距离学习

3.5.1相关成分分析(RCA)

3.5.2区分成分分析(DCA)

3.5.3邻近成分分析(NCA)

3.5.4最大边际近邻分类(LMNN)

3.6概率相关成分分析(pRCA)

3.6.1确定边信息和非确定边信息

3.6.2非确定边信息生成

3.6.3计算

3.6.4基于非确定边信息的图像距离学习

3.6.5算法

3.7概率区分成分分析(pDCA)

3.8 Bregman距离学习(Bregman Distance)

3.8.1 Bregman距离函数

3.8.2 Bregman距离学习

3.8.3算法

3.9小结

第4章高层语义分析

4.1“概念”定义

4.2单词包模型(BoW)

4.2.1 Naive Bayes分类框架

4.2.2分层Bayes分类框架

4.2.3基于单词包模型的图像表达

4.3二维隐马尔科夫模型(2D HMM)

4.4视觉语言模型(VLM)

4.4.1一元视觉语言模型

4.4.2二元视觉语言模型

4.4.3三元视觉语言模型

4.5尺度不变视觉语言模型(m-VLM)

4.5.1尺度问题

4.6保语义单词包模型(SPBoW)

4.6.1模型的原理

4.6.2视觉物体表达

4.6.3基于学习的词典优化

4.6.4词典生成过程

4.6.5视觉单词直方图

4.7保语义单词包模型在生成式和区分式模型中的应用

4.7.1生成式模型

4.7.2区分式模型

4.8小结

第5章视觉概念距离度量

5.1视觉概念距离研究概况

5.2词网距离(WordNet Distance)

5.3谷歌距离(Google Distance)

5.4标签共发距离(Tag Concurrence Distance)

5.5 Flickr距离(FD)(Flickr Distance)

5.5.1 Flickr距离概述

5.5.2概念距离度量

5.6视觉概念网络

5.7各种概念距离度量方法的测评

5.7.1主观测评

5.7.2客观测评

5.8小结

第6章应用

6.1 近似图像检测(Near-Duplicate Detection)

6.1.1方法概述

6.1.2离线索引

6.1.3在线检测

6.1.4实验设置

6.1.5客观评测

6.1.6结果比较

6.2基于搜索的图像标注(Search Based Image Annotation)

6.2.1相关研究背景介绍

6.2.2自动图像标注

6.2.3结果比较

6.3基于内容的图像分类(Content Based Image Classification)

6.3.1利用视觉语言模型进行图像分类

6.3.2合理利用未现单词进行图像分类

6.3.3图像分类实验

6.4视觉概念聚类(Visual Concept Clustering)

6.5社会网络图像标注推荐(Social Media Recommendation)

6.5.1实验过程

6.5.2评价

6.5.3 比较标签共发和多模态相关算法

6.5.4比较Rankboost和线性叠加算法

6.6小结

第7章总结和展望

7.1视觉语言分析及距离度量的本质

7.2本文的学术价值

7.3视觉分析与度量的未来发展

参考文献

致谢

在读期间发表的学术论文与取得的研究成果

展开▼

摘要

随着互联网的发展,网络图像资源与日剧增,伴随而来的是围绕着网络图像为对象的众多研究课题,比如图像标注、图像检索、图像搜索结果聚类、重复图像检测、图像标签推荐、图像索引、图像分类、物体检测等。这些相关研究都需要从根本上解决一个问题,即视觉语义的表达和度量。因此该问题成为了网络图像研究的一个基本和核心的问题,也是目前学术界和工业界的重要研究方向。
   目前来看,视觉语义的表达和度量主要包含四个基本问题,即图像表达、图像相似度量、概念表达和概念相关度量。图像表达是指图像的特征以及特征的组织形式。图像特征可以生成有一定分辨能力的视觉单词、视觉短语。图像的表达形式也是多种多样,比如有忽略特征间关系的,有考虑在一幅图像中空间关系的或者共发频率的,等等。图像的距离度量是在特定图像表达之上通过机器学习的方法得到的。选择不同的图像特征和图像表达,图像的距离度量或许不一样。同样,概念表达是指概念的特征及其组织形式。概念的特征是以众多包含某个概念的图像集合上提取的视觉特征为基础建立的模型,它的通常形式是某个视觉单词或者短语出现的频率、共发频率、条件分布、或者转移概率。目前有很多概念建模的方法,比如二维隐马尔可夫模型、条件随机场模型等。本文的后一部分章节将详细讨论我们提出的视觉语言模型,保语义单词包模型,并和其他各种模型进行比较。概念距离度量是建立在特定的概念表达模型或者文本语义关联之上的概念之间的相关性度量。目前常用的度量方法包括词网距离、谷歌距离、以及我们提出的Flickr距离。
   本文提出了解决视觉语义的表达和度量的一系列模型和方法,既有底层特征的创新,也有高层语义模型和距离度量方面的创新。发表的工作涉及了以上提及的四个方面挑战,为视觉语义的表达和度量相关研究提供了有意义的探索。具体来说本文的成果和创新之处包括以下几点:
   1.本文提出了视觉语言模型,减小了视觉领域和文本领域的语义分析的鸿沟。我们认为图像的局部特征和文本中的单词一样是满足一定的语法顺序的。利用计算这些局部特征在空间位置上的条件分布来表达这种语法顺序,就可以近似的估测图像中的视觉语义。因为该模型和文本分析中的自然语言模型形式上类似,因此很多文本分析中的方法可以很容易在该模型中推广。实验结果表明该模型效果和很多复杂的模型相近,但运算速度远远超过其它模型,可以很好的应用在大规模数据上。
   2.本文提出了保语义单词包模型来处理语义鸿沟问题。我们提出了一种语义鸿沟度量方法,并通过选择从视觉特征到视觉单词的映射空间来最小化语义鸿沟,从而使得我们产生的词典可以有更好的分辨能力。实验也证明了利用最小化语义鸿沟方法生成的词典在图像标注问题中效果明显优于其他方法。
   3.本文提出了概率相关成分分析方法用来改进图像相似度量。概率相关成分分析将图像之间的边信息表达为概率的形式而不是传统的非0即1的二进制表达,提高了图像距离学习的精度。网络图像标注的应用显示出该方法比传统的距离学习方法更加高效和准确。
   4.本文提出了基于视觉特征的概念相关性度量方法:Flickr距离。该距离可以用来度量两个概念的不相关度。我们认为相关的概念同时出现在同一幅图像中概率比较大。因此计算和两个概念分别相关的图像的视觉语言模型的差别,就可以有效地度量概念之间的不相关度。和其它基于文本的概念距离度量方法不同,Flickr距离应用了概念相关的图片信息,从视觉角度度量了概念的相关性。在多媒体相关的应用问题中可以显著地提高性能。和人工建立的词网距离比较,Flickr距离可以自动更新以覆盖更多的新概念,和传统的谷歌距离比较,Flickr距离利用了视觉信息,实验证明其更加符合人类的认知。
   5.本文将传统的线性空间距离学习推广到了非线性空间距离,提出了Bregman距离函数学习方法。传统的Mahalanobis距离学习是需要学习一个距离矩阵。该距离度量在整个空间中是一致的。而样本在空间的分布疏密可能是有差别的。利用Bregman距离学习可能得到一个和样本相关的度量,考虑了局部分布的特性,因此可能更加准确。实验表明该方法可以比其他方法更好地处理高维空间的距离学习问题。
   6.本文将传统的静态距离推广到了动态距离,提出了QOSS子空间选取方法。我们认为观测角度(度量空间)不同,对样本的距离度量会产生很大的影响。因此在判断两个样本是否相近的时候,在多个子空间中度量比在单个子空间度量要准确。我们提出了根据样本特性,自动选取多个子空间的策略对样本相似性进行度量。在网络图像近似重复检测中,我们发现经过不超过5轮迭代,检测精度可以显著提高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号