首页> 中文学位 >GIS空间数据分析中的分类变量相似度研究
【6h】

GIS空间数据分析中的分类变量相似度研究

代理获取

目录

声明

致谢

摘要

1 绪论

1.1 研究背景与研究意义

1.2 国内外研究现状

1.2.1 基于频率的分类变量相似度度量方法

1.2.2 基于本体的相似度度量方法

1.2.3 基于概率语言模型的相似度度量方法

1.2.4 空间数据分析中语义相似度度量的应用

1.2.5 存在的问题

1.3 创新点和主要研究工作

1.4 论文的组织结构

2 基础理论与相关技术

2.1 基于频率的分类变量相似度度量方法

2.1.1 基于频率的无监督分类变量相似度算法

2.1.2 基于频率的有监督分类变量相似度算法

2.2 词汇向量

2.2.1 词汇分布表示与统计语言模型

2.2.2 词汇向量模型

2.2.3 CBOW模型和Skip-gram模型

2.3 经典分类器模型

2.3.1 K最近邻分类器

2.3.2 感知机模型

2.3.3 朴素贝叶斯分类器

2.4 距离度量

2.4.1 闵可夫斯基距离

2.4.2 f-散度

3 基于分类器模型的分类变量相似度研究

3.1 基于分类器模型构建分类变量相似度的基本思想

3.2 相似度问题的形式化描述

3.3 基于朴素近似熵的分类变量相似度构建方法

3.3.1 分类器模型的选择

3.3.2 基于朴素近似熵的分类变量相似度方法

3.3.3 基于朴素近似熵的分类变量相似度方法在K-Modes中的应用

3.4 实验与结果分析

3.4.1 NAES的准确性验证

3.4.2 NAES的有效性验证

3.5 本章小结

4 朴素贝叶斯分类器在相似度度量中的适用性分析

4.1 朴素贝叶斯分类器的距离模型分析

4.1.1 朴素贝叶斯分类器的改进算法分析

4.1.2 互信息匹配的半朴素贝叶斯分类器

4.2 朴素贝叶斯分类器的空间模型分析

4.2.1 朴素贝叶斯分类器的分类准确度与Hellinger距离的关系

4.2.2 基于Hellinger距离的属性选择算法

4.3 实验及结果分析

4.3.1 互信息匹配的半朴素贝叶斯分类器的实验与结果分析

4.3.2 基于Hellinger距离的属性选择算法的实验与结果分析

4.4 本章小结

5基于Hellinger距离的相似度研究

5.1 Hellinger距离分类器

5.1.1 基于距离的分类器模型

5.1.2 基于Hellinger距离的分类器

5.2 基于Hellinger距离的分类变量相似度

5.3 实验与结果分析

5.3.2 基于Hellinger距离的相似度的准确性验证

5.3.3 基于Hellinffer距离的相似度在K-Modes算法中的有效性验证

5.4 本章小结

6 基于空间对象相似度的城市商业空间结构分析

6.1 城市商业空间结构的分析方法

6.1.1 数据酌获取

6.1.2 数据的预处理

6.1.3 基于Hellinger距离分类变量相似度的商业评价指数计算

6.2 空间分布的可视化分析

6.3 与已有空间数据分析方法的对比

6.4 本章小结

7 结论与展望

7.1 研究工作总结

7.2 未来工作展望

参考文献

作者简历

学位论文数据集

展开▼

摘要

随着空间数据采集技术和数据分析技术的快速进步,GIS在多源数据融合和语义信息分析等领域形成了新的研究热点,使得空间数据分析对人和社会活动进行描述的能力获得了极大的加强。GIS空间数据分析对社会空间、行为地理和城市空间结构分析等领域的研究产生了积极的促进作用。
  空间数据中包含大量的分类变量,例如地名和空间对象的属性中描述性的内容,提取分类变量中包含的语义信息对于空间数据分析非常重要。当前主流的语义关系分析方法包括基于频率的相似度度量方法、基于本体的相似度度量方法和基于概率语言模型的相似度度量方法三种。对GIS空间数据分析而言,基于频率的相似度度量方法适合处理关系数据库,但是精确度较低且测度性能也不理想;基于本体的相似度度量方法受可用本体的限制,多数集中在检索与匹配类的应用,难以扩展到其他领域;基于概率语言模型的相似度度量因为需要大量的训练数据,所以很难在一般规模的数据集上有效应用。此外,由于空间数据分析常见于地学、计算机科学与相关学科的跨学科研究,其研究问题、测试数据与解决方法之间相结合的难度很大,所以现有的相似度度量与空间数据分析的结合也面临很大挑战。
  针对GIS空间数据分析中面临的缺乏既适用于结构化数据又能处理包含复杂数据类型多源数据的语义相似度度量方法的问题,提出了两种新的相似度度量方法,并将新方法应用于空间结构分析问题中,取得了良好的效果。主要创新性研究成果包括以下三个方面:
  (1)针对基于频率的相似度度量方法准确度较差的问题,通过借鉴朴素贝叶斯分类器的分类思想提出一种基于朴素近似熵的分类变量相似度。该方法首先在生成模型的基础上构建代表分类变量的数据子集,并基于子集中数据对象的朴素近似熵构建代表分类变量的特征向量,最后计算特征向量间的距离作为分类变量间的相似度。通过在公共数据集上的实验验证,单独使用或代入k-modes聚类算法替代原有的相似度度量时,性能均优于现有方法。
  (2)针对一部分表达精度较好的相似度方法作为测度无法满足对称性和三角不等式要求的问题,以概率语言模型中的分布假设为基础提出一种基于分布差异的Hellinger距离相似度度量方法。该方法用Hellinger距离来表示不同分类变量所包含的同一属性间的分布差异,然后以差异作为元素来构造代表分类变量的特征向量,最后计算向量间的距离作为相似度。Hellinger距离不但在差异表达上有很好的精度,同时还满足测度性能上非负、对称和三角不等式的要求。实验结果表明,单独使用或代入k-modes聚类算法替代原有的相似度度量时,性能均优于现有方法,同时对不平衡数据集的适用性上也得到很大提高。
  (3)针对语义分析方法与传统问题相结合存在较多困难的问题,将分类变量的语义相似度推广到数据对象之间的语义相似度,结合基于Hellinger距离的分类变量相似度提出一种基于语义相似度的商业空间特征提取与结构分析方法,利用从WebGIS上收集的互联网数据对城市商业空间结构进行分析。该方法通过计算并比较区域间的经济评价指数对城市商业空间结构进行描述,并以百度地图为数据来源,完成了对沈阳市商业空间结构的分析。分析结果不但验证了新提出的分类变量相似度度量方法,还扩展了空间数据分析与互联网空间数据在城市空间结构研究中的应用领域。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号