首页> 中文学位 >面向多种数据类型的分布式相似性查询技术研究
【6h】

面向多种数据类型的分布式相似性查询技术研究

代理获取

目录

声明

摘要

第1章绪论

1.1研究背景

1.2研究目的和意义

1.3国内外研究现状和分析

1.3.1国内外研究现状

1.3.2研究现状分析

1.4相关工作

1.4.1分布式数据查询和分析处理技术

1.4.2面向各种数据类型的相似性查询技术

1.5本文的研究内容

1.6本文的组织结构

第2章面向支持树型索引的数据类型的分布式相似性查询方法

2.1问题提出

2.2预备知识

2.3支持树型索引的分布式查询框架

2.3.1树型索引

2.3.2分布式查询框架

2.4查询处理和更新算法

2.4.1范围查询

2.4.2 kNN查询

2.4.3更新处理

2.5副本调整算法和查询处理优化

2.5.1副本调整算法

2.5.2更新处理优化

2.6实验测试与分析

2.6.1实验设置

2.6.2范围查询的性能

2.6.3 kNN查询性能

2.6.4更新处理的性能

2.6.5索引树分离的效果

2.6.6缓存的效果

2.7本章小结

第3章面向空间文本数据的分布式相似性查询方法

3.1问题提出

3.2 hybrid-LSH索引结构

3.3适应性(D,R,c)-NN查询处理

3.3.1适应性(D,R,c)-NN查询

3.3.2多hybrid-LSH适应性查询方法

3.4约近kNN查询

3.5分布式处理算法和优化

3.5.1查询过程

3.5.2负载均衡

3.5.3容错性

3.6实验测试与分析

3.6.1实验设置

3.6.2参数c的影响

3.6.3(D,R,c)-NN查询的性能

3.6.4 kNN查询性能

3.7本章小结

第4章面向带有关联关系的数据的分布式相似性查询方法

4.1问题提出

4.2带关联关系的数据的相似性计算框架

4.3离线部分—决策树计算

4.3.1决策树分裂点精确算法

4.3.2决策树分裂点约近算法

4.4在线部分—查询处理

4.5实验

4.5.1实验设计

4.5.2实验结果和分析

4.6本章小结

第5章面向不确定数据基于余弦相似度的分布式相似性查询方法

5.1问题提出

5.2预备知识

5.3面向不确定性数据基于余弦相似度的查询框架UnCos

5.3.1索引构建部分

5.3.2查询处理

5.4分布式查询处理算法

5.4.1数据划分枢纽点的选择

5.4.2分布式查询算法

5.5实验测试与分析

5.5.1实验设置

5.5.2定理5.3的效果

5.5.3词组数的影响

5.5.4 kNN查询性能

5.5.5RkNN查询性能

5.5.6负载均衡

5.6本章小结

第6章结束语

6.1本文工作总结

6.2未来的研究方向

参考文献

致谢

攻博期间发表的论文

攻博期间参与的项目

作者简介

展开▼

摘要

近年来,随着通信技术和智能移动终端的发展和普及,在许多应用和网站中越来越多的网络用户从单纯的信息“消费者”变成了信息的“生产者”和“传播者”,如微博、博客、微视频等应用。互联网中信息的数据量在飞速增长的同时数据的类型呈现多样化的趋势,基于此用户享受到更加便捷的服务,如基于地理位置的服务,语音查询、图片查询等。面对大规模数据和复杂的数据类型,如何进行有效的管理成为数据库领域的研究热点。 本文深入研究了分布式环境下多种数据类型的相似性查询的相关问题,提出了针对各种数据类型的分布式查询框架,进一步提出了相应的NN查询、kNN、RkNN等相似性查询算法。本文的贡献点可概括如下。 (1)针对支持树型索引的数据类型,首先,通过分析树型索引的共性特征,包括B-tree、M-tree、R-tree等,提出一种基于Chord拓扑支持树型索引的框架。之后在该框架下,为了协调分布式环境中的查询操作和更新操作,可以根据查询更新模式动态调整索引节点的副本数量,从而实现在更新代价较低的情况下尽可能地提高查询的效率。并进一步提出了范围查询算法和kNN查询算法。最后,为了进一步提高查询性能和更新效率,基于该分布式查询框架提出了动态索引优化方法。 (2)针对空间文本混合数据类型,首先,结合空间文本数据类型的相似度计算的特征,提出了一种混合索引方法—hybrid-LSH,hybrid-LSH可以同时考虑空间相似度和文本相似度,以较大概率将相似的数据对象哈希到一个桶中,从而减少I/O代价,并从理论上分析了hybrid-LSH的准确性和有效性。其次,提出了可以处理变化查询范围的适应性的NN查询算法和kNN算法。最后,结合云计算技术,将算法扩展到分布式环境中,因为hybrid-LSH避免了传统方法的对对比较,而只在各个哈希桶内进行计算,从而大量地节省了计算代价和网络代价。 (3)针对带有关联关系的数据类型,首先,通过分析带有关联关系的数据类型的特征,提出了高效的面向该数据类型的分布式管理和查询框架。其次,通过分析决策树计算的特征,提出了高效的分布式决策树计算方法,该方法不需要对数据进行全局排序,而是只需要传输部分数据即可计算出满足质量的约近分裂点,通过理论分析证明了该方法约近的准确性和在计算复杂度方面的高效性。最后,在该框架下提出了基于决策树的相似性查询算法,该算法不需要比较所有的属性即可得出查询结果,从而节省了计算代价。 (4)针对不确定性的文本数据类型,首先,通过分析不确定文本数据的余弦相似度计算的特征,提出了高效的相似度计算方法和改进的索引结构sMVP-tree。其次,因为余弦距离不属于度量距离函数,很难对数据构建索引,而且传统的方法主要侧重于集中式环境,本文通过对余弦距离计算进行转换并提出了基于余弦相似度面向不确定性文本数据的相似性查询框架。最后,给出了基于sMVP-tree的查询过滤方法,并结合该相似性查询框架提出了分布式环境下面向不确定文本数据类型的kNN查询和RkNN查询算法。

著录项

  • 作者

    朱命冬;

  • 作者单位

    东北大学;

  • 授予单位 东北大学;
  • 学科 计算机软件与理论
  • 授予学位 博士
  • 导师姓名 申德荣;
  • 年度 2015
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    数据类型; 分布式; 相似性;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号