基于Spark的高维数据相似性连接

成小海

首页> 中文期刊> 《计算机技术与发展》 >基于Spark的高维数据相似性连接

基于Spark的高维数据相似性连接

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

高维数据相似性连接(HDSJ)是指在给定的空间数据库中,频繁执行连接和距离计算操作找出向量空间满足给定条件的数据对.但是随着数据量和维数的增加,HDSJ的计算成本将呈指数增加.针对HDSJ在处理海量数据时效率不佳的问题,利用Spark集群分布式和基于内存并行计算特性,提出了基于Spark框架的HDSJ改进方法.该方法主要借助Spark中高效的RDD算子,使用分段聚合近似(PAA)表示原始的高维向量,用符号聚合近似(SAX)将表示后的向量重新组织成组,这样可以避免大量不必要的计算.PAA和SAX都是已有的降维技术,将二者结合使用可以很好地过滤掉大部分的干扰数据.实验结果证明,该方法在保证实验结果准确率的前提下提高了运算速率,比现有方法有更好的性能优势.

著录项

来源
《计算机技术与发展》 |2018年第8期|43-47|共5页
作者
成小海;
展开▼
作者单位

天津工业大学计算机科学与软件学院;

天津 300387;

展开▼
原文格式 PDF
正文语种 chi
中图分类程序设计、软件工程;
关键词
高维数据; 相似性连接; Spark; 分段聚合近似; 符号聚合近似;

相似文献

中文文献
外文文献
专利

1. 基于卡方分布的高维数据相似性连接查询算法 [J] . 马友忠 ,贾世杰 ,张永新 . 计算机应用 . 2016,第007期
2. 基于相似性度量的高维数据聚类算法研究 [J] . 王晓阳 ,张洪渊 ,沈良忠 . 计算机技术与发展 . 2013,第005期
3. 基于相似性保持和特征变换的高维数据聚类改进算法 [J] . 王家耀 ,谢明霞 ,郭建忠 . 测绘学报 . 2011,第003期
4. 一种基于相似性度量的高维数据聚类算法的研究 [J] . 黄斯达 ,陈启买 . 计算机应用与软件 . 2009,第009期
5. 基于相似性二次度量的高维数据聚类算法 [J] . 郏宣耀 . 计算机应用 . 2005,第B12期
6. 高维数据聚类中相似性度量方法的研究 [C] . 潘国涛 ,黄德才 . 2011年青年通信国际会议(ICYC2011) . 2011
7. 基于Spark的高维数据相似性连接算法的研究与实现 [A] . 成小海 . 2019

基于Spark的高维数据相似性连接

摘要

著录项

相似文献

相关主题

期刊订阅