首页> 中文学位 >基于局部敏感哈希的实例匹配技术研究
【6h】

基于局部敏感哈希的实例匹配技术研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

第一节 研究背景与意义

第二节 研究内容和主要工作

第三节 论文的组织结构

第二章 相关技术研究

第一节 语义网相关知识

第二节 向量空间模型

第三节 局部敏感哈希

第四节 国内外研究现状

第五节 本章小结

第三章 基于局部敏感哈希的实例匹配方案设计

第一节 总体设计路线

第二节 预处理

第三节 重要谓语选择

第四节 谓语匹配

第五节 候选集提取

第六节 实例匹配

第七节 本章小结

第四章 基于局部敏感哈希的实例匹配技术实现

第一节 预处理模块实现

第二节 重要谓语选择模块实现

第三节 谓语匹配模块实现

第四节 候选集提取模块实现

第五节 实例匹配模块实现

第六节 本章小结

第五章 实验结果与分析

第一节 实验设置

第二节 实验设计及分析

第三节 本章小结

第六章 总结与展望

第一节 总结

第二节 展望

参考文献

致谢

个人简历 在学期间发表的学术论文和研究成果

展开▼

摘要

随着互联网技术的飞速发展,数据与日俱增,用户更加关心信息获取的实时性、准确性和相关性,而面向文档的互联网已无法满足当前的需求。语义网是一个面向数据的网络,它把所有的数据都关联在一起,使得用户能够通过它更快地获取到最准确、最相关的信息。近年来,语义网的数据集迅猛增长,但由于并没有统一的模式标准,很多新发布的数据孤立存在,因此数据集成的需求越来越重要。本文选择实例匹配作为研究目标,旨在从两个语义网数据集中把描述相同事物的实例提取出来。
  本文分析并总结了实例匹配技术在国内外的研究现状,列举了一些成熟的实例匹配系统,在此基础上选择目前数据挖掘领域高度关注的一种处理海量高维数据相似性发现的方法——局部敏感哈希作为主要基础,对实例匹配技术进行深入研究,主要工作包括:
  第一,对齐两个语义网数据集的模式信息,分析数据集的一些统计特征,计算谓语覆盖率和谓语辨别率来筛选重要谓语,并通过宾语的Jaccard距离实现谓语匹配。
  第二,用向量空间模型表示实例的数据集,借助局部敏感哈希算法来实现对相似实例的快速提取,详细介绍了将实例的空间向量转化为最小哈希签名矩阵的过程,设计并实现了面向最小哈希及余弦距离的局部敏感哈希方案,同时给出了局部敏感哈希的分布式实现策略。
  第三,根据谓语匹配置信度对局部敏感哈希算法得到的实例候选集进行精炼验证,计算得到最后的实例匹配结果。
  本文在真实的数据集上进行了大量的对比实验,对主要工作进行了验证。实验结果表明本文提出的实例匹配方案能够快速实现对两个数据集的实例匹配,在性能方面有显著的提升,同时借助Spark分布式框架,该方案能够支持对海量数据的处理。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号