基于局部敏感哈希的实例匹配技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网技术的飞速发展，数据与日俱增，用户更加关心信息获取的实时性、准确性和相关性，而面向文档的互联网已无法满足当前的需求。语义网是一个面向数据的网络，它把所有的数据都关联在一起，使得用户能够通过它更快地获取到最准确、最相关的信息。近年来，语义网的数据集迅猛增长，但由于并没有统一的模式标准，很多新发布的数据孤立存在，因此数据集成的需求越来越重要。本文选择实例匹配作为研究目标，旨在从两个语义网数据集中把描述相同事物的实例提取出来。
　　本文分析并总结了实例匹配技术在国内外的研究现状，列举了一些成熟的实例匹配系统，在此基础上选择目前数据挖掘领域高度关注的一种处理海量高维数据相似性发现的方法——局部敏感哈希作为主要基础，对实例匹配技术进行深入研究，主要工作包括：
　　第一，对齐两个语义网数据集的模式信息，分析数据集的一些统计特征，计算谓语覆盖率和谓语辨别率来筛选重要谓语，并通过宾语的Jaccard距离实现谓语匹配。
　　第二，用向量空间模型表示实例的数据集，借助局部敏感哈希算法来实现对相似实例的快速提取，详细介绍了将实例的空间向量转化为最小哈希签名矩阵的过程，设计并实现了面向最小哈希及余弦距离的局部敏感哈希方案，同时给出了局部敏感哈希的分布式实现策略。
　　第三，根据谓语匹配置信度对局部敏感哈希算法得到的实例候选集进行精炼验证，计算得到最后的实例匹配结果。
　　本文在真实的数据集上进行了大量的对比实验，对主要工作进行了验证。实验结果表明本文提出的实例匹配方案能够快速实现对两个数据集的实例匹配，在性能方面有显著的提升，同时借助Spark分布式框架，该方案能够支持对海量数据的处理。

著录项

作者
石彬;
展开▼
作者单位

南开大学;

展开▼
授予单位南开大学;
学科计算机软件与理论
授予学位硕士
导师姓名袁晓洁;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
语义网; 数据集成; 匹配技术; 数据挖掘; 敏感哈希算法;

相似文献

中文文献
外文文献
专利

1. 工件图像匹配的局部敏感哈希应用改进 [J] . 邵秀丽1 ,董子昊1 ,李子涵1 . 计算机科学与应用 . 2018,第005期
2. 基于实例的机器翻译中实例匹配算法的研究 [J] . 杨思春 ,汪光阳 . 计算机技术与发展 . 2003,第001期
3. 基于几何匹配的地名匹配更新技术研究 [J] . 王俊超 ,徐立 ,李媛媛 . 地理信息世界 . 2012,第006期
4. 基于实例分割的双目特征点匹配目标识别和定位研究 [J] . 李山坤 ,陈立伟 ,李爽 . 无线电工程 . 2020,第002期
5. 基于混合仿真的车门虚拟匹配尺寸预测方法与实例 [J] . 邵俊 ,于兴林 ,丁华 . 汽车工艺与材料 . 2020,第005期
6. 基于数据降维与精确欧氏局部敏感哈希的k近邻推荐方法 [C] . GUO Yudong ,郭喻栋 ,GUO Zhigang . 第十七届中国Rough集与软计算学术会议、第十一届中国Web智能学术研讨会、第十一届中国粒计算研讨会及第五届三支决策学术会议联合会议（CRSSC-CWI-CGrC-3WD 2017） . 2017
7. 基于近邻图的局部敏感哈希索引技术研究 [A] . 王凌霄 . 2017

基于局部敏感哈希的实例匹配技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅