首页> 中文学位 >网络开源数据可用性评价系统
【6h】

网络开源数据可用性评价系统

代理获取

目录

第1章 绪论

1.1 课题的来源与背景

1.2 课题的目的与意义

1.3 国内外研究综述

1.4本文主要研究内容

1.5论文组织结构

第2章 属性缺失型数据错误识别方法

2.1 问题描述

2.2 相关技术

2.3 属性缺失型数据错误识别方法

2.4实验结果与分析

2.5 本章小结

第3章 相似重复数据识别方法

3.1 问题描述

3.2 相似重复数据求解的整体流程

3.3 相似重复数据识别方法

3.4 实验结果与分析

3.5本章小结

第4章 数据可用性评价方法

4.1 数据可用性评价指标

4.2数据可用性的计算方法

4.3 实验结果

4.4本章小结

第5章 网络开源数据可用性评价系统

5.1 系统架构设计

5.2 系统功能模块设计

5.3 系统界面展示

5.4本章小结

结论

参考文献

声明

致谢

展开▼

摘要

在大数据时代,人们可以很方便快捷地通过不同的渠道在互联网上获取到各类数据。这些数据由于人为录入的错误、数据版本的不同、数据来源不同、人为篡改等原因往往会存在数据属性缺失、数据相似重复、数据属性值异常等问题。这些错误数据可能会造成数据冗余,浪费存储的空间,更严重有可能会导致数据挖掘时产生严重的偏差,进而给出错误的决策。针对上述问题,需要对三类错误的数据情况进行识别,评价数据的可用性,建立指标体系对数据的可用性进行打分。
  本研究针对数据可用性评价的问题,设计实现了网络开源数据可用性评价系统,并阐述了属性缺失型数据、相似重复数据以及数值异常型数据的识别方法,用来计算定量评价指标的数值,并提出了从准确性、一致性、完整性、唯一性、时效性、可操作性、适用性等七个方面对数据可用性进行全面评价,建立数据可用性评价体系。首先实现对错误数据进行识别,其中包括对属性缺失型数据、相似重复数据、数值异常型数据分别进行识别并统计识别的结果。将识别的结果用来计算数据可用性评价中定量指标的数值。其中主要介绍了基于属性集差异的方法实现对列属性缺失型错误数据的识别,通过寻找具有规律排序的数字序列实现对行属性缺失型数据识别。使用改进的基于编辑距离的字段匹配算法和近邻排序算法实现对相似重复数据的识别。改进的基于编辑距离的字段匹配算法能够处理字符串顺序颠倒的情况,提高了算法的普适性。

著录项

  • 作者

    张元新;

  • 作者单位

    哈尔滨工业大学;

  • 授予单位 哈尔滨工业大学;
  • 学科 计算机科学与技术
  • 授予学位 硕士
  • 导师姓名 张宏莉;
  • 年度 2017
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP311.13;
  • 关键词

    信息检索; 数据挖掘; 语义识别; 程序语言;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号