网络开源数据可用性评价系统

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在大数据时代，人们可以很方便快捷地通过不同的渠道在互联网上获取到各类数据。这些数据由于人为录入的错误、数据版本的不同、数据来源不同、人为篡改等原因往往会存在数据属性缺失、数据相似重复、数据属性值异常等问题。这些错误数据可能会造成数据冗余，浪费存储的空间，更严重有可能会导致数据挖掘时产生严重的偏差，进而给出错误的决策。针对上述问题，需要对三类错误的数据情况进行识别，评价数据的可用性，建立指标体系对数据的可用性进行打分。
　　本研究针对数据可用性评价的问题，设计实现了网络开源数据可用性评价系统，并阐述了属性缺失型数据、相似重复数据以及数值异常型数据的识别方法，用来计算定量评价指标的数值，并提出了从准确性、一致性、完整性、唯一性、时效性、可操作性、适用性等七个方面对数据可用性进行全面评价，建立数据可用性评价体系。首先实现对错误数据进行识别，其中包括对属性缺失型数据、相似重复数据、数值异常型数据分别进行识别并统计识别的结果。将识别的结果用来计算数据可用性评价中定量指标的数值。其中主要介绍了基于属性集差异的方法实现对列属性缺失型错误数据的识别，通过寻找具有规律排序的数字序列实现对行属性缺失型数据识别。使用改进的基于编辑距离的字段匹配算法和近邻排序算法实现对相似重复数据的识别。改进的基于编辑距离的字段匹配算法能够处理字符串顺序颠倒的情况，提高了算法的普适性。

著录项

作者
张元新;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名张宏莉;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
信息检索; 数据挖掘; 语义识别; 程序语言;

相似文献

中文文献
外文文献
专利

1. 试论网络教育质量评价系统的设计——以西南交通大学网络教育教学质量评价系统为例 [J] . 柳琼华 ,罗霄 . 福建商业高等专科学校学报 . 2007,第004期
2. 基于开源GIS的生态质量气象评价系统 [J] . 熊文兵 ,莫伟华 ,丁美花 . 国土资源遥感 . 2018,第002期
3. 开源软件的网络安全问题——以开源协议与进出口监管的冲突展开 [J] . 原浩 ,黄道丽 . 信息安全与通信保密 . 2019,第012期
4. 基于神经网络的计算机网络安全评价系统设计 [J] . 赵海盛 . 信息与电脑 . 2017,第019期
5. 基于神经网络的计算机网络安全评价系统研究 [J] . 肖敏 . 冶金丛刊 . 2016,第006期
6. 基于网络开源数据的出行OD矩阵推导方法 [C] . 胡桂松 ,李旭宏 . 2019年中国城市交通规划年会 . 2019
7. 开源系统网络教学平台及其学习评价系统的研究与实现 [A] . 祖文清 . 2008

网络开源数据可用性评价系统

目录

摘要

著录项

相似文献

相关主题

期刊订阅