一种用于中文数据清洗的近邻排序算法

张培根; 黄树成

首页> 中文期刊> 《计算机应用与软件》 >一种用于中文数据清洗的近邻排序算法

一种用于中文数据清洗的近邻排序算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

为了解决传统近邻排序算法(SNM)在中文重复值数据清洗中的不足,提出基于中文分词和同义词检查的重复值清洗算法.传统SNM算法主要适用于英文,英文和中文存在以下两种明显差异:英文语义和时态基于单词;中文语义基于词语,时态基于语义.以上两种差异造成了英文重复值清洗的算法SNM不能很好地应用于中文重复值清洗中.算法的基本思路是:引入编辑距离来计算近似度;采用中文分词和同义词检查的方式优化编辑距离相似度算法,改进后的算法可以对中文语句或者字段进行有效重复值清洗的工作.通过对供应商商品库存数据集的实验,结果证明该算法不但可以提高效率,而且能有效地清洗重复字段,很好地实现了中文数据清洗.

著录项

来源
《计算机应用与软件》 |2018年第8期|286-288333|共4页
作者
张培根; 黄树成;
展开▼
作者单位

江苏科技大学计算机学院江苏镇江212003;

江苏科技大学计算机学院江苏镇江212003;

展开▼
原文格式 PDF
正文语种 chi
中图分类理论、方法;
关键词
数据清洗; 重复值清洗; 近邻排序算法; 编辑距离;

相似文献

中文文献
外文文献
专利

1. 一种基于Token匹配的中文数据清洗方法 [J] . 刘嘉 ,张璟 ,李军怀 . 计算机应用与软件 . 2009,第011期
2. 用于中文色情文本过滤的近邻法构造算法 [J] . 苏贵洋 ,李建华 ,马颖华 . 上海交通大学学报 . 2004,第z1期
3. 一种基于近邻匹配的中文分词算法Jlppeccz [J] . 耿新青 ,陶凤梅 ,黄宏光 . 鞍山师范学院学报 . 2010,第004期
4. 一种用于图像拼接的图像序列自动排序算法 [J] . 赵万金 ,龚声蓉 ,刘全 . 中国图象图形学报 . 2007,第010期
5. 一种用于鉴别体域网动作模式的近邻快速鲁棒协作表示分类算法 [J] . 吴建宁 ,凌雲 ,王佳境 . 中国生物医学工程学报 . 2018,第005期
6. 一种用于连续反最近邻查询的空间削减算法 [C] . 高峰 ,刘国华 ,赵丹枫 . 2007中国计算机大会 . 2007
7. 近邻排序算法研究及在中文数据清洗中的应用 [A] . 张培根 . 2018

一种用于中文数据清洗的近邻排序算法

摘要

著录项

相似文献

相关主题

期刊订阅