首页> 中文会议>第十六届全国数据库学术会议 >一种基于N-Gram的检测相似重复记录的高效方法

一种基于N-Gram的检测相似重复记录的高效方法

页面导航

摘要
著录项
相似文献
相关主题

摘要

如何消除数据库中的重复信息已成为数据质量研究中的一个热门话题。该文提出了一种基于Ｎ－Ｇｒａｍ的检测相似重复记录的方法，主要工作有：（１）给出了一种高效的基于Ｎ－Ｇｒａｍ的聚类算法，该算法能适应常见的拼写错误如插入、删除、替换、效换等，复杂度为０（Ｎ）；（２）介绍了一种高效的应用无关的Ｐａｉｒｗｉｓｅ比较算法，复杂度为０（Ｋ〈’２〉）；（３）采用了一种改进的优先队列算法来准确地聚类相似重复记录。

著录项

来源
《第十六届全国数据库学术会议》|1999年|255-261|共7页
会议地点兰州
作者
邱越峰; 田增平; 周傲英;
展开▼
作者单位

中国计算机学会;

展开▼
会议组织
正文语种
原文格式 PDF
中图分类各种专用数据库;
关键词
N-Gram; RNGN; pairwise; 聚类; 优先队列;

相似文献

中文文献
外文文献
专利

1. 一种高效的检测相似重复记录的方法 [J] . 邱越峰 ,田增平 ,季文赟 . 计算机学报 . 2001,第001期
2. 一种基于属性权值分组聚类的相似重复记录检测方法 [J] . 王琛 . 宁波职业技术学院学报 . 2015,第002期
3. 一种基于同级字段的相似重复记录检测方法 [J] . 殷秀叶 . 软件 . 2014,第006期
4. 一种基于VSM的检测相似重复记录的方法 [J] . 张昌年 . 微电子学与计算机 . 2008,第8期
5. 基于相似重复记录的N-Gram算法的改进与应用 [J] . 王旭东 ,段敬 ,温志坚 . 现代计算机（专业版） . 2018,第025期
6. 基于记录相似度估计的高效重复记录检测算法 [C] . 李默涵 ,王宏志 ,李建中 . 2009中国计算机大会 . 2009
7. 基于DBSCAN算法的相似重复记录检测方法研究 [A] . 崔亮 . 2007

一种基于N-Gram的检测相似重复记录的高效方法

摘要

著录项

相似文献

相关主题

期刊订阅