首页> 中文期刊> 《贵州电力技术》 >基于Counting Bloom Filter的海量网页快速去重研究

基于Counting Bloom Filter的海量网页快速去重研究

         

摘要

网页去重是从给定的大量的数据集合中检测出冗余的网页,然后将冗余的网页从该数据集合中去除的过程,可以有效地减少检索和存储的压力.其中基于同源网页的URL去重方法、基于网页结构和特征的抽取指纹方法和基于网页内容的聚类方法的研究都已经取得了很大的发展,但是针对海量网页去重问题,上述三种方法,目前还是很难解决网页去重的时间和空间问题,本文在基于MD5指纹库网页去重算法的基础上,结合Counting Bloom filter算法的特性,提出一个节省空间的大规模数据表示和快速去重策略,实现了一种快速去重算法IMP-CM Filter,大大降低了网页去重算法的时间复杂度和空间复杂度.该算法通过减少I/O频繁操作,来提高海量网页去重的效率.最后通过实验表明,IMP-CM Filter算法的有效性.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号