基于版权信息的新闻网页去重算法

摘要

搜索引擎对互联网上的网页进行检索,由于存在大量的重复网页,不但加重了用户检索和阅读的负担,而且浪费了大量的存储资源,需要去掉这些重复的网页,以达到更高的采集效率。在分析现有的去重算法基础上,利用转载的新闻网页大多会标出其来源、出处这一特征,并结合文本内容,对重复网页进行去重。算法大大减少了同页文档之前相互比较的次数,更适合海量空间网页的去重,通过实验验证了该算法具有很高的正确率和召回率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号