首页> 中文期刊> 《现代图书情报技术》 >一种基于内容规则的网页去噪算法

一种基于内容规则的网页去噪算法

         

摘要

提出一种基于内容规则的网页净化算法.包含两部分,先提出一种同层表间的比较迭代算法,通过迭代的方式对于网页中的噪声内容进行层层剥离.为进一步判断网页中锚文本与网页主题的相关性,又提出一种基于修正的编辑距离的计算锚文本的主题相似性的算法,在一定程度上考虑了网页的语义因素.该算法具有更高的准确度,同时具有很低的时间复杂度.实验结果表明,在对海量网页进行净化处理时,算法具有良好的效果.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号