首页> 中文期刊> 《计算机与现代化》 >专题型网页搜集系统的设计与实现

专题型网页搜集系统的设计与实现

         

摘要

近年来人们提出了很多新的搜集思想,他们都使用了一个共同的技术--集中式搜集.集中式搜集通过分析搜索的区域,来发现与主题最相关的链接,防止访问网上不相关的区域,这可以大量地节省硬件和网络资源,使网页得到尽快的更新.为了达到这个搜索目标,本文提出了两个算法:一个是基于多层分类的网页过滤算法,试验结果表明,这种算法有较高的准确率,而且分类速度明显高于一般的分类算法;另一个是基于Web结构的URL排序算法,这个算法充分地利用了Web的结构特征和网页的分布特征.

著录项

  • 来源
    《计算机与现代化》 |2004年第10期|1-514|共6页
  • 作者单位

    清华大学计算机科学与技术系;

    北京;

    100084;

    江西师范大学计算机科学与技术学院;

    江西;

    南昌;

    330027;

    清华大学计算机科学与技术系;

    北京;

    100084;

    江西师范大学计算机科学与技术学院;

    江西;

    南昌;

    330027;

    清华大学计算机科学与技术系;

    北京;

    100084;

    清华大学计算机科学与技术系;

    北京;

    100084;

    江西师范大学计算机科学与技术学院;

    江西;

    南昌;

    330027;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 算法理论;
  • 关键词

    URL排序; 集中式搜集器; 多层分类; 主题过滤;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号