首页> 中文期刊> 《图书与情报》 >网络竞争情报主题采集技术研究

网络竞争情报主题采集技术研究

         

摘要

文章设计与实现了一种网络竞争情报的主题采集系统。该系统在进行主题预测时采用的基于改进的朴素贝叶斯算法提高了主题判断准确率,在进行链接预测时采用的基于规则与锚文本主题相似度结合的算法,避免了URL锚文本较短和噪声的问题。与宽度优先的采集技术相比,通过实验验证该方法具有明显的优越性。%This paper designs and implements the network competitive intelligence acquisition system based on focused crawler. The Webpage's topic is predicted by an improved Nave Bayes algorithm, which can improve the accuracy rate. The URL's topic is predicted by the rule and anchor text similarity combined algorithm, which can avoid the problems of URL anchor text short and noise. Compared with the breadth-first acquisition techniques, experimental results show that the method has obvious advantages.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号