首页> 中文期刊> 《情报工程》 >一种采用SpotSigs算法的中文新闻网页相似性检测方法

一种采用SpotSigs算法的中文新闻网页相似性检测方法

         

摘要

互联网的高速发展使得新闻网页成为了网民了解国内外大事的首要选择,然而中国互联网存在着大量重复新闻网页的现象,对于提高用户体验以及新闻情报的分析造成了一定的困难。本文以SpotSigs算法为基础提出了一种中文新闻网页相似性检测方法,在先行词选取阶段使用基础先行词与优化先行词相结合的选择策略,从而降低了网页中的导航栏、广告等噪音对中文新闻网页相似性检测的影响。以实际的中文新闻网页为实验数据集,通过准确率、召回率两项指标验证了基于SpotSigs算法的中文新闻网页相似性检测方法的有效性和可行性,特别在相似度阈值较低的情况下具有较好的性能。

著录项

  • 来源
    《情报工程》 |2017年第3期|P.116-124|共9页
  • 作者单位

    [1]中国科学技术信息研究所,北京100038 [2]万方数据股份有限公司,北京100038 [3]古联(北京)数字传媒科技有限公司,北京100049;

    [1]中国科学技术信息研究所,北京100038 [2]万方数据股份有限公司,北京100038 [3]古联(北京)数字传媒科技有限公司,北京100049;

    [1]中国科学技术信息研究所,北京100038 [2]万方数据股份有限公司,北京100038 [3]古联(北京)数字传媒科技有限公司,北京100049;

    [1]中国科学技术信息研究所,北京100038 [2]万方数据股份有限公司,北京100038 [3]古联(北京)数字传媒科技有限公司,北京100049;

    [1]中国科学技术信息研究所,北京100038 [2]万方数据股份有限公司,北京100038 [3]古联(北京)数字传媒科技有限公司,北京100049;

  • 原文格式 PDF
  • 正文语种 CHI
  • 中图分类 情报学、情报工作;
  • 关键词

    SpotSigs算法 新闻网页 相似性检测 先行词选取;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号