博客中重复评论发现

摘要

随着近年来互联网的迅猛发展,Blog上的数据呈现爆炸式的增长,产生了大量的重复评论,这些重复评论对观点挖掘、信息跟踪、搜索引擎等Web应用的处理带来了严峻的问题.本文针对Blog中评论本身的特点,提出一种有效的结合主题信息的TopicSig算法去检测Blog中的重复评论.该方法主要针对博客中的所有评论进行主题抽取,并结合高频词共同作为特征先行词,以抽取改进的Shingle特征,高度概括评论的核心内容,使用有效的相似度算法比较,从而发现博客中的重复评论.经实验显示,该方法可以发现大多数重复评论,实验结果显示取得了较好的结果,使Blog信息更加准确、有效的为用户使用。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号