首页> 中文会议>第29届中国数据库学术会议 >云环境中的近似复制文本检测

云环境中的近似复制文本检测

摘要

如今的互联网领域时刻都在产生海量的数据,文本数据是重要的组成部分.在这些文本数据中,存在大量的近似复制文本,这些相似程度很高的文本对给相关处理程序增加了额外负担.针对云计算环境,提出了一种基于MapReduce的近似复制文本检测算法,它能够在给定的文本集合与相似度阈值条件下,经过过滤与验证操作后返回所有相似程度不低于该阈值的文本对.真实数据集上的实验结果表明,与现有工作相比,所提算法能更为高效地返回相似文本对,提高了总体性能.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号