首页> 中文期刊> 《计算机工程与科学》 >关于中文文档复制检测算法的改进

关于中文文档复制检测算法的改进

         

摘要

文本复制检测是这样一种行为:它判断一个文档的内容是否抄袭、剽窃或者复制于另外一个或者多个文档.文档复制检测领域的算法有很多,基于句子相似度的检测算法结合了基于字符串比较的方法和基于词频统计的方法的优点,在抓住了文档的全局特征的同时又能兼顾文档的结构信息,是一种很好的算法.本文在该算法的基础上对相似度算法进行了改进,提出了一种新的面向中文文档的基于句子相似度的文档复制检测算法.本算法充分考虑了中文文档的特点,选择句子作为文档的特征单元, 并解决了需要人工设定阈值的问题,提高了检测精度.实验证明,无论是在效率上,还是在准确性上,该算法都是可行的.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号