首页> 中文会议>2007年全国网络与信息安全技术研讨会 >大规模语料的频繁模式快速发现算法

大规模语料的频繁模式快速发现算法

摘要

已有基于内存的频繁模式发现算法需要的物理内存是语料规模的几倍甚至几十倍,本文提出一种大规模语料频繁模式快速发现算法,通过采用合适的策略将语料划分为若干子语料,对每个子语料单独进行处理,即可获得原始语料的频繁模式;同时该算法能够避免处理频次在设定阈值以下的模式,进一步减少了内存占用,提高了处理速度。实验表明,对3.6G互联网新闻语料发现频次大于100的所有频繁模式中最高消耗内存为1.6G,单机平均每秒处理文本语料3.28M。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号