首页> 中文会议>第七届中文信息处理国际会议 >一种基于规则的中文分词算法

一种基于规则的中文分词算法

摘要

本文提出了一种基于词库的结合词频、词性、中文文法规则和未登录词识别规则的分词算法,该算法首先通过采用基于词库的跨度为1的前向最大匹配分词算法获得初步的分词结果,然后依据中文文法规则和词条筛选规则对初步结果进行再次划分,得到优化的分词结果,最后通过未登录词识别规则对分词结果进行检查,将满足未登录词条件的新词加入词库.该分词算法能够在很大程度上消除歧义划分,提高未登录词的识别概率。实验结果表明,该分词算法的准确率能达到97%以上,在效率上也具有很大优势。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号