首页> 中文期刊> 《计算机系统应用》 >基于改进PMI和最小邻接熵结合策略的未登录词识别

基于改进PMI和最小邻接熵结合策略的未登录词识别

         

摘要

cqvip:中文分词是中文自然语言处理的重要任务,其目前存在的一个重大瓶颈是未登录词识别问题.该文提出一种非监督的基于改进PMI和最小邻接熵结合策略的未登录词识别方法.滤除文本中无关识别的标点符号和特殊字符后,此方法先运用改进PMI算法识别出文本中凝聚程度较强的字符串,并通过停用词词表和核心词库的筛选过滤,得到候选未登录词;然后,计算候选未登录词的最小邻接熵,并依据词频-最小邻接熵判定阈值,确定出文本中的未登录词.通过理论及实验分析,此方法对不同的文本,在不需要长时间学习训练调整参数的情况下,即可生成个性化的未登录词词典,应用于中文分词系统后,其分词正确率、召回率分别达到81.49%、80.30%.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号