首页> 中国专利> 一种基于HMM的词性标注方法

一种基于HMM的词性标注方法

摘要

本发明涉及一种基于HMM的词性标注方法,属于信息处理技术领域。首先将词库中的词语按照unicode码进行排序,以便在分词的时候用二分法快速查找;然后引入HMM,以月标注好的语料库作为训练集和测试集,用以获得HMM的三个参数,从而得到HMM中若干可观测状态;其次进行二次分词,将初次分词结果中未查找到的词在HMM中若干可观测状态中进行查找,将没有查找到的新词引用最大熵模型进行标注;最后用viterbi算法计算出HMM的最优隐藏序列,再与最大熵模型标注的结果结合即为最终词性标注结果。本发明与现有技术相比,主要解决了单一的词性标注方法速度慢,对新词识别率低,从而使得标注结果准确率低的现象,以提高词性标注的高效性与准确性。

著录项

  • 公开/公告号CN107807910A

    专利类型发明专利

  • 公开/公告日2018-03-16

    原文格式PDF

  • 申请/专利权人 昆明理工大学;

    申请/专利号CN201710933336.7

  • 发明设计人 龙华;吴睿;熊新;邵玉斌;杜庆治;

    申请日2017-10-10

  • 分类号

  • 代理机构

  • 代理人

  • 地址 650093 云南省昆明市五华区学府路253号

  • 入库时间 2023-06-19 04:48:23

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-04-10

    实质审查的生效 IPC(主分类):G06F17/21 申请日:20171010

    实质审查的生效

  • 2018-03-16

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号