首页> 中文学位 >基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术
【6h】

基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术

代理获取

目录

文摘

英文文摘

北京化工大学学位论文原创性声明

一引言

1.1 自然语言处理技术简介

1.2汉语词法分析和命名实体识别简介

二相关基础

2.1 N元模型

2.2基于类的语言模型

2.3马尔可夫模型

2.4隐马尔可夫模型

2.5层次隐马模型

三汉语词法分析的研究

3.1 介绍

3.2前人的相关工作

3.3基于层次隐马模型的汉语词法分析

3.4基于类的隐马分词算法

3.5 N-最短路径的切分排歧策略

四中文命名实体的识别

4.1介绍

4.1.1命名实体识别的任务

4.1.2为什么要研究命名实体识别的识别

4.1.3中文命名实体识别的困难

4.2中文命名实体的定义和标准

4.2.1关于人名的定义

4.2.2关于地名的定义

4.2.3关于机构名的定义

4.3前人的相关工作

4.3.1基于规则的方法

4.3.2基于统计的方法

4.3.3统计与规则相结合的方法

4.4基于角色标注的中文命名实体识别

4.4.1命名实体识别角色表

4.4.2角色的自动标注

4.4.3角色信息的抽取

4.4.4嵌套未登录词的识别

4.5实验和结果分析

4.5.1词法分析和命名实体识别

4.5.2 ICTCLAS在973评测中的测试结果

4.5.3第一届国际分词大赛的评测结果

五结束语

参考文献

附录1汉语文本词性标注标记集

附录2命名实体词语切分标准

攻读学位期间发表的学术论文目录

致谢

展开▼

摘要

该文提出了一种基于层次隐马尔可夫模型的汉语词法分析方法,旨在将汉语分词、词性标注、切分排歧和命名实体识别集成到一个完整的理论框架中.在分词方面,采取的是基于类的隐马尔可夫模型,在这层隐马尔可夫模型中,命名实体和词典中收录的普通词一样处理.命名实体识别引入了角色HMM:Viterbi算法标注出全局最优的角色序列,然后在角色序列的基础上,识别出命名实体,并计算出真实的可信度.在切分排歧方面,采用一种基于N-最短路径的策略,即:在早期阶段召回N个最佳结果作为候选集,目的是覆盖尽可能多的歧义字段,最终的结果会在未登录词识别和词性标注之后,从N个最有潜力的候选结果中选优得到.不同层面的实验表明,层次隐马模型的各个层面对汉语词法分析都发挥了积极的作用.作者参与了基于层次隐马尔可夫模型的汉语词法分析系统ICTCLAS的开发,该系统在2002年的973专家组评测中获得第一名,在2003年汉语特别兴趣研究组(the ACL Special Interest Group on Chinese Language Processing,SIGHAN)组织的第一届国际汉语分词大赛中综合得分获得两项第一名、一项第二名.这表明:ICTCLAS是目前最好的汉语词法分析系统之一,层次隐马尔可夫模型能够解决好汉语词法问题.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号