首页> 中文学位 >基于CRF模型的汉语介词短语识别
【6h】

基于CRF模型的汉语介词短语识别

代理获取

目录

文摘

英文文摘

声明

1绪论

1.1介词短语

1.2研究目标

1.3研究意义

1.4介词短语识别的困难

1.5国内外研究现状

1.6本文的主要工作

2相关理论基础

2.1自然语言处理

2.2浅层句法分析

2.3统计模型概述

2.4规则方法概率化

2.5统计模型在浅层句法分析中的应用

3条件随机场模型

3.1条件随机场的图结构

3.2条件随机场的势函数表示

3.3序列标记任务

3.4条件随机场的参数估计

3.5概率计算

3.6动态规划

4基于条件随机场(CRF)的汉语介词短语识别

4.1汉语介词短语识别与中日机器翻译系统的关系

4.2基于CRF的汉语介词短语识别

5介词短语识别的结果与分析

5.1实验数据说明

5.2评价参数

5.3实验结果及分析

5.4错误分析

结 论

参考文献

攻读硕士学位期间发表学术论文情况

致 谢

展开▼

摘要

介词短语是汉语中一种重要的短语类型。介词短语识别可以缩小句子中心动词的选择范围;可以简化句子结构,降低后续句法分析的难度;在基于模板的翻译中,它还能为模板匹配提供方便。 本文首先指出了当前完全语法分析的困难,并介绍了介词短语识别的研究现状及技术路线,提出了汉语介词短语识别的重要性和可行性。在研究过程中,本文继承了Church提出的把BaseNP识别看作词性标注同构问题的思想,尝试在浅层句法分析这个阶段识别介词短语。由于CRF具有表达元素长距离依赖性和交叠性特征的能力,并且介词短语的平均词长比较长,决定采用CRF模型来识别介词短语。首先考虑采用基于CRF单层模型来识别介词短语,在实验分析中发现嵌套介词短语、跨越分句的介词和有歧义的介词短语识别错误导致整个识别精确率不高,后面两类介词短语识别难度较大,不重点研究。本文只针对嵌套介词短语识别错误提出了一种基于CRF的层次结构来识别介词短语。据统计发现,在大量文本出现的都是两层嵌套,三层嵌套在文本中的比例很少,所以只需用基于CRF双层模型来识别介词短语。第一层CRF识别无嵌套介词短语和嵌套介词短语的内层部分,第二层CRF识别嵌套介词短语的外层部分,之后将两层结果合并,最后用规则进行后续处理。 实验表明,利用基于CRF双层模型的方法来识别中文介词短语是有效的;系统使用含有7000余个介词短语的2000年人民日报语料的开放测试精确率达到90.08%。和当前同类文献相比,本识别系统取得比较好的识别结果。由于介词短语结构上和动词短语有相似之处,它的研究可以为动词性短语的研究提供某种启示。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号