首页> 中文学位 >基于神经网络的中文词法分析系统的研究与实现
【6h】

基于神经网络的中文词法分析系统的研究与实现

代理获取

目录

第1章 绪 论

1.1 课题来源、背景及意义

1.2 国内外研究进展及成果

1.3 本文的主要研究内容

1.4 本文结构安排

第2章 中文词法分析简介

2.1 任务简介

2.2 已有系统调研

2.3 本章小结

第3章 基于神经网络的序列标注方法

3.1 层次化的网络结构

3.2 输入层

3.3 表示学习层

3.4 标签预测层

3.5 本章小结

第4章 在中文词法分析任务上探索网络结构的实验

4.1 基本设置

4.2 中文分词

4.3 词性标注

4.4 命名实体识别

4.5 本章小结

第5章 基于神经网络的中文词法分析系统实现

5.1 开发语言及开发工作流

5.2 系统代码结构

5.3 在系统实现中所使用的模型结构

5.4 速度评测

5.5 本章小结

结论

参考文献

攻读硕士学位期间发表的论文及其它成果

声明

致谢

展开▼

摘要

本论文的研究目的是构建一套基于神经网络的中文词法分析(中文分词,词性标注和命名实体识别)系统,主要研究内容包含两点,其一是研究适合中文词法分析任务的具体模型,其二是研究如何将其良好地实现。
  首先我们多维度地简要介绍了中文词法分析的各个任务,随后调研了当下已有的词法分析系统。接着我们将用于序列标注的神经网络结构拆分为输入层、表示学习层和标签预测层,并逐层展开介绍。随后本文以实验为出发点,探究了不同的输入特征和模型结构在各任务上的效果,确定了适合各个任务的神经网络模型。我们得到的各模型结构不尽相同,但都以双向LSTM结构作为表示学习方法,同时融合手工特征或未标注数据的信息。最后,我们介绍了系统实现的代码结构,并完成系统的速度评估。
  本论文的研究成果主要包含两点。第一点是通过实验确定了适合各中文词法分析任务的具体神经网络结构。我们选择LTP作为基准线模型,以LTP使用的数据集作为实验数据集。在中文分词任务上,我们的模型在开发集和测试集上的F1值比LTP分别高0.33、0.48个百分点;在词性标注任务上,最优模型在开发集上的Accuracy比基准线高0.2个百分点,测试集上高0.22个点;在命名实体识别上,我们确定的模型在开发集和测试集上的F1值比LTP提升了2.57和0.57个百分点。第二个研究成果体现在系统实现上。我们用清晰地代码结构实现了上述神经网络模型,获得了一套可用的中文词法分析系统。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号