首页> 中文学位 >依存语法和配价语法在真词纠错中的研究与应用
【6h】

依存语法和配价语法在真词纠错中的研究与应用

代理获取

目录

声明

摘要

图目录

表目录

第1章 绪论

1.1 研究背景

1.2 国内外研究现状综述

1.3 研究内容

1.4 研究意义

1.5 研究方法

1.6 论文结构

第2章 理论基础和相关技术

2.1 相关理论与技术综述

2.2 Winnow线性分类算法

2.3 依存语法和配价语法

2.3.1 依存语法

2.3.2 配价语法

2.4 相关技术简介

2.4.1 Python

2.4.2 C++

2.5 本章小结

第3章 基于混淆词与介词搭配方法的改进算法

3.1 基于混淆词与介词搭配方法的改进算法概述

3.2 基于混淆词与介词搭配方法的改进算法的研究与分析

3.3 基于混淆词与介词搭配方法的改进算法的设计

3.4 基于混淆词与介词搭配方法的改进算法的实现

3.4.1 核心算法和代码

3.4.2 实验结果的评估

3.5 本章小结

第4章 英语真词纠错系统的设计与实现

4.1 英语真词纠错系统概述

4.2 英语真词纠错系统需求分析

4.3 英语真词纠错系统模块介绍

4.4 英语真词纠错系统的设计

4.5 英语作文真词纠错系统的实现

4.5.1 创建混淆集的实现

4.5.2 加载句子语料的实现

4.5.3 存储句子语料的实现

4.5.4 分词和词性标注的实现

4.5.5 提取特征单词的实现

4.5.6 筛选特征单词的实现

4.5.7 提取介词向量以及Winnow训练的实现

4.5.8 Winnow测试的实现

4.5.9 主函数调用的实现

4.6 本章小结

第5章 英语真词纠错系统的实验效果与验证

5.1 真词纠错效果的评价标准

5.2 系统纠错效果的验证方法

5.3 实验结果对比

5.4 实验结果分析

5.5 本章小结

第6章 总结和展望

6.1 工作总结

6.1.1 研究工作

6.1.2 研究创新点

6.2 未来工作展望

6.3 本章小结

参考文献

附录

致谢

在读期间发表的学术论文与取得的其他研究成果

展开▼

摘要

如今技术在各个领域都得到了广泛的应用,它提供了重要的理论依据以及实现方法,以实现人和计算机之间的沟通。众所周知,大部分的信息是以文字的形式表达出来的,因此,对文本信息进行处理是自然语言处理技术的重点。在英语中,英语单词是构成一篇文章的最基本单元,如果单词拼写错误,就会对后续的文章分析以及系统的实际应用效果产生影响。目前,国内外对单词拼写纠错的研究不断深入,研究的错误类型大体上可以分为两类:非词错误和真词错误。非词错误的研究现在也已经比较成熟,而真词错误的纠正相对较难,其他研究者曾尝试用贝叶斯分类算法以及一些规则的方法来实现,但是效果并不是太理想。为此,作者在现有的Winnow统计算法之上引入了一种新的方法来改进真词纠错的效果。
  作者首先调研并分析了国内外在真词纠错方面的相关研究以及依存语法和配价语法在自然语言处理中的应用,并在此基础上总结出现有各种方法的优缺点,同时也阐述了与本文相关的理论和技术基础。其次,作者从依存语法和配价语法的原理以及应用中得到启发,研究得到了混淆词与介词搭配的方法,这种方法的主要思想源自依存语法中“关联”的概念和配价语法中有关“配价”的概念,在这个方法中,需要针对每个混淆词生成一个介词向量,在测试的时候,就可以利用介词的差异等特征来判断混淆词是否正确出现。再次,作者在基于Winnow的算法上结合混淆词与介词搭配的方法对英语真词纠错系统的整体架构和各个功能模块进行了实现,完成了对真词错误的检查与纠正。最后,作者对整个系统进行了验证,并对比完全基于Winnow算法实验得到的结果,确定了新算法的优越性。
  系统在引入混淆词与介词搭配的方法后,不仅那些原先正确率、召回率以及F1测度等指标都较低的混淆词的纠错效果得到了改善,系统整体的正确率、召回率以及F1测度相比于完全采用Winnow算法实验得到的结果也分别提高了3%,2%和3%。这说明作者的方法是有效的,为其他研究者对英语真词纠错的进一步研究奠定了基础。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号