首页> 中文学位 >词语相似度计算方法研究
【6h】

词语相似度计算方法研究

代理获取

目录

文摘

英文文摘

第一章 绪论

1.1 词义相似度计算的意义及其背景

1.1.1 课题研究的意义

1.1.2 国内外研究现状

1.2 研究内容与创新之处

1.2.1 词语相似度定义

1.2.2 研究内容

1.2.3 创新之处

1.3 本文组织结构

1.4 本章小结

第二章 词语相似度计算研究概述

2.1 词典资源介绍

2.1.1 《知网》

2.1.2 《同义词词林》

2.2 特征选择方法的介绍

2.2.1 基于概率论的特征选择

2.2.2 基于信息论的特征选择

2.2.3 基于相对频率的特征选择

2.3 基于上下文的词义相似度算法介绍

2.3.1 基于词典注释的词语相似度算法

2.3.2 基于语料的词语相似度算法

2.4 本章小结

第三章 基于概念提升的词语相似度算法

3.1 概念提升的定义

3.2 概念提升在本文中的作用和意义

3.2.1 加强上下文对目标词词义的表示

3.2.2 降维和缓解数据稀疏性

3.2.3 消除用词偏好

3.3 基于概念提升的词语相似度算法

3.3.1 向量空间模型

3.3.2 试验结果及分析

3.4 本章小结

第四章 基于特征选择的词语相似度计算

4.1 相对义频比

4.1.1 基于相对义频比的词语相似度计算

4.1.2 结果分析

4.2 基于特征选择的词语相似度计算

4.2.1 绝对义频

4.2.2 基于大规模语料库的词语相似度计算

4.2.3 试验结果及分析

4.3 本章小结

第五章 基于词语相似度计算的词义区分

5.1 词义区分的定义

5.2 词义区分的研究

5.2.1 目前词义区分的主要方法

5.2.2 本文相似度计算在词义区分中的作用

5.3 词义区分试验以及结果分析

5.3.1 k-means聚类

5.3.2 评价方法

5.3.3 试验结果及分析

5.4 本章小结

第六章 结束语

6.1 工作总结

6.2 未来工作展望

参考文献

在读期间发表的学术论文及研究成果

致谢

展开▼

摘要

自然语言处理最根本的目的就是让计算机能正确处理人类语言,利用计算机对词语语义进行理解是自然语言处理中最为关键的问题。词义相似度计算作为语义理解的基础性工作已被广泛应用于词义消歧、机器翻译、信息检索、自动应答等各种领域。
   目前词义相似度的计算方法主要分为两个大类:一类是通过具有一定层次体系的词典计算词义相似度;另一类是利用词语的上下文获取词义信息,从而计算词义相似度。第一类方法是将词语构建于一个具有层次关系的树形结构体系词典中,通过计算整个体系中两个目标词之间的路径、上下位关系、属性之间的关系来表征目标词之间的词义相似度。这种方法过分依赖词典的设计,需要完备的层次关系,因此受人的主观影响较大。第二种是利用语料中目标词上下文词语作为目标词词义的表示,通过计算两个目标词上下文之间的关系来确定两者之间的相似度。这类方法受上下文影响较大,同时会有数据稀疏问题。
   本文针对这两种方法的优缺点,通过词典对上下文词语的概念提升,提高了目标词词义的表示程度,从一定程度上缓解了向量空间模型中的数据稀疏问题,并起到良好的降维效果。同时,通过利用上下文词语获取词义表示信息,从词语的实际使用环境出发,真实反映词语使用时的动态词义。在此基础上,本文还将相对词频比运用于向量空间模型的特征选择中,进一步提高了词语相似度的准确性和合理性。
   词义区分是自然语言处理的另一个重要内容,本文在构建词义相似度计算模型的基础上,将该模型运用到词义区分的计算中去。通过词语相似度算法改进K-means聚类方法,并取得很好的效果。
   本文通过对目前词义相似度算法领域中理论、技术、应用等方面的研究与实践,提出了综合词典和上下文的新方法,为词义相似度计算的研究做了新的尝试。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号