词语相似度计算方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

自然语言处理最根本的目的就是让计算机能正确处理人类语言,利用计算机对词语语义进行理解是自然语言处理中最为关键的问题。词义相似度计算作为语义理解的基础性工作已被广泛应用于词义消歧、机器翻译、信息检索、自动应答等各种领域。
　　目前词义相似度的计算方法主要分为两个大类:一类是通过具有一定层次体系的词典计算词义相似度;另一类是利用词语的上下文获取词义信息,从而计算词义相似度。第一类方法是将词语构建于一个具有层次关系的树形结构体系词典中,通过计算整个体系中两个目标词之间的路径、上下位关系、属性之间的关系来表征目标词之间的词义相似度。这种方法过分依赖词典的设计,需要完备的层次关系,因此受人的主观影响较大。第二种是利用语料中目标词上下文词语作为目标词词义的表示,通过计算两个目标词上下文之间的关系来确定两者之间的相似度。这类方法受上下文影响较大,同时会有数据稀疏问题。
　　本文针对这两种方法的优缺点,通过词典对上下文词语的概念提升,提高了目标词词义的表示程度,从一定程度上缓解了向量空间模型中的数据稀疏问题,并起到良好的降维效果。同时,通过利用上下文词语获取词义表示信息,从词语的实际使用环境出发,真实反映词语使用时的动态词义。在此基础上,本文还将相对词频比运用于向量空间模型的特征选择中,进一步提高了词语相似度的准确性和合理性。
　　词义区分是自然语言处理的另一个重要内容,本文在构建词义相似度计算模型的基础上,将该模型运用到词义区分的计算中去。通过词语相似度算法改进K-means聚类方法,并取得很好的效果。
　　本文通过对目前词义相似度算法领域中理论、技术、应用等方面的研究与实践,提出了综合词典和上下文的新方法,为词义相似度计算的研究做了新的尝试。

著录项

作者
徐涛;
展开▼
作者单位

南京师范大学;

展开▼
授予单位南京师范大学;
学科计算机应用技术
授予学位硕士
导师姓名曲维光;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
词语相似度; 计算方法; 自然语言处理; 语义理解;

相似文献

中文文献
外文文献
专利

1. 基于上下文词语同现向量的词语相似度计算 [J] . 张涛 ,杨尔弘 . 电脑开发与应用 . 2005,第003期
2. 基于Word2Vec的WordNet词语相似度计算研究 [J] . 陈丹华 ,王艳娜 ,周子力 . 计算机工程与应用 . 2022,第3期
3. 基于遗传算法的词语语义相似度计算研究 [J] . 杨泉 . 计算机技术与发展 . 2021,第002期
4. 基于改进TF-IDF的百度百科词语相似度计算 [J] . 杨欣 ,郭建彬 . 甘肃科学学报 . 2019,第002期
5. 基于维基百科链接特征的词语语义相似度计算 [J] . 张波 . 软件工程师 . 2019,第010期
6. 基于维基百科社区挖掘的词语语义相似度计算 [C] . PENG Li-zhen ,彭丽针 ,WU Yang-yang . 2015全国理论计算机科学学术年会 . 2015
7. 词语相似度计算及其在语义选择限制知识获取中的应用研究 [A] . 赵倩倩 . 2018

词语相似度计算方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅