首页> 中文会议>2010年中国计算机大会 >一种结合语义和TF-IDF模型的文本相似度量方法

一种结合语义和TF-IDF模型的文本相似度量方法

页面导航

摘要
著录项
相似文献
相关主题

摘要

文本聚类大多采用TF-IDF方法把文本建模为词频向量，利用余弦等相似度量方法计算文本之间的相似度，以此进行文本聚类.这些方法忽略了文本中词的语义信息，改进的基于语义的文本聚类方法则缺少文本之间相似度的定义，无法反映两篇文本之间的相似程度，聚类效果局限于某些特定领域.本文在TF-IDF模型基础上分析文本中重要词汇的语义信息，提出了一种新的文本相似度量方法.该方法首先应用自然语言处理技术对文本进行预处理，然后利用TF-IDF方法寻找文本中具有较高IF-IDF值的重要词项. 借助外部词典分析词项之间的语义相似度，结合文中提出的词项相似度加权树计算两篇文本之间的相似度，最后利用文本相似度进行聚类.实验时比了TF-IDF方法以及另一种基于语义相似性的文本相似度，实验结果表明该方法在基于F-度量值标准上能够提升文本聚类的查准率和查全率.

著录项

来源
《2010年中国计算机大会》|2010年|183-191|共9页
会议地点杭州
作者
黄承慧; 印鉴;
展开▼
作者单位

中国计算机学会;

展开▼
会议组织
正文语种
原文格式 PDF
中图分类文字信息处理;
关键词
文本聚类; 语义; TF-IDF模型; 文本相似度量法;

相似文献

中文文献
外文文献
专利

1. 一种结合词项语义信息和TF-IDF方法的文本相似度量方法 [J] . 黄承慧 ,印鉴 ,侯昉 . 计算机学报 . 2011,第005期
2. 一种文本相似度与BERT模型融合的手术操作术语归一化方法 [J] . 杨飞洪 ,孙海霞 ,李姣 . 中文信息学报 . 2021,第004期
3. 一种基于SA_LDA模型的文本相似度计算方法 [J] . 邱先标 ,陈笑蓉 . 计算机科学 . 2018,第0z1期
4. 一种结合语义分割模型和图割的街景影像变化检测方法 [J] . 李文国 ,黄亮 ,左小清 . 全球定位系统 . 2021,第001期
5. 一种基于词义和词频的向量空间模型改进方法 [J] . 邓晓衡 ,杨子荣 ,关培源 . 计算机应用研究 . 2019,第005期
6. 基于粗糙集的结合语义和视觉特征的图像检索方法 [C] . 王彤 ,李明 ,赵丽 . 第五届中国Rough集与软计算学术研讨会 . 2005
7. 结合语义和语法的深度学习代码补全方法研究 [A] . 付善庆 . 2021

一种结合语义和TF-IDF模型的文本相似度量方法

摘要

著录项

相似文献

相关主题

期刊订阅