首页> 中文会议>2010年中国计算机大会 >一种结合语义和TF-IDF模型的文本相似度量方法

一种结合语义和TF-IDF模型的文本相似度量方法

摘要

文本聚类大多采用TF-IDF方法把文本建模为词频向量,利用余弦等相似度量方法计算文本之间的相似度,以此进行文本聚类.这些方法忽略了文本中词的语义信息,改进的基于语义的文本聚类方法则缺少文本之间相似度的定义,无法反映两篇文本之间的相似程度,聚类效果局限于某些特定领域.本文在TF-IDF模型基础上分析文本中重要词汇的语义信息,提出了一种新的文本相似度量方法.该方法首先应用自然语言处理技术对文本进行预处理,然后利用TF-IDF方法寻找文本中具有较高IF-IDF值的重要词项. 借助外部词典分析词项之间的语义相似度,结合文中提出的词项相似度加权树计算两篇文本之间的相似度,最后利用文本相似度进行聚类.实验时比了TF-IDF方法以及另一种基于语义相似性的文本相似度,实验结果表明该方法在基于F-度量值标准上能够提升文本聚类的查准率和查全率.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号