首页> 中文期刊> 《计算机技术与发展》 >基于LDA模型的文本相似度研究

基于LDA模型的文本相似度研究

         

摘要

LDA主题模型是近年来提出的一种具有文本表示能力的非监督学习模型。考虑到传统主题模型在处理大规模文本时存在的局限性,文中提出一种基于LDA模型的文本相似度计算方法。利用LDA为语料库建模,通过Gibbs抽样间接估算模型参数,将文本表示为固定隐含主题集上的概率分布,以此计算文本之间的相似度。最后将K-means算法作为文本相似度的评估指标。实验结果表明,与LSI模型相比,该方法能有效地提高文本相似度计算的准确性和文本聚类效果。%LDA topic model is an unsupervised model which exhibits superiority on latent topic modeling of text data in the research of re-cent years. Considering the disadvantage of the traditional topic model when dealing with the large-scale text corpuses,a method which improves text similarity computations by using LDA model is proposed. It models corpus with LDA,parameters are estimated with Gibbs sampling. Each document is represented for the probability distribution of fixed implied theme set and computed the similarity between the texts. Finally,the K-means algorithm is selected as the evaluation index of text similarity. Experimental results show this method can im-prove the accuracy of text similarity and clustering quality of text effectively compared with LSI model.

著录项

  • 来源
    《计算机技术与发展》 |2016年第4期|82-8589|共5页
  • 作者

    陈攀; 杨浩; 吕品; 王海晖;

  • 作者单位

    武汉工程大学 计算机科学与工程学院;

    湖北 武汉 430073;

    武汉工程大学 计算机科学与工程学院;

    湖北 武汉 430073;

    武汉工程大学 计算机科学与工程学院;

    湖北 武汉 430073;

    武汉工程大学 智能机器人湖北省重点实验室;

    湖北 武汉 430073;

    武汉工程大学 计算机科学与工程学院;

    湖北 武汉 430073;

    武汉工程大学 智能机器人湖北省重点实验室;

    湖北 武汉 430073;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 理论、方法;
  • 关键词

    文本挖掘; LDA模型; Gibbs抽样; 文本相似度;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号