基于LDA模型的文本相似度研究

陈攀; 杨浩; 吕品; 王海晖

首页> 中文期刊> 《计算机技术与发展》 >基于LDA模型的文本相似度研究

基于LDA模型的文本相似度研究

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

LDA主题模型是近年来提出的一种具有文本表示能力的非监督学习模型。考虑到传统主题模型在处理大规模文本时存在的局限性，文中提出一种基于LDA模型的文本相似度计算方法。利用LDA为语料库建模，通过Gibbs抽样间接估算模型参数，将文本表示为固定隐含主题集上的概率分布，以此计算文本之间的相似度。最后将K-means算法作为文本相似度的评估指标。实验结果表明，与LSI模型相比，该方法能有效地提高文本相似度计算的准确性和文本聚类效果。%LDA topic model is an unsupervised model which exhibits superiority on latent topic modeling of text data in the research of re-cent years. Considering the disadvantage of the traditional topic model when dealing with the large-scale text corpuses,a method which improves text similarity computations by using LDA model is proposed. It models corpus with LDA,parameters are estimated with Gibbs sampling. Each document is represented for the probability distribution of fixed implied theme set and computed the similarity between the texts. Finally,the K-means algorithm is selected as the evaluation index of text similarity. Experimental results show this method can im-prove the accuracy of text similarity and clustering quality of text effectively compared with LSI model.

著录项

来源
《计算机技术与发展》 |2016年第4期|82-8589|共5页
作者
陈攀; 杨浩; 吕品; 王海晖;
展开▼
作者单位

武汉工程大学计算机科学与工程学院;

湖北武汉 430073;

武汉工程大学计算机科学与工程学院;

湖北武汉 430073;

武汉工程大学计算机科学与工程学院;

湖北武汉 430073;

武汉工程大学智能机器人湖北省重点实验室;

湖北武汉 430073;

武汉工程大学计算机科学与工程学院;

湖北武汉 430073;

武汉工程大学智能机器人湖北省重点实验室;

湖北武汉 430073;

展开▼
原文格式 PDF
正文语种 chi
中图分类理论、方法;
关键词
文本挖掘; LDA模型; Gibbs抽样; 文本相似度;

相似文献

中文文献
外文文献
专利

1. 基于WMF_LDA主题模型的文本相似度计算 [J] . 张璐 ,芦天亮 ,杜彦辉 . 计算机应用研究 . 2019,第010期
2. 一种基于SA_LDA模型的文本相似度计算方法 [J] . 邱先标 ,陈笑蓉 . 计算机科学 . 2018,第0z1期
3. 基于LDA主题模型的文本相似度计算 [J] . 王振振 ,何明 ,杜永萍 . 计算机科学 . 2013,第012期
4. 基于双语LDA的跨语言文本相似度计算方法研究 [J] . 程蔚 ,线岩团 ,周兰江 . 计算机工程与科学 . 2017,第005期
5. 基于主题模型和文本相似度计算的专利推荐研究 [J] . 艾楚涵 ,姜迪 ,吴建德 . 信息技术 . 2020,第004期
6. 基于LDA主题模型的文本相似度计算 [C] . WANG Zhen-zhen ,王振振 ,HE Ming . 第四届全国智能信息处理学术会议 . 2013
7. 基于层次化神经网络模型的短文本相似度计算方法研究 [A] . 袁蕾 . 2020

基于LDA模型的文本相似度研究

摘要

著录项

相似文献

相关主题

期刊订阅