基于分布式LDA-Spark的微博用户兴趣挖掘

赵星雷; 肖诗斌

首页> 中文期刊> 《北京信息科技大学学报（自然科学版）》 >基于分布式LDA-Spark的微博用户兴趣挖掘

基于分布式LDA-Spark的微博用户兴趣挖掘

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

为了挖掘海量微博数据中潜在的语意信息,通过Gibbs采样方式,并结合Spark分布式计算框架,实现了一种LDA主题模型并行化的算法.该算法针对微博数据的特点,将3层贝叶斯概率模型改为用户-主题-词模型;为了满足LDA的并行化处理需求,采用了一种无冲突的数据分割方法将数据集分成了P×P个数据块,将分割好的数据块重新排序整合成P个子集,保证每个子集中均包含P个数据块,对每个子集进行并行采样.从困惑度、收敛速度及加速比3个方面对改进算法与标准LDA算法进行了对比实验,困惑度2种算法的结果接近;在收敛速度方面,改进算法较标准LDA慢,但在实际应用中对效率没有太大影响;加速比实验中,总词数为100万、work节点为8时,改进算法所用时间是标准LDA的16.78％.实验结果表明,改进算法能得到较为精确的模型,并在大数据环境下可以取得良好的加速效果.

著录项

来源
《北京信息科技大学学报（自然科学版）》 |2017年第3期|70-74|共5页
作者
赵星雷; 肖诗斌;
展开▼
作者单位

北京信息科技大学计算机学院,北京100192;

北京信息科技大学计算机学院,北京100192;

北京拓尔思信息技术股份有限公司,北京100101;

展开▼
原文格式 PDF
正文语种 chi
中图分类文字信息处理;
关键词
Spark; 分布式框架; 潜在狄利克雷分布; 微博; 主题模型;

相似文献

中文文献
外文文献
专利

1. 基于用户兴趣挖掘技术的微博信息推送应用研究 [J] . 邵忻 . 电脑编程技巧与维护 . 2021,第006期
2. 基于微博用户兴趣话题的相似用户挖掘 [J] . 李鹏飞 ,董旭 ,仲兆满 . 计算机工程与应用 . 2019,第011期
3. 基于文本聚类与兴趣衰减的微博用户兴趣挖掘方法 [J] . 秦永彬 ,孙玉洁 ,魏笑 . 计算机应用研究 . 2019,第005期
4. 基于改进LDA模型的微博用户兴趣挖掘研究 [J] . 高永兵 ,许庆瑞 . 内蒙古科技大学学报 . 2019,第003期
5. 基于发文内容的微博用户兴趣挖掘方法研究 [J] . 熊才伟 ,曹亚男 . 计算机应用研究 . 2018,第006期
6. 基于微博标签和微博内容的用户兴趣模型 [C] . Peng Ye ,彭晔 ,Zhang Cuixiao . SCEG2015研讨会（2015年“计算机科学与技术及教育技术“学术研讨会） . 2015
7. 基于数据挖掘的微博用户兴趣群体发现与分类——以新浪微博为例 [A] . 曾珂 . 2014

基于分布式LDA-Spark的微博用户兴趣挖掘

摘要

著录项

相似文献

相关主题

期刊订阅