一种基于狄利克雷过程混合模型的文本聚类算法

高悦; 王文贤; 杨淑贤

首页> 中文期刊> 《信息网络安全》 >一种基于狄利克雷过程混合模型的文本聚类算法

一种基于狄利克雷过程混合模型的文本聚类算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

With the prevalence of Internet, network forum, microblog, WeChat, etc are an important channel for people to obtain and publish information. However, the uncertainty of the documents quantity and content brings great challenge for Internet public opinion analysis. In document clustering, choosing a right clustering number is a hard task. In this paper, a document clustering algorithm based on Dirichlet process mixture model (DCA-DPMM) was proposed. DCA-DPMM could extends standard ifnite mixture models to an infinite number of mixture components, using CRP(Chinese restaurant process) of the Dirichlet Process, this paper implement Dirichlet process mixture model based on CRP. The clustering assignment of data points could be sampled at different iterations by the Gibbs sampling algorithm. The experiments results showed that the proposed document clustering algorithm, compared with classical K-means clustering algorithm, not only could determine the clustering number dynamically, but also can improve the clustering quality such as purity, F-score and silhouette coefifcient.%随着互联网的普及，论坛、微博、微信等新媒体已经成为人们获取和发布信息的重要渠道，而网络中的这些文本数据，由于文本数目和内容的不确定性，给网络舆情聚类分析工作带来了很大的挑战。在文本聚类分析中，选择合适的聚类数目一直是一个难点。文章提出了一种基于狄利克雷过程混合模型的文本聚类算法，该算法基于非参数贝叶斯框架，可以将有限混合模型扩展成无限混合分量的混合模型，使用狄利克雷过程中的中国餐馆过程构造方式，实现了基于中国餐馆过程的狄利克雷混合模型，然后采用吉布斯采样算法近似求解模型，能够在不断的迭代过程中确定文本的聚类数目。实验结果表明，文章提出的聚类算法，和经典的K-means聚类算法相比，不仅能更好的动态确定文本主题聚类数目，而且该算法的聚类质量（纯度、F-score和轮廓系数）明显好于K-means聚类算法。

著录项

来源
《信息网络安全》 |2015年第11期|60-65|共6页
作者
高悦; 王文贤; 杨淑贤;
展开▼
作者单位

四川大学计算机学院网络与可信计算研究所;

四川成都610065;

四川大学计算机学院网络与可信计算研究所;

四川成都610065;

四川大学网络空间安全研究院;

四川成都610065;

最高人民检察院;

北京100726;

展开▼
原文格式 PDF
正文语种 chi
中图分类安全保密;
关键词
文本聚类; 狄利克雷过程混合模型; 非参数贝叶斯; 吉布斯采样;

相似文献

中文文献
外文文献
专利

1. 基于分层狄利克雷过程模型的文本分割 [J] . 李天彩 ,王波 ,席耀一 . 数据采集与处理 . 2017,第002期
2. 基于狄利克雷过程高斯混合模型的变分推断 [J] . 万志成 ,郑静 . 杭州电子科技大学学报 . 2021,第005期
3. 基于狄利克雷过程混合模型的内外先验融合 [J] . 张墨华 ,彭建华 . 计算机科学 . 2020,第005期
4. 基于狄利克雷过程混合模型的城市活动聚类方法研究 [J] . 陈仲 . 交通运输系统工程与信息 . 2020,第006期
5. 文本分类中基于单词表示的全局向量模型和隐含狄利克雷分布的文本表示改进方法 [J] . 陈可嘉 ,刘惠 . 科学技术与工程 . 2021,第029期
6. 基于隐含狄列克雷分配的短文本分类方法 [C] . 张志飞 ,苗夺谦 ,高灿 . 第六届全国青年计算语言学会议 . 2012
7. 基于狄利克雷过程及多项分布混合模型的评论聚类研究 [A] . 彭明夷 . 2021

一种基于狄利克雷过程混合模型的文本聚类算法

摘要

著录项

相似文献

相关主题

期刊订阅