基于近邻传播的文本数据流聚类算法研究

李一鸣; 倪丽萍; 方清华; 刘慧婷

首页> 中文期刊> 《计算机科学》 >基于近邻传播的文本数据流聚类算法研究

基于近邻传播的文本数据流聚类算法研究

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

随着大数据时代的到来,网络上产生了大量非结构化文本数据流,这些文本数据流具有动态、高维、稀疏等特征.针对这些特点,首先将传统的AP算法及流式文本数据特征相结合,然后提出文本数据流聚类算法——OAP-s算法.该算法通过在AP算法上引入衰减因子,对聚类中心结果进行衰减,同时将当前时间窗口的聚类中心带入到下一时间窗口中进行聚类.针对OAP-s算法的不足,又提出了OWAP-s算法.该算法在OAP-s算法模型的基础上定义了加权相似度,并通过引入吸引度因子,使得历史聚类中心更具吸引性,得到更精确的聚类结果.同时,两种算法均采用滑动时间窗口模式,使算法既能体现数据流的时态特征,又能反映数据流的分布特征.实验结果表明,两种算法在聚类精确度、稳定性方面均高于OSKM算法,而且具有较好的伸缩性和可扩展性.

著录项

来源
《计算机科学》 |2016年第5期|223-229|共7页
作者
李一鸣; 倪丽萍; 方清华; 刘慧婷;
展开▼
作者单位

合肥工业大学管理学院合肥 230009;

合肥工业大学过程优化与智能决策教育部重点实验室合肥 230009;

合肥工业大学管理学院合肥 230009;

合肥工业大学过程优化与智能决策教育部重点实验室合肥 230009;

合肥工业大学管理学院合肥 230009;

合肥工业大学过程优化与智能决策教育部重点实验室合肥 230009;

安徽大学计算机科学与技术学院合肥 230601;

展开▼
原文格式 PDF
正文语种 chi
中图分类自动推理、机器学习;
关键词
数据挖掘; 近邻传播聚类; 文本数据; 滑动时间窗口; 权重;

相似文献

中文文献
外文文献
专利

1. 基于近邻传播的不确定数据流演化聚类算法 [J] . 夏聪 ,陆亿红 . 模式识别与人工智能 . 2016,第005期
2. 基于近邻传播与密度相融合的进化数据流聚类算法 [J] . 邢长征 ,刘剑 . 计算机应用 . 2015,第007期
3. 基于密度与近邻传播的数据流聚类算法 [J] . 张建朋 ,陈福才 ,李邵梅 . 自动化学报 . 2014,第002期
4. 基于近邻传播的分布式数据流聚类算法 [J] . 张建朋 ,金鑫 ,陈福才 . 计算机应用 . 2013,第009期
5. 基于半监督近邻传播的数据流聚类算法 [J] . 王文帅 ,陈刚 . 计算机工程与应用 . 2013,第008期
6. 基于Hadoop MapReduce的分布式数据流聚类算法研究 [C] . 蔡斌雷 ,任家东 ,朱世伟 . 第19届全国信息存储技术学术会议 . 2013
7. 基于近邻传播的文本数据流聚类算法及其应用研究 [A] . 李一鸣 . 2016

基于近邻传播的文本数据流聚类算法研究

摘要

著录项

相似文献

相关主题

期刊订阅