分布式环境下的文本聚类研究与实现

赵华茗

首页> 中文期刊> 《现代图书情报技术》 >分布式环境下的文本聚类研究与实现

分布式环境下的文本聚类研究与实现

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

【目的】通过开源工具,构建一种分布式环境下的文本聚类与分类应用平台。【方法】以海量文本的词收敛性为基础,通过词聚类指导文本聚类和分类。过程包括:使用开源分词器等工具进行训练集的文本预处理,结合Mahout数据挖掘平台对处理后的词集进行聚类分析,最后通过相似度算法计算测试文本与词类簇的相似度并分类。【结果】分布式环境下的基于词聚类的文本聚类分类计算方法,可有效解决海量文本的词聚类瓶颈问题。经测试,当训练文本集增加到100,迭代收敛阈值为0.01时,词聚类结果较理想。【局限】测试数据规模有限,仅限于新闻数据,基于其他领域的词聚类效果需要进一步测试、优化、调整。【结论】详细描述基于词聚类的文本聚类分类算法的开发环境构架和关键步骤,有助于研究者对相关开源工具使用及分布式并行环境部署的深入理解。

著录项

来源
《现代图书情报技术》 |2015年第1期|82-88|共7页
作者
赵华茗;
展开▼
作者单位

中国科学院文献情报中心;

展开▼
原文格式 PDF
正文语种 chi
中图分类文字信息处理;
关键词
分布式环境; 聚类; 文本聚类; Hadoop; Mahout;

相似文献

中文文献
外文文献
专利

1. 分布式环境下智能答疑系统平台的研究与实现 [J] . 张以利 ,刘亚军 . 电脑开发与应用 . 2005,第012期
2. 分布式环境照度监测系统的研究与实现 [J] . 王国建 ,鲍军民 ,李桑 . 自动化仪表 . 2013,第009期
3. 基于K-means算法改进的短文本聚类研究与实现 [J] . 王俊丰 ,贾晓霞 ,李志强 . 信息技术 . 2019,第012期
4. Web文本聚类的研究与实现 [J] . 贾丙静 ,吴长勤 ,葛华 . 长春师范学院学报（自然科学版） . 2011,第003期
5. 基于WEKA平台的文本聚类研究与实现 [J] . 陈嘉勇 . 中国管理信息化 . 2009,第021期
6. 分布式环境下的文档相似度研究与实现 [C] . 赵华茗 . 2011图书馆信息技术的应用、服务和创新学术研讨会暨第3届数字图书馆与开放源代码软件(DLIBOSS2011)学术研讨会 . 2011
7. 分布式环境下基于文本聚类的海量非结构化知识管理 [A] . 冯汝伟 . 2012

分布式环境下的文本聚类研究与实现

摘要

著录项

相似文献

相关主题

期刊订阅