基于RoBERTa-WWM和HDBSCAN的文本聚类算法

刘锟; 曾曦; 邱梓珩; 陈周国

首页> 中文期刊> 《计算机与现代化》 >基于RoBERTa-WWM和HDBSCAN的文本聚类算法

基于RoBERTa-WWM和HDBSCAN的文本聚类算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

在大数据环境下,从海量的互联网数据中获取热点话题是研究当前互联网中民意民情的基础,其中文本聚类是得到热点话题最常用的方法之一,可以分为文本向量化表示和聚类2个步骤。然而在文本向量化表示任务中,传统的文本表示模型无法准确表示新闻、帖文等文本的上下文语境信息。在聚类任务中,最常使用的是K-Means算法和DBSCAN算法,但是它们对数据的聚类方式与实际中话题数据的分布不符,这使得现有的文本聚类算法在实际的互联网环境中应用效果很差。本文根据互联网中话题的数据分布情况,提出一种基于RoBERTa-WWM和HDBSCAN的文本聚类算法。首先利用预训练语言模型RoBERTa-WWM得到每一篇文本的文本向量,其次利用t-SNE算法对高维文本向量进行降维,最后利用基于层次的密度聚类算法的HDBSCAN算法对低维的文本向量进行聚类。实验结果表明提出的算法相较于现有的文本聚类算法,在含有噪声数据且分布不均衡的数据集上,聚类效果有很大的提升。

著录项

来源
《计算机与现代化》 |2022年第3期|48-52|共6页
作者
刘锟; 曾曦; 邱梓珩; 陈周国;
展开▼
作者单位

中国电子科技集团公司第三十研究所;

深圳市网联安瑞网络科技有限公司;

展开▼
原文格式 PDF
正文语种 chi
中图分类文字信息处理;
关键词
文本聚类; 预训练语言模型; 可视化降维; 密度聚类;

相似文献

中文文献
外文文献
专利

1. 基于Cuckoo平台的HDBSCAN恶意代码聚类算法 [J] . 傅依娴1 ,芦天亮1 ,张学军1 . 信息技术与网络安全 . 2019,第001期
2. 基于Cuckoo平台的HDBSCAN恶意代码聚类算法 [J] . 傅依娴 ,芦天亮 ,张学军 . 微型机与应用 . 2019,第001期
3. 基于RoBERTa-WWM的中文电子病历命名实体识别 [J] . 朱岩 ,张利 ,王煜 . 计算机与现代化 . 2021,第002期
4. 基于Hadoop平台的一种改进K-means文本聚类算法 [J] . 潘俊辉 ,王辉 ,张强 . 微型电脑应用 . 2022,第1期
5. 基于文本聚类算法的网络舆情话题检测研究 [J] . 李丽蓉 . 山西警察学院学报 . 2021,第001期
6. 基于模糊集的web文本最大支撑树聚类算法 [C] . 毛太田 ,毛静 ,周军 . 湖南省第二届图书情报学研究生论坛 . 2010
7. 基于文本相似度计算的文本聚类算法研究与实现 [A] . 耿倩 . 2010

基于RoBERTa-WWM和HDBSCAN的文本聚类算法

摘要

著录项

相似文献

相关主题

期刊订阅