增量聚类
增量聚类的相关文献在2003年到2022年内共计122篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、科学、科学研究
等领域,其中期刊论文81篇、会议论文3篇、专利文献14542篇;相关期刊58种,包括科学技术与工程、通信学报、计算机工程等;
相关会议3种,包括SCEG2014研讨会(2014年“计算机科学与技术及教育技术“学术研讨会)、第九届全国计算语言学学术会议、2018年全国高性能计算学术年会 等;增量聚类的相关文献由346位作者贡献,包括田国栋、周超、孟海东等。
增量聚类—发文量
专利文献>
论文:14542篇
占比:99.43%
总计:14626篇
增量聚类
-研究学者
- 田国栋
- 周超
- 孟海东
- 于海阳
- 付佳伟
- 余世杰
- 兰洋
- 冯巍
- 刘亮亮
- 刘凯鉴
- 吴亚玺
- 吴健康
- 吴琪
- 唐世渭
- 姚宣霞
- 孙鑫
- 宋颖慧
- 左万利
- 张兆心
- 张勇
- 张晖
- 张祺深
- 曲武
- 李波
- 李洪梅
- 杨冬青
- 杨春明
- 杨镇楠
- 杨震
- 焦正杉
- 王丹
- 王明文
- 王琳
- 王腾蛟
- 王蒙
- 王鹏伟
- 申彦博
- 程耀东
- 章昭辉
- 纪淑娟
- 苏晓珂
- 蒋昌俊
- 蒋紫东
- 袁洁
- 赵亮
- 赵旭剑
- 赵瑞
- 路海伦
- 郭正兵
- 郭海蓉
-
-
李艳红;
谢梦娜;
王素格;
李德玉
-
-
摘要:
随着社交网络和互联网的飞速发展,产生了大量的微博短文本流数据。及时发现微博文本流中热点话题,对话题推荐和舆情监测等有重要作用。为了解决微博短文本特征稀疏问题,利用微博评论对微博进行特征扩展,提出了一种基于特征扩展的微博短文本流热点话题检测方法(Feature extension-based hot topic detection,FE-HTD)。首先利用评论用户的影响力以及评论文本的点赞数筛选评论文本,并使用词共现和词频-逆文档频率(Term frequency-inverse document frequency,TF-IDF)方法从选取的评论文本中抽取特征词完成对微博文本的特征扩展;然后计算微博文本流的词对速度、词对加速度,并根据点赞数、评论数计算微博文本强度,结合词对加速度与微博文本强度定义突发特征;最后,根据突发词对的速度确定可变长的热点话题窗口范围,通过聚类得到窗口中热点话题的主题结构。实验中,将所提算法与基于文本的话题检测(Text-based topic detection,T-TD)和基于突发词的话题检测(Burst words-based topic detection,BW-TD)进行对比实验。结果表明,本文算法FE-HTD准确率达76.4%,召回率达78.7%,与对比算法T-TD和BW-TD相比提高了10%。
-
-
郭恒睿;
王中卿;
朱巧明;
李培峰
-
-
摘要:
面向社交媒体的事件聚类旨在根据事件特征实现短文本聚类。目前,事件聚类模型主要分为无监督模型和有监督模型。无监督模型聚类效果较差,有监督聚类模型依赖大量标注数据。基于此,该文提出了一种半监督事件聚类模型(SemiEC),该模型在小规模标注数据的基础上,利用LSTM表征事件,并基于线性模型计算文本相似度,进行增量聚类。然后,利用增量聚类产生的标注数据对模型再训练,结束后对不确定样本再聚类。实验表明,SemiEC的性能相比基准模型有较大提升。
-
-
武森;
高晓楠;
何慧霞
-
-
摘要:
话题发现是网络社交平台上进行热点话题预测的一个重要研究问题.针对已有话题发现算法大多基于传统余弦相似度衡量文本数据间的相似性,无法识别各维度取值成比例变化时数据对象间的差异,文本数据相似度计算结果不准确,影响话题发现正确率的问题,提出基于双向改进余弦相似度的话题发现算法(TABOC),首先从方向和取值两个角度改进余弦相似度,提出双向改进余弦相似度,能够区分各维度取值成比例变化的数据对象,保留传统余弦相似度在方向判别上的优势,提高衡量文本相似度的准确性;进一步定义集合的双向改进余弦特征向量和双向改进余弦特征向量的加法等相关定义定理,舍弃无关信息,直接计算新合并集合的特征向量,减小话题发现过程中的时间和空间消耗;还结合增量聚类框架,高效处理新增数据.采用百度贴吧数据进行实验表明,TABOC算法进行话题发现是有效可行的,算法正确率和时间效率总体上优于其他对比算法.
-
-
孙悦;
罗倩;
方梁雨
-
-
摘要:
针对传统微博话题发现算法中,计算文本距离时仅仅考虑词与词的距离和最小而产生的问题,提出了使用CWMD(cos-word mover's distance)作为聚类标准的算法.结合余弦距离和WMD计算句子之间的相似性;使用TF-IDF向量代替WMD中词频权重向量,将所有词对文档的贡献纳入考量;使用CWMD代替传统的距离作为SP(Single-Pass)聚类的标准;并且提出了构建文本待定池的SP算法,旨在避免话题发现过程中数据到达的先后顺序对结果产生的影响,从而提高话题发现的准确性.通过对中文语料数据库中的部分数据进行对比实验,证实了该话题发现模型效果更好.进一步将该模型应用到爬取的微博数据中,将提取的簇的关键词和微博热搜话题进行比对,结果显示二者具有很强的相关性.
-
-
王劲松;
吕志梅;
赵泽宁;
张洪玮
-
-
摘要:
比特币是一种基于区块链的加密货币,其因具备伪匿名性而常被用于异常交易活动中.目前比特币实体识别多通过启发式聚类方法实现,但此类方法未考虑新数据出现后的结果融合问题,导致算法效率较低.针对该问题,提出一种基于比特币交易数据的增量聚类方法.对区块数据进行分析以获取钱包地址的可聚类交易,构成聚类地址组,并通过查找地址索引表提取聚类实体间的关系.利用并查集算法对该区块钱包地址数据进行增量聚类,得到新的比特币实体关系,进而推测实体类型.同时,对实体进行识别和标注,实现实体交易行为的可视分析.实验结果表明,该方法可以准确地对地址进行增量聚类,体现比特币实体的演变过程,与启发式聚类方法相比时间复杂度更低.
-
-
李敬炜
-
-
摘要:
为了提高测试效率,需要筛选出高质量的测试用例,传统聚类算法在计算时会产生误差,易产生多个簇,导致聚类效果不佳.结合测试用例的特点,本文提出一种增量聚类算法T_Single-Pass(Testcase_Single-Pass),首先通过句子的语法结构判断出每个词的词性,选取名词作为计算对象.接着根据词所在用例的位置计算权重值,选取权重值前三的进行向量表示.最后采用曼哈顿公式融入时间因素来计算与当前已有聚类中心对象的相关性.在现有企业所用的安卓系统性能测试用例集上进行验证,比较K-Means、传统Single-Pass以及本文提出的算法,得出本文的方法聚类效果最佳.
-
-
樊路;
钱雪忠;
姚琳燕
-
-
摘要:
大多数聚类算法都是在静态情况下运行,使其不允许添加任何增量数据.提出了一种基于K近邻(KNN)的增量聚类算法,算法包含两个创新点,利用K近邻的思想和样本紧密度两个条件处理增量数据;根据簇特征的变化分裂或合并簇.实验表明:提出的算法既可以发现新簇,又能有效规避噪声点,且能够处理非球形的数据集.
-
-
-
-
胡建伟;
车欣;
周漫;
崔艳鹏
-
-
摘要:
针对属于同一个家族的恶意软件的行为特征具有逻辑相似性这一特点,从行为检测的角度通过追踪API函数调用的逻辑规则来提取恶意软件的特征,并利用静态分析与动态分析相结合的方法来分析恶意行为特征.此外,依据恶意软件家族的目的性、继承性与多样性,构建了恶意软件家族的传递闭包关系,并改进了基于高斯混合模型的增量聚类方法来识别恶意软件家族.实验证明,所提方法不仅能节省恶意软件检测的存储空间,还能显著提高检测的准确率与识别率.
-
-
ZHANG Xiao-fen;
张晓芬;
FENG Jun;
封筠
- 《SCEG2014研讨会(2014年“计算机科学与技术及教育技术“学术研讨会)》
| 2014年
-
摘要:
随着各个领域数据量的迅速增长,增量聚类算法随即被提出用来解决动态数据的聚类问题.本文介绍了增量聚类算法的分类,分析了数据在插入、删除和更新时使用增量聚类算法的益处.选择合适的增量聚类算法,可以保证数据在变化时能够降低时间复杂度、提高聚类的精度和效率.本文主要对几种增量聚类算法进行分析,最后给出了进一步的研究方向.本文的第一部分对该论文的相关工作进行描述,第二部分对每类增量聚类算法进行分析和描述,第三部分对每类增量聚类算法进行了归纳总结。可以看出增量聚类算法仍存在待解决和不足的地方,基于层次增量聚类算法的复杂度较高,因此不太适合处理大型数据。基于划分增量聚类算法只能发现非凹的球形簇,对于噪声数据很敏感,需要给出一个初始划分。基于密度的增量聚类算法对输人参数比较敏感,对数据维数的伸缩性较差。基于网格的增量聚类算法对噪声敏感,当数据中有噪音时,如果不加特殊处理,算法的聚类质量会很差。
-
-
Shen yanbo;
申彦博;
Yuan jie;
袁洁;
Ji shujuan;
纪淑娟
- 《2018年全国高性能计算学术年会》
| 2018年
-
摘要:
基于树结构的三支决策增量聚类算法(TIOC-TWD算法)同时解决了数据增量和重叠问题,但该算法在距离度量时没有考虑到属性重要度不同的问题.针对以上问题,本文给出了一种基于属性重要度的加权三支决策增量软聚类算法(W-TIOC-TWD算法),将属性重要度考虑到距离度量中,弥补了TIOC-TWD算法在聚类过程中将所有属性的重要程度视为相等的不足,并且提出了离群点这一定义,提高了算法的时间效率.分别在人工数据集和UCI数据集上验证W-TIOC-TWD算法的有效性,实验结果表明W-TIOC-TWD算法比原算法具有更高的聚类准确率和稳定性.
-
-
龚海军;
何婷婷;
瞿国忠;
张勇;
胡文敏
- 《第九届全国计算语言学学术会议》
| 2007年
-
摘要:
每年都会有一些机构通过媒体发布当年的热点事件,这些事件通常都是由人工进行筛选。本文提出一种方法来自动地发现热点事件。使用从新闻网站上下载下来的2006年的网页内容,通过增量聚类得到每月的临时事件。再将各个月临时事件列表里文档数大于一定阈值的事件,做单连通聚类,得到一年的事件列表。本文提出了一种事件热度打分方案,根据事件的热度对事件过滤和排序,最终获得一年的热点事件。