数据流挖掘
数据流挖掘的相关文献在2005年到2022年内共计90篇,主要集中在自动化技术、计算机技术、经济计划与管理、一般工业技术
等领域,其中期刊论文77篇、会议论文10篇、专利文献677859篇;相关期刊50种,包括南京审计学院学报、大地测量与地球动力学、智能计算机与应用等;
相关会议8种,包括2010(第三届)全国网络与信息安全学术会议、第二十五届中国数据库学术会议(NDBC2008)、2008年全国开放式分布与并行计算学术年会等;数据流挖掘的相关文献由177位作者贡献,包括韩萌、谢伙生、何星星等。
数据流挖掘—发文量
专利文献>
论文:677859篇
占比:99.99%
总计:677946篇
数据流挖掘
-研究学者
- 韩萌
- 谢伙生
- 何星星
- 孟彩霞
- 李英梅
- 王志海
- 王高洋
- 谷瑞军
- 丁剑
- 何军
- 倪志伟
- 刘红岩
- 原继东
- 史金成
- 曹国栋
- 朱威
- 李舟军
- 杜小勇
- 杨慧
- 梁月放
- 梅莹莹
- 王培源
- 王小龙
- 王少峰
- 王春霞
- 王涛
- 石秀金
- 罗莎
- 胡学钢
- 蒋艳凰
- 蔡艺松
- 贾涛
- 赵强利
- 邹彤
- 郭唐永
- 郭锋锋
- 颜跃进
- 马瑞民
- 丁秋林
- 万新贵
- 于戈
- 付达杰
- 仵雪婷
- 任丽君
- 任家东
- 倪丽萍
- 冯时
- 冯维
- 刘力雄
- 刘学军
-
-
陈圆圆;
王志海
-
-
摘要:
对数据流中的潜在信息进行分析和利用是数据流挖掘工作的重要内容。然而,数据的分布会随着时间的推移发生变化,从而使学习假设发生更改,这就是概念漂移现象,它给数据流挖掘带来了巨大的挑战。检测数据分布的变化是一种直接且有效的概念漂移检测方法,目前,已有研究方法基于树型结构或网格结构建立直方图,实现对数据分布的描述,但是,此类方法在进行分布检测时容易产生检验盲点,其可解释性较差,并且在多维数据上的内存消耗较大。文中提出了一种基于等密度分区的概念漂移检测方法PUDC(Partition Based on Uniform Density Clusters),该方法基于改进的k-Means算法,对数据进行等密度分区,利用卡方检验对每个分区进行统计和计算,从而检测数据分布变化,以达到概念漂移检测的目的。为了验证方法的有效性,选取了4个人工数据集和3个真实数据集进行实验,对比分析了不同维度的数据下的I类错误率和II类错误率,实验结果表明,PUDC算法在多维数据流的概念漂移检测中相比几种较新的算法具有一定的优势。
-
-
蔡满春;
王腾飞;
岳婷;
芦天亮
-
-
摘要:
不法分子通过Tor等匿名通信系统构建暗网隐匿其不法行为,给网络监管带来了严峻挑战.网站指纹识别技术能根据加密流量来推测用户访问的站点,是一种有效的监管手段.已有的网站指纹识别技术采用的多为基于批处理的静态模型,无法有效解决概念漂移问题.针对Tor网站指纹,文章提出一种基于自适应随机森林(ARF)算法的动态网站指纹识别模型.模型使用自适应随机森林算法作为分类器,支持手工特征以及自动特征两种输入,能够根据特征流动态更新分类器模型,实现网站指纹的在线分类识别.实验结果表明,基于ARF的动态网站指纹识别模型检测能力优于已有的多种网站指纹识别方法,并能够有效解决已有模型存在的概念漂移问题.
-
-
陈旖;
张美璟;
许发见
-
-
摘要:
针对基于流量分析的移动应用类别识别方法存在计算量大、难以实时识别的问题,提出一种移动应用实时识别方法.根据应用访问域名的特征,将报文进行转换和降维来生成样本向量,并使用支持向量机进行分类.在微型无线网关上对其测试,在对一组目标应用进行识别时,该方法的识别准确率约为94.4%,CPU使用率峰值约1.8%,内存消耗约1052 KB,吞吐量略微降低.实验表明,该方法能满足资源受限的网络设备进行移动应用类别实时识别的需求.
-
-
夏千姿;
倪丽萍;
倪志伟;
朱旭辉;
李想
-
-
摘要:
先前事件检测算法需要大量训练样本并且不能动态检测事件.为了从微博短文本中检测金融事件,提出一种从微博中检测公司金融事件的新模型.结合词嵌入与数据流集成分类算法,词嵌入和触发词典用于中文微博文本表示.带有动态时间窗的集成数据流分类算法(DSESVM)用于在线事件分类,大大减少了训练数据并动态检测事件.使用五家上市公司的微博文本作为语料库进行测试,实验结果表明,该方法不仅降低了训练样本的比例,还检测了概念漂移,可以有效提高微博中公司金融事件检测的准确性,相对于已有方法,其平均F1值提升5.6~7.2百分点.
-
-
程浩东;
韩萌;
张妮;
李小娟;
王乐
-
-
摘要:
从数据流中挖掘高效用项集是一项具有挑战性的任务,因为传入的数据必须在时间和存储内存约束下进行实时处理数据流挖掘通常会产生大量冗余的项集,为了减少这些无用的项集数量且保证无损压缩,需要挖掘闭合项集,它可以比全集高效用项集的集合小几个数量级.为了解决以上问题,提出一种基于滑动窗口模型的数据流闭合高效用项集挖掘(closed high utility itemsets mining over data stream based on sliding window model,CHUI_DS)算法.在 CHUI DS 中设计了 一种新的效用列表结构,该结构在提升批次插入和删除的速度方面非常有效此外,应用修剪策略来改进闭合项集挖掘过程,消除潜在的低效用候选对象.对真实数据集和合成数据集进行的广泛实验评估显示了该算法的效率以及可行性就速度而言,它优于先前提出的主要以批处理模式运行的算法.且它适用于不同大小的滑动窗口,在事务数量等方面具有较强的扩展性.
-
-
王少峰;
韩萌;
贾涛;
张春砚;
孙蕊
-
-
摘要:
数据流高效用模式挖掘方法是以二进制的频繁模式挖掘方法为前提,引入项的内部效用和外部效用,在模式挖掘过程中可以考虑项的重要性,从而挖掘更有价值的模式.从关键窗口技术、常用方法、表示形式等角度对数据流高效用模式挖掘方法进行分析并总结其相关算法,从而研究其特点、优势、劣势以及其关键问题所在.具体来说,说明了数据流高效用模式常用的概念;对处理数据流高效用模式的关键窗口技术进行了分析,涉及到滑动、衰减、界标和倾斜窗口模型;研究了一阶段和两阶段的数据流高效用模式挖掘方法;分析了高效用模式的表示形式,即完全高效用模式和压缩高效用模式;介绍了其他的数据流高效用模式,包括序列高效用模式、混合高效用模式以及高平均效用模式等;最后展望了数据流高效用模式挖掘的进一步研究方向.
-
-
梅莹莹;
梁月放
-
-
摘要:
为解决传统入侵检测实时性不足的问题,针对当前网络安全中处理速度快、防御能力强、实时性能高等特点,研究基于数据流挖掘与入侵检测相融合的网络安全防御技术,建立新的检测模型,设计了快速剔除孤立点的算法,提出一种改进的基于衰减滑动窗口密度的数据流聚类挖掘(ASWDStream)算法,并对该算法及其在入侵检测系统中的应用效能进行了验证.仿真结果表明该算法具有较低的运行环境要求和较高的聚类准确性,入侵检测系统表现出较高的检测率和实用性.
-
-
梅莹莹;
梁月放
-
-
摘要:
为解决传统入侵检测实时性不足的问题,针对当前网络安全中处理速度快、防御能力强、实时性能高等特点,研究基于数据流挖掘与入侵检测相融合的网络安全防御技术,建立新的检测模型,设计了快速剔除孤立点的算法,提出一种改进的基于衰减滑动窗口密度的数据流聚类挖掘(ASWDStream)算法,并对该算法及其在入侵检测系统中的应用效能进行了验证。仿真结果表明该算法具有较低的运行环境要求和较高的聚类准确性,入侵检测系统表现出较高的检测率和实用性。
-
-
韩萌;
丁剑
-
-
摘要:
一些先进应用如欺诈检测和趋势学习等带来了数据流频繁模式挖掘的发展.不同于静态数据,数据流挖掘面临着时空约束和项集组合爆炸等问题.对已有数据流频繁模式挖掘算法进行综述并对经典和最新算法进行分析.按照模式集合的完整程度进行分类,数据流中频繁模式分为全集模式和压缩模式.压缩模式主要包括闭合模式、最大模式、top-k模式以及三者的组合模式.不同之处是闭合模式是无损压缩的,而其他模式是有损压缩的.为了得到有趣的频繁模式,可以挖掘基于用户约束的模式.为了处理数据流中的新近事务,将算法分为基于窗口模型和基于衰减模型的方法.数据流中模式挖掘常见的还包含序列模式和高效用模式,对经典和最新算法进行介绍.最后给出了数据流模式挖掘的下一步工作.
-
-
-
-
王涛;
李舟军;
颜跃进;
陈火旺
- 《第二届中国分类技术及应用学术会议》
| 2007年
-
摘要:
数据流具有数据持续到达、到达速度快、数据规模巨大等特点,这些都给数据流挖掘领域研究工作带来了新挑战,而其中分类算法更是当前的研究热点. Domingos等人在VFDT中利用Hoeffding不等式很好地解决了在数据流上进行单遍扫描获取高精度决策树的问题. Gama等人对VFDT进行扩展并实现了VFDTc,使系统能够处理连续属性,并在叶节点采用了贝叶斯分类算法使分类精度更高.基于VFDT和VFDTc,设计并实现了一种基于线索化二叉排序树的决策树分类新算法VFDTt,其主要贡献有如下3点:1)第1次设计并实现了数据流上的基于线索化二叉排序树(TBST)的连续属性处理方法.相比VFDT,VFDTt的样本插入时间复杂度由O(n2)降低到O(nlogn).当新样本到达时,VFDTc需要更新O(logn)个属性节点,而VFDTt只需要更新相应的一个节点即可. 2)改进了VFDTc连续属性的最佳划分节点选取的计算方法,使其时间复杂度由O(nlogn)降低到O(n). 3)相比VFDTc,VFDTt只需从更少的备选划分节点中选取最佳节点,备选划分节点数由O(n)降低到O(logn)。
-
-
-
-
- 《第二十五届中国数据库学术会议(NDBC2008)》
| 2008年
-
摘要:
近年来,数据流挖掘已成为知识发现领域中的一个研究热点,而数据无限性和概念漂移性等特征使得传统的分类算法不能很好地适应数据流环境.提出一种基于贝叶斯的多窗口数据流分类模型(Bayesian classifier for classifying data streams based on multi-windows,BCCDSMW)对数据流进行分类.BCCDSMW考虑离散属性和连续属性的不同处理,对时间窗口内的数据进行压缩.只有少量样本被保存,其他样本只保存少量统计量,以便在有限的空间上尽可能多的利用有效历史数据.目的是在适应概念漂移的前提下,利用多个时间段的数据学习生成单个贝叶斯分类器,使其能准确地反映当前数据流的实际情况,并且该分类器能快速地对未来数据分类处理.实验结果表明,该模型有较好的分类效果.
-
-
史金成;
胡学钢
- 《全国第18届计算机技术与应用学术会议(CACIS)》
| 2007年
-
摘要:
上世纪末,为适应网络监控、入侵检测、情报分析、商业交易管理和分析等应用的要求,数据流技术应运而生.数据流聚类是数据流挖掘最常用的方法之一,但是常见的聚类算法是无监督的。本文在介绍SHStream算法的基础上,通过对SHStream算法的改进,提出了一种能够在高维空间中处理约束条件的聚类算法CON-SHStream。
-
-
-
-
-
-
-
-
-
- 西门子公司
- 公开公告日期:1999-12-01
-
摘要:
在复用组合各数据流(DS)时将各数据流组合成各数字中间数据流(ZDS)。组合如此进行,使得各同类数据流(DS)共同组合成一个中间数据流(ZDS),而各不同类数据流(DS)组合入各不同的中间数据流(ZDS)中。对于这些中间数据流(ZDS)实施用于此中间数据流(ZDS)的差错识别和/或差错纠正的各种措施,最后将这些中间数据流(ZDS)组合成总数据流(GDS)。
-
-
-
-
-
-