首页>中文会议>工业技术>自动化技术与计算机技术>第33届中国数据库学术会议(NDBC2016 )
第33届中国数据库学术会议(NDBC2016 )

第33届中国数据库学术会议(NDBC2016 )

  • 召开年:2016
  • 召开地:深圳
  • 出版时间: 2016-10

主办单位:中国计算机学会

会议文集:第33届中国数据库学术会议(NDBC2016 )论文集

会议论文

热门论文

全部论文

全选(0
  • 摘要:由于短文本字数少、数据量大导致实际短文本分类过程中面临特征维度高、特征稀疏、分类准确率差的问题.特征扩展为解决上述问题的有效方法,如主题模型、频繁模式挖掘等算法在特征扩展过程中被广泛研究与应用.但因短文本本身对分类效率要求较高,特征扩展方式使短文本分类过程面临更大的效率瓶颈.针对上述问题,综合考虑短文本分类准确率及效率提升,提出Spark平台上的基于关联规则挖掘的短文本特征扩展及分类方法,首先采用背景语料库,通过关联规则挖掘的方式对原短文本进行特征补充,其次针对分类过程,提出基于距离选择的层叠支持向量机算法,最后设计Spark平台上的短文本特征扩展与分类算法,通过分布式算法设计,提高短文本处理的效率.实验结果显示,采用本文提出的Spark平台上基于关联规则挖掘的短文本特征扩展方法后,针对大数据集,Spark集群上短文本特征扩展及分类效率约为传统单机上效率的4倍,且相比于传统分类实验,平均约得到15%的效率提升,其中特征扩展及分类优化准确率提升分别为10%与5%.
  • 摘要:本文阐述随着大数据云计算的发展,流数据管理越来越被重视,从早期的流数据管理系统(DSMS)发展到现在的分布式流数据管理系统.但这些系统都重点在于系统功能的实现,而对于系统与用户的交互层面较为薄弱.本论文针对流数据管理系统与用户交互层面,选取了stream系统中的持续查询语言CQL(Continues Query Language)中支持监控的查询语句,结合SQL(Struct Query Language)的语法规则做了相应的简化,设计了结构化持续查询语言CSQL,并通过Antlr开发了词法和语法分析工具.另外,论文设计实现了可远程与系统交互的SDK客户端,提供登陆、查询、监控、删除和异步返回结果等功能.
  • 摘要:病人的电子健康病历(HER)是指导个性化医疗的重要临床数据来源之一.鉴于原始电子健康病历数据异构性、稀疏性等特点,使得直接使用EHRs去指导疾病风险预测变得困难.为此,提出一种基于病人时序画像图的疾病风险预测方法.首先对每位病人的原始电子健康病历数据进行一致性表示,即提出一种时序画像图的表示形式;其次运用改进的Apriori频繁项集挖掘算法,基于病人时序画像图挖掘频繁特征图;根据图的重构原理,每位病人的时序画像图可由时序特征图重新构成,最终获得针对不同病人的重构系数(即特征向量),此外可将医生信任度融入特征向量中,有效用于执行疾病风险预测.通过对两种真实临床场景的实验验证并与传统方法比较,结果显示该疾病风险预测方法可达到更好的预测效果.
  • 摘要:基于关键词的最优路径查询是一种基于位置服务的查询,能够拓展现有地图服务中的路线查询功能,为智能交通导航、旅游路线推荐等诸多基于位置的服务提供算法支持.与传统最短路径查询问题不同,基于关键词的最优路径需综合考虑路径覆盖的关键词、路径行程代价以及路径流行度三类因素间的组合优化性,为NP-hard问题.针对这类查询,现有算法采用邻边拓展的方式构建路径,虽然能够在适当规模的有向图以及较少个数的查询关键词下实现对最优路径的高效查询,但在路网对应的图规模较大以及查询关键词个数增多的情况下,算法复杂度极高,不适合实时响应性的路径搜索.为降低查询复杂度,提高算法伸缩性,本文提出基于关键词序列的路径生成算法.在查询过程中算法优先考虑空间兴趣点的关键词属性,以路径拓展替代邻边拓展;通过变量转化,将问题求解的复杂度由阶乘级转化为多项式级;结合贪婪策略下的初始剪枝,进一步降低算法复杂度,提升查询效率.通过实际路网数据集下的实验,验证了算法的正确性以及在查询效率与伸缩性上的提升。
  • 摘要:从序列数据库挖掘高效用序列是数据挖掘的一项重要任务.尽管大量的高效用序列挖掘算法被提出,可是它们展现了太多的高效用序列,使得用户需要继续从中挑选有用的序列.这不仅需要对大量高效用序列的二次开发建立理论基础,而且需要将二次开发的算法融入到现有的高效用序列挖掘算法中,提高算法的效率及有效性.在高效用项集挖掘中,研究人员对高效用项集提出了一种新的代表形式——闭合高效用项集.有了这个概念,高效用项集的数量被大量减少了.同时,闭合高效用项集在现实生活中是有意义的.受“闭合高效用项集”的启发,本文提出了一种新的高效用序列代表形式——闭合高效用序列,并在理论上证明了在对序列数据库的挖掘过程中效用限制与闭合属性的不同连接顺序产生相同的结果集。本文同时提出了一个有效的算法CloHUS挖掘闭合高效用序列。在CloHUS中原始数据集经过两次扫描被转化为效用列表,搜索空间为一棵字典序列树,三个有效的策略被采用修剪搜索空间.在合成效用值的真实数据集上进行了大量的实验,用于评估CloHUS和高效用序列挖掘算法Uspan的性能.实验结果表明在序列数据库中闭合高效用序列的数量远小于高效用序列的数量,CloHUS在运行时间和内存消耗方面均优于Uspan.
  • 摘要:影响最大化问题是在社会网上找一组具有重要影响力的用户,通过激活该组用户,期望被影响到的用户数量达到最大.然而,已有研究工作往往忽视了影响传播最大化和利润最大化的区别,以及被影响的用户总数随着时间的推移逐渐趋于平稳.本文基于用户动作日志,提出了一个基于时间长度的影响力分配模型IVA-T,根据该模型首次提出了时间最优的利润最大化问题(OTPM),并证明了该问题是NP-hard问题.为求解OTPM问题,提出了一个有效的近似算法Profit-Max,并证明了Profit-Max算法的近似比.在多个真实数据集上的实验结果表明:Profit-Max算法能有效并高效求解OTPM问题.
  • 摘要:旋转森林(Rotation Forest,RoF)是一种运用线性分析理论和决策树的集成分类算法,在分类器个数较少的情况下仍取得良好的结果,同时能保证集成分类的准确性.但对于部分基因数据集,存在线性不可分的情况,原始的算法分类效果不佳.提出了一种运用核主成分分析变换的旋转森林算法(KPCA-RoF),选择高斯径向基核函数和主成分分析的方法对基因数据集进行非线性映射和差异性变化,着重于参数的选择问题,再利用决策树算法进行集成学习.实验证明,改进后的算法能很好地解决数据线性不可分的情形,同时也提高了基因数据集上的分类精度.
  • 摘要:针对当前高分辨率遥感数据的高效存储与高速访问迫切需求,采用分布式架构、对象存储和集群技术,结合遥感数据的空间特性,构建基于数据对象的存储组织模型,设计全分布式的存储管理架构;形成逻辑上的全球覆盖,物理上分散存储,全球遥感数据存储视图的一体化,数据高效共享的分布式集群化遥感大数据存储体系.通过使用此架构,可实现遥感数据资源配置的灵活化,业务区域化特征的定制化与个性化,以及管理系统的智能化。
  • 摘要:本文阐述相似性连接技术是实体识别和数据集成的关键技术之一,是挖掘数据中有价值信息的重要手段.随着大数据发展,传统的集中式相似性连接已经无法满足人们对数据处理时效性需求,利用分布式计算提高相似性连接的执行效率.因此,本文深入地研究了基于Spark的分布式相似性连接处理算法.针对仅使用后缀位置信息过滤方法的不足,提出了利用一条记录前缀与另一条记录后缀间共同元素位置信息来进行过滤的分布式相似性连接PSJoin,提高了相似性连接的处理效率,减少相似性连接的执行时间.同时,针对基于权重的相似度连接算法的过滤问题,结合双缀过滤原理,通过一条记录前缀共同元素之后的第一个元素的权重与另一条记录后缀中元素权重大小的关系,提出了基于双缀过滤的分布式权重相似性连接WTPSJoin.为面向大数据的相似性连接计算提供了两种可靠的解决方案.两种算法在多数据源混合数据集上进行测试实验,实验结果表明,本文所提出的算法相对于已有的过滤算法过滤效果好、执行时间少,同时具有良好的加速比.
  • 摘要:针对现存的公共交通路网中的路径搜索未充分考虑用户的兴趣爱好,提出了公共交通网络下关键词覆盖的最优路径搜索问题,并证明了该问题是NP-hard.提出了一种A*算法,用估计的方法提高路径搜索效率,并采用剪枝策略改善算法性能.基于真实数据集,对所提出的算法与剪枝策略进行了性能测试,验证了算法的有效性。
  • 摘要:在大数据和Web2.0应用的推动下,分布式NoSQL数据库在各个领域的应用越来越广泛.随着数据不断存入NoSQL,上层查询的需求也从简单的点查询向复杂的分析扩展.而NoSQL本身缺乏复杂的查询引擎、索引机制导致了查询性能的低效.本文关注于NoSQL中Top-k范围聚合查询的优化.Top-k范围聚合查询在用户输入的范围内进行分组聚合操作,最终返回按照聚合后的值排序之后的前k个元素.在基准方法的基础上,本文提出了一系列的查询优化技术:(1)ad-hoc场景下的NoSQL-aware方法,利用NoSQL的排序特性减少计算层的任务,性能提升40%左右;(2)二级索引,将用于范围的属性值存放在NoSQL的Row-key中避免扫描全部数据;(3)KVIAR-Tree索引,建立NoSQL环境下基于key-value的范围聚合树进行优化.本文将上述方法进行了实现并在模拟数据和真实数据进行了实验验证,实验结果表明,查询的性能获得了不同级别的提升.
  • 摘要:数据挖掘中所获取的数据维数多,常常导致数据存储所需容量大,知识挖掘所需时间长,预测正确率不高等问题,特征选择是解决上述问题的重要方法之一.本文针对现有特征选择算法最佳特征个数难以确定及分类准确率有待进一步提高等问题,提出一种同时考虑相关性和冗余度的多准则赋权排序的算法(mCRC),mCRC结合两种准则同时对特征进行排序,并利用C-SVM对按重要性降序排好的特征采用顺序前向浮动搜索得出最佳特征子集.实验结果表明,mCRC算法与单独基于互信息或类别可分性赋权排序的特征选择方法相比能在更短的时间内获得分类性能更好的最佳特征子集,为快速并高效地对数据集进行挖掘提供了有力保障.
  • 摘要:影响程度分析分为独立影响程度分析和联合影响程度分析.传统的影响程度分析方法难以兼顾二者,并且在分析的过程中受困于影响因素数目过多以及因素之间复共线性的干扰.部分方法甚至难以应对大规模数据集,这些问题无疑阻碍了方法分析准确率的提升以及广泛应用.于是基于此提出了基于张量分解与重建的多因素影响程度分析方法(MAT),消除了影响因素之间的复共线性,全面而准确的分析了单一因素的独立影响程度和多因素的联合影响程度.通过在真实大规模移动通信数据集上的实验,验证了MAT方法的有效性和准确性。
  • 摘要:众核架构协处理器Xeon Phi成为新兴的主流高性能计算平台.对于数据库应用而言,内存分析处理是一种计算密集型负载,其主要的性能取决于大事实表与维表之间的内存外键连接性能.本文关注于一种相对于缓存相关的分区哈希连接算法和缓存不相关的无分区哈希连接算法的缓存友好型外键连接算法,以适应Xeon Phi协处理器较小的LLC和高并发线程的特点.通过挖掘OLAP模式中的代理键特征,基于键值匹配的哈希探测操作可以进一步简化为事实表与维表之间基于主-外键参照完整性约束的代理键参照访问,因此复杂的哈希表和CPU代价较高的哈希探测操作可以简化为通过映射外键值为代理键向量内存偏移地址的方法对代理向量直接访问.基于代理向量参照访问的外键连接算法能够简单并高效地应用于Xeon Phi协处理器平台,通过更多的核心和高并发线程来掩盖内存访问延迟.实验中对传统的哈希连接算法(无分区哈希连接算法和基数分区哈希连接算法)和基于代理向量参照技术的外键连接算法在Xeon E5-2650v310核处理器平台和Xeon Phi5110P60核协处理器平台进行性能测试和比较,实验结果给出了主流的内存外键连接算法在不同数据集和不同平台上全面的性能特征.
  • 摘要:在分布式集群系统中,数据根据划分算法存储在集群的各个节点中,这为涉及到大量连接操作的复杂查询处理带来了昂贵的网络通信开销.针对该问题,本系统基于XXX模型,结合集中式、分布式数据库系统查询优化策略的优点,提出了最小通信量查询划分算法和多目标查询优化算法.其中最小通信量查询划分算法将复杂查询划分成多个近似parallelizable without communication(PWOC)的子查询,保证每个子查询在通信量较大的情况下不从其他处理节点获取数据.多目标优化算法基于查询划分的结果之上,将并行性和通信代价同时作为驱动目标,以传统多目标加权算法结合贪心策略作为查询优化的评估依据生成查询计划树.最后,系统基于TPC-H基准生成测试数据,将原始算法与优化算法进行了对比实验,结果表明优化算法可以极大提高复杂查询的效率.
  • 摘要:在物联网时代,大规模感知数据中蕴含着巨大的价值,然而在感知数据的获取和发布过程中不可避免地存在大量缺失值,降低了数据的可用性.为了更好地解决这个问题,需要实时准确地对缺失值进行估计.本文首先给出问题的形式化定义并对相关概念进行系统的研究;然后根据感知数据的时空相关性和多模态相关性,提出在线陀螺形估计(GMVI)框架.GMVI增量地更新充分统计量,通过构建时空数据质量模型判断时空估计顺序,利用最大化时空似然增益来选择或融合候选估计值,并采用回溯更新策略进行增量再估计,从而最大化信息增益;最后提出相应的分块策略来提高算法的稳健性.分别在真实和人工生成的两组数据集上对提出的算法进行了实验评估,实验结果表明与现存的估计方法相比GMVI可以有效提高感知数据中缺失值估计的准确率和效率。
  • 摘要:公共交通网络下的最优路径搜索问题在实际生活中有重要的应用.特别地,用户的偏好以及偏好的权重对于路径规划和搜索也相当重要.本文提出了公共交通网络下关键词覆盖的最优路径搜索问题,并证明该问题是NP-hard.本文提出了一种A*算法来提高路径搜索效率,并提出了剪枝策略改善算法性能.本文进行实验对所提出算法与暴力算法在时间性能上做了比较,以及比较剪枝策略的时间性能验证了算法的有效性.
  • 摘要:随着计算机和Internet的快速发展,网络信息呈爆炸增长之势,人们在享受唾手可得的信息的同时也面临着信息过载问题.为从海量信息中筛选出有价值的信息,学者们提出了许多基于网络的迭代排名算法,但现有关于排名算法的研究主要针对不含时网络构建排名算法,而从时间维度展开的相关研究工作较少.本文提出一种新颖的利用网络时间信息的排名算法HTR,该方法在传统排序算法基础上考虑节点的H-index指标衡量节点在不同时间段的重要性.由于考虑了节点活跃性和时间演化过程,相比传统方法时间均衡性更好且对重要节点的识别准确性更高.该算法分别在二个实际网络(Movielens和Amazon)进行测试,发现挖掘出的电影流行度更好,并且在实际的电影排行榜中出现概率更大,表明了算法的高效性.
  • 摘要:针对目前广泛存在的文档与关系型混合数据,提出一个基于分布式数据库中间件的关联数据存储与查询原型系统.该系统首先以分布式数据库中间件为技术手段,集中不同类型数据库,实现文档型与关系型数据的自适应高效存储.进一步设计混合数据查询机制,扩展SQL语句的查询对象.进而,设计扩展的SQL操作符,例如模糊连接,实现文档数据与关系数据不同类型数据的关联查询.上层接口仍沿用用户熟悉的SQL查询语言,而在功能上实现文档数据与关系数据不同类型数据的关联查询.由于具体执行计划推送到节点执行,本文所提系统对不同类型数据的查询进行自适应执行,例如结合MapReduce执行与关系查询优化,是多源异构数据管理解决方案的有效尝试。
  • 摘要:本文阐述动态信息网络是当前复杂网络领域一个极具挑战的新问题,其动态的演化过程具有时序、复杂、多变的特点.结构是网络最基本的特征,也是进行网络建模和分析的基础,研究网络结构的演化过程对全面认识复杂系统的行为倾向具有重要意义.使用“角色”来量化动态网络的结构,得到动态网络的角色模型,应用并改进多类标分类问题的“问题转换”思想,将动态网络的角色预测问题视为多目标回归问题,以历史网络数据作为训练数据构建模型,预测未来时刻网络可能的角色分布情况,提出基于多目标回归思想的动态网络角色预测方法MTR-RP.该方法不仅克服了基于转移矩阵方法忽略时间因素的不足,并且考虑了多个预测目标之间可能存在的依赖关系,实验结果表明,本文提出的MTR-RP方法具有更准确且更稳定的预测效果.
  • 摘要:互联网应用的流行与发展使得传统的数据库管理系统已无法满足海量数据的存储和处理所带来的需求.可扩展数据库区别于传统的数据库,在逻辑上将海量数据的存储和处理分布在多个节点上,节点间有大量的请求和数据需要传输和处理.而已有的数据库系统大多采用排队的机制来处理请求,造成大量的请求阻塞和上下文切换,不能充分利用多核大内存的新硬件优势.本文基于对可扩展数据管理系统中的读写请求的分析,演示一个通信库,与现有的数据库通信模块相比,它有两点不同:(1)允许数据库以I/O线程直接处理和排队等待处理两种机制来处理请求;(2)结合异步非阻塞的事件驱动模型和多I/O线程处理方式,实现了一定程度的可扩展通信.最后,将模拟数据库通信负载,给出性能评测,演示Libonev的上述特点及优势,并支持用户配置通信实例.
  • 摘要:Hadoop大数据平台中部署有各种不同类型的数据管理系统,存储并管理着不同类型的数据资源和对象.由于这些不同的数据管理系统采用不同的数据模型和访问控制策略,从而导致数据资源管理的困难.为了解决这一问题,设计并开发了一种面向Hadoop大数据平台的统一数据资源管理系统,提出了一种统一的多层次元模型用作不同类型数据资源的元数据描述规范,并在此基础上提供了数据包上传和下载、数据发现、数据申请与授权、数据追踪等一系列功能,以期为大数据平台下数据资源的统一管理提供支持.
  • 摘要:由于人类视觉能力的局限,大规模的网络可视化逐渐成为可视化分析的热点问题.在大规模网络可视化与分析中,抽样是必不可少的步骤,尤其是大规模异质网络中存在多种类型节点和链接关系,更加大了抽样的难度.本文提出了一种基于特征向量中心度的异质网络抽样算法,并基于此算法开发了异质网络可视化与分析原型系统HeteVis.算法的抽样参数可以通过系统中用户交互动态设置,以便用户更加灵活的探索大规模异质网络.通过UCI KDD Archive电影数据集详细说明如何使用HeteVis探索大规模异质网络并说明其应用效果.
  • 摘要:并行作业是大规模资源调度的研究热点.已有研究工作通常采用队列进行资源调度建模,仅能满足局部最优解,只能适应调度目标固定不变的场景,灵活性不够.提出了一种基于最小费用最大流的大规模资源调度建模方法,将任务的资源需求和物理资源供给问题转换成最小费用最大流图的构造和求解问题.首先,选择公平性、优先级和放置约束三种典型度量作为切入点,从资源视角映射为图的构造问题,通过改变图的结构使其具备适应性调整能力.其次,针对图的求解时间复杂度高的问题,实现了一种增量式优化算法.最后,实验对比公平性、优先级和放置约束三种资源调度典型系统,验证了本方法可通过按需配置,支持多种调度目标,具备灵活性.并通过实验仿真验证了万级规模下基于图的资源调度延迟,比基于未优化图算法的资源调度延迟最多降低10倍。
  • 摘要:本文阐述在线分析处理(OLAP)作为传统数据仓库(Data Warehouse)技术和决策支持系统(DSS)的重要组成部分,以其在商业领域深入、广泛地应用价值激起了大量关于多维数据模型和数据立方体的研究工作。信息网络数据立方(InfoNetCube)的计算是进行信息网络在线分析处理的基础.然而,不同于传统的数据立方,信息网络数据立方由多个子方体格组成,每个方体格中的任意方体(cuboid)的任意单元格都包含一个主题图(或称图度量),因而空间开销较传统数据立方大2个数量级以上.如何快速、高效进行信息网络数据立方的部分物化是极具挑战的研究课题.本文提出基于“透析计算”思想的信息网络立方物化策略,通过主题图度量在信息维和拓扑维上反单调性运用,提出基于“水平透析”(General-Specific Dialysis)和“垂直透析”(Top-Down Dialysis)的空间剪枝算法,快速透析掉不可能命中的子图度量、方体单元、方体乃至方体格.实验结果表明,本文提出的将垂直透析和水平透析相结合的部分物化策略,可以对信息网络方体进行有效剪枝,算法较基于基本方体的完全物化策略运行时间平均降低75%,存储空间开销显著降低.
  • 摘要:全同态加密技术是解决云环境隐私安全问题的有效方法.为了解决云环境下多用户共享、多用户隐私安全需求、多用户密文计算问题,提出了一种基于代理重加密的全同态加密方案(PRE-MUFHE).该方案以全同态加密算法和近似特征向量技术作为基础,不同用户的密文是通过不同的公钥加密而成,当上传到云端时,通过对某一用户的密文进行重加密(CSP作为代理方),转化为对同一用户下的密文,然后再进行密文的计算.安全分析证明,PRE-MUFHE方案在基于容错学习(LWE)困难度假设随机域模型下是IND-CPA安全的.实验结果表明,PRE-MUFHE能够高效的实现不同用户密文的全同态运算,可有效支持多用户共享。
  • 摘要:随着GPS定位技术的不断发展与智能移动设备的普及,轨迹数据的获取变的越来越容易,同时轨迹数据相关的应用需求也逐渐增多.在普通轨迹数据上加入一定的语义信息,即可使得普通轨迹数据变为语义轨迹数据,通常语义轨迹包含有地理位置、时间与语义三方面的信息.从语义轨迹中挖掘频繁模式是轨迹数据研究中的重要问题,是很多语义轨迹相关应用的基础,如相似性计算、目的地预测、线路推荐等的基础.然而目前的语义轨迹频繁模式挖掘算法仅考虑地理位置和语义信息,并没考虑能够反映用户行为的时间信息(包括到达时间、离开时间、停留时间、行驶时间等).在考虑时间信息后,语义轨迹频繁模式的挖掘将会面临数据稀疏性问题,即很多频繁模式的概率值过小或为零,从而无法挖掘出有意义的频繁模式.因此,本文首先采用基于信息熵的聚类方法对语义轨迹的基础频繁模式进行划分以降低数据稀疏度,然后提供了基础频繁模式集更新的增量方法及剪枝方法以提高其维护效率,最后在真实数据上进行实验并验证了本文算法的有效性及高效性.本方法提供了一种将用户到达时间信息有效、高效的加入到语义轨迹频繁模式途径,它可以作为现有基于频繁模式的语义轨迹相关应用算法的输入,从而使得这些算法可以挖掘出更有意义的频繁模式进而更好的挖掘用户行为.
  • 摘要:随着互联网的快速发展,大数据时代随之到来,并且大数据和互联网、物联网、车联网等相互交融,如何高效快速处理这些大数据是需要研究和解决的问题.在交通领域中,实时准确的交通大数据流预测是实现数据有效处理的前提和基础,但是传统的交通流预测算法不能适用于交通大数据的预测.为了适用于流数据的预测,本文将采用Storm实时流处理平台,将基于SKmeans和SGD的RBFNN在线预测算法在Storm平台上进行实现.为了实现有效的预测,对该算法并行化实现进行了设计,然后结合垂直并行化和水平化给出了该算法总体实现.最后搭建真实的Storm集群环境,通过实验表明,对于交通大数据的预测中,集群模式相比于单机模式具有更快的训练速度,加速效果明显,而且保证了预测的准确度.
  • 摘要:用户兴趣建模是推荐系统的重要组成部分.近年来,已经有很多学者对用户兴趣模型的建立进行了深入研究.然而,已有的用户兴趣建模方法对于用户访问的大规模数据难以进行有效分析与利用,无法动态地体现出用户兴趣度随着时间所发生的变化,且在获取用户兴趣的过程中缺乏自适应性.因此,本文提出了一种自适应的用户兴趣度动态获取方法(Adaptive Strategy Based Dynamic Acquisition Method of user interest,简称ASBDAM),该方法对用户的浏览行为进行度量,并基于自适应策略,动态的获取用户的兴趣度.实验结果表明,利用ASBDAM方法获取到的用户兴趣度与用户主观评价的实际兴趣度非常接近,与其他方法相比有着更小的绝对误差值,说明ASBDAM方法可以自适应地动态的反映出用户当前的兴趣程度。
  • 摘要:互联网上每天都会产生大量的带地理位置标签和时间标签的文本信息,比如,微博、新闻、团购信息等等.如何在众多的信息中找到不仅在时间和空间地理位置上满足用户查询需求,还能够提供给用户多样的查询结果十分重要.本文针对带有地理位置和时间标签的文本信息,提出了多样性感知的k近邻查询(DST-kNN查询)处理方法.首先,对数据对象的时空变量进行归一化处理,进而为时空文本信息建立三维Rtree索引,有效地融合了数据对象的时间变量和空间变量,保证查询时每个数据对象最多遍历一次;然后,提出了DST-kNN查询算法,该算法在保证查询结果多样性的同时,通过三维Rtree索引缩短了查询时间;进一步提出了改进的DST-kNN查询算法(IDST-kNN),在DST-kNN算法基础上,通过先计算初值并利用初值设计一些剪枝优化策略来提高查询效率;最后,基于大量数据集的实验证明了本文提出的查询处理方法的高效性和准确性.
  • 摘要:本文阐述随着内存容量呈指数级增长,基于内存计算的大数据运算平台Spark得到广泛关注.Spark在性能上远超传统的MapReduce模型.然而,Spark有两方面的局限性:第一,数据集不可变;第二,依赖JVM运行环境,从而引起代码执行、内存管理、数据序列化/反序列化等开销.为此,采用C/C++语言,设计并实现了一种轻量级的大数据运算系统——Helius.Helius支持Spark的基本操作,同时允许数据集整体修改,利用C/C++优化了内存管理和网络传输,采用一种stateless worker的机制,简化了分布式计算平台的容错恢复过程.Helius相对Spark而言有以下几个优势:一、节约内存,二、不需要序列化和反序列化、三、减少网络交互,四、容错简单.实验表明,Helius在处理迭代任务时速度比Spark快至少3倍,TPCH性能提高了43%.集群环境下,worker节点的内存开销节省35%,master和worker间的网络传输量减少4倍.
  • 摘要:空间并置(co-location)模式是空间特征集的子集,子集中特征的实例在空间邻域上频繁地共现.先前的大量研究主要是将co–location模式的参与度(PI)和模式效用率(PUR)作为有趣性度量指标,这些度量指标没有充分考虑特征之间以及同一特征实例之间的差异,但是在现实世界中这些差异是存在的;同时,传统基于数据驱动的知识发现,注重挖掘过程的自动化,尽量避免用户介入挖掘过程,挖掘结果常常包含大量无用的、错误的和用户不感兴趣的知识,不具有可行动性.针对上述情况,首先提出了更为一般的研究对象-带效用值的空间实例,并提出效用参与率(UPI)作为模式的有趣性度量指标.其次,将领域知识形式化为三种语义规则并引入挖掘过程中,采用多次迭代的挖掘框架,逐步基于用户的领域知识,挖掘最终的结果。最后,通过实验对比分析了不同有趣性度量指标下的挖掘结果在效用占比和频繁性两方面的差异,以及引入领域知识前后挖掘结果的变化情况。
  • 摘要:本文以用户偏好发现为目标,使用隐变量模型(即含隐变量的贝叶斯网)描述评价数据中相关属性之间的依赖关系及其不确定性,重点研究评价数据中隐变量模型的构建和概率推理方法.首先针对评价数据的稀疏性,使用带偏置的矩阵分解模型对其进行填补.用隐变量表示用户偏好,给出了基于互信息、最大半团和EM算法的隐变量模型构建方法,进而给出了基于Gibbs采样的隐变量模型概率推理和用户偏好发现方法.通过建立在MovieLens数据集上的实验结果测试了本文所提出方法的高效性和有效性。
  • 摘要:本文阐述在实际应用中,数据集中的样本个数通常随着时间推移不断增加.直接采用属性约简的经典算法计算新的约简属性集会进行大量的重复计算,产生很大的时间消耗,因此,设计高效的增量算法很有必要.目前已有的基于粗糙集理论的属性约简增量算法存在的不足是只能处理离散型数据.现有的增量算法对于连续性数据,必须先对数据进行离散化,这大大降低了数据的差异性,造成信息丢失.由于模糊粗糙集的属性约简适用于连续型数据,本文提出了一种基于模糊粗糙集的属性约简增量算法.对模糊粗糙集的基本概念和基于模糊粗糙集的属性约简经典算法的回顾,发现样本增加后的模糊粗糙集的基本概念与样本增加前的基本概念存在规律性的共性。基于数学推理,本文用公式表示出该共性,并基于此设计出基于模糊糙集的属性约简增量算法.最后,通过实验比较发现,对于连续型数据集,本文提出的约简算法在分类准确率方面的表现尤为突出。
  • 摘要:时间序列shapelets是描述序列局部特征的子序列,具有高度的辨识性.基于shapelets转换的时间序列分类方法,已经成为时间序列模式识别研究领域一个重要主题.选取最优的k个shapelets特征,是此类分类方法的关键.针对候选shapelets中存在较大相似性的问题,提出了一种基于多元化top-k shapelets转换的分类方法,DivTopShapelet.该方法采用多元化top-k查询技术,去除相似shapelets,并筛选出最具代表性的k个shapelets集合,最后以最优shapelets集合为特征对数据集进行转换,达到提高分类准确率及时间效率的目的.实验表明,DivTopShapele分类方法不仅比传统分类方法具有更高的准确率,而且与两种同类算法相比,分类准确率分别平均提高了10.00%和2.71%,最多提高了30.87%;同时在所有15个数据集上均有计算效率的提升,最少加速了1.09倍,最高可达到287.8倍.
  • 摘要:本文提出了基于云计算的蠕虫检测方法,它部署于云计算环境下并采用基于行为踪迹的网络蠕虫检测方法,其框架由蠕虫流量代理和云服务中心组成.蠕虫流量代理具有轻量级检测可疑蠕虫流量的功能,负责将可疑流量发送给云服务中心.云服务中心由不同原理的基于行为踪迹的蠕虫分析器同时对于可疑流量进行分析,因此蠕虫分析器的分析能力可以进行互补,最终提高蠕虫的检测准确性以及效率.实验结果表明该蠕虫检测方法具有较高的准确率和效率.
  • 摘要:结合外部知识,使用特定方法进行知识图谱的链接预测,即知识图谱中缺失信息的发现和还原,是目前知识图谱领域研究的热点和关键.本文以电子商务应用为背景,基于已经构建好的描述用户兴趣的知识图谱,结合外部数据集,以贝叶斯网这一重要概率图模型作为不同商品之间相似性及其不确定性的表示和推理框架,通过对商品属性进行统计计算,构建反映商品之间相似关系的贝叶斯网,进而基于概率推理机制,定量地判断商品节点与用户节点之间存在链接的真实性,得到真实和完整的知识图谱,为个性化推荐和关联查询提供依据.建立在真实数据之上的实验结果表明,本文提出的模型和算法是有效的.
  • 摘要:本文阐述在兴趣点推荐过程中引入社交因素、地理因素和时间因素可以提高推荐结果的有效性,然而目前没有同时考虑三种因素的综合推荐方法.引入增强因素的推荐方法是以基于内存的协同过滤为基础的,随着用户和兴趣点数量增长,在处理大规模数据集时面临着效率和扩展性问题.本文首先提出线性加权、级联组合和概率融合三种方法综合社交、地理和时间三种影响因素.然后,在Spark集群环境中分别对三种综合推荐方法进行扩展.最后,通过实验分析验证了三种综合方法均可提高推荐有效性,线性加权的综合推荐效果最好,级联组合具有最理想的查准率,概率融合的推荐效果仅次于线性加权,但能更好的应对数据稀疏性问题;Spark集群环境中实现的综合推荐方法比单机环境中的执行效率更高,在集群中硬件资源增加时可以实现线性扩展.
  • 摘要:针对大规模、高维、稀疏的分类数据聚类,CLOPE算法相比于传统的聚类算法在聚类质量及运行速度都有很大的提升,然而CLOPE算法存在聚类的质量不稳定、没有区分每维属性对聚类的贡献度、需要预先指定排斥因子r等问题.为此,本文提出了基于随机顺序迭代和属性加权的分类数据聚类算法(RW-CLOPE).该算法利用“洗牌”模型对原始数据进行随机排序以排除数据输入顺序对聚类质量的影响.同时,根据信息熵计算各个属性的权重,以区别每维属性对聚类的贡献度,极大地提升了数据聚类的质量.最后,在高效的集群平台Spark上,实现了RW-CLOPE算法.在三个真实数据集上的实验结果表明:在数据集乱序后的份数相同时,RW-CLOPE算法比p-CLOPE算法取得更好的聚类质量.对蘑菇数据集,当CLOPE算法取得最优聚类结果时,RW-CLOPE比CLOPE取得高68%的收益值,比p-CLOPE取得高25%的收益值.针对大量数据,基于Spark的RW-CLOPE算法比基于Hadoop的p-CLOPE算法执行时间更短.计算资源充足时,随机顺序的数据集份数越多,执行时间的提升越明显.
  • 摘要:随着互联网的进一步普及应用,有着方便、快捷、价格相对便宜的优点的网上购物,受到越来越多人的青睐.针对如何尽早的获取在线产品的评论数据进而实时的把握产品舆情的问题,本文设计并实现了一种基于Storm的在线产品评论数据实时采集系统,并通过动态调整产品采集时间间隔算法对系统做了进一步优化.本分布式采集技术具有可扩展性、高度容错性、实时性等特点.京东商城数据采集实例验证了该技术的可行性.
  • 摘要:基于明细日志数据的实时分析,可以帮助实现对事物的实时、个性化的洞察力.比如,对电子商务日志的实时分析,使得可以实时了解每个用户最近的浏览/购买行为的变化,进而对其进行个性化推荐.为了实现这类分析,需要日志分析系统能够实现日志数据无丢失地快速入库,以便进行后续分析.本文提出了日志数据的无丢失暂存以及快速装载技术方案.在开源软件Kafka、HDFS、以及Spark之上,设计并实现了日志数据的分片暂存方法、以及并行装载算法.技术方案实现了39万条/s的数据暂存,以及近16万条/s的数据装载入库性能(压缩的列存储格式).
  • 摘要:根据军工软件质量管理要求,航空系统软件测试用例需要进行规范化管理及高效的复用,TCARS系统基于主题模型,通过主题挖掘判断需求的相似性和需求与用例的关联性,实现测试用例高效复用.系统先建立测试用例管理知识库和需求管理库,对新上传的测试用例和需求,经过中文分词和LDA主题抽取处理,自动推荐相似需求和相关测试用例.系统同时推荐与文档相关的标签,方便用户标记和查找所需用例和需求.用户也可以定制搜索条件,通过精确匹配和模糊匹配,查找所需测试用例和需求,对主题生成过程和结果进行可视化,有利于系统分析和优化.
  • 摘要:本文提出了一种全新的Web数据自动化数据抽取方法SITE.该方法有效利用Web网页中不同层次标签的下标信息,提出了能够表征网页关键结构和数据记录对齐信息的路径下标树模型以及相关的重复性和连续性的概念,前者表达数据记录结构的相似性,后者表达多条记录按序呈现的特征,从而能够将复杂的DOM树结构压缩为精简的路径下标树.验证了一系列相关性质作为理论支持.将抽取过程划分为重复性发现、连续性发现和下标树合并三个过程.针对数据字段缺失、数据记录根节点不唯一等各种复杂情况,提出了下标序列相似度度量方法,并且能基于简单的层次聚类方式发现重复模式.在此基础上,通过连续性发现方法标识数据记录,通过下标树合并方法形成完整数据记录.通过实验验证了本文方法的有效性和效率,SITE在准确性上优于已有的经典工作,具有较短的执行时间.方法的时间复杂度较低,与网页中叶节点的数量具有线性关系.
  • 摘要:八叉树立体网格是组织多维空间数据的常用结构,索引算法是影响数据管理效能的重要因素.本文研究了基于Hilbert空间填充曲线的八叉树立体网格索引算法.首先,通过分析Hilbert曲线构造特点,指出基于Gray码可在均匀分布的立体网格上构造实现Hilbert索引.然后,针对多分辨率数据空间分布不均匀导致Hilbert索引出现冗余的问题,以Gray码为基础,设计实现了紧致Hilbet索引算法.实验结果表明,相比常规Hilbert索引,紧致Hilbert索引计算复杂度相当,编码耗时减少约40%,索引存储空间减少约46%,排序加速比趋向于4.3.
  • 摘要:本文设计并开发了“智能睡眠监测与调节系统”.通过专用高灵敏度压力传感器获取呼吸和心跳信号,设计并实现了睡眠特征(打鼾、呼吸暂停等)提取算法、睡眠状态分析算法、自适应睡眠干预调节算法,从而对睡眠状态进行分析并对睡眠障碍进行实时调节.本系统将睡眠监测和调节功能结合在一起,实现无拘束睡眠监测和无干扰调节功能,具有使用简单、便捷,可自动进入睡眠监测状态等特点.
  • 摘要:互联网互动问答社区已成为网民获取知识、解决问题的重要手段.但是,一些投机用户利用问答形式,塞入广告或相关的推广内容,试图欺骗搜索引擎.因此,发现并剔除这种广告数据,是保证社区健康发展的重要环节.本文的目标就是根据问答系统所提供的真实广告数据,设计和实现问答系统中的广告推广数据的挖掘算法,为这一环节提供技术支持.通过建立一个只有正例和无标注数据的分类器来达到这一目标.这个分类器利用了传统的机器学习算法:逻辑斯蒂回归、随机森林、支持向量机,等等,以及它们的组合,来构造最终的分类器,并取得了良好的效果.
  • 摘要:本文阐述当前主流GIS软件以及互联网地图应用在WebGIS(网络地理信息系统)解决方案中都广泛采用地图切片(又称瓦片),切片处理服务是实现影像在WebGIS上快速无缝浏览的关键技术.针对目前传统算法以及商业GIS软件在大数据量栅格影像快速瓦片化方面的不足,本文提出一种名为ParaTile的高效栅格影像快速瓦片化方法,ParaTile基于MPI共享外存的并行技术,利用多进程对原始栅格影像进行数据划分,每个进程对其所划分的区域进行独立读写和计算,而后再按照TMS或者Google Tile定义的标准将瓦片进行编码输出.实验采用不同级别大小的遥感影像进行测试,结果表明ParaTile在面对不同规模的数据时无论从速度还是算法稳定性上都较现有算法和工具具有显著优势,特别是当数据量越大时,这种优势愈加明显。
  • 摘要:窗口函数作为一种分析型的OLAP函数加入SQL标准已有十多年,而且随着分析型应用需求的增长窗口函数有着越来越广泛的应用前景.尽管目前主流的商业数据库几乎都支持窗口函数,但是现有的执行策略效率低下,不能满足大批量数据的处理.为此,针对窗口函数中MIN和MAX聚集函数,提出一种改进的IM2优化策略,通过使用Skyline技术减少不必要的重复计算,有效的提升窗口函数的执行效率.为证明算法有效性不仅从时空复杂性理论分析层面进行了证明,而且在目前主流的开源数据库PostgreSQL中实现该算法,与其他商业数据库对比有着显著的优化效果。
  • 摘要:本文阐述传统工业生产中原材料积压、产品设计与需求的不对称性、产能过剩等问题导致社会资源存在一定程度的浪费,并爆发周期性的经济危机.而工业互联网致力于提供快速的信息沟通服务,将生产要素和消费要素进行有效整合,大幅度提高企业管理水平和危机应对能力,近些年受到了各国政府和研究机构的广泛关注.本文从网络科学的角度探索工业互联网的结构特征和功能的关系,并以手机供应链网络为例分析互联网下的工业结构.结果表明工业互联网络的组织结构近似于无标度网络,具有小世界特征,少量大度节点对网络功能起关键作用.这些大度节点能够有效降低网络剩余节点间的通信成本,因此资源利用率得到提高.
  • 摘要:当前,许多应用需要持续发布流数据,现有关于单条流数据的差分隐私发布研究大多考虑区间的累和发布,而现实应用中往往需要对发布流数据进行任意区间计数查询.为此,本文提出一个基于历史查询的差分隐私流数据自适应发布算法HQ_DPSAP.算法HQ_DPSAP首先结合流数据特性,利用滑动窗口机制动态构建窗口内流数据对应的区间树,而后进一步分析与计算树节点的覆盖概率,并据此对树节点进行异方差加噪,最后根据历史查询规律自适应调整树节点的隐私预算与树结构参数,以实现流数据的自适应发布.实验对算法HQ_DPSAP的可行性及有效性进行比较分析,结果表明,算法HQ_DPSAP可有效支持任意区间计数查询,且具有较低的查询均方误差和较高的算法执行效率.
  • 摘要:本文阐述针对云环境下空间数据连接查询处理问题,提出了一种基于Spark的多路空间连接查询处理算法BSMWSJ.该算法采用网格划分方法将整个数据空间划分成大小相同的网格单元,并将各类数据集中的空间对象,根据其空间位置划分到相应的网格单元中,每个网格单元中的空间数据对象进行并行连接查询处理.在多路空间连接查询处理过程中,采用边界过滤的方法,通过计算前面连接操作候选结果的MBR来过滤后续连接数据集,从而过滤掉无用的连接对象,减少连接对象的多余投影与复制,并采用重复避免策略来减少重复结果的输出,进而全面减少后续连接计算的代价.合成数据和真实数据集上的大量实验结果表明,本文提出的多路空间连接查询处理算法在性能上明显优于现有的多路连接查询处理算法.
  • 摘要:本文提出了一类新型动态任务分配问题,即空间众包环境下的三类对象在线任务分配.该问题不但囊括了任务分配中的三类研究对象,即众包任务、众包工人和众包工作地点,而且关注动态环境.本文进而设计了随机阈值算法,并给出了该算法在最差情况下的竞争比分析.特别的是,本文还采用在线学习方法进一步优化了随机阈值算法,提出自适应随机阈值算法,并证明该优化策略可逼近随机阈值算法的最佳效果.最终,本文通过在具有不同分布数据集上进行的大量实验以验证算法的效果与性能。
  • 摘要:作为音乐检索的重要方式,哼唱检索由于其有效性和方便性,引起了广泛的关注.对此提出了一种新的基于得分矩阵的音乐哼唱快速检索技术,可以实现哼唱音乐的快速检索.首先根据哼唱音乐特征,将音乐数据库和用户提供的哼唱片段,按自然停顿方式划分音乐的语句,同时使用K-means聚类算法对音乐的语句片段进行音高相似性计算,并根据聚类情况提取出位置特异性得分矩阵.此外,基于得分矩阵提出NA匹配算法和两种加速分段计分方法,分别是顺序前瞻计分SLS算法和置换矩阵前瞻计分PLA算法.实验结果表明所提出的基于得分矩阵的音乐检索技术能够快速有效的返回查询结果,同时PLA算法具有更有效的哼唱音乐检索结果.
  • 摘要:本文阐述云计算为大数据处理提供了一种强大而高效的解决方案.在此模式下,数据管理者(Data Manager,DM)可以租用多个数据中心以实时处理地理分散的数据.然而,由于数据产生的动态性以及资源价格的波动性,将数据迁移至哪些数据中心并提供合适的计算资源来处理它们成为DM低成本处理多源数据的一大问题.本文首先将以上问题转换成联合随机优化问题,然后利用李雅普诺夫(Lyapunov)优化框架将原问题分解成两个独立的子问题进行求解,最后基于求解结果设计在线算法.理论分析表明,所提算法可不断趋近线下最优解并能够保证数据处理时延.在WorldCup98和Youtube数据集上的实验验证了理论分析结果的正确性以及本方法的优越性.
  • 摘要:本文首先改进了两个推荐方法,提出了将用户的主题模型和应用的主题模型与MF相结合的LDA_MF模型,以及将应用的标签信息和用户行为数据同时加以考虑的LDA_CF算法.为了结合不同算法的优点,在保证推荐准确率的条件下提升推荐结果的多样性,提出了融合LDA_MF、LDA_CF以及经典的基于物品的协同过滤模型的混合推荐算法.文章使用真实的大数据评测所提推荐算法,结果显示所提推荐方法能够得到推荐多样性更好且准确率高的结果。
  • 摘要:密度峰值聚类算法是一种有效的新型聚类算法,由于其在发现任意形状簇和数据分布性特征等方面具有一定的优势而被广泛关注.但由于该算法需要计算数据集中所有点对之间的距离(计算ρ和δ值),因此不适合处理大规模高维度数据集.为了提高该算法的效率和扩展性,本文提出了一种基于z值的分布式密度峰值聚类算法,DP-z.它利用空间z填充曲线将数据集映射到一维空间上,根据数据点映射得到的z值信息对数据集分割.为了能够得到正确的结果,需要对分组间数据集进行复制,本文利用z值特性对分组间数据集进行复制和分发时采用过滤策略,减少了大量无用的距离计算开销和数据传输开销,并从理论层次保证其(ρ和δ值)正确性.最后,在云计算平台hadoop上实现了DP-z算法,验证了该算法对于处理大规模高维度数据聚类的有效性.
  • 摘要:随着医疗大数据的快速增长,医学图像的查询吸引了研究者越来越多的关注.然而利用传统的基于内容的医学图像检索方法,查询图像需要和数据库中的所有图像进行逐张匹配才能得到查询结果,这导致图像的查询耗时较长、处理的效率较低.针对此本文实现了一种基于关联图模型的医学图像查询处理系统.此系统通过构建一个带有模糊度量的关联图模型,只需对查询图像和数据库中的一张图像进行一次匹配,采取更新策略就能得到查询图像与数据库中所有图像的相似度范围,从而实现并展示了医学图像的高效Top-k查询过程.本系统清晰地展示医学图像的top-k查询处理过程,达到辅助医生进行诊断的目的.
  • 摘要:Esper是实时复杂事件数据流查询引擎.通过对Esper引擎执行机制的研究发现,Esper并不能充分利用多核平台的计算能力.在分析Esper锁机制和现有线程池框架的基础上,重新设计和实现了可以有效利用多核CPU资源的Esper查询系统.通过实验验证,与现有的Esper查询系统相比,新系统显著提高了Esper事件查询的吞吐量和响应时间,尤其对于连接查询吞吐量提高了近乎5倍,响应时间上提高了超过20倍.
  • 摘要:本文阐述SOH(SQL over HDFS)系统通常将数据存储于分布式文件系统HDFS中,采用Map/Reduce或分布式查询引擎来处理查询任务.得益于HDFS以及Map/Reduce的容错能力和可扩展性,SOH系统可以很好地应对数据规模的飞速增长,完成分析型查询处理.然而,在处理选择型查询或交互式查询时,这类系统暴露出性能上的缺陷.提出一个通用的索引技术,可以应用于SOH系统中,以提高其查询处理的效率.分析了SOH系统访问HDFS文件的过程,指出了其中影响数据加载时间的关键因素;提出了split层和split内部双层索引机制;设计并实现了聚集索引和非聚集索引.最后,在标准数据集上进行了大量实验,并与现有基于HDFS的索引技术进行了比较.实验结果表明,所提出的索引技术可以有效地提高查询处理的工作效率.
  • 摘要:为减少加锁操作对移动对象数据库并行性能的影响并提高其吞吐量,提出一种由GPU加速的网格结合四叉树的索引方法.采用由GPU对出入节点对象进行计数并持续计算节点拆分/合并条件的方式,在不影响CPU计算能力的前提下,将存在性能瓶颈的网格节点转化为四叉树,从而减少对象数据更新时加锁操作造成的其它线程等待时间.方法结构简单且更适用于对象不均匀分布的场景,避免了现有索引方式或在热点区域存在性能瓶颈,或需花费大量计算资源进行结构平衡等缺点.实验结果表明,方法与现有移动对象索引方式相比具有数据吞吐量大、响应速度快等特点,在移动对象空间分布不均匀的场景下其优势更为明显.
  • 摘要:频繁序列模式挖掘是数据挖掘领域的一个基本问题,然而,当数据集含有敏感信息时,发布频繁序列模式本身及其支持度计数都有可能泄露用户隐私信息.为此,本文提出了一种满足差分隐私的频繁序列模式挖掘算法DP-FSM.该算法结合向下封闭性质与智能截断方法从候选模式中挑选出频繁的序列模式;采用几何机制对所选出来的模式的真实支持度添加噪音扰动.除此之外,为了提高挖掘结果的可用性,本文设计了一个阈值修正的策略来减小由于截断序列数据库导致某些序列支持度损失而产生的截断误差,以及如果一个频繁序列模式被错误的标注为不频繁的模式,则它的任何超序列在不计算其支持度的情况下即被判定为不频繁的序列模式而导致的传播误差.实验结果证明了该算法具有较高的数据可用性.
  • 摘要:频繁项集挖掘是从现实生活中的数据集中抽取隐含知识的重要手段之一.随着数据量的增加,对分布式算法的需求越来越迫切.近年来,已经有一些在Spark平台上进行频繁项集挖掘的工作,例如YAFIM和PFP,然而现有的基于Spark的频繁项集挖掘算法没有充分发挥Spark平台的灵活性和计算性能.本文提出一种基于Spark的两阶段频繁项集挖掘算法,第一阶段挖掘数据块内局部频繁项集,第二阶段对第一阶段的结果进行汇总剪枝并得到全局候选项集,进而通过统计全局候选项集的支持度获得整个数据集的频繁项集。同时,本文还针对两阶段挖掘算法进行了负载均衡和有关最小支持度的优化。实验结果表明该算法具有相对于现有分布式算法具有更好的执行效率,同时所做的优化对效率的提升也有很大的帮助。
  • 摘要:轮廓查询被广泛地应用于多标准决策中,ρ-支配轮廓查询作为轮廓查询的变体,通过调整比例关系ρ可控制轮廓集的大小,适合于需要快速决策的数据流上的应用.然而,数据流上的轮廓查询算法不能直接处理ρ-支配轮廓查询,而传统的ρ-支配轮廓查询无法在数据更新频繁时满足查询处理的实时性需求.因此,提出了数据流上的ρ-支配轮廓查询算法.首先,系统地介绍了完全支配、ρ-支配和ρ-支配轮廓的定义,进而提出数据流上ρ-支配轮廓的定义.然后,通过深入分析数据流上的ρ-支配轮廓的性质,得出基于时序支配的数据过滤方法,并提出了基于滑动窗口的ρ-支配轮廓查询算法(ρ-Dominant Skyline Queryover Sliding Window,DSSW),提高了数据流上的ρ-支配轮廓计算的效率.最后,通过大量的实验证明,DSSW算法相比较于传统的ρ-支配轮廓查询算法,在响应时间及存储空间上均有明显优势.
  • 摘要:基于KD-树与差分隐私保护的空间数据分割得到了研究者的广泛关注,空间数据的大小与拉普拉斯噪音的多少直接制约着空间分割的精度.针对现有基于KD-树分割方法难以有效兼顾大规模空间数据与噪音量的不足,首先提出了一种满足差分隐私的KD-树分割方法SKD-Tree(Sampling-based KD-Tree),该方法利用满足差分隐私的伯努利随机抽样技术,抽取空间样本作为分割对象.然而,该方法却没有摆脱利用树高度控制拉普拉斯噪音.启发式设定合适的树高度非常困难,树高度过大,导致结点的噪音值过大;树高度过小,导致空间分割粒度太粗劣.为了弥补SKD-Tree方法的不足,提出了一种基于稀疏向量技术(Sparse Vector Technology,SVT)空间分割方法KD-TSS(KD-Tree with Sampling and SVT),该方法通过SVT判断树中结点是否继续分割,不再依赖KD-树高度来控制结点中的噪音值.SKD-Tree、KD-TSS与KD-Stand、KD-Hybrid在真实的大规模空间数据集上实验结果表明,其分割精度以及响应范围查询效果优于同类算法.
  • 摘要:传统社会网络建立在社交关系图谱的基础上,而以兴趣或主题分享等为目的的兴趣型社交网络则引领着社交网络改革的浪潮.融合社交关系和兴趣爱好关系构建一个新型社交网络模型——主题关注模型.在此模型基础上,首先,采用集对联系度刻画顶点间相似性度量指标,该度量方法可以更好地刻画网络结构特征,提高传统局部相似性度量指标对某些顶点间相似性值的计算精度,降低全局相似性度量指标的计算复杂度.其次,综合考虑主题影响和社交关系,将集对联系度与凝聚型聚类算法相结合,提出一种新的主题社区发现方法.最后,在Karate网络和豆瓣数据集上进行主题社区发现,实验结果表明,考虑主题影响的划分具有更好的社区结构。
  • 摘要:随着大数据和云计算的发展,流数据管理越来越被重视,从早期的流数据管理系统(DSMS)发展到现在的分布式流数据管理系统.但这些系统都重点在于系统功能的实现,而对于系统与用户的交互层面较为薄弱.本论文针对流数据管理系统与用户交互层面,选取了stream系统中的持续查询语言CQL(Continues Query Language)中支持监控的查询语句,结合SQL(Struct Query Language)的语法规则做了相应的简化,设计了结构化持续查询语言CSQL,并通过antlr开发了词法和语法分析工具.另外,论文设计实现了可远程与系统交互的SDK客户端,提供登陆,查询,监控,删除,异步返回结果的功能。
  • 摘要:等距映射(Isometric Mapping,Isomap)及其衍生的维度约简算法受静态近邻值、地标比重值或近邻判断逻辑的影响,存在计算浪费、数值敏感或数据拓扑不稳定的情况,在数据可视化分析的实际应用中很难满足交互实时性和视图准确性的需求.为此,对等距映射的原始计算框架进行改进,提出了具有全局自适应性的GA-Isomap(Global Adaptive-Isomap)算法.邻域图构建方面,设计了数据局部密度值计算和区域划分方法,提出了渐进式的邻域图构造方法和区域地标点选取方法;降维映射方面,引入地标框架图并利用相对位置关系,提出了基于双层图的映射计算方式.仿真结果与Isomap、L-Isomap、Isomap with dynamicneighbor和Isomap with NC算法相比,该算法在进行数据可视化映射时能有效兼顾数据拓扑稳定和运行效率.
  • 摘要:在分布式集群系统中,数据根据划分算法存储在集群的各个节点,这为涉及大量连接操作的复杂查询带来了昂贵的网络开销.针对该问题,基于信息网模型,提出了最小通信量查询划分算法和多目标查询优化算法.其中查询划分算法将复杂查询划分成多个parallelizable without communication(PWOC)子查询,所有子查询可近似无通信地并行执行.多目标优化算法将子查询作为查询计划的基本操作,并将并行性和通信代价同时作为驱动目标,以传统多目标加权算法结合贪心策略作为评估依据生成查询计划树.最后,系统基于TPC-H基准生成测试数据,将原始算法与优化算法进行了对比实验,结果表明优化算法可以极大提高复杂查询的效率。
  • 摘要:本文阐述近似串匹配是计算机科学的基础问题,在文本检索、生物信息学、信号处理、入侵检测、模式识别、数据挖掘和实体识别等领域具有广泛的应用,近似串匹配的效率决定了这些应用的效率.传统的动态规划方法效率低,基于自动机方法构造复杂,过滤验证方法以其高效、简明成为使用最广泛的近似串匹配方法.为了进一步提高过滤验证算法的效率,本文提出了基于局部最优规则的顺序检测方法,该方法可估计两字符串编辑距离的上界,利用该上界可过滤筛选近似串.然后将本文算法应用于阈值为k的近似串匹配中得到基于顺序检测的阈值为k的近似串匹配算法.实验结果表明,相比目前高效的Merge Filter算法,本文方法在DBLP、IMDB、WEB Corpus数据集中的时间效率至少提高37.3%.
  • 摘要:物联网和大数据流式计算的快速发展为智能交通系统的研究带来新的机遇.交通流量预测一直是智能交通系统的关键问题.针对交通流量预测中一个固定模型无法适应多种环境的问题以及面向数据流的模型更新问题,本文提出一种基于变结构动态贝叶斯网络的交通流量预测方法.该方法以复杂事件处理和事件上下文为基础,通过上下文聚类进行历史数据的划分,并通过事件流在线聚类支持聚簇的更新.面向不同聚簇的数据,采取搜索-打分的方法学习对应的贝叶斯网络结构,基于高斯混合模型实现贝叶斯网络的近似推断.在线预测时根据当前上下文选择合适的模型或模型组合进行预测.真实和仿真数据上的实验结果表明本方法能够获得比当前常用方法更好的预测效果.
  • 摘要:流数据相对于传统的静态数据,由于其无限性和动态性,是数据挖掘领域一个研究热点,近似查询技术在海量数据流实时分析领域得到了越来越多的认可,并且得到了广泛的应用.提出了一种综合流式处理和批处理的近似查询模型,利用滑动窗口提供流式近似查询能力,利用改进的分层抽样算法对于数据流产生的海量历史数据,进行分层抽样,最大限度避免偏倚值对于查询结果的影响.实验表明,提出的算法结合了滑动窗口流式分析以及分层抽样技术批处理分析的优点,提高了查询的精度.
  • 摘要:针对大规模、高维、稀疏的分类数据聚类,CLOPE算法相比于传统的聚类算法在聚类质量及运行速度都有很大的提升,然而CLOPE算法存在聚类的质量不稳定、没有区分每维属性对聚类的贡献度、需要预先指定排斥因子r等问题.为此,本文提出了基于随机顺序迭代和属性加权的分类数据聚类算法(RW-CLOPE).该算法在每轮迭代时,首先利用“洗牌”模型对原始数据进行随机排序,然后对随机排序的数据按加权CLOPE算法进行聚类.在每轮迭代中,无论是首轮还是后续各轮,都是取多组随机顺序数据进行聚类,并选取最优聚类作为下一轮的输入,这样几乎完全排除了输入顺序对聚类质量的影响.当聚类收益值几乎不再提升时,即收敛于一个稳定值时迭代终止,因此该算法能得到全局最优聚类.同时,根据属性维的信息熵计算各个属性的权重,以区别每维属性对聚类的贡献度,极大地提升了数据聚类的质量.最后,在高效的集群平台Spark上,实现了RW-CLOPE算法.在三个真实数据集上的实验结果表明:在不同顺序的数据集份数相同时,RW-CLOPE算法能比p-CLOPE算法取得更好的聚类质量.对蘑菇数据集,当CLOPE算法取得最优聚类结果时,RW-CLOPE比CLOPE取得高68%的收益值,比p-CLOPE取得高25%的收益值.在处理大量数据时,基于Spark的RW-CLOPE算法比基于Hadoop的p-CLOPE算法执行时间更短.计算资源充足时,随机顺序的数据份数越多,执行时间的提升越明显.
  • 摘要:为验证轨迹数据的真实性、完整性,检验轨迹数据是否被篡改,提出一种基于弱水印的轨迹数据完整性方法.该方法包括水印嵌入算法和水印检测算法.水印嵌入算法是以嵌入两次水印的方式将组水印和轨迹点水印这两种弱水印信息嵌入到轨迹数据中.嵌入水印时,首先将轨迹数据按照时间分为若干个组,然后将由组标识生成的组水印和由轨迹点坐标生成的轨迹点水印按照一定的规则分别嵌入到轨迹点坐标的最低有效位和轨迹点坐标的次最低有效位.水印检测算法是分别对轨迹数据进行组水印检测和轨迹点水印检测,然后通过水印验证向量的结果模式来判定轨迹数据的完整性.检测水印时,根据水印验证向量的结果统计篡改检测率评估水印算法的脆弱性.严格分析表明,对于被篡改的数据可对数据的篡改进行定位,并识别数据篡改的类型,而且也通过实验证明了这一点。
  • 摘要:本文阐述近来,实时轨迹隐私保护问题日益受到研究者的关注.基于假轨迹技术的研究方法被广泛提出.然而,这些方法在连续情况下未考虑用户所处的实际环境和相邻时刻间的位置约束关系,使得攻击者很容易借助其他背景知识推测出用户真实轨迹,并进一步获取用户的敏感隐私.为了解决实时用户轨迹隐私保护问题,本文提出了两种假轨迹生成算法:Dummy-based Trajectory Generating(DTG)与Enhance Dummy-based TrajectoryGenerating(EnDTG).DTG算法结合了传统的空间匿名和虚假技术,引入了信息熵模型使得在单一时刻生成的k-1个假位置与用户的真实位置具有最高的混淆程度,从而达到轨迹k-匿名隐私程度.进一步地,考虑到相邻时刻所产生的假位置之间的约束关系,提出的EnDTG算法在DTG算法的基础上引入了平均速度可达性约束,提高了用户轨迹隐私保护程度.实验结果表明,DTG算法能够有效地提高轨迹隐私程度,EnDTG算法在满足平均速度可达性同时,进一步提高了轨迹k-匿名隐私程度.
  • 摘要:为拟建设施确定最优目标建造位置的规划问题在实际生活中有重要的应用.特别地,如何确定路网环境下满足所有客户到达其最近设施的加权距离之和最小化的目标位置查询在研究领域中被称为路网下基于MinSum代价函数的最优位置查询.针对已有查询算法效率有待提高的不足,本文提出了一个含有多层次剪枝策略的查询优化算法.该算法通过多种剪枝技术减少查询中需遍历的路网顶点数量来改善算法性能.基于真实路网数据集的对比实验结果说明了提出的查询优化算法的有效性.
  • 摘要:动态热度路网构建是动态路径推荐的基础,例如旅游热点线路推荐和以避免拥堵为目的的城市交通路径推荐.目前,动态热度路网构建主要有等间隔时间划分和基于距离聚类的划分方法.等间隔时间划分可能会导致一个时间段同时包含有高峰和低谷的热度边;基于距离聚类划分时间段需要多次迭代计算,时间代价高(O(Nkn)),其中N是时间点数,k是指定质心数,n是迭代数.本文针对以上问题,提出密度聚类划分时间段方法,按照热度变化划分时间段,搜索核心时间对象邻域包含的时间点类,作为一个划分时间段,将瞬时热度转化为时间段平均热度计算,避免等间隔时间划分造成的不合理划分和基于距离聚类划分造成的较高时间代价;最后,使用邻接矩阵存储边热度,构建热度路网;在热度路网构建过程中,通过停留点扩展加快交汇口获取速度.实验结果显示本文提出的算法与现有的算法相比较,停留点扩展算法运行时间缩短15.8%,密度聚类划分时间段算法精度提高11.7%,运行时间缩短33%.
  • 摘要:RSF模型是基于梯度信息的主动轮廓模型,其轮廓基于图像的梯度信息进行演化,并利用高斯函数作为核函数.因此分割某些医学图像时,有时会存在欠分割、轮廓收敛速度慢等缺陷.本文提出一种改进的RSF模型(Modified Region-Scalable Fitting,MRSF),首先利用K均值对医学图像进行预处理,然后用一个新的核函数代替高斯函数.实验表明:与传统的RSF模型比较,新模型的分割精度提高了近40%,效率提高了近30%.
  • 摘要:本文阐述微博情感分析是社交媒体挖掘中的重要任务之一,在个性化推荐、舆情分析等方面具有重要的理论和应用价值.挖掘性能良好且可同步进行文档主题分析与情感分析的主题情感模型近来在以微博为代表的社交媒体情感分析中备受关注.然而,绝大多数现有主题情感模型都简单地假设不同微博的情感极性是互相独立,这与微博生态的现实状况不相一致的,从而导致这些模型无法对用户的真实情感进行有效建模.基于此,本文综合考虑了微博用户相互关联的事实,提出基于LDA和微博用户关系的主题情感模型SRTSM,该模型在LDA中加入情感层与微博用户关系参数,利用微博用户关系与微博主题学习微博的情感极性.新浪微博真实数据集上的大量实验表明,与代表性算法JST、Sentiment-LDA与DPLDA相比较,SRTSM模型能对用户真实情感与讨论主题进行更加有效的分析建模。
  • 摘要:知识实体的类型标注是专业文献结构化管理和知识脉络挖掘中的一个重要任务.由于专业文献的知识实体具有专业性强、类型多样、随时间变化的特点,如何在无监督的情况下对其进行类型标签抽取、实体类型标注及知识关系挖掘具有重要的意义.设计并实现了一个面向专业文献知识实体的类型标注及可视化系统,提供文献数据的实体识别、实体类型标注、知识实体关系图构建及其可视化等功能,帮助科研工作者更加便捷、直观、准确地把握知识关系和研究热点.
  • 摘要:实体识别是数据质量的一个重要方面,它将描述同一真实世界实体的不同记录识别出来.本文介绍一个可扩展的实体识别系统:NEUERS.NEUERS系统基于一个支持扩展的框架:FREE,该框架由四模块组成:数据载入、数据预处理、实体识别和结果评价.FREE框架提供了实体识别的基本操作,如IO、数据预处理、相似度函数和结果评价等,用户可以只关注于自己的实体识别逻辑来编写新的实体识别方法.NEUERS系统提供了三个实体识别方法:(1)基于遗传算法的实体识别方法,通过遗传算法来训练高效的实体识别分类器;(2)面向关联数据的联合式实体识别方法,利用关联数据的相互关系来联合地识别多类型的实体;(3)基于聚类的实体识别方法,提出图聚类算法来解决匹配决定的问题.
  • 摘要:随着大数据应用的普及,高效可扩展的数据流操作在实时分析处理中扮演着越来越重要的角色.分布式并行处理架构是应对大流量、低延时数据流处理任务的一种有效解决方案.然而,在Key-based分组并行处理中,由于数据的倾斜分布及数据流本身的实时、动态和数据规模不可预知等特性,使得数据流分布并行处理系统存在持续且动态的负载不均衡现象,这会造成系统时效性降低、硬件资源浪费等问题.现有的研究工作处理均衡负载有两种方案:1)基于key粒度的迁移使得并行处理节点负载达到均衡,2)基于元组粒度级别的拆分,采用随机分发来使系统均衡.前者将系统调整至给定的均衡容忍范围内,类似于一维装箱的NP问题;后者对key的拆分势必带来新的为维护Key-based操作的正确性而增加的额外代价,如内存及网络通信成本.本文综合两种方法,提出对key按需拆分、尽量合并的方法,通过轻量级均衡调整算法以及保证Key-based操作特性的拆分方法,使系统既能达到后者的均衡,又能减少细粒度均衡所带来的额外代价.
  • 摘要:本文根据中文商品评论文本的特点,从句法分析、词义理解和语境相关等多角度获取词语间的语义关系,然后将其作为约束知识嵌入到主题模型,提出语义关系约束的主题模型SRC-LDA(semantic relationconstrained LDA),用来实现语义指导下LDA的细粒度主题词提取.由于SRC-LDA改善了标准LDA对于主题词的语义理解和识别能力,从而提高了相同主题下主题词分配的关联度和不同主题下主题词分配的区分度,可以更多地发现细粒度特征词、情感词及其之间的语义关联性.通过实验表明,SRC-LDA对于细粒度特征和情感词的发现和提取具有较好的效果.
  • 摘要:与传统结构化数据去重计数算法相比,大数据环境下的流数据具有快速、连续和随时间变化等特点.为了适应大数据环境下流数据去重计数的要求,必须对概率估计HyperLogLog算法进行改进,提出基于Storm平台的混合滑动窗口HyperLogLog并行化算法.算法在满足Storm流处理平台要求基础上,通过滑动窗口机制和并行化处理,为提高算法的灵活性和通用性,支持基于元组和时间两种滑动窗口方式.最后通过实验验证该算法的误差和内存开销,结果表明在原有算法标准误差不变的情况下,改进算法比传统HyperLogLog算法具有更小的内存消耗和更高的处理效率.
  • 摘要:在本文中提出一种将用户评分与对象质量结合,设计并实现一种新颖的信誉评估模型RPFluidRating,另外从评分时间角度对迭代算法进行了改进,提出一种结合两个评分时间因子的迭代算法RFluidIAAR2,通过在Netflix和Amazon这两个真实数据集上与相关算法进行了实验对比,结果表明采用这个模型的信誉值的算法更优越且稳定,并且所获得的质量排名结果有很大的提高.
  • 摘要:随着大数据应用研究的不断深入和分布式机器学习中流计算框架的涌现,针对数据流中概念漂移问题的研究是面向大数据挖掘领域的研究热点之一.现有的针对概念漂移的研究成果主要还是依赖于数据结构和算法优化上,主要还是通过计算资源有限的独立计算机完成概念漂移的检测.为此,本文提出一种面向大数据的基于Storm的抵抗概念漂移的分类挖掘算法及系统.该系统采用并行化窗口和S-CVFDT算法,利用并行化窗口机制检测数据流中的突变型概念漂移从而自适应的改变并行窗口大小,并通过S-CVFDT算法不断更新渐进性概念漂移时的模型.分析与实验结果表明:该算法可以快速有效地检测到突变型概念漂移降低系统因为突变型概念漂移造成的资源浪费,且模型建立效率、分类精度得到提高.
  • 摘要:why-not问题是为查询结果中的缺失元组找到合理的解释.解决数据库查询中的why-not问题不仅能够帮助用户更好的理解查询,而且能够帮助提高数据库的质量和可用性.为了提高图数据库的可用性,提出了支持近似图查询的why-not问题解释方法.该解释方法不仅阐明了为什么why-not问题没有出现在查询结果中,而且给出了一些修改初始查询图的建议,使得why-not问题能够出现在修改后的查询图的查询结果中.该算法分两部分完成,第一部分为候选修改操作生成阶段,首先利用边频率信息提出候选操作集生成基本算法,接着利用图分解操作提出候选操作集生成改进算法,得到修改初始查询图的候选操作集;第二部分基于对查询图修改操作数最少的代价模型,分别采用贪心算法和回溯法选取候选操作,贪心算法设计了合理的贪心函数,回溯法构建了回溯剪枝树,并提出三种剪枝策略执行剪枝操作,最终选取的候选操作集即为支持近似图查询的why-not问题的合理解释.实验表明,该方法可以快速有效地为近似图查询中的why-not问题提供合理解释.
  • 摘要:随着空间定位技术和移动通信技术的不断发展以及智能手机的普及,各种基于位置的服务快速发展起来.作为基于位置应用中的一种重要查询,反kNN查询在过去十年中获得了广泛的研究.考虑到受路网约束的移动物体位置的不确定性,本文提出了路网中位置不确定的二元反kNN查询.为了有效解决该查询问题,首先提出了一个基于Dijkstra扩展和剪枝的算法,并在该算法的基础上提出了PPE算法,通过预处理加快查询速度.为了进一步减少PPE算法中范围查询的开销,本文提出PPEE算法,利用网格索引来索引范围查询中要查询的不确定空间点,从而提升算法的效率.最后,通过在不同数据集上的大量实验,验证了各个算法的性能.
  • 摘要:联机分析处理(OLAP)工具基于方体(Data Cube)提供在多种粒度上对多维数据的交互式分析,成为现代数据仓库和决策支持系统的重要组件.大数据时代下,方体呈指数型膨胀,传统的单机生成技术陷入内存溢出、维度爆炸的困境,将分布式计算引入方体计算是必然选择.本文适配Spark的平台特性,提出行之有效的并行方体生成算法PipeCube,以及配套的物化设计和查询方法.本算法将搜索格划分为多条线型pipeline并串行执行之,同时引入数据炸裂技术和离散型pipeline的设计增加并行度;针对大数据量下的OLAP操作,本文设计方体的分布式存储和HashMap索引以实现精准定向,避免对文件的全量扫描.在不同数据规模和不同维度数量上的实验表明,PipeCube算法高度胜任大数据量、高维度数和有限内存的计算场景。
  • 摘要:加密数据库是一种实现信息加密访问的典型技术:数据以密文方式存放在数据库中;明文查询语句被改写后可在密文数据上执行;执行结果返回给用户并解密.作为一种代表性的加密数据库技术,采用洋葱加密算法,CryptDB根据各运算操作的不同语义,将SQL语句改写到不同的洋葱密文列.每个洋葱密文列所使用的加密算法与该列承载的运算操作有关,仅暴露数据的部分属性便可完成该运算操作.本文深入研究了洋葱加密算法的不足之处,提出了一种名为Crypt-JDBC的改进模型:(1)针对其洋葱层的冗余和上下层功能性差异大的不足,新模型把洋葱列分为主列与辅助列,并压缩洋葱层的改进方法(主列使用双向算法可还原明文,辅助列使用单向算法提供属性、保证安全性);(2)由于其等值连接算法复杂低效,新模型将该算法分为两部分,通过简化第二部分(差异性转换),来降低复杂度和减少中间件所需数据;(3)针对其列名的无对应性,新模型重新设计了明密文列名称的对应关系,减少执行SQL语句时对上下文信息的依赖,规范了密钥应用接口,大大加强了密钥整体性.本文实现了Crypt-JDBC模型,用JDBC替换中间件软件MySQL-Proxy.实验结果表明,该模型具有较强的安全性、效率性.
  • 摘要:随着智能交通的发展,交通数据出现了指数性增长,如何对海量的交通数据进行有效处理成为一个难题.以HBase为代表的NoSQL数据库易于实现对海量数据的存储,在交通领域逐渐得到了广泛应用.但是,HBase不支持多维索引,无法直接建立时空索引,这导致其在交通数据时空查询时性能很差.为了提升交通数据的查询性能,基于HBase行键设计了面向海量数据的HBase时空索引结构,并针对交通数据进行了索引结构优化,提出了基于Hbase时空索引结构的交通数据查询方法.通过实验验证了本文提出的HBase时空索引结构能有效提升了海量交通数据的区域查询性能,分析了本文提出的HBase时空索引的适用场景.
  • 摘要:本文阐述高维空间中的最近邻(Nearest Neighbor,NN)查询是多媒体数据库领域中的一个基本问题.局部敏感哈希(Locality-Sensitive Hashing,LSH)索引结构能有效克服“维数灾难”现象,是解决c-近似最近邻(c-ANN)问题的一种有效手段.为进一步降低I/O开销,SK-LSH方法为复合哈希键值建立线序,通过优化候选点在磁盘上分布的局部聚敛性,能有效兼顾最近邻查询精度和磁盘访问效率.本文通过分析空间线序机理对最近邻候选点分布局部聚敛性的影响,指出SK-LSH中键值线序的不足,提出一种基于线序优化的LSH外存索引技术,O2LSH(Optimized Order LSH).使用曲线性能更加优秀的z-order代替SK-LSH中的row-wise曲线指导键值排序,借助z-order更好的局部空间优先遍历的性质更快地召回最近邻,从而在保证查询精度的前提下,进一步提升磁盘访问效率、节省多索引哈希表的构建开销.在实际的多媒体数据集上进行的对比实验表明:优化了键值线序后,O2LSH在最近邻查询精度和效率上相对于SK-LSH有较大地提升.
  • 摘要:本文阐述近些年来,随着配备定位功能的移动终端数量迅速增加,基于位置服务(LBS)的应用呈现爆炸式的增长,例如,查找最邻近的加油站、一公里范围内的所有餐厅等.在用户享受着LBS服务为工作、生活带来方便的同时,许多隐私安全问题也逐渐引起了人们的关注.从位置信息中,不仅可以知道你在哪里,还可以进一步推断出其他敏感信息,如家庭住址、健康信息、宗教信仰等.但现有的隐私保护技术较少考虑到查询概率、map数据、POI语义等边信息,攻击者可以将边信息与位置数据相结合推断出用户的隐私信息.本文提出一种新的方法保护用户的位置隐私,首先对空间进行网格划分,根据历史查询数据计算出不同网格区域提交查询的概率,然后结合相应单元格的查询概率来生成用户匿名区域,从而保护用户的位置隐私信息.文中采用位置信息熵作为隐私性能的度量指标,并在真实数据集上进行实验验证隐私保护方法的性能.
  • 摘要:在基于中医方剂数据库的频繁模式挖掘过程中,最小支持度阀值的设置是否合理,直接影响频繁模式挖掘的结果,因此,相比于传统的频繁模式挖掘,Top-Rank-k频繁模式挖掘更加具有应用价值.本文针对于中医方剂的数据特点,提出了一种基于带权无项图的Top-Rank-k频繁模式挖掘算法,该算法可以直接挖掘出频繁k-items(k≥3),并随之快速回溯到核心药物组合的频繁项集所对应的方剂信息,这对中医方剂用药规律分析具有重要意义;此外,本文采用DBV(Dynamic Bite Vector)压缩机制对无向图中边的权重进行压缩存储,有效的提高了算法的空间存储效率.算法分别在真实数据集和人工模拟数据集进行测试和比较,实验证明该算法具有更好的时间和空间效率。
  • 摘要:标签是Web2.0的一个重要的特征.当用户对某个网络资源打标签时,推荐系统会根据用户个人偏好及资源特征给用户进行个性化标签推荐.一些基于张量分解技术的标签推荐模型,例如PITF(Pairwise InteractionTensor Factorization)模型,显式地对用户、资源、标签两两之间的关系进行建模,有效地利用相似用户,相似资源,相似标签等信息,从而获得比其他推荐方法,例如随机游走模型,主题模型,有更好的推荐效果.但张量分解类模型没有考虑用户打标签的行为会随时间变化而变化,以及较难解决标签数据稀疏性等问题.而近期BLL类方法(Base-Level Learning)利用用户以往打标签行为与当前时间的间隔(Recency)、标签的使用频次(Frequency)来估计用户将来重复使用某一标签的概率,并结合该网络资源中最流行标签进行推荐,但BLL类方法也因此缺少推荐新标签的能力.综合考虑上述两类方法的优点,本文提出时间和频次加权的PITF模型TFWPITF(Time and Frequency Weighted PITF),在PITF模型上增加对用户-标签-时间关系的权重以及资源-标签关系的权重,从而更好地对用户和资源打标签的行为进行建模,提高了标签推荐的准确度和新颖性.最后,在不同领域的真实数据集上进行了充分的实验,表明TFWPITF方法在推荐的准确性上均优于其他标签推荐方法,也有相对较好的推荐新标签能力.
  • 摘要:在市场营销中,厂家选择客户作为产品的宣传者时需要支付一定的费用.成本控制下的信息传播最大化定义为在有限成本控制下,如何选择不同费用的用户,使得信息传播的范围最广并且总费用不超过给定的成本.为了解决此问题,首先提出了初始节点进行多次传播的信息传播模型,并证明了该模型的单调性和子模性;然后通过动态规划思想,把节点分组,并在每个分组中最多选择一个种子.在两个真实数据集上进行的实验表明,本文提出的算法在信息传播范围、种子数量、运行时间几个方面取得了满意的效果。
  • 摘要:不同web数据源的可靠性存在差异,导致不同数据源描述同一个实体属性的数据值可能存在冲突.已有解决数据冲突的方法均把数据项值作为一个整体考虑,忽略了每级值之间的差异性和独立性,降低了真值发现的准确率.针对这种现象,本文提出了一种专门处理多级空间值的基于贝叶斯分析的真值发现算法.结合级与级之间的差异性和独立性,将数据项值进行分级处理,并基于分级计算的vote值选出真实值;根据来源提供值的多级信息与真实值的相似度计算来源准确率,进行新一轮的迭代.最后,通过在真实数据集和人工数据集上的实验说明了本文算法能有效地提高真值发现的准确率和计算效率.
  • 摘要:大气再分析产品涵盖了历史一段时期内的大气温度、压强、湿度、风速风向等变量的四维格点化信息,可以广泛应用到气候变化、武器装备设计等多个领域.针对再分析产品的数据格式及应用特点,再分析产品应用平台通用框架采用经典MVC三层模型,基于第三方软件开发和集成了解码、统计分析、可视化等应用组件和标准化的IO接口.以往ASCII格点数据需要用户导出GRIB格式数据,利用拼接软件拼接产生,耗时且十分麻烦.点面结合的混合数据管理,能实现对PB级再分析产品的高效管理,具有高扩展、低延迟等特点.场单元及点单元的点面结合管理方式可满足不同时空跨度的数据检索应用需求。
  • 摘要:本文阐述RSF模型是基于梯度信息的主动轮廓模型,其轮廓基于图像的梯度信息进行演化,并利用高斯函数作为核函数.因此分割某些医学图像时,有时会存在欠分割、轮廓收敛速度慢等缺陷.本文提出一种改进的RSF模型(Modified Region-Scalable Fitting,MRSF),首先利用K均值对医学图像进行预处理,然后用一个新的核函数代替高斯函数.实验表明:与传统的RSF模型比较,新模型的分割精度提高了近40%,效率提高了近30%。
  • 摘要:对医学图像的分析和挖掘前需要进行复杂的预处理操作.当处理大量数据时,繁重的预处理任务极大影响了工作效率.因此,本文针对大规模的医学图像,提出了一种自动化预处理系统ApMed,对来自医院的脑CT扫描DICOM文件进行自动的颅骨去除、对称结构校准以及特征提取.本文还提出了一种纹理图像评价函数用于对纹理化效果进行打分,从而使系统能够得到优化的纹理特征提取结果.最后,ApMed将预处理结果进行存储和可视化.
  • 摘要:近年来,互联网金融发展迅速,P2P平台作为其重要组成部分,为投资者提供了新的投资机会和获取资金的渠道.然而,P2P平台也存在着较大的投资风险.相较传统借贷,由于信息的不对称,在贷款发生坏账时往往很难收回,因此对贷款进行风险评估与推荐优质贷款是非常有意义的.本文设计并实现了一个面向P2P平台投资者的贷款风险评估和推荐系统,提供包括:贷款风险评估,优质贷款推荐,投资人和借款人历史行为分析,贷款数据获取等功能,并支持针对个人的定制化服务,例如个性化贷款推荐.为用户评估和投资P2P贷款提供有力支持.
  • 客服微信

  • 服务号