首页>中文会议>其他>第30届中国数据库学术会议
第30届中国数据库学术会议

第30届中国数据库学术会议

  • 召开年:2013
  • 召开地:哈尔滨
  • 出版时间: 2013-08-16

主办单位:;中国计算机学会;;

会议文集:第30届中国数据库学术会议论文集

会议论文
全选(0
  • 摘要:浮动车技术是近年来智能交通系统中所采用的、获取道路交通信息的先进技术手段之一,可作为大规模实时交通监控的数据源.由于浮动车数据规模庞大,从大量移动对象中有效处理流数据是其中一大难点.采用相似轨迹聚类的思想,结合与拥堵特征相关的交通参数,提出了拥堵同伴发现算法.该算法能从浮动车轨迹流数据中筛选出可能发生拥堵的浮动车数据,从而对拥堵区域变化趋势进行概化预测,由预测结果决定负载处理方式.此外,设计基于预测的多优先级调度算法用以实现整个监控流程.提出的方法可有效降低处理浮动车数据的代价,实现快速交通拥堵监控.通过在城市路网中大规模出租车轨迹数据上的实测,验证了这种算法的有效性和优势.
  • 摘要:频繁模式挖掘是分析事务数据集常用技术.然而,当事务数据集合有敏感数据时(如用户行为记录、电子病例等),直接发布频繁模式及其支持度计数会给个人隐私带来相当大的风险.对此提出了一种满足ε-差分隐私的top-k频繁模式挖掘算法DP-topkP(differentially private top-k pattern mining).该算法利用指数机制从候选频繁模式集合中挑选出top-k个携带真实支持度计数的模式;采用拉普拉斯机制产生的噪音扰动所选模式的真实支持度计数;为了增强输出模式的可用性,采用后置处理技术对topk个模式的噪音支持度计数进行求精处理.从理论角度证明了该算法满足ε-差分隐私,并符合(λ,δ)-useful要求.实验结果证明了DP-topkP算法具有较好的准确性、可用性和可扩展性.
  • 摘要:提出一种融合语义特征的移动对象轨迹预测方法.该方法首先将用户的地理位置轨迹转化成语义轨迹,挖掘出语义模式集,同时在语义轨迹中分析用户的移动行为和规律,将具有相似语义行为的用户进行聚类,并挖掘出每个聚类的地理模式集.然后,基于挖掘到的用户个体语义模式集和相似用户地理模式集,构造用来索引和局部匹配的模式树STP-Tree和SLP-Tree.通过对STP-Tree和SLP-Tree的索引和局部匹配,引入一个加权函数实现给定对象运动的语义位置预测.此方法在传统的地理模式预测方法的基础上融合语义特征,可以有效地提取用户的语义活动行为,克服地理位置点特征的局限.在大量真实和人工轨迹数据集上的实验结果表明:该方法的预测准确率较传统方法均有显著提高.
  • 摘要:t-closeness模型是数据发布领域中用于抵御相似性攻击和偏斜攻击的一种有效方法,但其采用的EMD(earth mover's distance)距离没有考虑等价类与数据表间敏感属性分布的稳定性,不能全面地衡量分布间距离,在分布间稳定差异过大时会大大提高隐私泄露的风险.针对这种局限,提出了一种SABuk t-closeness模型,它在传统t-closeness模型的基础上,为更加准确地度量分布间距离,以EMD距离与KL散度(kullback-leibler divergence)结合构建距离度量标准.同时,根据敏感属性的层次树结构,对数据表进行语义相似性桶分组划分,然后采用贪心思想生成满足要求的最小等价类,并且运用k-近邻的思想来选取QI(quasi-identifiers)值相似的元组生成等价类.实验结果表明,SABuk t-closeness模型在牺牲少量时间的前提下减少了信息损失,能在有效地保护敏感信息不泄露的同时保持较高的数据效用.
  • 摘要:XML上实体抽取问题的任务是要从XML数据中抽取出描述现实世界某个物理实体的数据实体.利用XML查询提供实体的表示方法,基于键规则中有关实体的语义信息,给出了求解XML上实体抽取问题的基于键规则的实体抽取(key-hased entity extraction,KEE)方法.KEE方法利用查询松弛技术,自动地生成抽取实体的候选查询集合,基于相似性测度,从候选查询中选取适用于抽取实体的查询集合.作为KEE方法的一个具体实现,SharingEE算法利用标准化的查询松弛技术,减少了候选查询中的冗余,利用基于自动机的查询处理技术,在多个候选查询之间共享中间结果,从而减少计算开销.在真实和模拟数据上运行的实验验证了算法的效率和有效性.实验结果表明,KEE方法可以很好地解决实体抽取问题,并可以扩展到大规模数据上.
  • 摘要:数据流子空间聚类的主要目的是在合理的时间段内准确找到数据流特征子空间中的聚类.现有的数据流子空间聚类算法受参数影响较大,通常要求预先给出聚类数目或特征子空间,且聚类结果不能及时反映数据流的变化情况.针对以上缺陷,提出一种新的数据流子空间聚类算法SC-RP,SC-RP无需预先给出聚类数目或特征子空间,对孤立点不敏感,可实现快速聚类,通过区域树结构记录数据流的变化并及时更新统计信息,进而根据数据流的变化调整聚类结果.通过在真实数据集与仿真数据集上的实验,证明了SC-RP在聚类精度和速度上优于现有的数据流子空间聚类算法,且对聚类数目及数据维度均具有良好的伸缩性.
  • 摘要:近年来,在社交网络、生物信息、软件工程、知识工程等领域,以图为天然组织结构的数据开始大量涌现,从而使得图数据的查询、搜索、挖掘等问题迅速成为研究热点.然而,由于图的计算复杂度高,现有的图数据搜索方法的可伸缩性差,难以应用于大规模图数据.创新性地从对用户搜索意图的探索出发,探讨了可能存在的不同类型的图搜索及其优化潜力,提出了根据不同类型搜索的特点采用专门的优化策略的思想;并针对其中非常重要和常见的"已知项搜索"提出了一种启发式优化方法,利用图中局部拓扑信息构建索引,并使用MapReduee技术处理大规模图数据,实现在搜索前裁剪匹配顶点,以少量可能存在的top-k答案丢失为代价来显著缩减搜索空间.实验证明该方法能够极大地减少已知项搜索的响应时间.
  • 摘要:针对企业搜索引擎提出一种基于本地文档库的个性化表示与结果排序算法,以帮助用户找到真正感兴趣的结果.首先,采用聚类分析对用户浏览的历史文档聚类;其次,采用模糊推理技术对所形成的分类进行分析,发现用户对各分类的喜好程度;再次,按用户对各分类喜好程度的不同,为各分类分配抽样文档数;最后,采用多种抽样技术,从各分类中抽取典型文档.来自不同分类的典型文档构成了表示用户个性的本地文档库.结果排序算法通过计算通用企业搜索引擎的搜索结果与本地文档库中各文档的相似性,对结果集重新排序,从而体现出用户个性.实验结果表明,与传统的基于的个性化表示与结果排序算法相比,基于本地文档集的个性化表示与结果排序算法可以给出更能反映用户个性的查询结果,且可以对用户偏好的变化作出更迅速的反映.
  • 摘要:基于位置服务的隐私保护是近年来空间数据库领域研究的热点.然而,现有的位置隐私保护方法只支持简单的最近邻查询,没有考虑障碍物的空间.但是障碍物的空间在实际中是普遍存在的,因此,研究障碍空间中保持位置隐私的最近邻查询问题是有意义的,也是一个难点.针对这个问题,提出了一种基于第三方可靠服务器的方法.该方法能够保证用户在享受基于位置服务所提供的实际准确答案的同时,其位置信息不被泄露.该方法首先针对用户查询的准确位置,利用第三方可靠服务器来构造一个匿名的区域并发送给位置服务器,进行匿名区域的查询处理.在查询处理过程中,提供了两种查询处理方法:1)基于线段的最大障碍距离的查询处理方法(基本方法),即利用线段的最大障碍距离来扩展匿名区域,返回扩展后的区域内的结果;2)优化查询处理方法,即在基本方法的基础上,进行迭代优化,进一步缩小扩展区域.然后把匿名区域的查询处理的结果返回给第三可信方.最后,第三方可靠服务器根据用户的准确位置,把实际准确结果返回给用户.实验结果和理论表明了这两种查询处理方法的有效性和正确性.
  • 摘要:海洋数据是一种典型的大数据,如何利用混合云存储架构存储海洋大数据是海洋数据管理面临的一个挑战.针对混合云存储架构中的关键问题——数据迁移,提出了海洋大数据的生命周期,并且基于此给出混合云存储中海洋大数据的迁移算法.在迁移算法中,将海洋数据的敏感度、数据访问频率、数据大小、数据时间长度等因素作为迁移因子.迁移算法兼顾考虑了数据存储容量、海洋数据本身的属性特征和数据访问过程中的动态变化.实验验证混合云存储模式能大大降低数据管理成本,同时,通过提出的迁移算法保证了数据的访问速度.
  • 摘要:医学图像采集和存储技术的发展导致了相关数据的飞速增长,这些医学图像数据能够有效地辅助医生进行精确的诊断,但由于医学图像在相似性搜索方面要求图像匹配的精度远高于普通图像,所以目前仍没有一种有效的方法解决医学图像的相似性搜索问题.文中首先提出一种不确定定点图模型(ULG,Uncertain Location graph),并针对脑部CT图像的固有特点,提出一种基于脑部CT图像纹理的从图像到不确定定点图的建模方法,继而提出一种基于不确定定点图的相似性搜索算法,并通过一种有效的索引结构,有效地减少了无意义的查询处理,降低了搜索时间.实验结果表明,该方法可以更精确地找出具有相似纹理的脑部CT图像.
  • 摘要:闪存具有和传统磁盘不同的特性,包括写前擦除、异地更新、读写延迟非对称等.传统的面向磁盘的缓冲区替换算法无法在闪存数据库系统中获得较好的性能.文中提出了一种新的面向闪存数据库的缓冲区替换算法——APB-LRU,其特点:(1)该算法将缓冲区分为冷区和热区,用来捕获数据访问频度,前者用于存放只访问过一次的数据页,后者用于存放至少访问过两次的数据页;(2)采用了其它研究所没有的概率替换机制,即以较大的概率替换冷区中的干净页,以较小的概率替换冷区中的脏页,从而避免了冷脏页长期驻留缓冲区的情况,提高了命中率,获得了较好的整体性能;(3)设计了冷、热区比例动态变化机制,可以根据工作负载的变化动态调整冷、热区所占缓冲区的比例,从而使得替换算法在不同的负载模式下都可以取得较好的性能.基于不同测试数据集的大量实验结果表明,APB-LRU算法具有比其它已有的算法更好的性能.
  • 摘要:随着闪存容量不断增大、价格不断下降,闪存在实际存储系统上得到了越来越广泛的应用.但是,闪存的页级读写、异位更新、有限寿命等阻碍了闪存数据库系统的性能提升,尤其是事务恢复.闪存的异位更新使得影子页技术可以很好地支持闪存数据库事务恢复,同时也给闪存数据库带来新挑战,如事务管理、缓冲区管理.相变存储器凭借其比闪存更高的读写速度、更小的读写粒度、更长的寿命成为了下一代主流存储技术,所以相变存储器可以用于解决在闪存数据库中使用影子页技术所产生的事务管理和缓冲区管理问题.该文基于相变存储器和闪存混合式存储提出一种全新的数据库事务恢复模型——SPFP.该模型充分利用相变存储器的特性完成事务管理.为支持非强制缓冲区管理,基于SPFP提出了一种优化的数据库事务恢复模型——SPFLP,利用相变存储器记录更多事务信息.实验结果表明,相较于全闪存存储的数据库系统,SPFLP大大提高了基于混合存储的数据库事务处理性能.
  • 摘要:随着数据库规模的扩大,其模式的复杂度也不断地增加,复杂的模式和文档的缺乏使得理解和操作数据库更加困难.现有的模式抽象方法大多通过关系表中的主外键信息查找出模式中最重要的表,然后使用这些最重要的表来构成单层次的模式总结.在现实应用中,这些模式总结的主题并不明确.文中陈述了现有方法的不足,然后给出了一种为大规模数据库生成多层次模式抽象的方法.在此方法中,首先使用不同类型的社区社团检测算法来将数据库模式划分为"团",然后使用元聚类方法将这些"团"集成为数据库的主题组,每一个主题组代表数据库的一个主题.最后将这些主题组进行进一步的聚类以生成主题组类,并为每一个主题组类挑选标签以生成多层次的模式抽象.在Freebase——开源的大规模数据库上验证了文中算法的有效性.实验证明文中算法不仅能够精确地识别大规模数据库的主题,同时可以依据数据库的主题生成易于理解、能够帮助用户浏览和检索数据库的多层次模式抽象.
  • 摘要:数据复用是数据仓库管理中节约存储空间、提高查询效率的重要手段.列存储技术将来自同一属性的数据连续存储,极大地提高了数据仓库等分析型应用软件的性能,同时增加了复用的可行性和灵活性.为此,提出了一种列存储数据仓库中的数据复用策略.首先,利用模式匹配技术发掘候选可复用列,排除大量无法复用的数据列,在此基础上对候选可复用数据进行筛选和过滤,大大降低复用数据检测的复杂度.针对确定的可复用数据,提出了基于列存储的复用实现策略,分别给出了原始数据列、压缩数据列及索引数据列的复用实现方法.最后提出了基于复用数据的查询实现技术.在大规模数据仓库基准数据集上的实验结果验证了数据复用策略在减少存储量、节省数据装载时间及提升查询性能方面的有效性.
  • 摘要:随着Internet技术的快速发展,众包作为一种灵活有效的解决问题方式,开始受到人们越来越多的关注.由于众包的自由松散组织模式,使得如何有效地控制任务完成质量,并将欺骗类型工作者识别出来,成为目前众包研究中一个急需解决的问题.文中基于对众包工作者提交结果的评估与分析,提出了一种阶段式的动态质量控制策略,同时给出了一个组合式众包结果质量评估方法框架.经过实际数据的测试,文中提出的质量控制策略和众包结果质量评估方法具有较好的效果.
  • 摘要:网络上用户生成的数据(User-Generated Data)富含用户的观点(情感),自动识别这些用户观点对很多的Web应用具有重要的作用,例如推荐系统和电子商务/政务智能系统等.但用户的观点表达通常与领域是相关的,因此对于不同的分析领域,用户难以选择到效果最好的分类器.文中针对用户观点分析问题设计了一个三阶段的多分类器集成框架,在此框架下用户只需指定可用的分类器,系统将自动选择一组最优的分类器组合,将它们的预测结果整合为最终分类结果,同时能够保证分类效果优越于最好的单分类器.针对分类器组的选择过程中面临的组合爆炸问题,文中在考虑分类器的准确度和多样性的基础上,设计了一个贪心算法选择成员分类器,并证明该算法是2-近似的.最后,在不同领域的真实数据集上进行了充分的实验,实验结果验证了文中提出的框架和算法的有效性.
  • 摘要:如何快速高效检测出海量数据流中的突发事件是目前的研究热点之一.文中针对微博数据流,提出了一种新颖的基于情感符号的在线突发事件检测算法框架.伴随着事件的发生,文本流中情感符号也存在突发现象.文中通过实时监测情感符号变化态势,及时发现情感符号的突发期,达到挖掘突发事件的目的.首先基于频繁模式挖掘和互信息相结合的算法构建情感符号模型,并通过此模型抽取数据流中的情感符号,采用改进Kleinberg算法检测突发期,通过启发式的近邻传播聚类算法检测突发事件并对事件进行合并.同时,算法设置了离线回收机制,对不含情感符号的博文进行回收利用以保证事件概要抽取的完备性.实验表明,该算法可有效地挖掘出突发事件,无论在速度还是精度上都能保证实时在线处理的要求.
  • 摘要:路线搜索已经广泛地应用于基于位置的服务和旅游路线推荐等领域.现有的关于路线搜索的研究,通常只考虑景点之间路线的流行程度与用户的需求,因此提供的推荐路线并未考虑景点类别的丰富性,存在类别重复的现象.为了能使用户在短时间内体验所在地区不同类别特色的景点,增强旅游体验效果,文中提出一种新的路线搜索:短时间体验式路线搜索(SERS).该路线搜索方法根据用户给定的查询位置Vs、旅行时间限定t以及用户对景点类别选择的集合uc,找到一条非重复多类别且收益最大化的最优景点访问路线.为了有效处理SERS,提出一种预计算结点收益上界值的优化策略,设计了两种优化搜索算法:单收益上界剪枝搜索算法(SUB)和多收益上界剪枝搜索算法(MUB).优化的搜索算法利用收益上界值剪掉了不可能产生结果的分枝,提高了搜索效率.利用Gowalla和Foursquare社交网站真实的签到数据集进行了充分实验,评估了所提出的算法在不同参数设置下的搜索效率,验证了算法的有效性.
  • 摘要:图是描述现实世界各类复杂系统的一种普适模型,且许多实际应用中的图是大规模的.图的聚类是理解、分析和可视化大规模图的关键技术之一.现实世界的图往往包含丰富的属性信息,如何综合结构和属性信息进行属性图的聚类是一个新的挑战.大多数的现有方法或者将结构和属性转化为距离,基于传统方法进行聚类;或者只考虑某一方面聚类.文中结合信息论中最小长度原则,基于遗传算法,提出一种高效的属性图聚类方法GA-AGC.通过对属性图聚类问题建模,转化为最小描述长度原则问题;扩展标签传播方法作为遗传算法初始化方法,结合编码减小的局部变异方法,提出一种解决属性图聚类的遗传算法.文中方法无需设定聚类的数目,算法复杂度近似线性于结点和边的数目.真实数据集上的实验验证了算法的有效性和高效性.
  • 摘要:聚集查询是一种常用但是耗时的数据库操作.相对于准确查询,以少得多的响应时间向用户返回满足置信区间的近似结果通常是一种更好的选择.现有的近似查询方法无法在海量数据上高效地处理满足任意精度的近似聚集查询.提出一种新的算法PAA (partition-based approximate aggregation)来有效处理满足任意置信区间的近似聚集.维属性的数据空间被划分为同样大小的空间区域,每个分片维护着维属性落入对应空间区域的元组.PAA算法维护表的随机样本RS,其执行包括两个阶段.在阶段1,如果利用预构建的随机样本RS不能返回满足用户要求的近似结果,那么在阶段2,PAA算法从与查询区域相交的空间区域对应的分片集合IPS中获得更多的随机元组.PAA算法的特色在于:1)如何在不知道IPS包含的每个分片满足谓词的元组数量情况下,从IPS中获得需要的随机元组;2)如何有效减少阶段2中的随机I/O费用.实验表明,相对于现有方法,PAA算法可以获得两个数量级的加速比.
  • 客服微信

  • 服务号