首页>中文会议>工业技术>自动化技术与计算机技术>第二十三届中国数据库学术会议(NDBC2006)
第二十三届中国数据库学术会议(NDBC2006)

第二十三届中国数据库学术会议(NDBC2006)

  • 召开年:2006
  • 召开地:广州
  • 出版时间: 2006-11

主办单位:中国计算机学会

会议文集:计算机科学

会议论文

热门论文

全部论文

全选(0
  • 摘要:随着信息技术的不断发展和广泛应用,信息系统的安全问题受到越来越多的关注,访问控制策略是其中的重要部分.目前研究和应用较多的是基于角色的访问控制(Role-Based Access Control:RBAC). RBAC的核心思想是在用户和权限之间引入角色的概念,对用户指派适当的角色,对角色授予不同的权限,用户通过激活的角色行使相应的权限.R.Sandhu等人提出的RBAC96模型被广泛采用.之后R.Sandhu,D. Ferraiolo等人提出了NISTRBAC模型及新的4层NIST建议标准,分别是核心RBAC、层次型RBAC、静态职责分离关系SSD和动态职责分离关系DSD.NIST RBAC模型. 本文OE_RBAC模型是针对NIST RBAC模型在大型系统中应用的不足所提出的扩展模型,它通过在用户和角色之间引入组织的概念,利用组织结构与业务的联系,简化了用户的权限分配和管理,从而减少了系统管理员的工作量,更好地解决了大型应用系统的访问控制问题。
  • 摘要:数字水印协议的研究可以应用在在线交易场景中如何嵌入水印才能确保交易的公平性以及当我们找到非法作品拷贝时应如何认定责任方等问题中.设计一个安全和高效的数字水印协议对于版权保护有着非常重要的意义.有关数字水印协议研究已有很多工作.2004年Cheung,Leung和Wang提出了所谓基于"可交换密钥的"对称加密算法的一种数字水印协议.为简单起见,本文将文中协议缩写为CLW协议.他们的协议存在明显的不足,首先是该协议需要传输的数据量很大,其次是在争论仲裁的时候存在安全漏洞.本文主要针对这两个问题提出一个改进的数字水印协议。
  • 摘要:数据集成就是把来自异构分布数据源的数据整合起来.因为相同对象在不同的数据源中可能会有不同的表示方法,即存在重复记录,所以数据集成理想的结果是相同的对象有唯一完整正确的表示.数据清洗是数据集成中一个重要的环节,是实现理想的数据集成结果的重要方法,其主要任务是清除来自不同数据源中的重复记录,保证一个对象在结果集中只有唯一的一个表示. 这个问题已经在关系型数据库中得到了广泛的研究.但是在今天,关系型的数据只是数据表示形式的一个很小的部分.而XML数据应用的越来越广泛,尤其是在数据发布和数据交互以及数据集成,数据挖掘等领域.与关系型数据相比,XML数据是一种层状的,半结构化数据,远比传统的关系型数据要复杂. 在本文中,提出了一种基于对象树相似匹配的XML重复对象监测模型,它包括对象分组,对象树的生成,检测以及聚类重复对象组成.此模型在SEU-ETL中得到了应用,实践证明,此模型很好地解决了XML对象在结构内容上给重复对象检测带来的各种问题.进一步提高模型的性能,实现候选对象的自动检测是未来尽一步努力的目标。
  • 摘要:数据的抽取、转换和加载(ETL,Extract,Transform,Load)是构建数据仓库过程中最复杂也是至关重要的一个步骤.根据数据统计,通常的数据仓库项目有将近70%的时间需要用于ETL的工作,该部分占据了相当大的工程开发量.近来在数据仓库研究的ETL方面国内外的学者做出了很多工作,人民大学知识工程研究所的王珊教授等人实现了一个集成了数据仓库、OLAP和数据挖掘的原型系统ParaDAM,该系统还提供了一套独立的ETL工具对关系型数据库进行数据抽取.国外流行的ETL产品有Informatica和Datastage等.文介绍了国外的Winter,R和McCabe等学者对ETL技术的现状和未来的发展方向的研究.本文力图就应用领域的开发实践进行经验总结,对ETL架构理论进行比较,以达到经验交流共享的目的.通常,我们用两种办法来处理ETL流程:一种是异步(Asynchronous)ETL方式,也称为文本文件(Flat file)方式.另外一种是同步(Synchronous)ETL方式,也称为直接传输(Direct transfer)方式。 本文介绍了在数据仓库开发过程中两种ETL抽取模式的特点比较以及如何根据特定的开发条件选择相应的抽取模式。
  • 摘要:政府决策支持综合服务系统将充分利用现代计算机技术和网络技术,对政府职能部门数据信息及资源进行广泛的收集汇聚、数据整合和数据处理分析,为决策提供综合性的信息服务与支持. 由于政府决策支持服务系统所涉及的内容多、范围广,客户的需求也比较难在较短的时间内确定,因此在开发过程中,我们采用了原型迭代的思想进行开发,能够较快且较好地解决系统某些结构存在的问题.通过项目组和客户对已开发的各子系统进行测试,系统性能取得了较满意的效果.本文研究基于数据仓库的政府决策支持服务系统与实现。
  • 摘要:Bitmap是一种查询速度快、比较容易实现的索引技术,需要过多的附加空间来实现,针对这个缺点,过去也提出了一些适用于数据仓库的在维上建立bitmap索引的算法,但这些方法都是建立在维上的,从未对度量值上的数据进行压缩.这篇论文中,我们将这种压缩方法引入到度量值,事实表得到再次压缩.另外对度量值进行压缩看起来对查询没有什么帮助,但事实上却可以缩短元组长度,提高I/O吞吐率,从而达到提高查询效率的目的.当事实表中的度量值密集处于一个区域的程度越高时,这种算法的性能越好. 本文利用了在属性维上的编码位图索引算法思想,根据数据仓库中事实表度量值的特点(1)数值型(2)小范围内的数据出现频率极高,把位图编码压缩技术扩展到了度量值,并根据实际情况中的数据特点,进一步提出了混合位图编码索引算法,忽略一些孤立点的压缩,在频繁出现的数值上使用尽量少的编码位,进一步降低了压缩比.最后通过数据分析和实际实验两部分证明了该算法的有效性.
  • 摘要:联机分析处理(OLAP)系统是数据仓库主要的前端支持工具,它给用户提供了交互的、多维的、多角度的数据结果展示方式.数据仓库一般存储了大量历史数据,因此如何通过建立有效的OLAP模型、有效地实例化数据立方体(Cube)来提高OLAP系统查询响应速度是近年来数据仓库领域研究的一个热点. 然而对于一些特殊需求的OLAP分析来说,依靠现存的OLAP构建模型无法对Cube进行预先实例化.例如,业务需要对w度量进行分级统计,即通过设定w的不同取值区域范围将其划分为几个不同级别,如{A1,A2,…,An}={[a1,a2),[a2,a3),…,[an,an+1)}.需要统计各个级别内度量w的均值、出现频数等信息. 本文提出了一种分级统计OLAP构建模型,用于实现对度量值进行实时动态分级的OLAP统计查询分析,并详细介绍了模型的建立方法和对动态分级查询的回答策略.新模型的提出解决了传统方法对动态分级统计实现的不灵活性和无法对动态分级统计下的Cube进行预先实例化而造成查询性能过低等缺点.实验结果表明,新模型是一种高效地解决动态分级统计的方法.本研究今后的主要工作是在能够保证相对较高的分级统计查询性能的基础上,如何更进一步减小预先实例化的预分级Cube的数量,从而更进一步减小模型的空间开销.
  • 摘要:ETL技术是建立数据仓库的关键过程,是数据仓库中数据质量的保证.本文提出一种融合JAVA,XML,AGENT等多技术的ETL框架,用于解决异构数据源的数据抽取,以及"脏数据"的清洗问题,并在最后给出一个应用实例,具有较好的实用性。
  • 摘要:最近邻居协同过滤是目前比较好的推荐技术,它是根据最近邻居的评分对目标用户产生推荐.随着电子商务系统中用户数量和项目数量的快速增长,传统的协同过滤方法已经很难满足实时性和扩展性的需求.本文提出一种基于项目平滑和聚类的推荐算法,首先分别对用户和项目进行聚类,对用户未评分的项目进行平滑处理;根据平滑后的用户项目矩阵寻找目标项目的最近邻居,最后根据用户对最近邻居的评分来预测其对目标项目的评分.实验结果表明本文提出的方法能够有效解决用户评分数据稀疏问题,提高推荐质量。
  • 摘要:动态电子商务可以缩短因并购或资源整合而造成的业务重组的时间,从而加快资源整合速度并提高竞争力.同时它通过更好的可扩展性来提高系统响应的时间,以改善客户服务质量.动态电子商务的应用是未来电子商务的发展趋势,它可以根据商家的需求动态地配置和组装电子商务系统,论文基于Web服务技术,提出了一个动态电子商务模型和模型的设计方案,并利用Visual studio.net对模型进行了实现,通过一个应用实例,说明了该方法的可行性. 当然,动态电子商务需要一个复杂、灵活的控制机制,要真正地达到实用还有许多问题需要解决,主要包括:(1)如何提供更加方便灵活的方法来构建个性化电子商务网站;(2)如何提供智能的商业伙伴的自动查找方法;(3)如何解决电子商务的安全性问题等等.
  • 摘要:地震预测是世界性的科学难题,其探索过程将是长期的.尽管目前我国的地震预测具有任务性,直接为防震减灾事业服务,但从科学的角度看,最重要的是取得与积累连续可靠的观测资料,为长期的地震预测研究提供丰富的数据.因此,完整及时地获取地震前兆数据是非常重要的.地震地下流体数据是地震前兆数据的一种,该种数据以观测为基础,它来源于全国各地台站的前兆观测数据.地震地下流体数需要进行传输、集中式存储和处理,以便为地处全国各地的研究人员服务. 在此工作之前,我国地震地下流体前兆数据的收集管理技术水平较低,就全国范围而言,数据的传输以函寄、电话报数为主,部分数据靠人工输入计算机中,观测数据多以纸介质保存.这种状况,不仅不适应现代技术发展的趋势,而且严重阻碍数据的有效利用与长期保存.蓬勃发展的大型分布式数据库技术为这种大量数据的分布式应用提供了现代化的解决方案,较好地解决了这一问题,为研究人员获取所需的基础数据提供了快捷方便的手段.本文主要探索SQL Server前兆数据库系统中的数据接收技术。
  • 摘要:作为当前互联网上数据存储、交换和表现的事实上的标准,XML现在在各行各业、各个领域、各种系统中都被广泛的应用,因此对XML查询处理及优化变得越来越重要. 本文提出了一种XML集成索引结构.这种索引结构充分利用了DTD信息进行优化,同时集成了各种索引项使得处理复杂的查询要求十分有效.复杂的查询要求一般都是在路径表达式的基础上进行扩充而来,所以本文提出的索引结构也是以路径索引信息为主.在查询某一个原子路径的时候才会涉及到关于值,文本等等的查询,故而通过集成索引在某一原子路径项的接口中得到多种不同的索引值是十分必要的.本文同时引入了解析度的概念来支持用户的不同解析度的查询要求。
  • 摘要:本文首先讨论了利用9I模型进行空间拓扑关系描述时存在的不足之处,在此基础上给出了V9I模型的定义及特点并分析了基于V9I模型的空间拓扑关系,提出了一种基于V9I模型的空间拓扑规则发现机制,该机制通过分析空间对象及其邻对象间的拓扑关系模式的离散性,来发现空间对象对间的拓扑描述规则,并利用该规则来判断空间数据是否具有拓扑不一致性,进而进行拓扑一致性维护.这种基于V9I模型的拓扑描述规则的优点在于,抓住了现实世界中空间对象间的基本规律,能有效地发现空间数据的不一致性,降低空间数据库中数据的不确定性,从而使得系统的查询、分析结果具有较高的可靠性.但是,此拓扑描述规则是利用统计分析方法得到的,存在着一定的不确定性,这将在以后的研究中进一步进行处理。
  • 摘要:"轮廓体"这个概念在2005年VLDB会议上首次被提出来,它将单一轮廓查询问题的讨论加深为多个轮廓查询问题的综合研究,成为一个新兴的研究方向,是空间数据库领域研究的热点.轮廓体查询技术在许多数据库和网络应用中都起着非常重要的作用,包括多标准决策、数据挖掘和可视化、用户偏好查询、分布式查询优化和传感器网络等.轮廓体查询技术的研究也促进着相关技术的发展,如:多目标优化、最大矢量等.由于轮廓体查询技术具有重要的研究价值,而越来越受到国内外学者的重视. 本文提出了数据流的轮廓体查询基本框架,并设计了各个功能模块的实现算法,该查询技术能够解决常规方法不适应数据流环境(动态数据)的问题,能够准确高效的跟踪数据流环境下的轮廓体的变化情况,保证轮廓体的实时更新,且保证查询结果准确有效。
  • 摘要:时空数据是现实世界时空对象的抽象概括.近年来有关时空数据的研究主要集中在确定的时空对象上,而由于现实世界的复杂性和模糊性,大量的时空数据在空间、常规以及时态属性方面都可能存在不确定性,因此当前时空数据模型面临着如何有效的表示、存储和查询不确定的时空数据等问题. 传统的模型在数据明确更新前不发生变化,因此不适于表示变化的时空对象。而现实世界中的对象在空间、非空间和时态属性上都具有不确定性。针对这种需求,本文提出一种基于时空对象的扩展模型,对不确定时态数据进行定义、表示,对时态不确定性情况下时空对象操作进行扩展,并给出不确定时空对象的查询操作实例.
  • 摘要:基于位置的服务、电子地图定位等这样的概念正在逐渐为广大用户所熟悉,越来越多的电子地图类产品正不断地改变着我们的生活.利用电子地图,可以方便地查找最近的加油站、餐厅等各种信息.将电子地图的功能加入到如PDA、车载电脑等便携式设备中,结合全球定位系统(GPS),更可以为用户提供基于用户当前位置的各种服务,如随时告知用户的位置并为用户进行旅行导航等.这样的服务现在大多是面向汽车用户,提供基于城市道路网络的定位和导航服务. 依据道路网的实际特点,通过对R-tree结构进行适当的扩展,本文设计并构建了RR-tree结构.经实验证明,RR-tree索引结构以路段作为索引的基本单元,在不丢失路网信息的前提之下,对城市路网进行建模索引,提高了检索效率。
  • 摘要:时态信息处理已成为高级数据库技术研究的重要领域,自20世纪80年代以来,在基础理论、时态数据模型、时态数据语义、数据库语言和应用技术方面取得了丰硕的成果.在基础理论研究方面,加州大学洛杉矶分校的J.Ben Zvi在1979~1982年期间对时态信息处理做了系统的研究,提出了有效时间、事务时间的概念,引入了时态数据库的模型.纽约大学的J.Clifford在他的博士论文中,研究了在关系、元组、字段值上加时态信息的技术细节,引入了历史关系模型,历史关系代数.随后,时态信息处理成为数据库研究理论最活跃的领域之一,学者们先后提出TempSQL,TSQL,HSQL等多种具有影响的时态数据库模型. 基于关系模型的数据库管理系统,无法支持时态信息处理过程中的时态约束语义,文章利用Allen提出13种时态区间关系,分析时态插入、时态删除和时态更新过程中,将ATSQL2语句转换成对应的符合时态约束语义的标准SQL语句的算法,从而使得用户使用ATSQL2进行时态数据更新时,能够对基于关系数据库的时态关系数据模型进行满足时态约束的,正确的数据更新.下一步的工作将对算法进行进一步的优化。
  • 摘要:这篇文章针对当前Clique聚类算法中划分粒度选取时出现的问题,提出了GC-Clustering算法.GC-Clustering算法要求用户提供的参数分别为描述长度的参数l和密度参数σ,密度参数σ和描述长度l用户都可以根据自己的需求准确地给定.GC-Clustering根据用户对于最后结果描述长度的要求来选取划分粒度,使得划分粒度参数的选取更为有意义.而且,用户还可以通过调整参数l来达到调整最后聚类结果表达式的长度,进而达到聚类结果复杂度的目的.本文给出了在该算法下聚类结果精确性和复杂度的衡量方法,采用了参数自调整的方法来调整数据集的划分粒度,使得最后的结果更为精确,并且通过二分法降低了算法复杂度.最后,GC-Clustering采用了GMDL的方法对聚类结果做了部分优化,使之更为简洁。
  • 摘要:阈值分割可分为两种:二值化和多值化.在二值化方法中,传统二维阈值分割算法大部分是在假设双峰情况下研究的,不少人将传统方法推广到多阈值分割,也有采用改进聚类分析的方案进行处理,但运算复杂性都急剧增加. 本文方法所采用的阈值提取办法与以往的研究有所不同.通过直接利用直方图的直观特征,把二维直方图看成是由多个集水盆和分水岭构成的地形图,借助于模拟浸没的快速分水岭算法,实现了图像的快速多区域阈值分割. 本文方法直观易懂,过程简单,计算量小,不仅考虑了图像像素的灰度信息,而且考虑了像素的空间相关信息,它是一种自动的非参数阈值选择方法,具有很强的抗噪能力.
  • 摘要:Web信息的日益增长,人们发现在浩瀚的Web信息资源中查找和发现用户感兴趣的信息成为一件非常耗时耗力的事情,因而出现了"信息过载"和"信息迷向"的问题.个性化推荐(personalized-recommendation)技术通过研究不同用户的兴趣,主动为用户推荐最需要的资源,从而更好地解决互联网信息日益庞大与用户需求之间的矛盾.目前,出现了许多个性化推荐系统. 用户使用个性化推荐系统希望得到满意的资源,如果系统推荐的资源在很大程度上偏离了用户的需求,用户将放弃使用该系统.用户对个性化推荐系统的满意度很大程度上取决于个性化推荐算法的质量和效率. 本文针对现有协作过滤算法没有考虑用户的权威性问题,提出全局权威性和领域权威性的概念,并把两者跟传统的协作过滤算法结合起来. 经过实验分析,本文发现基于全局权威性的协作过滤算法和传统的协作过滤算法比较改进效果不明显.但先对资源进行分类后再考虑领域内的权威性的协作过滤算法比传统的协作过滤算法有比较明显的改进。
  • 摘要:Apriori算法是最为著名的关联规则挖掘算法,它采用基于频集理论的递推方法,挖掘出的分类规则,具有准确率高,可理解性强的优点.但是,由于Apriori算法使用支持度-置信度框架,无法挖掘出支持度小的稀有信息,而且也没有考虑到项之间的关系,因而会影响分类的准确性.Brin等人于1997年首次提出了项的相关性的概念,他们在生成规则时既考虑到了频繁的项也考虑到了非频繁项,挖掘出的相关规则能够识别项之间的相关性.Xindong Wu等人在Brin的基础上又提出了挖掘出正向相关规则和负向相关规则的算法.Hui Xiong等人发现了相关系数的上界以及上界的单调性,提出了正相关对的挖掘算法.后来钱铁云等人又发现了相关系数的下界及其单调性,提出了负相关对的挖掘算法. 本文通过应用Phi相关系数上界和下界的性质来修剪正、负相关相对的搜索空间.在Pumsb Start和Connect数据集上的实验表明,加入Phi相关系数上下界性质约束后,运行时间相对于修剪前的运行时间大为缩短。
  • 摘要:随着互联网的飞速发展,网络上的网页数目也在急速膨胀.面对庞大的Web空间,用户要进行有效的浏览变得非常困难,常常"迷失"在错综复杂的链接中.这样,开发各种浏览导航工具就变得非常必要.同时,网站的设计者们也需要了解用户的浏览模式,以构建出满足大多数用户浏览需求的网站拓扑结构.而建立有效的用户浏览预测模型,对用户的浏览模式做出准确的预测是达到上述目的的必要手段. Zukerman等提出的基于马尔科夫链用户浏览预测模型的方法[1]是一种简单而有效的预测方法.它将用户的浏览过程抽象为一个特殊的随机过程--齐次离散马尔科夫链,用转移概率矩阵描述用户的浏览特征,并基于此对用户的浏览行为进行预测.之后,Borges等采用了多阶转移矩阵[2],进一步提高了模型的预测准确率. 经典的马尔科夫模型是一种简单有效的浏览路径预测工具,但是,该模型没有确切地反映用户所感兴趣的网页类别以及这些类别间的联系.基于此,提出了网页类的预测方法.与经典方法相比,该方法能够发现用户在不同网页类间跳转的规律,因此,可以从更高层面获得用户的浏览信息.最后,通过实验验证了网页类方法的有效性.
  • 摘要:随着数据库系统的发展,数据的多维性已经广泛地存在于各种领域.由于人类没有对高维数据的空间猜想能力,不能对其产生直观的认识,因此可视化多维数据一般是寻找一种方法把多维数据投影到二维或者三维空间,使人们对其产生直观的认识,进而从中挖掘出有用的知识。 可视化技术给予用户对数据进行深入的理解和洞察的能力.本文提出的旋转坐标系折线法是一种可视化映射技术,这种技术使得多维数据集可以在二维平面上显示出来.通过拖拉极轴可多角度观察数据.实验表明旋转坐标系折线法应用于多维数据可视化领域有着良好的效果.该方法已应用于863项目资助研发的面向数据库的数据网格的数据可视化中,达到了预期的目的。
  • 摘要:随着对语义Web研究的深入,需要构建越来越多的领域本体.目前大家在公认的构建领域本体的过程中,都需要领域专家的参与和协作,由知识工程师根据该领域的结构,将相关词汇和术语组成分级层次,并应用面向对象的方法给一些类目加以更细的定义.但因为这种手工构建本体的方法既费时又费力,所以如何以自动化或半自动化的方式构建本体,尽量减少并规范知识工程师的工作,成为语义Web领域的重要研究课题.目前,研究者们更多地借助于日益成熟的机器学习技术来辅助本体的构建,并且在一定程度上代替了知识工程师的主导作用. 本文在本体学习技术方面进行了初步的探讨,文中提出的算法虽然可以自动地抽取出概念之间的上下位关系,但在抽取其他概念之间关系方面效果仍不理想,因此,在后续的研究工作中将对其他关系的抽取进行进一步的研究,使得本体学习技术能从概念之间抽取出更丰富的关系。
  • 摘要:新闻数据作为一种非常重要的数据对象,在网络和期刊报纸中广泛存在,对新闻数据的挖掘尤其是重要新闻事件的查找在日常生活中有非常广泛的应用.对于查找重要新闻事件,我们一般只能通过记忆以及个人的判断来得到一些结果,而并没有科学的查找方法.针对这样的问题,我们提出一个能够对新闻数据进行挖掘的方法,该方法能够有效地找到在某一段时期内发生的一些重要的新闻事件. 在本文中,我们讨论了在大量的新闻数据中查找重要新闻事件的问题.在新闻数据中找出重要事件是一个新颖的研究方向,也有着重要的应用背景.已有方法的主要步骤是首先找出一些单词,然后通过概率统计等方法将它们合并来得到事件,然而,这些方法并不能有效地找到重要事件. 在本文中,提出了通过评分查找重要事件的方法.该方法首先通过新闻文章对单词进行分析,得到了各个单词在每个时间窗内的重要程度,然后根据每篇文章所包含的重要单词数及其重要程度对文章进行评分,最后将重要的文章进行合并得到重要的新闻事件.我们通过实验证明,该方法能够有效地在新闻数据中找到重要事件。
  • 摘要:Cornuejols和Dawande在文中提出了著名的市场共享问题的可行性问题,这就是通常的多维背包问题(Multidimensional knapsack problem,MKP).该问题的具体描述如下:给定一个n×m矩阵A和一个m维列向量b,要求判断是否存在一个n维的二值向量X={x1,x2,…,xn},使得式(1)成立. n∑j=1aijxj=bi,i=1,2,…,m 数学上已经证明:多维背包问题有解的充要条件是一维背包问题有解.众所周知,一维的0/1背包问题是NP完全问题.相比较而言,多维的0/1背包问题的复杂度更高.由于求解的指数时间复杂性,背包问题在信息安全领域和数论研究中有着很重要的应用.另外还有许多实际工程的优化问题都可以归结建模为背包问题,典型的有:集装箱装载问题、批量切割问题、项目选择决策问题等.正因为有着如此广泛的应用,通过各种有效的算法设计策略来降低求解背包问题过于庞大的计算量,寻找可行的算法,具有重要的理论意义和实践意义. 数据挖掘是一个新兴的学科,近年来数据挖掘技术已经深入到各个知识领域.怎样更好地将数据挖掘技术与背景知识的学习结合起来正在成为一个新的研究热点.本文应用了这样的思想,尝试了结合聚类分析的方法求解多维背包问题,提出的算法对于求解经典的多维背包问题具有高效的时间效率和稳定的近似比,可以在实际的工程应用领域中得到有价值的应用。
  • 摘要:关联规则挖掘是数据挖掘中很重要的研究方向之一,传统的关联规则挖掘方法主要基于支持度和可信度阈值,这些方法在挖掘过程中总是假设数据库中的每个项目具有相同的地位和作用,因而对每个项目作同等处理,这样导致挖掘结果常常包含大量的冗余、无用规则. 针对传统的关联规则挖掘方法存在的弊端,C.H.Cai等在文中提出了加权支持度关联规则挖掘问题,弥补了现有关联规则挖掘方法存在的不足,从而扩展了关联规则挖掘方法. 加权关联规则挖掘中由于权值参与到挖掘的全过程,权值对项目的支持度起加强和减弱作用,使一般的关联规则挖掘算法依赖的条件不再满足.不同权值分配,不同的加权支持度计算方法,导致挖掘方法不同,因此设计高效的加权挖掘算法是挖掘过程的关键.本文提出的加权频繁项目集支持度下界基于定义的加权支持度计算方法,该下界可以先将Ck中小于该下界的所有的项目集剪掉,从而缩小Ck项目集,降低了Ck产生过程的复杂度,从而提高挖掘效率。
  • 摘要:Rough集理论利用近似概念对信息系统的数据进行分类以获取信息表中的知识,遗传算法对问题求解具有其独特的优点,将两者结合起来利用两者优点,通过一个信息表实例计算,示例了将遗传算法和Rough集理论相结合进行决策规则计算和分析,结果表明成功地将遗传算法引入Rough集理论进行信息系统决策规则计算,能在计算机上有效地自动进行决策规则计算和分析等信息处理。
  • 摘要:从Web-log中挖掘邻近序列模式,对于预测用户将来的访问请求、改善网站结构、设置广告页面等有着重要的意义.在本文中我们提出了一种挖掘邻近序列模式的高效算法CSP-mine,与OB-mine算法相比,CSP-mine算法不需要拆分访问路径树并且不需要构造BT树和递归合并BT树就能挖掘出邻近序列模式,减少了时间和空间消耗.下一步要做的工作是用实验验证我们的结论.CSP-mine算法还不能增量式挖掘邻近序列模式,如何进行增量式挖掘也是下一步的研究方向.
  • 摘要:近来许多应用领域如股票数据、网络流量监控,点击流、传感器网络、电话记录等领域中需要处理数据流问题,所以数据流的问题越来越引起人们的关注.而频繁模式的发现通常又是其他挖掘问题如关联规则发现、序列模式发现等其他挖掘问题的基础,在现有的频繁模式挖掘算法中,一个主要的缺陷就是当支持度减小或者单项集(distinct item)的数目增多时内存的要求将很大,有些甚至呈指数增长,这样就限制了算法的进一步应用.在本文中,我们提出了一种新的方法来发现数据流中的频繁项集,针对数据流环境中挖掘频繁项集存在的一些问题,我们的工作主要有如下几个方面:1)解决了在有限内存中挖掘频繁项集的问题,并且在当支持度非常低或者单项集(distinct itemset)非常多的情况下对内存的使用也达到了一个非常合理的数量.2)我们设计的算法在理论上和实践中都证明是非常精确的,在任何时候,精确度都达到了100%,然而其他的频繁挖掘算法如Jin和Agrawal提出的In-core算法,(该算法是到目前为止最精确的算法),也只是在少数情况下精确度达到100%并且当ε增大时,精确度随之下降.3)我们设计了一个新的数据结构(F1FET)并且提出了一种新的维护方法.最后的实验结果也表明我们的算法较之于其他方法在节省内存方面和准确性方面都有较大的优越性。
  • 摘要:传统的宏观经济学是在数学和统计的基础上发展起来的,已取得一些成绩.但以往的宏观经济管理多采用常规方法,以单纯的经验判断为基础,缺乏系统的观点,忽视精密的数量计算,管理的有效性很大程度取决于相关人员的素质,没有系统地形成科学方法.加上宏观经济数据的海量性、动态性等特点,进一步限制了其分析决策能力. 宏观经济关系国计民生,对宏观经济进行分析和管理是实现国民经济宏观调控的一个重要环节.由于当前的宏观经济数据的存储及设计应用存在不足之处,加之XML成为数据表现和交换的标准,本文主要介绍了采用XML对宏观经济数据进行表征,进而进行挖掘与分析的各个步骤及重点.我国的经济系统和国外的区别也比较大,因此需要更多的自主探索,挖掘也相对比较复杂,工作任重道远。
  • 摘要:XML已经成为互联网上数据表示和交换的标准,大量的XML文档出现在网络中,有效地存储XML数据并提供高效的XML数据查询,成为当今急需解决的问题.目前,大部分有关XML数据的索引和查询技术都是基于某种对XML文档树的编码技术,区间编码是一种主流的编码方式. XML编码技术,就是按照一定规则给XML文档树中的每一个结点分配唯一的编码.通过编码,可以在不遍历XML文档树的前提下,直接判断两个结点之间的关系.区间编码采用深度优先遍历XML文档树的方式给树中的每个结点赋予一对整数值,祖先结点的编码区间包含其后裔结点的编码区间,这样对结点间结构关系的判断就等价于区间包含关系的判断.本文对现有的区间编码方案进行分析比较,研究了XML文档树中结点的位置特性,提出一种基于更新代价的XML区间编码方案。 本文分析了现有的几种XML文档区间编码方法,研究了在XML文档树不同位置插入结点或子树造成重新编码结点的数量,即更新代价,提出了一种新的区间编码方式,给出了明确的结点编码的计算表达式.该方法对更新代价较大的结点预留较大的空间,而对于更新代价较小的结点预留较小的空间.通过分析证明,采用本文提出的编码方法,在常数复杂度的时间内实现任意两个元素间父子、祖先/后裔、兄弟等关系的判断,同时,本编码方法便于XML文档更新,与现有XML文档的区间编码方式相比,可以更好地解决更新操作所造成的结点重新编码的问题。
  • 摘要:1998年2月,万维网协会(W3C)推出了可扩展的标记语言XML(eXtensible Markup Language)作为Web上进行半结构化数据传输与交换的标准.随着XML的出现,XML数据相关技术研究成为热点.例如,XML数据的存储技术与发布技术的研究;XML数据查询与优化技术等.这些方面的研究都是基于现有的XML数据进行直接的存储、转换、查询与优化等等.它们仅仅考虑到如何完整地保留XML文档数据中的结构和部分语义信息,而没有从数据库设计的角度来评价XML数据库模式,且只考虑XML函数依赖关系.XML看作Web世界中的数据模型,文档类型定义DTD(Document Type Definition)则应当被看作XML数据的模式.本文从数据库设计的角度出发,给出了XML多值依赖(Multivalued Dependency for XML Documents,MVDXML)、闭包等相关概念,提出XML多值依赖成员籍判定算法,进一步规范化了XML数据库模式的设计,丰富了XML文档规范化理论体系。
  • 摘要:随着XML的广泛应用,XML查询求解成为目前一个非常重要的热点问题.为了高效且正确地处理XML分支查询求解的问题,本文在SCALER算法的基础上提出了SCALER+算法. SCALER+算法是对SCALER算法的改进,是一种基于序列匹配的高效XML分支查询求解算法.SCALER+继承了SCALER的所有优点,比如整体地处理分支查询而不需要将分支查询分解为从根到叶的多个路径,再比如它产生的UDFTS序列和OSI索引的空间复杂度在最坏情况下都是线性的.进一步地,在不牺牲算法性能的前提下,SCALER+明确地实现了对通配符*和后代轴//的支持,并且实现了兄弟结点无序的模式树的查询.这两个方面的改进,大大扩充了算法能够处理的问题的范围,使得算法基本上能够高效处理所有类型的XML分支查询求解问题,这对于一个完善的XML求解算法是至关重要的一点。
  • 摘要:XML(eXtended Markup Language)在文档展现和交换领域得到了广泛的认同,并已经成为Internet上数据交换的事实标准.目前对XML的研究主要集中在如何有效地对XML文档进行查询、检索方面,但是,若使XML真正成为一个通用的数据展示和交换标准,除了支持高效查询,同时它还必须支持高效的更新操作. 本文针对XML更新提出了Local Extended Dewey和Max-Based Local Extended Dewey两种XML编码格式,相应设计了数据结构BackLinked Tree,并详细阐述了如何利用LED和MBLED编码在BLT上高效地进行XML文档更新.LED和MBLED都是编码长度为定长的编码格式,同前缀编码相比,在维持查询效率的同时,有效地降低了编码的存储代价,同时能够很好地支持更新操作.实验结果证明,LED和MBLED编码能够有效降低编码的存储代价,在XML文档查询效率和更新效率之间取得较好的平衡。
  • 摘要:XML作为一种标准数据格式,广泛应用于网络数据发布和交换中.随着网上传输的数据量的不断增长,大量XML数据在网络上快速传递,形成XML数据流.近年来涌现了许多针对XML流的查询处理方法.其中又可以分为多查询处理和单查询处理两类.后者只能处理很少的1到2个查询,如XSQ;而前者可以对XML流上提出的大量查询进行处理,如XFilter,YFilter,LazyDFA,XTrie和BloomFilter等. 针对XML流上的树型查询处理,本文提出一种新方法,把树型查询分解为简单路径查询,采用过滤技术得到匹配简单路径流,输入动态的逻辑查询树,进行分支匹配合成,并实时输出结果.通过动态更新逻辑查询树的结点信息,记录出现过的匹配条件等策略来避免多次遍历分支路径集合,从而提高了处理性能.
  • 摘要:面向对象数据库管理系统因其强大的数据建模能力,可以满足非传统数据库应用领域如计算机辅助设计/计算机集成制造系统、知识库系统、多媒体系统等对复杂数据模型的需求.这些应用的复杂数据模型多由继承和合成结构构成,实际应用或开发过程中需要经常访问这些复杂的数据库模式信息,因此面向对象数据库管理系统有必要提供相应的可视化模式管理工具,而其模式图的自动生成是可视化模式管理工具的关键问题之一. 本文提出的面向对象数据库模式图的自动生成算法可以根据用户需要产生不同结构的对象模式图,可应用于面向对象数据库管理系统的可视化模式管理,并可作为面向对象数据库进行可视化查询和查询路径分析的基础.该算法仍存在一些不足,如在生成复杂的全局模式图时,虽能完整反映其模式结构,但其布局仍不够合理,需要进一步改善.
  • 摘要:企业建模就是创建和维护企业模型.企业模型的分类与组织一般根据具体行业的业务及相关技术来确定.一个典型的企业模型在层次上一般包括结构模型、业务模型、数据模型等三个部分. 企业数据模型(EDM)描述了每个企业模型物理上和逻辑上的数据信息.企业建模的最终目的是要实现企业的ERP,所以企业数据模型才是企业建模的最终目的. 在设计一个应用系统时,首先要根据应用需求在EDM中找出相关的实体、属性、关系和编码规则,以保证该应用系统的信息完整性和可集成性.传统的企业数据建模的方法是基于E-R模型来组织实体、属性和关系等要素的.为了适应企业业务的变化和发展,EDM要有足够的灵活性,因此,EDM通常采用第三范式的设计方法. 本文引入非结构化视图的概念可以很方便地进行企业数据建模的工作.使用这种方法进行建立的企业数据模型与传统方法相比具有如下优点: (1)引入了非结构化的视图,使企业数据模型中的单个组织节点的形态更加多样化,数据关系的表达更加简单明了和灵活; (2)可以方便地表达出企业的组织结构.传统的E-R模型是针对单独的关系进行描述的,无法直观地表达出企业信息的整体结构; (3)由于在关系的表达中引入了权限的概念,可以很方便地进行访问控制.传统的企业数据模型仅能表示数据的结构和结构之间的关系,不能表达访问权限等逻辑的概念; (4)由于引入了关系的传递运算,事实上在访问权限的控制上引入了面向对象模型的继承特性. 当然,由于引入了这种依靠非结构化视图的方法,使数据访问的过程从直接访问变成了间接访问,所以会使数据访问的效率有所下降.但是可以通过对访问方法的研究进行数据访问算法的优化,以达到提高效率的目的,使基于非结构化视图的企业数据建模方法更趋于实用.
  • 摘要:面对快速变化的市场需求,基于Internet的企业经营活动必须以动态和灵活的策略作为立足之计,同时流程的应用模式也由面向企业用户逐渐转向面向普通用户.这就要求业务经营活动不仅要基于固定特有的业务流程,还要基于能够适应多样需求变化的、动态灵活的业务流程.传统流程管理的研究主要侧重流程的定义、动态生成与修改方面,如动态工作流技术,基于Web服务组合的研究,基于Agent的流程建模的研究等.对流程的研究或基于增强流程执行过程中的灵活性,或基于动态的服务组合,或通过提供智能的流程建模环境来解决流程的动态性问题,但这些研究都没有摆脱"先定义、后执行"传统的流程应用模式,相应的研究工作受到了很大限制.因此,迫切需要一种新型的智能流程应用模式.基于这种新型的应用模式,可根据输入信息自动生成个性化流程,满足不同用户的需求.基于这种应用模式,业务流程的研究将有突破性的进展.本文将在这种智能流程应用模式下,对流程的自动生成进行研究,提出了一种基于流程语义库的流程自动生成方法。
  • 摘要:一个工作流模型,其正确性、有效性以及性能效率等都是受人关注的.一个包含错误的工作流过程定义有可能会导致顾客的不满、处理出错等一系列问题;而定义的瑕疵则可能会引发服务效率低、存储容量超额等.所以,在工作流模型投入使用之前,对其定义进行分析是必须的.通常,把对工作流过程定义的分析划分成两种:一种是分析模型能否达到预设的性能要求;另外一种是验证模型是否满足需求,流程定义是否正确.前者一般通过系统仿真技术得到各项指标的估算值;而后者则有覆盖图、模型检测、约简等相关分析技术,这些方法要求用户具备较深入的理论知识.本文将介绍使用模型检测工具Spin对工作流进行性质验证,构造一个简单而方便的工作流模型验证环境,以提高该项工作的易用性. 由于工作流模型的建模者通常都是由熟悉业务流程的行业经理完成,而工作流的性质验证则是一项相对他们来说比较困难的工作.本文提出了使用模型检测工具Spin来对工作流模型进行性质验证,提出了工作流模型到Spin输入语言Promela的转换规则,构造了一个模型性质验证的自动化环境,方便建模者进行模型性质分析验证.由于Spin目前只能支持不带时间的模型性质验证,但由于时间是工作流模型中一个重要的影响因子,对赋时工作流模型进行验证是本文的进一步工作。
  • 摘要:SP业务是通过移动通信网和计算机技术获取移动终端(手机)的相关信息,从而开展一系列应用服务的新型移动数据业务,它已成为我们舒适生活中密不可分的一部分.与其他信息网络相比,SP业务最突出的优势在于手机的可移动性,可随身携带,随时随地享受服务.而目前SP业务种类繁多,开发过程重复,代码重用度低.新推出一个SP业务,开发周期长,技术人员需要全程投入整个开发过程,造成企业大量人力物力浪费.本文以工作流管理联盟提出的参考模型为依据,分析了SP交互业务的特点,提出了面向SP交互业务的工作流引擎SPworkflow,并给出了其分析、设计和实现方法。
  • 摘要:图查询的核心问题是图的匹配问题,由于图结构强大的表示能力,图上的查询在许多方面有着广泛的应用.有向图上两点间的可达查询即是给定两个节点u,v,判断图中是否存在从u到v的有向路径.而对于查询图Q而非两点间的可达查询,需要在数据图中找出所有满足Q的子图,其节点间应该满足Q中规定的可达关系.XML规范将数据以有向图的形式组织,随着XML的广泛应用,有向图上的可达查询变得日益重要. 基于可达编码的方法是树状XML数据查询处理中使用最广的方法之一,其基本思想是为图中的每个节点/边赋予特定信息,使得任两个节点通过彼此的信息就可在常数时间内判断可达关系.虽然针对树状数据的Interval编码已经被引入到图状XML数据的可达查询处理中,但是由于图的边可能会非常多,完全采用编码的方法将会占用大量的搜索和存储空间,因此是不适用的。
  • 摘要:Rails框架是一个非常新、令人兴奋的Web程序自动生成框架.该框架在Web社区中已经引起了人们相当的兴趣.它的核心架构虽然仍然遵循在J2EE中发现的基本模式,但由于建立框架时采用了许多命名习惯自动生成简洁、清楚的代码而不是配置文件,所以可以说Rails动了J2EE的奶酪已经成了不争的事实. 在数据库方面,Rails框架的默认的CRUD等行为可以简洁到只需要一行代码.这种无编码的实现CRUD型的应用,开发效率有很大的提升.在对象关系映射上,Rails框架采用了与Hibernate的Data Mapper不同的另一种领域模式即Active Record.在控制层和表现层上,Rails框架的Action Pack也吸取了众多MVC框架的优点,同时去掉了它们的复杂性而成为亮点.因而可以说Rails框架具有良好的语义和领域驱动开发. 本文对Web数据库架构中对象关系映射、关联的确定等程序的自动生成进行了比较研究.目前国内很多这方面的项目正在开发中,本研究对国内研究者自主开发生成框架和生成框架的应用推广都有实践价值。
  • 摘要:"数字渔业"(Digital Fishery)作为数字农业重要的组成部分,是继数字地球、数字中国、数字林业、数字海洋、数字农业等概念提出来的,将是21世纪渔业的重要标志之一,也是我国发展现代渔业必然选择的支撑技术."数字渔业"的提出是各类渔业地理空间数据库、社会经济信息系统持续发展和相互融合的必然要求,是空间信息理论、技术与渔业生产、管理活动相结合的结果. 本文在分析SIG的关键技术的基础上,提出了DFSIG的概念,分析了DFSIG的体系结构、信息的连通和一致性、网格服务模型、空间智能体技术等关键问题,并针对DFSIG的空间信息模型进行了研究.随着研究的深入和SIG技术的发展,DFSIG必将对"数字渔业"的发展产生深远的影响。
  • 摘要:随着移动数据库技术从研究领域向应用领域发展,各种基于移动数据库的产品也在陆续出现.借助于移动数据库的数据分析和管理功能,物流企业可以对整个配送过程进行全程的配送跟踪和信息处理,这对物流企业优化资源配置,提高市场竞争力都将起到积极的促进作用. SwiftDB是由东南大学计算机系数据库及信息系统研究室开发的移动数据库系统,它不仅在移动终端实现了一个高效的嵌入式数据库系统EDBMS,还通过同步服务器较好地解决了移动事务的处理与数据一致性问题.SwiftDB的中心数据库是PC上的数据库,它控制和维护所有的数据,具有全局性,可以是任何当前主流的企业数据库.同步服务器通过ODBC连接中心数据库,负责向移动用户提供数据订阅服务,处理移动事务并维护数据的一致性.移动终端的用户首先向同步服务器端订阅自己感兴趣的数据并下载到本地EDBMS,而EDBMS可以自由地管理本地数据,执行查询或移动事务,也可以在任何时候向同步服务器发送同步请求,从而与中心数据库中的数据达到一致.本文提出了一种在SwiftDB的基础上实现物流配送系统的解决方案。
  • 摘要:现在,越来越多的商业和科学应用增加了对分布式资源的访问,人们已经将网格技术引入到这一领域以促进有效地共享异构分布式环境中的各种资源.面向服务的架构可以通过资源虚拟化来为资源共享提供便利,此外,OGSA被作为标准提出来并提供了面向服务的网格计算观点.总之,上述发展使得对中间件的需求变得越来越突出,它为用户级的开发者提供了对网格技术更为抽象的认识.网格计算的初始阶段就已经提供了数据访问的机制,这些机制要比商业数据库技术更低级.然而,网格环境下的数据和当前商业环境中的数据几乎一样复杂.因此,如果网格下的应用涉及大量的拥有复杂结构和复杂语义的数据的话,那么高级的数据访问和集成服务就变得非常必要了.本文研究 OGSA-DQP体系结构及其查询机制。
  • 摘要:语义缓存是一种基于历史查询及其描述的缓存技术,在分布式计算环境,特别是移动计算环境有广阔的应用环境,因其节约网络开销、节省查询处理时间、支持并发和网络断接下的数据处理等特点而具备广阔的应用前景.语义缓存实用价值的基础是缓存中数据的质量,如果语义缓存中的数据质量高,那么缓存就能够及时、正确地回答用户提交的大部分查询请求;否则,缓存就不能够及时、准确地为用户提供所需的数据.那么,应该如何分析评价语义缓存的数据质量以及如何保证语义缓存的数据质量? 本文提出的Stretch数据质量评价指标和Min-SACU替代策略能够有效的提升语义缓存的命中率、提高查询处理效率,是语义缓存实用性的可靠保障.
  • 摘要:检索用OWL标记的资源,是语义Web的重要应用之一.由于OWL与描述逻辑(Description Logics,DL)之间在语义上的对应关系,DL推理技术可应用于以OWL描述的资源的检索.一个描述逻辑知识库(DL KB)可表示为K=,其中T代表Tbox,是描述领域结构的公理的集合;A代表Abox,是描述具体情形的公理的集合.检索满足一个查询概念Cq的所有实例可以通过对所有出现在A中的个体进行实例检测(instance test)来实现.一般将DL上的推理问题都归结为概念可满足性的判定.例如,判断个体John为概念Animal的实例当且仅当将John不是Animal的实例加入到Abox中后,KB是不可满足的.然而这种方式不能直接用于关系的断言.例如,判断元组〈John,Bill>为关系Brother的实例,不能将〈John,Bill〉不是Brother的实例加入到Abox中,因为描述逻辑不支持关系的否定运算.如何处理对关系的断言是实例检索中需解决的问题之一。本文研究结合DL推理机和关系数据库实现OWL资源检索。
  • 摘要:随着Internet的发展,基于Web的系统开发逐渐渗透到社会生活各个领域,一些传统的基于C/S的系统逐渐向Web移植.Web服务器为事务性Web应用提供一个跨平台的运行环境,成为当代信息系统开发的主流.Web应用系统在实际运行中,用户请求率高峰时期往往超过正常平均值的8到10倍,有的甚至还高,如教育系统的分数查询、网络报名及网络填报志愿等业务,这些系统业务性强,系统访问时间相对集中且访问量大,当Web服务器遇到访问高峰或访问异常时,易发生服务器响应速度变慢,服务中断,服务器性能急剧下降,甚至导致服务器崩溃.这是Web系统开发迫切需要解决的问题. 本文针对高考网上报名用户量大且报名时间集中而导致的高并发特点,提出采用Web Server集群实现策略,构建一种可扩展的负载均衡综合实施Web Server集群方案。
  • 摘要:本文简要介绍了数据的遗传信息模型,重点介绍了遗传信息的查询语言.鉴于管理数据的进化过程是数据管理领域一个新的研究分支,现阶段我们并未发现有相关的一些研究成果,可见的文献也局限于数据起源等,因此本文的研究还只是一些起步阶段的工作.在文中,我们已经给出查询语言相关的代数操作.遗传信息查询语言从语法规范上主要参考了SQL一些特点,虽然目前仅支持一些常见的查询,但这些查询已经可以支持包括审计跟踪、过程模拟等方面的应用。
  • 摘要:随着传感器技术、与低功耗无线通信技术的发展,生产具备无线通信以及信息处理能力的微型无线传感器已成为可能.由于传感器节点能量有限,因此如何在尽量减少能量消耗,是目前连续查询面临的一大挑战.本文提出了一种基于动态线路的连续查询处理(Adaptive Itinerary based Window Query Execution)的方法.将查询区域划分成一些小的子区域;从子区域中挑选代表节点;相邻子区域内的代表节点组成收集线路,依次收集查询区域内的信息.并根据节点剩余能量的多少的原则,选取剩余能量多的节点作为代表节点的轮换方法. 本文结构安排如下:第2节介绍了本文的相关工作,第3节提出了这种基于动态线路的连续查询处理的核心思想,第4节给出实验和分析结果.最后是结论和未来工作。
  • 摘要:数据流的应用,例如网络监测、在线实时交易分析、入侵检测、传感器网络等为现有的传统数据库系统带来了很大挑战.与以往固定容量的数据集不同,无界且连续的数据流需要特殊的处理技术.在数据流处理领域的研究已经取得了可观的进展.比较著名的数据流系统有Aurora,STREAM,NiagaraCQ以及TelegraphCQ. 对于处理连接(join)这一常用的操作符来说,由于流的无界性,将一个流中的每个元组和另一个流中的每个元组一一比对是不可行的,因而引入了滑动窗口技术,即用一个有容量限制的窗口将参与连接的元组限制在最新的一系列元组中,得到用户可接受的近似连接结果.滑动窗口主要有两种形式:基于时间的窗口及基于元组的窗口.本文重点考虑基于元组的窗口.需要注意的是即使引入滑动窗口,对连接操作符的处理仍有可能造成CPU及内存资源的不足.因此在这种情况下有必要对数据流进行卸载,即抛弃数据流中的部分元组以降低系统的负载,从而加快连接操作的处理速度,保持系统与不断更新的数据流同步,不致产生因等待而出现的查询质量变差的情况. 本文提出了一种新的卸载策略以使过载数据流上的滑动窗口连接操作可以输出最大子集结果.通过双窗口模型和辅助窗口上的统计信息,我们可以对近期元组的连接结果进行预测,并通过后端卸载实现元组的语义选择.当流速过快时,又引入前端卸载,通过这种前后端卸载相结合的策略能够有效的实现过载状况下的连接结果输出最大化。
  • 摘要:汉语自动分词是汉语信息处理的前提,也是一个极其复杂的过程.汉语自动分词的最终目的是为"计算机理解"服务的,因此在分词过程中,能保证一定程度上的精度要求,又能易于实现,这是值得研究的.同时,最大匹配法的原则是"长词优先",现有的最大匹配方法是在局部范围进行最大匹配,即每次最大匹配的范围都是建立在最先几个或最后几个汉字串,这样并没能充分体现"长词优先"的原则.基于以上这些讨论,本文提出了改进之后的正向最大匹配分词算法和逆向最大匹配分词算法,其核心思想就是在整个句子范围内寻找最长词.经测试并比较改进之前和改进之后的结果,具有歧义切分的句子数量明显减少,使得分词精度有一定程度的提高。
  • 摘要:本文针对普通用户自然语言提出查询请求,结合XML文档检索的新特征,分析了XML文档中自然语言查询的模糊内容和结构检索结果排序的影响因素.充分利用答案结点的逻辑意义完整性,在追求查准率的前提下力求提高查全率,主要表现在以下三个方面:(1)从自然语言查询中抽取路径信息的模糊处理;(2)利用预设答案结点解决查询粒度过小的问题(内容放松);(3)模糊路径匹配(即结构放松)。
  • 摘要:本文通过理论和实验的分析,在采用了新的压缩方法和索引表结构等手段,DM4的全文检索系统所存在的两大问题,即空间膨胀率过高和索引填充时间较长的问题,已经得到了很好的解决.现在的分词算法仍是字粒度的细粒度的分词方法,应该使用更优秀的分词方法来改进.而且,现有系统的检索方面的能力尚不够强,不支持检索结果的排位输出,这也是需要提高的地方。
  • 摘要:本文提出了一种数据模型的改进方法,利用改进后的数据模型和相应算法,只需要对所有元组进行一次扫描,就可以得到需要的多个CondScore和GlobScore,并得出最终的Top-K元组,相比文中建立大量的中间表,连接中间表时对TID的属性值多次进行扫描,本文算法在保证分级质量的前提下,不仅可以节约建立中间表的空间,还可以显著降低表连接过程中多次扫描元组TID的时空开销,从而提高了分级算法的效率。
  • 摘要:随着计算机技术的发展,特别是网络的普及,各种应用业务需要处理的数据量日益增长,数据规模巨大(在TB级以上)的海量信息处理系统也随之出现.如果在这种规模的系统上按常用的处理方式进行聚集查询将是非常耗时的.如何对聚集查询进行处理,将查询响应时间缩短到用户可接受的范围内,成为海量信息处理系统。 本文以海量数据库应用系统为背景,基于混合数据流管理系统模型给出了一个聚合查询优化方案,该方法在数据入库之前通过数据流处理技术来获取缓存信息,从而显著降低了获取缓存信息时对系统的整体性能的影响,优于基于定时查询任务缓存刷新方式的语义缓存优化方案.在将来的工作中,将考虑对用户提交的任意聚集查询进行优化,使其适用于更普遍的海量数据库应用.
  • 摘要:当前搜索引擎使用的基于当前搜索引擎使用的基于关键词的搜索,忽略了用户的差异和用户动机.新一代的搜索引擎应该具有互动式搜索等特点,更需要对用户提供个性化的服务.本文提出在现行搜索引擎的用户接口基础上,使其具有分析查询、过滤查询结果的能力.具体地,在PLSA(Probabilistic Latent Semantic Analysis)方法的帮助下构建二维用户动机模型[主题,需求],从潜在因素中隐式提取用户特征,并将用户操作作为反馈信息,使其能够根据用户的行为分析用户的需求类型,推断用户的查询动机,从而过滤出高质量、高相关度的链接。
  • 摘要:除了用户兴趣,用户上下文中的认知结构也可以帮助理解用户个性化需求.受认知心理学上"激活-扩散模型"的启发,我们曾提出一种基于认知结构分析的用户上下文表示模型--SAM(Spreading-Activation Model).SAM从用户对某一领域知识掌握的广度和深度入手,从认知角度分析用户对该领域知识的个性化需求. 我们经过对用户兴趣和认知结构的对比分析,发现从认知心理学中构建出的SAM模型不仅可以用于描述认知结构,也适于描述和表示用户兴趣.因此,本文旨在基于SAM模型描述用户兴趣,并根据兴趣程度的变化性特点对SAM模型进行适当的改进. 本文内容是这样组织的:第2节中对用户上下文中的用户兴趣和认知结构进行对比分析;第3节介绍SAM模型以及根据兴趣的变化特点对SAM模型进行的改进;第4节给出验证实验的过程和结果评价,最后是研究结论。
  • 摘要:随着数据库技术的广泛应用,大量用户的隐私数据存储于数据库中,因此用户对个人的数据要求越来越多的保护.隐私保护的核心是保证数据所有者可以根据数据用途和该数据访问者的请求决定是否将数据提供给访问者.因此,传统的访问控制模型并不能达到隐私保护的目的.于是人们在访问控制模型中引人目的(Purpose)的概念,并基于目的做出访问决策.Agrawal等人最早将"目的"引入到HDB数据库中,并以它为中心建立了相应的体系结构.Ji-Won等人提出了在关系数据库中进行隐私保护的基于目的的访问控制模型及其实现方式. 本文提出了一种隐私数据多目的共存情况下细粒度访问控制的方案,但其他一些隐私保护的内容并没有涉及到,比如隐私偏好的管理,详细的授权机制和隐私模型的形式化定义等,这些都值得继续研究。
  • 摘要:数据库的数字水印问题是一个新兴的研究热点,但作为其关键环节之一的属性选择问题并没有得到高度的关注.目前此方面的研究成果在属性选择问题上,一般采取基于密钥和主键进行选择的思路.本文提出的基于粗集的数据库中数字水印过程中的属性列选择的方法,为属性列选择找到了理论依据,并且在一定程度上提高了水印的抗攻击性.其中的子过程compute-reduct其算法性能还可做进一步提高,但此问题不属于本篇文章所讨论的内容范围,故在此不再详述。
  • 摘要:随着计算机技术的普及和发展,数据库的应用越来越广泛,深入到各个领域,但随之而来产生了数据的安全问题.各种应用系统的数据库中大量数据的安全问题、敏感数据的防窃取和防篡改问题,越来越引起人们的高度重视.数据库系统作为信息的聚集体,是计算机信息系统的核心部件,其安全性至关重要,关系到企业成败、国家安全.而在大型数据库系统中,又以Oracle在数据库管理系统(DBMS)所占的市场份额最大,所以对Oracle安全性能的提高具有实质意义. 本文先就我国国内现有的racle DBMS的安全功能,作简单分析,然后给出针对OracleDBMS的安全改善的设计思想,最后就在实际项目中实现技术作了论述。该方法同样适用于对其它DBMS安全功能的增强。
  • 摘要:网格(Grid)是一种重要的信息技术,也是一种信息网络基础设施.网格是利用高速国际互联网或专用网络把地理上广泛分布的计算资源、存储资源、通信资源、软件资源、信息资源、知识资源等连成一个逻辑整体,最终实现在Internet上的各种资源共享和协同工作.网格也因此被许多媒体称为"Internet的第三次浪潮","21世纪工业技术的又一次革命"等.网格根据其侧重的功能体系的不同可以大体上分为:计算网格(Computing GRID)、信息网格(Information GRID)、数据网格(Data GRID)等.计算网格侧重于分布式大规模、高性能计算;信息网格侧重于信息共享、集成、融合和互操作;数据格网侧重于海量数据的分布式存储、检索、提取等.根据应用的种类及网格计算求解问题的特点,人们又提出了多种名称的网格,如以数据密集性处理为核心的核心数据网格,以解决科学问题为核心的科学网格,以解决全球环境问题为核心的地球系统网格等. 在网格技术中,网格门户是一与应用领域密切相关的概念,因此,要真正理解网格门户就必须先从一些具体的门户项目入手,分析其体系结构、功能组成以及实现方法等,再从中抽象出网格门户的概念体系结构,并以次为指导,构建网格门户的框架、技术路线等.由于不同应用领域的门户差异较大,在设计具体的网格门户时,需要针对具体的应用展开具体的分析.网格门户的另一突出的特点就是,它更像是一个大学科,在思考构建门户之前往往需要对某些应用领域有一定深度的了解,如本文所涉及的GIS就是一个典型的例子。
  • 摘要:本文的工作是在深入分析重型机械行业应用需求和网格核心技术的基础上对构建HMG的关键技术进行了重点研究,基于OGSA提出了一种新的7层开放体系框架,设计了HMG管理平台和资源信息服务、交易服务;构建了一种新的资源层次管理逻辑模型,为HMG服务的协同提供了建模和分析工具,提高并扩展了HMG的技术内涵.HMG的研究还属于起步阶段,需要在其体系框架、关键技术与应用技术、方法等方面开展更加深入的研究。
  • 摘要:流数据处理系统是目前研究的热点,流数据受环境影响非常明显.在不同环境下的性能和稳定性是流数据处理系统的关键和核心.本文在深入分析和研究CPU和内存在流数据处理中的特点,提出的自适应方案基本解决了流数据处理系统中CPU和内存两种关键资源在严重缺乏情况下保证系统正常运行的问题,能有效地提高系统自我调节以适应环境变化的能力,增强了系统的健壮性。
  • 摘要:近几年来,数据流模型逐渐受到人们的关注,其应用主要是针对海量的流数据应用,如通讯中的电话记录、网络服务器产生的日志文件、网络入侵监测、金融市场的证券交易等等.与传统数据形式不同,数据流的特点是无限、连续和数据到达的速度未知,数据流中的对象必须按照其流入的顺序进行存取并且只能在有限的资源(内存,磁盘)下对数据读取一次(或有限的几次),因此,在不断变化的数据流上进行聚类分析就变得更加困难和富有挑战性. 本文提出利用压缩方法来减少滑动窗口对内存的需求,提出数据流上的SWCLZW和ASWCLZW压缩方法,同时,给出了在压缩数据流上进行查询的过程.通过实验和理论分析表明,压缩方法能在一定条件下减小滑动窗口的存储空间.但是,在数据流冗余信息很小或者查询涉及的聚类属性很多时不适合通过数据流压缩来减小其内存需求。
  • 摘要:近年来,移动对象数据库得到了广泛的重视与研究,其技术在许多领域中展现了广阔的应用前景.然而,数据库中的移动对象的数目是非常巨大的,从性能方面考虑,在查询的时候应当避免检查每个对象,也就是说,需要对移动对象的位置信息进行索引. 到目前为止,人们对移动对象的索引问题进行了大量的研究,其中代表性的成果主要有基于TPR树的移动对象时空轨迹索引方法.但其中大部分工作都是基于移动对象在二维空间的自由移动,在现实生活中,绝大部分移动对象都是在一个限定网络中运动的,如汽车沿街道行驶、火车沿铁轨运动等.本文在基于网络的移动对象索引方面,建立了一种基于街道的,以移动对象的过去信息为索引对象的索引方法,MON-Tree索引算法。
  • 摘要:数据缓冲区运行状况是数据库系统性能的关键所在.自适应管理技术,尤其是数据缓冲区的自适应管理研究,已经成为数据管理领域的一项重要内容.本文在PostgreSQL数据缓冲区中实现了自适应管理策略,通过自适应替换算法CART的应用,聚簇数据对象对应到多缓冲池,以及缓冲池大小的自适应调整,在减轻DBA工作负荷的同时,使DBMS面对实时事务处理的性能更上一个台阶. 本文提出了数据缓冲区自适应管理模型,包括替换算法与缓冲池配置两个方面的内容.为PostgreSQL量身定制了CART算法作为缓冲区替换策略.通过两次对数据对象的聚簇,实现了将数据对象最终按访问模式的不同分布在不同的缓冲池中,利用数据访问频度DAF分析模型对缓冲池的大小做自适应调整.实验结果表明加入缓冲区自适应管理后的PostgreSQL系统拥有更好的性能。
  • 摘要:海量数据来源于科学统计和计算的结果(例如:地震监测、天气预报等),并被存储在科学统计数据库(Scientific and Statistical Databases,SSDB)中.SSDB有如下特点:①关系的模式稳定、属性值的候选集有限、数据冗余大;②新产生的统计数据只追加到已有数据末尾而不更新已有内容;③每个关系都由大量属性组成,但大多数查询只与少数几个属性相关且多为只读操作.上述特征都适合于将压缩技术集成到SSDB中去. 本文给出了一个压缩的科学统计数据据库原型系统My_SSDB,包括系统结构、压缩算法、存储结构、数据操作算法以及查询优化.
  • 摘要:数据流具有快速、大量、连续、随时间变化等特性,使得流数据无法完整地保存在存储介质中.而复杂的聚集计算需要对数据进行多趟扫描来获得精确查询结果,这在数据流的处理上造成了很大的困难.因此在用户接受范围内,使用一趟算法获得一个近似的聚集结果的技术就成为了研究热点.直方图在数据流处理中通常用于保存大纲数据结构.目前许多数据流管理原型系统中多采用直方图、小波变换、数据写生、随机抽样等方法来保存大纲数据. 直方图结构在数据流聚集处理中用于保存大纲数据结构,但是用传统直方图进行聚集计算误差较大,尤其是当数据分布严重偏斜时更为明显.本文针对分布偏斜情况,给出了两种数据集中模型,并针对这两种模型提出了桶内集中直方图聚集算法.该算法可以动态调整每个桶中数据集中区的边界,真实反映了数据集中情况,从而提高聚集查询精度.在以后的工作中,我们希望能将这个算法应用到复杂的相关聚集查询,并实现多个查询的资源共享。
  • 摘要:执行计划缓存的主要功能避免相同查询的重复优化.当前的三大主流商业数据库中都支持执行计划共享.SQL Server将SQL或T-SQL执行计划保存到过程缓存中.Oracle将查询执行计划保存到库缓存中,通过V$LIBRARYCACHE动态性能视图可以查看库缓存使用情况.DB2将查询执行计划保存到全局包缓存pkgcachesz中. 本文以PostgreSQL为基础,构建了一个可运行、可验证的原型系统.在执行计划缓存的匹配方式上,不仅支持字符串精确匹配,而且支持常量参数化方法.TPC-C等性能基准测试结果表明,执行计划缓存能有效地缩短查询处理时间。
  • 摘要:Model-Driven Architecture(MDA)是由OMG组织于2001年2月提出的用模型技术进行软件系统开发的方法和标准体系,它代表了现代软件开发理论与方法发展的主流趋势.可以预见它会成为继面向对象技术后软件工程史上又一个里程碑. MDA的核心思想是,首先为企业商业应用建立独立于实现技术的平台无关模型(platform-Independent Model,PIM),再通过映射方法将平台无关模型转换为与实现技术特性相关的平台特定模型(Platform-Specific Model,PSM),进而生成可执行代码并在目标平台上部署和实现.MDA以OMG建立的各种标准为基础,实现将商业或应用逻辑与支撑平台技术相分离,从而保证应用系统的可移植性和可重用性。
  • 摘要:导航系统的运作方式简介在互连网上怎样高效地管理、组织信息,以及为普通公众提供简洁方便的信息检索,称为互连网信息导航.目前普遍是通过建立互连网信息导航站点,来引导用户进行信息检索.导航站点的运作方式一般是通过信息搜索引擎Robot在网上抓取网页信息,然后经信息标引/分类子系统的信息预处理,将网页相关信息。本文探讨信息导航系统中海量信息数据库的优化方法。
  • 摘要:在企业信息系统中隐藏着大量结构化、半结构化及非结构化存储的文本信息还没得到有效利用.结构化存储的文本信息隐藏于关系数据库内部,而传统关系数据库管理平台文本信息检索功能有限. 自然语言中存在的一词多义和多词同义现象给文本检索增加了难度,由此提出了查询扩展技术提高检索结果文档数,及文档的相关度. 本文设计了一个服务于关系数据库平台的信息检索系统,具备通用性、灵活性和可扩展性,解决信息系统内部大量结构化文本的信息查询问题,并提供信息查询智能扩展.为了适应关系数据库中的信息检索的特点及需求,我们设计出一种综合了传统信息检索技术,信息抽取技术以及查询扩展技术的解决方案:设计了智能索引结构,对用户输入的查询设计了语义分析方法,借助词典工具对单词语义做同义词扩展,最后对检索出来的元组信息利用其与其他元组的关联关系形成完整的"文档信息"。
  • 摘要:由于传统的关系数据库存在着数据存储冗余和查询效率低下等缺陷,近年来图数据库的应用越来越广泛,其上的查询也成为人们研究的问题. 本文中要解决的Top-k顶点度查询问题如下: 给定一个超大的有向图,查询其顶点度(包括入度和出度)为前k大的顶点分别是哪些顶点. Top-k顶点度的查询在很多背景上都有其应用.比如根据论文的引用情况可以建立一个图,将所有的论文作为顶点,两篇论文的引用关系作为有向边,构成一个图,那么统计被引用的最多的一些论文,即从中查找Top-k顶点度的顶点. 利用对图进行一遍简单扫描的方法显然可以求得问题的精确解,但是这个方法的时空开销过大,因此在超大图背景下该方法是不实用的.然而在超大图背景下,利用可以承受的时空开销,求得问题的近似解却是一种可行的方法.本文提出的方法的基本思想是先根据查询在内存中建立估计Top-k顶点度的数据结构,后续查询通过访问该数据结构得以回答,从而降低了算法的时空开销。
  • 摘要:本文对传统的全局颜色直方图进行了改进,提出了一种简洁的描述图像颜色空间分布的模型--扇形模型图.这种模型既考虑了图像的颜色特征和分布状况,又兼顾了计算的简便性,是图像检索的准确性和计算的复杂性的很好的折中方案.显然,可以在本文提出的扇形模型的基础上,将颜色特征与图像的其它特征,如纹理、形状等结合起来,以取得更好的检索性能;在进行特征计算时,可以取更高的阶矩(比如取到五阶),可以考虑对不同阶的中心矩赋予不同的权重值等,这些将是我们的下一步研究工作。
  • 摘要:中国的诗歌艺术渊源流长,诗歌作为一种最接近口语的大众化文学形式,在汉语文化的成长演变与传播中占有极其重要的地位,唐代的诗歌更是集古代诗歌的优势于一身,并且把诗歌艺术发扬光大,因此对唐诗的研究历来是汉学研究的热点之一.不过,诗歌的传统研究往往依靠研究者的自身良好的文化修养,凭感悟直接把握作品的内涵,这种研究方法对于诠释作品的美学及人文意义有很强的优势,但在对作品的语言全貌进行横向和纵向的分析时,就会显得捉襟见肘. 在一个语言处理系统中,确立其基本处理单位是至关重要的.唐诗作为中国古代文化的精髓.其词汇的提取由于社会文化的变迁,完全由人来掌握这一标准已经比较困难,尤其是对于唐诗这种古代汉语的特殊的语料,统计的方法起到了非常重要的作用.本文的重点是运用统计的手段对唐诗语料进行未登录词的发现.'词'的统计提取最后的目的是构建词表,为语言处理系统接下来的工作做出了良好的铺垫.本文将进一步研究融合词法甚至部分语义信息,集经验主义(统计主义)与理性主义(规则主义)于一体的'词'的提取方法。
  • 摘要:随着计算机技术和人工智能的发展,信息检索的涵义更加丰富,其对概念表达更为灵活.国际上已制定出应用于图书馆的MARC XML DTD和Schema,国内有利用XML技术对MARC进行重新描述,但其定义的DTD存在不易扩展的问题.档案机读目录(MARC AMC)标准格式是国际标准化组织关注的问题,国内论及MARC AMC与XML技术相结合的文章大多浅尝辄止,也没有给出具体的实现.特定领域本体是关于知识概念表示和知识组织体系方面的研究,将本体新技术引入我国档案领域的信息检索,尤其是基于XML的MARCAMC上的内容检索,将为数字档案信息资源的整合与检索提供了良好的发展契机,同时也为数字档案馆的建设昭示着前进的方向.但目前在我国档案界这方面还没有开展实践.本文在研究XMLAMC信息组织技术基础上,构建并实现一个具有一定推理功能的XML AMC机构内容本体实验性知识检索系统. 本文借鉴了新的数字档案馆理念和技术,建立了XML AMC档案目录格式,实现了对基于XML档案机读目录信息的知识检索。
  • 摘要:本文提出了一种用于管理视频中语义信息的视频语义模型SemTTE及查询语言VSQL.模型考虑了视频中语义信息的两个特点:事件和时间结构;VSQL具有简单的语法和强大的查询能力,支持包括统计查询和多粒度浏览在内的多种类型的查询. 我们未来的工作有两个方面.首先,扩展模型以支持领域中不同用户的视图.其次,以XML数据库技术为基础实现SemTTE和VSQL.将SemTTE数据库实例映射为XML文件,VSQL查询映射为XQuery进行求解,并研究映射过程中的优化策略。
  • 摘要:与MPEG4标准不同,我们使用的MPEG4-SP(simple profile)是从H.263、MPEG1、MPEG2继承而来的编码标准,并没有场景对象信息.对于MPEG4-SP矩形编码来说它主要还是利用传统的预测编码、运动估值、运动补偿、DCT,IDCT,变换、量化、反量化的混和编码方式. 在优化的方案中,本文只取了比较简单的零系数、三系数与全DCT相结合的方法来进行优化,在实际中还有许多方法可以进一步优化编码,提升编码速度.例如关于色度的优化方法,包括关于基于对角线的色度SAD方法,我们只进行了比较简单的学习和研究,没有将其深入的研究和实现,这些都有待于进一步讨论和研究。
  • 摘要:信息安全已经成为当前研究的热点课题,作为信息系统核心的数据库的安全尤其成为信息安全的重中之重.目前,国内大部分企事业单位包括国家的一些关键部门大多数都使用国外进口的数据库产品,如ORCALE、DB2、SYSBASE等.但是国外限制了B1以上级别的安全数据库对中国的出口,在这种情况上,加强国产数据库的开发并加强数据库的安全级别就显得非常重要.国产LogicSQL安全数据库的研发就在这个背景下得到各级政府的大力支持,取得了快速的发展.数据库系统的特点就是把数据集中存放,可以供多个用户使用,从而就可能形成多个事务同时存取相同或部分相同数据的并发性问题.并发控制机制是衡量数一个数据库管理系统性能的重要标志之一.在多级安全数据库管理系统中,采用并发控制封锁机制,防止并发访问对数据库一致性和完整性造成的危害,保证系统正确地运行;同时,对数据库用户和保存在数据库中的资源都赋予了一定的安全级,确定了用户对数据库拥有相应的操作权限.但是,在这样的多级安全系统中用户间仍可以利用并发控制机制进行隐蔽通信.因此,一个仅提供了安全级及其操作规则是不能满足高安全等级安全数据库管理系统的要求,必须提供检测或消除绕过安全策略泄露信息的机制.本文提出了在多级安全数据库管理系统LogicSQL中消除隐蔽通道增强安全的并发控制。
  • 摘要:本文提出了一种新的在数据库中实现细粒度访问控制模型和架构,它以安全策略为核心.文中通过扩展SQL为细粒度访问控制策略定义了详细的语法,并提出了策略类型的概念,增加了策略的可重用性.本文的做法与Oracle VPD的主要不同是明确定义了安全策略,并提出了策略类型的概念,增加了细粒度访问控制的灵活性.本文提出的策略框架能够适应DBMS的安全需求,并依托DM5数据库管理系统,实现了细粒度访问控制的原型。
  • 摘要:本文利用数据挖掘技术,借鉴划分等价类的方法,提出了对SQL注入攻击的特点进行分析的数据挖掘方法.实验的结果表明这种方法能够有效地发现SQL注入攻击的部分特点,为防御SQL注入攻击提供了帮助. 由于条件所限,本文的实验结果是建立在很小的并且是人工构造的数据集上的,因此这里的实验结果所反映的SQL注入攻击的特点并不一定全面,还需要在实际运行环境中进行验证,但实验也显示出,数据挖掘方法对于发现SQL注入攻击的特点还是有效的,能够找到需要防御的重点.另外,考虑到安全对于应用程序的极端重要性,本文的方法要真正应用于实际工作,还必须进行进一步的严格的理论论证。
  • 摘要:本文描述了基于中介的面向语义的数据集成模型,并详细刻画了其中从关系数据库模式到OWL的映射规则,这些规则不仅适用于建立全局本体(视图)和局部模式之间的语义映射,而且可用于指导从本地关系模式到OWL描述的本体转换,可提高映射、转换的自动化程度.这种数据集成方案描述了元数据层次的语义对应关系,生成实例数据并进行数据交换只发生在系统动态执行过程中,避免了集成早期大量数据的转换、迁移;同时具有灵活性和可扩展性,便于不断加入新的数据源。
  • 摘要:随着网络技术和信息技术的不断发展,越来越多的系统具有了数据收集和信息处理功能.在这些系统之间进行数据的映射和转换成为了一个经常要面对的问题.数据映射的需求是逐步复杂化的:最初仅仅需要在不同的数据库之间迁移数据,因此一些数据库产品(例如Oracle)及相关工具(例如dbArtisan)开发了数据迁移功能;后来需要数据的集成以及映射,于是出现了EAI(Enterprise Application Integration,企业应用集成)标准以及相关工具,它能够使用定义好的算子在数据迁移的同时进行基于某种规则的转换.但是使用EAI进行转换前必须首先建立源和目标的数据存储结构.现在出现了一些数据映射需求,要求根据元数据创建出目标数据的存储结构,并且同时能够进行基于规则的数据映射.这种新的数据映射形式被称为元数据映射. 本文的主要贡献是总结了目前的一些元数据映射方法中存在的问题,并且提出了一种以模型编织技术为基础的元数据映射方法。
  • 摘要:随着信息化程度的不断提高,具有大规模数据量的数据库系统应用越来越广泛.海量数据库系统的高可用性问题引起业界普遍关注.目前海量数据库系统大多采用多个数据库联邦的方式并行工作,以获得高性能,然而由于系统规模较大,单个数据库出现故障可能导致整个系统的可用性下降.在遭遇介质故障时,传统的数据库备份恢复技术在最坏的情况下需要恢复系统中有史以来的所有数据,而海量数据库系统每个数据库的规模都很大,可能达到TB级,存在恢复时间过长的问题.所以在海量数据库系统中,故障出现概率较高,故障恢复时间较长.在硬件条件一定的情况下,如何通过缩短恢复时间从而提高海量数据库系统的可用性成为本文的重点. 本文介绍了一种提高海量数据库系统可用性的快速恢复机制,在不影响系统性能的条件下尽量降低系统的恢复代价,在中间件层通过一个SCS服务对系统各功能进行周期性的调度和切换,并对数据进行后台的压缩处理,减少了出现故障以后的恢复时间,从而提高了可用性。
  • 摘要:协同创作系统(CAS)是CSCW的一个研究分支,目前在大纲式文档写作、互联网知识创作、多媒体创作等多个领域得到广泛研究和应用.CAS由于允许多个用户同时对同一作品进行编辑,为保证作品的一致性,必须进行并发控制.根据冲突处理策略的不同,可以将现有CAS的并发控制方法分为悲观方法和乐观方法两大类. 本文针对目前CAS常用的固定粒度封锁算法难以兼顾并发性与封锁效率等不足,提出了自适应封锁算法,使封锁粒度可以根据用户的实际创作情况动态确定,使协同创作系统可以较低地封锁开销达到最小粒度封锁的并发性。
  • 摘要:基于分布式数据库系统的大型企业应用越来越广泛,为了提高系统可用性和安全性,系统中的关键数据会在不同地域存有多个副本.保持多个副本间的数据一致性是分布式数据库系统中的一个关键技术. 本文主要描述了一种基于文件方式的异步复制方法保证分布式系统中多个副本数据一致性.由于在主数据库系统中运行的事务是并发执行的,而从数据库系统按照在文件中存储的串行事务执行,要确保串行执行的结果与并发执行的结果一致,在本文中介绍了采用按照事务的提交顺序串行化这些并发事务的方法以保证主从数据库的各副本数据保持一致,给出了其正确性的证明,并通过实验证明了其有效性,相比其它保证数据一致性的方法,具有支持异构环境,有利于提高系统性能的特点。
  • 摘要:本文结合多元关系的多个因素综合考虑各副本场地,优化选择出从它们到查询结果场地之间的综合权重中最小的一个为根结点,生成一棵最小代价特殊二叉树,从而对多元联接查询的联接次序作优化选择.并行处理方面,从这特殊二叉树的左子树和其右子树同时开始,向根结点(查询结果场地)靠拢,实验证明,无论在减少通信代价还是提高并行性都比文有更优的效果。
  • 摘要:并行分布式数据库管理系统构建于具有高连通度的多处理器系统之上.站点之间的网络通讯时延非常小,与本地磁盘存取时延具有相同或相近的数量级.由于具有较多数量的处理器,与传统分布式数据库相比,并行分布式数据库具有较强的并行事务处理能力,能够达到较高的事务处理吞吐率.但就其本质而言,并行分布式数据库仍然是分布式数据库的一类,具有分布式数据库的基本特征.分布式数据库技术体现了分布和集中相结合的理念,数据在不同站点上的分散存储体现了其分布的一面;整个系统逻辑上的唯一性则体现了其集中的一面,用户看到的是一个单一的数据库管理系统,系统为用户提供统一的数据库外模式,而其物理上的分布式细节对用户来说则是透明的. 本文提出的用于实现并行分布式数据库中系统目录同步的方法,采用了分布式和集中式相结合的设计思想,保证了分布在各个节点上的系统目录副本的一致性.与已有的方法相比,本文提出的方法消除了处理DDL事务时对系统目录不必要的更新操作,避免了在节点数量较大的情况下,各个节点同时执行更新操作造成的网络负载过大的现象.实验结果表明该方法能够正确有效地处理DDL事务.该方法主要针对本文所介绍的一类并行分布式数据库模型以及具有类似结构的系统模型,在今后的研究工作中,我们将对其做进一步推广,使其具有更强的通用性.
  • 摘要:景观生态学(Landscape Ecology,LE),作为景观地理学和宏观层次生态学相结合的边缘学科,不仅给生态学、地理学及环境科学研究带来了新思想、新概念、新理论,而且也在其研究方法和技术手段上提出了许多新的挑战. 我国"三江并流"地区的地形多样性以及生物多样性都极为突出,此条件下,两者是否有密切联系?联系中又遵循那些规律?如何有效地组织和管理该地区的空间数据,使其以一种易于理解、易于使用的形式提供给公众?文[1]等许多文献把侧重点都不约而同地选在了利用GIS方面的工具来管理地理数据和生态数据的层面上,而对数据间的依赖性和规律性的研究则显得弱了许多;生态学家在企图发展一种联系稳定性和多样性的通用理论的研究中,也出现27个之多不同生物多样性模型;而空间数据仓库和挖掘技术更加擅长这样的研究.正是这些问题激发了我们研究的动机. 本文结合景观生态学原理引入层次数据依赖;提出相应的空间-非空间数据关联方法和空间数据仓库结构设计;实现层次数据依赖模式分解和数据构造算法,并以一个综合实验进行了演示。
  • 摘要:本文对构件库系统中的核心技术一构件的分类与检索做了深入探讨,分析比较了几种不同的分类模式,并对基于刻面的分类与检索模式进行了重点研究,提出了有效的原则和方法.本文的重点是实现了一个基于J2EE的政务构件库管理系统的原型,其中将刻面分类技术实际应用到特定领域--电子政务领域中构件库系统的刻面分类模式的制定. 本系统的进一步工作就是要将XML语言作为构件描述语言,形成结构化的数据.再进一步从结构化的数据中抽取刻面、关键属性等信息,最后用XML数据库存储这些关键信息。
  • 摘要:随着数据库技术的广泛应用,实施对数据库的管理维护、性能调优越来越受到广大数据库管理员(DBA)的关注和重视.实践表明,数据库的不合理配置和不适当优化是其性能下降的主要因素.虽然数据库本身也提供了大量的系统维护工具,如Oracle的OEM,Performance Manager等,但对其精通掌握却十分困难.基于以上原因,本文在多年数据库开发、管理、优化经验的基础上,设计开发了Da-tabase Performance Expert(DPE)数据库性能监控系统。
  • 摘要:随着Web技术的飞速发展,人类交换信息的方式正发生着深刻的变化.极大的改变了人们发布,获取,使用信息的方式.人们从信息缺乏进入了信息极大丰富的年代.但另一方面,Internet所固有的海量数据的分布性,异构性,动态性又对互联网环境下的数据交换和信息共享提出了新的挑战.人们面临着从海量的数据中发现自己所需的有用信息的困境,往往有"大海捞针"的感觉.而XML(可扩展标记语言)的出现很可能改变这一切.随着信息时代的到来,尤其是互联网技术的高速发展,网站数目巨增,出现了大量的文档,而如果要想将这些数据资源成为可持续开发的Web信息资源.将其用XML语言表达是最好的方式.这就难以避免的有大量的内容重复的XML文档的出现.因此,如何在海量的XML文档之中合并表达内容重复的文档,将是本文的研究重点。
  • 摘要:作为信息交换和发布的标准数据格式,近年来XML在商业和科学研究等领域得到了越来越多的应用.XML文档通常被建模成一棵有序树Td,而由XML查询语言(如:XQUERY)所表示的查询请求也可以被建模成一棵查询树Tq,所以XML文档的查询问题可定义为树的匹配问题.其中,XML树中兄弟结点前后排列顺序确定的查询称为有序查询,相反,兄弟结点前后排列顺序无关的查询为无序查询.当用户对XML文档的任何信息未知时,提出的查询请求一般是无序查询. 本文提出了基于序列化查询的带权启发式查询算法(WHSA算法和I-WHSA算法),该方法在保持序列化查询方法的查询性能的同时,解决了无序查询的问题.通过启发式的查询策略,该算法有效地减少了需要进行处理的查询同构体的数目,从而大大减少了序列化查询的时间耗费.特别地,本文利用最小子串分解的方法对查询算法做了进一步优化,使得在XML文档集上进行无序查询的问题得到了很好的解决.最后,实验证明了I-WHSA算法的有效性和高效性.
  • 摘要:空间索引在整个空间数据库中占有重要地位,一直是GIS领域研究的一个重点.迄今为止人们已提出了众多的空间索引方法,这些方法各有其应用的领域和相对优势,其实际效率往往依赖于具体的空间索引结构与空间数据的组织和存储方式.研究表明,PMR(Polygon Map Random)四叉树比其它的空间索引结构(如R树及它的变体)在空间连接操作中有着更好的性能.目前主流的商业数据库引擎产品和空间数据库产品中,都采用四叉树作为其空间索引技术之一.在PMR四叉树的索引过程中所用到的插入算法,同大多数插入算法一样,被定义为自顶向下遍历四叉树.从根结点开始,访问所有与被插入对象相交的子结点,增加这个对象到所有与之相交的叶结点.由于插入测试是在遍历时被执行的,所以插入一个对象的CPU代价与它插入的叶结点的深度成比例,另外,CPU代价的另一个开销是在编码应用中子块的计算代价,计算的次数类近似等于相交测试的次数,因此,减少相交测试的次数可以优化插入性能,提高PMR四叉树的整体索引效率。
  • 摘要:小型船舶快速通关系统以综合数据交换平台为枢纽,辐射海关、运输企业等应用单位和移动、货代等数据提供单位.技术上以国际互联网作为和企业用户交互信息的传输媒介;以无线移动通信网络为移动目标(船舶)和监控中心之间的调度、定位、命令等无线移动数据的传输载体;数据交换平台与主要使用单位(海关、运输企业)的连接以专线方式实现信息交互.在海关建立与外部数据安全隔离的内部的监管、验放体系,外部建立互为热备份的异地服务系统.用户端则采用C/S+B/S结构,以地理信息系统(GIS)为后台,实现动态定位信息、车船资料、用户信息、报警信息等资料的实时查询.系统结构见图1. 本文提出的小型船舶快速通关系统的各项功能均已实现,并已在广州海关及相关港口、多家船运企业得到了很好的运用,显著提高了船舶通关效率.自主开发的综合数据交换平台、GPS船载收发信装置、电子政务海图等技术很好地实现了海关、船运企业之间的信息集成和信息共享,提高了船运企业的通关效率和海关的监管水平。
  • 摘要:图像获取和存储技术的发展已经促进了大规模图像数据库的飞速发展.我们的日常生活和各个领域每天都有大量的图像产生,例如医学图像(CT图像,ECT图像,核磁共振图像),人造卫星图像和各类数字照片等等,这些图像包含了大量的对人们有用的信息,但是对于用户来说,发现这些潜在的知识是十分困难的.图像挖掘可以自动地从大量图像中发现这些隐含的知识或者模式,它在数据挖掘领域正受到越来越多的重视.图像挖掘不仅仅是数据挖掘简单的扩展到图像领域,它是一个多学科交叉的研究方向,包括计算机视觉,图像处理,图像检索,数据挖掘,机器学习,人工智能和数据库等等. 本文在对图像预处理后,提出了一个新的医学图像聚类方法,它由三部分组成:(1)图像中ROI特征的提取;(2)ROI的聚类;(3)基于ROI聚类的图像聚类.每个ROI的特征都是基于医学图像的特点提出的,而两阶段的聚类则具有图像聚类的通用性。
  • 摘要:聚类分析是研究和处理所给定对象分类的数学方法,它将对象划分为一系列的子对象(或类),使得每一类中的数据尽量地相似,不同类尽可能有较大差异.广泛使用的聚类算法有K-Means,K-Modes等.K-Means方法是最早最简单的聚类方法,但它只能对数值属性的对象集进行聚类,无法对类属性对象聚类.其中Z.Huang提出的K-Modes算法,推广了K-Means方法,使它能够对类属型对象集进行聚类.1999年在FCM的基础上提出了模糊K-Modes算法. 大多数聚类算法需要预先设定初始聚类中心点,初始中心点的不同可能导致完全不同的结果.我们将贪婪算法的思想用到算法初始聚类中心点选择上,给出一个较为稳定,有效且时间代价小的初始化方法.实验也表明新的初始化方法比随机初始化方法更为稳定和有效. 本文提出了一个新的类属型数据聚类算法一模糊K-Patterns算法.该算法全面地考虑以往不能准确和稳定地进行聚类的原因,即避免模糊K-Modes算法在不同的初始化条件下可能带来较大差距的聚类结果,也避免了模糊K-Modes算法在处理聚类中心点时可能带来的误差和错误.新算法提出了使用贪婪初始化聚类中心,摒弃以往每次聚类循环都要求保留单个聚类中心而造成大量信息丢失的情形,将聚类中心点用集合的形式来定义,并重新定义了距离的计算公式。
  • 摘要:本文简单介绍了入侵检测和数据挖掘的一些背景知识.改进了经典Apriori算法,并实验分析证明改进算法具有更高的效率.在改进的关联规则算法的基础上建立了入侵检测系统模型DMNIDS.系统的规则库包含了正常规则和异常规则,在此基础上使系统既可实现异常检测又可实现误用检测.此外该系统模型具有良好自学习能力。
  • 客服微信

  • 服务号