首页> 中国专利> 一种基于一阶逻辑和神经网络的数据对应方法

一种基于一阶逻辑和神经网络的数据对应方法

摘要

本发明属于数据迁移、数据集成领域,具体涉及一种高匹配效率和准确率的基于一阶逻辑和神经网络的数据对应方法。本发明包括:(1)分析已完成匹配的数据模式;(2)将模式转换为表向量,存放在待匹配表训练集合中;(3)对集合中的表进行特征提取;(4)存储提取的表的特征。(5)对待匹配模式中的待匹配表进行匹配;(6)对已完成匹配的模式中的字段进行训练,修正字段的表示形式和建立的神经网络;(5)使用训练好的神经网络和修正后的字段表示格式,对已完成匹配的表进行字段匹配。本发明减少了在数据对应过程中的时间,提高了匹配的效率和准确率。

著录项

  • 公开/公告号CN102799627A

    专利类型发明专利

  • 公开/公告日2012-11-28

    原文格式PDF

  • 申请/专利权人 哈尔滨工程大学;

    申请/专利号CN201210211474.1

  • 申请日2012-06-26

  • 分类号G06F17/30(20060101);G06N3/08(20060101);

  • 代理机构

  • 代理人

  • 地址 150001 黑龙江省哈尔滨市南岗区南通大街145号哈尔滨工程大学科技处知识产权办公室

  • 入库时间 2023-12-18 07:26:32

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-06-07

    未缴年费专利权终止 IPC(主分类):G06F17/30 专利号:ZL2012102114741 申请日:20120626 授权公告日:20141022

    专利权的终止

  • 2014-10-22

    授权

    授权

  • 2013-01-23

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20120626

    实质审查的生效

  • 2012-11-28

    公开

    公开

说明书

技术领域

本发明属于数据迁移、数据集成领域,具体涉及一种高匹配效率和准确率的基于一阶逻 辑和神经网络的数据对应方法。

背景技术

随着网络和数据库技术的不断发展,数据的种类和数量也在不断的增加,因此,对于异 构数据的共享和相互之间的转换等技术问题也变成迫切需要解决的问题。在语义WEB、数据 仓库、P2P数据库、模式集成和电子商务等领域,都对异构数据的共享和相互之间的转换进 行了深入的研究。模式匹配作为实现异构数据共享的第一步,在整个数据处理过程中起到了 不能替代的作用。目前实现异构数据的转换等工作大都是由操作人员手工进行,这就要求操 作人员必须对数据库的信息,比如模式结构和模式中元素的语义都很熟悉,这样才能够完成 对异构数据的共享和转换,因此对异构系统数据的处理是一个比较复杂的过程。随着业务复 杂度和系统复杂度的不断增加,系统所需要的数据的复杂程度,都比现有的数据情况要复杂 的多,在这种情况下,单纯依靠人工来完成异构数据集成过程,显然太困难,因此对异构数 据集成的自动化需求就越来越迫切。

到目前为止,对数据对应的方法研究也取得了一些成果。2000年Northwestern University  开发的SemInt(A Tool for Identifying Attribute Correspondences in Heterogeneous Database Using  Neural Networks)是一个应用混合匹配技术的模式匹配系统,它主要应用神经网络技术去确定 匹配候选集,并在两个模式的单属性间建立一个映射,匹配基数是1:1;2001年VLDB(Very  Large Data Base)会议上提出的Cupid(Generic schema matching with Cupid)是一种通用化的混 合匹配方法,将名字匹配器与结构化匹配算法相结合,根据这个结构化算法可以推导出属性 的相似度,而属性的相似度是根据属性组件(主要是属性名字和属性的数据结构)的相似性得 出;2002年VLDB会议上提出的COMA(A System for Flexible Combination of Schema Matching  Approaches)是一种合成的模式匹配方法,它提供一个承载了多个不同匹配器的外部知识库, 并且支持多种结合匹配结果的方法;2002年ICDE(International Conference on Data Engineering) 会议上提出的SF(Similarity Flooding:A Versatile Graph Matching Algorithm)是一种基于模式结 构相似度的匹配方法;2004年SIGMOD(Special Interest Group on Management of Data)会议上 提出的iMap(Discovering complex semantic matches between database schemas)是一种基于模式 信息和实例信息的混合匹配方法;2005年ICDE会议上提出的基于副本的模式匹配方法主要 利用被匹配模式的数据集中存在的重叠数据来指明模式间的匹配关系,是一种基于实例的模 式匹配技术;2005年国防科技大学在NDBC(National Data Base Conference)会议上提出的 SMDD(Schema Mapping Method based on Data Distribution)是一种基于数据实例分析特征的 模式匹配方法;2009-2010年李国徽等提出了基于函数依赖的结构匹配方法和基于部分函数依 赖的结构匹配方法。

前面所述的方法虽然能够解决模式匹配中的一些匹配问题,但是并不完善,并且对于历 史的匹配信息并没有加以利用,导致下次再进行数据对应的操作时,仍然需要对一些已知规 则的匹配利用匹配算法进行重新匹配,这样既浪费的时间也影响了匹配的准确率。而本发明 则充分利用了历史匹配的知识,通过利用一阶逻辑和神经网络对已完成匹配模式中的信息进 行训练,来完成整个数据对应的过程。

发明内容

本发明的目的在于提供一种匹配时间更短、准确率更高的基于一阶逻辑和神经网络的数 据对应方法。

本发明的目的是这样实现的:

本发明包括如下步骤:

(1)分析已完成匹配的数据模式,建立待匹配模式的表和字段形式的格式;

(2)将选择训练的模式转换为表向量,存放在待匹配表训练集合中,包括表名、正样本 数据、负样本数据和断言集合;

(3)使用一阶逻辑的表特征提取算法对集合中的表进行特征提取;

(4)存储提取的表的特征;

(5)使用提取的表的特征字段对待匹配模式中的待匹配表进行匹配;

(6)通过生成反馈的神经网络算法对已完成匹配的模式中的字段进行训练,修正字段的 表示形式和建立的神经网络;

(7)使用训练好的神经网络和修正后的字段表示格式,对已完成匹配的表进行字段匹配。

表的格式形式化为六元组:

T=(N,Ne,K,Ke,Sc,D),其中N为表名,Ne为表名的中文解释,K为主键,Ke为主键 的中文含义,Sc为除主键之外的各个字段的名称和中文含义的集合,D为当前表中数据量的 大小;

对于表中字段采用十六元组:

Tattribute=(DL,LE,PR,CT,NT,DT,PK,FK,NU,CV,DF,Max,Min,Ave,Var,StaDev),其中,DL为 字段名的长度,LE为数据的长度,Pr为数据的精度,CT为字符类型,NT为数字类型,DT为 日期类型,PK为主键,FK为外键,NU为是否为空,CV为唯一性约束,DF为默认值,Max为 数据最大值,Min为数据最小值,Ave为数据平均值,Var为数据方差,StaDev为数据标准 差。

对待匹配模式中的待匹配表进行匹配的具体步骤包括:

(1)提取待匹配模式中表的表名以及表中含有的字段名;

(2)顺序遍历提取的表名和字段名,在遍历的过程中,查找表规则集合,检索是否有表 满足其中的规则,如果满足其规则,则将该表与表规则中的表进行匹配,标记已完成匹配的 表;

(3)继续遍历,直到所有表都遍历完成为止,反馈匹配结果。

生成反馈的神经网络算法包括如下步骤:

(1)构建初始的生成反馈网络,其输入层的神经元的个数为N,输出层神经元个数为M;

(2)对生成反馈网络中的各个参数进行赋值,包括对其学习率r、网络的权重值w和每 个单元的偏倚值θ,其中网络的学习率的r的取值范围为(0.0≤r≤1.0),网络权重w和每个 单元的偏倚θ的取值范围分别为-1.0≤w≤1.0和-1.0≤θ≤1.0;

(3)对构建的生成反馈网络进行正向和逆向误差传播,同时修正权值和偏倚值;

(4)将训练数据集输入到神经网络使用生成反馈的神经网络算法对网络中的节点和连接 进行剪枝操作,同时对字段的初始十六元组形式进行修正。

本发明的有益效果在于:本发明通过将一阶逻辑与人工智能领域的神经网络融合有效的 减少了数据匹配的时间。通过基于一阶逻辑的表特征提取算法来对表特征进行提取匹配,然 后利用生成反馈的神经网络的算法对字段分类,进行匹配,减少了在数据对应过程中的时间, 提高了匹配的效率和准确率。

附图说明

图1是基于一阶逻辑的表特征提取算法流程图;

图2是利用提取的特征进行表匹配流程图;

图3是生成反馈的神经网络算法的流程图。

具体实施方式

下面结合附图举例对本发明做更详细地描述:

(1)主要处理过程

图1为基于一阶逻辑的表特征提取TIAFL(Table Information Acquisition Based on  First-order Logic)算法流程图,该算法来对表特征进行提取,其步骤可以概括为:首先,将 选择的训练模式进行表向量表示,存放在集合中,其中包括表名、正样本数据、负样本数据 和断言集合;其次,使用一阶逻辑的表特征提取算法对集合中的各个表进行特征提取;最后, 将提取的各个表的特征存储,以便后面使用进行表识别。

图2利用提取的特征进行表匹配流程图,其步骤可以概括为:首先,将待匹配模式中的 表信息进行提取,将结果存放在表匹配集合中;其次,遍历待匹配模式中的表匹配集合中是 否存在元素,若存在元素,则遍历提取的表特征规则集合,查看是否满足其中的规则,如果 满足,则将匹配的结果加入到表匹配结果中去。若待匹配模式中的表匹配集合中不存在元素, 则匹配结束;最后,将得到的匹配结果返回给用户。

图3为生成反馈的神经网络算法流程图,其步骤可以分为两个阶段:第一阶段为生成阶 段,该阶段主要是对网络进行训练,对其中的各个参数进行确定;第二阶段为反馈阶段,对 神经网络的各个初始节点进行剪枝操作,然后将结果反馈给字段的表示形式。

(2)具体算法

图1为TIAFL算法流程图,该算法来对表特征进行提取,其具体算法如下:

1TIAFL算法

1)扫描已完成匹配模式中的表信息,将表中样本数据存储在TableInfoList中;

2)从TableInfoList中提取表名、正样本数据、负样本数和断言集合,用来初始化正样本 数据Pos、负样本数据Neg、断言集合Predicates,同时初始化学习到的规则Learned_rules;

3)遍历Pos集合,如果为空,则算法结束;如果不为空,则转到步骤4;

4)遍历Neg集合,如果不为空,则基于Predicates生成候选文字,然后利用评估函数来 评估候选文字,选取最佳的文字加入到NewRule,然后重新计算满足现在条件的Neg集合, 循环执行,直到Neg集合空为止。

5)将提取的规则加入到Learned_rules中,然后重新计算Pos中满足规则的样本数据, 循环执行,直到所有表都规则提取完成,然后将表名和提取的该表的字段特征反馈给用户, 以便下面进行表匹配。

2利用提取的表特征进行表匹配

1)提取待匹配模式中的表信息,提取待匹配模式中的各表的表名以及其表中含有的字段 名;

2)顺序遍历提取的表信息,在遍历的过程中,查找算法1得到的表规则集合,看是否有 表满足其中的规则,如果满足其规则,则将该表与表规则中的表进行匹配;

3)从表信息集合中标记已完成匹配的表,继续遍历,循环执行步骤2,直到所有表都遍 历完成为止;

4)将匹配的结果反馈给用户,完成表级匹配。

3生成反馈的神经网络算法

生成反馈的神经网络算法的步骤可以主要分为以下几步:

(1)构建初始的生成反馈网络,其输入层的神经元的个数为N,其中N为描述字段属 性的个数;输出层神经元个数为M,其中M为经过SOM分类之后的类别数量;本文中采用 的隐含层的神经元个数为(M+N)/2。

(2)对生成反馈网络中的各个参数进行赋值,包括对其学习率r、网络的权重值w和每 个单元的偏倚值θ。其中网络的学习率的r的取值范围为(0.0≤r≤1.0),网络权重w和每个单 元的偏倚θ的取值范围分别为-1.0≤w≤1.0和-1.0≤θ≤1.0。

(3)对生成反馈网络中的各个参数赋值完成之后,对构建的生成反馈网络进行正向和逆 向的误差传播,同时修正权值和偏倚值,直至满足上一次误差传播的所有的Δw都不大于设 置的参数值或者其误差率小于指定的设定值或者其传播的次数达到事先设置的数值为止。第 一阶段训练结束。

(4)将经过第一阶段训练的神经网络作为反馈阶段输入,同时使用训练集对神经网络进 行再次训练。

(5)定义动态数组Array记录每个神经元的信息和逻辑变量flagremoved,动态数组Array2, 来存放字段属性形式化表示的16个指标。

(6)遍历输入层的每个神经元,同时将遍历到的神经元从神经网络除去,然后使用除去 节点之后的神经网络对训练样本进行训练,如果仍然能够对每个训练样本进行正确的分类, 则除去该节点以及与该节点的连接,同时删除在数组Array2中该节点所对应的属性项;如果 不能,则恢复该节点,继续遍历下一神经元,重复进行上面操作,直至所有的神经元遍历结 束。

(7)使用经过二次训练之后的神经网络作为进行字段匹配的网络对待匹配模式进行字段 匹配,同时在提取字段属性的特征向量的时候,采用的数据标准为经过上一步修正的数据标 准。

(3)实验分析

本发明的实验采用了的六个地区的数据作为待匹配模式,一个标准模式作为目标模式。 该六个地区的已经经过人工完成与目标模式之间的匹配,其匹配的详细信息如表1所示。同 时在进行实验的时候,采取其中的X市、H市、B市和C市作为训练数据集,Y市和Q省则 作为测试数据集。

表1

在对于表匹配实验结果的评价指标采用了准确率(precision)、召回率(recall)和全面 衡量指标(overall)。准确率和召回率作为信息检索领域的两个衡量指标,并不能完全反映 出表匹配的质量,因此需要通过全面衡量指标来反映表匹配质量。按照算法1的过程,首先 对X市、H市、B市和C市的数据集进行训练,得到其训练的表特征,然后利用算法2,对 测试数据集Y市和Q省分别使用基于语义相似度的方法和本发明的方法进行实验,其实验结 果如表2所示。通过对实验结果分析可得,本发明的方法比单纯的依靠表名之间的语义相似 度,、在准确率、召回率和全面衡量指标方面都有提高。

表2

同时,本发明将经过算法1和2得到的匹配中间结果,在使用算法3进行匹配,在设置迭代 次数设置为100000次,学习率为0.2,训练精度为0.001时,直接进行匹配的训练时间和本 发明的训练时间对比如表3所示。从表中分析可以得出,在进行的三次训练时间对比中可以 看出,本发明有效的提高了其训练的效率和准确率。在使用算法3进行字段匹配的实验中, 同时与基于分类的神经网络匹配方法和基于属性的神经网络匹配方法进行对比,在同样的条 件下,本发现的方法都有效的提高了其字段匹配的准确率,是一种切实有效的方法。

表3

表4

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号