首页> 中国专利> 一种制造业数据挖掘中的源数据配置管理方法

一种制造业数据挖掘中的源数据配置管理方法

摘要

本发明提供了提供一种制造业数据挖掘中的源数据配置管理方法,把制造业的数据分析任务进行了整理和分类,经过提炼和整理,将制造业的数据分析任务划分为两大类,通过建立数据模型对进行数据分析,并对各类数据定义不同的数据格式,以此完成数据配置和管理。

著录项

  • 公开/公告号CN109558466A

    专利类型发明专利

  • 公开/公告日2019-04-02

    原文格式PDF

  • 申请/专利权人 成都天衡智造科技有限公司;

    申请/专利号CN201811443262.X

  • 发明设计人 王伟旭;李冉;

    申请日2018-11-29

  • 分类号

  • 代理机构成都华风专利事务所(普通合伙);

  • 代理人徐丰

  • 地址 610200 四川省成都市高新区中国(四川)自由贸易试验区成都高新天府五街200号3栋B区5层

  • 入库时间 2024-02-19 08:07:13

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-07-28

    授权

    授权

  • 2019-04-26

    实质审查的生效 IPC(主分类):G06F16/28 申请日:20181129

    实质审查的生效

  • 2019-04-02

    公开

    公开

说明书

技术领域

本发明涉及数据处理技术领域,特别是涉及一种制造业数据挖掘中的源数据配置管理方法。

背景技术

在制造业日益发展今天,制造业技术升级日新月异。机器学习等人工智能方法不断的被应用到制造业中去,为制造业的数据挖掘持续贡献力量。尽管机器学习方法在某些行业的应用已经比较成熟,但在制造业的应用方兴未艾,还有许多需要探索和研究的技术领域。本案所针对的制造业数据挖掘中的数据源管理方法就是其中之一。

长久以来,制造业的数据分析基本上停留在数据的可视化和基本的统计分析的范畴内,数据的利用效率偏低。造成这一现象的原因除了数据孤岛、数据完整性不佳等数据本身的问题之外,很重要的一个因素就是数据源与数据分析方法之间的交互机制和方法缺失。无论是商用软件,还是免费开源软件,都有不少的数据分析软件,但这些软件都有一个显著的缺点:仅对被分析的数据一般结构进行要求,而不对数据在数据分析任务中的角色和配置做要求。并且,数据分析的方法是固定的,而数据是千变万化的,数据分析的角度也是千变万化的。需要探索一种机制在不改变数据的情况下,快速实现数据分析的范围、视角等切换。

发明内容

本发明提供一种制造业数据挖掘中的源数据配置管理方法,包括如下步骤:

步骤1:把制造业的数据分析任务进行了整理和分类,经过提炼和整理,将制造业的数据分析任务划分为两大类:交叉型分析任务和非交叉型分析任务,并对两种任务分别定义代号规则;

步骤2:将与分析任务对应的数据源从耽搁数据源扩展为数据集群并定义其数据名为X数据集群和Y数据集群;

步骤3:对单一数据集群进行格式定义,并按照要求对数据进行配置,具体要求包括:

对于X数据,需要指明数据源中的哪一个参数是索引;一个数据源中的索引是唯一的,并将其标记为“索引;”

需要指明数据源中哪些参数需要参与数据分析任务,并将其标记为“参数”;

未标记的数据参数不参与数据分析任务,并且被标记为“TBD”;

对于Y数据,需要指明数据源中的哪一个参数是索引;一个数据源中的索引是唯一的,并将其标记为“索引”;

需要指明数据源中哪些参数需要参与数据分析任务,并将其标记为“目标”;

未标记的数据参数不参与数据分析任务,并且被标记为“TBD”。

其中,所述交叉型分析任务目的是寻找两类数据之间的关系,并用这个模型来预测质量表现;所述非交叉型分析任务:只针对一类数据源进行的各种分析任务;分类的依据是分析任务的类型,即交叉型任务和非交叉型任务,所述交叉型分析任务的一般模型遵循一下算法:

已知样本组合(X,y),其中X和y均为多维向量:

求得映射F(.),使得F(X)-y趋近于0;

可见,在交叉分析任务中,需要明确指定X和y,而非交叉分析任务中,则只有X,而不会出现y。

其中,X和y都是由用户自由指定的,同一组数据既可以被指定为X,也可以被指定为y,由用户的分析模型确定。

所述交叉型分析还是非交叉型分析,都同时涉及多个独立的数据源;

所述的X数据集群和Y数据集群的定义格式需要满足如下格式要求:

每个参数为数据表格中的一列;

多列参数形成一个二维表格;

表格的行数代表了样本的数量;

同一个数据源中的各个参数的样本数量需要相等;

以此来满足严格的关系数据结构,X数据和Y数据集群均是由多维向量样本构成,即是多列数据构成的表格,每一列表示一个参数的样本集合,针对同一个数据源,在进行分析的时候,可以将其指定为X,也可以将其指定为Y,用户可以根据分析任务的种类和模型自行定义;在不改变数据源结构的情况下,仅通过配置修改,使数据适用于不同的分析任务。

区别于现有技术,本发明的优势在于:

1、明确将分析任务类型分为两类,并且针对不同的分析任务制定了相应的数据源输入提示,操作直观,降低了使用难度。现有技术要求用户对算法的输入数据类型有一个比较明确的认识,使用难度较大。

2、数据源可以灵活配置,增加了分析的灵活性,使数据分析工具可以比较广泛的适用于多种分析视角,提升了工具的使用效率。

附图说明

图1是本发明实施例制造业数据挖掘中的源数据配置管理示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

一种制造业数据挖掘中的源数据配置管理方法,包括如下步骤:

步骤1:把制造业的数据分析任务进行了整理和分类,经过提炼和整理,将制造业的数据分析任务划分为两大类:交叉型分析任务和非交叉型分析任务,并对两种任务分别定义代号规则;

步骤2:将与分析任务对应的数据源从耽搁数据源扩展为数据集群并定义其数据名为X数据集群和Y数据集群;

步骤3:对单一数据集群进行格式定义,并按照要求对数据进行配置,具体要求包括:

对于X数据,需要指明数据源中的哪一个参数是索引;一个数据源中的索引是唯一的,并将其标记为“索引;”

需要指明数据源中哪些参数需要参与数据分析任务,并将其标记为“参数”;

未标记的数据参数不参与数据分析任务,并且被标记为“TBD”;

对于Y数据,需要指明数据源中的哪一个参数是索引;一个数据源中的索引是唯一的,并将其标记为“索引”;

需要指明数据源中哪些参数需要参与数据分析任务,并将其标记为“目标”;

未标记的数据参数不参与数据分析任务,并且被标记为“TBD”。

具体而言,分类的依据是分析任务的类型,即交叉型任务和非交叉型任务,所谓交叉型分析任务,其一般模型是:

已知样本组合(X,y),其中X和y均为多维向量:

求映射:F(.),使得F(X)-y趋近于0.

可见,在交叉分析任务中,需要明确指定X和y。而非交叉分析任务中,则只有X,而不会出现y。

需要说明的是,X和y都是由用户自由指定的。同一组数据既可以被指定为X,也可以被指定为y,由用户的分析模型确定。

交叉型分析任务的目的是寻找某两类数据之间的关系,例如利用神经网路模型寻找质量参数与工艺参数之间的映射模型,并用这个模型来预测质量表现,具体而言可以通过如下算法进行计算:

1)将工艺数据参数设定为X,质量数据设定为y;

2)将已有的X和y的样本随机分为两组,分别记为X_train,y_train,X_test,y_test;

3)将X_train,y_train样本代入优化算法模型,最小化||F(X_train)-y_train||,输出F(.);并输出收敛时的||F(X_train)-y_train||,用以评估优化效果的准确性;

4)将X_test代入F(.),计算RMS(F(X_test)-y_test),用以评估模型的预测能力;

5)输入任意工艺参数,用F(.)计算质量表现,即预测过程。

该过程是一个典型的回归学习算法过程,使用MLP、回归器,或分类器均可。

以一个具体的工业数据挖掘实例说明:

本实施例中,将交叉型分析任务和非交叉型分析任务分别定义了代号规则,如表1所示:

任务类型记录代号非交叉型分析任务A任务交叉型分析任务B任务

表1

表1描述了对于不同任务的记录代号分类。

对于数据源在数据分析任务中的角色要求,按照表2描述其适用于两种任务类型的数据进行分别的命名定义:

任务类型适用的数据命名方法非交叉型分析任务X数据交叉型分析任务X数据,y数据

表2

在数据分析任务中,无论是交叉型分析还是非交叉型分析,都有可能同时涉及多个独立的数据源(这些数据源属于同一类数据,例如质量数据,可能有按照工单索引记录的数据源,也可能有按照产品型号记录的数据源),因此,进一步的,本方法中将与分析任务相对应的数据源从单个数据源扩展为数据集群。

无论是X数据还是y数据,都必须要求是严格的关系数据结构。也就是说,无论是X数据还是y数据,在本方法中都应该满足下表确定的格式:

1)每个参数为数据表格中的一列;

2)多列参数形成一个二维表格;

3)表格的行数代表了样本的数量;

4)同一个数据源中的各个参数的样本数量需要相等。

如表3所示,描述了数据的保存方式。

数据参数1数据参数2数据参数3数据参数4……3.24123.4676.11234.0……3.22133.4374.31578.9……

表3

对单一数据集群进行格式定义,并按照要求对数据进行配置,具体要求包括:

对于X数据,需要指明数据源中的哪一个参数是索引;一个数据源中的索引是唯一的,并将其标记为“索引;”

需要指明数据源中哪些参数需要参与数据分析任务,并将其标记为“参数”;

未标记的数据参数不参与数据分析任务,并且被标记为“TBD”;

对于Y数据,需要指明数据源中的哪一个参数是索引;一个数据源中的索引是唯一的,并将其标记为“索引”;

需要指明数据源中哪些参数需要参与数据分析任务,并将其标记为“目标”;

未标记的数据参数不参与数据分析任务,并且被标记为“TBD”。

例如,如果前述表格中的数据,如果将其定义为X数据源,那么对其配置后,表格定义就变成表4所示:

参数索引参数TBD数据参数1数据参数2数据参数3数据参数4……3.24123.4676.11234.0……3.22133.4374.31578.9……

表4

如果将其定义为y数据源,那么对其配置后,表格定义就变成表5所示:

目标索引TBDTBD数据参数1数据参数2数据参数3数据参数4……3.24123.4676.11234.0……3.22133.4374.31578.9……

表5

针对同一个数据源,在进行分析的时候,可以将其指定为X,也可以将其指定为y,用户可以根据分析任务的种类和模型自行定义。这样可以在不改变数据源结构的情况下,仅通过配置修改,使数据适用于不同的分析任务。这样,在数据分析的A任务和B任务中,都可以明确的指导哪些数据是需要参与分析的,哪些数据是可以忽略的。在不改变数据的情况下,可以灵活的改变数据分析配置,达到多角度数据分析的目的。

以一个生产企业,需要对质量数据进行分析,同时又希望对工艺参数和质量数据之间的关联进行交叉分析,建立如图1所示架构定义,在A任务中,质量数据是X数据源,而在B任务中,质量数据是y数据源。我们只需要按照前面定义的方法,对相同的数据做X数据源配置和y数据源配置即可。

另外,X数据源中的参数和目标可以随时更改,而不需要重新整理数据,也不需要再重新定义数据分析任务。

以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号