首页> 中国专利> 一种挖掘规则关联模型未知关联关系的方法及装置

一种挖掘规则关联模型未知关联关系的方法及装置

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本申请提供一种挖掘规则关联模型未知关联关系的方法及装置，该方法包括获取规则关联模型和至少一个样本信息；根据规则关联模型的所有元组中的概念，对至少一个样本信息进行标准化处理，得到至少一个标准样本信息；将至少一个标准样本信息进行处理，得到每个标准样本信息所对应的关键词集；根据关键词集，计算得到二元关系表达式列表；将二元关系表达式列表和规则关联模型的候选关联表达式列表进行匹配；根据匹配结果，建立规则关联模型的相邻两个元组的概念的关联关系。本申请可建立规则关联模型中，未预先设置但有价值的关联关系，使规则关联模型全面直观的反映实际业务场景中的有价值的关联结果，提高定位有价值关联结果的准确率。

著录项

公开/公告号CN107315831A

专利类型发明专利
公开/公告日2017-11-03

原文格式PDF
申请/专利权人北京神州泰岳软件股份有限公司;中科鼎富(北京)科技发展有限公司;
展开▼

申请/专利号CN201710556213.6
发明设计人李德彦;席丽娜;晋耀红;
展开▼

申请日2017-07-10
分类号G06F17/30(20060101);G06N99/00(20100101);
代理机构11363 北京弘权知识产权代理事务所(普通合伙);
代理人逯长明;许伟群
地址 100089 北京市海淀区万泉庄路28号万柳新贵大厦A座601室
入库时间 2023-06-19 03:38:37

法律信息

法律状态公告日

法律状态信息

法律状态
2020-07-28

专利权人的姓名或者名称、地址的变更 IPC(主分类):G06F16/2455 变更前: 变更后: 申请日:20170710

专利权人的姓名或者名称、地址的变更
2019-10-01

专利权的转移 IPC(主分类):G06F16/2455 登记生效日:20190911 变更前: 变更后: 变更前:

专利申请权、专利权的转移
2019-06-07

授权

授权
2017-11-28

实质审查的生效 IPC(主分类):G06F17/30 申请日:20170710

实质审查的生效
2017-11-03

公开

公开

说明书

技术领域

本申请涉及数据挖掘技术领域，尤其涉及一种挖掘规则关联模型未知关联关系的方法及装置。

背景技术

关联分析方法是在数据挖掘技术领域中，从一个存储大量数据的数据库中发掘不同数据之间的相关性的技术。关联分析方法在选择性行销和决策分析等领域广泛应用，例如，运营企业根据消费者的购物清单，利用关联分析方法挖掘消费者通常会一起购买的商品，了解消费者的购买习惯，然后拟定有效的“捆绑销售”行销策略。近年来，关联分析方法也被应用到网页浏览行为分析或股市交易分析等领域。

现有的关联分析方法大多是基于机器学习算法，如Apriori算法，其在数据库中查采用迭代算法，找出支持度大于预置支持度的项集，也就是频繁集，利用频繁集构造出大于预置置信度的关联关系，进而发现不同数据之间的相关性。

但是，现有的关联分析方法所发现的数据之间的相关性，会因外在因素变化而失效，例如在银行业务办理中，某种信用卡的A型分期付款业务，比较受储户欢迎，但是A型分期付款业务已取消，现有的关联分析方法还是会挖掘出这种已失效的相关性。除此之外，距离当前时间越接近的数据的相关性越重要，例如，一银行上周推出某种信用卡的B型分期付款业务，深受储户欢迎，但是现有的关联分析方法会因支持度不足而无法发现。因此，现有的关联分析方法不能准确的定位有使用价值的关联结果，不利于决策者制定相应的营销策略。

发明内容

本申请提供了一种挖掘规则关联模型未知关联关系的方法及装置，以解决现有的关联分析方法不能准确的定位有使用价值的关联结果，不利于决策者制定相应的营销策略的问题。

第一方面，本申请提供了一种挖掘规则关联模型未知关联关系的方法，包括：

获取规则关联模型和至少一个样本信息，所述规则关联模型包括N个元组，N为大于1的正整数，每个所述元组包括至少一个概念；

根据所述规则关联模型的所有元组中的概念，对所述至少一个样本信息进行标准化处理，得到至少一个标准样本信息；

将所述至少一个标准样本信息进行切词和去停用词处理，得到每个所述标准样本信息所对应的关键词集；

根据所述关键词集，按照预设算法，计算得到二元关系表达式列表；

将所述关联表达式列表和所述规则关联模型的候选关联表达式列表进行匹配，所述候选关联表达式列表是由至少一个候选关联表达式所组成的列表，每个所述候选关联表达式由所述规则关联模型的两个相邻所述元组中未建立关联关系的概念构成；

根据匹配结果，建立所述规则关联模型的相邻两个元组的概念的关联关系。

第二方面，本申请还提供了一种挖掘规则关联模型未知关联关系的装置，包括：

获取模块，用于获取规则关联模型和至少一个样本信息，所述规则关联模型包括N个元组，N为大于1的正整数，每个所述元组包括至少一个概念；

标准化处理模块，用于根据所述规则关联模型的所有元组中的概念，对所述至少一个样本信息进行标准化处理，得到至少一个标准样本信息；

关键词生成模块，用于将所述至少一个标准样本信息进行切词和去停用词处理，得到每个所述标准样本信息所对应的关键词集；

关联表达式计算模块，用于根据所述关键词集，按照预设算法，计算得到二元关系表达式列表；

匹配模块，用于将所述关联表达式列表和所述规则关联模型的候选关联表达式列表进行匹配，所述候选关联表达式列表是由至少一个候选关联表达式所组成的列表，每个所述候选关联表达式由所述规则关联模型的两个相邻所述元组中未建立关联关系的概念构成；

关联关系建立模块，用于根据匹配结果，建立所述规则关联模型的相邻两个元组的概念的关联关系。

由以上技术方案可知，本申请提供一种挖掘规则关联模型未知关联关系的方法，该方法利用规则关联模型的元组的数量、每个元组的概念以及不同元组的概念对应关系可根据实际的业务场景进行设置，并且通过对样本数据分析处理，得到二元关系表达式列表，将二元关系表达式列表与候选表达式列表进行匹配，根据匹配结果，可建立规则关联模型中，未预先设置但有价值的关联关系，以对规则关联模型中的相邻两个元组的概念的关联关系进行补充，使规则关联模型全面直观的反映实际业务场景中的有价值的关联结果，提高定位有价值关联结果的准确率，有利于决策者制定相应的营销策略。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的一种挖掘规则关联模型未知关联关系的方法一个实施例提供的方法流程图；

图2为本申请提供的一种挖掘规则关联模型未知关联关系的方法另一个实施例提供的流程图；

图3为本申请提供的规则关联模型；

图4为本申请的一种挖掘规则关联模型未知关联关系的装置的结构示意图；

图5为图4中标准化处理模块的结构示意图；

图6为图4中二元关系表达式计算模块的结构示意图；

图7为图4中关联关系建立模块的结构示意图。

具体实施方式

参见图1，为本申请提供的一种挖掘规则关联模型未知关联关系的方法一个实施例提供的方法流程图。本申请实施例提供了一种挖掘规则关联模型未知关联关系的方法，包括如下步骤：

步骤101：获取规则关联模型和至少一个样本信息，所述规则关联模型包括N个元组，N为大于1的正整数，每个所述元组包括至少一个概念。

规则关联模型包含的元组可是仅含有一个概念构成，也可以是由多个概念构成。多元组定义为元组集中含有相应数量的元组。元组可根据概念的类型划分，如含有产品种类的元组、含有业务种类的元组和口碑评价的元组等等。以三元组构成的规则关联模型为例，即含有三个元组，第一个元组是概念仅为“信用卡”，第二个元组是由概念由“年限”、“额度”和“期限”构成，第三个元组是由概念由“较高”和“太低”构成。相邻两个所述元组的概念可具预先设置好的关联关系，该关联关系可经用户根据实际业务场景进行设置，也可由机器学习算法计算得到，例如，第一元组中“信用卡”可预先与第二元组的“额度”建立关联关系，同理，其他相邻两个元组的关联关系也可进行预先设置。

样本信息可以从网站上的评论中选取，通常，购买某个产品或享有某项业务的用户会在网站的评论中分享评价和体验，另外，也可以从诸如微博、博客和虚拟社区的社交媒体上发布的某个产品或某项业务的评价中抽样选取。

步骤102：根据所述规则关联模型的所有元组中的概念，对所述至少一个样本信息进行标准化处理，得到至少一个标准样本信息。

步骤103：将所述至少一个标准样本信息进行切词和去停用词处理，得到每个所述标准样本信息所对应的关键词集。

步骤104：根据所述关键词集，按照预设算法，计算得到二元关系表达式列表。

步骤105：将所述二元关系表达式列表和所述规则关联模型的候选关联表达式列表进行匹配，所述候选关联表达式列表是由至少一个候选关联表达式所组成的列表，每个所述候选关联表达式由所述规则关联模型的两个相邻所述元组中未建立关联关系的概念构成。

以图3为例，候选关联表达式列表为“信用卡-利率，黄金-额度，黄金-利息，黄金-利率，额度-较低，额度-很低，额度-很高，利息-很低，利息-交底，利息-很高，利率-交底，利率-很高”。

步骤106：根据匹配结果，建立规则关联模型的相邻两个元组的概念的关联关系。

参见图2，本申请另一实施例提供了一种挖掘规则关联模型未知关联关系的方法，包括如下步骤：

步骤201：获取规则关联模型和至少一个样本信息，所述规则关联模型包括N个元组，N为大于1的正整数，每个所述元组包括至少一个概念。

步骤202：判断当前概念是否有对应的概念值表达式列表。

当前概念是指即将与样本信息进行匹配的概念。

如果所述当前概念有对应的概念值表达式列表，则执行步骤203。

如果所述当前概念没有对应的概念值表达式列表，则执行步骤206。

步骤203：获取所述概念值表达式列表。

概念值表达式列表中的概念值表达式可以是特征词，也可以是正则表达式。

正则表达式是一种正规的描述字符串模式的表达式，可以用来进行文本匹配，具体为在给定的字符串中查找与给定的正则表达式相匹配的部分。

以图3为例的规则关联模型中的“较低”这一概念为例，获取该概念对应的概念值表达式列表，该概念值表达式列表包含与概念相近的近义词或同义词，例如，“偏低”等，也可包含与概念语义相近的正则表达式，例如，“不.{0,2}高”，“不.{0,2}可观”等。

概念值表达式列表可通过现有的语义模型建设平台进行构建，也可直接引用已有的概念值表达式列表。

步骤204：将所述概念值表达式列表的每个概念值表达式与所述第一样本信息进行匹配，所述第一样本信息是所述至少一个标准样本信息中的任意一个标准样本信息。

步骤205：如果第一概念值表达式与所述第一样本信息相匹配，则将所述第一样本信息中与所述第一概念值表达式相匹配的信息替换为当前概念，所述第一概念值表达式是所述概念值表达式列表的任意一个概念值表达式。

匹配的规则可采取任何现有的匹配规则进行匹配，在此不做限定，示例性的，本步骤采用模式匹配的规则进行匹配，模式匹配是从第一样本信息的第一个字符起与概念值表达式列表中的任意一个概念值表达式的第一个字符进行匹配，若相匹配，则继续对字符进行后续的比较，若不匹配，则从第一样本信息的第二个字符起与该概念值表达式的第一个字符重新比较，直至概念值表达式的每个字符依次与第一样本信息中的一个连续的字符序列相等为止，则视为匹配成功，否则匹配失败，如果匹配失败，则继续获取下一个概念值表达式，直至所有概念值表达式匹配完成或其中有个概念值表达式与第一样本信息匹配成功为止。

对于正则表达式的匹配，两个字符之间可采用任何符合数量要求的字符均可视为匹配成功，例如第一文本信息中存在“不是很高”、“不高”或者“不是太高”，均可视为与正则表达式“不.{0,2}高”匹配成功。

以第一样本信息的内容是“贵金属黄金的利息不是很可观”和图3所示的规则关联模型为例，首先，判断规则关联模型中的每个概念是否有与其相对应的概念值表达式列表，以其中的“较低”概念为例，假设“较低”这个概念有对应的概念值表达式列表，该概念值表达式列表包括“偏低”、“不.{0,2}高”，“不.{0,2}可观”等概念值表达式，将每个概念值表达式均与第一样本信息进行模式匹配，由于“不.{0,2}可观”与第一样本信息中的“不是很可观”匹配成功，则将第一样本信息中的“不是很可观”替换为“不.{0,2}可观”所在概念值表达式列表对应的“较低”这一概念，从而得到“贵金属黄金的利息较低”这一样本信息，其他概念可采用上述同样的步骤，对样本信息进行标准化处理。

步骤206：将所述当前概念与所述第一样本信息进行匹配。

可参照步骤204的模式匹配的步骤，不再赘述。

步骤207：如果所述当前概念与所述第一样本信息匹配，则将所述第一样本信息中与所述当前概念相匹配的信息替换为所述当前概念。

可参照步骤205，不再赘述。

将所有样本信息进行标准化处理后，可使样本信息具有标准的表述形式，以提高后续关联分析的准确性，并减少数据的处理量，增加运算速度。

步骤208：将所述至少一个标准样本信息进行切词和去停用词处理，得到每个所述标准样本信息所对应的关键词集。

切词可按照词语的词性将标准样本信息中的句子进行拆分，得到相应的词语，并将其中的停用词去除，得到关键词集。

去掉停用词处理是预先建立一个停用词列表，去掉停用词时，切词处理结果中每一个词条与停用词列表中的词进行匹配，如果该词条存在于停用词列表中，则将该词条从中文切词处理后的词条串中删除。

本申请中所述停用词为无实际意义的词，如语气助词或者结构助词等，例如“的”、“地”、“了”、“吗”和“吧”等。

例如，标准文本信息为“贵金属黄金的利息较低啊”，对该标准文本信息进行切词，得到“贵金属黄金”、“利息”、“太低”和“啊”，然后去掉“啊”这个停用词，得到的关键词集包括“贵金属黄金”、“利息”和“太低”。

步骤209：根据所述关键词集，生成与所述关键词集对应的上下文词空间向量模型。

上下文词空间向量模型是用来记录关键词集中的关键词集在对应的标准文本信息出现的位置的模型。例如上述的例子，关键词集包括“贵金属黄金”、“额度”和“太低”，其对应生成的上下文词空间向量模型可记录上述关键词在标准文本“贵金属黄金的利息较低啊”出现的位置，即“贵金属”在第一位置，“额度”在第二位置，“太低”在第三位置。

由于对所有样本信息进行标准化处理，使虽然表述存在差异但语义是一样的样本信息表述一致，因此其产生的关键词集也相同，进而可使用同一上下文词空间向量模型即可，避免数据的冗余，减少运算量，提高运算速度。

步骤210：根据所述上下文词空间向量模型，计算得到二元关系表达式列表。

上下文词空间向量模型可挖掘出二元关系表达式，二元关系表达式是指在一个标准样本数据中同时频繁出现的两个关键词的对应关系，以上述的关键词集包括“贵金属黄金”、“额度”和“太低”，其对应生成的上下文词空间向量模型为例，先生成{贵金属黄金}、{额度}和{太低}三个候选集，计算每个候选集的支持度，即出现该候选集的标准文本信息的数量占所有标准文本信息的数量的百分比，将支持度小于预设支持度的候选集进行剪枝处理，假设上述三个候选集的支持度均大于或等于预设支持度，即都是频繁集，然后，将上述三个候选集进行两两组合，生成{贵金属黄金，额度}、{额度，太低}和{贵金属黄金，太低}三个集合，由预设支持度为条件，再进行剪枝，将支持度小于预设支持度的集合去除，得到最终的在一个标准样本数据中同时频繁出现的两个关键词的对应关系，即二元关系表达式。

步骤211：将所述二元关系表达式列表和所述规则关联模型的候选关联表达式列表进行匹配，所述候选关联表达式列表是由至少一个候选关联表达式所组成的列表，每个所述候选关联表达式由所述规则关联模型的两个相邻所述元组中未建立关联关系的概念构成。

具体匹配方式可采用将二元关系表达式列表中的每个二元关系表达式与候选关联表达式列表的所有候选关联表达式逐一进行匹配，也可候选关联表达式列表的每个候选关联表达式与二元关系表达式列表中的所有二元关系表达式逐一进行匹配。

步骤212：如果所述第一二元关系表达式列表的第一二元关系表达式与所述候选关联表达式列表的第一候选关联表达式相匹配，则判断所述第一候选关联表达式是否满足预设条件。所述第一二元关系表达式是所述二元关系表达式列表中任意的一个二元关系表达式，所述第一候选关联表达式是所述候选关联表达式列表中任意的一个候选关联表达式。

二元关系表达式中的两个建立对应关系的关键词与候选关联表达式的概念匹配即可视为匹配成功，与概念的位置无关，即二元关系表达式“利息-较低”与候选关联表达式“较低-利息”可视为匹配成功。

预设条件可有用户自行设置，例如，设置候选关联表达式所适用的业务场景，及对匹配的候选关联表达式的预设支持度进行设置。

如果满足预设条件，则执行步骤213。

满足预设条件，即满足用户设置的条件，例如，符合设置的业务场景，并且匹配的候选关联表达式的支持度大于或等于预设支持度。

步骤213：建立所述规则关联模型中所述第一候选关联表达式对应的关联关系。

例如，假设匹配成功的候选关联表达式例“黄金-利息”和“利息-较低”均满足预设条件，即在关联模型中建立对应的关联关系。

第二方面，参见图4，本申请提供一种挖掘规则关联模型未知关联关系的装置，包括：

获取模块401，用于获取规则关联模型和至少一个样本信息，所述规则关联模型包括N个元组，N为大于1的正整数，每个所述元组包括至少一个概念；

标准化处理模块402，用于根据所述规则关联模型的所有元组中的概念，对所述至少一个样本信息进行标准化处理，得到至少一个标准样本信息；

关键词生成模块403，用于将所述至少一个标准样本信息进行切词和去停用词处理，得到每个所述标准样本信息所对应的关键词集；

二元关系表达式计算模块404，用于根据所述关键词集，按照预设算法，计算得到二元关系表达式列表；

匹配模块405，用于将所述二元关系表达式列表和所述规则关联模型的候选关联表达式列表进行匹配，所述候选关联表达式列表是由至少一个候选关联表达式所组成的列表，每个所述候选关联表达式由所述规则关联模型的两个相邻所述元组中未建立关联关系的概念构成；

关联关系建立模块406，用于根据匹配结果，建立所述规则关联模型的相邻两个元组的概念的关联关系。

进一步地，参见图5，所述标准化处理模块402包括：

第一判断单元501，判断当前概念是否有对应的概念值表达式列表；

概念值表达式列表获取单元，如果所述当前概念有对应的概念值表达式列表，则获取所述概念值表达式列表；

第一匹配单元502，用于将所述概念值表达式列表的每个概念值表达式与所述第一样本信息进行匹配，所述第一样本信息是所述至少一个标准样本信息中的任意一个标准样本信息；

第一替换单元503，用于如果第一概念值表达式与所述第一样本信息相匹配，则将所述第一样本信息中与所述第一概念值表达式相匹配的信息替换为当前概念，所述第一概念值表达式是所述概念值表达式列表的任意一个概念值表达式。

进一步地，所述标准化处理模块402还包括：

第二匹配单元504，用于如果所述当前概念没有对应的概念值表达式列表，则将所述当前概念与所述第一样本信息进行匹配；

第二替换单元505，用于如果所述当前概念与所述第一样本信息匹配，则将所述第一样本信息中与所述当前概念相匹配的信息替换为所述当前概念。

进一步地，参见图6，所述二元关系表达式计算模块404包括；

上下文词空间向量模型生成单元601，用于根据所述关键词集，生成与所述关键词集对应的上下文词空间向量模型；

计算单元602，用于根据上下文词空间向量模型，计算得到二元关系表达式列表。

进一步地，参见图7，所述关联关系建立模块406包括：

第二判断单元701，用于如果所述第一二元关系表达式列表的第一二元关系表达式与所述候选关联表达式列表的第一候选关联表达式相匹配，则判断所述第一候选关联表达式是否满足预设条件，所述第一二元关系是所述二元关系表达式列表中任意的一个二元关系表达式，所述第一候选关联表达式是所述候选关联表达式列表中任意的一个候选关联表达式。

构建单元702，用于如果满足预设条件，则建立所述规则关联模型中所述第一候选关联表达式对应的关联关系。

由以上技术方案可知，本申请提供一种挖掘规则关联模型未知关联关系的方法及装置，该方法利用规则关联模型的元组的数量、每个元组的概念以及不同元组的概念对应关系可根据实际的业务场景进行设置，并且通过对样本数据分析处理，得到关联表达式列表，将关联表达式列表与候选表达式列表进行匹配，根据匹配结果，可建立规则关联模型中，用户未设置但有价值的关联关系，以对规则关联模型中的相邻两个元组的概念的关联关系进行补充，使规则关联模型全面直观的反映实际业务场景中的有价值的关联结果，提高定位有价值关联结果的准确率，有利于决策者制定相应的营销策略。

本领域的技术人员可以清楚地了解到本申请实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请实施例中的技术方案本质上或者或对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以似的一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分可相互参见即可，每个实施例重点说明的都是与其他实施例的不同之处，尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种挖掘规则关联模型未知关联关系的方法及装置 [P] . 中国专利： CN107315831B . 2019.06.07
2. 一种挖掘规则关联模型未知关联关系的方法及装置 [P] . 中国专利： CN107341252A . 2017-11-10
3. Named entity database or mining rule database update apparatus and method using named entity database and mining rule merged ontology schema [P] . 美国专利： US8402042B2 . 2013-03-19

机译：使用命名实体数据库和挖掘规则合并本体架构的命名实体数据库或挖掘规则数据库更新装置和方法
4. Named entity database or mining rule database update apparatus and method using named entity database and mining rule merged ontology schema [P] . 美国专利： US8341171B2 . 2012-12-25

机译：使用命名实体数据库和挖掘规则合并本体架构的命名实体数据库或挖掘规则数据库更新装置和方法
5. Named entity database or mining rule database update apparatus and method using named entity database and mining rule merged ontology schema [P] . 美国专利： US8209346B2 . 2012-06-26

机译：使用命名实体数据库和挖掘规则合并本体架构的命名实体数据库或挖掘规则数据库更新装置和方法