首页> 中国专利> 一种基于产品识别的信息分类方法及信息分类系统

一种基于产品识别的信息分类方法及信息分类系统

摘要

本申请公开了一种基于产品识别的信息分类方法及信息分类系统,该方法包括:当接收到产品识别请求时,确定待识别的产品档案信息的候选产品词;分别根据所确定的候选产品词对所述待识别产品档案信息进行特征抽取;根据所述候选产品词及其对应的特征、所述学习子模型以及所述综合学习模型确定所述待识别产品档案信息对应的产品词,并根据所确定的产品词对所述待识别的产品档案信息进行分类。通过本申请,实现了对产品档案信息的自动分类,提高了信息分类的效率。

著录项

  • 公开/公告号CN103577989A

    专利类型发明专利

  • 公开/公告日2014-02-12

    原文格式PDF

  • 申请/专利权人 阿里巴巴集团控股有限公司;

    申请/专利号CN201210266047.3

  • 发明设计人 金华兴;陈镜;林锋;

    申请日2012-07-30

  • 分类号G06Q30/00(20120101);

  • 代理机构11297 北京鑫媛睿博知识产权代理有限公司;

  • 代理人龚家骅

  • 地址 英属开曼群岛大开曼资本大厦一座四层847号邮箱

  • 入库时间 2024-02-19 22:44:42

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-11-14

    授权

    授权

  • 2014-03-12

    实质审查的生效 IPC(主分类):G06Q30/00 申请日:20120730

    实质审查的生效

  • 2014-02-12

    公开

    公开

说明书

技术领域

本申请涉及通信领域,特别是涉及一种基于产品识别的信息分类方法及信 息分类系统。

背景技术

电子商务网站中,卖家发布的产品档案信息往往包含各种信息,如产品名 称、产品属性、卖家信息以及广告词等,系统很难自动识别卖家发布的是什么 产品,进而无法准确地对相应产品档案信息进行自动分类。

现有产品识别技术中,系统通常将卖家发布的产品档案信息中包含的标题 作为一个普通句子,并将该句子中最核心的一个单词(即中心词)提取出来, 作为标题的核心,以及整个产品信息的核心,并根据该中心词对相应产品档案 信息进行识别。

在实现本申请的过程中,发明人发现现有技术至少存在如下问题:

现有技术中,仅仅根据产品档案信息中的标题信息对产品档案信息进行识 别,而标题通常只包含十几个单词,信息量有限,且标题的描述方法多种多样, 导致利用标题的中心词进行产品识别的可靠性较低。此外,由于标题的中心词 往往只有一个单词,因此,仅仅利用中心词往往很难准确地识别产品。如标题 中包含“table tennis bat”(乒乓球拍),其中“table”是桌子、“tennis”是网球, 而“bat”则是一个意义比较泛泛的词,显然,无论用哪一个单词作为中心词都 无法准确地表达该产品,因此,无法准确地对相应产品档案信息进行自动分类。

发明内容

本申请的目的在于提供一种基于产品识别的信息分类方法及信息分类系 统,以实现对产品档案信息的自动分类,提高信息分类的效率,为此,本申请

采用如下技术方案:

一种基于产品识别的信息分类方法,产品识别系统中存储有用于产品识别 的学习子模型以及由所述学习子模型组成的综合学习模型,该方法包括以下步 骤:

当接收到产品识别请求时,确定待识别的产品档案信息的候选产品词;

分别根据所确定的候选产品词对所述待识别产品档案信息进行特征抽取;

根据所述候选产品词及其对应的特征、所述学习子模型以及所述综合学习 模型确定所述待识别产品档案信息对应的产品词,并根据所确定的产品词对所 述待识别的产品档案信息进行分类。

一种信息分类系统,包括:

存储模块,用于存储有用于产品识别的学习子模型以及由所述学习子模型 组成的综合学习模型;

第一确定模块,用于当所述产品识别系统接收到产品识别请求时,确定待 识别的产品档案信息的候选产品词;

特征抽取模块,用于分别根据所确定的候选产品词对所述待识别产品档案 信息进行特征抽取;

第二确定模块,用于根据所述候选产品词及其对应的特征、所述学习子模 型以及所述综合学习模型确定所述待识别产品档案信息对应的产品词;

分类模块,用于根据所述第二确定模块确定的产品词对所述待识别的产品 档案信息进行分类。

本申请的实施例包括以下优点,当接收到产品识别请求时,确定待识别的 产品档案信息的候选产品词;分别根据所确定的候选产品词对所述待识别产品 档案信息进行特征抽取;根据所述候选产品词及其对应的特征、所述学习子模 型以及所述综合学习模型确定所述待识别产品档案信息对应的产品词,并根据 所确定的产品词对所述待识别的产品档案信息进行分类,实现了对产品档案信 息的自动分类,提高了信息分类的效率。

附图说明

图1为本申请实施例提供的一种基于产品识别的信息分类方法的流程示意 图;

图2为本申请实施例提供的一种信息分类系统的结构示意图。

具体实施方式

针对上述现有技术中出现的问题,本申请实施例提供了一种基于产品识别 的信息分类的技术方案。在该技术方案中,其主要流程可以分为三个阶段,即 学习阶段、产品识别阶段以及信息分类阶段。其中,学习阶段主要为了为后续 产品识别阶段提供学习模型,其具体流程可以包括:获取用于学习的产品档案 信息,并对所述产品档案信息进行产品词抽取;根据产品词抽取结果对所述产 品档案信息进行特征抽取;根据所述特征和产品档案信息确定学习子模型,并 根据所述学习子模块确定学习模型。产品识别阶段则主要是根据学习阶段确定 的学习模型对待识别的产品档案信息进行识别,其主要流程可以包括:接收到 产品识别请求时,根据所述学习模型及所述产品识别请求中携带的待识别的产 品档案信息确定该待识别的产品档案信息对应的产品词。信息分类阶段则主要 是根据所确定的产品词对待识别产品档案信息进行分类,其主要流程可以包 括:根据预设的分类关键词对所确定的产品词进行匹配,并根据匹配结果确定 待识别的产品档案信息的类别。

下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整的描 述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。 基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下 所获得的所有其他实施例,都属于本申请保护的范围。

如图1所示,为本申请实施例提供的一种基于产品识别的信息分类方法的 流程示意图,可以包括以下步骤:

步骤101、获取用于学习的产品档案信息,并对该产品档案信息进行产品 词抽取。

具体的,在本申请实施例中,可以从系统的输入数据中抽取部分产品档案 信息作为学习样本(即用于学习的产品档案信息),并利用预设的规则对这些 产品档案信息进行产品词抽取。

其中,利用预设的规则对产品档案信息进行产品词抽取可以具体通过以下 方式实现:

根据产品档案信息获取产品档案的标题字段以及下述字段中的一个或多 个字段:

产品档案关联的卖家档案中的供应产品字段、产品档案的属性字段或产品 档案的关键字字段。

获取到上述字段后,可以对各字段进行处理,并确定各字段中包含的词组, 并将满足预设条件的词组确定为该产品档案信息的产品词。

其中,该预设条件至少可以包括:

该词组在产品档案的标题字段中出现,且至少在其余一个字段中出现;或,

该词组在产品档案的标题字段中出现,且在所有字段中出现的次数不低于 阈值;该阈值可以预先设定,如4次。

优选地,可以选择满足预设条件的最长词组作为对应产品档案信息的产品 词,以提高所确定的产品词的准确性。

例如,“MP3 Player”、“MP3”、“Player”均满足预设条件,显然将“MP3 Player”作为产品词的准确性更高。

步骤102、根据产品词抽取结果对所述产品档案信息进行特征抽取。

具体的,在本申请实施例中,在对产品档案信息进行了产品词抽取后,还 可以根据产品档案信息获取产品档案的标题字段、产品档案关联的卖家档案中 的供应产品字段、产品档案的属性字段以及产品档案的关键字字段。

一方面,分别获取各字段中包含的词组,确定各词组的hash值,并将标 题字段中词组的hash值作为相应产品档案的标题特征 (subject_candidate_feature),将供应产品字段中词组的hash值作为相应产品档 案的供应产品特征(provide_products_feature),将属性字段中词组的hash值作 为相应产品档案的属性特征(attr_desc_feature),将关键字字段中词组的hash 值作为相应产品档案的关键词特征(keywords_feature)。

另一方面,根据产品词抽取成功的产品档案信息以及对应的产品词确定相 应产品档案的正标签特征(positive_label_feature)和负标签特征 (negative_label_feature)。

其具体实现可以如下:

1、provide_products_feature

把产品档案关联的卖家档案中的供应产品字段预处理(分割,换为小写, 提取词干),对每个词组计算一个hash值作为特征。

2、keywords_feature

把产品档案的关键字字段预处理(分割,换为小写,提取词干),对每个词 组计算一个hash值作为特征。

3、attr_desc_feature

把产品档案的属性字段预处理(分割,换为小写,提取词干),对每个词组 计算一个hash值作为特征。

4、subjec_candidate_feature

把产品档案的标题字段预处理后(分割,提取chunk的所有子串,换为小写, 提取词干),对每个词组计算一个hash ID作为候选词特征。其中,可以通过 对标题字段进行词性识别,将被连词、介词或标点符号分割开的短语称为 chunk。

5、positive_label_feature

对于成功抽取产品词的产品档案信息进行以下特征提取:

1)类型特征,可以至少包括以下一种或几种:

产品词是否全大写(单词全大写一般是缩写特指);其中,若产品词是全大 写,则对应的特征值可以为1;否则,对应的特征值为0,下同;

产品词是否包含数字;

产品词是否包含标点符号(标点符号在候选产品词产生中作为分割符,但 某些特殊的标点符号可能不会被认为分割符,这和切词工具有关);

产品词的词性是否都相同;

产品词的词性(多数词的词性);其中,可以设置动词对应的特征值为10, 名词对应的特征值为11,形容词对应的特征词为12等,下同。

2)全局特征,可以至少包括以下一种或几种:

产品词是否有某个单词在标题中出现多次;

3)Chunk内部的上下文特征;可以至少包括以下一种或几种:

产品词是否在chunk的最前;

产品词是否在chunk的最后;

产品词前面单词的词性;

产品词前面单词是否全大写;

产品词前面单词是否包含数字;

产品词后面单词的词性;

产品词后面单词是否全大写;

产品词后面单词是否包含数字。

4)Chunk外部的上下文特征,可以至少包括以下一种或几种:

产品词所在chunk是否在标题的最后;

产品词所在chunk是否在标题的最前;

产品词所在chunk的前分割符的词性;

产品词所在chunk的后分割符的词性。

6、negative_label_feature

对于成功抽取产品词的产品档案信息进行这一类特征提取,选择预设数量 (两个)的不同于正样本产品词的词组作为负样本,然后抽取特征,做法和 positive_label_feature的特征抽取方法相同,在此不再赘述。其中,对于产品档 案信息,在步骤101中抽取的产品词默认为正样本产品词,而标题中与正样本 产品词不相同的词组即可以作为负样本。以标题为“4GB MP3 Player”为例, 正样本产品词(即产品词)为“MP3 Player”,则负样本可以为“MP3”、“Player” 或“4GB”等。

步骤103、根据所抽取的特征和产品档案信息确定学习子模型,并根据所 述学习子模块确定综合学习模型。

其中,在本申请实施例中,学习子模型可以包括但不限于先验概率模型P (Y)、关键字条件概率模型P(K|Y)、属性条件概率模型P(A|Y)、类目条件 概率模型P(Ca|Y)、公司条件概率模型P(Co|Y)以及标题条件概率模型P(T|Y)。 下面分别对各自学习模型的确定进行说明:

在完成特征抽取操作之后,可以将产品词抽取成功的产品档案信息切分为 两部分,一部分作为用于标题条件概率模型P(T|Y)的学习样本(即可以根 据该部分产品档案信息确定P(T|Y)),另一部分作为子学习模型及综合学习 模型的测试样本(用于测试各子学习模型和综合学习模型的准确性)。其中, 两部分产品档案信息的数量通常不会相差太大。

1)先验概率模型P(Y)

可以根据步骤102中得到的特征provide_products_feature统计各词组对应 的特征的频率(即出现次数),并对频率超过阈值的特征的频率取对数,进而 进行归一化处理得到先验概率模型P(Y)。其中,对频率取对数时底数并不进 行限定,即可以取以2为底、以10为底或自然对数等。

2)关键字条件概率模型P(K|Y)

可以利用步骤102中得到的特征subject_candidate_feature和 keyword_feature构成二分图的两个顶点集,如果某个关键字字段中的词组和某 个标题字段中的词组在同一个产品档案中出现,则在这两个顶点间建立一条 边,边的权值为该两个顶点在同一个产品档案中出现的次数。遍历所有产品词 抽取成功的产品档案信息,得到带权值的二分图,并在该带权值的二分图上进 行random walk(随机游走)确定关键字条件概率模型P(K|Y)。

3)属性条件概率模型P(A|Y)

可以利用步骤102中得到的特征subject_candidate_feature和 attr_desc_feature构成二分图的两个顶点集,如果某个属性字段中的词组和某个 标题字段中的词组在同一个产品档案中出现,则在这两个顶点间建立一条边, 边的权值为该两个顶点在同一个产品档案中出现的次数。遍历所有产品词抽取 成功的产品档案信息,得到带权值的二分图,并通过在该带权值的二分图上进 行random walk确定属性条件概率模型P(A|Y)。

4)类目条件概率模型P(Ca|Y)

可以将步骤102中得到的特征subject_candidate_feature作为候选产品词, 并通过统计候选产品词的类目分布确定类目条件概率模型P(Ca|Y)。

5)公司条件概率模型P(Co|Y)

可以将步骤102中得到的特征subject_candidate_feature作为候选产品词, 并通过统计候选产品词的公司分布确定公司条件概率模型P(Co|Y)。

6)标题条件概率模型P(T|Y)

标题模型表示从标题判断,抽取的词组是产品词的可能性,可建模为二分 类问题,模型可选择常见二分类模型,特征数据为步骤102抽取的 positive_label_feature和negative_label_feature。

确定上述子学习模型后,可以根据上述各子学习模型确定对应的综合学习 模型P(Y|O),其具体实现可以通过以下公式实现:

P(Y|O)=P(T|Y)P(K|Y)P(A|Y)P(S|Y)P(Ca|Y)P(Co|Y)P(Y)

得到上述综合学习模型后,可以利用上述确定的测试样本对各模型进行测 试,利用综合学习模型对测试样本中的产品档案信息进行识别,并统计准确率, 从而可以根据该统计结果对各模型进行调试和改进。

步骤104、当接收到产品识别请求时,根据综合学习模型及产品识别请求 中携带的待识别产品档案信息确定该待识别产品档案信息对应的产品词。

具体的,在本申请实施例中,当接收到产品识别请求后,可以根据该产品 识别请求中携带的待识别产品档案信息确定候选产品词,并根据该待识别产品 档案信息、候选产品词以及综合学习模型确定所述候选产品词的概率,并将概 率最大的候选产品词确定为该待识别产品档案信息对应的产品词。其具体实现 流程可以如下:

1、确定候选产品词

具体的,可以对待识别产品档案信息中包含的标题做词性识别,将待识别 的产品档案信息的标题中被连词或介词或标点符号隔开的字符串中所包含的 词组作为候选产品词。

2、抽取特征

其具体实现流程与学习阶段的特征抽取流程相同,在此不再赘述。

3、产品识别

对于待识别产品档案信息,经过步骤1和2,获得候选产品此和各种特征, 将其输入概率模型,分别确定各候选产品词作为产品词的概率,并将概率最大 的候选产品词作为该产品档案信息对应的产品词。优选地,还可以记录该候选 产品词作为该产品档案信息对应的产品词的概率。

步骤105、根据所确定的产品词对待识别的产品档案信息进行分类。

具体的,在本申请实施例中,可以预先设定用于对产品档案信息进行分类 的分类关键词,当确定了待识别的产品档案信息的产品词后,根据预设的分类 关键词对所确定的产品词进行匹配,并根据匹配结果确定待识别的产品档案信 息的类别。

基于上述方法实施例相同的技术构思,本申请实施例还提供了一种产品识 别系统,可以应用于上述方法实施例。

如图2所示,为本申请实施例提供的一种信息分类系统的结构示意图,可 以包括:

存储模块21,用于存储有用于产品识别的学习子模型以及由所述学习子模 型组成的综合学习模型;

第一确定模块22,用于当所述产品识别系统接收到产品识别请求时,确定 待识别的产品档案信息的候选产品词;

特征抽取模块23,用于分别根据所确定的候选产品词对所述待识别产品档 案信息进行特征抽取;

第二确定模块24,用于根据所述候选产品词及其对应的特征、所述学习子 模型以及所述综合学习模型确定所述待识别产品档案信息对应的产品词;

分类模块25,用于根据所述第二确定模块24确定的产品词对所述待识别 的产品档案信息进行分类。

其中,所述第一确定模块22可以具体用于,对待识别的产品档案信息的 标题做词性识别,将所述待识别的产品档案信息的标题中被连词或介词或标点 符号隔开的字符串中所包含的词组作为候选产品词。

其中,所述特征抽取模块23可以具体用于,

根据所述待识别的产品档案信息获取产品档案的标题字段、待识别的产品 档案关联的卖家档案中的供应产品字段、待识别的产品档案的属性字段以及待 识别的产品档案的关键字字段;

分别获取各字段中包含的词组,确定各词组的hash值,并将标题字段中 词组的hash值作为相应产品档案的标题特征,将供应产品字段中词组的hash 值作为相应产品档案的供应产品特征,将属性字段中词组的hash值作为相应 产品档案的属性特征,将关键字字段中词组的hash值作为相应产品档案的关 键词特征;

分别根据各候选产品词确定所述待识别的产品档案信息的正标签特征和 负标签特征。

其中,所述第二确定模块24可以具体用于,根据所述候选产品词以及对 应的特征、所述学习子模型以及所述综合学习模型确定各候选产品词作为产品 词的概率;将所述概率最大的候选产品词确定为所述待识别的产品档案信息对 应的产品词。

其中,所述分类模块25具体用于,根据预设的分类关键词对所确定的关 键词进行匹配,并根据匹配结果确定所述待识别的产品档案信息的类别。

其中,本申请实施例提供的产品识别系统还可以包括:

生成模块26,用于生成用于产品识别的学习子模型以及由所述学习子模型 组成的综合学习模型;

所述生成模块26可以具体用于,获取用于学习的产品档案信息,并对所 述产品档案信息进行产品词抽取;根据产品词抽取结果对所述产品档案信息进 行特征抽取;根据所述特征和产品档案信息确定学习子模型,并根据所述学习 子模型确定综合学习模型。

其中,所述生成模块26可以具体用于通过以下方式对所述产品档案信息 进行产品词抽取:

根据所述产品档案信息获取产品档案的标题字段、以及下述字段中的一个 或多个字段:

产品档案关联的卖家档案中的供应产品字段、产品档案的属性字段、或产 品档案的关键字字段;

将满足预设条件的词组确定为所述产品档案信息对应的产品词;

其中,所述预设条件包括:

所述词组在所述产品档案的标题字段中出现,且至少在其余一个字段中出 现;或,

所述词组在所述产品档案的标题字段中出现,且在所有字段中出现的次数 不低于阈值。

其中,所述生成模块26可以具体用于通过以下方式实现根据产品词抽取 结果对所述产品档案信息进行特征抽取:

根据所述产品档案信息获取产品档案的标题字段、产品档案关联的卖家档 案中的供应产品字段、产品档案的属性字段以及产品档案的关键字字段;

分别获取各字段中包含的词组,确定各词组的hash值,并将标题字段中 词组的hash值作为相应产品档案的标题特征,将供应产品字段中词组的hash 值作为相应产品档案的供应产品特征,将属性字段中词组的hash值作为相应 产品档案的属性特征,将关键字字段中词组的hash值作为相应产品档案的关 键词特征;

根据产品词抽取成功的产品档案信息以及对应的产品词确定相应产品档 案的正标签特征和负标签特征。

本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述 进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个 或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成 多个子模块。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请 可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很 多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上 或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机 软件产品存储在一个存储介质中,包括若干指令用以使得一台终端设备(可以 是手机,个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述 的方法。

以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通 技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰, 这些改进和润饰也应视本申请的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号