首页> 中国专利> 一种基于用户评论的商品属性聚类方法

一种基于用户评论的商品属性聚类方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及基于用户评论的商品属性聚类方法，属于数据挖掘领域。本发明结合用户评论信息以及商品属性信息，对特征类似的商品，根据用户评价计算属性的好评率，将其作为权值计算商品的相似性，再将商品排序，为用户返回包含真实信息的所需商品。能直接筛选出在用户关心的商品属性中，最真实好评的商品，不仅节省了选购商品的时间，也提高了用户的购物体验。

著录项

公开/公告号CN103778214A

专利类型发明专利
公开/公告日2014-05-07

原文格式PDF
申请/专利权人北京理工大学;
展开▼

申请/专利号CN201410020517.7
发明设计人闫波;张也;宿红毅;郑宏;
展开▼

申请日2014-01-16
分类号G06F17/30(20060101);G06Q30/02(20120101);
代理机构
代理人
地址 100081 北京市海淀区中关村南大街5号
入库时间 2024-02-19 23:54:05

法律信息

法律状态公告日

法律状态信息

法律状态
2017-08-01

授权

授权
2014-06-04

实质审查的生效 IPC(主分类):G06F17/30 申请日:20140116

实质审查的生效
2014-05-07

公开

公开

说明书

技术领域

本发明涉及一种基于用户评论的商品属性聚类方法，属于数据挖掘领域。

背景技术

上世纪90年代以来，随着网络、通信和信息技术的突破性进展，Internet 在全球爆炸性增长并迅速普及。在这一前提下，电子商务应运而生了。电子商务活动是通过公共计算机通信网络进行商务活动的现代方式，该方式突破传统商务在时间、地域上的限制，成为方便、快捷、安全可靠的新兴电子化商务活动模式。买卖双方可以在开放的网络环境下足不出户的进行网上购物、电子支付等商务活动。

随着电子商务的不断发展，规模的不断扩大，商品的个数和种类也快速的增加，这使得顾客在挑选所需的商品上，会花费大量的时间，在较短的时间购买到适合自己的商品，已经成为网络购物的发展方向。基于海量数据分析与数据挖掘技术的推荐服务也因此成为各大电子商务网站使用的技术之一。

由于电子商务是一种不谋面的商务活动，交易的过程中存在着一些不确定性，因而，已交易顾客对商品的评价信息就成为了对商品质量等特性进行参考的关键因素。通过商品的评价信息，顾客可以对商品的适用性有一些基本的了解。由于评价信息的口语化，商品的评价信息中包含很多并未出现的产品特征评价词，但在评价信息中被暗指，我们称其为一个隐式评价对象，通过对隐式评价对象的提取，能更全面的分析商品的特征。目前的个性化推荐系统大致基于用户的购买行为或者产品之间的相似程度，仅仅提供给用户一些隐含需求上的帮助，其产品相似的程度往往是客观的，缺少用户对商品特征的主观评价信息，因而无法反映商品的真实情况。基于评分的推荐在相似度计算过程中很难体现出商品某一方面特征的好坏程度，评分仅仅计算商品的整体分数。因而，在进行推荐时，对于那些购买目标明确的用户，如何向用户推荐带有以往用户评论的真实属性的某些好评产品，提高推荐的准确性，成为了需要解决的问题。

发明内容

本发明提供一种基于用户评论的商品属性聚类方法，以解决现有推荐系统中对于购买目标明确的用户，推荐的商品无法真实反映用户评价的问题，帮助用户快速选择商品。

为解决上述问题，本发明具体技术方案为：

步骤一、收集商品的属性信息以及用户对该商品的评论信息；

步骤二、对商品的评论信息进行预处理，

1、对商品的评论信息先去除垃圾评论；

2、对评论进行分词、词性标注，将评论划分为词条；

3、构建以名词短语和形容词短语为基础搭配的语法模式，抽取出显示评价对象及评价词，获取搭配集合M｛评价对象，评价词｝；

4、抽取隐式评价对象，手工构建映射集，若在词句的切分中，搭配集合M ｛评价对象，评价词｝左侧没有发现名词，则搜索构建的映射集合，若搜到隐式评价指示词，将隐式评价词映射到相应的评价对象上，以此获取隐式评价对象；

5、做极性判断，将极性强度分为（好、差），删除中性的评价，利用Hownet 计算词汇倾向性，以Hownet提供的正负面评价词语作为基准词，判别待定词与基准词在Hownet中是否为同义词，计算出词汇的倾向性，计算公式如下：

$sim (d, c) = \frac{Σ_{k = 1}^{m} w_{dk} \times w_{ck}}{\sqrt{(Σ_{k = 1}^{m} w_{dk}^{2}) (Σ_{k = 1}^{m} w_{ck}^{2})}}$

其中sim(d,c)表示文本d和取类别c之间的相似度，w_dk表示文本d的第k 个特征权重，w_ck表示类别c的第k个特征权重。

6、以提取的商品属性构建商品属性词典，将提取出的类似产品属性作为商品属性树某一分支的叶子节点，每一分支的根节点由规范化的属性表示；将搭配集合M中的评价对象与商品属性树的叶子节点做对比，将该评价对象由相似叶子节点的根节点代替，以规范搭配集合M。

步骤三、使用向量空间模型来处理，计算搭配集合M中评价词f_i与观点词O_j的联合概率p(f_i,o)，以及评价词f_i单独出现的概率p(f_i)，计算评价词f_i的权值：

$w (f_{i}) = \log_{2}^{\frac{p (f_{i}, O)}{p (f_{i})}}$

如果评论中没有出现的评价词，权值为0；

步骤四、基于步骤三计算得出的权值对商品属性进行预处理，利用K-Means 进行聚类：

1、文本表示，利用商品属性的好评率来表示商品的特征，使用特征向量模型，商品信息空间被看作是由一组正交特征向量所形成的向量空间，每个文档d 被看作向量空间中的一个向量：

V(d)＝((f₁,w₁),(f₂,w₂),...(f_n,w_n))，

其中f_i为特征项，w_i为f_i在d的权值。在计算权值时，以基于特征项的好评率信息的向量形式来表示文本，特征项权值计算：

$ω (f_{i}, d) = \frac{\log_{2}^{\frac{p (f_{i}, o)}{p (f_{i})}}}{\sqrt{\underset{t \in d}{Σ} \log_{2}^{\frac{{p (f_{i}, o)}^{2}}{p (f_{i})}}}}$

其中ω(f_i,d)为属性f_i在商品d中的权重。p(f_i,o)为f_i与观点词O_j的联合概率，p(f_i)为评价词f_i单独出现的概率。

2、使用K-Means聚类，其中相似度计算用其对应的向量之间的夹角余弦来表示两个商品的相似度，两个商品之间的角度越小，则商品之间的相似度越大；角度越大，则相似度越小，即商品d_i，d_j的相似度可以表示为：

$\cos θ = \frac{Σ_{f = 1}^{n} ω_{f} (d_{i}) \times ω_{f} (d_{j})}{\sqrt{(Σ_{f = 1}^{n} ω_{f}^{2} (d_{i})) (Σ_{f = 1}^{n} ω_{f}^{2} (d_{j}))}}$

步骤五、计算出每个聚类内商品的每个属性的好评率均值为：

$C (i) = \frac{Σ_{j = 1}^{n} \log_{2}^{\frac{p (fi, O)}{p (fi)}}}{n}$

其中n为每一个聚类内商品数量，C(i)为当前计算的属性在该聚类内的均值，根据用户所关注的商品属性，将该属性均值最高的一簇内商品随机推荐给用户。若用户关注的属性有多个，取C(i₁)×...×C(i_k)值最大的一簇，对聚类内的商品随机进行推荐。

有益效果

本发明所述的基于用户评论和商品属性的聚类方法，达到了如下效果：能直接筛选出在用户关心的商品属性中，最真实好评的商品，不仅节省了选购商品的时间，也提高了用户的购物体验。

附图说明

图1为基于用户评论的商品属性聚类方法的流程图

图2为商品属性树

具体实施方式

如图1所示，是本发明实施例所述的一种基于用户评论及商品属性的聚类方法流程，结合实例，对本发明进行详细描述：

根据步骤一，收集亚马逊针对电子产品领域的电脑产品的商品属性信息和评论信息，属性信息包括CPU、屏幕、内存、显卡等。商品属性树如图2所示。

根据步骤二，对商品的评论信息及评分信息进行预处理，提取出用户评论的关键特征。其中：

1，对商品的评论信息先去除垃圾评论。利用关键词过滤技术，将评价中包含S=｛广告，联系地址，咨询电话，暂时没发现优缺点...｝等字样的语句删除，来提高处理速度。

2，对评论进行分词、词性标注。利用ICTCLAS对中文文本评论进行分词处理，将评论划分为词条。

3，构建以名词短语和形容词短语为基础搭配的语法模式，抽取出显示评价对象及评价词，获取搭配集合M｛评价对象，评价词｝，例如抽取｛屏幕分辨率，非常高｝、｛内存容量，非常大｝等。

4，抽取隐式评价对象。手工构建映射集，在电子商品领域，有些特定的形容词只能形容某些属性，例如“速度太快了”，可形容CPU运算速度快或者内存大，人工将这些形容词和特定的属性组合，构建评价词映射集合。如果在词句的切分中，搭配集合M｛评价对象，评价词｝左侧没有发现名词，则可以搜索构建的映射集合，若搜到评价指示词，将隐式评价词映射到相应的评价对象上，以此获取隐式评价对象。

5，做极性判断，将极性强度分为（好、差）。对于中性的评论，我们认为对商品参考意义不大，做删除处理。利用Hownet计算词汇倾向性，以Hownet 提供的正负面评价词语作为基准词，判别待定词与基准词在Hownet中是否为同义词，计算出词汇的倾向性，计算公式如下：

$sim (d, c) = \frac{Σ_{k = 1}^{m} w_{dk} \times w_{ck}}{\sqrt{(Σ_{k = 1}^{m} w_{dk}^{2}) (Σ_{k = 1}^{m} w_{ck}^{2})}}$

其中sim(d,c)表示文本d和取类别c之间的相似度，w_dk表示文本d的第k 个特征权重，w_ck表示类别c的第k个特征权重。

6，以在亚马逊等网上商城中电脑板块中提取的商品属性构建商品属性词典，以提取出的类似产品属性作为商品属性树某一分支的叶子节点，每一分支的根节点由规范化的属性表示，如图一表示。将搭配集合M中的评价对象与商品属性树的叶子节点做对比，将该评价对象由相似叶子节点的根节点代替，以规范搭配集合M。例如，｛屏幕分辨率，非常高｝转换成规范的表示为｛屏幕，好｝。

根据步骤三，计算每个属性中好评倾向的概率，以此作为该属性的权重。包括：计算搭配集合M中评价词f_i与观点词O_j的联合概率p(f_i,o),以及评价词f_i单独出现的概率p(f_i),则评价词f_i的权值即为：

$w (f_{i}) = \log_{2}^{\frac{p (f_{i}, O)}{p (f_{i})}}$

其中p(f_i,O)属性f_i和极性为好的观点词O同时出现的概率，p(f_i)为评价词 f_i单独出现的概率，对于评论中没有提及的商品属性，ω(f_i)为0。本实例实际操作时，在电脑板块中提取的用户评论1000条，其中评价词“屏幕”与观点词 “好”的组合，出现的次数为120条，而评价词“屏幕”单独出现的次数为10 条，则p(f_i,o)=0.12，p(f_i)=0.01，由此可计算出属性“屏幕”的权重w(f_i)=3.58。其他的属性依次计算。

根据步骤四，基于此权重对商品属性进行预处理，利用K-Means算法进行聚类：

1，文本表示，使用上步计算出的好评率来表示商品的特征，使用特征向量模型，商品信息空间被看作是由一组正交特征向量所形成的向量空间，每个文档d被看作向量空间中的一个向量：

V(d)＝((f₁,w₁),(f₂,w₂),...(f_n,w_n))，

其中t_i为特征项，w_i为t_i在d的权值。在计算权重时，以基于特征项的好评率信息的向量形式来表示文本，特征项权重计算：

$ω (f_{i}, d) = \frac{\log_{2}^{\frac{p (f_{i}, o)}{p (f_{i})}}}{\sqrt{\underset{t \in d}{Σ} \log_{2}^{\frac{{p (f_{i}, o)}^{2}}{p (f_{i})}}}}$

其中ω(f_i,d)为属性f_i在商品d中的权重。

2，使用K-Means聚类，聚类的结果为，带有相似评价特征的商品，被分在同一个簇中，其中相似度计算用其对应的向量之间的夹角余弦来表示两个商品的相似度，两个商品之间的角度越小，则商品之间的相似度越大，角度越大，则相似度越小，即商品d_i，d_j的相似度可以表示为：

$\cos θ = \frac{Σ_{f = 1}^{n} ω_{f} (d_{i}) \times ω_{f} (d_{j})}{\sqrt{(Σ_{f = 1}^{n} ω_{f}^{2} (d_{i})) (Σ_{f = 1}^{n} ω_{f}^{2} (d_{j}))}}$

根据步骤5，根据用户对商品的不同关注点，将最符合条件的商品推荐给用户。具体包括：计算出每个聚类内商品的每个属性的好评率均值，计算公式为：

$C (i) = \frac{Σ_{j = 1}^{n} \log_{2}^{\frac{p (fi, O)}{p (fi)}}}{n}$

其中n为每一个聚类内商品数量，C(i)为当前计算的属性在该聚类内的均值，同样以电脑板块中屏幕属性为例，假设聚类结果中某一簇的商品个数为10个，每个商品的屏幕属性的好评率分别为3.58、2.32、4.22、3.13、2.57、4.01、3.66、 4.13、3.57、2.98，则C(i)=3.417，依次求出所有簇中商品的该属性，根据用户所关注的商品属性，将该属性均值最高的一簇内商品随机推荐给用户。若用户关注的属性有多个，取C(i₁)×...×C(i_k)值最大的一簇，对聚类内的商品随机进行推荐。

综上所述，本发明提出的基于商品评论的商品属性聚类方案，适用于网购商品推荐板块，对于购买目标明确的用户，根据其关注的属性特征，能向其推荐评价较好的商品。

以上所述的具体实例是对本发明的进一步解释说明，并不用于限定本发明的保护范围，凡在本发明原则和精神之内，所做的更改和等同替换都应是本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于用户评论的商品属性聚类方法 [P] . 中国专利： CN103778214B . 2017.08.01
2. 一种基于半监督学习的用户评论聚类方法 [P] . 中国专利： CN109783638B . 2021.04.06
3. AP AP APPARATUS CLUSTERING METHOD USING NEURAL NETWORK BASED ON REINFORCEMENT LEARNING AND COOPERATIVE COMMUNICATIN APPARATUS USING NEURAL NETWORK BASED ON REINFORCEMENT LEARNING [P] . 韩国专利： KR101877243B1 . 2018-07-11

机译： AP基于神经网络的基于强化学习的聚类方法和基于神经网络的协作通信基于强化学习的聚类方法
4. METHOD, MEDIUM, AND APPARATUS FOR PERSON-BASED PHOTO CLUSTERING IN DIGITAL PHOTO ALBUM, AND PERSON-BASED DIGITAL PHOTO ALBUMING METHOD, MEDIUM, AND APPARATUS [P] . 欧洲知识产权局专利： EP1805684A4 . 2008-10-22

机译：用于基于数字的照片相册中的基于人的照片聚类的方法，介质和设备，以及基于基于个人的数字相册中的基于照片的照片聚类方法，介质和设备
5. METHOD, MEDIUM, AND APPARATUS FOR PERSON-BASED PHOTO CLUSTERING IN DIGITAL PHOTO ALBUM, AND PERSON-BASED DIGITAL PHOTO ALBUMING METHOD, MEDIUM, AND APPARATUS [P] . 欧洲知识产权局专利： EP1805684A1 . 2007-07-11

机译：用于基于数字的照片相册中的基于人的照片聚类的方法，介质和设备，以及基于基于个人的数字相册中的基于照片的照片聚类方法，介质和设备