首页> 中文学位 >中文客户评论对象特征抽取方法
【6h】

中文客户评论对象特征抽取方法

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章 引言

1.1 课题来源和研究意义

1.2 国内外研究现状

1.3 研究内容和组织结构

第2章 基于Apriori算法的中文评论对象特征抽取

2.1 Apriori算法的基本原理

2.2 基于Apriori算法抽取候选评论对象特征

2.3 实验验证及结果

2.4 本章小结

第3章 中文客户评论对象特征过滤

3.1 领域术语

3.2 评论对象特征过滤

3.3 实验验证及评价

3.4 本章小结

第4章 特征间的语义相似度算法

4.1 语义相似度算法概述

4.2 语义相似度计算的相关工作

4.3 基于Hownet的特征相似度算法

4.4 基于特征和观点共现信息的语义相似度

4.5 特征间的语义相似度算法

4.6 实验结果及分析

4.7 本章小结

第5章 中文客户评论对象特征的聚类

5.1 聚类分析

5.2 层次聚类算法

5.3 基于语义相似度的特征层次聚类算法

5.4 实验分析

5.5 本章小结

第6章 总结与展望

6.1 主要工作总结

6.2 未来工作展望

参考文献

致谢

个人简历、在学期间发表的学术论文与研究成果

展开▼

摘要

随着Internet技术的蓬勃发展,越来越多的用户参与到了互联网的共同建设中来,由信息的被动接受者变为信息的主动创作者。因此,在互联网上存在大量用户参与的,对于诸如人、产品等有价值的评论信息。这些评论信息反映了用户的意见、观点和立场,具有重要的研究价值。然而,随着越来越多的用户在互联网上分享自己的观点和意见,这些评论信息迅速的增加累积,仅靠人工的方式已经很难对它们进行分析处理。因此评论意见挖掘技术随之而生,该技术主要涉及特征挖掘、用户观点的抽取、情感分析技术等方面。评论意见挖掘首要工作是评论对象的特征挖掘,其准确性和全面性对后续的研究具有重要意义。由于在评论中不同的词可以用来描述同一种特征,所以评论对象特征的提取及聚类更具有挑战性。针对中文客户评论,对评论对象特征的抽取进行分析和研究。以下概括了本文的主要研究内容:
  为了从中文客户评论中提取出用户感兴趣的评论对象特征,本研究基于关联规则理论,即Apriori算法提取出频繁特征项集,最后根据三种剪枝规则对频繁特征项集进行剪枝,得到初步的候选评论对象特征集合。
  然后,针对基于Apriori算法抽取特征的查准率不高的问题,引进领域术语的概念,提高中文客户评论对象特征挖掘的性能。本文将评论对象特征看成是评论语料的领域术语,利用领域一致度和领域相关度度量候选特征与评论领域的关联程度,并对其进行排序,过滤掉那些与领域关联程度低的特征,实现挖掘性能的提高。
  本文对特征间的语义相似度计算方法进行了改进,既考虑词语间的单独相似度,又考虑了特征词与观点词的共现性。结合基于Hownet的词语相似度和基于特征和观点共现信息的特征相似度提出了一种新的特征语义相似度计算方法。
  最后,以特征间的语义相似度为聚类依据,对特征进行聚类。该算法将具有一定程度相似性的特征聚集在一起,解决了特征在评论中有不同表述的问题。
  本文通过互联网获取评论语料,并在实验中验证提出的所有算法,证明了该方法的具有较好的抽取性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号