首页> 中文学位 >基于机器学习的中文微博情感分类技术研究
【6h】

基于机器学习的中文微博情感分类技术研究

代理获取

目录

声明

第1章 绪论

1.1 研究背景和意义

1.1.1 研究背景

1.1.2 研究意义

1.2 国内外研究现状

1.2.1 情感分析研究现状

1.2.2 基于情感知识的情感研究

1.2.3 基于机器学习的情感研究

1.3 论文研究内容与创新

1.4 论文的结构安排

1.5 本章小结

第2章 相关理论与技术

2.1 微博的文本特征

2.2 文本预处理

2.2.1 中文分词

2.2.2 停用词处理

2.2.3 词性标注

2.2.4 句法分析

2.3 文本表示

2.3.1 向量空间模型

2.3.2 特征选择方法

2.3.3 特征权重计算

2.4 文本情感分类

2.4.1 基于情感词典的情感分类

2.4.2 基于机器学习的情感分类

2.5 本章小结

第3章 表情特征与规则下的情感计算研究

3.1 情感词典的构建

3.1.1 基础情感词典介绍

3.1.2 情感词典扩展算法

3.1.3 算法有效性验证

3.2 微博情感影响因子

3.2.1 词语级影响因子

3.2.2 句子级影响因子

3.3 语义规则

3.3.1 句型规则

3.3.2 句间关系规则

3.4 表情特征加权

3.5 微博情感计算公式

3.6 实验验证

3.6.1 数据来源

3.6.2 评测指标

3.6.3 实验结果与分析

3.7 本章小结

第4章 融合语义规则下基于机器学习的情感分析

4.1 机器学习算法介绍

4.1.1 朴素贝叶斯

4.1.2 k近邻

4.1.3 支持向量机

4.2 基于机器学习的情感分析流程

4.3 基于支持向量机的情感分类

4.3.1 文本表示格式

4.3.2 文本缩放操作

4.3.3 核函数选择

4.3.4 相关参数调整

4.4 针对特征权重算法的改进

4.5 实验验证

4.5.1 数据准备

4.5.2 实验测评指标

4.5.3 实验结果与分析

4.6 本章小结

第5章 总结与展望

5.1 全文总结

5.2 学习展望

参考文献

攻读硕士学位期间发表论文

致谢

展开▼

摘要

进入21世纪,蓬勃发展的互联网科学与技术,为社会的进步与发展掀开了新的改革篇章。其中一大批社交软件映入大众的视野中,包括博客、社区论坛、微博等知识交互型社交媒体、软件,随之而来的还有这些媒体平台产生了巨大数量的文本数据。如何充分利用如此庞大的数据集并挖掘出其中的价值,已成为一项任重而道远的研究课题。 微博作为一种新型的社交网络平台,因其简单、易操作的风格,受到越来越多致力于研究文本情感分类领域的学者们的厚爱。用户可通过电脑端或者移动终端登录微博,可以对事件、人物、物品发表带有主观性的情感文本,通过计算机识别出这些主观性文本,并准确分类为正面或负面态度,在实际社会的许多应用领域中都有广泛的研究前景。 本文将新浪微博作为研究对象,通过网络爬虫采集到相关领域的数据集,首先讨论了情感词典方法下的中文文本情感分类,接着在此基础上,采用基于机器学习方法对中文文本进行情感分类,并根据最终的实验结果,验证实验过程中提出的改进算法的可行性。 本文主要研究内容包括如下三个方面: (1)情感词典的扩展自构建。构建情感词典的过程中,将三种开源情感词典去重标记后融合为基础情感词典,并就实际微博中存在的未登录词、新词,给出一种基于语料库和SO-PMI的词典扩展算法,实验结果显示扩展后的情感词典在调均评判指标F值上升了1.11%。 (2)情感极性单元加权算法。细粒化考虑微博情感的影响因子,并结合语义规则、句型结构,添加表情特征对计算文本的情感值加权,推导出情感计算公式,面向一个三分类的情感分类问题构建模型,在一定程度上均提升正向、负向及中性情感分类的准确率。 (3)融合语义规则的机器学习方法。本文采用libsvm工具包搭建支持向量机应用下的情感分类器,将朴素贝叶斯作为对比实验,验证了支持向量机的优势性,并对中文分词特征项提取后的TF-IDF算法进行改进,在融合了词典和语义规则相关知识下,考虑到情感词与非情感词的不同表征能力以及程度副词、特殊符号等因素,对实际的情感词频数加权处理。结果证明在采用了TF-IDF改进后的算法STF-IDF,实验准确率、召回率均得到提升,F值提升5.97%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号