基于机器学习的中文微博情感分类技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

进入21世纪，蓬勃发展的互联网科学与技术，为社会的进步与发展掀开了新的改革篇章。其中一大批社交软件映入大众的视野中，包括博客、社区论坛、微博等知识交互型社交媒体、软件，随之而来的还有这些媒体平台产生了巨大数量的文本数据。如何充分利用如此庞大的数据集并挖掘出其中的价值，已成为一项任重而道远的研究课题。微博作为一种新型的社交网络平台，因其简单、易操作的风格，受到越来越多致力于研究文本情感分类领域的学者们的厚爱。用户可通过电脑端或者移动终端登录微博，可以对事件、人物、物品发表带有主观性的情感文本，通过计算机识别出这些主观性文本，并准确分类为正面或负面态度，在实际社会的许多应用领域中都有广泛的研究前景。本文将新浪微博作为研究对象，通过网络爬虫采集到相关领域的数据集，首先讨论了情感词典方法下的中文文本情感分类，接着在此基础上，采用基于机器学习方法对中文文本进行情感分类，并根据最终的实验结果，验证实验过程中提出的改进算法的可行性。本文主要研究内容包括如下三个方面：（1）情感词典的扩展自构建。构建情感词典的过程中，将三种开源情感词典去重标记后融合为基础情感词典，并就实际微博中存在的未登录词、新词，给出一种基于语料库和SO-PMI的词典扩展算法，实验结果显示扩展后的情感词典在调均评判指标F值上升了1.11%。（2）情感极性单元加权算法。细粒化考虑微博情感的影响因子，并结合语义规则、句型结构，添加表情特征对计算文本的情感值加权，推导出情感计算公式，面向一个三分类的情感分类问题构建模型，在一定程度上均提升正向、负向及中性情感分类的准确率。（3）融合语义规则的机器学习方法。本文采用libsvm工具包搭建支持向量机应用下的情感分类器，将朴素贝叶斯作为对比实验，验证了支持向量机的优势性，并对中文分词特征项提取后的TF-IDF算法进行改进，在融合了词典和语义规则相关知识下，考虑到情感词与非情感词的不同表征能力以及程度副词、特殊符号等因素，对实际的情感词频数加权处理。结果证明在采用了TF-IDF改进后的算法STF-IDF，实验准确率、召回率均得到提升，F值提升5.97%。

著录项

作者
常曹育;
展开▼
作者单位

江苏科技大学;

展开▼
授予单位江苏科技大学;
学科计算机科学与技术
授予学位硕士
导师姓名吴陈;
年度 2019
页码
总页数
原文格式 PDF
正文语种中文
中图分类神经病学与精神病学;教育心理学;
关键词
机器学习; 中文; 情感;

相似文献

中文文献
外文文献
专利

1. 基于机器学习的中文微博情感分类研究 [J] . 张庆庆 ,刘西林 . 未来与发展 . 2015,第004期
2. 基于机器学习的中文微博情感分类实证研究 [J] . 刘鲁 ,刘志明 . 计算机工程与应用 . 2012,第001期
3. 基于cw2vec与CNN-BiLSTM注意力模型的中文微博情感分类 [J] . 卢昱波 ,刘德润 ,蔡奕超 . 软件导刊 . 2021,第003期
4. 基于cw2vec与CNN-BiLSTM注意力模型的中文微博情感分类 [J] . 卢昱波 ,刘德润 ,蔡奕超 . 软件导刊 . 2021,第003期
5. 基于卷积神经网络的中文微博情感分类 [J] . 冯多 ,林政 ,付鹏 . 计算机应用与软件 . 2017,第004期
6. 中文微博僵尸粉检测技术研究 [C] . 王宇 ,陆余良 ,郭浩 . 第三届全国社会计算会议、平行控制会议、平行管理会议 . 2011
7. 基于中文微博的情感分类技术研究 [A] . 邢纪哲 . 2014

基于机器学习的中文微博情感分类技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅