首页> 中文学位 >面向微博的新词发现和情感词典构建方法研究
【6h】

面向微博的新词发现和情感词典构建方法研究

代理获取

目录

第一章绪论

1.2研究现状及分析

1.2.2情感词典构建

1.2.3研究现状的小结

1.4论文组织结构

1.5本章小结

第二章基于互信息和邻接熵的新词发现算法

2.1.2邻接熵

2.2.2算法流程

2.3实验

2.3.3实验结果

2.4本章小结

第三章基于Word2Vec和句子内部关系的自动构建情感词典的方法

3.1.2 Word2Vec模型

3.2.2实验语料的预处理

3.2.3种子词的获取

3.2.6基于句子内部关系的方法

3.2.7情感词典的构建

3.3实验

3.3.3实验结果

3.4本章小结

第四章基于情感词典的微博情感分析方法

4.1.3连词词典

4.2.2不包含情感词语的句子的情感分析

4.3.3实验结果

4.4本章小结

第五章总结与展望

5.2研究展望

参考文献

攻读硕士学位期间的主要成果

致谢

展开▼

摘要

随着科学技术的迅猛发展,越来越多的人使用微博平台,从而产生了大量的微博,而且大部分微博都包含发表人的情感倾向。基于情感词典的微博情感分析方法是目前判断微博情感极性的一种重要方法,但因为微博自身的特点,随意、口语化且不正规,产生了许多的网络新词,减少了现有的基础情感词典对微博倾向分析的作用和意义;大量微博的产生导致手动建立情感词典费时费力且效果不佳,所以如何识别新词和自动构建情感词典成为当前微博情感分析中亟待解决的问题。针对上述问题,本文做了三方面的工作: (1)提出了基于互信息和邻接熵的新词发现算法 如何快速高效的识别新词是自然语言处理中一项非常重要的任务,针对目前新词发现存在的问题,提出了一种从左至右逐字在未切词的微博语料中发现新词的方法。通过计算候选词语与右邻接字的互信息来逐步扩展候选词语,获得候选新词集;通过计算邻接熵、删除候选新词的首尾停用词和过滤旧词语等方法来筛选新词,完成新词词典的构建。实验结果表明,本文提出的新词发现方法可以有效的识别新词。 (2)提出了基于Word2Vec和句子内部关系的自动构建情感词典的方法 自动构建情感词典是情感分析中一项基础且重要的任务,针对当前构建情感词典存在的问题,提出了一种自动构建情感词典的方法。第一,通过计算词语词频与词语逆文档频率的乘积的方法构建种子词集。第二,使用Word2Vec工具以维基百科作为训练数据获得词语的词向量,并计算种子词和候选情感词的相似度;再使用本文的实验语料作为训练数据再次获得词语的词向量,并计算种子词和候选情感词的相似度,并通过TwoSim方法获得候选情感词的情感极性。第三,通过单独分析包含连词的微博,获得候选情感词的情感极性。最后,将确定了词语极性的候选词集与基础情感词典合并,从而完成情感词典的构建。通过实验验证本文提出的自动构建情感词典的方法可以有效的识别情感词。 (3)提出了基于情感词典的微博情感分析方法 为进一步验证新词发现方法构建的新词词典和自动构建情感词典方法构建的情感词典的效果,将新词词典和情感词典用于微博情感极性的分析中。微博通常由多个句子组成,根据句子是否包含情感词语,分别用不同的方法进行情感分析,最后将每个句子的情感极值相加,获得微博的情感极性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号