首页> 中文学位 >网络舆情热点主题词提取研究
【6h】

网络舆情热点主题词提取研究

代理获取

目录

文摘

英文文摘

第一章 绪论

1.1 课题研究背景与意义

1.2 课题研究现状

1.3 本文的研究内容

1.4 本文的组织

第二章 网络舆情热点主题词提取相关知识

2.1 网络舆情信息挖掘概述

2.1.1 网络舆情信息挖掘框架

2.1.2 现有网络舆情系统介绍

2.2 网络舆情信息分析相关技术研究现状

2.2.1 话题检测与跟踪技术

2.2.2 Web信息挖掘技术

2.2.3 文本倾向性分析

2.3 主题词提取在网络舆情中的作用

2.4 常用主题词提取技术

2.4.1 基于语言学的主题词提取

2.4.2 基于机器学习的主题词提取

2.4.3 基于统计信息的主题词提取

2.4.4 其他方法

2.5 本章小结

第三章 基于多级过滤的热点主题词提取算法

3.1 算法总体框架

3.2 算法具体步骤

3.3 噪音词提取背景语料预处理

3.4 基于联合方差的噪音词提取

3.5 基于关注度的热点主题词提取

3.5.1 TF*PDF

3.5.2 主题词关注度

3.6 本章小结

第四章 实验与结果分析

4.1 测试环境及系统体系结构

4.1.1 测试环境

4.1.2 系统体系结构

4.2 噪音词提取实验

4.2.1 实验小结

4.3 热点主题词提取实验

4.3.1 实验小结

4.4 本章小结

第五章 总结与展望

5.1 本文的主要研究工作及成果

5.2 存在的问题及对将来工作的展望

致谢

参考文献

附录

展开▼

摘要

热点主题词提取技术是网络舆情热点话题发现的基础,即利用计算机对海量的网络信息进行处理并提取热点主题词,能给进一步进行与网络舆情相关的热点话题挖掘提供很好的利用结果;另外,它也是用来研究提高信息检索速度,或作为准确抽取自动摘要的有效方法。本文针对传统热点主题词提取技术中的噪音词库的建立和热点主题词的判定展开了研究,提出了相应的改进算法,并对热点
   关键词的提取问题进行了有效的探讨。
   首先,本文对网络舆情热点主题词提取技术的现状和发展进行了简要的回顾。文中分别对网络舆情信息挖掘的相关技术和主题词提取算法作了分析。网络舆情信息挖掘主要包括信息来源和信息采集等部分,舆情信息分析关键技术包括话题检测与跟踪和文本倾向性分析等。主题词提取算法中介绍了常用的几种主题词提取算法并对其进行比较分析,包括基于语义的主题词提取等。
   然后,本文着重研究了基于多级过滤的主题词提取算法,详细描述了其整体流程图,通过分析其相关技术和整体逻辑结构,针对传统的基于词频的噪音词提取方法和主题词提取方法的缺点,做了进一步的改进,主要分为改进的噪音词提取模块和热点主题词提取模块,把概率论与数理统计中方差的概念引入到对噪音词提取的方法中,以此提出了基于联合方差的噪音词提取方法,并详细描述了改进后噪音词提取算法的步骤和流程图。同时为了进一步提高热点主题词的可信度,改进传统的对热点主题词的判定方法,提出了基于关注度的热点主题词提取方法,并把热点主题词提取的实验结果与新浪网中的热点新闻标题进行验证比较。实验证明,本文改进的算法具有稳定性和高效性,并具有一定的可信度。
   此外,分别使用大规模数据语料和真实新闻语料对本文提出的基于联合方差的噪音词提取方法和基于主题词关注度的提取方法进行了实验,并对测试结果进行了比较和分析。实验结果表明,本文改进的基于多级过滤的主题词提取方法对于处理新闻语料热点主题词发现的问题具有一定的优势。
   本文最后对论文所做的工作进行了总结与评述,并提炼了热点主题词提取中值得继续研究的若干问题,为以后的研究奠定了基础。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号