首页> 中文学位 >基于专业个人微博的事件提取研究
【6h】

基于专业个人微博的事件提取研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 绪论

1.1 研究背景

1.2 国内外研究现状

1.3 论文主要研究内容

1.4 本文的组织结构

2 微博信息提取的相关技术

2.1 微博数据获取

2.2 微博预处理

2.3 微博建模

2.4 特征选择

2.5特征值权重计算

2.6本章小结

3 相似度计算方法

3.1基于VSM的相似度计算

3.2基于语义理解的相似度计算

3.3基于潜在语义分析的相似度计算

3.4本章小结

4 基于LDA的专业个人微博相似度计算

4.1 微博预处理

4.2 改进的TF-IDF特征词提取

4.3 主题分类

4.4 个人微博相似度计算

4.5 微博事件提取

4.6 本章小结

5 实验结果与分析

5.1 实验环境及平台搭建

5.2 微博数据收集

5.3 实验数据评价标准

5.4 微博归类实验结果及分析

5.5 本章小结

6 总结与展望

6.1 本文完成的工作

6.2 不足之处和工作展望

参考文献

在学研究成果

致谢

展开▼

摘要

近年来,随着计算机技术的大力发展和大量普及,网络信息的传播速度与数量都呈现出爆炸式的增长。微博客是一种新的媒体,成为了电视、广播等传统媒体的又一个新闻媒体,互联网用户普及率很高,是互联网上信息的主要来源。微博和传统的文本相比,人们可以更方便、实时地表达自己的看法和感受,但同时也产生了大量的冗余信息。
  微博有着文本较短、话题快速变换和使用网络语言等特点,故不同于传统的文本。个人微博的表达方式与传统的文本也有着很大的不同,从形式上讲,个人微博内容已文字为主,也可以包括一些表情符号、链接、音频、视频等。在内容上,个人微博主要是分享一些生活中的事情,当然也包括一些公共热点。而本文所涉及的是专业个人微博,其主要讨论的话题是与博主从事专业相关的,话题活动基本限定在一个专业领域,也包含一部分公共话题。本文所研究的专业个人微博指的是博主发表的微博内容是与其从事领域相关的。
  由于微博内容简单且移动设备普及,可以通过移动设备随时随地发布,所以能够在短时间产生大量的数据,人类所面对的网络信息迅速增多。如果用人工手段来处理这样庞大且无规则的微博信息,不仅工作量是巨大的,而且难以及时、准确的找到自己所关注的信息。无数实验结果表明,用传统算法提取的专业个人微博事件效果都不理想。因此如何从大量杂乱无章的个人微博信息中快速找到自己关注的信息,是目前个人微博信息检测技术未来的科研趋势。
  为了自动识别出博主的专业兴趣活动,提出了一种基于LDA的专业个人微博事件提取算法。不断筛选从开放平台中获取的微博数据,不断过滤信息价值不大的文本,符号以及无关链接,使用分词工具ICTCLAS来对专业个人微博进行分词,将特征词的词性标出并剔除停用词;其次,根据特征选择评估函数 CHI对不同特征词对不同类别的重要程度进行衡量,再根据特征词在同一类文本中均匀分布的原则,利用改进了的TF-IDF进行微博特征词提取并采用LDA为语料库建模,以此来挖掘出不同主题和词之间的关系,使得权重较大的词更能反映出微博主题。从而得到微博在各主题下的概率分布,并结合时间相似度计算出专业个人微博的综合相似度,最后利用改进了的K-Means聚类,将讨论同一话题的微博聚集到同一个集合中,从而与人工数据进行比对。
  实验结果验证了该算法的有效性,同时表明了该算法可以有结构、有条理的呈现出人们感兴趣的微博事件。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号