基于专业个人微博的事件提取研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近年来，随着计算机技术的大力发展和大量普及，网络信息的传播速度与数量都呈现出爆炸式的增长。微博客是一种新的媒体，成为了电视、广播等传统媒体的又一个新闻媒体，互联网用户普及率很高，是互联网上信息的主要来源。微博和传统的文本相比，人们可以更方便、实时地表达自己的看法和感受，但同时也产生了大量的冗余信息。
　　微博有着文本较短、话题快速变换和使用网络语言等特点，故不同于传统的文本。个人微博的表达方式与传统的文本也有着很大的不同，从形式上讲，个人微博内容已文字为主，也可以包括一些表情符号、链接、音频、视频等。在内容上，个人微博主要是分享一些生活中的事情，当然也包括一些公共热点。而本文所涉及的是专业个人微博，其主要讨论的话题是与博主从事专业相关的，话题活动基本限定在一个专业领域，也包含一部分公共话题。本文所研究的专业个人微博指的是博主发表的微博内容是与其从事领域相关的。
　　由于微博内容简单且移动设备普及，可以通过移动设备随时随地发布，所以能够在短时间产生大量的数据，人类所面对的网络信息迅速增多。如果用人工手段来处理这样庞大且无规则的微博信息，不仅工作量是巨大的，而且难以及时、准确的找到自己所关注的信息。无数实验结果表明，用传统算法提取的专业个人微博事件效果都不理想。因此如何从大量杂乱无章的个人微博信息中快速找到自己关注的信息，是目前个人微博信息检测技术未来的科研趋势。
　　为了自动识别出博主的专业兴趣活动，提出了一种基于LDA的专业个人微博事件提取算法。不断筛选从开放平台中获取的微博数据，不断过滤信息价值不大的文本，符号以及无关链接，使用分词工具ICTCLAS来对专业个人微博进行分词，将特征词的词性标出并剔除停用词；其次，根据特征选择评估函数 CHI对不同特征词对不同类别的重要程度进行衡量，再根据特征词在同一类文本中均匀分布的原则，利用改进了的TF-IDF进行微博特征词提取并采用LDA为语料库建模，以此来挖掘出不同主题和词之间的关系，使得权重较大的词更能反映出微博主题。从而得到微博在各主题下的概率分布，并结合时间相似度计算出专业个人微博的综合相似度，最后利用改进了的K-Means聚类，将讨论同一话题的微博聚集到同一个集合中，从而与人工数据进行比对。
　　实验结果验证了该算法的有效性，同时表明了该算法可以有结构、有条理的呈现出人们感兴趣的微博事件。

著录项

作者
熊振华;
展开▼
作者单位

内蒙古科技大学;

展开▼
授予单位内蒙古科技大学;
学科计算机技术
授予学位硕士
导师姓名高永兵;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
专业个人微博; LDA语料库; 相似度计算; 事件提取; K-Means聚类;

相似文献

中文文献
外文文献
专利

1. 基于LDA的专业个人微博事件提取 [J] . 高永兵 ,熊振华 . 内蒙古科技大学学报 . 2015,第003期
2. 基于个人微博特征的事件提取研究 [J] . 高永兵 ,陈超 ,熊振华 . 计算机应用与软件 . 2016,第007期
3. 基于JS综合相似度的个人微博时序事件归类研究 [J] . 高永兵 ,聂知秘 ,周环宇 . 计算机应用与软件 . 2015,第007期
4. 城市自来水污染事件微博舆情应对研究--基于兰州政务微博、市民微博的实证分析 [J] . 陈鹤 ,韩金成 . 情报杂志 . 2014,第009期
5. 基于TextRank算法的微博个人关键词云提取的设计与实现 [J] . 杨雁莹 ,姜莹 . 电脑编程技巧与维护 . 2019,第002期
6. 基于微博的交通事件提取与文本分析系统 [C] . CUI Jian ,崔健 ,FENG Xuan . 第十三届海峡两岸智能运输系统学术研讨会 . 2013
7. 基于语义的个人微博事件提取 [A] . 张娣 . 2017

基于专业个人微博的事件提取研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅