首页> 外文会议>2014 International Conference on Advances in Engineering and Technology Research >Scalable distributed first story detection using storm for twitter data
【24h】

Scalable distributed first story detection using storm for twitter data

机译:使用Storm对Twitter数据进行可扩展的分布式第一个故事检测

获取原文
获取原文并翻译 | 示例

摘要

Twitter is an online service that enables users to read and post tweets; thereby providing a wealth of information regarding breaking news stories. The problem of First Story Detection is to identify first stories about different events from streaming documents. The Locality sensitive hashing algorithm is the traditional approach used for First Story Detection. The documents have a high degree of lexical variation which makes First Story Detection a very difficult task. This work uses Twitter as the data source to address the problem of real-time First Story Detection. As twitter data contains a lot of spam, we built a dictionary of words to remove spam from the tweets. Further since the Twitter streaming data rate is high, we cannot use traditional Locality sensitive hashing algorithm to detect the first stories. We modify the Locality sensitive hashing algorithm to overcome this limitation while maintaining reasonable accuracy with improved performance. Also, we use Storm distributed platform, so that the system benefits from the robustness, scalability and efficiency that this framework offers.
机译:Twitter是一项在线服务,使用户可以阅读和发布推文;从而提供有关突发新闻的大量信息。 “第一个故事检测”的问题是从流文档中识别有关不同事件的第一个故事。位置敏感的哈希算法是用于“第一故事”检测的传统方法。这些文档具有很高的词汇变化性,这使“第一个故事检测”成为一项非常困难的任务。这项工作使用Twitter作为数据源来解决实时“第一故事检测”问题。由于Twitter数据包含大量垃圾邮件,因此我们建立了一个单词词典,以从推文中删除垃圾邮件。此外,由于Twitter的流数据速率很高,因此我们无法使用传统的“位置敏感”哈希算法来检测第一个故事。我们修改了位置敏感的哈希算法来克服此限制,同时保持合理的准确性和改进的性能。另外,我们使用Storm分布式平台,因此系统可以从此框架提供的强大功能,可伸缩性和效率中受益。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号