首页> 中文学位 >分布式、可扩展的实时微博搜索技术研究与实现
【6h】

分布式、可扩展的实时微博搜索技术研究与实现

代理获取

目录

声明

摘要

第1章 绪论

1.1 微博上实时搜索技术的研究背景

1.2 本文的工作和贡献

1.3 本文的组织结构

第2章 相关研究思路及相关研究工作

2.1 微博上的实时索引、搜索

2.2 实时流数据处理平台

2.3 分布式键-值存储

2.4 流数据处理平台的故障恢复管理

第3章 关键技术研究与系统实现

3.1 微博上实时搜索的需求和非需求

3.2 Pollux系统的架构概览

3.3 流数据处理平台的故障恢复

3.3.1 现有的故障恢复策略

3.3.2 故障恢复策略总览

3.3.3 故障恢复策略

3.4 全局存储

3.4.1 存在的问置

3.4.2 解决方案

3.4.3 其它实现问题

3.5 微博实时索引、搜索和排序的实现

3.5.1 微博内容的实时索引

3.5.2 用户查询的实时响应

3.5.3 有效的排序策略支持

3.5.4 查询恢复和持续查询

3.5.5 负载平衡和弹性

第4章 实验评估

4.1 实验设置

4.2 可扩展性评估

4.3 故障恢复性能评估

4.4 全局存储性能评估

4.5 查询处理性能评估

第5章 结论和延伸工作

5.1 结论

5.2 延伸工作

参考文献

致谢

攻读学位期间发表的学术论文目录

攻读学位期间参加的科研项目

展开▼

摘要

过去几年中我们见证了微博平台的迅猛发展,新浪微博、腾讯微博等已成为新的媒体形式。数量庞大的微博数据和其高度动态的本质,对搜索服务提出了独特的技术要求。特别是,搜索服务需要提供实时响应查询的服务,并随着新微博的发布不断地更新搜索结果。传统的技术方法无法适应高更新率提出的挑战,也不能很好地将系统扩展来应对和处理不断产生的大量数据。
   本文研究了一个分布式、可扩展的是实时微博搜索技术,并实现了一个系统来提供分布式实时索引并构建微博搜索服务。它的底层是基于业界领先分布式流处理技术与平台(如Apache S4和Twitter Storm),这些流处理平台提供了强大的实时处理能力。但是尽管这些流处理平台已经成功地应用在其它生产环境中,在微博实时搜索的任务和需求下,它们仍缺乏一些关键功能,特别是:(1)它们只实现了部分的容错能力,在节点发生故障的情况下,无法达到无损恢复;(2)它们没有一个全局数据存储设施,而这个全局存储对于有效的搜索结果排名却是至关重要的。
   为解决这些问题,本文中实现的系统扩展现有平台中的两个重要方面。首先,本文提出并实现了一个故障恢复策略,可以保证系统的高可用性及当发生故障时无数据丢失、无状态丢失。其次,系统扩展了一个全局的储存设施,提供了便捷、高效、可靠的数据存储共享数据支持。第三,本文还详细描述了如何使用实现的系统构建分布式、可扩展的微博实时搜索服务。最后,本文通过在公开数据集上的大量的实验证明这个技术研究是实现是合理、有效的。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号