声明
摘要
1 绪论
1.1 研究背景及意义
1.2 国内外相关研究
1.3 论文主要工作
1.4 论文结构
2 相关技术介绍
2.1 Hadoop概述
2.1.1 Hadoop介绍
2.1.2 HDFS介绍
2.2.3 MapReduce介绍
2.2 Hive概述
2.2.1 Hive架构介绍
2.2.2 HiVe优点
2.3 HBase概述
3 海量搜索日志分析概述
3.1 需求分析
3.1.1 开发背景与目的
3.1.2 功能需求分析
3.2 搜索日志常见模型
3.2.1 二分图模型
3.2.2 图模型
3.2.3 随机游走模型
4 海量搜索日志分析平台的设计与实现
4.1 平台总体架构和模块设计
4.2 平台数据采集预处理模块详细设计
4.2.1 数据采集模块
4.2.2 数据预处理模块
4.3 海量日志存储模块详细设计
4.3.1 设计目标
4.3.2 存储模块的结构设计
4.4 海量日志分析模块详细设计
4.4.1 日志分析计算模型
4.4.2 基于用户行为模式挖掘的设计
4.5 平台监控模块详细设计
4.5.1 集群管理器的设计
4.5.2 配置管理器的设计
5 平台测试与数据分析
5.1 实验环境配置部署
5.1.1 hadoop集群安装部署
5.1.2 hive安装配置
5.2 数据处理
5.2.1 数据去重复分析处理
5.2.2 搜索结果相似度度量分析
5.2.3 查询主题排行分析处理
5.2.4 用户点击url排名分析处理
5.3 实验结果分析
5.3.1 查询主题排行榜
5.3.2 用户点击数与URL排名
5.3.3 查询会话分析
5.3.4 分布式平台效率分析
5.4 系统优化
结论
参考文献
攻读硕士学位期间发表学术论文情况
致谢