首页> 中文学位 >基于hadoop的海量搜索日志分析平台的设计和实现
【6h】

基于hadoop的海量搜索日志分析平台的设计和实现

代理获取

目录

声明

摘要

1 绪论

1.1 研究背景及意义

1.2 国内外相关研究

1.3 论文主要工作

1.4 论文结构

2 相关技术介绍

2.1 Hadoop概述

2.1.1 Hadoop介绍

2.1.2 HDFS介绍

2.2.3 MapReduce介绍

2.2 Hive概述

2.2.1 Hive架构介绍

2.2.2 HiVe优点

2.3 HBase概述

3 海量搜索日志分析概述

3.1 需求分析

3.1.1 开发背景与目的

3.1.2 功能需求分析

3.2 搜索日志常见模型

3.2.1 二分图模型

3.2.2 图模型

3.2.3 随机游走模型

4 海量搜索日志分析平台的设计与实现

4.1 平台总体架构和模块设计

4.2 平台数据采集预处理模块详细设计

4.2.1 数据采集模块

4.2.2 数据预处理模块

4.3 海量日志存储模块详细设计

4.3.1 设计目标

4.3.2 存储模块的结构设计

4.4 海量日志分析模块详细设计

4.4.1 日志分析计算模型

4.4.2 基于用户行为模式挖掘的设计

4.5 平台监控模块详细设计

4.5.1 集群管理器的设计

4.5.2 配置管理器的设计

5 平台测试与数据分析

5.1 实验环境配置部署

5.1.1 hadoop集群安装部署

5.1.2 hive安装配置

5.2 数据处理

5.2.1 数据去重复分析处理

5.2.2 搜索结果相似度度量分析

5.2.3 查询主题排行分析处理

5.2.4 用户点击url排名分析处理

5.3 实验结果分析

5.3.1 查询主题排行榜

5.3.2 用户点击数与URL排名

5.3.3 查询会话分析

5.3.4 分布式平台效率分析

5.4 系统优化

结论

参考文献

攻读硕士学位期间发表学术论文情况

致谢

展开▼

摘要

自20世纪末期以来,随着互联网行业的增长和人类活动信息化进程的加速,人们的信息交流日趋频繁,如何进行有效的信息检索也随之成为人们面临的难题之一。搜索引擎技术的出现帮助人们走出了信息的迷宫,实现了有效的信息检索,极大的改变了人们工作和生活的方式。
  目前,对搜索引擎技术的研究已不再仅仅局限于其本身,对网络用户行为的研究也越来越被关注。这是因为对网络用户行为进行系统深入的研究,有利于直接捕捉用户的显性需求并发掘其隐性需求。与网络和信息化相关的另一个挑战是对如何应对海量数据的处理。这不仅对传统数据库服务器的存储模式是一种巨大的考验,同时对服务器的CPU、IO的计算性能也是严峻的挑战,而Hadoop/Hive是现技术领域解决这类问题的非常合适的方法和工具。
  基于以上现状,通过对大量文献的阅读和参考,以及对搜索引擎日志的产生和常见模型进行的详细分析,论文设计了一个用于处理海量搜索日志的分析平台。具体包括:数据采集预处理模块、数据存储模块、数据分析模块和集群管理模块四部分。其中,设计了一套基于用户行为模式挖掘的算法来对搜索引擎的日志进行分析和处理;在平台监控模块中,实现了对于集群的监控和管理。以数据挖掘的流程为思路,以海量数据分析工具Hadoop为实验平台,采用MapReduce映射/规约的编程模型,并采用简单实用的类SQL的HIVE和HBase的海量数据库来处理海量日志;同时,将挖掘模式分解在各分布式服务器进行关联匹配,然后将挖掘结果合成,由此实现减轻网络和服务器性能的这一瓶颈的压力,体现异步挖掘和异步数据规约的优势;最后通过搭建实验环境来验证本平台。采用的数据是搜狗实验室提供三个的搜索引擎的日志样本(样本数据、单日数据、月度数据),根据样本分别从用户查询主题、用户点击数与URL排序和用户会话分析等几个方面对用户检索行为进行详细的分析,同时还对平台进行了性能的优化,对比优化前后的系统运行用时。通过实验数据表明论文设计的日志分析平台具有良好的稳定性和有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号