基于hadoop的海量搜索日志分析平台的设计和实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

自20世纪末期以来，随着互联网行业的增长和人类活动信息化进程的加速，人们的信息交流日趋频繁，如何进行有效的信息检索也随之成为人们面临的难题之一。搜索引擎技术的出现帮助人们走出了信息的迷宫，实现了有效的信息检索，极大的改变了人们工作和生活的方式。
　　目前，对搜索引擎技术的研究已不再仅仅局限于其本身，对网络用户行为的研究也越来越被关注。这是因为对网络用户行为进行系统深入的研究，有利于直接捕捉用户的显性需求并发掘其隐性需求。与网络和信息化相关的另一个挑战是对如何应对海量数据的处理。这不仅对传统数据库服务器的存储模式是一种巨大的考验，同时对服务器的CPU、IO的计算性能也是严峻的挑战，而Hadoop/Hive是现技术领域解决这类问题的非常合适的方法和工具。
　　基于以上现状，通过对大量文献的阅读和参考，以及对搜索引擎日志的产生和常见模型进行的详细分析，论文设计了一个用于处理海量搜索日志的分析平台。具体包括:数据采集预处理模块、数据存储模块、数据分析模块和集群管理模块四部分。其中，设计了一套基于用户行为模式挖掘的算法来对搜索引擎的日志进行分析和处理;在平台监控模块中，实现了对于集群的监控和管理。以数据挖掘的流程为思路，以海量数据分析工具Hadoop为实验平台，采用MapReduce映射/规约的编程模型，并采用简单实用的类SQL的HIVE和HBase的海量数据库来处理海量日志;同时，将挖掘模式分解在各分布式服务器进行关联匹配，然后将挖掘结果合成，由此实现减轻网络和服务器性能的这一瓶颈的压力，体现异步挖掘和异步数据规约的优势;最后通过搭建实验环境来验证本平台。采用的数据是搜狗实验室提供三个的搜索引擎的日志样本（样本数据、单日数据、月度数据），根据样本分别从用户查询主题、用户点击数与URL排序和用户会话分析等几个方面对用户检索行为进行详细的分析，同时还对平台进行了性能的优化，对比优化前后的系统运行用时。通过实验数据表明论文设计的日志分析平台具有良好的稳定性和有效性。

著录项

作者
赵龙;
展开▼
作者单位

大连理工大学;

展开▼
授予单位大连理工大学;
学科计算机应用技术
授予学位硕士
导师姓名江荣安;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;
关键词
海量数据; 日志分析平台; 用户行为; 搜索引擎技术;

相似文献

中文文献
外文文献
专利

1. 基于Mahout框架的Hadoop平台作业日志分析平台设计与实现 [J] . 曹政 . 软件 . 2015,第011期
2. 基于Hadoop的VPN访问日志分析平台的研究与实现 [J] . 武凌 ,杨家桂 ,陈劲松 . 沈阳大学学报 . 2016,第006期
3. 基于Hadoop的海量电能质量监测数据分析平台研究 [J] . 王淑祥 ,马素霞 . 中国科技信息 . 2013,第013期
4. 基于大数据的校园网海量日志分析平台研究 [J] . 单康康 ,王佶 ,常晓洁 . 信息通信 . 2017,第003期
5. 基于Hadoop的海量安全日志聚类算法研究 [J] . 陆勰 ,罗守山 ,张玉梅 . 信息网络安全 . 2018,第008期
6. 基于Hadoop集群的海量日志分析系统的研究与设计 [C] . 阚博文 ,石京燕 ,孙功星 . 第十六届全国科学计算与信息化会议暨科研大数据论坛 . 2013
7. 基于Hadoop的运维日志采集分析平台的设计与实现 [A] . 肖东方 . 2016

基于hadoop的海量搜索日志分析平台的设计和实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅