首页> 中文学位 >基于Web使用挖掘的网站结构优化技术研究
【6h】

基于Web使用挖掘的网站结构优化技术研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪 论

1.1研究工作的背景与意义

1.2国内外研究现状

1.3本论文主要研究内容与创新

1.4论文组织结构

第二章 相关概念和技术

2.1 Web挖掘技术

2.2 Web使用挖掘

2.3 Hadoop相关技术

2.4本章小结

第三章 日志数据预处理过程

3.1 WEB日志数据格式

3.2日志预处理技术

3.3 MapReduce实现预处理过程

3.4本章小结

第四章 基于 POCWAP算法的频繁模式挖掘

4.1本章相关的常用定义

4.2 WAP算法

4.3 PLWAP算法

4.4基于 PLWAP的改进算法 POCWAP

4.5实验结果与分析

4.6本章小结

第五章 基于改进的 Web挖掘算法网站结构优化原型系统

5.1问题的提出

5.2系统设计

5.3数据采集

5.4 Hadoop集群实现日志预处理过程

5.5数据转换

5.6频繁模式挖掘过程

5.7 WSOS原型系统展示

5.8 WSOS原型系统测试与分析

5.9本章小结

第六章 总结与展望

6.1全文工作总结

6.2全文工作展望

致谢

参考文献

攻读硕士学位期间取得的成果

展开▼

摘要

网站在构建时,主要依靠网站设计开发人员的手工设计和一些先验经验进行网站结构的组织,但是由于网站的设计开发人员与用户对网站结构组织存在着不同的理解,这种主观性的差异将会导致用户在搜索其感兴趣有益的网页时往往会以更多的访问代价达到目标网页。同时,用户在搜寻目标网页时,会产生一些无关的页面点击行为,这将大大增加服务器负荷和网络的数据流量,更易造成网络阻塞,导致网络访问速度的下降,从而影响用户对站点的满意度。也就说,目标网页的最优期望定位直接决定了站点的服务质量。
  基于Web使用挖掘的网站结构优化技术就是通过挖掘Web日志,获得用户频繁访问路径,从而得到目标网页的最优定位,进而及时调整网站结构,使所有的用户都可以以很小的访问代价浏览站点,更有效地获取所需的信息。基于此,本文主要做了以下几个方面研究:
  1)为了使Web挖掘算法能够在Web日志中进行挖掘,对Web日志数据预处理过程进行了详细讨论,探讨了如何将Web日志记录转换成用户会话,得到用户访问序列。
  2)针对在海量数据情况下,单机进行数据预处理的效率将会愈来愈低的缺陷,提出一种基于 MapReduce的并行分布式处理办法,并将其在 Hadoop平台上进行了实现。
  3)研究并分析了Web使用挖掘方面较为经典的关联规则算法及其特点,针对PLWAP算法在位置编码存在的缺陷,提出一种基于PLWAP算法改进的挖掘算法POCWAP算法,并结合IBM Quest Project数据进行实验,验证了其有效性与正确性,另外在与PLWAP算法的对比实验中,也直观反映出POCWAP在算法性能上较PLWAP算法有所提升。
  4)采用改进的挖掘算法POCWAP算法,结合成都康赛信息技术有限公司企业网站的Web日志数据,设计并开发出一套网站结构优化原型系统WSOS。重点介绍了该系统的系统框架,以及在Hadoop平台上实现Web日志预处理过程,展示预处理结果和模式发现结果,给出改进意见,最后对原型系统进行功能测试与分析。
  本文的最后给出了对全文工作的归纳和总结,探讨了下一步研究方向。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号