首页> 中文学位 >面向多站点Web日志挖掘中的数据采集与预处理技术研究
【6h】

面向多站点Web日志挖掘中的数据采集与预处理技术研究

代理获取

摘要

随着互联网和信息技术的快速发展,特别是Web的全球普及,使得Web上的用户数目和信息量都在不断地增加。这样就产生了两方面的主要问题:一方面是如何让站点提供者通过分析用户的浏览行为,发现用户的浏览模式和兴趣爱好,并为其提供个性化推荐,以获得更多的用户青睐和商业价值。另一方面是如何让用户能够及时地从海量的信息中获取到感兴趣的、有价值的信息,从而降低信息过载带来的迷航问题,提高信息检索效率。通过将数据挖掘技术应用于Web日志挖掘,并根据不同挖掘应用的需求和Web日志的特性,对传统方法进行扩展和改进,可以解决这些问题。
   要进行Web日志挖掘首先要采集相关的日志数据并对其进行预处理。传统的Web日志挖掘的数据采集一般在服务器端、客户端、应用服务器端和代理服务器端进行。不同的数据采集方法不仅在数据源位置方面不同,而且在可用数据的种类、被收集的数据段和其实现方面都不尽相同。数据预处理主要是通过数据清理和用户识别等操作,将能够精确反映用户浏览行为的数据提取出来并转换为挖掘算法可识别的格式,其结果直接关系到后续挖掘的质量。数据采集和预处理这两方面的工作占据了Web日志挖掘的很大一部分,是Web日志挖掘的基础和关键,也是Web日志挖掘研究的重难点。
   通常的数据采集和预处理都是面向单站点环境进行,而本文则是面向多站点的Web日志挖掘,因此已有的数据采集方法就不再适合。为了能够采集到多站点下的用户浏览行为数据,本文提出了一种通过捕获HTTP协议数据包的网络嗅探采集方式。同时,面向多站点环境下采集到的数据由于具有海量、多样、异构、动态变化等特性,数据预处理工作也就不同于以往,特别是增加了数据清理的难度。针对这一问题,通过分析HTTP请求的特点本文提出了一种基于页面引用和时间关系的数据清理方法。
   最后,在局域网平台上通过多次实验来考察本文提出的网络嗅探数据采集方法和基于引用和时间关系的数据清理方法的有效性。采用精确率、召回率和F度量值等指标分析实验数据。结果表明本文提出的面向多站点下的数据采集和预处理方法是有效可行的。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号