面向多站点Web日志挖掘中的数据采集与预处理技术研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

随着互联网和信息技术的快速发展，特别是Web的全球普及，使得Web上的用户数目和信息量都在不断地增加。这样就产生了两方面的主要问题：一方面是如何让站点提供者通过分析用户的浏览行为，发现用户的浏览模式和兴趣爱好，并为其提供个性化推荐，以获得更多的用户青睐和商业价值。另一方面是如何让用户能够及时地从海量的信息中获取到感兴趣的、有价值的信息，从而降低信息过载带来的迷航问题，提高信息检索效率。通过将数据挖掘技术应用于Web日志挖掘，并根据不同挖掘应用的需求和Web日志的特性，对传统方法进行扩展和改进，可以解决这些问题。
　　要进行Web日志挖掘首先要采集相关的日志数据并对其进行预处理。传统的Web日志挖掘的数据采集一般在服务器端、客户端、应用服务器端和代理服务器端进行。不同的数据采集方法不仅在数据源位置方面不同，而且在可用数据的种类、被收集的数据段和其实现方面都不尽相同。数据预处理主要是通过数据清理和用户识别等操作，将能够精确反映用户浏览行为的数据提取出来并转换为挖掘算法可识别的格式，其结果直接关系到后续挖掘的质量。数据采集和预处理这两方面的工作占据了Web日志挖掘的很大一部分，是Web日志挖掘的基础和关键，也是Web日志挖掘研究的重难点。
　　通常的数据采集和预处理都是面向单站点环境进行，而本文则是面向多站点的Web日志挖掘，因此已有的数据采集方法就不再适合。为了能够采集到多站点下的用户浏览行为数据，本文提出了一种通过捕获HTTP协议数据包的网络嗅探采集方式。同时，面向多站点环境下采集到的数据由于具有海量、多样、异构、动态变化等特性，数据预处理工作也就不同于以往，特别是增加了数据清理的难度。针对这一问题，通过分析HTTP请求的特点本文提出了一种基于页面引用和时间关系的数据清理方法。
　　最后，在局域网平台上通过多次实验来考察本文提出的网络嗅探数据采集方法和基于引用和时间关系的数据清理方法的有效性。采用精确率、召回率和F度量值等指标分析实验数据。结果表明本文提出的面向多站点下的数据采集和预处理方法是有效可行的。

著录项

作者
张艳华;
展开▼
作者单位

重庆大学;

展开▼
授予单位重庆大学;
学科计算机系统结构
授予学位硕士
导师姓名张玉芳;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
Web日志挖掘; 数据采集; 数据预处理; 数据清理; HTTP请求;

相似文献

中文文献
外文文献
专利

1. Web日志挖掘中的数据预处理技术研究 [J] . 杨玉梅 . 科技视界 . 2014,第012期
2. Web日志挖掘中的数据预处理技术研究与实现 [J] . 李甲林 . 电脑知识与技术 . 2009,第014期
3. Web日志挖掘中的数据预处理技术研究 [J] . 马敏飞 . 宁波广播电视大学学报 . 2008,第001期
4. Web日志挖掘中数据预处理技术研究 [J] . 方元康 ,胡学钢 ,夏启寿 . 安庆师范学院学报（自然科学版） . 2008,第003期
5. Web日志挖掘中的数据预处理技术研究 [J] . 赵伟 ,何丕廉 ,陈霞 . 计算机应用 . 2003,第005期
6. 一种面向电力设备的分布式多站点环境监控系统 [C] . 刘曙光 ,吴惠红 ,王君贤 . 第五届全国智能化电器及应用研讨会 . 2001
7. Web日志挖掘中数据预处理算法的研究 [A] . 朱鹤祥 . 2009

面向多站点Web日志挖掘中的数据采集与预处理技术研究

摘要

著录项

相似文献

相关主题

期刊订阅