首页> 中文学位 >基于Web的用户个性化信息采集技术分析
【6h】

基于Web的用户个性化信息采集技术分析

代理获取

目录

文摘

英文文摘

声明

1绪论

1.1问题的提出及研究意义

1.1.1问题的提出

1.1.2研究的意义

1.2国内外研究现状

1.2.1搜索引擎的研究现状

1.2.2个性化服务研究现状

1.2.3个性化信息采集的研究现状

1.3本文研究的目的和研究内容

1.3.1论文研究目的

1.3.2论文研究内容

2个性化信息的获取

2.1引言

2.2显示信息的获取

2.3隐式信息的获取

2.3.1服务器日志分析法

2.3.2 Cookie

2.3.3点击流分析法

2.4相关兴趣度

2.4.1相关兴趣度的提出

2.4.2相关兴趣度的获取

2.5用户个性化信息模型

2.5.1用户模型的建模分类

2.5.2自定义的用户模型体系结构

2.5.3系统功能描述流程图

2.5.4用户模型的建立

2.5.5用户兴趣模型的更新

2.5.6返回结果的处理

2.6本章小结

3个性化信息采集系统及技术分析

3.1引言

3.2页面相关度判断

3.2.1根据元数据的判定

3.2.2基于Web页面内容的分析算法

3.2.3基于链接结构的分析

3.3采集策略选择

3.3.1盲目采集(Uninformed Search)

3.3.2启发式采集(Informed Search )

3.3.3并行采集(Parallel Search)

3.4个性化信息采集页面推荐技术

3.4.1向量空间(VSM)模型介绍

3.4.2个性化信息采集的推荐过程

3.4.3实验分析

3.5本章小结

4个性化信息采集性能优化

4.1引言

4.2相关度算法的改进

4.2.1基于链接的相关度算法的改进

4.2.2实验分析

4.3并行信息采集的研究

4.3.1并行采集模型

4.3.2 URL调度策略

4.3.3并行策略

4.3.4评估指标

4.3.5一种增量式并行Webcrawler模型

4.4页面刷新

4.4.1页面刷新策略

4.4.2增量式Web信息采集的页面刷新过程

4.5本章小结

5总结与展望

5.1主要结论

5.2后续研究工作的展望

致谢

参考文献

附录 作者在攻读学位期间发表的论文目录

展开▼

摘要

随着Internet的飞速发展和万维网(WWW)的日益庞大,Web资源的复杂程度更是以指数级的数量增长,导致人们在查找所需信息时不知所措。为了解决“信息过载”和“资源迷向”的问题,搜索引擎出现了。现今的搜索引擎往往具有通用性,排序机制中又没有考虑到用户的偏好,因而很难满足不同背景、不同目的的用户需求。个性化Web信息采集就是针对这个问题而提出来的。个性化Web信息采集的研究目标在于充分利用用户的个性化信息,通过用户兴趣制导或与用户交互等灵活手段来采集Web信息,充分利用网络信息,以更好地服务于用户的个性化需求。
   首先,介绍了个性化Web信息采集的研究背景和意义,个性化技术和Web信息采集的研究现状;
   其次,用户兴趣个性化信息的获取。分析了用户兴趣个性化显示和隐式信息的收集,介绍了个性化搜索引擎中有关用户建模的关键技术,提出了一种新的用户建模方法,即把手工定制建模和自动用户建模结合起来,根据用户的浏览行为引入了“相关兴趣度”,用来表示用户对页面感兴趣的程度,并更新用户兴趣模型。
   再次,介绍了个性化信息采集的流程,以及对采集结果相关度的常用算法。详细介绍了PageRank算法和HITS算法的核心技术,指出了PageRank算法忽视专业站点、对网页中的超链接评估不当之处。最后介绍了采集器使用多线程采集页面,提出常见的3种采集策略的介绍。
   最后,个性化Web信息采集的性能优化。分别从基于链接的相关度算法的改进、采用并行系统进行采集,页面刷新来实现。在相关度算法上,引入了面向主题的思想,重新计算连接关系对页面权重的影响的前提下,提出了一种新的基于链接分析的结果排序算法,有利于提高查询的精度。且提出多线程的增量式Web信息采集架构,提高采集效率同时,来解决并行采集中的网页消重、页面优化、内存不足等问题。且采用增量式信息采集进行页面刷新。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号