首页> 中文学位 >基于示例的中文Web信息自动获取系统的研究与实现
【6h】

基于示例的中文Web信息自动获取系统的研究与实现

代理获取

目录

文摘

英文文摘

原创性声明及使用授权说明

第1章绪论

1.1研究背景

1.2个性化网络信息获取技术的研究现状

1.3本文的研究意义

1.4本文的研究内容

第2章系统需求分析和总体设计

2.1基于示例的中文Web信息自动获取系统的定义

2.2系统需求分析

2.3系统总体设计

第3章基于示例的用户信息需求模型的建立

3.1中文Web页面的特征抽取

3.2 Web页面解析

3.3串频统计和词形匹配相结合的汉语自动分词方法

3.4基于少量中文正例Web页面的特征抽取方法

第4章待过滤Web信息源的采集

4.1 Web信息采集系统基本原理

4.2 Web信息采集面临的问题

4.3 Web信息采集方式

4.4基于元搜索的待过滤Web信息源的采集

第5章中文Web页面的过滤

5.1文本过滤与文本分类、文本检索的关系

5.2文本过滤的主要方法

5.3网页过滤器设计

5.4过滤阈值的设定

第6章系统实现

6.1系统技术方案

6.2系统开发平台

6.3数据库设计

6.4客户端的实现

6.5兴趣管理器的实现

6.6元搜索采集器的实现

6.7网页过滤器的实现

6.8系统的检全率和检准率

结束语

致谢

参考文献

攻读硕士学位期间发表的学术论文

展开▼

摘要

现有的基于关键词的搜索引擎虽然在一定程度上满足了用户查询各种网络信息的需要,但是没有考虑用户个体间的差异,无法满足人们日益增长的个性化需求。中小型智能个性化网络信息获取系统凭借比搜索引擎更为优质的网络信息获取服务赢得了越来越多的用户的认同,已经成为个性化网络信息获取技术的一个重要研究方向。但是,中小型智能个性化网络信息获取系统在用户个性特征提取、基于用户兴趣的Web信息采集、网页过滤等方面研究的滞后制约了这类系统的开发和使用。为此,本文通过基于示例的中文Web信息自动获取系统的研发对这些问题展开了研究。 本文主要对中文示例Web页面的特征抽取、待过滤Web信息源的采集、Web页面的过滤等系统开发过程中面临的技术难题进行了研究,提出一些新的算法、机制:为了减轻用户的使用负担,提出了一种适用于少量中文正例Web页面的特征抽取方法,使得用户即使只提交一至两个示例也可完成兴趣定制,增强了系统的易用性;提出了一种基于元搜索的Web页面聚焦采集机制,能快速、有针对性地采集待过滤Web信息源,节约系统资源和网络资源;提出了一种可调节的过滤阈值设定方法,可按用户选取的过滤精确等级向用户推送兴趣Web页面。另外,改进了基于分块的HTML网页去噪解析方法,可以有效地剔除各种页面噪声、解析出Web页面的正文文本内容;设计的系统构架具有较好的可扩展性、可维护性、可伸缩性以及可靠性,对其它个性化Web信息获取系统的开发也具有一定的借鉴意义。最后在上述基础上,确立了系统的技术方案,并据此实现了一个原型系统。系统采用的技术方案是:采用多层客户机/服务器体系结构,引入伪正例Web页面并结合《人民日报》切分标注语料抽取用户提交的少量示例网页的特征来建立用户兴趣模板、设置过滤阈值,构建元搜索引擎获取待过滤Web信息源,使用向量空间模型过滤出兴趣网页并将它们推送给用户,根据用户对结果的反馈自适应地修改用户兴趣模板。 实验结果表明,较基于关键词的机器人搜索引擎而言,系统能充分考虑用户的兴趣偏好(示例),以较小的资源代价长期、主动地向用户提供更加准确的Web信息获取服务,具有一定的实用价值。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号