基于示例的中文Web信息自动获取系统的研究与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

现有的基于关键词的搜索引擎虽然在一定程度上满足了用户查询各种网络信息的需要，但是没有考虑用户个体间的差异，无法满足人们日益增长的个性化需求。中小型智能个性化网络信息获取系统凭借比搜索引擎更为优质的网络信息获取服务赢得了越来越多的用户的认同，已经成为个性化网络信息获取技术的一个重要研究方向。但是，中小型智能个性化网络信息获取系统在用户个性特征提取、基于用户兴趣的Web信息采集、网页过滤等方面研究的滞后制约了这类系统的开发和使用。为此，本文通过基于示例的中文Web信息自动获取系统的研发对这些问题展开了研究。本文主要对中文示例Web页面的特征抽取、待过滤Web信息源的采集、Web页面的过滤等系统开发过程中面临的技术难题进行了研究，提出一些新的算法、机制：为了减轻用户的使用负担，提出了一种适用于少量中文正例Web页面的特征抽取方法，使得用户即使只提交一至两个示例也可完成兴趣定制，增强了系统的易用性；提出了一种基于元搜索的Web页面聚焦采集机制，能快速、有针对性地采集待过滤Web信息源，节约系统资源和网络资源；提出了一种可调节的过滤阈值设定方法，可按用户选取的过滤精确等级向用户推送兴趣Web页面。另外，改进了基于分块的HTML网页去噪解析方法，可以有效地剔除各种页面噪声、解析出Web页面的正文文本内容；设计的系统构架具有较好的可扩展性、可维护性、可伸缩性以及可靠性，对其它个性化Web信息获取系统的开发也具有一定的借鉴意义。最后在上述基础上，确立了系统的技术方案，并据此实现了一个原型系统。系统采用的技术方案是：采用多层客户机/服务器体系结构，引入伪正例Web页面并结合《人民日报》切分标注语料抽取用户提交的少量示例网页的特征来建立用户兴趣模板、设置过滤阈值，构建元搜索引擎获取待过滤Web信息源，使用向量空间模型过滤出兴趣网页并将它们推送给用户，根据用户对结果的反馈自适应地修改用户兴趣模板。实验结果表明，较基于关键词的机器人搜索引擎而言，系统能充分考虑用户的兴趣偏好(示例)，以较小的资源代价长期、主动地向用户提供更加准确的Web信息获取服务，具有一定的实用价值。

著录项

作者
张春元;
展开▼
作者单位

海南大学;

展开▼
授予单位海南大学;
学科通信与信息系统
授予学位硕士
导师姓名康耀红;
年度 2005
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;
关键词
特征抽取; 中文Web页面; 信息获取; 信息采集; 文本过滤; 网络信息; 搜索引擎;

相似文献

中文文献
外文文献
专利

1. 基于少量示例的个性化Web信息自动获取系统 [J] . 张春元 ,康耀红 ,雷景生 . 郑州大学学报（理学版） . 2006,第004期
2. 基于示例的Web信息自动获取系统的设计与实现 [J] . 张春元 ,康耀红 . 计算机应用 . 2005,第B12期
3. 基于示例的Web信息自动获取系统的设计与实现 [J] . 张春元 ,康耀红 . 计算机应用 . 2005,第0z1期
4. 基于Google Web API的中文训练库自动获取方法研究 [J] . 胡燕 ,张颂扬 . 计算机与数字工程 . 2008,第005期
5. 基于Web信息自动获取构建生物信息二级数据库 [J] . 王攀 ,鲁强 ,曾绍群 . 高技术通讯 . 2004,第005期
6. 基于多示例学习的Web目录网页推荐系统 [C] . . 中国人工智能学会第10届全国学术年会 . 2003
7. 基于Google Web API的中文训练库自动获取方法研究与实现 [A] . 张颂扬 . 2008

基于示例的中文Web信息自动获取系统的研究与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅