首页> 中文会议>第六届全国信息检索学术会议 >基于多分类器的Deep Web入口发现

基于多分类器的Deep Web入口发现

摘要

Deep Web入口发现是Deep Web数据集成的关键问题之一,本文应用主题爬行技术和本体技术,构造网页分类器(WPC)、表单结构分类器(FSC)和表单内容分类器(FCC),实现特定领域Deep Web入口表单的自动发现。网页分类器在爬行过程中,借助主题爬行技术和本体技术进行领域内网页主题爬行;表单结构分类器对领域相关网页进行解析,并应用决策树算法判断其网页中是否存在查询接口表单,去除非搜索表单,将满足条件的表单加入表单数据库;表单内容分类器从语义方面识别特定领域Deep Web数据库入口的查询表单。最后将领域查询接口所在网页的URL 地址存储到数据库中,供其它模块调用。实验结果表明,本文提出的基于多分类器的Deep Web入口发现方法是可行的。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号