首页> 中文会议>第29届中国数据库学术会议 >一种从中文网页中抽取信息的综合方法

一种从中文网页中抽取信息的综合方法

摘要

网页信息抽取旨在从网页中抽取出结构化信息,网页中不仅仅包含由自然语言构成的自由文本,同时也包含如表格、列表等半结构化文本,之前相关研究大多仅针对单种文本进行抽取,提出了一种同时从自由文本和半结构化文本中抽取信息的综合方法.采用启发式规则,从页面中筛选出自由文本和半结构化文本,之后针对自由文本采用分词、词性标注、命名实体识别等自然语言处理技术和基于规则进行信息抽取,同时采用包装器归纳的方法归纳出单槽规则用于半结构化文本信息抽取,最终将从两种文本中抽取出的信息进行整合.通过将此综合方法应用于企业注册信息的抽取,并对其抽取效果进行评估,实验数据表明综合方法信息抽取的F1值比单独采用自由文本或半结构化文本信息抽取方法都有了非常显著的提高.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号