一种基于分块的Web数据实体抽取方法

摘要

文章对于如何从Web页面中抽取数据实体进行了研究,并提出一种新的方法,用于解决单个Web页面中出现多个可能的匹配实体时所产生的准确性问题。对于如何从Web页面中抽取数据实体,大多数已有的解决方法主要依赖于对Web页面的HTML DOM树和tags进行分析,这类方法过于依赖HTML的细节而缺乏对语义的支持,并没有很好地处理多主题对数据提取的准确性所带来的影响.文章中的方法则利用页面显示时的视觉信息将Web页面划分成多个块,然后在块这一层上在传统的文本检索技术上通过使用预定义规则来引入对语义的支持,并在出现多个匹配目标时进行块细分后的再定位,以使结果更加准确.实验表明该方法会取得非常好的准确性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号