一种挖掘网页标题中命名实体的远距监督方法

摘要

本文提出了一种利用百度百科自然标注数据来远距监督网页标题中命名实体挖掘的新方法.首先,通过关联规则挖掘,从百科词条标签数据集中挖掘出层次化的类别结构;然后,以特定类别下百科实体的参考资料网址和相应网页标题作为训练数据,利用一种基于跳跃二元语法模型的贪心策略,学习得到网址和网页标题的混合模板,用于从网页标题中挖掘对应类别的命名实体.实验结果表明,相较于其他使用同类数据源的挖掘方法,该方法在挖掘效率、召回量以及部分类别的准确率上都有显著提升.

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号