首页> 中文期刊> 《计算机工程》 >基于通配符节点话题权重的Web新闻抽取方法

基于通配符节点话题权重的Web新闻抽取方法

         

摘要

现有Web新闻内容自动抽取方法多数未考虑文本中的话题特征,容易将样式排版与正文相似的噪音文本识别为正文内容.为此,提出基于通配符节点话题权重的抽取方法.将HTML文档解析成DOM树后,匹配DOM树对应的通配符树,并计算每个通配符中的话题权重,将高权重话题的通配符节点所覆盖的文本节点识别为正文节点.实验结果表明,与传统新闻抽取方法相比,该方法能降低Web新闻内容边缘噪音文本的错误识别率,抽取的新闻内容准确率更高.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号