首页> 中文期刊> 《计算机与现代化》 >基于朴素贝叶斯Web新闻内容的抽取方法

基于朴素贝叶斯Web新闻内容的抽取方法

         

摘要

针对网页信息自动抽取问题,提出一种将网页按标记分块并根据朴素贝叶斯理论从中识别新闻正文的方法.该方法将各分决的标记信息、文本相似度以及字长特征作为机器学习的特征属性.为提高标记属性的表征作用,减少相关标记之间的干扰,算法采用x2检验法来检验标记属性之间以及标记属性与类别之间的相关性并实现属性约减.新闻正文抽取过程中同时考虑正文与非正文分块的后验概率,以提高抽取准确率.实验结果表明,选取适当的参数值,抽取新闻正文的准确率达到85%.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号