基于朴素贝叶斯Web新闻内容的抽取方法

罗永莲; 赵昌垣; 贾玉芳; 芦彩林

首页> 中文期刊> 《计算机与现代化》 >基于朴素贝叶斯Web新闻内容的抽取方法

基于朴素贝叶斯Web新闻内容的抽取方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

针对网页信息自动抽取问题,提出一种将网页按标记分块并根据朴素贝叶斯理论从中识别新闻正文的方法.该方法将各分决的标记信息、文本相似度以及字长特征作为机器学习的特征属性.为提高标记属性的表征作用,减少相关标记之间的干扰,算法采用x2检验法来检验标记属性之间以及标记属性与类别之间的相关性并实现属性约减.新闻正文抽取过程中同时考虑正文与非正文分块的后验概率,以提高抽取准确率.实验结果表明,选取适当的参数值,抽取新闻正文的准确率达到85％.

著录项

来源
《计算机与现代化》 |2016年第1期|59-6368|共6页
作者
罗永莲; 赵昌垣; 贾玉芳; 芦彩林;
展开▼
作者单位

晋中学院信息技术与工程学院;

山西晋中030619;

晋中学院信息技术与工程学院;

山西晋中030619;

晋中学院信息技术与工程学院;

山西晋中030619;

晋中学院信息技术与工程学院;

山西晋中030619;

展开▼
原文格式 PDF
正文语种 chi
中图分类文字信息处理;
关键词
朴素贝叶斯; 新闻网页; 网页分块; 正文抽取; 相关性检验;

相似文献

中文文献
外文文献
专利

1. 基于WEB新闻内容的信息抽取方法研究 [J] . 沈娜 . 江西科技学院学报 . 2015,第003期
2. 基于标签路径特征融合的在线Web新闻内容抽取 [J] . 吴共庆 ,胡骏 ,李莉 . 软件学报 . 2016,第003期
3. 基于节点属性与正文内容的海量Web信息抽取方法 [J] . 王海艳 ,曹攀 . 通信学报 . 2016,第010期
4. 基于Web内容的一种数据自动抽取方法 [J] . 朱永生 ,王军 . 计算机技术与发展 . 2012,第005期
5. 基于通配符节点话题权重的Web新闻抽取方法 [J] . 张恺航 ,徐克付 ,张闯 . 计算机工程 . 2019,第004期
6. 一种基于web的新闻文本抽取方法 [C] . 朱建华 . 第二十四届全国计算机信息管理学术研讨会 . 2010
7. 基于标签路径特征系的Web新闻内容抽取方法研究 [A] . 李莉 . 2014

基于朴素贝叶斯Web新闻内容的抽取方法

摘要

著录项

相似文献

相关主题

期刊订阅