一种基于统计的中文网页正文抽取方法

钱爱兵

首页> 中文期刊> 《情报学报》 >一种基于统计的中文网页正文抽取方法

一种基于统计的中文网页正文抽取方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

针对抽取中文网页正文的传统方法的不足,提出一种基于统计的中文网页正文抽取方法.该方法首先利用DOM树计算文本结点的文本密度,即文本长度与HTML源码长度之比,再利用贝叶斯判别准则计算密度区分阈值,最后根据文本密度与密度区分阈值的比较结果抽取正文,即大于密度区分阈值的结点就判定为正文文本结点,小于或等于密度区分阈值的结点则判定为非正文文本结点,将所有判定为正文文本结点的文本连接起来即为要抽取的网页正文.通过使用中文新闻类网页对该方法的有效性进行验证,结果表明:该方法虽然简单,但是抽取准确率极高且易于实现.

著录项

来源
《情报学报》 |2009年第2期|187-194|共8页
作者
钱爱兵;
展开▼
作者单位

南京中医药大学经贸管理学院;

南京;

210046;

展开▼
原文格式 PDF
正文语种 chi
中图分类情报学、情报工作;
关键词
文本密度; 文本结点; 正文抽取; 贝叶斯判别准则; DOM树;

相似文献

中文文献
外文文献
专利

1. 基于统计与正文特征的中文网页正文抽取研究 [J] . 周佳颖 ,朱珍民 ,高晓芳 . 中文信息学报 . 2009,第005期
2. 基于统计和机器学习的中文Web网页正文内容抽取 [J] . 游贵荣 ,陆玉昌 . 福建商业高等专科学校学报 . 2009,第002期
3. 基于正文特征和网页结构的网页正文抽取方法 [J] . 胡露露 ,刘小勤 ,孙凯 . 大气与环境光学学报 . 2017,第3期
4. 一种短正文网页的正文自动化抽取方法 [J] . 郗家贞 ,郭岩 ,黎强 . 中文信息学报 . 2016,第001期
5. 一种基于正文特征的新闻网页抽取方法 [J] . 孔胜 ,王宇 . 情报杂志 . 2010,第008期
6. 基于统计的中文网页正文信息抽取方法研究 [C] . 李芳芳 ,葛斌 . 第三届全国社会计算会议、平行控制会议、平行管理会议 . 2011
7. 基于标点符号统计特征的中文类型网页正文抽取 [A] . 王楠 . 2012

一种基于统计的中文网页正文抽取方法

摘要

著录项

相似文献

相关主题

期刊订阅