一种统一的Web新闻对象自动抽取方法

刘伟; 严华梁

首页> 中文期刊> 《计算机工程》 >一种统一的Web新闻对象自动抽取方法

一种统一的Web新闻对象自动抽取方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

This paper proposes a unified and automatic approach for extracting Web news object. By extracting the category, title, date, source, author, content, comments, related links and news links in the news pages as category properties, and through page analysis, candidate extraction and true value identification, news object can be extracted automatically. Experimental results show that the method for extracting information of objects multiple properties has high accuracy, and the result does not depend on a specific page template.%提出一种统一的Web新闻对象自动抽取方法.通过抽取新闻页面中的分类、标题、发布时间、来源、作者、内容、相关评论链接和相关新闻链接作为分类属性,经页面解析、候选值抽取、真值识别3个步骤,实现新闻对象的自动抽取.实验结果表明,该方法在同时抽取新闻对象的多个属性方面具有较高的准确性,且抽取结果不依赖于特定的页面模板.

著录项

来源
《计算机工程》 |2012年第11期|167-169|共3页
作者
刘伟; 严华梁;
展开▼
作者单位

中国科学技术信息研究所;

北京100038;

北京大学计算机科学技术研究所;

北京100871;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
Web数据抽取; 视觉特征; 序列标注; 网页模板; 新闻属性; 新闻对象;

相似文献

中文文献
外文文献
专利

1. 一种自动抽取Web数据对象的方法 [J] . 刘桂峰 ,李林 ,崔志明 . 计算机应用与软件 . 2009,第006期
2. 基于Web内容的一种数据自动抽取方法 [J] . 朱永生 ,王军 . 计算机技术与发展 . 2012,第005期
3. 一种Web评论自动抽取方法 [J] . 刘伟 ,严华梁 ,肖建国 . 软件学报 . 2010,第012期
4. 一种基于扩展DOM树的Web数据自动抽取方法 [J] . 陈远斌 . 应用科技 . 2009,第008期
5. 一种自动抽取Web信息方法的设计与实现 [J] . 胡国晴 ,李建华 . 计算机与现代化 . 2009,第001期
6. 一种基于树结构的Web数据自动抽取方法 [C] . 胡东东 ,孟小峰 . 第二十一届中国数据库学术会议 . 2004
7. 一种基于噪音过滤包装器的Web新闻抽取方法 [A] . 孙梦 . 2017

一种统一的Web新闻对象自动抽取方法

摘要

著录项

相似文献

相关主题

期刊订阅