Automatic Data Extraction From Template Generated Web Pages

机译：从模板生成的网页中自动提取数据

获取原文

获取原文并翻译 | 示例

页面导航

摘要
著录项
相似文献
相关主题

摘要

Information Retrieval calls for accurate web page data extraction. To enhance retrieval precision, irrelevant data such as navigational bar and advertisement should be identified and removed prior to indexing. We propose a novel approach that identifies the web page templates and extracts the unstructured data. Our experimental results on several different web sites demonstrate the feasibility of our approach.

机译：信息检索要求准确地提取网页数据。为了提高检索精度，应在索引之前识别并删除不相关的数据（例如导航栏和广告）。我们提出了一种新颖的方法，该方法可以识别网页模板并提取非结构化数据。我们在几个不同网站上的实验结果证明了我们方法的可行性。

著录项

来源
《International Conference on Parallel and Distributed Processing Techniques and Applications(PDPTA'03) v.2; 20030623-20030626; Las Vegas,NV; US》|2003年|P.642-648|共7页
会议地点 Las Vegas NV(US);Las Vegas NV(US)
作者
Ling Ma; Nazli Goharian; Abdur Chowdhury;
展开▼
作者单位

Information Retrieval Laboratory Department of Computer Science Illinois Institute of Technology;

展开▼
会议组织
原文格式 PDF
正文语种 eng
中图分类一般性问题;
关键词
automatic template removal; text extraction; information retrieval;

机译：自动模板移除；文本提取；信息检索;

相似文献

外文文献
中文文献
专利

1. Unsupervised Structured Data Extraction from Template-generated Web Pages [J] . Tomas Grigalis, Antanas ?enys Journal of Universal Computer Science . 2014,第2期

机译：从模板生成的网页中进行无监督的结构化数据提取
2. Automatic Data Extraction from Websites for Generating Aquatic Product Market Information [J] . YUAN Hong-chun, CHEN Ying, SUN Yue-fu Journal of Dong Hua University . 2006,第6期

机译：从网站自动提取数据以生成水产品市场信息
3. TEXT: Automatic Template Extraction from Heterogeneous Web Pages [J] . Kim ChulyunShim Kyuseok Knowledge and Data Engineering, IEEE Transactions on . 2011,第4期

机译：文本：从异构网页中自动提取模板
4. Automatic Extraction of Web Data Records Containing User-Generated Content [C] . Xinying Song, Jing Liu, Yunbo Cao, CIKM 10;ACM conference on information and knowledge management . 2011

机译：自动提取包含用户生成内容的Web数据记录
5. Post-supervised template induction for information extraction from lists and tables in Web sources. [D] . Shi, Zhongmin. 2002

机译：监督后的模板归纳，用于从Web源中的列表和表中提取信息。
6. Performing Label-Fusion-Based Segmentation Using Multiple Automatically Generated Templates [O] . M. Mallar Chakravarty, Patrick Steadman, Matthijs C. van Eede, 2013

机译：执行标签的融合基于分割使用多个自动生成的模板
7. Automatic Data Extraction from Template-Generated Web Pages [O] . Yang Shao-hua, Lin Hai-lüe, Han Yan-bo 2014

机译：从模板生成的网页中自动提取数据

Automatic Data Extraction From Template Generated Web Pages

摘要

著录项

相似文献

相关主题

期刊订阅