首页> 中文会议>第29届中国数据库学术会议 >一种从中文网页中抽取信息的综合方法

一种从中文网页中抽取信息的综合方法

页面导航

摘要
著录项
相似文献
相关主题

摘要

网页信息抽取旨在从网页中抽取出结构化信息,网页中不仅仅包含由自然语言构成的自由文本,同时也包含如表格、列表等半结构化文本,之前相关研究大多仅针对单种文本进行抽取,提出了一种同时从自由文本和半结构化文本中抽取信息的综合方法.采用启发式规则,从页面中筛选出自由文本和半结构化文本,之后针对自由文本采用分词、词性标注、命名实体识别等自然语言处理技术和基于规则进行信息抽取,同时采用包装器归纳的方法归纳出单槽规则用于半结构化文本信息抽取,最终将从两种文本中抽取出的信息进行整合.通过将此综合方法应用于企业注册信息的抽取,并对其抽取效果进行评估,实验数据表明综合方法信息抽取的F1值比单独采用自由文本或半结构化文本信息抽取方法都有了非常显著的提高.

著录项

来源
《第29届中国数据库学术会议》|2012年|171-178|共8页
会议地点合肥
作者
Chen Jin; 陈劲; Lin Huaizhong; 林怀忠; Chen Fangshu; 陈方疏; Xu Duanqing; 许端清;
展开▼
作者单位

中国计算机学会;

展开▼
会议组织
正文语种
原文格式 PDF
中图分类 TP393.09;
关键词
中文网页; 信息提取; 自然语言处理; 效果评估;

相似文献

中文文献
外文文献
专利

1. 一种网页信息抽取算法的研究与实现 [J] . 王孟博 . 青岛远洋船员职业学院学报 . 2021,第004期
2. 一种基于网页信息抽取的OA期刊资源采集方法研究 [J] . 黄政 ,张学福 . 数字图书馆论坛 . 2017,第005期
3. 一种基于特征符号的网页主题信息抽取方法 [J] . 王舒 ,朱敏 ,张明 . 计算机应用研究 . 2009,第012期
4. 一种全自动生成网页信息抽取Wrapper的方法 [J] . 梅雪 ,程学旗 ,郭岩 . 中文信息学报 . 2008,第001期
5. 一种从网页中抽取评论内容的方法和装置 [J] . . 电脑与电信 . 2014,第4期
6. 一种全自动生成网页信息抽取Wrapper的方法 [C] . 梅雪 ,中国科学院成都计算机应用研究所 ,中国科学院研究生院 . 第三届全国信息检索与内容安全学术会议 . 2007
7. 基于区域块密度的网页信息抽取技术在移动网站开发中的研究与实现 [A] . 王琦 . 2014

一种从中文网页中抽取信息的综合方法

摘要

著录项

相似文献

相关主题

期刊订阅