首页> 中文期刊> 《科技创新与应用》 >基于树先剪枝的网页正文抽取方法研究

基于树先剪枝的网页正文抽取方法研究

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

本文提出了基于树先剪枝技术和信息熵的抽取网页正文新方法。该方法通过对网页上的各种模板和正文进行分析，提取按照信息熵定位的正文网页，把该正文网页转化成DOM树，再删除噪音节点，生成抽取公共路径，抽取相关网页。经过试验验证，该方法降低了搜索的复杂度，提高了搜索的准确度，提高了搜索效率。

著录项

来源
《科技创新与应用》 |2013年第36期|63-64|共2页
作者
王亮; 高屹;
展开▼
作者单位

西藏民族学院信息工程学院;

陕西咸阳 712082;

西藏民族学院信息工程学院;

陕西咸阳 712082;

展开▼
原文格式 PDF
正文语种 chi
中图分类
关键词
剪枝技术; 信息熵; DOM树; 网页;

相似文献

中文文献
外文文献
专利

1. 基于正文特征和网页结构的网页正文抽取方法 [J] . 胡露露 ,刘小勤 ,孙凯 . 大气与环境光学学报 . 2017,第3期
2. 基于决策树的自适应网页正文抽取方法 [J] . 吕容政 ,刘嘉勇 . 现代计算机（专业版） . 2019,第007期
3. 基于扩展标记树的网页正文抽取 [J] . 夏天 . 广西师范大学学报（自然科学版） . 2011,第001期
4. 基于文本行特征的网页正文信息抽取方法研究 [J] . 刘志杰 ,潘洋 . 软件导刊 . 2017,第010期
5. 基于文本行特征的网页正文信息抽取方法研究 [J] . 刘志杰 ,潘洋 . 软件导刊 . 2017,第010期
6. 基于统计的中文网页正文信息抽取方法研究 [C] . 李芳芳 ,葛斌 . 第三届全国社会计算会议、平行控制会议、平行管理会议 . 2011
7. 基于标签路径特征的网页正文自适应抽取方法研究 [A] . 胡骏 . 2016

获取原文

客服邮箱：kefu@zhangqiaokeyan.com

京公网安备：11010802029741号 ICP备案号：京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有

客服微信
服务号