基于HTML树的网页结构相似度研究

宋明秋; 张瑞雪

首页> 中文期刊> 《情报学报》 >基于HTML树的网页结构相似度研究

基于HTML树的网页结构相似度研究

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

HTML web information is a kind of semi-structured data, and different web pages always have some kind of similarity in structure. From the perspective of information structure, this paper has studied the similarity between two different blocks of web information, and proposed a new model of calculating structural similarity based on optimally free matching on sub trees and a method of extracting web inornation by using structural similarity. All of algorithms in this paper are implemented by Python. We have calculated and analyzed the similarity between different web pages through experiment, which shows that our model of calculating structural similarity is of stronger systematicness and applicability.Compared with traditional method which relies on the monotony text information, the new structural-similarity-method makes full use of the relationship between different elements within a page or different pages, which makes web information extracting quicker and more accurate.%HTML网页信息是一种半结构化的数据,而且不同网页之间在其结构特征方面都具有一定的相似性.本文就是从信息的结构性角度来研究不同网页信息块之间的相似性,并提出了基于子树最优自由匹配规则的结构相似度度量模型以及利用网页结构相似性提取网页信息的方法.本文中的计算方法都用python语言实现.通过实验,本文对不同网页之间的相似度进行了计算和分析,实验数据表明,基于子树最优自由匹配规则的树结构相似度度量模型具有较好的系统性和适用性;通过树结构相似度来确定网页内部元素及两个网页之间的联系,也弥补了传统方法中依赖单调的文本信息比较的不足,使得网页信息提取更加准确,更加迅速.

著录项

来源
《情报学报》 |2011年第2期|160-165|共6页
作者
宋明秋; 张瑞雪;
展开▼
作者单位

大连理工大学系统工程研究所;

大连;

116023;

大连理工大学系统工程研究所;

大连;

116023;

展开▼
原文格式 PDF
正文语种 chi
中图分类
关键词
HTML树; 结构相似度; 自由匹配; 信息提取;

相似文献

中文文献
外文文献
专利

1. 一种改进的基于树路径匹配的网页结构相似度算法 [J] . 廖浩伟 ,杨燕 ,贾真 . 吉林大学学报（理学版） . 2012,第006期
2. 基于思维导图的《HTML5网页设计》课堂教学研究 [J] . 油晔 . 信息与电脑 . 2020,第002期
3. 基于html5+css3网页设计翻转教学的研究与实践 [J] . 杨雪 . 科教导刊-电子版（中旬） . 2020,第003期
4. 基于超星学习通在线教学平台的混合式教学实践与研究——以中职《HTML5+CSS3》网页设计课程为例 [J] . 林毅惠 . 电脑知识与技术：学术版 . 2020,第19期
5. BOPPPS教学模型下基于超星学习通在线学习平台的混合式教学实践研究——以《HTML5 CSS3》网页设计课程为例 [J] . 张明勇 . 武汉船舶职业技术学院学报 . 2019,第004期
6. 基于HtmlParser网页解析技术的信息提取实践 [C] . 刘小野 . 第二届中国石油石化产业“互联网+”应用发展大会 . 2016
7. 基于HTML5 Canvas的双目立体网页的生成研究 [A] . 董莹莹 . 2017

基于HTML树的网页结构相似度研究

摘要

著录项

相似文献

相关主题

期刊订阅