首页> 中文会议>第二十四届中国数据库学术会议 >基于简单树匹配算法的Web页面结构相似性度量

基于简单树匹配算法的Web页面结构相似性度量

页面导航

摘要
著录项
相似文献
相关主题

摘要

网页结构相似性的度量是Web信息处理中的一项重要任务,在数据抽取和搜索引擎等研究领域有着潜在的重要研究价值.好的相似性度量方法可以提高数据抽取的准确率和速度,还可以提高搜索引擎的速度,提高返回数据的质量,减少大量冗余数据占据的存储空间.实现该任务的已有算法往往存在着计算复杂度过高的问题,针对这一问题研究HTML文档标签特点,减少传统算法中使用的算子,进而采用简单树匹配算法来计算Web文档之间的结构相似度.简单树匹配不允许结点的替换和跨层匹配,从而大大提高了算法的运行效率.实验结果表明,所提出的方法不论在速度还是精度上都优于著名的Bag of XPaths方法.

著录项

来源
《第二十四届中国数据库学术会议》|2007年|1-6|共6页
会议地点海口
作者
何昕; 谢志鹏;
展开▼
作者单位

中国计算机学会;

海南大学;

计算机研究与发展编辑部;

计算机科学编辑部;

展开▼
会议组织
正文语种
原文格式 PDF
中图分类信息处理（信息加工）;
关键词
Web文件相似度; 树匹配; 结构相似度;

相似文献

中文文献
外文文献
专利

1. 基于简单树匹配算法的Web页面结构相似性度量 [J] . 何昕 ,谢志鹏 . 计算机研究与发展 . 2007,第0z3期
2. 基于URL结构和访问时间的Web页面访问相似性度量 [J] . 李超锋 ,卢炎生 . 计算机科学 . 2007,第004期
3. 基于骨架树描述符匹配的物体相似性度量方法 [J] . 刘文予 ,刘俊涛 . 红外与毫米波学报 . 2005,第006期
4. 一种基于C4.5决策树算法的Web页面分类算法 [J] . 吕琳 ,刘培玉 . 山东师范大学学报（自然科学版） . 2015,第002期
5. 基于相似性度量的城市路网实体匹配算法 [J] . 陈万鹏 ,崔虎平 . 测绘与空间地理信息 . 2018,第012期
6. 基于网格与R树空间索引的矢量线图任意简单多边形窗口裁剪算法 [C] . 李楠 ,吴信才 ,马金金 . 第五届全国几何设计与计算学术会议(GDC2011) . 2011
7. 基于拓扑匹配子树方法的XML结构相似性度量方法研究 [A] . 范宝泉 . 2013

基于简单树匹配算法的Web页面结构相似性度量

摘要

著录项

相似文献

相关主题

期刊订阅