基于网页内容相似度改进算法的主题网络爬虫

魏晶晶; 杨定达; 廖祥文

首页> 中文期刊> 《计算机与现代化》 >基于网页内容相似度改进算法的主题网络爬虫

基于网页内容相似度改进算法的主题网络爬虫

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

主题网络爬虫是垂直搜索引擎的重要组成部分,传统主题爬虫的网页内容相似度算法只考虑词频,忽略了关键词的位置信息.本文在分析基于网页内容相似度的主题爬虫的基础之上,提出利用网页HTML标签的特点改进相似度的计算方法.实验结果表明,改进算法抓取的平均准确率为64.99％,相比原始方法提高了15.37％.%Focused crawler is an important part of the vertical search engine. The Web content relevance algorithm of traditional focused crawler only considers term frequency, ignores the location information of key terms. After the analysis of the focused crawler based on the Web content relevance, this paper proposes an improved method of calculating relevance using the features of HTML tags. Experimental results show that the average accuracy of improved algorithm is 64.99% and increases 13.37% compared to the original method.

著录项

来源
《计算机与现代化》 |2011年第9期|1-4|共4页
作者
魏晶晶; 杨定达; 廖祥文;
展开▼
作者单位

福建江夏学院电子信息科学系;

福建福州350108;

福州大学数学与计算机科学学院;

福建福州350108;

福州大学数学与计算机科学学院;

福建福州350108;

展开▼
原文格式 PDF
正文语种 chi
中图分类算法理论;
关键词
搜索引擎; 主题网络爬虫; 相似度; 向量空间模型; HTML标签;

相似文献

中文文献
外文文献
专利

1. 基于TF-IDF改进算法的聚焦主题网络爬虫 [J] . 王景中 ,邱铜相 . 计算机应用 . 2015,第010期
2. 基于改进VIPS算法的主题退火爬虫技术 [J] . 黄锦敬 ,黄锦焕 ,陈瑞志 . 计算机仿真 . 2021,第008期
3. 一种改进的基于遗传和蚁群算法的主题爬虫 [J] . 孔伟俊 ,胡广朋 . 信息技术 . 2017,第009期
4. 基于遗传算法的主题爬虫策略改进 [J] . 陈一峰 ,赵恒凯 ,余小清 . 计算机仿真 . 2010,第010期
5. 基于改进Hits算法的多主题爬虫研究与实现 [J] . 曾水香 ,罗林波 . 福建电脑 . 2010,第005期
6. 垂直搜索引擎主题爬虫搜索算法的一种改进算法 [C] . 左晓骏 ,张开拓 . 2010年亚太青年通信与技术学术会议 . 2010
7. 基于网页内容和链接的主题爬虫研究与实现 [A] . 罗林波 . 2010

基于网页内容相似度改进算法的主题网络爬虫

摘要

著录项

相似文献

相关主题

期刊订阅