面向蒙古文主题的网络爬虫采集策略模型

马志强; 张泽广; 闫瑞; 杨双涛

首页> 中文期刊> 《北京工业大学学报》 >面向蒙古文主题的网络爬虫采集策略模型

面向蒙古文主题的网络爬虫采集策略模型

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

Forecast of collecting URL and tunnel discovery are two core issues in Focused crawler for Mongolian website. Therefore, a collecting model was proposed based on topic group of site clustering, ordering and tunnel discovery. First, through the topic identification text, to be crawling URL was divided into the site links and non site links. Second, a URL priority ordering algorithm was established by using the text similarity and the hyperlink graph analysis, and an adaptive tunnel discovery algorithm based on website was designed. Finally, the system of focused crawler for the Mongolian website was constructed. The experimental results show that the accurate rate of collecting, the amount of information and the collection rate have been improved significantly compared than the baseline algorithm.%针对蒙古文主题爬虫主要面临的预测采集URL和发现隧道2个核心问题，提出一种基于主题团的站点聚类、排序和隧道发现的采集模型。通过站点的主题识别，将待爬行URL分为站点链接和非站点链接，使用文本相似度和超链图分析建立了预测URL优先级排序算法，基于站点粒度设计了站点自适应隧道发现算法，最后，构建了一个面向蒙古文主题的网络爬虫系统。实验结果表明：该算法在采准率、信息总量与采集速率上都得到了提高，明显优于基线算法。

著录项

来源
《北京工业大学学报》 |2015年第7期|1012-1019|共8页
作者
马志强; 张泽广; 闫瑞; 杨双涛;
展开▼
作者单位

内蒙古工业大学信息工程学院;

呼和浩特 010080;

内蒙古工业大学信息工程学院;

呼和浩特 010080;

内蒙古工业大学信息工程学院;

呼和浩特 010080;

内蒙古工业大学信息工程学院;

呼和浩特 010080;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
主题爬虫; 主题团模型; 相关度计算; 隧道; N-Gram模型;

相似文献

中文文献
外文文献
专利

1. 面向主题搜索的网络爬虫信息采集策略研究 [J] . 万文兵 . 软件导刊 . 2015,第011期
2. 面向主题搜索的网络爬虫信息采集策略研究 [J] . 万文兵 . 软件导刊 . 2015,第011期
3. 基于主题网络爬虫的服装信息采集 [J] . 李俊 ,周玉英 ,唐志航 . 信息技术与信息化 . 2018,第008期
4. 基于主题网络爬虫的创业政策信息采集研究与实现 [J] . 郑正 ,赵飞 ,周昕旸 . 电脑知识与技术 . 2017,第014期
5. 主题网络爬虫技术在高速公路信息采集中的应用 [J] . 张芳 ,王培进 . 烟台大学学报（自然科学与工程版） . 2017,第003期
6. 搭建面向主题的中文网络信息资源采集和服务平台 [C] . 郑慧霞 ,杨滨 . 中国医学科学院/北京协和医学院医学信息研究所/图书馆2007年学术年会 . 2008
7. 面向主题的舆情采集搜索爬虫的设计与实现 [A] . 李玉华 . 2009

面向蒙古文主题的网络爬虫采集策略模型

摘要

著录项

相似文献

相关主题

期刊订阅