首页> 中国专利> 一种基于多策略的微博信息优先采集方法

一种基于多策略的微博信息优先采集方法

摘要

本发明涉及一种基于多策略的微博信息优先采集方法,在采集能力有限的情况下,通过构建多策略的优先采集方法,能够及时有效的获取到博主的信息。首先,通过构建分类模型对博主进行筛选,剔除掉垃圾博主,并根据微博数量和粉丝数量将剩余博主分为三大类。其次,针对不同类别,构建不同的采集策略。通过将大V博主的发博时间聚类,提取大V博主的最佳采集时间;通过博主的微博统计量,训练回归模型并预测博主的活跃度值,根据活跃度值将博主排序。最后,综合三大类的采集策略设计出了多策略的微博优先采集方法,并通过定期更新采集队列保持采集策略的时效性。实验表明本发明不仅可以及时有效的获取热点微博信息,且使得采集数量得到很大的提升。

著录项

  • 公开/公告号CN109670136B

    专利类型发明专利

  • 公开/公告日2021-04-27

    原文格式PDF

  • 申请/专利权人 北京工业大学;

    申请/专利号CN201811633421.2

  • 申请日2018-12-29

  • 分类号G06F16/958(20190101);G06F16/35(20190101);G06F16/9535(20190101);

  • 代理机构11203 北京思海天达知识产权代理有限公司;

  • 代理人吴荫芳

  • 地址 100124 北京市朝阳区平乐园100号

  • 入库时间 2022-08-23 11:42:01

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号