首页> 中国专利> 一种智能政策信息采集与分析系统

一种智能政策信息采集与分析系统

摘要

本发明公开了一种智能政策信息采集与分析系统,涉及政策信息服务技术领域,为解决现有的不能够及时采集最新政策信息进行分析处理以及处理分析的过程中效率较低的问题。所述政策信息采集模块、网络爬虫模块、采集数据库、政策分析模块、分析数据库和检索模块,所述政策分析模块包括政策分析控制模块、索引处理模块、摘要汇成模块、政策信息去重模块、政策信息分类模块、政策归集模块和政策热点话题识别模块,所述网络爬虫模块包括登录管理模块、页面数据解析模块和采集优化模块。

著录项

  • 公开/公告号CN113012009A

    专利类型发明专利

  • 公开/公告日2021-06-22

    原文格式PDF

  • 申请/专利权人 南京畅丰信息科技有限公司;

    申请/专利号CN202110101853.4

  • 发明设计人 冯志强;

    申请日2021-01-26

  • 分类号G06Q50/26(20120101);G06F16/25(20190101);G06F16/335(20190101);G06F16/383(20190101);G06F16/951(20190101);G06Q10/10(20120101);

  • 代理机构32320 南京禾易知识产权代理有限公司;

  • 代理人王彩君

  • 地址 211100 江苏省南京市江宁开发区迎翠路7号1幢314室(江宁开发区)

  • 入库时间 2023-06-19 11:32:36

说明书

技术领域

本发明涉及政策信息服务技术领域,具体为一种智能政策信息采集与分析系统。

背景技术

随着互联网的不断发展,通过对不同来源数据的管理、处理、分析与优化,将结果反馈到实际应用中,将创造出巨大的经济和社会价值。数据化时代不仅为政策信息服务注入新的发展动力,还将为政策信息服务带来深刻的变革,以实现资源集约化利用。

但是,现有的政策信息服务系统在使用的过程中存在一些缺陷:一、目前的政策发布渠道较多,且获得的方式受登录限制以及受多种方式传达消息的影响,不能够及时采集最新政策信息进行分析处理;二、在采集政策信息的过程中,由于信息量较大,且重复性较强,导致政策信息服务系统在处理分析的过程中效率较低,因此不满足现有的需求,对此我们提出了一种智能政策信息采集与分析系统。

发明内容

本发明的目的在于提供一种智能政策信息采集与分析系统,以解决上述背景技术中提出的不能够及时采集最新政策信息进行分析处理以及处理分析的过程中效率较低的问题。

为实现上述目的,本发明提供如下技术方案:一种智能政策信息采集与分析系统,包括政策信息采集模块、网络爬虫模块、采集数据库、政策分析模块、分析数据库和检索模块,其中:

政策信息采集模块,所述政策信息采集模块通过互联网获取政策信息,且政策信息采集模块与网络爬虫模块相连接;

网络爬虫模块,网络爬虫模块将互联网上获取政策信息的半结构化数据进行结构化提取,通过人工配置的文本处理脚本,将政策网站的内容结构化;

采集数据库,所述采集数据库与网络爬虫模块相连接,经过网络爬虫模块结构化提取的政策信息数据在采集数据库进行储存;

政策分析模块,所述政策分析模块与采集数据库相连接,所述政策分析模块对采集数据库中的政策数据信息首先经过组合运用,再对组合后的内容进行自动化分析,提供准确政策分析结构;

分析数据库,所述分析数据库与政策分析模块相连接,经过分析处理的政策信息在分析数据库进行储存。

优选的,所述政策分析模块包括政策分析控制模块、索引处理模块、摘要汇成模块、政策信息去重模块、政策信息分类模块、政策归集模块和政策热点话题识别模块,其中:

政策分析控制模块,采用消息总线控制机制,将每一个采集后的政策文本作为一条消息,进入消息处理流程,按照政策类型,定制不同的处理流程;

索引处理模块,向索引系统提交信息,删除信息,查询信息等各种索引交互功能;

摘要汇成模块,封装了文本内容信息自动摘要的功能,该功能实现了自动抽取内容信息主干,为用户形成文字摘要的目的;

政策信息去重模块,通过提取政策网页信息关键特征,形成政策网页内容的信息特征,利用该特征,可以计算政策信息转载和网页内容去重;

政策信息分类模块,包括政策关键字设置和政策类别跟踪两大功能,通过人工设定长期关注的关键字,再由政策类别跟踪功能从信息流中获取相关的信息并分类到该关键字之中来实现类别跟踪;

政策归集模块,根据设定的各种政策目标,对各类政策的信息进行归集,并持久化归集结果;

政策热点话题识别模块,通过含有信息源权威加权的文本聚类技术,从信息流中获取当日各平台讨论的政策热点信息。

优选的,所述网络爬虫模块包括登录管理模块、页面数据解析模块和采集优化模块,其中:

登录管理模块,负责在数据库中维护登录信息列表,并针对需要登录的情况进行模拟登录,该列表为所有需要登录认证的政策发布页面提供人工设定的登录信息,同时封装已登录认证信息的共享池,让采集线程可以共享登录状态而不需要重复登录认证;

页面数据解析模块,封装了政策网页信息提取与结构化的方法,包括人工设定脚本、根据脚本解析Web页面数据、结构化信息持久化等功能;

采集优化模块,针对不同的政策发布媒体制定优化的采集流程,该模块通过组合上面的基本功能模块,来实现对不同政策发布媒体信息的优化采集。

优选的,所述政策信息采集模块的目标对象为政策发布官网、主流政策发布媒体、政策论坛、广播新闻。

优选的,所述政策信息采集模块包括网页采集器、媒体信息采集器、论坛信息采集器和广播新闻采集器。

优选的,所述检索模块与分析数据库相连接,用户通过检索模块对所需的政策信息进行了解。

与现有技术相比,本发明的有益效果是:

1、本发明通过设置有网络爬虫模块,网络爬虫模块负责执行从网络上获取大量含有政策信息的网页的任务,技术人员预先设置政策网页的链接,将网页上的政策信息下载到本地服务器,再将政策信息进行提取,分别存入标题、正文、部门、日期等字段中,为分析功能做数据准备,网络爬虫模块由三个功能模块组成,登录管理模块,负责在政策网页库中维护不同政策页面的登录信息列表,并针对需要登录的情况进行模拟登录,该列表为所有需要登录认证的政策发布页面提供技术人员设定的登录信息,同时封装已登录认证信息的共享池,让采集线程可以共享登录状态而不需要重复登录认证;页面数据解析模块,负责将半结构化网页信息进行结构化处理;采集优化模块,针对不同的政策发布媒体制定优化的采集流程,该模块通过组合上面的基本功能模块,来实现对不同政策发布媒体信息的优化采集,通过这种方式,针对不同的政策网络媒体配置不同的采集策略和采集步骤,能够高效化对不同网页中的政策信息进行快速提取,避免了因登录条件以及受多种方式传达消息的影响,那么在实际使用的过程中,能够第一时间获取政策发布信息,避免用户及时了解。

2、本发明通过设置有政策分析模块,运用目前成熟的索引、汇成技术,文本分类技术,文本归集技术等进行组合运用,对采集下来的政策信息进行信息过滤、内容分类、政策热点话题发现等自动化内容分析,再通过人工修正结果,为用户提供较为准确的政策分析结果。

附图说明

图1为本发明的政策信息采集与分析系统原理图;

图2为本发明的政策信息采集模块原理图;

图3为本发明的网络爬虫模块原理图。

图中:1、政策信息采集模块;2、网络爬虫模块;3、采集数据库;4、政策分析模块;5、分析数据库;6、检索模块;7、政策分析控制模块;8、索引处理模块;9、摘要汇成模块;10、政策信息去重模块;11、政策信息分类模块; 12、政策归集模块;13、政策热点话题识别模块;14、网页采集器;15、媒体信息采集器;16、论坛信息采集器;17、广播新闻采集器;18、登录管理模块; 19、页面数据解析模块;20、采集优化模块。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。

请参阅图1-3,本发明提供的一种实施例:一种智能政策信息采集与分析系统,包括政策信息采集模块1、网络爬虫模块2、采集数据库3、政策分析模块 4、分析数据库5和检索模块6,其中:

政策信息采集模块1,政策信息采集模块1通过互联网获取政策信息,且政策信息采集模块1与网络爬虫模块2相连接;

网络爬虫模块2,网络爬虫模块2将互联网上获取政策信息的半结构化数据进行结构化提取,通过人工配置的文本处理脚本,将政策网站的内容结构化;

采集数据库3,采集数据库3与网络爬虫模块2相连接,经过网络爬虫模块 2结构化提取的政策信息数据在采集数据库3进行储存;

政策分析模块4,政策分析模块4与采集数据库3相连接,政策分析模块4 对采集数据库3中的政策数据信息首先经过组合运用,再对组合后的内容进行自动化分析,提供准确政策分析结构;

分析数据库5,分析数据库5与政策分析模块4相连接,经过分析处理的政策信息在分析数据库5进行储存。

进一步,政策分析模块4包括政策分析控制模块7、索引处理模块8、摘要汇成模块9、政策信息去重模块10、政策信息分类模块11、政策归集模块12和政策热点话题识别模块13,其中:

政策分析控制模块7,采用消息总线控制机制,将每一个采集后的政策文本作为一条消息,进入消息处理流程,按照政策类型,定制不同的处理流程;

索引处理模块8,向索引系统提交信息,删除信息,查询信息等各种索引交互功能;

摘要汇成模块9,封装了文本内容信息自动摘要的功能,该功能实现了自动抽取内容信息主干,为用户形成文字摘要的目的;

政策信息去重模块10,通过提取政策网页信息关键特征,形成政策网页内容的信息特征,利用该特征,可以计算政策信息转载和网页内容去重;

政策信息分类模块11,包括政策关键字设置和政策类别跟踪两大功能,通过人工设定长期关注的关键字,再由政策类别跟踪功能从信息流中获取相关的信息并分类到该关键字之中来实现类别跟踪;

政策归集模块12,根据设定的各种政策目标,对各类政策的信息进行归集,并持久化归集结果;

政策热点话题识别模块13,通过含有信息源权威加权的文本聚类技术,从信息流中获取当日各平台讨论的政策热点信息。

通过这种方式,对采集下来的政策信息进行信息过滤、内容分类、政策热点话题发现等自动化内容分析,再通过人工修正结果,为用户提供较为准确的政策分析结果。

进一步,网络爬虫模块2包括登录管理模块18、页面数据解析模块19和采集优化模块20,其中:

登录管理模块18,负责在数据库中维护登录信息列表,并针对需要登录的情况进行模拟登录,该列表为所有需要登录认证的政策发布页面提供人工设定的登录信息,同时封装已登录认证信息的共享池,让采集线程可以共享登录状态而不需要重复登录认证;

页面数据解析模块19,封装了政策网页信息提取与结构化的方法,包括人工设定脚本、根据脚本解析Web页面数据、结构化信息持久化等功能;

采集优化模块20,针对不同的政策发布媒体制定优化的采集流程,该模块通过组合上面的基本功能模块,来实现对不同政策发布媒体信息的优化采集。

通过这种方式,针对不同的政策网络媒体配置不同的采集策略和采集步骤,能够高效化对不同网页中的政策信息进行快速提取,避免了因登录条件以及受多种方式传达消息的影响,那么在实际使用的过程中,能够第一时间获取政策发布信息,避免用户及时了解。

进一步,政策信息采集模块1的目标对象为政策发布官网、主流政策发布媒体、政策论坛、广播新闻,广泛的政策信息采集目标能够提高政策信息服务系统的精准性。

进一步,政策信息采集模块1包括网页采集器14、媒体信息采集器15、论坛信息采集器16和广播新闻采集器17,网页采集器14、媒体信息采集器15、论坛信息采集器16和广播新闻采集器17能够分别对政策发布官网、主流政策发布媒体、政策论坛、广播新闻内的政策消息进行数据转化,以便于网络爬虫模块2进行提取。

进一步,检索模块6与分析数据库5相连接,用户通过检索模块6对所需的政策信息进行了解。

工作原理:首先对政策信息源进行采集,技术人员预先设置政策网页的链接,将网页上的政策信息下载到本地服务器,登录管理模块在政策网页库中维护不同政策页面的登录信息列表,并针对需要登录的情况进行模拟登录,通过网页采集器14、媒体信息采集器15、论坛信息采集器16和广播新闻采集器17 对政策发布官网、主流政策发布媒体、政策论坛、广播新闻内的政策信息进行数据转化,发送至页面数据解析模块19和采集优化模块20,针对不同的政策发布媒体制定优化的采集流程,采集完成的信息在采集数据库3进行储存,之后政策分析模块4对采集数据库3中的数据进行解析,政策分析控制模块7将每一个采集后的政策文本作为一条消息,进入消息处理流程,按照政策类型,定制不同的处理流程,摘要汇成模块9抽取内容信息主干,为用户形成文字摘要,政策信息去重模块10通过提取政策网页信息关键特征,形成政策网页内容的信息指纹,利用该特征,可以计算政策信息转载和网页内容去重,政策信息分类模块11通过人工设定长期关注的关键字,再由政策类别跟踪功能从信息流中获取相关的信息并分类到该关键字之中来实现类别跟踪,最后根据设定的各种政策目标,对各类政策的信息进行归集,并持久化归集结果,最终用户通过检索模块6对所需的信息进行查找。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号