首页> 中国专利> 政策数据筛选模型及政策数据加工方法

政策数据筛选模型及政策数据加工方法

摘要

本发明属于数据筛选技术领域,具体涉及一种政策数据筛选模型及政策数据加工方法,其中政策数据加工方法包括:构建政策数据收集数据库;根据政策数据收集数据库收集基本数据;根据政策数据筛选模型在基本数据中筛选核心数据;根据核心数据构建政策数据,实现了将网络上各政策数据的收集和整理,便于用户一次访问可以同时了解各种政策,节约了时间成本。

著录项

  • 公开/公告号CN113239018A

    专利类型发明专利

  • 公开/公告日2021-08-10

    原文格式PDF

  • 申请/专利权人 常州慈养林信息技术有限公司;

    申请/专利号CN202110613433.4

  • 发明设计人 卢剑伟;于世著;

    申请日2021-06-02

  • 分类号G06F16/21(20190101);G06F16/951(20190101);G06F16/245(20190101);

  • 代理机构32280 常州市权航专利代理有限公司;

  • 代理人赵慧

  • 地址 213000 江苏省常州市新北区府琛商务广场2幢813室

  • 入库时间 2023-06-19 12:10:19

说明书

技术领域

本发明属于数据筛选技术领域,具体涉及一种政策数据筛选模型及政策数据加工方法。

背景技术

随着网络技术的发展,传统的由纸质文件报刊等发布政策的途径现在更改为政策会在网络上第一时间进行发布,但是发布政策的网站较为多样,当需要了解多个政策的时候需要访问多个网站,费时费力。

因此,基于上述技术问题需要设计一种新的政策数据筛选模型及政策数据加工方法。

发明内容

本发明的目的是提供一种政策数据筛选模型及政策数据加工方法。

为了解决上述技术问题,本发明提供了一种政策数据筛选模型,包括:

其中,H(C

另一方面,本发明还提供一种政策数据加工方法,包括:

构建政策数据收集数据库;

根据政策数据收集数据库收集基本数据;

根据政策数据筛选模型在基本数据中筛选核心数据;

根据核心数据构建政策数据。

进一步,所述构建政策数据收集数据库的方法包括:

收集发布有政策信息的网站的网址,将各网址存储在数据库中,构成政策数据收集数据库。

进一步,所述根据政策数据收集数据库收集基本数据的方法包括:

采用网络爬虫的爬取方法在政策数据收集数据库中所有的网址中获取各网站的所有原始数据,并对原始数据进行筛选获取基本数据。

进一步,所述根据政策数据筛选模型在基本数据中筛选核心数据的方法包括:

将基本数据划分为段落集合,根据政策种类的关键词识别段落集合中每个段落的关键词,并在关键词中识别核心词,即

将段落划分为n个词形成词集合C,并识别词集合C中的关键词;

针对词集合C中关键词C

获取关键词C

其中,H(C

获取所有关键词的语境共现熵值后,将所有关键词的语境共现熵值进行比较,语境共现熵值最大的关键词为核心词;

根据政策种类的关键词判断核心词对应的政策种类,该核心词所属的段落内容对应该政策种类,进而判断每一个段落所属的政策种类。

进一步,所述根据核心数据构建政策数据的方法包括:

根据段落所属的政策种类将每一个段落划分至对应的政策种类,以构建政策数据。

本发明的有益效果是,本发明通过构建政策数据收集数据库;根据政策数据收集数据库收集基本数据;根据政策数据筛选模型在基本数据中筛选核心数据;根据核心数据构建政策数据,实现了将网络上各政策数据的收集和整理,便于用户一次访问可以同时了解各种政策,节约了时间成本。

本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明所涉及的根据政策数据筛选模型的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1

本实施例1提供了一种政策数据筛选模型,包括:

其中,H(C

实施例2

在实施例1的基础上,本实施例2还提供一种政策数据加工方法,包括:构建政策数据收集数据库;根据政策数据收集数据库收集基本数据;根据政策数据筛选模型在基本数据中筛选核心数据;根据核心数据构建政策数据,实现了将网络上各政策数据的收集和整理,便于用户一次访问可以同时了解各种政策,节约了时间成本。

在本实施例中,政策数据筛选模型适于采用实施例1中的政策数据筛选模型。

在本实施例中,所述构建政策数据收集数据库的方法包括:收集发布有政策信息的网站的网址,将各网址存储在数据库中,构成政策数据收集数据库。

在本实施例中,所述根据政策数据收集数据库收集基本数据的方法包括:采用网络爬虫的爬取方法在政策数据收集数据库中所有的网址中获取各网站的所有原始数据,并对原始数据进行筛选获取基本数据;可以采用不同的爬取技术以应对不同网站的反爬虫策略,例如Requests、Selenium等;采用Beautifulsoup、Selenium等技术对网站上原始数据基尼选哪个筛选,去除原始数据中HTML标签、CSS样式等,获取基本数据,该基本数据即为各网站上发布的含有政策的数据。

在本实施例中,所述根据政策数据筛选模型在基本数据中筛选核心数据的方法包括:将基本数据划分为段落集合,根据政策种类的关键词识别段落集合中每个段落的关键词,并在关键词中识别核心词,即将段落划分为n个词形成词集合C,并识别词集合C中的关键词;针对词集合C中关键词C

其中,H(C

在本实施例中,所述根据核心数据构建政策数据的方法包括:根据段落所属的政策种类将每一个段落划分至对应的政策种类,以构建政策数据;每一个政策种类的目录下有从其他网站收集具有该政策种类对应的关键词的段落内容,便于用户一次访问可以同时了解各种政策,节约了时间成本。

在本实施例中,政策种类的划分及政策种类关键词的提取可以根据所需采集的政策方向进行设置;例如,需要收集关于养老政策的数据时,可以划分和养老有关的政策种类及相关关键词,以精准的收集养老方面的政策。

综上所述,本发明通过构建政策数据收集数据库;根据政策数据收集数据库收集基本数据;根据政策数据筛选模型在基本数据中筛选核心数据;根据核心数据构建政策数据,实现了将网络上各政策数据的收集和整理,便于用户一次访问可以同时了解各种政策,节约了时间成本。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号