首页> 中国专利> 一种基于大数据驱动的公益诉讼线索研判系统和方法

一种基于大数据驱动的公益诉讼线索研判系统和方法

摘要

本发明公开了一种基于大数据驱动的公益诉讼线索研判方法,具体包括:针对不同的来源渠道及数据特点,制定相应的数据采集方案,并自动从多个渠道动态获取公益诉讼相关的案源信息,并对案源信息进行整合、清洗、转换,形成公益诉讼案源库;基于大数据、自然语言处理等技术,构建公益诉讼线索研判模型,自动对获取的案源信息进行精准分类、分析研判,计算出线索研判指数,并对大于预设阈值的线索主动推送给检察官进行办理。本发明实现了海量案源数据的采集、治理、分析、研判、预警,有效拓展了公益诉讼案源渠道,提升了从海量案源数据中筛查公益诉讼线索的质效,增强了公益诉讼线索发现的及时性、准确性。

著录项

  • 公开/公告号CN112270633A

    专利类型发明专利

  • 公开/公告日2021-01-26

    原文格式PDF

  • 申请/专利权人 河南金明源信息技术有限公司;

    申请/专利号CN202011156746.3

  • 发明设计人 贾俊亮;刘玉岭;谢玉军;侯彬锋;

    申请日2020-10-26

  • 分类号G06Q50/26(20120101);G06F16/35(20190101);G06F16/335(20190101);G06F16/33(20190101);G06F16/31(20190101);

  • 代理机构41126 郑州立格知识产权代理有限公司;

  • 代理人崔卫琴

  • 地址 450000 河南省郑州市金水区139号河南外包产业园B4(A期天元I)号

  • 入库时间 2023-06-19 09:40:06

说明书

技术领域

本发明属于案件线索研判技术领域,具体涉及一种基于大数据驱动的公益诉讼线索研判系统和方法。

背景技术

随着科学技术的进步,特别是云计算、大数据、人工智能等信息技术已经经历了起步期、初步应用、系统推广、深度学习等阶段,现已应用于多个领域,这给公益诉讼检察办案工作提供了新途径、新手段。将大数据、人工智能等信息技术,全面应用到检察公益诉讼工作中是非常有必要的。

现有公益诉讼案源采集及线索研判技术存在如下缺陷和不足:一是公益诉讼作为一项新业务,其案件面临着来源种类多、数量大、数据类型复杂、案件线索难以提取等难题,而现有技术只能对案件数据进行采集归类、可视化展示等,无法协助检察机关从全局的角度归纳、分析海量的案件数据,无法快速、定量的估计研判指数;二是普遍采用B/S架构和WEB浏览器访问业务的模式,多注重案件流转、案件审批,还停留在简单的业务整合,由于公益诉讼业务涉及领域多、涉案环节多,存在核心功能研发缺失、创新能力不足等问题;三是针对公益诉讼信息化系统的研发,主要集中在舆情线索采集、查询统计分析等方面,面对海量多源异构案源数据,难以快速准确定位案件线索、难以提供智能化辅助应用。

发明内容

为了解决现有技术的不足,本发明旨在提供一种基于大数据驱动的公益诉讼线索研判方法,以解决现有技术无法从全局的角度归纳、分析海量的案源数据,无法快速、定量计算公益诉讼线索研判指数的问题。

为了实现上述目的,本发明采用的技术方案为:

本发明提出了一种基于大数据驱动的公益诉讼线索研判系统,包括案源采集子系统、线索研判子系统和线索发现子系统;

所述案源采集子系统:用于针对不同的公益诉讼案源来源渠道及数据特点,制定相应的采集方案,并根据设定的数据采集方案,自动获取公益诉讼相关的案源信息,并对案源信息进行整合、清洗、转换,形成公益诉讼案源库;

所述线索研判子系统:用于构建线索研判模型,自动对获取的案源信息进行数据分类、分析研判,自动计算案源的研判指数;

所述线索发现子系统:用于根据研判指数、预警规则动态分析预警,主动推送给检察官进行办理。

进一步的,所述案源采集子系统包括采集模块、案源预处理模块和案源管理模块;

所述采集模块:用于根据设定的数据采集方案,自动从行政机关业务系统、全网互联网媒体、政务服务网站、投诉举报网站动态获取公益诉讼相关的案源信息;

所述案源预处理模块:用于对获取的案源信息进行整合、清洗、转化,建立公益诉讼案源库;

所述案源管理模块:用于对行政执法信息、刑事案件信息、环保督察信息、全网舆情信息、投诉举报信息进行统一管理,按照来源渠道、所属领域、所属行业、管辖区域进行数据存储和数据检索。

进一步的,所述线索研判子系统包括线索研判模型模块、线索分类模块和线索计算模块;

所述线索研判模型模块:以行业分类、违法主体、违法事实、损害后果、社会影响为基础构建模型;

所述线索分类模块:通过公益诉讼来源类别、领域类别分析整合得出研判分类结果;

所述线索计算模块:根据线索研判模型,并结合研判计算公式计算线索研判指数。

进一步的,所述线索发现子系统包括线索展示模块、研判预警模块;

所述线索展示模块:用于按照研判指数、研判时间、所属领域、所属区域对公益诉讼线索进行排序展示;

所述研判预警模块:用于根据研判指数、预警规则进行动态分析预警,主动提示检察官进行办理。

相应的,本发明还提出了基于公益诉讼线索研判系统实现的线索研判方法,包括以下步骤:

1)根据不同的公益诉讼案源来源渠道及数据特点,制定相应的数据采集方案;

2)根据步骤1)预设的采集方案,从多个渠道采集公益诉讼案源信息;

具体包括:根据配置的渠道领域范围圈定需要采集案源信息的目标系统、媒体和网站;根据采集方案中的采集规则配置,对不同渠道案源数据采用相应的采集方式、流程和规则;利用采集方案中的采集关键词配置,对采集的案源信息进行匹配;

其中公益诉讼案源信息的采集渠道包括:行政机关业务系统、全网互联网媒体、政务服务网站、投诉举报网站;

3)对案源信息进行数据整合、清洗、转换,形成案源库;

4)构建以行业分类、违法主体、违法事实、损害后果、社会影响为基础的线索研判模型;

5)根据研判模型对案源信息进行分析,判断分类结果是否与公益诉讼相关;具体包括:

5-1)按照案源来源渠道进行分类,以得到来源类别;

5-2)根据公益诉讼领域类型、案由罪名和数据特点,建立关键词库;

5-3)提取所述案源关键要素,并与公益诉讼领域相关的关键词进行匹配定位,以得到领域类别;

5-4)整合来源类别、领域类别,形成对应的案源分类结果;

其中分类结果包括公益诉讼案源从来源渠道、关键要素的角度进行分类所得到的对应结果;

6)根据研判模型对案源信息进行研判指数分析计算;

7)判断研判指数是否大于预设阈值;

其中当案源信息的研判指数大于预设阀值时,判定其属于公益诉讼线索,否则判定其属于非公益诉讼线索,并存储在案源库中;

8)判断是否符合设定的预警规则;

其中预警规则包括根据工作设置专项活动规则、涉案主体历史处罚规则、涉案企业历史处罚规则;

9)对步骤8)的判断结果通过红绿灯报警形式进行动态预警;

10)按照研判指数、研判时间进行线索展示;

将判定不符合设定的预警规则,按照研判指数、研判时间进行线索展示;

11)判定属于非公益诉讼线索,并存储在案源库中;

将分类结果与公益诉讼不相关、研判指数低于预设阀值,判定属于非公益诉讼线索的判定信息存储在案源库中。

其中,步骤1)中采集方案具体包括采集方案名称配置、采集范围配置、采集时间配置、采集规则配置、采集关键词配置;

所述采集方案名称配置:用于标记每次案源采集程序的执行序列;

所述采集范围配置:用于确定公益诉讼案源涉及的渠道领域;

所述采集时间配置:用于确定公益诉讼案源采集程序执行时间;

所述采集规则配置:用于确定公益诉讼案源采集方式、流程和规则;

所述采集关键词配置:用于匹配公益诉讼相关的案源信息。

其中,步骤4)构建的线索研判模型包括侵害公益事实认定模型、履职责任主体模型、行政机关违法事实认定模型、利益持续受损模型;

所述侵害公益事实认定模型:用于判定侵害国家利益和社会公共利益的事实是否已经发生;

所述履职责任主体模型:用于判定是否有明确履职责任主体;

所述行政机关违法事实认定模型:用于判定行政机关违法事实是否存在;

所述利益持续受损模型:用于判定国家利益和社会公共利益是否持续受损。

其中,步骤6)具体包括:

6-1)根据线索研判模型对获取的案源进行分析研判;

6-2)根据线索研判模型对获取的案源进行研判指数计算;

具体的,研判指数的计算公式为:

研判指数=(指数1*权重1+指数2*权重2+…+指数n*权重n)/(权重1+权重2+…+权重n)

其中指数包括破坏程度、影响人数、影响范围、影响时间、涉案物品、涉案金额;权重是占比指标,权重值在0-10之间,值越高说明所占比重越大;

6-3)依据线索研判指数值大小、线索研判时间、来源渠道、所属领域、所属区域对公益诉讼线索进行排序。

其中,步骤9)中动态预警包括专题活动预警、涉案主体历史处罚预警、涉案企业历史处罚预警;

所述专题活动预警用于标记某一时间开展某一领域专题活动公益诉讼线索信息;

所述涉案主体历史处罚预警用于标记涉案主体存在历史行政处罚信息;

所述涉案企业历史处理预警用于标记涉案企业存在历史行政处罚信息。

本发明具有的有益效果为:

本发明针对不同的公益诉讼案源来源渠道及数据特点,制定相应的数据采集方案。根据数据采集方案,从行政机关业务系统、全网互联网媒体、政务服务网站、投诉举报网站等多个渠道采集公益诉讼案源信息,并对案源信息进行数据整合、清洗、转换,形成公益诉讼案源库;基于大数据、自然语言处理等技术,构建以行业分类、违法主体、违法事实、损害后果、社会影响等为基础的线索研判模型,自动对获取的案源信息进行精准分类、分析研判,自动筛选出符合公益诉讼条件的线索,并根据研判指数、预警规则等要素动态分析预警,主动推送给检察官进行办理。解决了现有技术无法从全局的角度收集、归纳、整合、分析海量的案源数据,无法快速、定量计算公益诉讼线索研判指数的问题,实现了海量案源数据的采集、治理、分析、研判、预警,拓展了公益诉讼案源的来源渠道,提升了从海量案源数据中研判公益诉讼线索的质效,增强了公益诉讼线索发现的及时性、准确性。

附图说明

图1为本发明公益诉讼线索研判系统的结构示意图;

图2为本发明案源采集子系统的结构示意图;

图3为本发明线索研判子系统的结构示意图;

图4为本发明线索发现子系统的结构示意图;

图5为本发明公益诉讼线索研判方法的流程示意图;

图6为本发明公益诉讼线索研判方法的子流程示意图;

图7为本发明公益诉讼线索研判方法的子流程示意图。

具体实施方式

为了更加清楚地说明本发明实施例的目的、技术方案和优点,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,下面所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在不付出创造性劳动性的前提下所获得的所有其他实施例,都属于本发明保护的范围。

应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其他特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其他情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

本发明提出了一种基于大数据驱动的公益诉讼线索研判系统,如图1所示该系统包括案源采集子系统、线索研判子系统和线索发现子系统。

如图2所示,案源采集子系统用于针对不同的公益诉讼案源来源渠道及数据特点,制定相应的采集方案,并根据设定的数据采集方案,自动获取公益诉讼相关的案源信息,并对案源信息进行整合、清洗、转换,形成公益诉讼案源库。案源采集子系统包括采集模块、案源预处理模块和案源管理模块。

其中采集模块用于根据设定的数据采集方案,自动从行政机关业务系统、全网互联网媒体、政务服务网站、投诉举报网站等渠道动态获取公益诉讼相关的案源信息;

案源预处理模块用于对获取的案源信息进行整合、清洗、转化等数据预处理,建立公益诉讼案源库;

案源管理模块用于对行政执法信息、刑事案件信息、环保督察信息、全网舆情信息、投诉举报信息进行统一管理,按照来源渠道、所属领域、所属行业、管辖区域等进行数据存储和数据检索。

如图3所示,线索研判子系统用于构建线索研判模型,自动对获取的案源信息进行数据分类、分析研判,自动计算案源的研判指数;线索研判子系统包括线索研判模型模块、线索分类模块和线索计算模块。

其中线索研判模型模块以行业分类、违法主体、违法事实、损害后果、社会影响为基础构建模型;主要包括侵害公益事实认定模型、履职责任主体模型、行政机关违法事实认定模型、利益持续受损模型。

线索分类模块通过公益诉讼来源类别、领域类别分析整合得出研判分类结果;如数据分类结果与公益诉讼相关联,则根据研判分析模型进行分析研判,否则判定属于非公益诉讼线索,存储在案源库中。

线索计算模块根据线索研判模型,并结合研判计算公式计算线索研判指数。

如图4所示,线索发现子系统用于根据研判指数、预警规则等要素动态分析预警,主动推送给检察官进行办理。线索发现子系统包括线索展示模块、研判预警模块。

其中线索展示模块用于按照研判指数、研判时间、所属领域、所属区域对公益诉讼线索进行排序展示。

研判预警模块用于根据研判指数、预警规则进行动态分析预警,主动提示检察官进行办理。

相应的,本发明还提供基于上述公益诉讼线索研判系统实现的线索研判方法,如图5所示,具体包括以下步骤:

步骤1)根据不同的公益诉讼案源来源渠道及数据特点,制定相应的数据采集方案。

采集方案具体包括采集方案名称配置、采集范围配置、采集时间配置、采集规则配置、采集关键词配置等。

其中,采集方案名称配置用于标记每次案源采集程序的执行序列;一个方案名称为一个执行序列,方案名称例如为“某某省某某厅行政处罚案件信息采集”。

采集范围配置用于确定公益诉讼案源涉及的渠道领域。例如行政执法机关业务系统、全网互联网媒体、政务服务网站、投诉举报网站等渠道,生态环境和资源保护、食品药品安全、国有资产保护、国有土地使用权出让、英烈权益保护等领域,从而明确每个数据采集方案获得的信息自动归类到对应的公益诉讼类型中。

采集时间配置用于确定公益诉讼案源采集程序执行时间。例如根据信息更新频次,设置采集时间,如每天、每周、每月等。

采集规则配置用于确定公益诉讼案源采集方式、流程和规则。例如数据接口采集、网站定制化爬虫、第三方全网舆情数据服务、定向实时监控、数据批量导入等数据采集方式,模拟人员操作习惯,设置数据采集流程和规则。针对来自行政执法机关业务系统的案源信息,数据采集难点在于要对接复杂多样的数据接口,为了扩大数据来源渠道,降低系统对接难度,通过数据接口方式进行案源采集。针对来自全网互联网媒体的案源信息,数据采集难点在于要从海量多源异构的数据中全面精准获取有效信息,通过第三方全网舆情数据服务和网站定制化爬虫方式获取案源信息。针对来自政务服务网站和投诉举报网站的信息,采用定向实时监控、数据批量导入方式获取案源信息。

采集关键词配置用于匹配公益诉讼相关的案源信息。例如当获取的案源信息中存在关键词中的一个或多个时,该信息进入公益诉讼案源库。

步骤2)根据步骤1)预设的采集方案,从多个渠道采集公益诉讼案源信息。

其具体包括:根据配置的渠道领域范围圈定需要采集案源信息的目标系统、媒体和网站。根据所述采集方案中的采集规则配置,对不同渠道案源数据采用相应的采集方式、流程和规则。利用所述采集方案中的采集关键词配置,对采集的案源信息进行匹配。

其中公益诉讼案源信息的采集渠道包括:行政机关业务系统、全网互联网媒体、政务服务网站、投诉举报网站等。

步骤3)对案源信息进行数据整合、清洗、转换,形成案源库。

其中数据整合用于对采集的案源信息进行数据整合,提取并存储特征信息,构建信息索引。数据清洗用于对采集的案源信息进行数据校验、数据拆分/合并,数据过滤、数据去重等。数据转换用于对字段内容转换、文件转换等。

步骤4)构建以行业分类、违法主体、违法事实、损害后果、社会影响为基础的线索研判模型。

其构建的线索研判模型包括侵害公益事实认定模型、履职责任主体模型、行政机关违法事实认定模型、利益持续受损模型。

其中侵害公益事实认定模型用于判定侵害国家利益和社会公共利益的事实是否已经发生。其中判定要素包括造成国家利益或社会公共利益破坏的违法行为人的情况,建设项目或相关污染防治设施的具体情况,行政许可和审批情况,实施违法行为的具体手段和方式,污染物的种类、数量,造成污染和破坏的范围和程度,污染排放时间、排放方式、排放去向和排放频率,污染治理措施实施情况,林地、耕地、草地、湿地等生态系统自然状态以及野生动植物受到破坏或伤害的时间、方式和过程等。

履职责任主体模型用于判定是否有明确履职责任主体,其评定要素包括侵权主体信息(组织机构代码名称、法定代表人、企业行业性质)、执法监督主体信息(如环保部门、国土部门、林业部门等)。

行政机关违法事实认定模型用于判定行政机关违法事实是否存在,其评定要素包括行政机关对某一违法行为进行查处的法律依据、程序流程、处罚条件、适用情形及处罚措施等。

利益持续受损模型用于判定国家利益和社会公共利益是否持续受损,其判定要素包括污染源的数量、位置和周边情况,污染排放时间、排放方式、排放去向和排放频率、资源遭受破坏的范围、程度、持续状态等。

步骤5)根据研判模型对案源信息进行分析,判断分类结果是否与公益诉讼相关。

如图6所示,具体包括:

5-1)按照案源来源渠道进行分类,以得到来源类别,例如从生态环境厅业务系统获取的案件数据,判断其属于行政执法信息类别。

5-2)根据公益诉讼领域类型、案由罪名和数据特点,建立关键词库。公益诉讼领域关键词是根据公益诉讼领域特点,形成的关键词划分,例如,生态环境和资源保护领域包括污染环境类、破坏资源类。污染环境类可细分成水污染、大气污染、固体废物污染、噪声污染、垃圾污染、核与辐射污染、海洋污染等。破坏资源类可细分成破坏士地资源、林业资源、矿产资源、草原资源、动植物资源等。按照这个类目继续向下总结,水污染又可细分成“总铅、总镍、总铜、总锌”等重金属有毒物质、污染环境罪等案由,如果案源要素信息触碰到上述污染物名称、案由罪名,此案源就有较大概率划分到生态环境和资源保护领域类别。

5-3)基于自然语言处理技术,从发生时间、所属区域、所属领域、违法主体、违法事实等多个维度识别提取所述案源关键要素,并与公益诉讼领域相关的关键词进行匹配定位,以得到领域类别。

5-4)整合来源类别、领域类别,形成对应的案源分类结果。

其中对应的分类结果是指公益诉讼案源从来源渠道、关键要素的角度进行分类所得到的对应结果。整合来源类别、领域类别,形成对应的分类结果,如分类结果与公益诉讼相关联,则根据研判分析模型进行分析研判,否则判定属于非公益诉讼线索,存储在案源库中。

步骤6)根据研判模型对案源信息进行研判指数计算。

如图7所示,具体包括:

6-1)根据线索研判模型对获取的案源进行分析研判;

6-2)根据线索研判模型对获取的案源进行研判指数计算;

具体的,研判指数的计算公式为:

研判指数=(指数1*权重1+指数2*权重2+…+指数n*权重n)/(权重1+权重2+…+权重n)

其中指数包括破坏程度、影响人数、影响范围、影响时间、涉案物品、涉案金额;权重是占比指标,权重值在0-10之间,值越高说明所占比重越大;例如破坏程度严重10分、破坏程度中等7分,影响范围大5分、影响范围一般3分等。

6-3)依据线索研判指数值大小、线索研判时间、来源渠道、所属领域、所属区域对公益诉讼线索进行排序。

步骤7)判断研判指数是否大于预设阈值。

案源信息的研判指数大于预设阀值时,判定其属于公益诉讼线索,否则判定其属于非公益诉讼线索,存储在案源库中。

其中预设阀值是根据若干已确定为公益诉讼的案件样本集综合得出的。

步骤8)判断是否符合设定的预警规则。

预警规则用于根据工作设置专项活动、涉案主体历史处罚、涉案企业历史处罚等。

步骤9)对步骤8)的判断结果通过红绿灯形式进行动态预警。

其中动态预警包括专题活动预警、涉案主体历史处罚预警、涉案企业历史处罚预警。

专题活动预警用于标记某一时间开展某一领域专题活动公益诉讼线索信息。例如开展“守护百姓舌尖安全”专项活动,通过设置该专项活动预警规则,自动对相关公益诉讼线索进行预警提示。

涉案主体历史处罚预警用于标记涉案主体存在历史行政处罚信息;

涉案企业历史处理预警用于标记涉案企业存在历史行政处罚信息。

步骤10)按照研判指数、研判时间进行线索展示。

判定不符合设定的预警规则,则按照研判指数、研判时间等进行线索展示。

步骤11)判定属于非公益诉讼线索,存储在案源库中。

对分类结果与公益诉讼不相关、研判指数低于预设阀值,判定属于非公益诉讼线索,存储在案源库中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号