首页> 中国专利> 一种基于文本分类模型的公平竞争审查辅助方法

一种基于文本分类模型的公平竞争审查辅助方法

摘要

本发明公开了一种基于文本分类模型的公平竞争审查辅助方法,包括构建政府政策文本信息库,获取政府发布的政策文本,进行子类划分,采集不同的政策文本,构建预训练语言模型,通过专家对采集的政策文本进行标注数据,识别政策文本内专家标注的数据,对审查样本库内部的政策文本进行模型训练分析,根据训练分析结果对政策文本进行初筛和复核,统计不同政策文本的公平审查结果,对构建的模型进行信息迭代,旨在解决原有的相似度模型准确率不高,缺少语义理解的问题,根据政府的政策文书搭建模型实时训练数据,通过对文本的自主学习,得到文本的语义特征,利用该模型对待审查的政府政策文件进行分类审查,辅助专家进行判断,减少审查的人力成本。

著录项

  • 公开/公告号CN114860882A

    专利类型发明专利

  • 公开/公告日2022-08-05

    原文格式PDF

  • 申请/专利权人 南京物浦大数据有限公司;

    申请/专利号CN202210550470.X

  • 申请日2022-05-18

  • 分类号G06F16/33(2019.01);G06F16/335(2019.01);G06F16/35(2019.01);G06F40/216(2020.01);G06F40/30(2020.01);G06N3/08(2006.01);

  • 代理机构南京安藤洋知识产权代理事务所(普通合伙) 32660;

  • 代理人孙清晓

  • 地址 210000 江苏省南京市建邺区嘉陵江东街18号3栋2层295室

  • 入库时间 2023-06-19 16:17:34

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-23

    实质审查的生效 IPC(主分类):G06F16/33 专利申请号:202210550470X 申请日:20220518

    实质审查的生效

  • 2022-08-05

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及自然语言处理领域,具体是一种基于文本分类模型的公平竞争审查辅助方法。

背景技术

公平竞争审查制度,是指约束政府的行为,以确保今后政府出台的各种产业、投资政策,都要以不破坏统一市场和公平竞争为前提。公平竞争审查制度是针对国家和政府的行政法规、政策措施以及地方性法规和政策,在这些制度性文件出台的时候要提前审核其内容,确保其符合竞争政策,避免对市场竞争的不利影响。

公平竞争审查制度的审查对象为,行政机关和法律、法规授权的具有管理公共事务职能的组织,这些组织在制定市场准入、产业发展、招商引资、招标投标、政府采购、经营行为规范、资质标准等涉及市场主体经济活动的规章、规范性文件和其他政策措施,应当进行公平竞争审查。

现有的审查方案如果利用法务人员对政府出台的政策文本进行逐一审查是非常费时且费力的工作,并且人工审查容易出现遗漏的情况,且现有的审查制度基于相似性模型来进行判断,但目前,利用相似度模型判断方法存在一定的缺陷,利用相似度模型判断方法缺少了对于文本语义上的理解,只是对词语上进行相似比较,相似度模型准确率不高,它只是与审查标准的文本进行比较,但是许多政府政策的文本表述与审查标准相去甚远,难以做出合理的判断。

本申请旨在构建公平竞争审查辅助技术方法,解决原有的相似度模型准确率不高,缺少语义理解的问题,根据政府的政策文书搭建模型实时训练数据,通过对文本的自主学习,得到文本的语义特征,利用该模型对待审查的政府政策文件进行分类审查,辅助专家进行判断,减少审查的人力成本。

发明内容

本发明的目的在于提供一种基于文本分类模型的公平竞争审查辅助方法,以解决现有技术中的问题。

为实现上述目的,本发明提供如下技术方案:

一种基于文本分类模型的公平竞争审查辅助方法:

S1:构建政府政策文本信息库,获取政府发布的政策文本,对不同的政策文本进行关键词标记,按照不同的关键词进行分类,对分类后的政策文本按照发布时间、优先级、新增记录和文本有效性进行子类划分;

S2:采集不同的政策文本,筛查不同政策文本是否存在专家标注数据,对不同的政策文本按照有专家标注数据和无专家标注数据进行分类,提取无专家标注数据的政策文本,进行预训练,构建预训练语言模型,预训练模型结构采用BERT模型结构;

S3:通过专家对采集的政策文本进行标注数据,识别政策文本内专家标注的数据,对标注内容按照违反审查标准和不违反审查标准对提取出的政策文本进行分类,将分类后的政策文本按照类别录入审查样本库,对审查样本库内部的政策文本进行模型训练分析;

S4:根据训练分析结果对政策文本进行初筛和复核,统计不同政策文本的公平审查结果,对构建的模型进行信息迭代。

进一步设置:步骤S1中,对分类后的政策文本按照发布时间、优先级、新增记录和文本有效性进行子类划分,还包括以下步骤:

S1-1:对分类后的政策文本的发布时间按照年份进行统计划分子类,对每一年份的政策文本按照发布优先级进行二次归类;

S1-2:筛查不同年份重复的政策文本数据,判断该重复的政策文本数据是否存在新增记录,当重复政策文本数据存在新增记录,对年份在前的政策文本数据标记为历史记录数据;

S1-3:审查政策文本数据的有效性,获取不同政策文本的发布时间,对发布时间大于设定阈值的政策文本进行重点标记审查,统计政府政策文本信息库内部不同政策文本的浏览数据,分析不同政策文本的浏览数据的平均值,设定不同政策文本的浏览数据的平均值为R(f),设定某一政策文本浏览数据为R(0),当

进一步设置:步骤S2中,提取无专家标注数据的政策文本,进行预训练,构建预训练语言模型,预训练模型结构采用BERT模型结构,还包括以下步骤:

S2-1:采集任意政策文本,对采集的政策文本内部任意字符进行遮蔽,将已遮蔽字符的政策文本输入预训练语言模型,预训练语言模型利用政策文本上下文对已遮蔽字符进行预测;

S2-2:统计预训练语言模型的预测准确率,将预测准确率与设定阈值进行比对,当准确率低于设定阈值,对预训练语言模型调整策略参数,继续训练,当准确率高于或等于设定阈值,停止训练;

S2-3:对预训练语言模型无法预测已遮蔽字符的政策文本进行循环重复训练,直至达到预测准确。

进一步设置:步骤S3中,将分类后的政策文本按照类别录入审查样本库,对审查样本库内部的政策文本进行模型训练分析,还包括以下步骤:

S3-1:设定审查样本库内部有N个审查标准,添加不违反所有审查标准选项,设定审查样本库包括N+1个审查类别,设定预训练语言模型内部输入的某一政策文本为x,该文本长度为L,设定其所述类别为y,将输入参数转为one-hot向量化表示,设定模型输出维度为N+1,类别y对应所在维度值为1,预训练BERT模型对该政策文本每个字进行映射,将文本的每个字映射到一个512维的高维向量空间,该政策文本通过BERT模型处理转变为L×512的hidden向量;

S3-2:对政策文本不同字的向量求平均值,将该政策文本表示为一个512维的text向量,利用一个全连接层+softmax,将text向量映射为概率向量prop,设定全连接层+softmax包含一个权重矩阵w,其维度设定为R

S3-3:利用交叉熵损失函数计算得到预训练语言模型预测结果概率和真实结果的损失值,设定预测结果概率和真实结果的损失值为loss,利用反向传播去调整预训练语言模型参数,根据公式:

x=(x

hidden=Bert(x),hidden∈R

text=average(hidden),text∈R

prop=softmax(w·text),w∈R

根据上述公式对输入的政策文本进行模型训练,直到损失值不再下降,搭建政策文本审查类别分类模型。

进一步设置:步骤S3-3中,根据政策文本审查类别分类模型对待审查的政策文本进行分类筛查,政策文本审查类别分类模型输出每一政府文本所属的审查标准类别的概率,对该政府文本所属的不同审查标准类别的概率进行统计,按照每一审查标准类别的概率大小进行降序排序,提取概率最大的审查标准类别作为该政府文本所属的审查类别,同时筛查政府文本是否违反审查标准,对违反审查标准的政府文本进行突出标记。

进一步设置:步骤S4中,根据训练分析结果对政策文本进行初筛和复核,统计不同政策文本的公平审查结果,对构建的模型进行信息迭代,还包括以下步骤:

S4-1:获取不同政府文本所属的审查类别,剔除违反审查标准的政府文本,形成初步筛查统计列表,将列表发送至人工审核通道,专家对初步筛查统计列表内部的初筛结果进行复核;

S4-2:统计不同政府文本的复核结果,形成最终筛查统计列表,将最终筛查统计列表作为政府文本公平审查结果上传至政府政策文本信息库;

S4-3:将最终筛查统计列表同时录入审查样本库,定期任意调用审查样本库内部标注的政府文本输入预训练语言和政策文本审查类别分类模型进行重新预训练和审查训练,进行模型信息迭代训练。

与现有技术相比,本发明的有益效果是:本发明旨在构建公平竞争审查辅助技术方法,解决原有的相似度模型准确率不高,缺少语义理解的问题,根据政府的政策文书搭建模型实时训练数据,通过对文本的自主学习,得到文本的语义特征,利用该模型对待审查的政府政策文件进行分类审查,辅助专家进行判断,减少审查的人力成本。

附图说明

为了使本发明的内容更容易被清楚地理解,下面根据具体实施例并结合附图,对本发明作进一步详细的说明。

图1为本发明一种基于文本分类模型的公平竞争审查辅助方法的步骤示意图;

图2为本发明一种基于文本分类模型的公平竞争审查辅助方法中S1具体步骤示意图;

图3为本发明一种基于文本分类模型的公平竞争审查辅助方法的S2具体步骤示意图;

图4为本发明一种基于文本分类模型的公平竞争审查辅助方法的S3具体步骤示意图;

图5为本发明一种基于文本分类模型的公平竞争审查辅助方法的S4具体步骤示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1~5,本发明实施例中,一种基于文本分类模型的公平竞争审查辅助方法:

S1:构建政府政策文本信息库,获取政府发布的政策文本,对不同的政策文本进行关键词标记,按照不同的关键词进行分类,对分类后的政策文本按照发布时间、优先级、新增记录和文本有效性进行子类划分;

具体参照图2,上述步骤中,对分类后的政策文本按照发布时间、优先级、新增记录和文本有效性进行子类划分,还包括以下步骤:

S1-1:对分类后的政策文本的发布时间按照年份进行统计划分子类,对每一年份的政策文本按照发布优先级进行二次归类;

S1-2:筛查不同年份重复的政策文本数据,判断该重复的政策文本数据是否存在新增记录,当重复政策文本数据存在新增记录,对年份在前的政策文本数据标记为历史记录数据;

S1-3:审查政策文本数据的有效性,获取不同政策文本的发布时间,对发布时间大于设定阈值的政策文本进行重点标记审查,统计政府政策文本信息库内部不同政策文本的浏览数据,分析不同政策文本的浏览数据的平均值,设定不同政策文本的浏览数据的平均值为R(f),设定某一政策文本浏览数据为R(0),当

S2:采集不同的政策文本,筛查不同政策文本是否存在专家标注数据,对不同的政策文本按照有专家标注数据和无专家标注数据进行分类,提取无专家标注数据的政策文本,进行预训练,构建预训练语言模型,预训练模型结构采用BERT模型结构;

具体参照图3,上述步骤中,提取无专家标注数据的政策文本,进行预训练,构建预训练语言模型,预训练模型结构采用BERT模型结构,还包括以下步骤:

S2-1:采集任意政策文本,对采集的政策文本内部任意字符进行遮蔽,将已遮蔽字符的政策文本输入预训练语言模型,预训练语言模型利用政策文本上下文对已遮蔽字符进行预测;

S2-2:统计预训练语言模型的预测准确率,将预测准确率与设定阈值进行比对,当准确率低于设定阈值,对预训练语言模型调整策略参数,继续训练,当准确率高于或等于设定阈值,停止训练;

S2-3:对预训练语言模型无法预测已遮蔽字符的政策文本进行循环重复训练,直至达到预测准确。

S3:通过专家对采集的政策文本进行标注数据,识别政策文本内专家标注的数据,对标注内容按照违反审查标准和不违反审查标准对提取出的政策文本进行分类,将分类后的政策文本按照类别录入审查样本库,对审查样本库内部的政策文本进行模型训练分析;

具体参照图4,上述步骤中,将分类后的政策文本按照类别录入审查样本库,对审查样本库内部的政策文本进行模型训练分析,还包括以下步骤:

S3-1:设定审查样本库内部有N个审查标准,添加不违反所有审查标准选项,设定审查样本库包括N+1个审查类别,设定预训练语言模型内部输入的某一政策文本为x,该文本长度为L,设定其所述类别为y,将输入参数转为one-hot向量化表示,设定模型输出维度为N+1,类别y对应所在维度值为1,预训练BERT模型对该政策文本每个字进行映射,将文本的每个字映射到一个512维的高维向量空间,该政策文本通过BERT模型处理转变为L×512的hidden向量;

S3-2:对政策文本不同字的向量求平均值,将该政策文本表示为一个512维的text向量,利用一个全连接层+softmax,将text向量映射为概率向量prop,设定全连接层+softmax包含一个权重矩阵w,其维度设定为R

S3-3:利用交叉熵损失函数计算得到预训练语言模型预测结果概率和真实结果的损失值,设定预测结果概率和真实结果的损失值为loss,利用反向传播去调整预训练语言模型参数,根据公式:

x=(x

hidden=Bert(x),hidden∈R

text=average(hidden),text∈R

prop=softmax(w·text),w∈R

根据上述公式对输入的政策文本进行模型训练,直到损失值不再下降,搭建政策文本审查类别分类模型。

需要具体说明的是,步骤S3-3中,根据政策文本审查类别分类模型对待审查的政策文本进行分类筛查,政策文本审查类别分类模型输出每一政府文本所属的审查标准类别的概率,对该政府文本所属的不同审查标准类别的概率进行统计,按照每一审查标准类别的概率大小进行降序排序,提取概率最大的审查标准类别作为该政府文本所属的审查类别,同时筛查政府文本是否违反审查标准,对违反审查标准的政府文本进行突出标记。

S4:根据训练分析结果对政策文本进行初筛和复核,统计不同政策文本的公平审查结果,对构建的模型进行信息迭代。

具体参照图5,上述步骤还包括以下步骤:

S4-1:获取不同政府文本所属的审查类别,剔除违反审查标准的政府文本,形成初步筛查统计列表,将列表发送至人工审核通道,专家对初步筛查统计列表内部的初筛结果进行复核;

S4-2:统计不同政府文本的复核结果,形成最终筛查统计列表,将最终筛查统计列表作为政府文本公平审查结果上传至政府政策文本信息库;

S4-3:将最终筛查统计列表同时录入审查样本库,定期任意调用审查样本库内部标注的政府文本输入预训练语言和政策文本审查类别分类模型进行重新预训练和审查训练,进行模型信息迭代训练。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号