技术领域
本申请涉及信息提醒技术领域,特别是涉及养老保险补缴信息提醒方法及系统。
背景技术
本部分的陈述仅仅是提到了与本申请相关的背景技术,并不必然构成现有技术。
现在人们的生活水平提高了,逐渐也关注社会福利以及养老问题,根据《社会保险法》规定,只有累计交满了15年社保,才能在退休后领取养老金。如果达到了法定退休年龄,但还没有交满15年社保,可以延长缴费,延长缴费了5年还没有达到15年,可以一次性补缴满15年。
对于那些符合退休要求但因缴费年限不足的人员来说,本应在退休时享受到养老待遇,现在却要延迟5年才能享受到待遇。目前,针对此类人群,缺乏一种养老保险补缴信息提醒方法,现有技术中对于海量的养老保险数据没有实时监管,由工作人员人工查找待补缴人群存在以下技术问题:
第一,费时费力,查找到的待补缴人员,需要人工打电话逐一提醒;
第二,不够及时,通过人工在海量养老保险数据中逐一查找,不能够及时找到待补缴人员,依旧存在需要延迟时间享受养老保险的情况;
第三,不够精准,往往由工作人员找到的被提醒的待补缴人员还可能存在无能力补缴的情况,不能提前预测精准定位有能力提前缴够养老保险规定年限的人员,不能及时给予其缴费提醒。
发明内容
为了解决现有技术的不足,本申请提供了养老保险补缴信息提醒方法及系统;
第一方面,本申请提供了养老保险补缴信息提醒方法;
养老保险补缴信息提醒方法,包括:
从社会保险系统中,获取待分析数据;
对待分析数据进行预处理,得到预处理后的数据;
对预处理后的数据,进行特征提取,得到提取特征;
将提取的特征输入到预先训练好的支持向量机模型中,输出目标补缴人员;
向目标补缴人员的手机终端发出补缴信息提醒。
第二方面,本申请提供了养老保险补缴信息提醒系统;
养老保险补缴信息提醒系统,包括:
获取模块,其被配置为:从社会保险系统中,获取待分析数据;
预处理模块,其被配置为:对待分析数据进行预处理,得到预处理后的数据;
特征提取模块,其被配置为:对预处理后的数据,进行特征提取,得到提取特征;
输出模块,其被配置为:将提取的特征输入到预先训练好的支持向量机模型中,输出目标补缴人员;
提醒模块,其被配置为:向目标补缴人员的手机终端发出补缴信息提醒。
第三方面,本申请还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述第一方面所述的方法。
第四方面,本申请还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
第五方面,本申请还提供了一种计算机程序(产品),包括计算机程序,所述计算机程序当在一个或多个处理器上运行的时候用于实现前述第一方面任意一项的方法。
与现有技术相比,本申请的有益效果是:
基于参保人的社保参保缴费等信息,采用支持向量机算法,建立养老保险智能补缴预测模型,精准定位有能力提前缴够养老保险规定年限的人员,及时给予其缴费提醒,以便其到达退休年龄后可以及时的享受到退休养老待遇,减少其因为没有缴费足够养老保险年限,延迟享受待遇的情况。
本申请附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1是本申请实施例一的方法流程图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例一
本实施例提供了养老保险补缴信息提醒方法;
如图1所示,养老保险补缴信息提醒方法,包括:
S101:从社会保险系统中,获取待分析数据;
S102:对待分析数据进行预处理,得到预处理后的数据;
S103:对预处理后的数据,进行特征提取,得到提取特征;
S104:将提取的特征输入到预先训练好的支持向量机模型中,输出目标补缴人员;
S105:向目标补缴人员的手机终端发出补缴信息提醒。
作为一个或多个实施例,S101:从社会保险系统中,获取待分析数据;其中,所述待分析数据,包括:养老保险参保信息、企业职工养老保险参保信息、养老服务补贴给付信息等。
进一步地,所述S101还包括:将获取的待分析数据存储到数据库中,识别出对因变量有影响的所有变量。
示例性的,所述对因变量有影响的所有变量,包括:人员性别、年龄、用工形式、参保单位性质、险种类型、缴费基数、个人缴费比例、单位缴费比例、退休时间、缴费年限、连续缴费年限、补贴类型等内容。
作为一个或多个实施例,S102:对待分析数据进行预处理,得到预处理后的数据;具体步骤包括:
S1021:处理缺失数据;
S1022:清洗异常数据;
S1023:对数据进行采样处理;
S1024:将非数值数据转换为数值数据;
S1025:进行数据归一化处理,消除数据之间的量纲影响。
进一步地,所述S1021中,处理缺失数据;具体步骤包括:
采用均值插补、同类均值插补、多重插补或极大似然估计的方式对缺失数据进行处理。
进一步地,所述处理缺失数据,采用的方式,包括:均值插补、同类均值插补、随机森林填补缺失值;
示例性的,所述缺失数据,例如:缴费基数。应理解的,缺失数据主要是指这个变量的指标没有数据,例如一个人的缴费基数这个信息项的数据没有记录,也就是空的,没有数据,但对于后续我建模,这个数据项不能为空,否则不能进行有效建模。这时需要对缺失数据进行处理,处理的方法包括采用等。
进一步地,所述S1022中,清洗异常数据,其中异常数据,是指错误的数据或偏离期望值的数据。
进一步地,所述清洗异常数据,采用的方式包括:直接删除或者平均值修正;
示例性的,所述异常数据,例如年龄数据。
应理解的,异常数据是指那些录入错误以及含有不合常理的数据,是指样本中的个别值,其数值明显其他观测值。异常值也叫离群点,异常值分析也称为离群点分析。例如年龄这个信息项,如果人员年龄显示是200岁,0岁等显然就是不合理的,包括像是缴费基数、缴费比例、缴费金额、养老待遇金额等等信息都是会存在一些不合理的数据的,缴费金额出现特别高的,缴费比例超出1等等的异常错误数据。如何判定是否是异常值,通常可以采用箱型图、3σ原则、基于近邻度的离群点检测等一些方法确定出异常值,对异常值处理方法可以采用直接删除、平均值修正等方法。
期望值就是数学期望E(X),如果简单理解的话可以想成均值。只是对于离散型、连续型等不用数据,计算公式不同。我们判定是否是异常值通常可以采用箱型图、3σ原则、基于近邻度的离群点检测等一些方法确定出异常值。例如用箱型图,用四分位距对异常值进行检测,箱型图提供了识别异常值的一个标准,即异常值通常被定义为小于QL-1.5IQR或大于QU+1.5IQR的值。其中,QL称为下四分位数,表示全部观察值中有四分之一的数据取值比它小;QU称为上四分位数,表示全部观察值中有四分之一的数据取值比它大;IQR称为四分位数间距,是上四分位数QU与下四分位数QL之差,其间包含了全部观察值的一半。
除此之外还有其他很多方法等。以聚类法识别孤立点,对错误的值或偏离期望的孤立点值进行处理。
进一步地,所述S1023中,对数据进行采样处理,是对正负样本不平衡问题进行处理,采用smote算法生成新的样本数据。
进一步地,所述采样处理,采用过采样或负采样的方式进行处理;
应理解的,采样处理的对象是训练样本结果数据,也就是需要补缴(1标签)、不需要补缴(0标签)。在建模之前,尤其是对于机器学习建模处理分类预测问题的话,通常存在的一个问题就是类标签不平衡。对于训练数据集,1号样本和0号样本可能是极其不平衡的。
假设0号样本10000个,1号样本10个,就存在类标签不平衡的问题,要进行处理,采用过采样和负采样的方法进行处理。之所以要进行处理,是因为如果对于训练数据集,本身就是不平衡的,用这些训练数据集去建模的话,预测分类的结果可能本身是由于数据本身类标签不平衡导致的而不是建模得出的结果,而且希望的是1号样本这种少数类能够更敏感,模型更能够感知这种少数类。
进一步地,所述S1024中,将非数值数据转换为数值数据;具体步骤包括:
对于定序型数据,使用序号编码;对于定类型数据,使用独热编码;对于字符串型数据,采用词嵌入模型处理。
应理解的,对数据进行变换处理,将非数值型转换为数值型,以方便模型算法后续处理。
非数值型数据就是指的不是数据类型的,一般是类型数据。例如人员性别,男女需要转换成标签数据0,1。单位参保类型可能有十个类别,对应的我们转化成数值型0-9这样,参保类型、险种类型等等这些非数值型的数据均需转化成数值型数据,便于建模处理。
进一步地,所述S1025中,进行数据归一化处理,消除数据之间的量纲影响;具体步骤包括:对数据进行min-max归一化处理,将原始值通过min-max标准化映射成在区间[0,1]中的值。
归一化数据处理的对象例如缴费金额、缴费比例、年龄、月领养老金额等等数据它们的数值一样,金额可能取值范围是0-10000,年龄可能是0-100,缴费比例就是0-1,这样不同数据它的量纲是不同的,通过数据的归一化处理,将数据值映射到0-1这个区间或者-1-1这个区间,便于建模处理,减少因为数据量纲的不同导致的模型不准确的问题。
作为一个或多个实施例,S103:对预处理后的数据,进行特征提取,得到提取特征;具体步骤包括:Filter过滤或者递归特征消除;
Filter过滤:依据发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,将特征方差、特征相关系数或者卡方检验结果大于设定阈值的特征选择出来。其中涉及各特征方差的计算、各个特征对目标值的相关系数的计算以及卡方检验计算等。
递归特征消除:基于一个预测模型来进行多轮训练,选出目标特征。过程中特征被消除的次序就是特征的排序。
预测模型常见的有回归模型、SVM模型。
多轮训练的训练过程是采用LogisticRegression、SVM的模型对原始特征进行训练,得出特征的权重值,对这些权重值取绝对值,把最小绝对值剔除掉。不断循环递归,直至剩余的特征数量达到所需的特征数量。对于所需特征数量的确定,可以将RFE进化(递归特征消除法),形成RFECV,采用交叉验证的递归特征消除,计算所有子集的验证误差,然后选择那个误差率最小的子集所选择的特征。
应理解的,对预处理后的数据,进行特征提取,得到提取特征;用于剔除不相关或冗余的特征,减少特征个数,提高模型精确度,减少运行时间,降低学习任务的难度。
应理解的,通过Filter过滤,分析特征子集内部的特点来衡量特征的分类能力,评价特征相关性的评分函数和阈值判别法来选择出得分最高的特征子集。
应理解的,通过递归特征消除,给每一个特征随机指定一个权重,接着采用预测模型在这些原始的特征上进行训练,在获取到特征的权重值后,对这些权重值取绝对值,把最小绝对值剔除掉,不断循环递归,直至剩余的特征数量达到所需的特征数量。预测模型就是LogisticRegression、SVM的模型等。
作为一个或多个实施例,S104:将提取的特征输入到预先训练好的支持向量机模型中,输出目标补缴人员;所述预先训练好的支持向量机模型的训练步骤包括:
构建支持向量机模型;
构建训练集,所述训练集为已经完成补缴人员的数据特征;
将训练集输入到支持向量机模型中,对模型进行训练,当模型预测准确度超过设定阈值时,停止训练,得到训练好的支持向量机模型。
对训练好的支持向量机模型,采用混淆矩阵、KS值、ROC或AUC中一种或多种的模型评估方法,调整优化模型参数,得到最终训练好的支持向量机模型。
所述目标补缴人员,为符合当地退休要求,且有能力提前缴纳养老保险的人员。
这个模型的最终输出结果就是有能力补缴且需要补缴的人员。有能力是通过缴费基数、连续缴费月数、缴费金额等等特征不同判断出来的。
作为一个或多个实施例,S104:将提取的特征输入到预先训练好的支持向量机模型中,输出目标补缴人员;具体步骤包括:
S1041:特征空间隐式映射:将在原始空间不可分样本映射到高维空间中,让样本点在高维空间线性可分,使用核函数,将非线性特征空间映射到新的线性特征空间;
S1042:软间隔最大化处理:在多维空间中确定最大间隔超平面。引入松弛变量,两类样本分别分割在该超平面的两侧,两侧距离超平面最近的样本点到超平面的距离最大化;
S1043:利用最优分离超平面(分类决策函数)进行分类预测。
应理解的,通过特征隐式映射,将输入向量映射到一个高维特征向量空间,将非线性可分模式在特征空间中转化为线性可分模式。
通过软间隔最大化处理,定义多维空间的超平面方程,正例样本点、负例样本点都在平面上,将点到平面的距离转化为正负样本点的向量距离在竖直方向上的投影距离,得出点到平面的距离。
依据距离计算方法,找出最优的决策边界,利用对偶性,将原始问题转化为对偶问题,将求解距离最大的问题转换为极小问题。引入松弛变量和惩罚因子解决非线性分类,对原始样本数据做内积运算。
通过分类决策,依据分类决策函数,确定该人员是否需要补缴。
作为一个或多个实施例,S105:向目标补缴人员的手机终端发出补缴信息提醒;具体步骤包括:
对符合本地退休要求但因缴费年限不足,需要通过延趸交后才能延迟享受到社保领取资格的人群进行缴费的提醒。
或者,S105:识别出高概率进行继续参保缴费社保的人员名单;采用多种方式通知需要补缴的人员进行养老保险的补缴。
本申请基于参保人的参保缴费等信息,利用支持向量机算法,构建养老保险智能补缴预测模型,精准定位有能力提前缴够养老保险规定年限的人员,及时给予其缴费提醒,为退休人员提供养老保险参保提醒服务,以便其到达退休年龄后可以及时的享受到退休养老待遇,保障老年人幸福快乐晚年生活,实现快乐养老,“老龄”变“乐龄”,提升中老年人的获得感、幸福感、安全感。
实施例二
本实施例提供了养老保险补缴信息提醒系统;
养老保险补缴信息提醒系统,包括:
获取模块,其被配置为:从社会保险系统中,获取待分析数据;
预处理模块,其被配置为:对待分析数据进行预处理,得到预处理后的数据;
特征提取模块,其被配置为:对预处理后的数据,进行特征提取,得到提取特征;
输出模块,其被配置为:将提取的特征输入到预先训练好的支持向量机模型中,输出目标补缴人员;
提醒模块,其被配置为:向目标补缴人员的手机终端发出补缴信息提醒。
此处需要说明的是,上述获取模块、预处理模块、特征提取模块和输出模块对应于实施例一中的步骤S101至S105,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
所提出的系统,可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的,例如上述模块的划分,仅仅为一种逻辑功能划分,实际实现时,可以有另外的划分方式,例如多个模块可以结合或者可以集成到另外一个系统,或一些特征可以忽略,或不执行。
实施例三
本实施例还提供了一种电子设备,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述实施例一所述的方法。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元及算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
实施例四
本实施例还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一所述的方法。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
机译: 识别标签信息提醒系统和方法以及使用该方法的便携式识别标签信息提醒装置
机译: 识别标签信息提醒系统和方法以及使用该方法的便携式识别标签信息提醒装置
机译: 视频更新提醒中的专利信息推送方法及信息提醒系统