首页> 中国专利> 一种基于机器学习的风暴潮灾预警模型训练及预警方法

一种基于机器学习的风暴潮灾预警模型训练及预警方法

摘要

本发明公开了一种基于机器学习的风暴潮灾预警模型训练及预警方法,训练方法包括:获取风暴潮灾样本特征数据以及风暴潮灾样本特征数据对应的样本预警结果,构造样本数据集;将样本数据集作为输入,对机器学习模型进行训练、验证,得到最优模型,将最优模型作为风暴潮灾预警模型;其中,风暴潮灾特征数据包括:台风特征数据、降水特征数据以及风速特征数据,台风特征数据通过采集得到,降水特征数据以及风速特征数据通过台风特征数据计算得到。本发明中,将不同维度的与风暴潮有关的特征数据作为样本数据,充分对数据特征维度进行拓展,有效探究各特征维度的关联性,使得模型有效的学习的主要特征,从而对风暴潮灾进行高效、准确、合理的预警预测。

著录项

  • 公开/公告号CN114677034A

    专利类型发明专利

  • 公开/公告日2022-06-28

    原文格式PDF

  • 申请/专利权人 联通(广东)产业互联网有限公司;

    申请/专利号CN202210362689.7

  • 发明设计人 李红泽;苏凤鸣;罗慧瑜;吴仲维;

    申请日2022-04-07

  • 分类号G06Q10/06;G06Q50/26;G06K9/62;G06N20/00;

  • 代理机构广州润禾知识产权代理事务所(普通合伙);

  • 代理人郑永泉

  • 地址 510000 广东省广州市黄埔区(中新广州知识城)亿创街1号406房之555

  • 入库时间 2023-06-19 15:47:50

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-06-28

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及灾害预警领域,更具体地,涉及一种基于机器学习的风暴潮灾预警模型训练及预警方法。

背景技术

风暴潮是一种灾害性的自然现象。由于剧烈的大气扰动,如强风和气压骤变(通常指台风和温带气旋等灾害性天气系统)导致海水异常升降,同时和天文潮(通常指潮汐)叠加时的情况,如果这种叠加恰好是强烈的低气压风暴涌浪形成的高涌浪与天文高潮叠加则会形成更强的破坏力。又可称“风暴增水”、“风暴海啸”、“气象海啸”或“风潮”。风暴潮灾害居海洋灾害之首位,世界上绝大多数因强风暴引起的特大海岸灾害都是由风暴潮造成的。根据《2017年中国海洋灾害公报》显示,当年广东省受风暴潮灾害影响最严重。根据历史灾害统计,广东在全国中受到风暴潮灾害影响程度也位居前列。

机器学习是基于对数据的初步认识以及学习目的的分析,选择合适的数学模型,拟定超参数,并输入样本数据,依据一定的策略,运用合适的学习算法对模型进行训练,最后运用训练好的模型对数据进行分析预测。因此机器学习擅长从数据中发现一些人类难以用特定公式去量化的或模拟的规律,从而对某些行为或事件进行推测及判断。

当前预警主要基于风暴潮与波浪耦合数值预报模型,主要利用潮流项与波浪辐射应力项模拟风暴潮过程进行预测。其中,台风路径点数据相对完整,自1949年以来所有的台风路径都有记录,但是潮位数据相对缺少,暂仅找到广东省2018年以后基站的潮位数据,同时此间发生的潮灾统计相对较少,以及大气数据信息由于精度不足,导致广东省内发生与不发生风暴潮灾时各基站对应的大气数据样本相同,故仅以上述数据作为数据样本,进行模型预测,则将使得模型预测有偏向性,导致无法学习到主要特征,低估风暴潮灾的预警概率,模型预测准确率及合理性不高。

发明内容

本发明旨在克服上述现有技术的至少一种缺陷(不足),提供一种基于机器学习的风暴潮灾预警模型训练及预警方法,用于解决现有预报模型无法学习主要特征,导致低估风暴潮灾的预警概率,模型预测准确率及合理性不高的问题。

本发明采取的技术方案是,一种基于机器学习的风暴潮灾预警模型训练方法,包括以下步骤:

获取风暴潮灾样本特征数据以及所述风暴潮灾样本特征数据对应的样本预警结果,构造样本数据集;

将所述样本数据集作为输入,对机器学习模型进行训练、验证,得到最优模型,将所述最优模型作为风暴潮灾预警模型;

其中,所述历史风暴潮灾特征数据包括:台风特征数据、降水特征数据以及风速特征数据,所述台风特征数据通过采集得到,所述降水特征数据以及风速特征数据通过所述台风特征数据计算得到。

进一步的,所述台风特征数据包括:台风中心与基站距离;

所述降水特征数据通过所述台风特征数据计算得到,具体包括:

所述降水特征数据通过所述台风特征数据,采用以下公式,计算得到:

其中,D表示台风中心与基站距离;

进一步的,所述台风特征数据还包括:台风等级;

所述风速特征数据通过所述台风特征数据计算得到,具体包括:

所述风速特征数据通过所述台风特征数据,采用以下公式,计算得到:

其中,

本发明中,通过利用风暴潮灾相关特征数据,训练机器学习模型,从而对风暴潮灾预警结果进行预测,其中预警结果具体可以包括风暴潮灾增水预测,以及根据风暴潮灾增水预测进一步对是否发生预警或具体预警等级进行预测。其中,本发明中,用于预测的风暴潮灾样本特征数据,不仅包括可以直接通过测量采集得到的台风特征数据,还包括了可以通过台风特征数据计算得到的降水特征数据和风速特征数据,将通过数据挖掘得到的结论及公式构建一组与风暴潮增水发生关联性较为密切的特征,有效的将不同维度的与风暴潮灾有关的数据,通过时间和空间关联在一起,并通过机器学习模型验证了其可行性,从而运用该模型对风暴潮灾进行高效、准确、合理的预警预测。当前传统的风暴潮灾预测仅仅通过单纯分析直接采集到的台风相关数据特征得到,而本发明技术方案较传统风暴潮灾预测而言,可以有效的将数据特征维度拓展,从而提高模型预测的准确率及合理性,尤其是当数据集足够完备后优势更加突出。此外,本发明还可用于探究各个数据特征维度的组合关联性,较为方便的研究其他数据特征维度对风暴潮灾增水的影响,对于预警预测及分析都具有一定帮助。

进一步的,获取风暴潮灾样本特征数据以及所述风暴潮灾样本特征数据对应的样本预警结果,具体包括:

获取风暴潮灾样本特征数据以及所述风暴潮灾样本特征数据对应的样本预警结果;

根据所述风暴潮灾样本特征数据对应的样本预警结果,将所述风暴潮灾样本特征数据划分为多数类样本以及少数类样本;

根据所述少数类样本,采用Smote采样算法,合成新样本,并将所合成的新样本添加至所述风暴潮灾样本特征数据中,实现样本扩充。

进一步的,根据所述少数类样本,采用Smote采样算法,合成新样本,具体包括:

对于所述少数类样本中每一个少数类样本X,以欧氏距离为标准计算少数类样本X到所述少数类样本中其它样本的距离,得到少数类样本X对应的近邻;

根据样本不平衡比例设置一个采样比例以确定采样倍率N,对于每一个少数类样本X,从所述少数类样本X对应的近邻中随机选择若干个近邻

对于每一个所述少数类样本X,以及所述少数类样本X对应的每一个近邻

其中,X

在本发明中,由于历史的风暴潮灾样本数据不全,同时,在可以获取到的风暴潮灾数据中,不发生风暴潮灾的情况相对较多,即获取的风暴潮灾特征数据对应的预警结果大多数偏向不发生预警,若仅简单的将这类数据当作样本数据输入机器学习模型进行训练,则可能导致模型无法学习到主要特征,使得最终预测结果具有很大的偏向性,模型预测准确率以及合理性低,从而低估风暴潮灾预警的概率,给人民物质财产生活造成很大的影响与损害。因此,本发明还提出了采用Smote采样算法对风暴潮灾样本特征数据中少数类样本进行新样本合成,其中Smote采样算法是一种基于随机过采样算法的一种改进方案,用于合成少数类过采样技术,通过在特征数量的维度上,选择两个相近少类样本连线中任意一点构建新的特征作为训练样本,有效解决样本分布不均导致模型偏向于向数据集分类多的样本预警,即解决在本发明中模型偏向不发生预警的问题,从而进一步提升模型预测准确率以及合理性。

进一步的,将所述样本数据集作为输入,对机器学习模型进行训练、验证,得到最优模型,具体包括:

将所述样本数据集作为输入,采用K-fold交叉验证方式,对机器学习模型进行训练、验证,得到最优模型。

本发明中,采用K-fold交叉验证方式训练出不同模型,其中,K-fold交叉验证具体为将整个数据集随机切分成K份,选取其中的K-1份作为训练样本,选取剩余一份作为测试样本测试模型的精度及泛化能力,分别将每份样本数据当作测试样本进行训练,便可以得到K份模型,从而总和评定该模型的能力,最终确定最优模型。采用K-fold交叉验证的目的,是为了降低模型在随机划分样本时产生不均衡,导致单一模型对预测结果有偏差以及综合性的评定模型精度,从另一方面提升模型预测性能。

进一步的,所述机器学习模型为XGBoost模型,所述XGBoost模型目标函数为:

其中,t为当前基学习器索引,T为当前基学习器叶子结点数,G

所述XGBoost模型的分裂增益为:

其中,

本发明在进行机器学习模型的选取中,回归算法模型例如线性回归模型,其中逻辑回归等与模拟数据样本有差异,表现效果不佳,故不选取,而分类算法模型中XGBoost模型与其他机器学习模型相比较,性能表现最好,而且精度较高,故本发明中选择XGBoost模型作为主要预测的机器学习模型。

另一方面,本发明采取的另一种技术方案为,一种基于机器学习的风暴潮灾预警方法,包括以下步骤:

获取待预测的风暴潮数据;

利用基于上述的训练方法训练得到的风暴潮灾预警模型对所述待预测的风暴潮数据进行预警预测。

另一方面,本发明采取的另一种技术方案为,一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的训练方法,或预警方法。

另一方面,本发明采取的另一种技术方案为,一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的训练方法,或预警方法。

与现有技术相比,本发明的有益效果为:

1、本发明中,用于预测的风暴潮灾样本特征数据,不仅包括可以直接通过测量采集得到的台风特征数据,还包括了可以通过台风特征数据计算得到的降水特征数据和风速特征数据,充分的将数据特征维度进行拓展,并将不同维度的与风暴潮灾有关的数据,通过时间和空间关联在一起,有效提高模型预测的准确率及合理性;

2、本发明中,采用Smote采样算法,对风暴潮灾样本特征数据中少数类样本进行新样本合成,有效解决样本分布不均导致模型偏向于向数据集分类多的样本预警,即解决在本发明中模型偏向不发生预警的问题,从而进一步提升模型预测准确率以及合理性;

3、本发明中,采用K-fold交叉验证方式,对模型进行训练,综合性的评定模型精度,确定最优模型,降低模型在随机划分样本时产生不均衡,导致单一模型对预测结果有偏差的问题,从另一方面提升模型预测性能。

附图说明

图1为本发明的训练方法流程图。

图2为本发明的训练方法中步骤S1流程图。

图3为本发明的预警方法流程图。

具体实施方式

本发明附图仅用于示例性说明,不能理解为对本发明的限制。为了更好说明以下实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。

实施例1

如图1所示,本实施例提供了一种基于机器学习的风暴潮灾预警模型训练方法,包括以下步骤:

S1、获取风暴潮灾样本特征数据以及风暴潮灾样本特征数据对应的样本预警结果,构造样本数据集;

S2、将样本数据集作为输入,对机器学习模型进行训练、验证,得到最优模型,并将最优模型作为风暴潮灾预警模型;

其中,风暴潮灾特征数据包括:台风特征数据、降水特征数据以及风速特征数据,台风特征数据通过采集得到,降水特征数据以及风速特征数据通过台风特征数据计算得到。

进一步的,台风特征数据包括:台风中心与基站距离;

降水特征数据通过台风特征数据计算得到,具体包括:

降水特征数据通过台风特征数据,采用以下公式,计算得到:

其中,D表示台风中心与基站距离。

进一步的,台风特征数据还包括:台风等级;

风速特征数据通过台风特征数据计算得到,具体包括:

风速特征数据通过台风特征数据,采用以下公式,计算得到:

其中,

具体的,本实施例中,台风特征数据还可以包括:台风经纬度、台风中心最低气压、台风平均近中心最大风力、移动速度等,

进一步的,如图2所示,步骤S1中,获取风暴潮灾样本特征数据以及风暴潮灾样本特征数据对应的样本预警结果,具体包括:

S11、获取风暴潮灾样本特征数据以及所述风暴潮灾样本特征数据对应的样本预警结果;

S12、根据风暴潮灾样本特征数据对应的样本预警结果,将风暴潮灾样本特征数据划分为多数类样本以及少数类样本;

S13、根据少数类样本,采用Smote采样算法,合成新样本,并将所合成的新样本添加至风暴潮灾样本特征数据中,实现样本扩充。

进一步的,步骤S13中,根据少数类样本,采用Smote采样算法,合成新样本,具体包括:

对于少数类样本中每一个少数类样本X,以欧氏距离为标准计算少数类样本X到少数类样本中其它样本的距离,得到少数类样本X对应的近邻;

根据样本不平衡比例设置一个采样比例以确定采样倍率N,对于每一个少数类样本X,从少数类样本X对应的近邻中随机选择若干个近邻

对于每一个少数类样本X,以及少数类样本X对应的每一个近邻

其中,X

进一步的,步骤S2中,将样本数据集作为输入,对机器学习模型进行训练、验证,得到最优模型,具体包括:

将样本数据集作为输入,采用K-fold交叉验证方式,对机器学习模型进行训练、验证,得到最优模型。

具体的,在本实施例中,可以根据具体数据量的大小令K=5,即采用5-fold交叉验证方式,得到五个模型,由于数据量较小,为了防止偏向性,最终预测结果由五个模型分别预测数据集的平均置信度生成。

进一步的,本实施例中,机器学习模型为XGBoost模型,所述XGBoost模型目标函数为:

其中,t为当前基学习器索引,T为当前基学习器叶子结点数,G

所述XGBoost模型的分裂增益为:

其中,

XGBoos模型是梯度提升树模型的一种,以串行方式生成模型,取所有模型的和为输出。XGBoost模型将目标函数作二阶泰勒展开,利用目标函数的二阶导数信息优化目标函数,根据目标函数是否减小来贪心的选择是否分裂节点。通过比较所有树结构的Obj

实施例2

如图3所示,本实施例提供一种基于机器学习的风暴潮灾预警方法,包括以下步骤:

S100、获取待预测的风暴潮数据;

S200、利用基于实施例1中所述的方法训练得到的风暴潮灾预警模型对待预测的风暴潮数据进行预警预测。

实施例3

本实施例提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现实施例1中所述的训练方法,或实施例2中所述的预警方法。

实施例4

本实施例提供一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现实施例1中所述的训练方法,或实施例2中所述的预警方法。

显然,本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例,而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号