技术领域
本发明是一种基于机器学习判别降雨事件的卫星降雨数据校正方法,属于卫星降雨数据精度校正技术领域。
背景技术
降雨是水文循环中关键的环节之一,其准确度直接影响着径流过程模拟精度以及防洪抗涝工程设计。精确的降雨数据对于研究气候变化背景下水文过程的响应和无资料地区的径流过程模拟起着至关重要的作用。随着全球气候变化的加剧,降雨的时空分布受到了很大程度的影响,如何进行降雨模拟,提高现有的降雨产品的精度已逐渐成为大气科学和地理学等领域需要广泛关注的问题。
近年来,随着遥感观测技术的进步和基于卫星数据反演算法的改进,卫星降雨数据凭借高时空分辨率和连续的空间覆盖度,逐渐成为水文领域研究中的重要数据来源。但卫星降雨对大范围和复杂地形地区的降雨存在模拟不准以及较大偏差等问题,直接用于水文模拟研究中会导致更多的不确定性,结果精度较差。因此,在水文模拟科学研究以及实际生产应用中,需要提前对卫星降雨数据进行偏差校正。
尽管存在众多的降雨偏差纠正方法,但现有的方法多针对降雨在某一方面的特点进行偏差校正,对降雨事件是否发生的判断和修正考虑不多,导致卫星降雨对有无降雨的捕捉能力不足,误报率和漏报率偏高。同时,在现有应用分布拟合校正降雨数据时,多数方法采用人为给定分布进行校正,这样给定分布会存在主观性和时不变的特点,不利于开展变化环境下卫星降雨的偏差校正。
发明内容
本发明的目的在于提供一种基于机器学习判别降雨事件的卫星降雨数据校正方法,旨在改善卫星降雨对于有无降雨发生的捕捉能力、提高卫星降雨的精度和在水文模拟应用中的可靠性,解决卫星降雨的误报率高、漏报高和人为挑选降雨数据概率分布函数主观性的问题。
本发明的目的是这样实现的:
一种基于机器学习判别降雨事件的卫星降雨数据校正方法,包括以下几个步骤:
降雨过程的形状校正:
1)多源数据收集:收集下载研究区范围内气象因子数据、高程地形因子数据、卫星降雨数据及气象站点实测降雨数据等;所述气象因子数据、高程地形因子数据、卫星降雨数据均为网格尺度数据集;
2)数据处理:首先将气象因子数据和高程地形因子数据重采样到与卫星降雨数据同样的分辨率;采用反距离加权平均插值方法对网格尺度数据集插值处理,获取研究区内每一个气象站点所在位置处的气象因子数据和高程地形因子数据;
3)降雨事件发生判别模型构建:
基于机器学习方法(支持向量机或神经网络模型)构建研究区降雨事件发生判别模型;利用气象站点所在位置处的气象因子数据、高程地形因子数据和实测降雨数据训练模型;降雨事件发生判别模型的输入为气象因子和高程地形因子数据集,输出为是否发生降雨的信号;以0表示无雨,1表示有雨;
4)采用训练好的降雨事件发生判别模型对研究区内逐个网格卫星降雨数据序列进行有无降雨修正;以网格尺度上的气象因子数据和高程地形因子数据为输入,采用降雨事件发生判别模型获取每个网格点上是否发生降雨的状态信号;通过判别模型在网格点上判定为发生降雨的时刻,若该时刻下网格点上的卫星降雨数据为零,则基于反距离加权平均插值方法将气象站点实测降雨数据插值到该时刻该网格点上代替原来的卫星降雨数据;通过判别模型在网格点上判定为无雨的时刻,则将该时刻网格点上的卫星降雨数据设置为零;
降雨总量和分布校正:
5)经过步骤4)中有无降雨修正以后,依据流域内气象站点分布绘制研究区泰森多边形,划分后所得每一个多边形内会有一个气象站点;在每一个多边形内,以研究年份某一固定月份的日降雨组合为降雨序列,根据序列分位数将气象站点实测降雨序列和网格点卫星降雨序列各分成极大值、常规值和极小值三段数据;
6)分布优选:基于步骤5)将降雨序列分段后的结果,通过K-S检验从多种分布函数中分别优选出各个多边形内符合气象站点实测降雨序列和逐个网格点卫星降雨序列各自的三段数据的最优分布函数组合;
7)降雨数据分段校正:在各个多边形内,采用基于频率分布的分位数映射法针对三段气象站点实测降雨序列和格点卫星降雨序列进行校正。
进一步的,所述的卫星降雨数据为卫星降雨产品、雷达降雨产品、再分析降雨产品中测算的降雨数据。
进一步的,步骤1)所述气象因子数据包括地表温度、2m温度、2m露点温度、土壤温度、水平风速、垂直风速、地表气压、地表土壤湿度、地表蒸散发、地表净辐射、地表感热通量及地表潜热通量;所述高程地形因子数据包括高程、坡度、坡向。
进一步的,步骤5)中极小分位点采用10%,极大分位点采用90%。
进一步的,步骤6)中多种分布函数包括伽马分布,广义帕累托分布,广义极值分布,半正态分布和指数分布。
进一步的,步骤7)中基于如下公式对12个月份的逐格点的卫星降雨数据和气象站点实测降雨进行偏差校正,
x
其中:x
本发明的优点和有益效果是:与现有技术相比,本发明基于机器学习判别降雨事件的卫星降雨数据校正方法,涉及到的校正方法可以具体化到卫星降雨每一个格点,每一个时刻的数据,有效地改善了卫星降雨对于有无降雨的捕捉能力,提升了卫星降雨的漏报率和误报率,显著提高了其精度。采用分段适宜分布函数避免了人为给定分布的主观性,更加适应变化环境下分布函数参数时变的特性,可同时考虑极小值、极大值和常规降雨的校正,进一步提高卫星降雨精度和其在水文模拟中的可靠性,在地面站点稀疏区域以及无资料地区有很好的应用前景。
附图说明
下面结合附图和实施例对本发明作进一步说明。
图1为本发明实施例1中流程示意图;
图2为本发明实施例1中某流域卫星降雨校正前数据与实测降雨数据的相关图;
图3为本发明实施例1中某流域卫星降雨校正后数据与实测降雨数据的相关图;
图4为本发明实施例1中某流域卫星降雨校正前后降雨泰勒图;
图5为本发明实施例1中某流域卫星降雨校正前后的POD和FAR指标的箱形图;
图6为本发明实施例1中某流域卫星降雨校正前后的累积概率分布图。
具体实施方式
实施例1:
一种基于机器学习判别降雨事件的卫星降雨数据校正方法,如图1所示,包括以下几个步骤:
降雨过程的形状校正:
1)多源数据收集:收集下载某流域范围内气象因子数据(以ERA5-Land再分析数据为例)、高程地形因子数据、卫星降雨数据(以IMERG卫星降雨数据为例)及气象站点实测降雨数据等;所述气象因子数据(包括地表温度、2m温度、2m露点温度、土壤温度、水平风速、垂直风速、地表气压、地表土壤湿度、地表蒸散发、地表净辐射、地表感热通量及地表潜热通量等指标)、高程地形因子数据(高程,坡度,坡向)、卫星降雨数据(如IMERG卫星降雨数据)均为网格尺度数据集;
2)数据处理:首先将气象因子数据和高程地形因子数据重采样到与卫星降雨数据同样的分辨率;采用反距离加权平均插值方法对网格尺度数据集插值处理,获取研究区内气象站点所在位置处的气象因子数据和高程地形因子数据;
3)降雨事件发生判别模型构建:基于支持向量机或神经网络模型构建降雨事件发生判别模型;利用气象站点所在位置处的气象因子数据、高程地形因子数据和实测降雨数据训练模型;降雨事件发生判别模型的输入为气象因子和高程地形因子,输出为是否发生降雨的信号,以0表示无雨,1表示有雨;
4)有无降雨修正:采用训练好的降雨事件发生判别模型对研究区内逐个格卫星降雨数据进行有无降雨修正;以网格尺度上的气象因子数据和高程地形因子数据为输入,采用降雨事件发生判别模型获取每个网格点上是否发生降雨的信号;通过判别模型在网格点上判定为发生降雨的时刻,若该时刻下网格点上的卫星降雨数据为零,则将气象站点实测降雨数据基于反距离加权平均插值方法插值到该时刻该网格点上代替原来的卫星降雨数据;通过判别模型在网格点上判定为无雨的时刻,则将该时刻网格点上的卫星降雨数据设置为零;
降雨总量和分布校正:
5)降雨序列分段:经过步骤4)中有无降雨修正以后,依据流域内气象站点分布绘制研究区域泰森多边形,划分后每一个多边形内有一个气象站点;在每一个多边形内,以多年某一固定月份的日降雨为降雨序列,根据序列分位数将气象站点实测降雨序列和格点卫星降雨序列各分成极大值、常规值和极小值三段数据;极小值,常规值和极大值是根据固定月份的日降雨数据,固定月份指的是多年的第i个月(i=1,2,…,12),所述的极小分位点采用10%,极大分位点采用90%;
6)分布优选:基于步骤5)将降雨序列分段后的结果,通过K-S检验从多种分布函数中分别优选出各个多边形内符合气象站点实测降雨序列和网格点卫星降雨序列各自的三段数据的最优分布函数组合;
K-S检验方法如下:
式中:F
多种分布函数包括伽马分布,广义帕累托分布,广义极值分布,半正态分布,指数分布,其概率密度函数分别如下:
伽马分布:
式中:α是形状参数,β是尺寸参数,Γ(·)是伽玛分布函数
广义帕累托分布:
式中:θ是阈值参数,σ为尺度参数,k为形状参数。当k>0时,θ<x,当k<0时,
广义极值分布:
式中:
半正态分布:
式中:μ是位置参数,σ是比例参数
指数分布概:
式中:参数λ>0。
7)降雨数据分段校正:在各个多边形内,采用基于频率分布的分位数映射法针对三段气象站点实测降雨序列和格点卫星降雨序列进行校正,操作步骤为:
第一步:根据流域内气象量站点绘制的泰森多边形,假定每个多边形内实测降雨的概率分布函数是相同的;
第二步:将多年的卫星降雨数据和气象站点实测降雨数据分别按月份拆分,得到12个月份的多年卫星日降雨序列和气象站点实测日降雨序列,用优选所得概率分布分别拟合逐网格卫星降雨量和每个多边形内气象站点实测降雨量;
第三步:通过下列公式对12个月份的逐网格的卫星降雨量和气象站点实测降雨量进行CDF映射转换校正,
x
其中:x
基于气象站点和流域尺度面雨量对校正前后的卫星降雨数据的校正效果进行评价,评价指标包括基于降雨过程的评价指标NSE和R
其中:M
评估校正结果:卫星降雨偏差校正的效果采用相关系数,相对偏差,均方根误差和表征降雨预报误差的POD和FAR指标进行评估。研究区域内校正前后卫星降雨数据和气象站点实测降雨数据的相关图如图2和图3所示。经过校正后,IMERG卫星降雨与实测降雨数据的相关系数为0.8139,相比于原来的相关系数0.2963得到了较大程度的提升。图4为卫星降雨数据校正前后结果的泰勒图,泰勒图可直观看出校正前后卫星降雨数据与气象站点实测降雨数据的偏差,卫星降雨距观测点的长度越短,表示卫星降雨数据精度越接近于实测值。从图4中可以看出,校正后的卫星降雨与气象站点实测数据间的误差减小,相关系数增大。校正前后的卫星降雨数据和实测站点的POD和FAR如图5所示,POD平均值从原来的0.6提高到0.75,FAR平均值从原来的0.38左右下降到0.9左右,表明校正方法显著改善了卫星降雨的错报率。综上所述,本发明提出的卫星降雨校正方法显著改善了卫星降雨数据的错报率,提升了卫星降雨数据的精度。
以上所述仅对本发明的实例实施而已,并不用于限制本发明,本发明中对降雨数据进行分段的分位数,可根据需求以及具体研究区域进行设定。凡是在本发明的权利要求限定范围内,所做的任何修改、等同替换、改进等,均应在本发明的保护范围之内。
机译: 利用卫星数据和雷达数据进行降雨估算的方法以及基于卫星的降雨的补偿技术
机译: 基于历史极端降雨事件的降雨预测计划
机译: 从卫星通信系统收集和管理降雨衰减和强度数据的系统,该系统能够通过从多个考虑降雨衰减有效路径长度的区域测量降雨强度来准确收集和管理数据