公开/公告号CN112613675A
专利类型发明专利
公开/公告日2021-04-06
原文格式PDF
申请/专利权人 南开大学;
申请/专利号CN202011592008.3
申请日2020-12-29
分类号G06Q10/04(20120101);G06N20/00(20190101);G01N15/06(20060101);G01N30/96(20060101);G01N33/00(20060101);G06N3/00(20060101);
代理机构12223 天津耀达律师事务所;
代理人张耀
地址 300071 天津市南开区卫津路94号
入库时间 2023-06-19 10:29:05
技术领域
本发明涉及大气颗粒物污染防治领域,具体涉及一种基于数据驱动的识别并量化P.M
背景技术
细颗粒物(PM
目前研究大多使用源排放清单、化学组分数据、再分析数据,结合化学质量传输模型、空气质量预报模式、后向轨迹模型等对一个区域内的污染事件进行成因分析,往往聚焦一个区域内单一的重污染事件,限定范围较窄,缺少高时间分类上不同污染程度、同一污染程度的多次事件的定量分析,同时分析过程滞后,不能快速精确的识别和量化不同程度PM
随着精细化源解析的要求,快速的、逐时的、精确的细颗粒物污染成因定量分析有待继续深入研究。从数据驱动的机器学习方法具有快速、精确度高、表征非线性能力强等特点,在细颗粒物影响因素量化方法上具有独特的优势。
发明内容
本发明的目的是解决不同程度PM
本发明提供的一种分析污染源与气象因素对不同程度PM
第1步.计算基于在线多组分数据的PM
利用在线监测仪器监测颗粒物浓度以及化学组分的浓度,构建多组分在线数据集,将数据集输入到PMF模型中,对数据进行初步检验,通过设置因子数、运行次数等参数进行基础模型运算,解析得到因子谱矩阵和因子贡献矩阵,通过旋转计算优化因子谱矩阵和因子贡献矩阵,根据因子谱矩阵中化学标识组分将因子识别为不同源类,利用因子贡献矩阵与颗粒物浓度进行多元线性回归计算污染源对PM
第2步.搭建机器学习模型;
基于python3.9.0平台,利用随机森林算法搭建机器学习模型,通过10折交叉验证方法将在数据集(常规污染物浓度数据、化学组分数据、气象数据和源解析结果数据)划分为训练集和测试集,根据模型评价指标的大小(准确率、 F1-Score等)不断调整优化机器学习模型的内部参数,形成最优的机器学习模型;
第3步.计算各因素对PM
计算夏普利值,绘制shap图,量化各影响因素对PM
第4步.分析污染源和气象因素对不同程度PM
利用优化的机器学习模型识别不同程度PM
第5步.分析一次污染源和气象因素对二次污染源生成浓度的影响效应;
利用优化的机器学习模型,量化一次污染源和气象因素对二次污染源生成浓度的影响贡献。
本发明的优点和有益效果:
本发明提供的基于机器学习算法分析污染源与气象因素对不同程度PM
附图说明
图1为分析污染源与气象因素对不同程度PM
图2为本发明的大气颗粒物(PM
图3为本发明污染源与气象因素对PM
图4为本发明各个因素对PM
图5为本发明不同程度PM
图6为本发明二次硝酸盐对不同程度PM
图7机动车、燃煤和二次污染源生成浓度三维偏依赖计算。
具体实施方式
实施例1
本实例利用在线监测数据和机器学习算法分析污染源与气象因素对不同程度PM2.5污染的影响贡献和效应,具体步骤如下:
1.计算基于在线多组分数据的PM
将在线多组分数据输入PMF模型输入数据,所述的在线多组分数据,是利用不同仪器监测的颗粒物浓度及其化学组分在线监测数据构成的多组分数据,包括颗粒物浓度,水溶性离子,碳组分和元素浓度数据;颗粒物浓度是指由颗粒物在线监测仪器测量的PM
2017年9月1日至2018年9月30日连续采样,监测数据时间分辨率为1 小时,共获得受体数据4742条,包含K、Ca、Na、Mg、Zn、Fe、Mn、Ti、Ni、 NO
2.基于源贡献数据与逐时气象数据搭建机器学习模型;
基于python的机器学习开源库lightgbm,使用随机森林算法,构建机器学习模型。将源贡献结果数据(Dust-扬尘,SS-二次硫酸盐,SOC/BIO-二次有机碳与生物质燃烧SN-二次硝酸盐Vehicle-机动车源Coal-燃煤源)与气象数据 (T-温度,RH-相对湿度P-压强WS-风速WD-风向),PM2.5数据纳入到机器学习模型中进行训练。本发明所述的机器学习模型,是指人工智能的分支,也是一种实现方法,根据样本的数据搭建模型,用模型对数据进行预测与决策。本发明的随机森林是一种利用多颗分类树对数据进行判别与分类的集成学习方法,它通过自助法(Bootstrap)重采样技术,从原始训练样本集N中有放回地重复随机抽取k个样本生成新的训练样本集合,然后根据自助样本集生成m个分类树组成随机森林,新数据的分类结果按分类树投票多少形成的分数而定。
3.基于机器学习模型计算污染源与气象因素对PM
计算夏普利值,绘制shap图,量化各影响因素对PM
4.分析污染源和气象因素对不同程度PM
基于随机森林算法计算每种输入变量对于PM
5.分析一次污染源和气象因素对二次污染物生成浓度的影响效应;
通过机器学习三维偏依赖计算,分析气象因素和一次污染源的变化对二次生成的细颗粒物的影响和作用程度。结果见图7。
机译: 一种计算技术,消除了回归分析的“多色性”,并获得了将解释变量对适当的客观变量的贡献的贡献程度,并将其用作管理数据的部分回归系数。
机译: 机器学习模型特征贡献分析系统