技术领域
本发明属于电池储能系统运行控制领域,涉及一种负荷侧储能提供堆叠服务的日内优化运行策略。
背景技术
随着电力市场体制的建立健全以及电池技术性能的快速提升,负荷侧储能数量及规模均显著增长。负荷侧储能通过响应市场实时电价、“低储高放”,能够有效降低电力用户的购电成本。受限于储能电池成本相对高昂,上述单一应用模式的经济效益通常难以平衡其初始投资费用。若考虑在电价响应的基础上,灵活参与电力辅助服务市场,有利于挖掘其潜在的技术经济价值。运用负荷侧储能提供电价响应及PFR双重堆叠服务,能够合理提升其技术经济价值。
在日前参与PFR市场投标并完成容量出清的基础上,日内运行过程需要合理优化各时段功率基准点,动态调整SoC实现电价响应的同时保障调频可靠裕度。然而,由于多维信息具有不确定性,给储能日内运行决策带来挑战。频率数据为秒级尺度、难以有效预测,而电价及负荷为分钟级、能够滚动更新预测。如何利用不同已知程度的信息数据在有限时间窗口内开展实时优化,有效保证日内运行的经济效益与频率调节的可靠性,是当前亟待解决的问题。
现有实时优化策略均为前瞻策略,利用预测信息开展在线优化决策。根据信息利用程度以及优化时域不同,前瞻策略可以分为模型预测控制(MPC)和随机模型预测控制(SMPC)。基于频率先验信息以及滚动更新的短期预测数据,MPC通过求解滚动预测时域内的鲁棒优化模型获取实时决策。尽管能够满足时限要求并保障调频可靠性能,但其局部优化时域降低了运行经济效益。SMPC在线滚动优化两阶段鲁棒-随机优化模型,虽然计及随机阶段能够扩展优化时域、提升运行效益,但亦使得问题求解规模过大,致使运算开销难于满足优化时限要求。
发明内容
针对上述不足,本发明提出了在线滚动优化两阶段鲁棒近似动态规划模型的“前瞻-值函数近似”混合(LVFA)策略。
本发明采用的技术方案为:
一种负荷侧储能提供堆叠服务的日内优化运行策略,所述策略包括以下步骤:
步骤1:在实时电价及PFR双重市场机制下,运用负荷侧储能提供电价响应及PFR堆叠服务,基本流程如图1所示。
日前投标(1day):基于历史统计数据及短期预测信息,优化参与PFR市场的投标容量。当PFR市场出清完成后,明确中标容量及补偿价格,并要求日内严格按照中标容量提供PFR服务。
日内运行(5min):基于频率先验信息及滚动更新的短期预测数据,动态优化各时段功率基准点。功率基准点能够协调双重功能:其一,响应实时电价、“低储高发”,降低用电成本;其二,动态调整SoC空间裕度,保障储能提供PFR的调节性能。同一时段内,功率基准点应维持恒定。
实时控制(1s):基于本地频率信息及功率基准点,计算负荷侧储能实时控制功率,并结合BMS实时监测信息,在储能单元间优化分配功率指令。
在上述流程中,日内优化运行属于承上启下的关键环节,优化决策结果对于负荷侧储能的技术经济效益影响显著。本发明针对市场出清完成后,即已知负荷侧储能的PFR容量及补偿价格,针对日内优化运行问题开展。
步骤2:针对日内优化运行的动态过程进行建模,明确相关信息量、决策量及收益函数等。以实时电价的持续时间Δt=5min为粒度,对日内运行过程的有限时域范围T进行离散化处理,定义时刻集合T={0,Δt,2Δt,…,T}。
由图1可知,储能与聚合负荷日内协调运行,其与电网的实时交互功率满足有功功率平衡。选取自电网注入功率的方向作为正方向,则有:
P
式中:P
P
其中,α·Δf
负荷侧储能提供PFR依据功率-频率特性响应出力。当频率越过死区后,线性响应频率偏差;而当频率偏差越过线性响应区间后,则按照中标容量出力。据此,式(2)中下垂系数α可表示为:
式中:1
按照PFR机制规则,PFR偏差率应低于最大允许值。为了规避调频偏差带来的惩罚风险,本发明要求提供PFR的可靠性为100%。为此,需要从功率和电量两方面保障负荷侧储能的频率调节能力:
式中:P
伴随日内运行过程中充放电,时刻t至t+Δt的SoC动态转移可描述为:
式中:s
在双重市场机制下运用储能提供堆叠服务,既能够响应电价降低购电成本,也能够通过提供PFR服务获取补偿收益。同时,储能频繁充放电会引起电池老化衰退,本发明依据充放电量计算老化折损成本。
综上,单个运行时段负荷侧储能产生的净经济效益C
式中:
步骤3:针对日内优化考虑到日内运行属于不确定环境下的序贯决策过程,故进一步该问题构建为马尔可夫决策过程(MDP)模型。MDP作为随机序贯决策问题的通用模型,主要包括:状态变量、决策变量、随机信息、转移函数以及目标函数五个基本要素。
状态变量:反映当前所处的状态,包括物理及信息状态。具体定义为:
决策变量:依据当前状态调整功率基准点,故决策变量x
x
式中:χ
随机信息:用于对运行过程中随机因素建模,随机信息W
式中:
基于此,日内运行过程可以用相继的状态、决策及随机信息描述为:
转移函数:是指依据决策及随机信息,由当前状态转移到下一状态的过程:
S
式中:S
对于实时电价、负荷功率及频率偏差的动态转移,均属于状态独立的信息过程,分别表示为:
式中:
目标函数:对于日内运行问题,目标是在满足相关技术性能条件下,使得各时段累计期望净效益最大化。目标函数F
式中:E{·|·}表示条件期望值;C
步骤4:步骤3构建的日内MDP模型从整体上明确了相关变量及动态转移过程,具体到实时优化问题:假设当前时刻为t
定义1.短期时域:当前时刻t
定义2.长期时域:未来时刻t
本发明提出选取恰当类型的近似值函数
由此,日内构建结合、频率先验信息及离线近似值函数的两阶段鲁棒近似动态规划模型。短期时域,统计频率信息得到其先验不确定集,滚动更新电价及负荷的超短期预测信息,构建该时域内的滚动更新预测鲁棒模型以保障PFR可靠性。长期时域,调用离线计算的近似值函数,快速评估后续期望净效益。在实时优化运行过程中,当前时刻t
s.t.(1)-(8)(16)
式中:Γ为频率偏差的不确定集。由鲁棒优化思想可知,采用Γ表征频率偏差的波动范围,将依据该集合寻找最劣情况下的最优解,从而保障频率调节能力。本发明采用区间形式描述波动范围,即构成盒式不确定集,表述为:
Γ={Δf
式中:Δf
根据上述如公式(16)所示的优化模型,实时运行策略可以归纳为混合前瞻以及值函数近似的策略类型。公式(16)括号内前半部分计及滚动更新预测信息,故具有“前瞻”结构特征;后半部分采用近似值函数表征相应时域的期望净效益,故具有“近似值函数”结构特征。基于上述两部分结构特征混合,相应的日内优化运行过程如图3所示。结合电价、负荷的滚动更新来预测频率信息的不确定集以及离线计算的长期时域近似值函数,在线滚动求解式(16)优化模型,即可动态获取各时段功率基准点。
步骤5:对于所提实时运行策略,其性能优劣的关键在于:选取何种类型的近似值函数,进而如何对各时段的近似值函数开展离线计算,使之有效逼近期望净效益的真实值。本发明引入决策后状态及其近似分段线性函数(PLF),将Bellman方程转化为近似动态规划形式。
基于Bellman原理可将日内MDP解耦为多个单时段的子问题,进而逆序递归即可求解各时段状态下效益期望值。定义最优值函数
然而,求解式(18)需要计算全部可行状态的条件期望
为了克服上述问题,引入决策后状态变量
式中:
运用决策后值函数近似替代条件期望项,式(19)可以转化为以下确定性形式:
式中:决策后值函数
由于
本发明采用分段线性凹函数
式中,I
式中,
尽管运用PLF近似表征特定
将式(21)代入式(20),能够导出Bellman方程的近似动态规划形式,通过求解该式即可得到时段t的近似最优决策值,具体表示为:
式中,arg max(·)表示最优目标函数对应的决策变量,
步骤6:本发明运用折扣因子λ=1的时间差分学习(TD(1))算法对全部时段PLFs开展离线训练,TD(1)算法是结合正向模拟及逆向更新的双向算法,其采用折扣因子λ=1的差分学习过程对PLF的分段斜率迭代更新,具体流程如图4所示,包括以下步骤:
步骤6.1:设置PFR中标功率P
步骤6.2:根据日前预测信息及其误差分布,运用Monte-Carlo模拟生成次日电价及负荷场景集。考虑到频率难以有效预测,从历史频率序列中选取频率场景集。在上述场景集中提取第n次迭代训练的样本路径,即ω
步骤6.3:通过正向模拟序贯决策过程,沿样本路径向前递归求解式(23)得到各时段最优决策。据此计算各时段的边际贡献及边际流,为逆向更新各时段PLF的斜率提供随机抽样观察值。若已完成第n-1次迭代更新,则各时段的
式中:上标n表示第n次迭代中使用的变量。
执行该步骤,首先令t=0。
1)判断是否满足t 2)分别确定边际贡献的左、右数值导数
式中: 3)分别计算储能边际流
式中: 4)存储边际贡献及边际流,运用式(11)计算下一时段的决策前状态,并令t=t+Δt,返回1)判断。 步骤6.4:通过正向模拟过程得到了各时段的边际贡献及边际流,据此在逆向更新时计算斜率抽样观察值,进一步运用抽样观察值对全部时段的PLFs更新。 执行该步骤,首先令t=T。 1)判断是否满足t>0。若满足,则执行以下具体内容;否则,执行步骤6.5的具体内容。 2)通过逆序递归计算各时段的抽样斜率,
3)进一步,利用随机梯度法将其平滑到当前边际价值的估计值:
式中:α为更新步长。本发明采用harmonic确定性步长规则,即α 4)在得到估计值 5)存储更新结果,并令t=t-Δt,返回1)进行判断。 步骤6.5:判断迭代是否终止。逆向更新完成后,需要对迭代次数进行判断。若n<N,令迭代次数n=n+1,返回步骤6.2;否则,导出各时段PLF,供日内两阶段鲁棒近似动态规划模型调用。 本发明的有益效果在于:日前阶段,运用近似动态规划思想引入决策后状态近似值函数,以表征不同时段状态下的长期期望净效益,并利用TD(1)算法对近似值函数开展离线训练。日内运行过程中,结合电价、负荷的滚动更新预测,频率不确定集合以及长期时域近似值函数,优化两阶段鲁棒近似动态规划模型动态获取各时段功率基准点,既能够有效保障用户侧储能的频率调节能力,亦能通过对近似值函数的“离线训练-在线应用”,快速评估实时决策的长期影响,兼顾了全局经济效益与在线运算开销。 附图说明 为了更清楚地说明本发明在具体实施过程中的技术方案,下面将对相关附图逐一进行简单介绍。 图1为本发明提供的负荷侧储能提供堆叠服务的基本流程图; 图2为本发明提供的值函数近似思想示意图; 图3为本发明提供的日内优化运行过程示意图; 图4为本发明提供的TD(1)算法流程图; 图5为本发明提供的不同策略下指标箱线图及平均值;其中,图5(a)为日运行经济效益对比图,图5(b)为单时段平均优化耗时对比图,图5(c)为经济效益偏差率对比图,图5(d)为SoC利用率对比图。 具体实施方式 下面结合附图和具体实施作进一步的说明,但是不作为本发明的限定。 目前负荷侧储能提供电价响应及一次调频堆叠服务的日内运行过程,需要在有限时间窗口内实时优化功率基准点,以保证PFR的可靠性能及日内运行的经济效益。提出在线滚动优化两阶段鲁棒近似动态规划模型的“前瞻-值函数近似”混合LVFA策略,所述策略包括以下步骤: 步骤1:在实时电价及PFR双重市场机制下,运用负荷侧储能提供电价响应及PFR堆叠服务,基本流程如图1所示。 日前投标(1day):基于历史统计数据及短期预测信息,优化参与PFR市场的投标容量。当PFR市场出清完成后,明确中标容量及补偿价格,并要求日内严格按照中标容量提供PFR服务。 日内运行(5min):基于频率先验信息及滚动更新的短期预测数据,动态优化各时段功率基准点。功率基准点能够协调双重功能:其一,响应实时电价、“低储高发”,降低用电成本;其二,动态调整SoC空间裕度,保障储能提供PFR的调节性能。同一时段内,功率基准点应维持恒定。 实时控制(1s):基于本地频率信息及功率基准点,计算负荷侧储能实时控制功率,并结合BMS实时监测信息,在储能单元间优化分配功率指令。 在上述流程中,日内优化运行属于承上启下的关键环节,优化决策结果对于负荷侧储能的技术经济效益影响显著。本发明针对市场出清完成后,即已知负荷侧储能的PFR容量及补偿价格,针对日内优化运行问题开展。 步骤2:针对日内优化运行的动态过程进行建模,明确相关信息量、决策量及收益函数等。以实时电价的持续时间Δt=5min为粒度,对日内运行过程的有限时域范围T进行离散化处理,定义时刻集合T={0,Δt,2Δt,…,T}。 由图1可知,储能与聚合负荷日内协调运行,其与电网的实时交互功率满足有功功率平衡。选取自电网注入功率的方向作为正方向,则有: P 式中:P P 其中,α·Δf 负荷侧储能提供PFR依据功率-频率特性响应出力。当频率越过死区后,线性响应频率偏差;而当频率偏差越过线性响应区间后,则按照中标容量出力。据此,式(2)中下垂系数α可表示为:
式中:1 按照PFR机制规则,PFR偏差率应低于最大允许值。为了规避调频偏差带来的惩罚风险,本发明要求提供PFR的可靠性为100%。为此,需要从功率和电量两方面保障负荷侧储能的频率调节能力:
式中:P 伴随日内运行过程中充放电,时刻t至t+Δt的SoC动态转移可描述为:
式中:s 在双重市场机制下运用储能提供堆叠服务,既能够响应电价降低购电成本,也能够通过提供PFR服务获取补偿收益。同时,储能频繁充放电会引起电池老化衰退,本发明依据充放电量计算老化折损成本。 综上,单个运行时段负荷侧储能产生的净经济效益C
式中: 步骤3:针对日内优化考虑到日内运行属于不确定环境下的序贯决策过程,故进一步该问题构建为马尔可夫决策过程(MDP)模型。MDP作为随机序贯决策问题的通用模型,主要包括:状态变量、决策变量、随机信息、转移函数以及目标函数五个基本要素。 状态变量:反映当前所处的状态,包括物理及信息状态。具体定义为:
决策变量:依据当前状态调整功率基准点,故决策变量x x 式中:χ 随机信息:用于对运行过程中随机因素建模,随机信息W
式中: 基于此,日内运行过程可以用相继的状态、决策及随机信息描述为:
转移函数:是指依据决策及随机信息,由当前状态转移到下一状态的过程: S 式中:S
式中: 目标函数:对于日内运行问题,目标是在满足相关技术性能条件下,使得各时段累计期望净效益最大化。目标函数F
式中:E{·|·}表示条件期望值;C 步骤4:步骤3构建的日内MDP模型从整体上明确了相关变量及动态转移过程,具体到实时优化问题:假设当前时刻为t 定义1.短期时域:当前时刻t 定义2.长期时域:未来时刻t 本发明提出选取恰当类型的近似值函数 由此,日内构建结合、频率先验信息及离线近似值函数的两阶段鲁棒近似动态规划模型。短期时域,统计频率信息得到其先验不确定集,滚动更新电价及负荷的超短期预测信息,构建该时域内的滚动更新预测鲁棒模型以保障PFR可靠性。长期时域,调用离线计算的近似值函数,快速评估后续期望净效益。在实时优化运行过程中,当前时刻t
s.t.(1)-(8)(16)
式中:Γ为频率偏差的不确定集。由鲁棒优化思想可知,采用Γ表征频率偏差的波动范围,将依据该集合寻找最劣情况下的最优解,从而保障频率调节能力。本发明采用区间形式描述波动范围,即构成盒式不确定集,表述为: Γ={Δf 式中:Δf 根据上述如公式(16)所示的优化模型,实时运行策略可以归纳为混合前瞻以及值函数近似的策略类型。公式(16)括号内前半部分计及滚动更新预测信息,故具有“前瞻”结构特征;后半部分采用近似值函数表征相应时域的期望净效益,故具有“近似值函数”结构特征。基于上述两部分结构特征混合,相应的日内优化运行过程如图3所示。结合电价、负荷的滚动更新来预测频率信息的不确定集以及离线计算的长期时域近似值函数,在线滚动求解式(16)优化模型,即可动态获取各时段功率基准点。 步骤5:对于所提实时运行策略,其性能优劣的关键在于:选取何种类型的近似值函数,进而如何对各时段的近似值函数开展离线计算,使之有效逼近期望净效益的真实值。本发明引入决策后状态及其近似分段线性函数(PLF),将Bellman方程转化为近似动态规划形式。 基于Bellman原理可将日内MDP解耦为多个单时段的子问题,进而逆序递归即可求解各时段状态下效益期望值。定义最优值函数
然而,求解式(18)需要计算全部可行状态的条件期望 为了克服上述问题,引入决策后状态变量
式中: 运用决策后值函数近似替代条件期望项,式(19)可以转化为以下确定性形式:
式中:决策后值函数 由于 本发明采用分段线性凹函数
式中,I
式中, 尽管运用PLF近似表征特定 将式(21)代入式(20),能够导出Bellman方程的近似动态规划形式,通过求解该式即可得到时段t的近似最优决策值,具体表示为:
式中,arg max(·)表示最优目标函数对应的决策变量, 步骤6:本发明运用折扣因子λ=1的时间差分学习(TD(1))算法对全部时段PLFs开展离线训练,TD(1)算法是结合正向模拟及逆向更新的双向算法,其采用折扣因子λ=1的差分学习过程对PLF的分段斜率迭代更新,具体流程如图4所示,包括以下步骤: 步骤6.1:设置PFR中标功率P 步骤6.2:根据日前预测信息及其误差分布,运用Monte-Carlo模拟生成次日电价及负荷场景集。考虑到频率难以有效预测,从历史频率序列中选取频率场景集。在上述场景集中提取第n次迭代训练的样本路径,即ω 步骤6.3:通过正向模拟序贯决策过程,沿样本路径向前递归求解式(23)得到各时段最优决策。据此计算各时段的边际贡献及边际流,为逆向更新各时段PLF的斜率提供随机抽样观察值。若已完成第n-1次迭代更新,则各时段的
式中:上标n表示第n次迭代中使用的变量。 执行该步骤,首先令t=0。 1)判断是否满足t 2)分别确定边际贡献的左、右数值导数
式中: 3)分别计算储能边际流
式中: 4)存储边际贡献及边际流,运用式(11)计算下一时段的决策前状态,并令t=t+Δt,返回1)判断。 步骤6.4:通过正向模拟过程得到了各时段的边际贡献及边际流,据此在逆向更新时计算斜率抽样观察值,进一步运用抽样观察值对全部时段的PLFs更新。 执行该步骤,首先令t=T。 1)判断是否满足t>0。若满足,则执行以下具体内容;否则,执行步骤6.5的具体内容。 2)通过逆序递归计算各时段的抽样斜率,
3)进一步,利用随机梯度法将其平滑到当前边际价值的估计值:
式中:α为更新步长。本发明采用harmonic确定性步长规则,即α 4)在得到估计值 5)存储更新结果,并令t=t-Δt,返回1)进行判断。 步骤6.5:判断迭代是否终止。逆向更新完成后,需要对迭代次数进行判断。若n<N,令迭代次数n=n+1,返回步骤6.2;否则,导出各时段PLF,供日内两阶段鲁棒近似动态规划模型调用。 步骤7:为了验证所提LVFA运行策略的性能优势,以0.5MW/1MWh的负荷侧储能为例进行算例验证,充放电效率η 基于训练场景集模拟不同策略下的实时优化决策过程,分别从日运行经济效益F、单时段平均优化耗时T 由图5中经济指标可知,SMPC及LVFA策略均具有良好的日运行经济效益,偏差率均值分别为5.25%和4.45%;相比之下,MPC策略的经济效益与理论最优值的偏差均值高达24.48%。分析内在原因:SMPC在线滚动优化两阶段鲁棒-随机优化模型,而LVFA采用值函数近似方法表征长期时域的期望净效益,两种策略均能够计及随机阶段、扩展优化时域,从全局范围优化决策以提升运行效益。而对于MPC策略,仅求解滚动预测时域内的优化模型获取实时决策,难以统筹日内全局经济效益。相应地,SMPC及LVFA策略下SoC利用率均值高于99.5%,而MPC策略下的利用率均值仅为75.63%。 从优化耗时角度对比,所提LVFA策略在线滚动优化的运算耗时仅为4.65s,与MPC策略处于相同的计算维度;相比之下,SMPC策略运算耗时大幅增加,单时段平均优化耗时高达287s,部分场景下甚至逾越300s时限边界。其原因在于:LVFA利用离线训练的PLFs评估当前决策对长期阶段的影响,显著降低在线优化求解规模;而SMPC策略采用场景样本集计算长期时域的期望净效益,导致在线运算规模大幅增加。综上,LVFA能够通过“离线训练-在线应用”模式,从根本上降低在线滚动优化模型的复杂度,有效兼顾全局优化效益与在线执行开销。 本领域技术人员应该理解,本领域技术人员在结合现有技术以及上述方案可以实现所述方法,在此不做赘述。 以上对本发明的较佳方法进行了描述。需要理解的是,本发明并不局限于上述特定的实施方法,其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施;任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方法做出许多可能的变动和修饰,或修改为等同变化的等效方法,这并不影响本发明的实质内容。因此,凡是未脱离本发明技术方法的内容,依据本发明的技术实质对以上方法所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方法保护的范围。
机译: 策略控制体系结构,策略独立,策略用户和业务策略控制器,在第一源网络上启动服务并在第二网络上启动该服务的用户终端上的方法,以及独立身份提供者上的方法,用户策略控制器,业务策略控制器,服务策略控制器和网络策略控制器
机译: NSRM NSRM NSRM NSRM NSRM策略提供系统移动性和策略接收方法策略提供服务器和策略提供方法
机译: 网络策略提供系统,移动和策略接收方法,策略提供服务器和策略提供方法