留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于多智体强化学习的多风氢系统联合优化运行

刘建树 江岳文

刘建树, 江岳文. 基于多智体强化学习的多风氢系统联合优化运行[J]. 现代电力, 2022, 39(4): 431-440. doi: 10.19725/j.cnki.1007-2322.2021.0197
引用本文: 刘建树, 江岳文. 基于多智体强化学习的多风氢系统联合优化运行[J]. 现代电力, 2022, 39(4): 431-440. doi: 10.19725/j.cnki.1007-2322.2021.0197
LIU Jianshu, JIANG Yuewen. Joint Optimal Operation of Multi Wind-Hydrogen System Based on Multi-Agent Reinforcement Learning[J]. Modern Electric Power, 2022, 39(4): 431-440. doi: 10.19725/j.cnki.1007-2322.2021.0197
Citation: LIU Jianshu, JIANG Yuewen. Joint Optimal Operation of Multi Wind-Hydrogen System Based on Multi-Agent Reinforcement Learning[J]. Modern Electric Power, 2022, 39(4): 431-440. doi: 10.19725/j.cnki.1007-2322.2021.0197

基于多智体强化学习的多风氢系统联合优化运行

doi: 10.19725/j.cnki.1007-2322.2021.0197
基金项目: 国家自然科学基金项目(51707040)。
详细信息
    作者简介:

    刘建树(1996),男,硕士研究生,研究方向为电力系统优化运行与电力市场,E-mail:1327010274@qq.com

    江岳文(1977),女,博士,教授,通信作者,研究方向为电力系统优化运行与电力市场, E-mail:jiangyuewen2008@163.com

  • 中图分类号: TM73

Joint Optimal Operation of Multi Wind-Hydrogen System Based on Multi-Agent Reinforcement Learning

Funds: Project Supported by National Natural Foundation of China (51707040).
  • 摘要: 针对多风氢系统联合运行问题,提出一种基于多智体强化学习的多风氢系统联合优化运行方法,使得多风氢系统在有效消纳风电的同时实现联合收益最大化。首先,考虑风电场与制氢加氢站两者间通过合约交易方式联合运行,分别构建各自的运行模型;其次,以多风氢系统联合运行收益最大化为目标建立联合优化运行模型;再者,针对多风氢系统多决策变量导致的维数灾难问题,将多智体引入到强化学习中并采取多决策更新方法加速算法收敛;最后,通过算例仿真验证所提模型的合理性以及方法的可行性。
  • A1  单决策更新与多决策更新

    A1.  Single decision update and multiple decision update

    图  1  风电场B出力分配情况

    Figure  1.  Output distribution of wind farm B

    图  2  1号电解槽功率

    Figure  2.  Power of electrolyzer No.1

    图  3  制氢加氢站氢气储量变化曲线、氢负荷

    Figure  3.  Hydrogen reserve change curve and hydrogen load of hydrogen production and hydrogenation station

    A2  不同更新方法下的迭代结果曲线

    A2.  Iterative result curves under different update methods

    A3  多风氢系统示意图

    A3.  Schematic diagram of multi wind-hydrogen system

    A4  氢负荷曲线

    A4.  Hydrogen load curve

    A5  典型日风电出力曲线

    A5.  Typical daily wind power output curve

    表  1  不同更新方法得到的结果

    Table  1.   Results obtained by different update methods

    方法总收益/万元耗时/s
    单决策更新83.0212448
    多决策更新84.66473
    下载: 导出CSV

    表  2  不同氢气价格下的多风氢系统收益情况

    Table  2.   Revenue of multi wind-hydrogen system under different hydrogen price

    氢气售价
    /(元/kg)
    总收益
    /万元
    风电场收益
    /万元
    制氢加氢站收益
    /万元
    联合运行平均单位制氢成本/(元/kg)
    5269.1025.8643.2415.8
    6584.6625.9258.7415.82
    78100.1625.9074.2615.82
    下载: 导出CSV

    表  3  不同日氢负荷需求下的多风氢系统收益情况

    Table  3.   Revenue of multi wind hydrogen system under different daily hydrogen load demand

    日氢负荷
    需求/(kg/d)
    总收益/
    万元
    风电场收益/
    万元
    全电网
    电量平均
    单位制氢
    成本/(元/kg)
    联合运行
    平均单位
    制氢成本/
    (元/kg)
    320074.4426.2914.7914.61
    400084.6625.9216.8015.82
    480092.0223.9620.2317.51
    下载: 导出CSV

    S1  算例参数

    S1.   Example parameters

    参数数值参数数值
    $ {h_{\text{d}}}/{\text{h}} $6$ \xi $0.2
    $ W_{{\text{ref}}}^{{\text{com}}}/{\text{(MW}} \cdot {\text{h/kg)}} $0.00243$ {H_{{\text{LHV}}}}/({\text{MW}} \cdot {\text{h/kg}}) $0.0333
    $ {p^0}/{\text{bar}} $1$ {p^{{\text{com}}}}/{\text{bar}} $350
    $ {\gamma _{{\text{com}}}} $0.01$ p_{{\text{ref}}}^{{\text{com}}}/{\text{bar}} $200
    $ {\gamma _{{\text{tank}}}} $0.01${k_{ {\text{el} } } }/{\text{(元/MW} } \cdot {\text{h)} }$22
    ${\mu _{\text{s} } }/{\text{(元/kg} } \cdot {\text{h)} }$0.0192
    下载: 导出CSV

    S2  分时段电价

    S2.   Electricity price of TOU

    时间断面上网电价
    /(元/MW·h)
    负荷用电电价
    /(元/MW·h)
    低谷(0~31)130170
    高峰(32-47)650830
    平时(48~71)380490
    高峰(72~83)650830
    平时(84~95)380490
    下载: 导出CSV
  • [1] 尹凡, 王晶. 可再生能源的发展与利用简析[J]. 世界环境, 2020(6): 48−51.

    YIN Fan, WANG Jing. Brief analysis of development and utilization of renewable energy sources[J]. World Environment, 2020(6): 48−51(in Chinese).
    [2] 孙鹤旭, 李争, 陈爱兵, 等. 风电制氢技术现状及发展趋势[J]. 电工技术学报, 2019, 34(19): 4071−4083.

    SUN Hexu, LI Zheng, CHEN Aibing, et al. Current status and development trend of hydrogen production technology by wind power[J]. Transactions of China Electrotechnical Society, 2019, 34(19): 4071−4083(in Chinese).
    [3] NATERER G. F, FOWLER M, COTTON J. Synergistic roles of off-peak electrolysis and thermochemical production of hydrogen from nuclear energy in Canada[J]. International Journal of Hydrogen Energy, 2008, 33(23): 6849−6857. doi:  10.1016/j.ijhydene.2008.09.011
    [4] 张理, 叶斌, 尹晨旭, 等. 风电制氢经济性及发展前景分析[J]. 东北电力技术, 2020, 41(7): 5−9,37. doi:  10.3969/j.issn.1004-7913.2020.07.002

    ZHANG Li, YE Bin, YIN Chenxu, et al. Economy and development prospects analysis of wind power hydrogen production[J]. Northeast Electric Power Technology, 2020, 41(7): 5−9,37(in Chinese). doi:  10.3969/j.issn.1004-7913.2020.07.002
    [5] GUTIÉRREZ-MARTÍN D, CONFENTE I, GUERRA D. Management of variable electricity loads in wind – Hydrogen systems: The case of a Spanish wind farm[J]. International Journal of Hydrogen Energy, 2010, 35(14): 7329−7336. doi:  10.1016/j.ijhydene.2010.04.181
    [6] GONZÁLEZ E, MCKEOGH B. The role of hydrogen in high wind energy penetration electricity systems: The Irish case[J]. Renewable Energy, 2003, 29(4): 471−489.
    [7] 沈小军, 聂聪颖, 吕洪. 计及电热特性的离网型风电制氢碱性电解槽阵列优化控制策略[J]. 电工技术学报, 2021, 36(3): 463−472.

    SHEN Xiaojun, NIE Congying, LÜ Hong. Coordination control strategy of wind power-hydrogen alkaline electrolyzer bank considering electrothermal characteristic[J]. Transactions of China Electrotechnical Society, 2021, 36(3): 463−472(in Chinese).
    [8] XIAO Pengfei, HU Weihao, XU Xiao, et al. Optimal operation of a wind-electrolytic hydrogen storage system in the electricity/hydrogen markets[J]. International Journal of Hydrogen Energy, 2020, 45(46): 24412−24423. doi:  10.1016/j.ijhydene.2020.06.302
    [9] 尹文良, 刘琳, 张存山, 等. 含制氢储能的混合传动风电系统建模与运行特性分析[J]. 电力自动化设备, 2020, 40(10): 64−70.

    YIN Wenliang, LIU Lin, ZHANG Cunshan, et al. Modeling and operation performance analysis of hybrid drive wind power generation system with hydrogen energy storage[J]. Electric Power Automation Equipment, 2020, 40(10): 64−70(in Chinese).
    [10] 李雪松, 随权, 林湘宁, 等. 一种兼顾富余风电充分消纳和全局效益的电网灵活负荷控制策略[J]. 中国电机工程学报, 2020, 40(18): 5885−5.

    LI Xuesong, SUI Quan, LIN Xiangning, et al. A flexible load control strategy for power grid considering fully consumption of surplus wind power and global benefits[J]. Proceedings of the CESS, 2020, 40(18): 5885−5(in Chinese).
    [11] 陈刚, 杨毅, 杨晓梅, 等. 基于分布式牛顿法的微电网群分布式优化调度方法[J]. 电力系统自动化, 2017, 41(21): 156−162. doi:  10.7500/AEPS20170313007

    CHEN Gang, YANG Yi, YANG Xiaomei, et al. Distributed optimization scheduling method for microgrid cluster based on distributed Newton method[J]. Automation of Electric Power Systems, 2017, 41(21): 156−162(in Chinese). doi:  10.7500/AEPS20170313007
    [12] 李珂, 顾欣, 刘旭东, 等. 基于梯度下降法的永磁同步电机单电流弱磁优化控制[J]. 电工技术学报, 2016, 31(15): 8−15. doi:  10.3969/j.issn.1000-6753.2016.15.002

    LI Ke, GU Xin, LIU Xudong, et al. Optimized flux weakening control of IPMSM based on gradient descent method with single current regulator[J]. Transactions of China Electrotechnical Society, 2016, 31(15): 8−15(in Chinese). doi:  10.3969/j.issn.1000-6753.2016.15.002
    [13] 邓长虹, 马庆, 肖永, 等. 基于自学习迁移粒子群算法及高斯罚函数的无功优化方法[J]. 电网技术, 2014, 38(12): 3341−3346.

    DENG Changhong, MA Qing, XIAO Yong, et al. Reactive power optimization based on self-learning migration particle swarm optimization and Gaussian penalty function[J]. Power System Technology, 2014, 38(12): 3341−3346(in Chinese).
    [14] 杨少兵, 吴命利. 基于改进蚁群算法的客运专线电力负荷建模与参数辨识[J]. 中国电机工程学报, 2015, 35(7): 1578−1585.

    YANG Shaobing, WU Mingli. Power load modeling and parameter identification based on improve ant colony algorithm for passenger lines[J]. Proceedings of the CSEE, 2015, 35(7): 1578−1585(in Chinese).
    [15] 余涛, 周斌, 甄卫国. 强化学习理论在电力系统中的应用及展望[J]. 电力系统保护与控制, 2009, 37(14): 122−128. doi:  10.7667/j.issn.1674-3415.2009.14.029

    YU Tao, ZHOU Bin, ZHEN Weiguo. Application and development of reinforcement learning theory in power systems[J]. Power System Protection and Control, 2009, 37(14): 122−128(in Chinese). doi:  10.7667/j.issn.1674-3415.2009.14.029
    [16] 刁浩然, 杨明, 陈芳, 等. 基于强化学习理论的地区电网无功电压优化控制方法[J]. 电工技术学报, 2015, 30(12): 408−414. doi:  10.3969/j.issn.1000-6753.2015.12.051

    DIAO Haoran, YANG Ming, CHEN Fang, et al. Reactive power and voltage optimization control approach of the regional power grid based on reinforcement learning theory[J]. Transactions of China Electrotechnical Society, 2015, 30(12): 408−414(in Chinese). doi:  10.3969/j.issn.1000-6753.2015.12.051
    [17] 沈珺, 柳伟, 李虎成, 等. 基于强化学习的多微电网分布式二次优化控制[J]. 电力系统自动化, 2020, 44(5): 198−206. doi:  10.7500/AEPS20190521007

    SHEN Jun, LIU Wei, LI Hucheng, et al. Reinforcement learning based distributed secondary optimal control for multiple microgrids[J]. Automation of Electric Power Systems, 2020, 44(5): 198−206(in Chinese). doi:  10.7500/AEPS20190521007
    [18] 刘国静, 韩学山, 王尚, 等. 基于强化学习方法的风储合作决策[J]. 电网技术, 2016, 40(9): 2729−2736.

    LIU Guojing, HAN Xueshan, WANG Shang, et al. Optimal decision-making in the cooperation of wind power and energy storage based on reinforcement learning algorithm[J]. Power System Technology, 2016, 40(9): 2729−2736(in Chinese).
    [19] 王渝红,胡胜杰,宋雨妍,等.基于强化学习理论的输电网扩展规划方法[J/OL].电网技术:1-10[2021-05-19].https: //doi. org/10.13335/j. 1000-3673. pst. 2020.0831.

    WANG Yuhong, HU Shengjie, SONG Yuyan, et al. Transmission expansion planning based on reinforcement learning[J/OL]. Power System Technology: 1-10[2021-05-19] (in Chinese).
    [20] 李咸善, 陈奥博, 程杉, 等. 基于生态博弈的含云储能微电网多智能体协调优化调度[J/OL]. 中国电力: 1-1[2021-07-16]. http: //kns. cnki. net/kcms/detail/11.3265. TM. 20210311.08 58.002. htm.

    LI Xianshan, CHEN Aobo, CHENG Shan, et al. Multi-agent coordination and optimal dispatch of microgird with CES based on ecological game[J/OL]. Electric Power: 1-12[2021-07-16]. http: //kns. cnki. net/kcms/detail/11.3265. TM. 20210311.08 58.002. htm.
    [21] 孙庆凯, 王小君, 王怡, 等. 基于多智能体Nash-Q强化学习的综合能源市场交易优化决策[J/OL]. 电力系统自动化: 1-17[2021-06-19]. http://kns.cnki.net/kcms/detail/32.1180.TP.20210528.111 1.010.html.

    SUN Qingkai, WANG Xiaojun, WANG Yi, et al. Optimal decision-making of integrated energy market transaction based on multi-agent Nash-Q reinforcement learning[J/OL]. Automation of Electric Power System:1-17[2021-06-19](in Chinese).
    [22] 席磊, 刘宗静, 孙梦梦, 等. 面向多区域能源互联的多智能体协同AGC策略[J]. 中国科学:技术科学, 2021, 51(6): 673−683. doi:  10.1360/SST-2020-0467

    XI Lei, LIU Zongjing, SUN Mengmeng, et al. The multi-agent cooperative AGC strategy for multiregional energy interconnection[J]. Scientia Sinica Technologica, 2021, 51(6): 673−683(in Chinese). doi:  10.1360/SST-2020-0467
    [23] 国家发展改革委国家能源局关于开展分布式发电市场化交易试点的通知[EB/OL]. 北京: 国家能源局[2017-10-31]. http://zfxxgk.nea.gov.cn/auto87/201711/t20171113_3055.htm.
    [24] 邓智宏, 江岳文. 考虑制氢效率特性的风氢系统容量优化[J]. 可再生能源, 2020, 38(2): 259−266. doi:  10.3969/j.issn.1671-5292.2020.02.019

    DENG Zhihong, JIANG Yuewen. Optimal sizing of a wind-hydrogen system under consideration of the efficiency characteristics of electrolysers[J]. Renewable Energy Resources, 2020, 38(2): 259−266(in Chinese). doi:  10.3969/j.issn.1671-5292.2020.02.019
    [25] JORN B, THOMAS T. Alkaline water electrolysis powered by renewable energy: a review[J]. Processes, 2020, 8(2): 248−248. doi:  10.3390/pr8020248
    [26] MANSILLA C, LOUYRETTE J, ALBOU S, et al. Electric system management through hydrogen production – A market driven approach in the French context[J]. International Journal of Hydrogen Energy, 2012, 37(15): 10986−10991. doi:  10.1016/j.ijhydene.2012.05.014
    [27] DIMITRIOS A. Optimization of a hydrogen production – storage – re-powering system participating in electricity and transportation markets. A case study for Denmark[J]. Applied Energy, 2020, 265: 1−16. doi:  10.1016/j.apenergy.2020.114800
    [28] 马思瑶. 发展氢能交通别让加氢站“拖后腿”[J]. 中国石油和化工经济分析, 2019(2): 33−36.

    MA Siyao. Developing hydrogen energy transportation and not let the hydrogenation station slow down[J]. Economic Analysis of China Petroleum and Chemical Industry, 2019(2): 33−36(in Chinese).
    [29] 马建新, 刘绍军, 周伟, 等. 加氢站氢气运输方案比选[J]. 同济大学学报:自然科学版, 2008(5): 615−619.

    MA Jianxin, LIU Shaojun, ZHOU Wei, et al. Comparison of hydrogen transportation methods for hydrogen refueling station[J]. Journal of Tongji University(Natural Science), 2008(5): 615−619(in Chinese).
  • [1] 庞博, 郭春义, 王燕宁, 林欣.  交流系统短路比和阻抗角对模块化多电平高压直流输电系统低频段振荡模态的影响 . 现代电力, 2022, 39(2): 151-159. doi: 10.19725/j.cnki.1007-2322.2021.0081
    [2] 张中丹, 杨德州, 王洲, 贾春蓉, 彭婧.  基于区块链技术的电网灾害预警决策系统 . 现代电力, 2021, 38(3): 307-315. doi: 10.19725/j.cnki.1007-2322.2020.0331
    [3] 李建林, 李光辉, 马速良, 宋洁.  氢能储运技术现状及其在电力系统中的典型应用 . 现代电力, 2021, 38(5): 535-545. doi: 10.19725/j.cnki.1007-2322.2021.0023
    [4] 孟明, 马辰南, 薛宛辰, 罗洋, 商聪.  基于多代理的综合能源系统分层分布式能量协调方法 . 现代电力, 2021, 38(2): 129-137. doi: 10.19725/j.cnki.1007-2322.2020.0256
    [5] 李建文, 阮筱菲, 李永刚, 纪烨晴, 孙伟.  弱电网下多并网逆变器谐振失稳研究综述 . 现代电力, 2020, 37(2): 187-196. doi: 10.19725/j.cnki.1007-2322.2019.0178
    [6] 闫群民, 李玉娇.  基于多频段电力系统稳定器的电力系统暂态稳定性优化策略 . 现代电力, 2020, 37(2): 139-144. doi: 10.19725/j.cnki.1007-2322.2019.0469
    [7] 范宏, 袁倩倩, 邓剑.  多区域综合能源系统的两阶段容量优化配置方法 . 现代电力, 2020, 37(5): 441-447. doi: 10.19725/j.cnki.1007-2322.2019.1077
    [8] 吴俊宏, 谢胤喆, 王玥, 郝然, 艾芊.  基于改进Gossip算法的多微网孤岛系统分布式电力交易策略 . 现代电力, 2019, 36(2): 88-94.
    [9] 李鹏, 崔玉, 孔祥平, 刘裕桦.  ±800kV多落点LCC-MMC直流系统控制器建模 . 现代电力, 2019, 36(6): 38-44.
    [10] 许志荣, 杨苹, 何婷, 郑成立, 宋嗣博.  多微网典型特征及应用分析 . 现代电力, 2017, 34(6): 9-15.
    [11] 陈玉芳, 周立丽.  光伏超级电容器制氢混合系统的建模与控制 . 现代电力, 2017, 34(3): 88-94.
    [12] 唐振东, 杨洪耕.  基于奇异值分解法的多逆变器并网控制系统交互影响研究 . 现代电力, 2017, 34(3): 82-87.
    [13] 白佩琳, 雷霞, 何建平.  多微电网系统的竞价机制设计 . 现代电力, 2017, 34(6): 22-27.
    [14] 吴 凡, 孙 静.  基于多智能体技术的智能电网信息管理系统研究 . 现代电力, 2017, 34(2): 87-96.
    [15] 孟 明, 贺海博.  直流微网系统的多模态运行控制 . 现代电力, 2016, 33(2): 6-12.
    [16] 陈坤, 谭忠富, 戈通, 黄锦鸿, 陈守军.  电网企业多区域多时段多品种购电组合优化模型研究 . 现代电力, 2015, 32(6): 79-85.
    [17] 王晓晖, 张粒子, 程世军, 刘苏云.  基于关联节点的含风电系统改进多场景随机机组组合模型 . 现代电力, 2014, 31(3): 1-6.
    [18] 黄缙华, 赵 强.  基于开放标准的电力系统图数模一体化研究 . 现代电力, 2010, 27(6): 73-78.
    [19] 赵 鹏, 刘智昱, 王炳革.  基于模糊集理论的小电流接地系统单相故障多判据定位研究 . 现代电力, 2010, 27(6): 21-25.
    [20] 晁 进, 刘文颖.  基于多智能体和专家系统的电网智能报警系统研究 . 现代电力, 2010, 27(5): 1-5.
  • 加载中
图(8) / 表 (5)
计量
  • 文章访问数:  98
  • HTML全文浏览量:  31
  • PDF下载量:  21
  • 被引次数: 0
出版历程
  • 收稿日期:  2021-07-23
  • 刊出日期:  2022-07-27

基于多智体强化学习的多风氢系统联合优化运行

doi: 10.19725/j.cnki.1007-2322.2021.0197
    基金项目:  国家自然科学基金项目(51707040)。
    作者简介:

    刘建树(1996),男,硕士研究生,研究方向为电力系统优化运行与电力市场,E-mail:1327010274@qq.com

    江岳文(1977),女,博士,教授,通信作者,研究方向为电力系统优化运行与电力市场, E-mail:jiangyuewen2008@163.com

  • 中图分类号: TM73

摘要: 针对多风氢系统联合运行问题,提出一种基于多智体强化学习的多风氢系统联合优化运行方法,使得多风氢系统在有效消纳风电的同时实现联合收益最大化。首先,考虑风电场与制氢加氢站两者间通过合约交易方式联合运行,分别构建各自的运行模型;其次,以多风氢系统联合运行收益最大化为目标建立联合优化运行模型;再者,针对多风氢系统多决策变量导致的维数灾难问题,将多智体引入到强化学习中并采取多决策更新方法加速算法收敛;最后,通过算例仿真验证所提模型的合理性以及方法的可行性。

English Abstract

刘建树, 江岳文. 基于多智体强化学习的多风氢系统联合优化运行[J]. 现代电力, 2022, 39(4): 431-440. doi: 10.19725/j.cnki.1007-2322.2021.0197
引用本文: 刘建树, 江岳文. 基于多智体强化学习的多风氢系统联合优化运行[J]. 现代电力, 2022, 39(4): 431-440. doi: 10.19725/j.cnki.1007-2322.2021.0197
LIU Jianshu, JIANG Yuewen. Joint Optimal Operation of Multi Wind-Hydrogen System Based on Multi-Agent Reinforcement Learning[J]. Modern Electric Power, 2022, 39(4): 431-440. doi: 10.19725/j.cnki.1007-2322.2021.0197
Citation: LIU Jianshu, JIANG Yuewen. Joint Optimal Operation of Multi Wind-Hydrogen System Based on Multi-Agent Reinforcement Learning[J]. Modern Electric Power, 2022, 39(4): 431-440. doi: 10.19725/j.cnki.1007-2322.2021.0197
    • 清洁可再生能源作为化石燃料的理想取代品,对于解决全球变暖、能源枯竭、环境污染等问题有着深远的意义[1]。作为一种理想的绿色能源,风电迅猛发展。然而,风能的分布与利用呈现出区域性的不平衡,弃风限电问题凸显[2]

      氢气是一种清洁无污染,能量密度高、转换形式多样的二次能源。利用风电制氢能够增加风电的可调度性,同时生成绿色氢气,是解决风电消纳问题的理想方案之一。多风氢系统联合运行可以发挥氢长期大规模存储和多元化产品输出的优势,在未来风电开发利用过程中发挥着重要的作用[3]。文献[4]提出考虑产业链传导的风电全电量制氢经济分析模型,为全面评价上网背景下新能源消纳受限地区风电产业新的发展提供参考;文献[5]对比不同风电渗透率情况下的电网运行情况,配备制氢装置吸收富余的风电,可大幅减少弃风并增加风电场收入;文献[6]研究使用风力发电进行电解制氢的可行性,在爱尔兰巨大的风能资源范围内评估氢的潜在利益;文献[7]考虑碱性电解槽电热特性、电解槽功率调节特性等因素,提出碱性电解槽列阵轮值协调控制策略,有效提高风电消纳能力;文献[8]提出一种风电制氢存储系统,考虑到风电输出和电价的不确定性,提出以利润最大化为目标的最优运行策略;文献[9]提出一种含制氢储能的风电系统基本构架,可有效平抑风电输出功率,增加系统运行的稳定性。文献[10]针对风电制氢系统的欠经济性运行,提出一种兼顾富余风电充分消纳和全局效益的电网灵活负荷控制策略。上述的研究利用制氢装置有效解决了风电消纳问题,但是对于风电场而言,配备制氢装置将导致投资建设成本的显著提升。在实际运行中,出于经济性考量,风电场与氢系统可属于不同的投资建设主体,两者之间通过联合运行的方式进行合作,充分利用各投资主体中的资源,实现共同利益的最大化。因此,深入的多风氢系统联合运行方式有待进一步挖掘。

      同时,多风氢系统运行具有多时间断面、多控制变量的特点,例如将一天分为96个时间断面,各时间断面内包含风电上网功率、电解槽制氢功率等控制变量,导致求解困难。经典的优化算法,如牛顿法[11]、梯度下降法[12]等,依赖于严格的数学模型,当优化问题出现非线性特征时将难以求解。虽可将非线性问题转化为线性问题进行求解,但在一定程度上影响求解的结果。而对于粒子群算法[13]、蚁群算法[14]等非线性算法,虽可较好地求解非线性优化问题,但易于陷入局部最优且求解稳定性差。众多的控制变量不论对非线性算法还是经典优化算法,都可能陷入到维数灾难当中,使得求解过程复杂且计算量巨大,在一定程度上降低了算法的实用性。作为机器学习算法的一个重要分支,强化学习对数学模型具有不敏感性,并采用试错的方法求取目标任务的解。目前在电力系统中,强化学习算法已经应用于安全稳定控制、自动发电控制、电压无功控制以及电力市场等方面[15]。文献[16]基于强化学习理论,提出一种实用的地区电网无功电压优化控制方法;文献[17]针对微电网中分布式电源下垂一次控制产生的系统频率和电压静态偏差问题,提出一种基于强化学习的就地反馈方法的分布式二次优化控制;文献[18]在风电与储能配置给定的前提下,利用强化学习实现风电与储能系统之间的有机合作;文献[19]将人工智能扩展至传统输电网规划中,提出基于强化学习理论的输电网扩展规划方法。上述研究较好地应用强化学习算法求解优化问题,但多决策变量导致的维数灾难依然是限制该算法广泛应用的关键因素。如何克服维数灾难问题,仍值得研究。同时,单智体决策无法满足多风氢系统多时间断面调度的灵活性。目前,已有研究将多智体应用到能量管理当中[20-22]。多智体运用集体智慧,将复杂的问题分配给多个单智体求解,并且智体间伴随信息交互,兼顾求解问题的独立性与整体性。

      本文针对多风氢系统联合运行问题,将收益最大化作为目标,构造多风氢系统联合优化运行模型。在此基础上,提出基于多智体强化学习的多风氢系统联合优化运行方法,利用多智体分布式计算、自主搜索、信息交互等特点并采用多决策更新方法,加速强化学习算法的收敛。最后,通过算例仿真验证所提方法的有效性,并分析多风氢系统的优化结果以及影响收益的相关因素。

    • 作为提高能源利用率的关键因素,氢系统可有效地解决可再生能源消纳问题。从能源角度出发,通过电解水制氢将电能转化为氢气可促进风电的进一步综合利用,促成多风氢系统的形成。依照国家发改委、国家能源局发布的《关于开展分布式发电市场化交易试点的通知》[23]给出的分布式交易模式:分布式电源与分布式负荷之间可以直接进行电力交易,购售电双方均需提前向调度机构上报出力预测与负荷预测。本文考虑多风氢系统联合运行,风电场与制氢加氢站在合约市场上签订月度合约,在日前市场上调度机构下发电价曲线,多风氢系统根据预测风电出力、预测氢负荷等因素确定风电场与制氢加氢站之间的合约交易功率。风电场与制氢加氢站的合约交易功率按照合约电价结算,风电场剩余的功率参加日前市场的竞标,按照上网电价结算。制氢加氢站与风电场的合约交易功率按照合约电价结算,其余制氢加氢站消耗功率按照负荷用电电价结算。

      多风氢系统的组成设备包括风电机组、电解槽、压缩机、储氢罐以及加氢设备,详情见附图A3。多风氢系统的运行目的是合理且高效地利用能源,通过优化各时段内电解槽的制氢功率、风电场的上网功率以及合约制氢功率,减少制氢成本的同时提高售电收益,取得多风氢系统收益的最大化。在风电场出力不足时,多风氢系统亦可使用电网功率辅助制氢,提高了多风氢系统运行方式的灵活性。

      图  A1  单决策更新与多决策更新

      Figure A1.  Single decision update and multiple decision update

    • 风电场$ t $时刻的收益$ S_t^{\text{w}} $可表示为

      $$ S_t^{\text{w}} = \left(\Delta t\sum\limits_{i = 1}^{{N_{\text{W}}}} {} P_{t,i}^{{\text{w\_g}}}\rho _t^{{\text{w\_g}}}) + (\Delta t\sum\limits_{i = 1}^{{N_{\text{W}}}} {} P_{t,i}^{{\text{w\_el}}}\rho _{}^{{\text{w\_el}}}\right) $$ (1)

      式中:$ i $为风电场索引;$ t $为时间索引;${N_{\text{W}}}$为风电场的数量;$P_{t,i}^{{\text{w\_g}}}$为第$ i $个风电场$ t $时刻向电网出售的功率;$P_{t,i}^{{\text{w\_el}}}$为第$ i $个风电场$ t $时刻的合约制氢功率;$\,\rho _t^{{\text{w\_g}}}$$ t $时刻的上网电价;$\,\rho _{}^{{\text{w\_el}}}$为风电场与制氢加氢站的合约电价;$ \Delta t $为调度时间间隔。

      风电场上网功率包括出售给电网的功率以及合约制氢功率;风电场的上网功率波动严重影响电网的电能质量,为平滑风电场上网功率,在风电上网功率越限的情况下将进行弃风。风电场在运行中满足有功功率约束。上述要求表示为

      $$ \left\{ \begin{gathered} P_{t,i}^{{\text{w\_G}}} = P_{t,i}^{{\text{w\_g}}} + P_{t,i}^{{\text{w\_el}}} \\ P_{t,i}^{{\text{w\_G}}} + P_{t,i}^{{\text{w\_ab}}} = P_{t,i}^{\text{w}} \\ - \zeta {P_{{\text{N}},i}} \leqslant P_{t,i}^{{\text{w\_G}}} - P_{t - 1,i}^{{\text{w\_G}}} \leqslant \zeta {P_{{\text{N}},i}} \\ 0 \leqslant P_{t,i}^{{\text{w\_G}}} \leqslant P_{t,i}^{\text{w}} \\ 0 \leqslant P_{t,i}^{{\text{w\_g}}} \leqslant P_{t,i}^{\text{w}} \\ 0 \leqslant P_{t,i}^{{\text{w\_el}}} \leqslant P_{t,i}^{\text{w}} \\ 0 \leqslant P_{t,i}^{{\text{w\_ab}}} \leqslant P_{t,i}^{\text{w}} \\ \end{gathered} \right. $$ (2)

      式中:$ P_{t,i}^{{\text{w\_G}}} $ 为第$ i $个风电场$ t $时刻上网功率;$ {P_{{\text{N}},i}} $为第$ i $个风电场的额定装机容量;$ \zeta $为风电上网功率的上限变化率;$ P_{t,i}^{{\text{w\_ab}}} $为第$ i $个风电场$ t $时刻的弃风功率;$ P_{t,i}^{\text{w}} $为第$ i $个风电场$ t $时刻的风电出力。

    • 制氢加氢站利用风电场合约制氢功率电解制氢,同时在风电不足或负荷用电电价较低时吸收电网功率辅助制氢,制备的氢气将供给氢负荷或存储于储氢罐中。

    • PEM电解槽具有电解效率高、工作电流密度大、电解槽体积小、易于操作与维护等优点,因此本文选用PEM电解槽,电解制氢的关系可表示为

      $$ F_{t,j}^{{\text{el}}} = \frac{{{\eta _{{\text{el}}}}P_{t,j}^{{\text{el}}}}}{{{H_{{\text{LHV}}}}}} $$ (3)

      式中:$ j $为制氢加氢站的索引;$ F_{t,j}^{{\text{el}}} $为第$ j $个制氢加氢站$ t $时刻单位时间内的产氢速率;$ {\eta _{{\text{el}}}} $为电解槽的电解效率;$ P_{t,j}^{{\text{el}}} $为第$ j $个制氢加氢站$ t $时刻电解槽的输入功率;$ {H_{{\text{LHV}}}} $为氢气的低热值。

      在实际生产中,电解槽的电解效率与电解功率有关。当电解槽的输入功率变化时,电解效率随之改变并呈现出一定的函数关系。根据文献[24]的制氢效率特性模型所得出的电解功率与电解效率数据,拟合出的电解效率函数可表示为

      $$ \left\{ \begin{split} &{\eta _{{\text{el}}}} = - 1.112{\left(P_{}^{{\text{el}} * }\right)^4} + 3.222{\left(P_{}^{{\text{el}} * }\right)^3} \\ &\quad\quad\;- 3.384{\left(P_{}^{{\text{el}} * }\right)^2} + 1.296P_{}^{{\text{el}} * } + 0.6707 \\ &P_{}^{{\text{el}} * } = \dfrac{{P_{t,j}^{{\text{el}}}}}{{P_{\max ,j}^{{\text{el}}}}} \\ \end{split} \right. $$ (4)

      式中:$ P_{}^{{\text{el}} * } $为电解槽输入功率的标幺值。

      电解槽运行时满足的功率约束可表示为

      $$ P_{\min ,j}^{{\text{el}}} \leqslant P_{t,j}^{{\text{el}}} \leqslant P_{\max ,j}^{{\text{el}}} $$ (5)

      式中:$ P_{\max ,j}^{{\text{el}}} $$ P_{\min ,j}^{{\text{el}}} $分别为第$ j $个制氢加氢站电解槽输入功率的上下限。

      文献[25]指出,在电极相互独立的运行模式中,氢气的纯度随着电流密度的上升而增加,并最终趋于稳定值。当电极电流密度达到0.2 A/cm2时,氢气的纯度可以达到99.99%vol以上,符合安全运行的标准,也符合商业高纯度氢的标准。文献[26]给出了更为具体的最佳电解槽输入功率,可表示为

      $$ 0.25P_{\max ,j}^{{\text{el}}} \leqslant P_{t,j}^{{\text{el}}} \leqslant P_{\max ,j}^{{\text{el}}} $$ (6)
    • 为提高储氢罐氢气的单位存储密度,常将低压氢气通过压缩机压缩成高压氢气。在压缩氢气的过程中,压缩机所消耗的功率可表示为

      $$ \left\{ \begin{split} & P_{t,j}^{{\text{com}}} = F_{t,j}^{{\text{com}}}W_{{\text{ref}}}^{{\text{com}}}\left[\dfrac{{\ln ({p^{{\text{com}}}}/{p^0})}}{{\ln (p_{{\text{ref}}}^{{\text{com}}}/{p^0})}}\right] \\ & F_{t,j}^{{\text{com}}} = (1 - {\gamma _{{\text{com}}}})F_{t,j}^{{\text{el}}} \\ \end{split} \right. $$ (7)

      式中:$ P_{t,j}^{{\text{com}}} $为第$ j $个制氢加氢站$ t $时刻压缩机所消耗的功率;$ F_{t,j}^{{\text{com}}} $为第$ j $个制氢加氢站$ t $时刻单位时间内流入压缩机的氢气量;$ W_{{\text{ref}}}^{{\text{com}}} $为压缩机在参考工作压力下压缩单位质量的氢气所消耗的能量;$ {p^{{\text{com}}}} $为压缩机的工作压力;$ {p^0} $为标准大气压;$ p_{{\text{ref}}}^{{\text{com}}} $为压缩机的参考工作压力;$ {\gamma _{{\text{com}}}} $为氢气从电解槽到压缩机的耗散率。

    • 为协调氢气的生产与氢负荷需求之间的不平衡,利用储氢罐存储多余的氢气以满足不时之需。

      储氢罐的总容量采用公式(8)确定

      $$ {C_{{\text{tank}},j}} = {\eta _{{\text{el}}}}\dfrac{{P_{\max ,j}^{{\text{el}}}{h_{\text{d}}}}}{{{H_{{\text{LHV}}}}}} $$ (8)

      式中:$ {C_{{\text{tank}},j}} $为第$ j $个制氢加氢站的储氢罐总容量;$ {h_{\text{d}}} $为电解槽满载运行时长。文献[27]将$ {h_{\text{d}}} $设置为24 h,以减少氢负荷需求与氢气生产的不平衡。本文考虑在电价低谷时期将生成较多的氢气,功率调度间隔为15 min,对氢负荷需求的响应较为敏感,综合考虑将$ {h_{\text{d}}} $设置为6 h。

      为满足储氢罐的安全运行,在正常运行情况下,储氢罐的约束可表示为

      $$ \begin{cases}\begin{array}{l}\begin{array}{l}{S}_{t+1,j}={S}_{t,j}+{F}_{t,j}^{\text{tank}}\Delta t-{L}_{t,j}+{\displaystyle \sum _{{j}^{\prime }\ne j}^{{N}_{\text{HS}}}\left({S}_{t,j{j}^{\prime }}^{\text{in}}-{S}_{t,j{j}^{\prime }}^{\text{out}}\right)}\\ {F}_{t,j}^{\text{tank}}=(1-{\gamma }_{\text{tank}}){F}_{t,j}^{\text{com}}\\ {S}_{\mathrm{min},j}\le {S}_{t,j}\le {S}_{\mathrm{max},j}\end{array} \\ \begin{split} & g(t) \cdot S_{\min ,j}^{{\text{tran}}} \leqslant S_{t,jj'}^{{\text{out}}} \leqslant g(t) \cdot S_{\max ,j}^{{\text{tran}}} \\ &g(t) \cdot S_{\min ,j'}^{{\text{tran}}} \leqslant S_{t,jj'}^{{\text{in}}} \leqslant g(t) \cdot S_{\max ,j'}^{{\text{tran}}} \\ &{S_{\min ,j}} = 0.1{C_{{\text{tank}},j}} ,{{S_{\max ,j}} = 0.9{C_{{\text{tank}},j}}} \\ &g(t) = \left\{ \begin{gathered} 1\begin{array}{*{20}{c}} ,&{t = 36,64} \end{array} \\ 0\begin{array}{*{20}{c}} ,&{{\text{其他}}} \end{array} \end{gathered} \right. \end{split}\end{array}\end{cases} $$ (9)

      式中:$ {S_{t,j}} $为第$ j $个制氢加氢站$ t $时刻储氢罐的储氢量;$ {L_{t,j}} $为第$ j $个制氢加氢站$ t $时刻的氢气需求量;$ F_{t,j}^{{\text{tank}}} $为第$ j $个制氢加氢站$ t $时刻单位时间内流入储氢罐的氢气量;$ S_{t,jj'}^{{\text{in}}} $表示第$ j' $个制氢加氢站向第$ j $个制氢加氢站供应的氢气量;$ S_{t,jj'}^{{\text{out}}} $表示第$ j $个制氢加氢站向第$ j' $个制氢加氢站输出的氢气量;$ S_{\max ,j}^{{\text{tran}}} $$ S_{\min ,j}^{{\text{tran}}} $$ S_{\max ,j'}^{{\text{tran}}} $$ S_{\min ,j'}^{{\text{tran}}} $分别为第$ j $$ j' $个制氢加氢站长管拖车运输量的上下限;$ g(t) $为符号函数,表示是否进行氢气互供;$ {\gamma _{{\text{tank}}}} $为氢气从压缩机到储氢罐的耗散率;$ {S_{\max ,j}} $$ {S_{\min ,j}} $分别为第$ j $个制氢加氢站储氢罐存储量的上下限。

    • 制氢加氢站将氢气出售给氢负荷,以此获得收益;制氢加氢站的运行成本包括购电费用、储氢费用、电解槽运行维护费用以及氢气运输费用;在合约制氢功率不足的情况下,制氢加氢站将向电网购电。制氢加氢站$ t $时刻的收益$ S_t^{\text{H}} $可表示为

      $$ \left\{ \begin{split} & S_t^{\text{H}} = \left(\sum\limits_{j = 1}^{{N_{{\text{HS}}}}} {{m_{t,j}}} {\rho ^{\text{H}}}\right) - \left(\Delta t\sum\limits_{i = 1}^{{N_{\text{W}}}} {} P_{t,i}^{{\text{w\_e}}l}\rho _{}^{{\text{w\_el}}}\right) \\ & \quad\;\;- C_t^{\text{g}} - C_t^{{\text{sto}}} - C_t^{{\text{el}}} - C_t^{{\text{tran}}} \\ & {m_{t,j}} = \min \left\{ {{L_{t,j}},F_{t,j}^{{\text{tank}}}\Delta t + {S_{t,j}} - {S_{\min ,j}}} \right\} \\ & C_t^{\text{g}} = \sum\limits_{j = 1}^{{N_{{\text{HS}}}}}P_{t,j}^{\text{g}}\rho _t^{\text{g}}\Delta t \\ & {C_t^{\text{sto}}} = \Delta t\displaystyle\sum\limits_{j = 1}^{{N_{{\text{HS}}}}} {{\mu _{\text{s}}}{S_{t,j}}\begin{array}{*{20}{c}} ,&{C_t^{{\text{el}}} = \Delta t\displaystyle\sum\limits_{j = 1}^{{N_{{\text{HS}}}}} {{k_{{\text{el}}}}P_{t,j}^{{\text{el}}}} } \end{array}} \\ &C_t^{{\text{tran}}} = \rho _{}^{{\text{tran}}}\sum\limits_{j = 1}^{{N_{{\text{HS}}}}} {\sum\limits_{j' \ne j}^{{N_{{\text{HS}}}}} {S_{t,jj'}^{{\text{out}}}} } \\ \end{split} \right. $$ (10)

      式中:$ {N_{{\text{HS}}}} $为制氢加氢站的数量;$ {m_{t,j}} $为第$ j $个制氢加氢站$ t $时刻的售氢量;$ {\rho ^{\text{H}}} $为氢气的单位售价;$ C_t^{\text{g}} $$ t $时刻的电网辅助制氢费用;$ C_t^{{\text{sto}}} $$ t $时刻的储氢费用;$ C_t^{{\text{el}}} $$ t $时刻的电解槽运行维护费用;$ C_t^{{\text{tran}}} $$ t $时刻的氢气运输费用;$ P_{t,j}^{\text{g}} $为第j个制氢加氢站t时刻的电网辅助制氢功率。$ \rho _t^{\text{g}} $$ t $时刻的负荷用电电价;$ {\mu _{\text{s}}} $为单位时间单位量的储氢费用;$ {k_{{\text{el}}}} $为单位时间单位电解容量的电解槽运行维护费用;$ {\rho ^{{\text{tran}}}} $为氢气运输单位成本。

      制氢加氢站的有功功率约束可表示为

      $$ \left\{ \begin{split} & \sum\limits_{j = 1}^{{N_{{\text{HS}}}}} {(P_{t,j}^{{\text{el}}} + P_{t,j}^{{\text{com}}})} = \sum\limits_{j = 1}^{{N_{{\text{HS}}}}} {P_{t,j}^{\text{g}}} + \sum\limits_{i = 1}^{{N_{\text{W}}}} {P_{t,i}^{{\text{w\_el}}}} \\ & 0 \leqslant P_{t,j}^{\text{g}} \\ \end{split} \right. $$ (11)
    • 以多风氢系统联合运行收益最大化为目标,多风氢系统联合优化运行模型可表示为

      $$ \begin{cases}\begin{split} & \mathrm{max}G={\displaystyle \sum _{t=\text{1}}^{T}\text{(}{S}_{t}^{\text{w}}+{S}_{t}^{\text{H}}\text{)}}\\ &\text{s}\text{.t}\text{.}式\text{(2)(3)}—\text{(7)}(9)(10)(\text{1}1)\end{split}\end{cases} $$ (12)

      式中:$ G $为多风氢系统联合运行收益;$ T $为一天中划分的时间断面数量,本文取96。

    • 作为人工智能算法的重要分支,强化学习通过试错的方法与环境进行交互,同时不断改进动作策略,可以求解复杂的优化决策问题。强化学习的目的是获得最大奖赏或得出最优策略,因此,将奖赏函数设置为多风氢系统收益,其形式如下所示

      $$ r=\begin{cases}\begin{array}{l}G\begin{array}{cc},& 满足运行约束\end{array}\\ 0\begin{array}{cc},& 不满足运行约束\end{array}\end{array}\end{cases} $$ (13)

      式中:$ r $为奖励函数,表示执行一个动作后智体获得的奖励值。

      为减少维数灾难对强化学习的影响,应用多智体改进强化学习。设多智体强化学习有$ n $个决策变量,对应$ n $个单智体,即决策变量$ k $由单智体$ k $所决策。多智体所对应的状态空间为$ S $$ n $个单智体对应的动作空间分别为$ {A^1} $,...,$ {A^n} $ 。根据多智体间需进行信息交互的要求,设置基准奖励$ {r_{\text{b}}} $作为衡量单智体动作的优劣,设置基准动作作为单智体决策的出发点,可表示为

      $$ \left\{ \begin{split} &{r_{\text{b}}} = {\rm{C}} \\ & a_{\text{b}}^{} = (a_{\text{b}}^1,\cdots,a_{\text{b}}^k,\cdots,a_{\text{b}}^n) \\ \end{split} \right. $$ (14)

      式中:C为一接近于零的常数;$ a_{\text{b}}^1 \in {A^1} $,...,$ a_{\text{b}}^n \in {A^n} $分别为$ n $个单智体的基准动作;$ {a_{\text{b}}} $$ n $个单智体的联合基准动作。

      当其他智体动作保持不变,仅单智体$ k $改变动作后,获得的奖励如下

      $$ {r^k} = r(s,a_{\text{b}}^1,\cdots,{a^k},\cdots,a_{\text{b}}^n) $$ (15)

      式中:$ {r^k} $表示单智体k的决策奖励;$ s \in S $为当前状态;$ {a^k} \in {A^k} $ 为单智体$ k $的决策动作。单智体$ k $以基准动作为起点,仅改变其决策动作$ {a^k} $,以此探索在单智体$ k $角度上的最优动作决策。

      单智体$ k $$ Q $值采用式(16)更新

      $$ \begin{split} & Q_{l + 1}^k(s,a_{\text{b}}^1,\cdots,{a^k},\cdots,a_{\text{b}}^n) = Q_l^k(s,a_{\text{b}}^1,\cdots,{a^k},\cdots,a_{\text{b}}^n) + \\ &\alpha ({r^k} + \gamma \mathop {\max }\limits_{{{a'}^k} \in {A^k}} Q_l^k({{s'}_{}},a_{\text{b}}^1,\cdots,{{a'}^k},\cdots,a_{\text{b}}^n) -\\ & Q_l^k(s,a_{\text{b}}^1,\cdots,{a^k},\cdots,a_{\text{b}}^n)) \\ \end{split} $$ (16)

      式中:$ Q_l^k(s,a_{\text{b}}^1,\cdots,{a^k},\cdots,a_{\text{b}}^n) $表示单智体$ k $在当前状态s选择动作$ {a^k} $$ l $次迭代的Q值;$\mathop {\max }\limits_{{{a'}^k} \in {A^k}} Q_l^k \left(\right.{s'_{}}, a_{\text{b}}^1,\cdots, {a'^k},\cdots,a_{\text{b}}^n\left.\right)$ 为下一个状态$ {s'_{}} $下单智体$ k $所有可行动作中最大的$ Q $值;$ \alpha (0 < \alpha < 1) $为学习因子;$ \gamma (0 < \gamma < 1) $为奖励递减系数。

      $ Q $值的不断迭代中,单智体$ k $得出的最优策略可表示为

      $$ \pi _ * ^k = \arg \mathop {\max }\limits_{a_{}^k \in {A^k}} Q_l^k(s,a_{\text{b}}^1,\cdots,{a^k},\cdots,a_{\text{b}}^n) $$ (17)

      式中:$ \pi _ * ^k $表示单智体$ k $在其角度上得出最优动作策略。

    • 对多风氢系统联合优化运行问题,本文选择风电出力、上网电价、负荷用电电价以及储氢罐储氢量作为状态量。对本文的单智体而言,输入状态为该单智体所属时间断面内的状态量。

      首先由于风电出力不可控,对于确定时间断面的风电出力状态量为一固定值,即各时间断面下,一个风电场只包含1种风电出力状态量$ P_{t,i}^{\text{w}} $

      其次,类似于风电出力,在确定时间断面下只包含1种上网电价状态量$ \rho _t^{{\text{w\_g}}} $和1种负荷用电电价状态量$ \rho _t^{\text{g}} $

      最后,对于储氢罐储氢量,在本文的约束下实际只有1个运行区间,可表示为:

      $$ {S_{\min ,j}} \leqslant {S_{t,j}} \leqslant {S_{\max ,j}} $$ (18)

      区间[$ {S_{\min ,j}} $,$ {S_{\max ,j}} $]为储氢罐正常运行状态,只含有1种状态量,各时间断面下任意1个储氢罐的储氢状态量都包含于上述运行区间。

      考虑到将一天划分为$ T $个时间断面,则状态空间S共包含$ T $种状态,任意一种状态可表示为:

      $$ s = \begin{gathered}\left\{ {} \right.P_{t,1}^{\text{w}},\cdots,P_{t,i}^{\text{w}},\cdots,P_{t,{N_{\text{W}}}}^{\text{w}},\rho _t^{{\text{w\_g}}}, \\ \rho _t^{\text{g}},{S_{t,1}},\cdots,{S_{t,j}},\cdots,{S_{t,{N_{{\text{HS}}}}}}\left. {} \right\} \\ \end{gathered} $$ (19)

      根据所属时间断面的风电出力、上网电价、负荷用电电价以及储氢罐储氢量,即可唯一确定状态。

    • 多风氢系统中,多智体强化学习的决策变量为风电上网功率、合约制氢功率以及电解槽输入功率。依照强化学习的动作要求,通过功率的上下限将功率离散化以获取动作空间。

      风电上网功率的上限由风电出力所决定,将风电出力由0至$ P_{t,i}^{\text{w}} $离散为d个固定值即可得到风电上网功率动作,如下:

      $$ \left\{ {0,\dfrac{{P_{t,i}^{\text{w}}}}{d},\dfrac{{2P_{t,i}^{\text{w}}}}{d},\cdots,P_{t,i}^{\text{w}}} \right\} $$ (20)

      考虑到风电上网功率为0的情况,风电上网功率动作共包含d+1个动作。合约制氢功率的动作同风电上网功率相同,不再赘述。

      将电解槽输入功率由0至$ P_{\max ,j}^{{\text{el}}} $离散为b个固定值,如下:

      $$ \left\{ {0,\dfrac{{P_{\max ,j}^{{\text{el}}}}}{b},\dfrac{{2P_{\max ,j}^{{\text{el}}}}}{b},\cdots,P_{\max ,j}^{{\text{el}}}} \right\} $$ (21)

      考虑到电解槽输入功率为0的情况,电解槽输入功率动作共包含b+1个动作。

      根据所属决策变量,单智体即可确定唯一动作空间。

    • 出于贪婪获取奖励的本性,所有单智体的决策都将趋于增大奖励的方向,对结果收敛具有较强的引导性。强化学习的本质是累计经验的过程,该经验反映奖励增长的趋势或优异动作策略的调整方向,多个单智体的决策就反映分层次多维度的经验知识。在一次迭代中获得多个单智体的决策经验积累,强化学习的经验知识将呈现多方面、大幅度的增长,学习速度将有效提升。

      单决策更新与多决策更新的原理见附图A1

      图  1  风电场B出力分配情况

      Figure 1.  Output distribution of wind farm B

      从图中可知,在独立探索阶段,单智体通过试错得出决策进而获取奖励,而后利用决策更新基准。对单决策更新而言,最大奖励决策k被选中进入决策验证。当该决策奖励大于基准奖励时,决策将更新相应单智体的基准动作以及基准奖励形成新的基准,否则决策不被采纳,保持原有的基准奖励以及基准动作。此过程中,仅选择集体最大奖励决策更新基准。对多决策更新而言,在更新的过程中多个单智体的决策将得到实现。多决策更新按照决策奖励由大而小依次排列单智体决策,最大奖励决策首先进入决策验证;其次,第二奖励决策将改变相应单智体的基准动作进而获取奖励,从而进入决策验证。如此,依次验证决策,直至决策验证完毕。因而多决策更新将利用多个决策实现多个单智体基准动作的更新,基准奖励也被数次扩大,加快了获取奖励的进程。

      在多智体强化学习环境下,依靠单智体在对应动作空间探索以获取最优动作决策。单智体k的动作选择采用ε-greedy策略选择动作,方法可表示为

      $$ {a^k} = \left\{ \begin{split} &\arg \mathop {\max }\limits_{{a^k} \in {A^k}} Q_l^k(s,a_{\text{b}}^1,\cdots,{a^k},\cdots,a_{\text{b}}^n)\begin{array}{*{20}{c}} ,&{p \leqslant \varepsilon } \end{array} \\ & a_{{\text{rd}}}^k,\quad\quad\quad\quad\quad\quad\quad\quad\quad{{\rm{other}}} \end{split} \right. $$ (22)

      式中:$ p $为一随机数字;其取值为$ 0 \leqslant p \leqslant 1,p \in R $$ 0 < \varepsilon < 1 $为贪婪系数,表示单智体利用Q表的概率;$ a_{{\text{rd}}}^k $表示单智体k随机从可行动作空间$ {A^k} $中选择一个动作。

    • 本文以附图A3所示多风氢系统为例。多风氢系统包含2个风电场和3个制氢加氢站,每个风电场的总装机容量为25 MW,每个制氢加氢站电解槽的总额定容量为16 MW。合约电价是衡量合约双方能否从联合运行中受益的一个关键因素,适当的合约电价可保证各利益主体的利益,但本文主要关注的是多风氢系统的整体收益最大化问题,暂未考虑内部收益的分配问题。为此,本文将风电场与制氢加氢站之间的合约电价定为285元/MW·h。文献[28]指出目前出现在市面上的氢气价格为70~90元/kg。由于本文制取的氢气大量使用绿色能源,制氢成本较低,为提高氢气价格的竞争力,取氢气售价为65元/kg。多风氢系统的运行参数见附录中的表S1

      类似传统燃油汽车的需求曲线,氢气需求百分比曲线如附图A4所示。多风氢系统配置2个风电场,典型日风电出力曲线如附图A5所示。本文的调度时间间隔为$ \Delta t = 15\;\min $,总的调度周期为一天,日氢负荷需求为4000 kg/d(每个加氢站的日消耗氢气量)。为合理利用电力资源,多风氢系统运行将遵从峰谷电价机制,分时段电价见附录中的表S2

      图  2  1号电解槽功率

      Figure 2.  Power of electrolyzer No.1

      图  3  制氢加氢站氢气储量变化曲线、氢负荷

      Figure 3.  Hydrogen reserve change curve and hydrogen load of hydrogen production and hydrogenation station

      强化学习算法参数方面,学习因子α取0.99,奖励递减系数γ取0.1。在状态空间方面,在一确定时间断面下,风电出力含1种状态量;上网电价含1种状态量;负荷用电电价含1种状态量;储氢罐储氢量含1种状态量。本文的多风氢系统具有2个风电场、3个制氢加氢站,每一时间断面包含1种输入状态,考虑一天划分为96个时间断面,状态空间S总共含有96种状态。在动作空间方面,例如,在一个时间断面下,风电场B的风电出力为15MW,离散为16个固定值,风电上网功率动作为{0,1,···,15}MW。对于变量动作的离散个数无明确的标准,一般情况下可通过实验做相应的调整。

    • 本文中,所有单智体在一个基准下得出最优决策或探索完毕时,即代表完成一次迭代。不同更新方法下的迭代结果如附图A2所示,多风氢系统的总收益随着迭代次数的增加而得到改善,并最终收敛于某一值。从2种方法的收敛曲线局部放大图可知,相比于单决策更新方法,多决策更新方法的收敛较为迅速。从数据上看,多决策更新方法第0、1、2、3次的迭代结果分别为18.16、84.50、84.66、84.66万元;单决策更新方法第0、1、2、3次的迭代结果分别为18.16、19.34、19.81、20.27万元。多决策更新方法在第3次迭代时,就已完成收敛,这充分说明多决策更新方法可显著提升算法的收敛性能。

      不同方法得到的最终收敛结果见表1

      表 1  不同更新方法得到的结果

      Table 1.  Results obtained by different update methods

      方法总收益/万元耗时/s
      单决策更新83.0212448
      多决策更新84.66473

      表1,单决策更新方法不仅收敛结果较差而且消耗的时间极为漫长,达到12448s之多,深陷维数灾难之中,使其失去实用价值。2种方法中多决策更新的收敛时间为473s,不及单决策更新方法的二十分之一,并且收敛结果更为优异。

    • 由于风电场之间以及电解槽之间具有类似的出力特点,因此以风电场B和1号制氢加氢站的电解槽为例说明优化结果。

      图1为风电场B出力分配曲线,图2为1号制氢加氢站电解槽功率。从多风氢系统功率分配的总体趋势可知,在低电价区间,电解槽出力处于接近满载的状态并且吸收一定的电网功率以弥补电力缺额;在高电价区间,电解槽停止运行,风功率被大量出售给电网。从售电角度看,低电价区间段向电网出售风电难以有效提升收益,将该部分的电力用以制氢却可以提升风电的潜在价值。

      从上述结果可知,强化学习可充分利用风电,有效调节出力分配,实现多风氢系统收益的最大化,体现了制氢策略与售电策略的配合。

      图3为制氢加氢站储氢量的变化曲线图。在一个运行周期结束时,储氢罐的储氢量回落至下限值附近,有利于下一次制氢。从图中可以看出,制氢加氢站氢气的储存量皆位于储氢罐下限值之上,没有出现氢气供应不足的情况。

      若考虑任意一个制氢加氢站可向另外2个制氢加氢站提供氢气,假定使用长管拖车运输氢气,平均距离在50km左右,运输量为250~460 kg,运输成本为2.5~4.7元/kg[29],本文运输成本取3.5元/kg。受限于长管拖车灌充氢气以及卸载氢气都需要较长的时间,在一天中可向外输送氢气2次,分别为36与64时刻,经过1h的运输可从一个制氢加氢站到达另外一个制氢加氢站。从优化的结果来看,所有制氢加氢站向外输送的氢气量皆为0。究其根本,一个原因是长管拖车的运输时间较长,远地调用氢气可能丧失氢负荷;另外一个原因是受限于运输成本,间接引起氢气成本上升,导致售氢利润下降。

    • 为探究不同因素对于多风氢系统收益的影响,下面将改变不同的参数进行相关分析。

      表2表3分别为改变氢气售价和日氢负荷需求所得到的多风氢系统收益情况,制氢成本包括购电费用、储氢费用以及电解槽维护费用,其中购电费用为制氢加氢站向电网的购电费用与合约制氢费用。多风氢系统将所有上网功率出售给电网,风电场可获收益23.96万元;在日氢负荷为4000 kg/d以及氢气售价为65元/kg的情况下,并且制氢功率完全由电网供给的情况下,平均单位制氢成本为16.80元/kg,制氢加氢站可获收益57.58万元。

      表 2  不同氢气价格下的多风氢系统收益情况

      Table 2.  Revenue of multi wind-hydrogen system under different hydrogen price

      氢气售价
      /(元/kg)
      总收益
      /万元
      风电场收益
      /万元
      制氢加氢站收益
      /万元
      联合运行平均单位制氢成本/(元/kg)
      5269.1025.8643.2415.8
      6584.6625.9258.7415.82
      78100.1625.9074.2615.82

      从理论上而言,提高氢气的售价并不会影响多风氢系统出售电力,而表2的售电收益有微小不同,是由于强化学习算法具有随机性,在动作决策上将会出现一定的偏差。在降低制氢成本方面,平均单位制氢成本从16.80元下降至联合运行后的15.82元,有着较为可观的降低成本作用。在风电场收入方面,其收益从23.96万元提升至联合运行后25.92万元。制氢加氢站的收益在总收益中占比显著,在一定程度上主导着多风氢系统的收益。

      表3分析可知,伴随日氢负荷需求量增大,多风氢系统收益增加放缓,且联合运行平均单位制氢成本增加明显,但与全电网电量制氢相比,依然有明显的降低成本作用。结合图1图2分析可知,随着日氢负荷增加,电解槽不得不在用电高峰期进行制氢以满足氢气需求。本文多风氢系统的目标是整体收益最大化,风电场为减少多风氢系统的用电成本,将减少用电高峰期向电网出售电力以供给制氢加氢站。因此,在日氢负荷需求量增加的情况下,多风氢系统的收益虽表现出增长的趋势,但该趋势受限于电力资源,收益增长效果减弱。

      表 3  不同日氢负荷需求下的多风氢系统收益情况

      Table 3.  Revenue of multi wind hydrogen system under different daily hydrogen load demand

      日氢负荷
      需求/(kg/d)
      总收益/
      万元
      风电场收益/
      万元
      全电网
      电量平均
      单位制氢
      成本/(元/kg)
      联合运行
      平均单位
      制氢成本/
      (元/kg)
      320074.4426.2914.7914.61
      400084.6625.9216.8015.82
      480092.0223.9620.2317.51

      综上,在本文的市场因素背景下,氢气售价深刻影响多风氢系统收益。在日氢负荷增加的情况下,多风氢系统收益受制于制氢成本,收益增长放缓。从制氢的角度上来看,低廉的电力是促进氢气产业发展的关键因素,良好的售氢价格是维持多风氢系统健康发展的重要外部环境。

    • 1)在结合多决策更新方法的情况下,多智体强化学习的收敛速度得到提升,收敛时间从单决策更新的12448 s减少至473 s,在一定程度上克服了多决策变量所带来的维数灾难,可有效求解多风氢系统联合优化运行问题。

      2)算例仿真结果表明,在低电价区间,多风氢系统大量制氢仅有少量电力出售给电网;在高电价区间,多风氢系统减少制氢而将大部分电力出售给电网。因此,出力分配在减少多风氢系统的制氢成本和增加售电收益方面具有合理性。通过风电场与制氢加氢站的联合运行,多风氢系统仅是由于平滑上网的约束出现少量弃风;平均单位制氢成本从全电网功率制氢的16.80元下降至联合运行后的15.82元;总收益从联合运行前的81.54万元上升至联合运行后的84.66万元。因此,多风氢系统联合运行在促进风电消纳,减少制氢成本以及增加收益方面将产生积极作用。

      3)通过对影响多风氢系统收益的因素分析可知,在本文的市场因素前提下,氢气售价在一定程度上主导着总收益,良好的氢气售价对于维持多风氢系统的发展至关重要;随着日氢负荷的增长,联合运行平均单位制氢成本从14.61元上升至17.51元,电力资源制约着多风氢系统的收益。

      (本刊附录请见网络版,印刷版略)

      图  A2  不同更新方法下的迭代结果曲线

      Figure A2.  Iterative result curves under different update methods

      图  A3  多风氢系统示意图

      Figure A3.  Schematic diagram of multi wind-hydrogen system

      图  A4  氢负荷曲线

      Figure A4.  Hydrogen load curve

      图  A5  典型日风电出力曲线

      Figure A5.  Typical daily wind power output curve

      表 S1  算例参数

      Table S1.  Example parameters

      参数数值参数数值
      $ {h_{\text{d}}}/{\text{h}} $6$ \xi $0.2
      $ W_{{\text{ref}}}^{{\text{com}}}/{\text{(MW}} \cdot {\text{h/kg)}} $0.00243$ {H_{{\text{LHV}}}}/({\text{MW}} \cdot {\text{h/kg}}) $0.0333
      $ {p^0}/{\text{bar}} $1$ {p^{{\text{com}}}}/{\text{bar}} $350
      $ {\gamma _{{\text{com}}}} $0.01$ p_{{\text{ref}}}^{{\text{com}}}/{\text{bar}} $200
      $ {\gamma _{{\text{tank}}}} $0.01${k_{ {\text{el} } } }/{\text{(元/MW} } \cdot {\text{h)} }$22
      ${\mu _{\text{s} } }/{\text{(元/kg} } \cdot {\text{h)} }$0.0192

      表 S2  分时段电价

      Table S2.  Electricity price of TOU

      时间断面上网电价
      /(元/MW·h)
      负荷用电电价
      /(元/MW·h)
      低谷(0~31)130170
      高峰(32-47)650830
      平时(48~71)380490
      高峰(72~83)650830
      平时(84~95)380490
参考文献 (29)

目录

    /

    返回文章
    返回