-
作者:Adamu Murtala Zungeru
-
版权声明:
-
引用格式:Adamu Murtala Zungeru。太阳能光伏发电量预测机器学习方法综述与对比。全球科学网,2025,90。 J. Gaboitaolelwe, A. M. Zungeru, A. Yahya, C. K. Lebekwe, D. N. Vinod and A. O. Salau, "Machine Learning Based Solar Photovoltaic Power Forecasting: A Review and Comparison," in IEEE Access, vol. 11, pp. 40820-40845, 2023
-
关键词:光伏发电量预测,机器学习,综述
-
简介:太阳能光伏预测技术大致分为物理模型(基于物理原理)、数据驱动模型(统计和机器学习)或混合模型(一种或多种的组合)。这些技术使用各种输入变量,如天气数据、历史发电数据和太阳辐照度测量值,来预测太阳能光伏系统的输出。
1.引言
太阳能光伏预测是预测太阳能光伏(PV)系统在指定时间内将产生的电量的过程。太阳能光伏发电的间歇性可能造成电力系统的不稳定。因此,准确预测或预报太阳能光伏发电能力至关重要。主要原因有:
(1)它允许电网运营商或独立系统预测电力供应的变化,并相应地调整电力分配。这有助于保持电网或与电网隔离的独立系统的稳定性和可靠性。
(2)准确的预测可以帮助优化可再生能源的使用,减少对备用电源的需求,最终降低消费者的电力成本。
太阳能光伏预测技术大致分为物理模型(基于物理原理)、数据驱动模型(统计和机器学习)或混合模型(一种或多种的组合)。这些技术使用各种输入变量,如天气数据、历史发电数据和太阳辐照度测量值,来预测太阳能光伏系统的输出。
物理模型通常基于描述太阳能光伏系统物理行为的数学方程。考虑了太阳能光伏系统的基本物理特性和影响太阳能生产的环境因素。严重依赖于天气预报数据的准确性。
数据驱动的预测模型是指依赖于使用和分析历史数据来获得洞察力、模式和关系的模型。它需要大量高质量的数据。分为统计模型和机器学习模型。
l 统计模型基于对历史数据的统计分析,来预测未来太阳能光伏发电量的趋势和模式。包括自回归模型(AR)、移动平均模型(MA)和自回归综合移动平均(ARIMA)。这些模型通常依赖于最大似然估计等统计方法。
l 机器学习模型使用迭代学习算法,这些算法允许模型自己学习数据中的模式和关系。可以处理输入变量和输出变量之间更复杂和非线性的关系。包括人工神经网络(ANN)、支持向量机(SVM)和随机森林(RF)。
l 统计模型和机器学习模型之间的一个关键区别是所需的人工输入水平。统计模型需要更多的人工输入。机器学习模型只需最少的预处理,模型架构和超参数通常可以使用网格搜索或贝叶斯优化等技术自动优化。此外两种方法处理不确定性的能力不同。统计模型通常更透明,机器学习模型通常更像黑匣子。
混合模型是将物理或数据驱动方法中的一种或多种预测方法相结合的模型,以结合每种方法的优点。
本文围绕太阳能光伏发电量预测问题,对基于机器学习(ML)的方法进行全面的分析和比较。重点是短期预测的比较。
2.影响太阳能光伏发电量预测的因素
主要包括预测范围和天气状况。
预测的时间跨度由预测区间表示。一般可以分为下面几类:
类别 | 预测区间 |
超短期预测 | 小于1天 |
短期预测 | 1到3天 |
中期预测 | 几天到几月 |
长期预测 | 几月到几年 |
预测范围对预测准确性有负面影响。无论采用何种模型,nRMSE值都会随着时间的推移而不断增加。
天气条件是光伏发电变化和稳定性的重要决定因素。分为确定性和随机性两部分。气象或天气条件的随机性是导致光伏输出功率波动的主要原因。
3.ML算法的分类
机器学习算法通常分为监督和无监督,在某些情况下,可以考虑第三种方法,半监督学习。
监督学习也称为监督机器学习,它是一种使用标记数据进行训练(生成模型)并使用从数据中学习到的知识预测结果的机器学习方法。可分为分类和回归问题
无监督学习是一种使用未标记的数据进行训练的方法;可发现隐藏的模式或数据分组,用于聚类、关联和降维。
半监督学习混合了监督学习和无监督学习。结合使用标记和未标记的数据来探索问题,并生成标记数据进行训练,其中大部分训练数据没有标记,而是与少数标记的数据配对。
4.太阳能光伏发电预测中常用的ML算法
太阳能光伏发电量预测是一个回归问题,因此使用的大多数机器学习方法都属于监督学习的范畴。常用的方法包括:
K近邻(K-NN)算法。计算未知数据点与特征空间中训练样本之间的欧几里德距离,使用最近邻的类标签对未知数据点进行预测。
支持向量机。专为分类和回归任务而设计。使用核函数和核技巧将低维数据映射到更高维的特征空间,基于高维特征空间中的线性解对应于低维原始状态中的非线性解。
决策树。根据输入变量的值将输入数据递归划分为更小的组,然后通过平均每组中数据点的值来预测目标变量。
集成学习。一种将称为弱学习器或基础学习器的多个模型的预测能力相结合的方法。
提升算法。基于利用一些弱势学习者的优势,并随着每个学习者对前一个弱势学习者弱点或糟糕表现的改进而逐步产生一个强学习器。
聚合。一种结合Bootstrap采样、并行集成学习和弱学习器聚合来创建模型的方法。
堆叠泛化(Stacking)。一种通过组合多个基础模型来提升预测性能的集成学习技术。
随机森林(RF),它结合了多个决策树或回归树来创建更准确的预测模型。
人工神经网络(ANN)。一种基于生物神经网络的功能和结构建模的机器学习方法。由相互连接的信息处理单元组成,称为神经元。分为输入层、隐藏层和输出层。隐藏层超过3层的网络被称为深度神经网络或深度学习器。
5.不同ML方法对比实验
实验使用的主要软件包是Scikit-Learn库,NumPy和Pandas作为支持包。Scikit-Learn是一个开源python库,是一个简单高效的统计建模、预测数据分析和机器学习工具。它基于python包NumPy、SciPy和Matplotlib。它为处理常见的机器学习任务提供了有效的方法,如分类、回归、聚类、模型选择和降维。使用了几种ML算法来训练和创建预测模型。包括梯度增强(G Boost)、极端梯度增强(XG Boost)、支持向量回归(SVR)、随机森林(RF)、拉索回归(LR)、Ada Boost和多层感知器神经网络(MLP NN)。
光伏发电数据为2014年至2017年荷兰乌得勒支市居民的175个屋顶安装光伏系统功率时间序列数据。每个屋顶光伏发电时间序列以1分钟为间隔记录,由2014年12月至2017年11月的4年数据组成。
6.实验结果对比
1)使用默认参数的模型结果对比
所有机器学习模型的R2和SS都大于基准方法,其中梯度增强预测模型是预测误差最小、SS改善最高的模型。
2)带网格搜索超参数优化的ML模型
使用网格搜索超参数优化对新的ML模型进行了再训练。在网格搜索优化后,其他机器学习模型的性能也有所提高,例如随机森林、XG Boost和Ada Boost。然而,其他ML模型的性能下降了,如G Boost和其他模型。当根据SS进行排序时,随机森林模型的性能最好,而多层感知器NN的性能最低。








