北方伟业计量集团有限公司
溶解氧是反映水污染程度的一个重要指标,准确的预测可以高效合理的判断水质环境的状况。由于水质环境的实时变化和复杂性,以及收集数据的偏差,在水生系统中获得高效、精确的预测模型是困难的。因此,首先利用主成分分析(PCA)确定影响水质溶解氧的变量数目,降低数据维数,为解决变量间的非线性和非平稳性问题,提出用互信息(MI)选取影响强的因素作为预测模型的输入变量。然后利用一种基于高斯函数的非线性递减权重的粒子群算法优化支持向量回归(GNIPSO-SVR)模型中的参数选择过程,有效克服传统SVR预测模型的参数选择问题,并考虑空气中的污染物因素,构建污染物影响的GNIPSO-SVR模型。然后将该模型应用于上海的水质溶解氧的预测中,把GNIPSO-SVR模型与BP神经网络、SVR模型、PSO-SVR模型对比分析,结果表明,提出的方法可以有效解决溶解氧变量间的冗余性与相关性问题,提高预测精度和运行速度。
水质系统是一个受诸多具有非确定性的时变特征的因素共同影响的复杂生态系统,各项水质指标之间存在不同程度的多重相关性和冗余信息,在短期的水质指标预测中,若直接利用这些因子建立预测模型,易出现“过拟合”现象,导致预测精度低。溶解氧(Dissolved Oxygen, DO)是衡量水生生态系统状况的重要指标,浓度越高,说明水体受到污染的程度越严重,准确的溶解氧预测仍然是水管理人员面临的挑战,在生态系统可持续性发展中起着重要作用。通过对溶解氧影响因素分析与预测模型的建立,对水质溶解氧的变化特征和趋势进行研究,有助于管理者进行早期决策,因此,准确预测水质指标DO具有一定的经济价值和现实意义。
一些学者通过溶解氧的含量,来预估水库受到有机污染物污染的趋势,并取得了巨大成就。传统的专家评价系统、数理统计、时间序列、灰色理论等预测方法在检测水质指标之间的非线性和非平稳性关系时易出现局部极值、过学习等问题,导致预测模型的精确度降低。由于BP神经网络和支持向量机的计算复杂度较低和泛化能力较强等优点,在解决非线性问题时吸引了学者更多的关注。支持向量机能克服BP神经网络的易出现重复性差、过度拟合等缺陷,对于小样本数据集具有较强的泛化能力,而且支持向量回归机(SVR)不需要先验地定义体系结构,结构风险最小化原理使SVR在处理未知变化情况的数据中具有不降低预测精度和运行效率的独特优点,更适用于水质指标的预测。研究问题时为了使预测结果更具有代表性,采集数据时会尽可能多的获取特征变量,导致部分特征变量间存在弱相关且冗余。因此,选择最佳的特征选择方法也是构建溶解氧预测模型的一项重要任务。张森等首先利用偏最小二乘法提取与水质指标强相关弱冗余的特征变量,降低了预测模型的输入维度,然后利用改进的粒子群(PSO)算法优化SVM的模型进行水质预测,通过仿真实验证明了该模型的预测精度和运行效率都优于其它模型。但是,对于选取水质指标溶解氧影响因素的特征选择方法没有具体的定义,而且确定特征变量的个数也是提高预测模型精确度的关键因素。主成分分析(PCA)是一种降维的多元统计分析方法,它在考虑数据集潜在结构的情况下,将原始数据映射到几个具有较大特征值的主成分组成的线性子空间,在确定特征变量维数上具有实际应用。吴慧英等建立了主成分分析和支持向量回归机(PCA-SVR)结合的预测模型,通过对DO含量的预测验证了该模型的有效性。但当数据集较大时,PCA的内存处理效率低,需要其它方法来寻找特征值。互信息(MI)在保留强相关特征的同时在一定程度上去除冗余。如果只利用互信息算法选取特征,会存在相关特征过度删除,导致数据集丢失有用信息且在选取特征变量的数目上具有主观因素。因此,为了解决单一模型的局限性,本文选取PCA与MI组合的特征选择方法对溶解氧的特征变量进行选取,减少特征变量之间的强耦合性引起的误差。
现在国内外学者通过SVR模型对溶解氧预测的研究很少,且寻找支持向量回归机(SVR)的惩罚函数c和核函数g的最优参数没有具体的策略,一些学者利用遗传算法(GA)、粒子群算法(PSO)对SVR的c和g进行了优化。薛同来等利用GA优化SVR的参数,构建了GA-SVR的水质指标组合预测模型并进行仿真,把该模型与BP神经网络、SVR模型的预测结果进行对比分析,证明了GA-SVR模型减少了最优参数的选取时间,具有较高的准确性与泛用性。Huan J等提出一种混合的“分解-预测-重建”模型,将集成经验模式分解(EEMD)和最小二乘支持向量机(LSSVM)相结合,提高了DO预测的精确度和有效性。罗学科等利用差分自回归移动平均(ARIMA)与粒子群优化算法(PSO)搜寻支持向量回归机(SVR)模型的最优参数的组合预测模型对巢湖水域的DO进行预测,通过对比单一和组合模型的预测结果,验证了组合模型的适用性和可靠性。但GA算法的收敛速度较慢,而且其参数交叉率和变异率等的选择凭借于经验,具有主观性,影响优化结果;PSO算法在优化SVR的参数上具有较快逼近最优解的速度,但易出现早熟收敛现象。为了解决上述问题,本文在结合线性递减惯性权重的PSO算法理论下,借鉴高斯函数的分布特性对PSO算法的权重进行改进,建立了一个非线性动态惯性权重的粒子群算法(Particle swarm optimization with nonlinear decreasing weight based on Gaussian function, GNIPSO)优化SVR参数的模型(GNIPSO-SVR),提高预测模型的精确度、收敛速度和搜索能力。
综上所述,本文采用PCA和MI组合特征选择方法选取的特征变量作为GNIPSO-SVR模型的输入,建立了组合预测模型,并对考虑了空气中污染物的影响因素的上海水质指标溶解氧的进行影响因素分析和预测,以验证该模型的可行性与应用价值。
信息熵是由美国科学家香农(Shannon C.E.)提出,主要是用来判断随机变量的不确定性程度,其值越大,所包含的信息量就越大。用H(X)表示信息源X={x1,x2,...,xn}对应的信息熵,每个信息源xi所对应的概率为p(xi),则:
在条件Y确定的情况下,信息源X可以用条件熵来描述,如式(2):
p(xi,yj)为二维向量(X,Y)的联合概率分布,则联合熵可以定义为式(3)的形式:
互信息(Mutual information,MI)是机器学习的一种算法,不仅能反映每个输入变量与目标输出变量之间的线性关系,也能反映其非线性关系。它在反应变量之间的相关性比相关系数更加全面,主要是从所有测量信号中选择最相关的变量作为模型的输入变量。对于给定目标变量Y后,特征变量X的不确定性减少程度为:
式(4)中p(xi)为X的边缘概率分布,p(yj)为Y的边缘概率分布。
声明:本文所用图片、文字来源《信息与控制.北大核心CSCD》,版权归原作者所有。如涉及作品内容、版权等问题,请与本网联系删除。
采集到的数据一般不直接采用,需经过数据的归一化处理。这是因为水质因子指标的范围比较大,不同的数据具有不同的量纲单位,为了消除水质指标彼此之间的量纲影响及保证这些数据之间具有可比性以及提高模型的运行速度和预测精度。本文采用MATLAB R2018a的map-maxmin函数进行归一化处理,如式(23)所示,“apply”模式是将数据指标转化到[-1,1]之间,便于对比预测,而“resver”模式可以将数据反归一化回去。
了解更多> >在选取的样本信息中,水质指标浊度与水温之间的相关系数为0.58>0.5,氨氮与电导率之间的相关系数为0.547>0.5,在99%的置信区间下,具有显著相关性。而互信息值0.7759(浊度)>0.6800(水温),0.7854(电导率)>0.7598(氨氮),因此选取电导率、总磷、浊度、高锰酸钾指数、PH、总氮等作为水质指标中影响溶解氧含量的特征变量。
了解更多> >综上所述,在研究水质指标溶解氧问题时选择的特征变量过少导致建模效果不佳,预测结果不具有代表性,特征变量多可以提供描述问题的更多信息,但数据中会存在无关和弱相关且冗余的特征变量,会降低模型的泛化性能。在对溶解氧预测实践中,PCA-MI特征选择方法选取的特征变量更具有代表性,能更有效的提高模型预测性能。
了解更多> >在解决水质指标溶解氧的预测问题时,将经过PCA和MI组合特征选择的溶解氧数据作为GNIPSO-SVR预测模型的输入,并与BP神经网络、SVR、PSO-SVR等预测模型进行对比分析。各个溶解氧预测模型的总体趋势与实际值都比较吻合,但本文提出的GNIPSO-SVR模型预测DO的曲线更接近实际值的曲线,PSO-SVR模型的预测效果次之,SVR的预测曲线与实际值曲线拟合度最差,尤其是对突变值的拟合情况,各个模型的预测值和实际值的拟合曲线的可视化结果如图4-图7所示。
了解更多> >本文利用主成分分析(PCA)、互信息(MI)、非线性惯性权重递减的粒子群优化算法(GNIPSO)和支持向量回归机(SVR),提出了一种基于高斯函数的非线性权重递减的粒子群算法优化支持向量回归机(GNIPSO-SVR)的预测模型,通过实验证明了GNIPSO算法优化SVR的参数优于标准的PSO算法和惯性权重线性递减的PSO算法。
了解更多> >通话对您免费,请放心接听
温馨提示:
1.手机直接输入,座机前请加区号 如13803766220,010-58103678
2.我们将根据您提供的电话号码,立即回电,请注意接听
3.因为您是被叫方,通话对您免费,请放心接听
登录后才可以评论