首页>新闻动态>行业资讯

数据分布多样性对锂电池SOC预测的泛化影响

发布者:【浩博电池资讯】   发布时间:2024-06-25 18:06:18   点击量:388

  本文亮点:1.对实际场景下的大规模的锂电池组数据进行SOC多步预测,研究了不同算法的应用效果 2.根据算法预测结果,进一步分析了数据分布多样性对模型的泛化能力的影响规律

 摘 要 数据驱动模型预测荷电状态(SOC)依赖高质量的实验数据,在应用于实际使用场景下的分布多样的锂电池组数据时会出现预测的准确性不稳定即泛化能力差的情况,限制了模型的实际应用。研究实际场景下的大规模数据的分布多样性对SOC预测模型的泛化性影响具有重要意义。因此,对32个锂电池组的实际运行数据集进行研究,采用经典算法与多输入多输出(MIMO)策略结合来预测多步SOC,对每份数据分别建立模型进行SOC预测,研究了不同算法的应用效果并分析了数据分布多样性对模型的泛化能力的影响规律。结果表明:对大规模的锂电池组数据,LR-MIMO模型训练精度普遍优于RF-MIMO、KNN-MIMO、LSTM-MIMO模型,其预测未来0.5 h的SOC的R2一般在0.98及以上,MAPE基本低于0.05。与其他模型相比,LR-MIMO模型有优秀的预测性能,预测其他数据集的R2基本在0.95以上。而KNN-MIMO模型的预测精度与RF-MIMO模型相当,R2大致在0.7以上,LSTM-MIMO模型的预测性能因数据集不同存在较明显的差异;当数据满足SOC与电压的相关系数≥0.9、SOC和电压分布范围广、核密度曲线呈左偏趋势、分布较均匀时,可使模型训练精度提高。

  关键词 锂离子电池;荷电状态;数据驱动;分布多样性;泛化性

  锂电池需要高效智能的电池管理系统确保其安全稳定运行,荷电状态(state of charge, SOC)估计是其中一项关键技术。数据驱动方法估计SOC具有灵活性和建模简单的特点,在复杂的电池运行情况下有潜在的优势,受到学者的广泛关注。数据驱动方法是根据大量的测量数据,将输出变量和输入变量之间的关系直接映射到数据驱动模型中。

  目前的研究利用锂电池的实验数据进行SOC的估计,包含线性回归、树模型及神经网络等方法。线性回归(linear regression, LR)算法用于探索自变量与因变量之间的线性关系,结构简单,计算量少,对实现在线SOC预测非常有利。基于树的方法是通过对特征空间进行划分,逐步建立决策树模型,来预测因变量。其中,随机森林(random forest, RF)是通过随机选择特征和样本,构建多个决策树,并将其集成,提高模型预测SOC的精度和鲁棒性。RF方法在处理多特征、高维度的锂电池数据的任务时,效果良好。K近邻(K-nearest neighbors, KNN)是基于相似性的技术,将测试点的数值估计为k个最近训练点的某属性数值的加权平均值,能捕捉锂电池特征与预测目标之间的复杂关系,获得准确的预测结果。神经网络通过输入层接收数据,再通过隐藏层的线性和非线性变换进行特征提取和表达,最后由输出层输出结果。长短期记忆网络(long short-term memory, LSTM)是常用的预测SOC的神经网络方法,具有捕获时间序列数据中的信息的优势、较强的建模和分析能力,被广泛研究。为了拓展数据驱动模型在不同类型锂电池的SOC估计中的应用,研究者们利用不同类型的锂电池实验数据,进行了模型的迁移学习研究。

  尽管使用数据驱动方法进行锂电池SOC估计的研究发展迅速,但目前仍存在一些问题:

  (1)数据驱动模型普遍利用高质量且大量的锂电池实验数据,而实际使用的锂电池数据由于生产工艺、环境条件、使用习惯等因素,在概率密度等方面分布多样,数据质量不同。不同质量的实际数据进一步影响模型内部的参数确定,可能出现过拟合,难以得到可靠的预测结果。

  (2)对数据的依赖可能会导致数据驱动模型的泛化能力差,即模型在未见过的新数据上的表现能力差。面对分布差异大的锂电池数据时,模型在原数据上学到的知识的适用性低,使得预测的准确性不稳定,预测精度下降。

  这些问题降低了数据驱动方法的实用性和可靠性,因此研究实际场景下的大规模锂电池数据的分布多样性对SOC预测模型的泛化性影响具有重要意义。本工作对32个锂电池组实际运行数据集进行研究,分别建立模型进行SOC预测,并考虑到先进电池管理技术的需求,将经典算法与多输入多输出(multi-input multi output, MIMO)策略多步预测结合来预测未来一段时间的SOC,对比研究不同算法的应用效果。在此基础上,分析了数据分布多样性对多步SOC预测模型的泛化能力的影响,有助于数据驱动方法的实际应用发展。

  1 研究方法

  研究的主要框架如图1所示,主要包含4个部分。首先,采集了不同情况下的32份锂电池组实际数据集,选取电池组总电压、电流、SOC、温度作为特征,对数据进行预处理。其次,建立SOC的多步预测模型,包含线性回归、K近邻、随机森林、长短期记忆网络4种方法。然后,将数据输入到参数寻优后的模型中,对每份数据分别进行训练并预测除本身外的其他数据集,统计每种方法的训练和预测结果。最后,分析数据分布多样性对模型泛化性的影响规律,分析结果可评估锂电池组数据集是否有利于得到高准确性的荷电状态预测模型。

图1 研究框架

  2 模型建立及预测流程

  2.1 模型算法

  本工作将经典算法拓展至SOC的多步预测,采用4种典型的算法:线性回归、K近邻回归、随机森林、长短期记忆。这4种算法的基本原理,如图2所示。

图2 经典算法原理图:(a) LR;(b) KNN;(c) RF;(d) LSTM

  2.1.1 线性回归算法

  线性回归算法LR是研究一个因变量与多个自变量的线性方法,它的一般形式如式(1)所示:

  式中,x=[x1,x2,x3…xk]是输入特征,β=[β1, β2…βk]是输入特征的回归系数,可以采用最小二乘法获得,满足实际值与预测值的残差平方和最小的要求。

  2.1.2 K近邻回归算法

  K近邻回归算法是一种非参数回归方法,首先在历史数据中提取数据特征即状态向量,然后选取k个与当前数据特征最相似的历史数据用于预测,预测结果为k个最邻近样本的某个属性平均值,见式(2)。

  式中,ωi为第i个样本的权重,一般可将邻近样本的距离作为属性的权值。

  衡量相似度的函数为距离函数,采用欧氏距离,即:

  2.1.3 随机森林算法

  随机森林是一种基于决策树的集成学习算法,加入了bagging套袋和随机子空间的思想来解决决策树模型精度不高、易过拟合的问题。随机森林采用自助法重抽样技术从数据中有放回地随机抽样来构成自助样本集,根据CART(classification and regression trees, 分类与回归树)算法构建决策树,每个树具有根节点、中间节点和叶子节点,如图2(c)所示。CART算法的属性选择量度是基尼指数,假设数据集D包含m个类别,其基尼指数GD的计算见式(4)。

  式中,pj为j类元素出现的频率。

  对于每个属性,考虑每种可能的二元划分,选择该属性产生的最小基尼指数的子集作为其分裂子集,在此规则下,由上至下不断分裂,直到生成决策树,最终取每个树结果的平均值作为预测值,即

  式中,hk表示决策树,K为树的数量。

  2.1.4 LSTM算法

  LSTM网络是一类特殊的RNN,是为了解决RNN在建模长期依赖关系时存在梯度消失或爆炸问题而提出的。常用的单个LSTM单元如图2(d)所示,LSTM主要包括3个门,即输入门、输出门和遗忘门,它们用来决定一个单元是应该记住还是忘记新获得的信息。另外,利用tanh函数和sigmoid函数对信息进行过滤。单元的每个部分如式(6)所示。

声明: 本网站所发布文章,均来自于互联网,不代表本站观点,如有侵权,请联系删除。

相关推荐

#
  • 安全
  • 可靠
  • 环保
  • 高效
  • 高性能

    能量密度:125-160Wh/kg
    充放电能力:5-10C(20-80%DOD)
    温度范围:-40℃—65℃
    自耗电:≤3%/月

  • 高安全

    过充电、过放电、针刺、 挤压、短路、
    撞击、高温、枪击时电池不燃烧、爆炸。

  • 高可靠

    动力电池循环寿命不低于2000次,
    80%容量保持率;
    电池管理系统可靠、稳定、适应性 强,
    符合国军标要求。