模型稳定性:测试
群体稳定性指标(population stability index)
公式: psi = sum((实际占比-预期占比)* ln(实际占比/预期占比))
举个例子解释下,好比训练一个logistic回归模型,预测时候会有个类几率输出,p。在你的测试数据集上的输出设定为p1,将它从小到大排序后将数据集10等分(每组样本数一直,此为等宽分组),计算每等分组的最大最小预测的类几率值。.net
如今你用这个模型去对新的样本进行预测,预测结果叫p2,利用刚才在测试数据集上获得的10等分每等分的上下界。按p2将新样本划分为10分(不必定等分了哦)。blog
实际占比就是新样本经过p2落在p1划分出来的每等分界限内的占比,预期占比就是测试数据集上各等分样本的占比。
意义就是若是模型更稳定,那么在新的数据上预测所得类几率应该更建模分布一致,这样落在建模数据集所得的类几率所划分的等分区间上的样本占比应该和建模时同样,不然说明模型变化,通常来自预测变量结构变化。一般用做模型效果监测。排序
通常认为PSI小于0.1时候模型稳定性很高,0.1-0.2通常,须要进一步研究,大于0.2模型稳定性差,建议修复。get
数据分布稳定性:it
psi = sum((样本A分布占比-样本B分布占比)* ln(样本A分布占比/样本B分布占比))io
---------------------
原文:https://blog.csdn.net/guhongpiaoyi/article/details/79043531 变量
https://blog.csdn.net/qq_15111861/article/details/83859737qq