摘要:在随机森林之Bagging法中能够发现Bootstrap每次约有1/3的样本不会出如今Bootstrap所采集的样本集合中,固然也就没有参加决策树的创建,那是否是意味着就没有用了呢,答案是否认的。咱们把这1/3的数据称为袋外数据oob(out of bag),它能够用于取代测试集偏差估计方法.html
在论文:web
1:Bias,variance and prediction error for classification rules.<Robert Tibshiranni>算法
2: An Efficient Method To Estimate Baggin’s Generalization Error.<David H.Wolpert and William G.Macready>spring
3:Bagging Predictors,Machine Learning (1996)<Breiman>性能
中,做者都建议利用OOB error 估计做为泛化偏差估计的一个组成部分,而且Breiman在论文中给出了经验性实例代表袋外数据偏差估计与同训练集同样大小的测试集获得的精度同样,这样也就代表袋外数据(oob)偏差估计是一种能够取代测试集的偏差估计方法。测试
袋外数据(oob)偏差的计算方法以下:google
对于已经生成的随机森林,用袋外数据测试其性能,假设袋外数据总数为O,用这O个袋外数据做为输入,带进以前已经生成的随机森林分类器,分类器会给出O个数据相应的分类,由于这O条数据的类型是已知的,则用正确的分类与随机森林分类器的结果进行比较,统计随机森林分类器分类错误的数目,设为X,则袋外数据偏差大小=X/O;这已经通过证实是无偏估计的,因此在随机森林算法中不须要再进行交叉验证或者单独的测试集来获取测试集偏差的无偏估计。url