注意:这种抽样的方式会致使有的样本取不到,大约有\(\lim_{n \to \infty}(1-\frac{1}{n})^n\) = \(36.8%\)的样本取不到,这部分可用来作测试集。算法
缺点: 失去了模型的简单性。数组
是一种基于树模型的bagging算法改进的模型。假定数据集中有\(M\)个特征和 \(N\)个观测值。每个树有放回的随机抽出\(N\)个观测值\(m\)(\(m=M\)或者\(m=logM\))个特征。把每个单一决策树的结果综合起来。网络
因为GBDT是利用残差训练的,在预测的过程当中,咱们也须要把全部树的预测值加起来,获得最终的预测结果。多线程
缺点:对于数据量要求比较大,由于要平衡第一层和第二层dom
https://blog.csdn.net/anshuai_aw1/article/details/83040541机器学习