摘要:随机森林与决策树的一个显著的不一样点就是它不会产生过分拟合。它的理论依据就是大数定律。html
很熟悉的一个名词:大数定律,记得本科的几率论就有学,忘了差很少了,下面先复习下。函数
大量试验说明,随机事件A的频率R(A),当重复试验的次数n增大时,总呈现出稳定性,稳定在某一个常数的附件,意指数量越多,其平均值就越趋近与指望值。url
切比雪夫定理:3d
设 a1,a2,a3,…,an 为相互独立的随机变量,其数学指望为:E(ai)=, 及方差D(ai)=
htm
则序列收敛于u,即在定理条件下,当n无限变大时,n个随机变量的算术平均将趋于一个常数。blog
辛钦定理(切比雪夫的特殊状况):事件
设a1,a2,…an,…为服从同一分布且相互独立的随机变量,其数学指望为:,则对任意正数ε>0,下式成立:ip
代表,对于独立同分布的随机变量a1,a2,a3…an…,对于任意的ε>0,只要n充分大,事件
实际上几乎是必要发生的。get
伯努利大数定理(切比雪夫的特殊状况):数学
设μ是n次独立试验中事件A发生的次数,p是事件A在每次试验中发生的几率,则对于任意的正数ε,有
伯努力大数定理说明,当试验次数n很大的时候,事件A发生的频率与几率有较大判别的可能性比较小,即: 用数学式表现出了频率的稳定性。
首先回顾下随机森林的定义:
随机森林是一个分类器,它由一些列的单株分类器组成的,其中的
是独立同分布的随机变量。在输入X后,每一棵决策树只投一票给它认为最合适的分类标签,最后选择投票最多的那个分类标签做为X的分类。
之因此引入随机变量,是为了控制每棵树的生长,一般针对于第K棵决策树引进随机变量
,它与前面的k-1个随机变量是独立同分布的,利用训练集和
来生成第k棵树,也就等价于生成一个分类器
,其中的X是一个输入向量。
给定一系列的分类器,而后随机的选择一些训练样本,设其中X为样本向量,Y为正确分类的分类标签向量。
则定义边际函数:
其中I(.)是示性函数,av(.)表示取平均值,边际函数表示了在正确分类Y之下X的得票数目超过其它错误分类的最大得票数目的程度。
该值越大代表分类的置信度越高。
泛化偏差 公式为:
其中X,Y表示几率的定义空间。
根据大数定律中的辛钦定理,当决策树的数目增长时,对于全部的序列和PE都会收敛到:
对应于大数定律里的频率收敛于几率。
这一结果解释了为何随机森林不会随着决策树的增长而产生过分拟合,而且有一个有限的泛化偏差值。