在“机器学习基础-假设空间、样本空间与概括偏置”中提到了概括偏置其实是一种模型选择策略,尽管咱们认为A模型更简单可能具备更好的泛化能力(更贴切实际问题对新数据的预测更准)而选择了A,可是实际状况中极可能会出现B模型比A更好的状况如图所示:(注:本文实际是对周志华西瓜书的部分总结)机器学习
黑点是训练数据,空心点是新数据,在(b)图中B模型比A模型更好。学习
也就是说在无数个模型中均可能会出现比A模型与实际数据更符合的状况(西瓜书中引入了NFL(没有免费的午饭定理)来着重说明具体问题具体分析,这个具体问题其实是指数据分布要与实际问题一致而不是指应用场景一致),换句话说哪一个模型与实际状况更加符合咱们就选择那个模型。测试
如今的问题是咱们如何判断哪一个模型与实际状况更加符合,所以引入了模型的评估和选择。.net
在评估和选择时,虽然使用了N种方法,但本质上仍是将数据分红了训练集和测试集分别进行模型训练和模型验证,咱们理想中的状况是训练集与测试集要同时与实际数据的几率分布一致,只有这样咱们才能经过技术手段尽可能选择到那个最优的模型,那N种方法直观上模型评估选择法,本质上是尽可能保证与实际数据的几率分布一致!blog