机器学习基础-假设空间、样本空间与概括偏置

在进入正题前先说一说函数,在陶哲轩所著的实分析集合论章节中定义:函数是从定义域A到值域B的映射,即对于A中的每一个值B中都有惟一的值对应。假设定义域A中元素个数为X,值域B中元素个数为Y,那么产生函数个数为个。假设A={1,2} ,B={3,4}则可能产生的函数有:机器学习

一、1->3,2->3函数

二、1->3,2->4学习

三、1->4,2->4blog

四、1->4,2->3基础

这样4个。若是说定义域和值域的元素不少甚至是实数集,那么可能产生的函数集合大小就是天文数字甚至是无穷大了!引用

机器学习中的本质任务是根据提供的数据拟合出一个模型进行预测,这个模型本质上就是一个函数,拟合模型的过程实际也是寻找函数的过程,所以假设空间实际上就是模型空间本质上是函数集合。im

样本空间是指可以拟合训练数据的模型集合(函数集合),以上例为基础,假设给定x=1,y=3,那么可以拟合该数据的有1和2两个函数,显然样本空间因为训练数据的引入是包含于假设空间的,可是样本空间的大小一样可能无穷大,为了说明该问题引用周志华的西瓜书插图:数据

如今将定义域和值域放到实数集上,可以拟合图中6个数据点的曲线理论上有无穷个,但咱们必须选择其中一个,根据奥卡姆剃刀原则(若是有多个假设与观察一致选择最简单的那个),由此咱们天然认为平滑的A曲线比B曲线更加简单而选择A,这个过程叫作概括偏置。img

相关文章
相关标签/搜索