机器学习中的逼近目标函数过程
监督式机器学习一般理解为逼近一个目标函数(f)(f),此函数映射输入变量(X)到输出变量(Y).html
Y=f(X)Y=f(X)算法
这种特性描述能够用于定义分类和预测问题和机器学习算法的领域。机器学习
从训练数据中学习目标函数的过程当中,咱们必须考虑的问题是模型在预测新数据时的泛化性能。泛化好坏是很重要的,由于咱们收集到的数据只是样本,其带有噪音而且是不彻底的。函数
机器学习中的泛化
在In机器学习中,咱们描述从训练数据学习目标函数的学习过程为概括性的学习。post
概括与特别的样本中学习到通用的概念有关,而这就是监督式机器学习致力于解决的问题。这与推演不一样,其主要是另外一种解决问题和寻求从一般的规则中找寻特别的内容。性能
泛化便是,机器学习模型学习到的概念在它处于学习的过程当中时模型没有碰见过的样本时候的表现。学习
好的机器学习模型的模板目标是从问题领域内的训练数据到任意的数据上泛化性能良好。这让咱们能够在将来对模型没有见过的数据进行预测。测试
在机器学习领域中,当咱们讨论一个机器学习模型学习和泛化的好坏时,咱们一般使用术语:过拟合和欠拟合.ui
过拟合和欠拟合是机器学习算法表现差的两大缘由。spa
统计拟合
在统计学中,拟合指的是你逼近目标函数的远近程度。
这个术语一样能够用于机器学习中,由于监督式机器学习算法的目标也是逼近一个未知的潜在映射函数,其把输入变量映射到输出变量。
统计学一般经过用于描述函数和目标函数逼近的吻合程度来描述拟合的好坏。
这类理论中的一些在机器学习中也是有用的(例如,计算残差),可是一些技巧假设咱们已经知道了咱们要逼近的函数。这和机器学习的场景就不一样了。
若是咱们已经知道了目标函数的形式,咱们将能够直接用它来作预测,而不是从一堆有噪音的数据中把它费力的学习出来。
机器学习中的过拟合
过拟合指的是referstoa模型对于训练数据拟合程度过当的状况。
当某个模型过分的学习训练数据中的细节和噪音,以致于模型在新的数据上表现不好,咱们称过拟合发生了。这意味着训练数据中的噪音或者随机波动也被当作概念被模型学习了。而问题就在于这些概念不适用于新的数据,从而致使模型泛化性能的变差。
过拟合更可能在无参数非线性模型中发生,由于学习目标函数的过程是易变的具备弹性的。一样的,许多的无参数器学习算法也包括限制约束模型学习概念多少的参数或者技巧。
例如,决策树就是一种无参数机器学习算法,很是有弹性而且容易受过拟合训练数据的影响。这种问题能够经过对学习事后的树进行剪枝来解决,这种方法就是为了移除一些其学习到的细节。
机器学习中的欠拟合
欠拟合指的是模型在训练和预测时表现都很差的状况。
一个欠拟合的机器学习模型不是一个良好的模型而且因为在训练数据上表现很差这是显然的。
欠拟合一般不被讨论,由于给定一个评估模型表现的指标的状况下,欠拟合很容易被发现。矫正方法是继续学习而且试着更换机器学习算法。虽然如此,欠拟合与过拟合造成了鲜明的对照。
机器学习中好的拟合
理想上,你确定想选择一个正好介于欠拟合和过拟合之间的模型。
这就是咱们学习的目标,可是实际上很难达到。
为了理解这个目标,咱们能够观察正在学习训练数据机器学习算法的表现。咱们能够把这个过程划分为分别是训练过程和测试过程。
随着时间进行,算法不断地学习,模型在训练数据和测试数据上的错误都在不断降低。可是,若是咱们学习的时间过长的话,模型在训练数据上的表现将继续降低,这是由于模型已通过拟合而且学习到了训练数据中的不恰当的细节以及噪音。同时,测试数据集上的错误率开始上升,也便是模型的泛化能力在降低。
这个完美的临界点就处于测试集上的错误率开始上升时,此时模型在训练集和测试集上都有良好的表现。
你能够用你本身喜好的机器学习算法来实践这个实验。而在实践中这一般是无用的,由于在测试数据上运用这个技巧来选择训练中止的时机,这意味着这个测试集对于咱们并非“不可见的”或者单独的衡量标准。数据的一些知识(许多有用的知识)已经泄露到了训练过程。
一般有两种手段能够帮助你找到这个完美的临界点:重采样方法和验证集方法。
如何限制过拟合
过拟合和欠拟合能够致使不好的模型表现。可是到目前为止大部分机器学习实际应用时的问题都是过拟合。
过拟合是个问题由于训练数据上的机器学习算法的评价方法与咱们最关心的实际上的评价方法,也就是算法在位置数据上的表现是不同的。
当评价机器学习算法时咱们有二者重要的技巧来限制过拟合:
使用重采样来评价模型效能
保留一个验证数据集
最流行的重采样技术是k折交叉验证。指的是在训练数据的子集上训练和测试模型k次,同时创建对于机器学习模型在未知数据上表现的评估。
验证集只是训练数据的子集,你把它保留到你进行机器学习算法的最后才使用。在训练数据上选择和调谐机器学习算法以后,咱们在验证集上在对于模型进行评估,以便获得一些关于模型在未知数据上的表现的认知。
对于机器学习,使用交叉验证在未知数据上进行验证模型效能是一种良好的标准。若是你拥有数据,使用验证集也是一种良好的实践。
进一步阅读
若是你想学习更多关于机器学习中的泛化、过拟合和欠拟合的知识,本节列举了一些相关的推荐资源。
维基百科上的泛化
维基百科上过拟合
维基百科上的概括推理
维基百科上的感应问题
Quora上的过拟合的直观解释
总结
本文中你学习了机器学习就是以感应方法来解决问题。
你学习了泛化是一种关于模型学习到的知识在未知数据上表现程度的概念描述。最后你学习了机器学习中的术语:泛化中的过拟合与欠拟合:
- 过拟合:在训练数据上表现良好,在未知数据上表现差。
- 欠拟合:在训练数据和未知数据上表现都不好
原文连接:Overfitting and Underfitting With Machine Learning Algorithms