正则化是针对过拟合而提出的,觉得在求解模型最优的是通常优化最小的经验风险,如今在该经验风险上加入模型复杂度这一项(正则化项是模型参数向量的范数),并使用一个rate比率来权衡模型复杂度与以往经验风险的权重,若是模型复杂度越高,结构化的经验风险会越大,如今的目标就变为告终构经验风险的最优化,能够防止模型训练过分复杂,有效的下降过拟合的风险。面试
奥卡姆剃刀原理,可以很好的解释已知数据而且十分简单才是最好的模型。算法
若是一味的去提升训练数据的预测能力,所选模型的复杂度每每会很高,这种现象称为过拟合。所表现的就是模型训练时候的偏差很小,但在测试的时候偏差很大。编程
泛化能力是指模型对未知数据的预测能力网络
若是模型是参数的线性函数,而且存在线性分类面,那么就是线性分类器,不然不是。
常见的线性分类器有:LR,贝叶斯分类,单层感知机、线性回归
常见的非线性分类器:决策树、RF、GBDT、多层感知机机器学习
SVM两种都有(看线性核仍是高斯核)函数
线性分类器,由于维度高的时候,数据通常在维度空间里面会比较稀疏,颇有可能线性可分工具
理由同上学习
非线性分类器,由于低维空间可能不少特征都跑到一块儿了,致使线性不可分测试
训练完的模型测试样本稍做修改就会获得差异很大的结果,就是病态问题(这简直是不能用啊)
他们都是能够防止过拟合,下降模型复杂度
L2是在loss function后面加上 模型参数的2范数(也就是sigma(xi^2)),注意L2范数的定义是sqrt(sigma(xi^2)),在正则项上没有添加sqrt根号是为了更加容易优化
L1 会产生稀疏的特征
L1会趋向于产生少许的特征,而其余的特征都是0,而L2会选择更多的特征,这些特征都会接近于0。L1在特征选择时候很是有用,而L2就只是一种规则化而已。
过拟合的,拟合会通过曲面的每一个点,也就是说在较小的区间里面可能会有较大的曲率,这里的导数就是很大,线性模型里面的权值就是导数,因此越小的参数说明模型越简单。
追加:这个其实能够看VC维相关的东西感受更加合适
高斯核函数好像是RBF核的一种
首先随机选取一个点做为初始点,而后选择距离与该点最远的那个点做为中心点,再选择距离与前两个点最远的店做为第三个中心店,以此类推,直至选取大k个
ROC和AUC一般是用来评价一个二值分类器的好坏
曲线坐标上:
那么平面的上点(X,Y):
针对落在x=y上点,表示是采用随机猜想出来的结果
ROC曲线创建
通常默认预测完成以后会有一个几率输出p,这个几率越高,表示它对positive的几率越大。
如今假设咱们有一个threshold,若是p>threshold,那么该预测结果为positive,不然为negitive,按照这个思路,咱们多设置几个threshold,那么咱们就能够获得多组positive和negitive的结果了,也就是咱们能够获得多组FPR和TPR值了
将这些(FPR,TPR)点投射到坐标上再用线链接起来就是ROC曲线了
当threshold取1和0时,分别获得的就是(0,0)和(1,1)这两个点。(threshold=1,预测的样本所有为负样本,threshold=0,预测的样本所有为正样本)
AUC(Area Under Curve)被定义为ROC曲线下的面积,显然这个面积不会大于1(通常状况下ROC会在x=y的上方,因此0.5<AUC<1).
AUC越大说明分类效果越好
由于当测试集中的正负样本发生变化时,ROC曲线能基本保持不变,可是precision和recall可能就会有较大的波动。
http://www.douban.com/note/284051363/?type=like
训练集用于创建模型,测试集评估模型的预测等能力
使用kd树或者ball tree(这个树不懂)
将全部的观测实例构建成一颗kd树,以前每一个聚类中心都是须要和每一个观测点作依次距离计算,如今这些聚类中心根据kd树只须要计算附近的一个局部区域便可
机器学习是数据挖掘的一个重要工具,可是数据挖掘不只仅只有机器学习这一类方法,还有其余不少非机器学习的方法,好比图挖掘,频繁项挖掘等。感受数据挖掘是从目的而言的,可是机器学习是从方法而言的。
题目主要来源于网络,答案主要来源于网络或者《统计学习方法》,还有本身一小部分的总结,若是错误之处敬请指出
若是想要了解关于常见模型的东东能够看这篇机器学习常见算法我的总结(面试用)文章