其中w直观表达了各属性在预测中的重要性算法
1.线性回归,下面 x 的第一个下标表示第几个样例,第二个下标表示该样例的第几个特征,也有上下标的写法,上标表示第几个样例,下标表示第几个特征函数
2.一元线性回归:仅考虑一个特征,即输入属性的数目只有一个,下面的 xi 表示仅有一个特征时样例的输入值学习
也就是说,对于一元线性回归,根据已有的数据集以及(3.7)和(3.8)直接能够构造出一元线性回归模型spa
3.多元线性回归:含有多个特征3d
4.多项式回归blog
多项式回归:用多项式的形式拟合,是一种非线性回归模型学习方法
解决:把多项式转换成多元,好比x2换成x2变量
5.对数线性回归搜索
三.对数概率回归(logistic 回归):实际是一种分类学习方法,由于预测值是离散的0或1model
作法:对于分类任务,只需找一个单调可微函数将分类任务的真实标记与线性回归模型的预测值联系起来
(1)对于二分类任务,预测值为0/1,输出值在(0,1)之间,所以咱们只需将线性回归模型产生的预测实值转换为0/1值
(2)多元分类:一对多
解决:将他们转换为多个独立的二分类问题
(3)决策边界:分类问题中大多都有决策边界,是用来把全部的样本区分红不一样类,至关于不一样类的边界,由参数决定
训练集来拟合参数;决策边界由参数决定,选定参数也就选定决策边界;决策边界是假设自己即其参数的属性
1.正规方程法:采用相似求导的方法直接求解
(1)特色:不须要学习率;须要求矩阵;若是特征不少,速度会很慢
(2)可能出现的问题:有多余特征或特征数量大于样例数,会致使XT*X 不可逆
2.梯度降低法:屡次迭代求解
(1)特色:须要设定学习率;屡次迭代,速度慢;特征不少时运行效果也不错
(2)迭代判断条件:1)达到必定的迭代次数;2)设定一个迭代的收敛阈值
(3)简单描述:1)通常来讲,若是代价随着迭代次数的增加而减少并收敛,则表示梯度降低成功;2)不一样初值降低的结果不一样;3)同时更新才是梯度降低
(4)学习率设定应适中:1)若过大,则代价可能随迭代次数而上升(冲过最小值)或上升降低循环;2)若太小,则收敛速度变慢
(5)特征缩放来是梯度降低的速度变快(迭代次数变少):使不一样特征的取值范围尽量相近。采用方法:缩放特征范围(加减乘除)或均值归一化:把特征变成具备均值0的特征,(x=(x-u)/s,x是特征,u是特征的平均值,s是特征值范围)
3.其余方法:共轭梯度,BFGS,L-BFGS等
(1)优势:不须要手动选择学习率;是线搜索算法,自动选择学习率;收敛每每快于梯度降低
(2)缺点:更复杂
1.问题:当特征的数量大于样例数时,或过拟合时,可采用:1)减小特征的数量,降阶,选择哪些特征保留,‘’模型选择算法‘’;2)添加正则化项,保留全部变量,但减小参数值的大小或减小量级
2.正则化做用:在代价函数后加入惩罚项(正则项)使获得的参数值变小(接近0),使模型变得更加简单,更加平滑,不易过拟合
3.正则化项 :因为不知道选择哪些相关性地的特征来缩小它的参数,所以修改代价函数来缩小每个参数----正则化项 λ∑θ2
4.正则化参数:
(1)做用:控制两个不一样目标之间的取舍:1)更好的拟合训练集;2)保持参数尽可能小,保持模型简单,避免过拟合
(2)选择:1)太大,表示惩罚程度高,参数接近0,模型(直线)(欠拟合),误差过大;2)过小:起不处处理过拟合的做用
5.正则化线性回归:
(1)梯度降低,至关于把参数往0移动一点(变小一点点),再进行和之前同样的操做
(2)正规方程,矩阵不可逆问题获得解决,由于正则化参数大于0