均方偏差是回归任务中最经常使用的性能度量指标。所以,其损失函数为:函数
\[ J(a,b)=\frac{1}{2m}\sum_{i=1}^{m}(y^{'(i)}-y^{(i)})^2=\frac{1}{2m}\sum_{i=1}^{m}(a+bx^{(i)}-y^{(i)})^2 \]性能
其中,\(y'\)为预测值,\(y\)为实际值。学习
\(J(a,b)\)中,\(x^{(i)}\)和\(y^{(i)}\)是常量参数(为\(m\)个样本各自的\(x\)和\(y\)值),而\(a\)和\(b\)是自变量。咱们要作的,就是找到最好的\(a\)和\(b\),使得\(J(a,b)\)取值最小。spa
通用线性回归模型:利用线性函数对一个或多个自变量(\(x\)或\((x_1,x_2,\cdots,x_k)\))和因变量\(y\)之间的关系进行拟合的模型。code
其函数形式为:
\[ f(x_1,x_2,\cdots,x_k)=a+b_1x_1+b_2x_2+\cdots + b_kx_k \]
\(b\)直观表达了各属性在预测中的重要性。所以,线性模型有很好的可解释性(comprehensibility)。资源
对离散属性,若属性值间存在序关系,可经过连续化将其转化为连续值。例如,二值属性“高”、“矮”可转化为\(\{1.0,\ 0.0\}\)。三值属性“高”、“中”、“低”可转化为\(\{1.0,\ 0.5,\ 0.0\}\)。it
若属性值间不存在序关系,假定有\(k\)个属性值,则一般可转化为\(k\)维向量。如“西瓜”、“南瓜”、“黄瓜”可转化为\((0,0,1),\ (0,1,0),\ (1,0,0)\)。若将无序属性连续化,则会不恰当地引入序关系。io
设\(x_1=x^2\),\(x_2=x\),有:function
\[ f(x_1,x_2)=a+b_1x^2+b_2x=a+b_1x_1+b_2x_2 \]
这时,就至关于拟合了一条二阶多项式对应的曲线。
梯度降低法:从任意点开始,在该点对目标函数求导,沿着导数方向走一个给定步长,如此循环迭代,直至走到导数为0的位置,则达到极小值。
函数\(J\)分别对自变量\(a\)和\(b\)取偏微分:
\[ \frac{\partial J(a,b)}{\partial a}=\frac{1}{m}\sum_{i=1}^{m}((a+bx^{(i)})-y^{(i)}) \]
\[ \frac{\partial J(a,b)}{\partial b}=\frac{1}{m}\sum_{i=1}^{m}x^{(i)}((a+bx^{(i)})-y^{(i)}) \]
上述伪代码又可表示为:
\[ repeat\ until\ convergence \{ \\ sumA = 0, \\ sumB = 0,\\ for i = 1 to m \{ \\ sumA = sumA + (a+bx^{(i)}-y^{(i)}), \\ sumB = sumB + x^{(i)}(a+bx^{(i)}-y^{(i)}) \}\\ a = a - \alpha \frac{sumA}{m},\\ b = b - \alpha \frac{sumB}{m} \} \]
用\(\theta_0\)来替代\(a\),用\(\theta_1\)到\(\theta_n\)来代替\(b_1\)到\(b_n\),则线性回归模型变为:
\[ f(1,x_1,x_2,\cdots,x_n)=\theta_0 + \theta_1x_1+\theta_2x_2+\cdots + \theta_nx_n \]
对应的目标函数为:
\[ J(\theta_0,\theta_1,\cdots,\theta_n)=\frac{1}{2m}\sum_{i=1}^{m}(y'^{(i)}-y^{(i)})^2 \]
梯度降低的实现过程为:
\[ repeat\ until\ convergence \{ \Theta = \Theta - \alpha \frac{\partial J(\theta)}{\partial \theta} \} \]
令\(B=(b;a)\),将数据集表示为一个\(m\times (k+1)\)大小的矩阵\(X\),其中每一行对应一个示例。每行的前\(k\)个元素对应示例的属性值,最后一个元素恒为1。则有:
\[ J(B) = (Y-XB)^T(Y-XB) \]
对\(B\)求导,得:
\[ \frac{\partial J}{\partial B}=2X^T(XB-Y) \]
当\(X^TX\)为满秩矩阵时,令上式为零,可得:
\[ B^*=(X^TX)^{-1}X^TY \]
而在现实中,\(X^TX\)常常不是满秩的,此时可解出多个\(B\),都能使均方偏差最小化。选择哪个解做为输出,将由学习算法的概括偏好决定,如引入正则化(regularization)项。
找一个单调可微函数将分类任务的真实标记\(y\)与线性回归模型的预测值联系起来。引入对数概率函数(logistic function)
\[h=\frac{1}{1+e^{-z}}\]
可获得:\[h(x)=\frac{1}{1+e^{-w^Tx+b}}\]
通常而言,当\(y>0.5\)时,\(x\)被归类为真或阳性;不然,当\(y \leq0.5\)时,\(x\)被归类为假或阴性。
所以,LR典型的应用于二分类问题上。
该模型函数在\(y=0.5\)附近很是敏感,自变量取值稍有不一样,因变量取值就会有很大差别,全部不用担忧出现大量因细微特征差别而被归错类的状况。
求解LR目标函数的过程,就是对LR模型函数进行极大似然估计的过程。
\(h(x)\)其实是\(x\)为阳性的分布几率,因此,才会在\(h(x)>0.5\)时将\(x\)归于阳性。即\(h(x)=P(y=1)\)。反之,样例是阴性的几率为:\(P(y=0)=1-h(x)\)。
它们由训练数据\(x\)所限定,所以,
\[ P(y=1|x)=h(x); \\ P(y=0|x)=1-h(x) \]
根据二项分布公式,可得:
\[ P(y|x)=h(x)^y(1-h(x))^{(1-y)} \]
假设训练集有\(m\)个数据,那么其联合几率为:
\[ L(\theta)=\prod_{i=1}^mP(y^{(i)}|x^{(i)};\theta)=\prod_{i=1}^m(h_{\theta}(x^{(i)}))^{y^{(i)}}(1-h_{\theta}(x^{(i)}))^{(1-y^{(i)})} \]
求取\(\theta\)的值,就是让\(L(\theta)\)达到最大。
求对数,获得对数似然函数:
\[ l(\theta)=log(L(\theta))=\sum_{i=1}^m[y^{(i)}log(h_{\theta}(x^{(i)}))+(1-y^{(i)})log(1-h_{\theta}(x^{(i)}))] \]
求出让\(l(\theta)\)最大值的\(\theta\)。
因为,咱们须要的是目标函数具备最小值,所以,设定:
\[ J(\theta)=-l(\theta) \]
\(J(\theta)\)为负对数似然函数,为LR的目标函数。
把二分类问题分红屡次来作。
假设一共有\(n\)个类别,就构造\(n\)个LR分类模型。第一个模型用来区分label_1
和non-label_1
;第二个模型用来区分label-2
和non-label_2
;第\(n\)个模型用来区分label_n
和non_label_n
。
使用时,每一个输入数据都被这\(n\)个模型同时预测。最后,哪一个模型得出了Positive结果,且预测值最大,就是该数据最终的结果。