Logistic Regression算法
这里须要使用到sigmoid函数--g(z):函数
\[\begin{equation} h_θ(x) = g(θ^Tx) \end{equation} \]优化
\[\begin{equation} z = θ^Tx \end{equation} \]spa
\[\begin{equation} g(z) = \frac{1}{1+e^{-z}} \end{equation} \]ci
决策边界:数学
\[h_θ(x) ≥ 0.5 → y=1 \]
\[h_θ(x) < 0.5 → y=0 \]it
等价于io
\[g(z) ≥ 0.5 → y=1 \]
\[g(z) < 0.5 → y=0 \]function
等价于class
\[z ≥0 → y=1 \]
\[z < 0 → y=0 \]
这里之因此再次提到损失函数,是由于线性回归中的损失函数会使得输出呈现起伏,形成许多局部最优值,也就是说线性回归中的cost function在运用到逻辑回归时,将可能再也不是凸函数。
逻辑回归的cost function以下:
\[J_θ = \frac{1}{m} \sum {Cost}( h_θ(x^{(i)}, y^{(i)} ) )\]
\[ {Cost}(h_θ(x), y) ) = - log(h_θ(x)) \quad \quad if \quad y=1\]
\[ {Cost}(h_θ(x), y) ) = - log(1 - h_θ(x)) \quad if \quad y=0\]
结合图来理解:
由上图可知,y=1,hθ(x)是预测值,
- 当其值为1时,表示预测正确,损失函数为0;
- 当其值为0时,表示错的一塌糊涂,须要大大的惩罚,因此损失函数趋近于∞。
上图同理
\[Cost(h_θ(x), y) = -ylog(h_θ(x)) - (1-y)log(1-h_θ(x))\]
Jθ
\[J_θ=-\frac{1}{m} \sum Cost(h_θ(x), y) \]
\[\quad =-\frac{1}{m} \sum [-y^{i}log(h_θ(x^{(i)})) - (1-y^i)log(1-h_θ(x^{(i)}))] \]
如图左边显示的是优化方法,其中后三种是更加高级的算法,其优缺点由图邮编所示:
优势
缺点
后面三种方法只需了解便可,老师建议若是你不是专业的数学专家,不必本身使用这些方法。。。。。。固然了解一下原理也是好的。
主要说一下过拟合的解决办法:
1)减小特征数量
图示右边很明显是过拟合,所以为了纠正加入了正则化项:1000·θ32,为了使得J(θ)最小化,因此算法会使得θ3趋近于0,θ4也趋近于0。
正则化损失函数表达式:
\[J(θ)=\frac{1}{2m} [\sum_{i=1}^m( h_θ(x^{(i)}) - y^{(i)})^2 + λ\sum_{j=1}^n θ_j^2]\]
\[min_θ [\frac{1}{2m} (\sum_{i=1}^m( h_θ(x^{(i)}) - y^{(i)})^2 + λ\sum_{j=1}^n θ_j^2)]\]
\[J(θ)=\frac{1}{2m} [\sum_{i=1}^m( h_θ(x^{(i)}) - y^{(i)})^2 + λ\sum_{j=1}^n θ_j^2]\]
\[\frac{∂J_θ}{∂θ_j} = \frac{1}{m} \sum_{i=1}^m( h_θ(x^{(i)} ) - y^{(i)} )x_j^{(i)} + \frac{λ}{m}θ_j \]
Repeat{
\[θ_0 := θ_0 - α\frac{1}{m}\sum_{i=1}{m}( h_θ(x^{(i)} ) - y^{(i)} )x_0^{(i)}\]
\[θ_j := θ_j - α[(\frac{1}{m}\sum_{i=1}{m}( h_θ(x^{(i)} ) - y^{(i)} )x_0^{(i)} ) + \frac{λ}{m}θ_j ] \quad j∈\{1,2,3……n\}\]
}
前面提到过,若m< n,那么XTX是不可逆的,可是加上λ·L后则变为可逆的了。
\[J(θ)=-\frac{1}{m} \{\sum_{i=1}^m[ y^{(i)} log(h_θ(x^{(i)}))+(1-y^{(i)})log(1-h_θ(x^{(i)}))]\} + \frac{λ}{2m}\sum_{j=1}^n θ_j^2\]
梯度降低过程