吴恩达MachineLearning-week3

1.1 引出逻辑回归

虽然带着回归两字,可是它解决的是分类问题,而不是预测一段连续的值。python

根据线性回归模型咱们只能预测连续的值,然而对于分类问题,拿二分类举例,咱们须要输出0或1,咱们能够预测:算法

{h_\theta}\left( x \right)>=0.5时,预测 y=1 ;当{h_\theta}\left( x \right)<0.5时,预测 y=0函数

虽然上述描述看起来能够解决问题,可是这种模型当y>1时,模型也会所以改变,这时以0.5做为阈值就不合适了,说明线性模型并不适合解决这样的问题。学习

这时,咱们引入一个新的模型,该模型的输出变量范围始终在0和1之间。 h_\theta \left( x \right)=g\left(\theta^{T}X \right) 其中: X 表明特征向量 g 表明逻辑函数(logistic function)或称为S形函数(Sigmoid function),公式为: g\left( z \right)=\frac{1}{1+{{e}^{-z}}}优化

python代码实现:spa

import numpy as np

def sigmoid(z):

  return 1 / (1 + np.exp(-z))
复制代码

该函数的图像为:.net

h_\theta \left( x \right)的做用是,对于给定的输入变量,根据选择的参数计算输出变量=1的可能性(estimated probablity),即3d

h_\theta \left( x \right)=P\left( y=1|x;\theta \right)

例如,若是对于给定的x,经过已经肯定的参数计算得出h_\theta \left( x \right)=0.7,则表示有70%的概率y为正向类,相应地y为负向类的概率为1-0.7=0.3。code

1.2 代价函数

咱们有了假设h(θ),以下图cdn

对于线性回归模型,咱们定义的代价函数是全部模型偏差的平方和。理论上来讲,咱们也能够对逻辑回归模型沿用这个定义,可是问题在于,当咱们将{h_\theta}\left( x \right)=\frac{1}{1+{e^{-\theta^{T}x}}}带入到这样定义了的代价函数中时,咱们获得的代价函数将是一个非凸函数(non-convexfunction)。

这意味着咱们的代价函数有许多局部最小值,这将影响梯度降低算法寻找全局最小值。

线性回归的代价函数为:J\left( \theta  \right)=\frac{1}{m}\sum\limits_{i=1}^{m}{\frac{1}{2}{{\left( {h_\theta}\left({x}^{\left( i \right)} \right)-{y}^{\left( i \right)} \right)}^{2}}} ;而后咱们从新定义逻辑回归的代价函数为:

J\left( \theta  \right)=\frac{1}{m}\sum\limits_{i=1}^{m}{{Cost}\left( {h_\theta}\left( {x}^{\left( i \right)} \right),{y}^{\left( i \right)} \right)},其中

{h_\theta}\left( x \right)Cost\left( {h_\theta}\left( x \right),y \right)之间的关系以下图所示:

这样构建的Cost\left( {h_\theta}\left( x \right),y \right)函数的特色是:

  • 当实际的 y=1{h_\theta}\left( x \right)也为 1 时偏差为 0,当 y=1{h_\theta}\left( x \right)不为1时偏差随着{h_\theta}\left( x \right)变小而变大;
  • 当实际的 y=0{h_\theta}\left( x \right)也为 0 时代价为 0,当y=0{h_\theta}\left( x \right)不为 0时偏差随着 {h_\theta}\left( x \right)的变大而变大。

将构建的 Cost\left( {h_\theta}\left( x \right),y \right)简化以下: Cost\left( {h_\theta}\left( x \right),y \right)=-y\times log\left( {h_\theta}\left( x \right) \right)-(1-y)\times log\left( 1-{h_\theta}\left( x \right) \right) 带入代价函数J(\theta)后获得: J\left( \theta  \right)=\frac{1}{m}\sum\limits_{i=1}^{m}{[-{{y}^{(i)}}\log \left( {h_\theta}\left( {{x}^{(i)}} \right) \right)-\left( 1-{{y}^{(i)}} \right)\log \left( 1-{h_\theta}\left( {{x}^{(i)}} \right) \right)]} 提负号:J\left( \theta  \right)=-\frac{1}{m}\sum\limits_{i=1}^{m}{[{{y}^{(i)}}\log \left( {h_\theta}\left( {{x}^{(i)}} \right) \right)+\left( 1-{{y}^{(i)}} \right)\log \left( 1-{h_\theta}\left( {{x}^{(i)}} \right) \right)]}

Python代码实现:

import numpy as np

def cost(theta, X, y):

  theta = np.matrix(theta)
  X = np.matrix(X)
  y = np.matrix(y)
  first = np.multiply(-y, np.log(sigmoid(X* theta.T)))
  second = np.multiply((1 - y), np.log(1 - sigmoid(X* theta.T)))
  return np.sum(first - second) / (len(X))
复制代码

1.3 梯度降低

在获得这样一个代价函数之后,咱们即可以用梯度降低算法来求得能使代价函数最小的参数了。算法为:

Repeat {

\theta_j := \theta_j - \alpha \frac{\partial}{\partial\theta_j} J(\theta)

(simultaneously update all )

}

求导后获得:

Repeat {

\theta_j := \theta_j - \alpha \frac{1}{m}\sum\limits_{i=1}^{m}{{\left( {h_\theta}\left( \mathop{x}^{\left( i \right)} \right)-\mathop{y}^{\left( i \right)} \right)}}\mathop{x}_{j}^{(i)}

(simultaneously update all )

}

因此,若是你有 n 个特征,也就是说:

,参数向量 \theta包括 {\theta_{0}} {\theta_{1}} {\theta_{2}} 一直到 {\theta_{n}},那么你就须要用这个式子。

推导过程:

J\left( \theta  \right)=-\frac{1}{m}\sum\limits_{i=1}^{m}{[{{y}^{(i)}}\log \left( {h_\theta}\left( {{x}^{(i)}} \right) \right)+\left( 1-{{y}^{(i)}} \right)\log \left( 1-{h_\theta}\left( {{x}^{(i)}} \right) \right)]} 考虑: {h_\theta}\left( {{x}^{(i)}} \right)=\frac{1}{1+{{e}^{-{\theta^T}{{x}^{(i)}}}}} 则: {{y}^{(i)}}\log \left( {h_\theta}\left( {{x}^{(i)}} \right) \right)+\left( 1-{{y}^{(i)}} \right)\log \left( 1-{h_\theta}\left( {{x}^{(i)}} \right) \right) ={{y}^{(i)}}\log \left( \frac{1}{1+{{e}^{-{\theta^T}{{x}^{(i)}}}}} \right)+\left( 1-{{y}^{(i)}} \right)\log \left( 1-\frac{1}{1+{{e}^{-{\theta^T}{{x}^{(i)}}}}} \right) =-{{y}^{(i)}}\log \left( 1+{{e}^{-{\theta^T}{{x}^{(i)}}}} \right)-\left( 1-{{y}^{(i)}} \right)\log \left( 1+{{e}^{{\theta^T}{{x}^{(i)}}}} \right)

因此: \frac{\partial }{\partial {\theta_{j}}}J\left( \theta  \right)=\frac{\partial }{\partial {\theta_{j}}}[-\frac{1}{m}\sum\limits_{i=1}^{m}{[-{{y}^{(i)}}\log \left( 1+{{e}^{-{\theta^{T}}{{x}^{(i)}}}} \right)-\left( 1-{{y}^{(i)}} \right)\log \left( 1+{{e}^{{\theta^{T}}{{x}^{(i)}}}} \right)]}] =-\frac{1}{m}\sum\limits_{i=1}^{m}{[-{{y}^{(i)}}\frac{-x_{j}^{(i)}{{e}^{-{\theta^{T}}{{x}^{(i)}}}}}{1+{{e}^{-{\theta^{T}}{{x}^{(i)}}}}}-\left( 1-{{y}^{(i)}} \right)\frac{x_j^{(i)}{{e}^{{\theta^T}{{x}^{(i)}}}}}{1+{{e}^{{\theta^T}{{x}^{(i)}}}}}}] =-\frac{1}{m}\sum\limits_{i=1}^{m}{{y}^{(i)}}\frac{x_j^{(i)}}{1+{{e}^{{\theta^T}{{x}^{(i)}}}}}-\left( 1-{{y}^{(i)}} \right)\frac{x_j^{(i)}{{e}^{{\theta^T}{{x}^{(i)}}}}}{1+{{e}^{{\theta^T}{{x}^{(i)}}}}}] =-\frac{1}{m}\sum\limits_{i=1}^{m}{\frac{{{y}^{(i)}}x_j^{(i)}-x_j^{(i)}{{e}^{{\theta^T}{{x}^{(i)}}}}+{{y}^{(i)}}x_j^{(i)}{{e}^{{\theta^T}{{x}^{(i)}}}}}{1+{{e}^{{\theta^T}{{x}^{(i)}}}}}} =-\frac{1}{m}\sum\limits_{i=1}^{m}{\frac{{{y}^{(i)}}\left( 1\text{+}{{e}^{{\theta^T}{{x}^{(i)}}}} \right)-{{e}^{{\theta^T}{{x}^{(i)}}}}}{1+{{e}^{{\theta^T}{{x}^{(i)}}}}}x_j^{(i)}} =-\frac{1}{m}\sum\limits_{i=1}^{m}{({{y}^{(i)}}-\frac{{{e}^{{\theta^T}{{x}^{(i)}}}}}{1+{{e}^{{\theta^T}{{x}^{(i)}}}}})x_j^{(i)}} =-\frac{1}{m}\sum\limits_{i=1}^{m}{({{y}^{(i)}}-\frac{1}{1+{{e}^{-{\theta^T}{{x}^{(i)}}}}})x_j^{(i)}} =-\frac{1}{m}\sum\limits_{i=1}^{m}{[{{y}^{(i)}}-{h_\theta}\left( {{x}^{(i)}} \right)]x_j^{(i)}} =\frac{1}{m}\sum\limits_{i=1}^{m}{[{h_\theta}\left( {{x}^{(i)}} \right)-{{y}^{(i)}}]x_j^{(i)}}

注:虽然获得的梯度降低算法表面上看上去与线性回归的梯度降低算法同样,可是这里的{h_\theta}\left( x \right)=g\left( {\theta^T}X \right)与线性回归中不一样,因此其实是不同的。另外,在运行梯度降低算法以前,进行特征缩放依旧是很是必要的。

一些梯度降低算法以外的选择: 除了梯度降低算法之外,还有一些常被用来令代价函数最小的算法,这些算法更加复杂和优越,并且一般不须要人工选择学习率,一般比梯度降低算法要更加快速。这些算法有:共轭梯度Conjugate Gradient),局部优化法(Broyden fletcher goldfarb shann,BFGS)和有限内存局部优化法(LBFGS)

2.1 正则化

2.1.1 过拟合问题

第一个模型是一个线性模型,欠拟合,不能很好地适应咱们的训练集;第三个模型是一个四次方的模型,过于强调拟合原始数据,而丢失了算法的本质:预测新数据。咱们能够看出,若给出一个新的值使之预测,它将表现的不好,是过拟合,虽然能很是好地适应咱们的训练集但在新输入变量进行预测时可能会效果很差;而中间的模型彷佛最合适。

就以多项式理解,x 的次数越高,拟合的越好,但相应的预测的能力就可能变差。

问题是,若是咱们发现了过拟合问题,应该如何处理?

  1. 丢弃一些不能帮助咱们正确预测的特征。能够是手工选择保留哪些特征,或者使用一些模型选择的算法来帮忙(例如PCA

  2. 正则化。 保留全部的特征,可是减小参数的大小(magnitude)。

2.1.2 代价函数

上面的回归问题中若是咱们的模型是: {h_\theta}\left( x \right)={\theta_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}^2}+{\theta_{3}}{x_{3}^3}+{\theta_{4}}{x_{4}^4} 咱们能够从以前的事例中看出,正是那些高次项致使了过拟合的产生,因此若是咱们能让这些高次项的系数接近于0的话,咱们就能很好的拟合了。因此咱们要作的就是在必定程度上减少这些参数\theta 的值,这就是正则化的基本方法。

咱们有一个较为简单的防止过拟合的假设: J\left( \theta  \right)=\frac{1}{2m}[\sum\limits_{i=1}^{m}{{{({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})}^{2}}+\lambda \sum\limits_{j=1}^{n}{\theta_{j}^{2}}]}

其中\lambda又称为正则化参数(Regularization Parameter)。像下图中Regulated就是正则化以后的曲线,相对拟合的更好一些。

但若是选择的正则化参数\lambda 过大,则会把全部的参数都最小化了,致使模型变成 {h_\theta}\left( x \right)={\theta_{0}},也就是上图中红色直线所示的状况,形成欠拟合。

那为何增长的一项\lambda =\sum\limits_{j=1}^{n}{\theta_j^{2}} 可使\theta的值减少呢? 由于若是咱们令 \lambda 的值很大的话,为了使Cost Function 尽量的小,全部的 \theta 的值(不包括{\theta_{0}})都会在必定程度上减少。 但若\lambda 的值太大了,那么\theta(不包括{\theta_{0}})都会趋近于0,这样咱们所获得的只能是一条平行于x轴的直线。 因此对于正则化,咱们要取一个合理的 \lambda 的值,这样才能更好的应用正则化。 回顾一下代价函数,为了使用正则化,让咱们把这些概念应用到到线性回归和逻辑回归中去,那么咱们就可让他们避免过分拟合了。

2.1.3 正则化线性回归

正则化线性回归的代价函数为:

J\left( \theta  \right)=\frac{1}{2m}\sum\limits_{i=1}^{m}{[({{({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})}^{2}}+\lambda \sum\limits_{j=1}^{n}{\theta _{j}^{2}})]}

若是咱们要使用梯度降低法令这个代价函数最小化,由于咱们未对\theta_0进行正则化,因此梯度降低算法将分两种情形:

Repeat until convergence{

{\theta_0}:={\theta_0}-a\frac{1}{m}\sum\limits_{i=1}^{m}{(({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})x_{0}^{(i)}})

{\theta_j}:={\theta_j}-a[\frac{1}{m}\sum\limits_{i=1}^{m}{(({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})x_{j}^{\left( i \right)}}+\frac{\lambda }{m}{\theta_j}]

for j=1,2,...n

}

对上面的算法中j=1,2,...,n 时的更新式子进行调整可得: {\theta_j}:={\theta_j}(1-a\frac{\lambda }{m})-a\frac{1}{m}\sum\limits_{i=1}^{m}{({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})x_{j}^{\left( i \right)}} 能够看出,正则化线性回归的梯度降低算法的变化在于,每次都在原有算法更新规则的基础上令\theta值减小了一个额外的值。

咱们一样也能够利用正规方程来求解正则化线性回归模型,方法以下所示:

图中的矩阵尺寸为 (n+1)*(n+1)

2.1.4 正则化逻辑回归模型

本身计算导数一样对于逻辑回归,咱们也给代价函数增长一个正则化的表达式,获得代价函数:

J\left( \theta  \right)=\frac{1}{m}\sum\limits_{i=1}^{m}{[-{{y}^{(i)}}\log \left( {h_\theta}\left( {{x}^{(i)}} \right) \right)-\left( 1-{{y}^{(i)}} \right)\log \left( 1-{h_\theta}\left( {{x}^{(i)}} \right) \right)]}+\frac{\lambda }{2m}\sum\limits_{j=1}^{n}{\theta _{j}^{2}}

Python代码:

import numpy as np

def costReg(theta, X, y, learningRate):
    theta = np.matrix(theta)
    X = np.matrix(X)
    y = np.matrix(y)
    first = np.multiply(-y, np.log(sigmoid(X*theta.T)))
    second = np.multiply((1 - y), np.log(1 - sigmoid(X*theta.T)))
    reg = (learningRate / (2 * len(X))* np.sum(np.power(theta[:,1:theta.shape[1]],2))
    return np.sum(first - second) / (len(X)) + reg
复制代码

要最小化该代价函数,经过求导,得出梯度降低算法为:

Repeat until convergence{

{\theta_0}:={\theta_0}-a\frac{1}{m}\sum\limits_{i=1}^{m}{(({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})x_{0}^{(i)}})

{\theta_j}:={\theta_j}-a[\frac{1}{m}\sum\limits_{i=1}^{m}{({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})x_{j}^{\left( i \right)}}+\frac{\lambda }{m}{\theta_j}]

for j=1,2,...n

}

虽然看起来同样的😂,可是{h_\theta}\left( x \right)=g\left( {\theta^T}X \right),因此是不一样的。

相关文章
相关标签/搜索