神经网络的反向传播

前言

在coursera上久负盛名的课程《机器学习》,不只Andrew Ng老师讲课思路清晰,而且有不少网友的整理的优秀笔记。听完老师的课收获颇多,经过编程做业对算法有了更深入的理解。正如老师所说,检验一个算法有效性的平台一般是容易实现,语言简单的,例如MATLAB。以后能够根据本身的需求移植到C、C++、Java平台上。神经网络这一章算法复杂度较线性回归、逻辑回归有所提升,作编程做业的难度也有加大,因此记录下本身编程过程当中意识到的问题,以备查看。算法

训练神经网络的过程:

1.随机初始化接近于0的权值theta。
2.执行前向传播算法,对于有m个输入样本的x,每一个x获得一个输出。
3.经过代码计算代价函数。
4.用反向传播算法计算代价函数的偏导。
5.应用梯度检查法,将数值计算出的偏导数与反向传播偏导数做比较,保证正确应用了反向传播算法。检验完成后去掉梯度检查代码,由于会给程序带来额外的代价。
6.用梯度降低或者其余更高级的优化算法来达到代价函数的最小取值,从而获得分类函数。编程

结合代码看公式

本程序利用神经网络对手写数字进行识别,假设有一个三层的神经网络,其中输入层单元个数为400,隐藏层单元个数为25,输出层单元个数为10。从而能够获得theta1为25X401的矩阵,theta2为10X26的矩阵。网络

  • 因为MATLAB中的代价函数为了输入方便,将theta一、theta2展开成了一个向量,因此须要一步转换过程,从新恢复原值。机器学习


  • Theta1 = reshape(nn_params(1:hidden_layer_size * (input_layer_size + 1)), 函数

  • hidden_layer_size, (input_layer_size + 1));学习

  • Theta2 = reshape(nn_params((1 + (hidden_layer_size * (input_layer_size + 1))):end),优化

  • num_labels, (hidden_layer_size + 1)); //注意矩阵维数对应关系spa

  • 对输出y进行预处理
    样本中y存储的是一个数字,即本图中显示的数字。可是神经网络的输出层确实一个10维的列向量,对应下标数为1即表示显示该数字。因此要进行由数字到向量的预处理。code


  • Y = []; E = eye(num_labels);get

  • for i = 1:num_labels 

  •  Y0 = find(y==i);

  •  Y(Y0,:) = repmat(E(i,:),size(Y0,1),1);

  • end

  • 计算代价函数 J,直接利用矩阵的计算完成m个样本的代价函数,避免了循环迭代。注意每次都要补一列全1的误差项。

代价函数计算公式
代价函数计算公式

 X = [ones(m,1) X];

 a2 = sigmoid(X * Theta1'); 

 a2 = [ones(m,1) a2];

 a3 = sigmoid(a2 * Theta2');

 temp1 = [zeros(size(Theta1,1),1) Theta1(:,2:end)];

 temp2 = [zeros(size(Theta2,1),1) Theta2(:,2:end)];

 temp1 = sum(temp1.^2);temp2 = sum(temp2.^2);

 cost = Y .* log(a3) + (1 - Y) .* log(1 - a3);

 J = -1 / m * sum(cost(:)) + lambda/(2*m) * (sum(temp1) + sum(temp2));

  • 计算梯度。
反向传播算法的含义:先计算输出层的偏差
反向传播算法的含义:先计算输出层的偏差
再计算第二层即隐藏层的偏差,输入层不计算
再计算第二层即隐藏层的偏差,输入层不计算
梯度公式能够由偏差矩阵获得
梯度公式能够由偏差矩阵获得

 delta_1 = zeros(size(Theta1));

 delta_2 = zeros(size(Theta2));for t = 1:m a_1 = X(t,:)'; %step1,此处不用补1,由于在X中已经执行过这一步了 

 z_2 = Theta1 * a_1; a_2 = sigmoid(z_2); 

 a_2 = [1;a_2]; z_3 = Theta2 * a_2;

 a_3 = sigmoid(z_3); 

 err_3 = zeros(num_labels,1); 

 for k = 1 : num_labels %step2 

 err_3(k) = a_3(k) - (y(t)==k); 

 end 

 err_2 = Theta2' * err_3; %step3 

 err_2 = err_2(2:end) .* sigmoidGradient(z_2); //特别注意矩阵维度必定要符合,所以去掉第一个值 

 delta_2 = delta_2 + err_3 * a_2'; %step4 

 delta_1 = delta_1 + err_2 * a_1';

end

Theta1_temp = [zeros(size(Theta1,1),1) Theta1(:,2:end)]; %step5

Theta2_temp = [zeros(size(Theta2,1),1) Theta2(:,2:end)];

Theta1_grad = 1/m * delta_1 + lambda/m * Theta1_temp; //正则化不影响Theta的第一列 

Theta2_grad = 1/m * delta_2 + lambda/m * Theta2_temp;

小结

神经网络反向传播的算法精髓到此就告一段落了,与其配合使用的梯度检查和最优化函数也十分重要,在此不详述。经过最小化代价函数获得最优的Theta值,从而获得预测准确率最高的输出,达到正确识别手写数字的目的。

PS:今天无心中发现了Andrew老师的老婆也是斯坦福机器学习实验室的,两人为实验室招募拍了一组照片,瞬间感受这才是科研的最高境界。附上恩爱照一张:



文/Shirley3377(简书做者) 原文连接:http://www.jianshu.com/p/253b0d910779 著做权归做者全部,转载请联系做者得到受权,并标注“简书做者”。