神经网络的反向传播

时间 2019-12-06 标签神经网络反向传播

前言

在coursera上久负盛名的课程《机器学习》，不只Andrew Ng老师讲课思路清晰，而且有不少网友的整理的优秀笔记。听完老师的课收获颇多，经过编程做业对算法有了更深入的理解。正如老师所说，检验一个算法有效性的平台一般是容易实现，语言简单的，例如MATLAB。以后能够根据本身的需求移植到C、C++、Java平台上。神经网络这一章算法复杂度较线性回归、逻辑回归有所提升，作编程做业的难度也有加大，因此记录下本身编程过程当中意识到的问题，以备查看。算法

训练神经网络的过程：

1.随机初始化接近于0的权值theta。
2.执行前向传播算法，对于有m个输入样本的x，每一个x获得一个输出。
3.经过代码计算代价函数。
4.用反向传播算法计算代价函数的偏导。
5.应用梯度检查法，将数值计算出的偏导数与反向传播偏导数做比较，保证正确应用了反向传播算法。检验完成后去掉梯度检查代码，由于会给程序带来额外的代价。
6.用梯度降低或者其余更高级的优化算法来达到代价函数的最小取值，从而获得分类函数。编程

结合代码看公式

本程序利用神经网络对手写数字进行识别，假设有一个三层的神经网络，其中输入层单元个数为400，隐藏层单元个数为25，输出层单元个数为10。从而能够获得theta1为25X401的矩阵，theta2为10X26的矩阵。网络

因为MATLAB中的代价函数为了输入方便，将theta一、theta2展开成了一个向量，因此须要一步转换过程，从新恢复原值。机器学习
Theta1 = reshape(nn_params(1:hidden_layer_size * (input_layer_size + 1)), 函数
hidden_layer_size, (input_layer_size + 1));学习
Theta2 = reshape(nn_params((1 + (hidden_layer_size * (input_layer_size + 1))):end),优化
num_labels, (hidden_layer_size + 1)); //注意矩阵维数对应关系spa
对输出y进行预处理
样本中y存储的是一个数字，即本图中显示的数字。可是神经网络的输出层确实一个10维的列向量，对应下标数为1即表示显示该数字。因此要进行由数字到向量的预处理。code
Y = []; E = eye(num_labels);get
for i = 1:num_labels
Y0 = find(y==i);
Y(Y0,:) = repmat(E(i,:),size(Y0,1),1);
end
计算代价函数 J，直接利用矩阵的计算完成m个样本的代价函数，避免了循环迭代。注意每次都要补一列全1的误差项。

代价函数计算公式

X = [ones(m,1) X];

a2 = sigmoid(X * Theta1');

a2 = [ones(m,1) a2];

a3 = sigmoid(a2 * Theta2');

temp1 = [zeros(size(Theta1,1),1) Theta1(:,2:end)];

temp2 = [zeros(size(Theta2,1),1) Theta2(:,2:end)];

temp1 = sum(temp1.^2);temp2 = sum(temp2.^2);

cost = Y .* log(a3) + (1 - Y) .* log(1 - a3);

J = -1 / m * sum(cost(:)) + lambda/(2*m) * (sum(temp1) + sum(temp2));

计算梯度。

反向传播算法的含义：先计算输出层的偏差

再计算第二层即隐藏层的偏差，输入层不计算

梯度公式能够由偏差矩阵获得

delta_1 = zeros(size(Theta1));

delta_2 = zeros(size(Theta2));for t = 1:m a_1 = X(t,:)'; %step1,此处不用补1，由于在X中已经执行过这一步了

z_2 = Theta1 * a_1; a_2 = sigmoid(z_2);

a_2 = [1;a_2]; z_3 = Theta2 * a_2;

a_3 = sigmoid(z_3);

err_3 = zeros(num_labels,1);

for k = 1 : num_labels %step2

err_3(k) = a_3(k) - (y(t)==k);

end

err_2 = Theta2' * err_3; %step3

err_2 = err_2(2:end) .* sigmoidGradient(z_2); //特别注意矩阵维度必定要符合，所以去掉第一个值

delta_2 = delta_2 + err_3 * a_2'; %step4

delta_1 = delta_1 + err_2 * a_1';

end

Theta1_temp = [zeros(size(Theta1,1),1) Theta1(:,2:end)]; %step5

Theta2_temp = [zeros(size(Theta2,1),1) Theta2(:,2:end)];

Theta1_grad = 1/m * delta_1 + lambda/m * Theta1_temp; //正则化不影响Theta的第一列

Theta2_grad = 1/m * delta_2 + lambda/m * Theta2_temp;

小结

神经网络反向传播的算法精髓到此就告一段落了，与其配合使用的梯度检查和最优化函数也十分重要，在此不详述。经过最小化代价函数获得最优的Theta值，从而获得预测准确率最高的输出，达到正确识别手写数字的目的。

PS：今天无心中发现了Andrew老师的老婆也是斯坦福机器学习实验室的，两人为实验室招募拍了一组照片，瞬间感受这才是科研的最高境界。附上恩爱照一张：

文／Shirley3377（简书做者）原文连接：http://www.jianshu.com/p/253b0d910779 著做权归做者全部，转载请联系做者得到受权，并标注“简书做者”。