在coursera上久负盛名的课程《机器学习》,不只Andrew Ng老师讲课思路清晰,而且有不少网友的整理的优秀笔记。听完老师的课收获颇多,经过编程做业对算法有了更深入的理解。正如老师所说,检验一个算法有效性的平台一般是容易实现,语言简单的,例如MATLAB。以后能够根据本身的需求移植到C、C++、Java平台上。神经网络这一章算法复杂度较线性回归、逻辑回归有所提升,作编程做业的难度也有加大,因此记录下本身编程过程当中意识到的问题,以备查看。算法
1.随机初始化接近于0的权值theta。
2.执行前向传播算法,对于有m个输入样本的x,每一个x获得一个输出。
3.经过代码计算代价函数。
4.用反向传播算法计算代价函数的偏导。
5.应用梯度检查法,将数值计算出的偏导数与反向传播偏导数做比较,保证正确应用了反向传播算法。检验完成后去掉梯度检查代码,由于会给程序带来额外的代价。
6.用梯度降低或者其余更高级的优化算法来达到代价函数的最小取值,从而获得分类函数。编程
本程序利用神经网络对手写数字进行识别,假设有一个三层的神经网络,其中输入层单元个数为400,隐藏层单元个数为25,输出层单元个数为10。从而能够获得theta1为25X401的矩阵,theta2为10X26的矩阵。网络
因为MATLAB中的代价函数为了输入方便,将theta一、theta2展开成了一个向量,因此须要一步转换过程,从新恢复原值。机器学习
Theta1 = reshape(nn_params(1:hidden_layer_size * (input_layer_size + 1)),
函数
hidden_layer_size, (input_layer_size + 1));
学习
Theta2 = reshape(nn_params((1 + (hidden_layer_size * (input_layer_size + 1))):end),
优化
num_labels, (hidden_layer_size + 1)); //注意矩阵维数对应关系
spa
对输出y进行预处理
样本中y存储的是一个数字,即本图中显示的数字。可是神经网络的输出层确实一个10维的列向量,对应下标数为1即表示显示该数字。因此要进行由数字到向量的预处理。code
Y = []; E = eye(num_labels);
get
for i = 1:num_labels
Y0 = find(y==i);
Y(Y0,:) = repmat(E(i,:),size(Y0,1),1);
end
计算代价函数 J,直接利用矩阵的计算完成m个样本的代价函数,避免了循环迭代。注意每次都要补一列全1的误差项。
X = [ones(m,1) X];
a2 = sigmoid(X * Theta1');
a2 = [ones(m,1) a2];
a3 = sigmoid(a2 * Theta2');
temp1 = [zeros(size(Theta1,1),1) Theta1(:,2:end)];
temp2 = [zeros(size(Theta2,1),1) Theta2(:,2:end)];
temp1 = sum(temp1.^2);temp2 = sum(temp2.^2);
cost = Y .* log(a3) + (1 - Y) .* log(1 - a3);
J = -1 / m * sum(cost(:)) + lambda/(2*m) * (sum(temp1) + sum(temp2));
delta_1 = zeros(size(Theta1));
delta_2 = zeros(size(Theta2));for t = 1:m a_1 = X(t,:)'; %step1,此处不用补1,由于在X中已经执行过这一步了
z_2 = Theta1 * a_1; a_2 = sigmoid(z_2);
a_2 = [1;a_2]; z_3 = Theta2 * a_2;
a_3 = sigmoid(z_3);
err_3 = zeros(num_labels,1);
for k = 1 : num_labels %step2
err_3(k) = a_3(k) - (y(t)==k);
end
err_2 = Theta2' * err_3; %step3
err_2 = err_2(2:end) .* sigmoidGradient(z_2); //特别注意矩阵维度必定要符合,所以去掉第一个值
delta_2 = delta_2 + err_3 * a_2'; %step4
delta_1 = delta_1 + err_2 * a_1';
end
Theta1_temp = [zeros(size(Theta1,1),1) Theta1(:,2:end)]; %step5
Theta2_temp = [zeros(size(Theta2,1),1) Theta2(:,2:end)];
Theta1_grad = 1/m * delta_1 + lambda/m * Theta1_temp; //正则化不影响Theta的第一列
Theta2_grad = 1/m * delta_2 + lambda/m * Theta2_temp;
神经网络反向传播的算法精髓到此就告一段落了,与其配合使用的梯度检查和最优化函数也十分重要,在此不详述。经过最小化代价函数获得最优的Theta值,从而获得预测准确率最高的输出,达到正确识别手写数字的目的。
PS:今天无心中发现了Andrew老师的老婆也是斯坦福机器学习实验室的,两人为实验室招募拍了一组照片,瞬间感受这才是科研的最高境界。附上恩爱照一张: