(Python)零起步数学+神经网络入门

时间 2019-12-06

标签 python 起步数学神经网络入门栏目 Python 繁體版

原文原文链接

在这篇文章中，咱们将在Python中从头开始了解用于构建具备各类层神经网络（彻底链接，卷积等）的小型库中的机器学习和代码。最终，咱们将可以写出以下内容：python

假设你对神经网络已经有必定的了解，这篇文章的目的不是解释为何构建这些模型，而是要说明如何正确实现。git

逐层github

咱们这里须要牢记整个框架：网络

1. 将数据输入神经网络架构

2. 在得出输出以前，数据从一层流向下一层app

3. 一旦获得输出，就能够计算出一个标量偏差。框架

4. 最后，能够经过相对于参数自己减去偏差的导数来调整给定参数（权重或误差）。dom

5. 遍历整个过程。机器学习

最重要的一步是第四步。咱们但愿可以拥有任意数量的层，以及任何类型的层。可是若是修改/添加/删除网络中的一个层，网络的输出将会改变，偏差也将改变，偏差相对于参数的导数也将改变。不管网络架构如何、激活函数如何、损失如何，都必需要可以计算导数。ide

为了实现这一点，咱们必须分别实现每一层。

每一个层应该实现什么

咱们可能构建的每一层（彻底链接，卷积，最大化，丢失等）至少有两个共同点：输入和输出数据。

如今重要的一部分

假设给出一个层相对于其输出（∂E/∂Y）偏差的导数，那么它必须可以提供相对于其输入（∂E/∂X）偏差的导数。

咱们可使用链规则轻松计算∂E/∂X的元素：

为何是∂E/∂X？

对于每一层，咱们须要相对于其输入的偏差导数，由于它将是相对于前一层输出的偏差导数。这很是重要，这是理解反向传播的关键！在这以后，咱们将可以当即从头开始编写深度卷积神经网络！

花样图解

基本上，对于前向传播，咱们将输入数据提供给第一层，而后每层的输出成为下一层的输入，直到到达网络的末端。

对于反向传播，咱们只是简单使用链规则来得到须要的导数。这就是为何每一层必须提供其输出相对于其输入的导数。

这可能看起来很抽象，可是当咱们将其应用于特定类型的层时，它将变得很是清楚。如今是编写第一个python类的好时机。

抽象基类：Layer

全部其它层将继承的抽象类Layer会处理简单属性，这些属性是输入，输出以及前向和反向方法。

from abc import abstractmethod
# Base class
class Layer:
    def __init__(self):
        self.input = None;
        self.output = None;
        self.input_shape = None;
        self.output_shape = None;
    # computes the output Y of a layer for a given input X
    @abstractmethod
    def forward_propagation(self, input):
        raise NotImplementedError

    # computes dE/dX for a given dE/dY (and update parameters if any)
    @abstractmethod
    def backward_propagation(self, output_error, learning_rate):
        raise NotImplementedError

正如你所看到的，在back_propagation函数中，有一个我没有提到的参数，它是learning_rate。此参数应该相似于更新策略或者在Keras中调用它的优化器，为了简单起见，咱们只是经过学习率并使用梯度降低更新咱们的参数。

全链接层

如今先定义并实现第一种类型的网络层：全链接层或FC层。FC层是最基本的网络层，由于每一个输入神经元都链接到每一个输出神经元。

前向传播

每一个输出神经元的值由下式计算：

使用矩阵，可使用点积来计算每个输出神经元的值：

当完成前向传播以后，如今开始作反向传播。

反向传播

正如咱们所说，假设咱们有一个矩阵，其中包含与该层输出相关的偏差导数（∂E/∂Y）。咱们须要：

1.关于参数的偏差导数（∂E/∂W，∂E/∂B）

2.关于输入的偏差导数（∂E/∂X）

首先计算∂E/∂W，该矩阵应与W自己的大小相同：对于ixj，其中i是输入神经元的数量，j是输出神经元的数量。每一个权重都须要一个梯度：

使用前面提到的链规则，能够写出：

那么：

这就是更新权重的第一个公式！如今开始计算∂E/∂B：

一样，∂E/∂B须要与B自己具备相同的大小，每一个误差一个梯度。咱们能够再次使用链规则：

得出结论：

如今已经获得∂E/∂W和∂E/∂B，咱们留下∂E/∂X这是很是重要的，由于它将“做用”为以前层的∂E/∂Y。

再次使用链规则：

最后，咱们能够写出整个矩阵：

编码全链接层

如今咱们能够用Python编写实现：

from layer import Layer
import numpy as np

# inherit from base class Layer
class FCLayer(Layer):
    # input_shape = (1,i)   i the number of input neurons
    # output_shape = (1,j)  j the number of output neurons
    def __init__(self, input_shape, output_shape):
        self.input_shape = input_shape;
        self.output_shape = output_shape;
        self.weights = np.random.rand(input_shape[1], output_shape[1]) - 0.5;
        self.bias = np.random.rand(1, output_shape[1]) - 0.5;

    # returns output for a given input
    def forward_propagation(self, input):
        self.input = input;
        self.output = np.dot(self.input, self.weights) + self.bias;
        return self.output;

    # computes dE/dW, dE/dB for a given output_error=dE/dY. Returns input_error=dE/dX.
    def backward_propagation(self, output_error, learning_rate):
        input_error = np.dot(output_error, self.weights.T);
        dWeights = np.dot(self.input.T, output_error);
        # dBias = output_error
        
        # update parameters
        self.weights -= learning_rate * dWeights;
        self.bias -= learning_rate * output_error;
        return input_error;

激活层

到目前为止所作的计算都彻底是线性的。用这种模型学习是没有但愿的，须要经过将非线性函数应用于某些层的输出来为模型添加非线性。

如今咱们须要为这种新类型的层（激活层）重作整个过程！

不用担忧，由于此时没有可学习的参数，过程会快点，只须要计算∂E/∂X。

咱们将f和f'分别称为激活函数及其导数。

前向传播

正如将看到的，它很是简单。对于给定的输入X，输出是关于每一个X元素的激活函数，这意味着输入和输出具备相同的大小。

反向传播

给出∂E/∂Y，须要计算∂E/∂X

注意，这里咱们使用两个矩阵之间的每一个元素乘法（而在上面的公式中，它是一个点积）

编码实现激活层

激活层的代码很是简单：

from layer import Layer
# inherit from base class Layer
class ActivationLayer(Layer):
    # input_shape = (1,i)   i the number of input neurons
    def __init__(self, input_shape, activation, activation_prime):
        self.input_shape = input_shape;
        self.output_shape = input_shape;
        self.activation = activation;
        self.activation_prime = activation_prime;

    # returns the activated input
    def forward_propagation(self, input):
        self.input = input;
        self.output = self.activation(self.input);
        return self.output;

    # Returns input_error=dE/dX for a given output_error=dE/dY.
    # learning_rate is not used because there is no "learnable" parameters.
    def backward_propagation(self, output_error, learning_rate):
        return self.activation_prime(self.input) * output_error;

能够在单独的文件中编写一些激活函数以及它们的导数，稍后将使用它们构建ActivationLayer：

import numpy as np
# activation function and its derivative
def tanh(x):
    return np.tanh(x);

def tanh_prime(x):
    return 1-np.tanh(x)**2;

损失函数

到目前为止，对于给定的层，咱们假设给出了∂E/∂Y（由下一层给出）。可是最后一层怎么获得∂E/∂Y？咱们经过简单地手动给出最后一层的∂E/∂Y，它取决于咱们如何定义偏差。

网络的偏差由本身定义，该偏差衡量网络对给定输入数据的好坏程度。有许多方法能够定义偏差，其中一种最多见的叫作MSE - Mean Squared Error：

其中y *和y分别表示指望的输出和实际输出。你能够将损失视为最后一层，它将全部输出神经元吸取并将它们压成一个神经元。与其余每一层同样，须要定义∂E/∂Y。除了如今，咱们终于获得E！

如下是两个python函数，能够将它们放在一个单独的文件中，将在构建网络时使用。

import numpy as np

# loss function and its derivative
def mse(y_true, y_pred):
    return np.mean(np.power(y_true-y_pred, 2));

def mse_prime(y_true, y_pred):
    return 2*(y_pred-y_true)/y_true.size;

网络类

到如今几乎完成了！咱们将构建一个Network类来建立神经网络，很是容易，相似于第一张图片！

我注释了代码的每一部分，若是你掌握了前面的步骤，那么理解它应该不会太复杂。

from layer import Layer

class Network:
    def __init__(self):
        self.layers = [];
        self.loss = None;
        self.loss_prime = None;

    # add layer to network
    def add(self, layer):
        self.layers.append(layer);

    # set loss to use
    def use(self, loss, loss_prime):
        self.loss = loss;
        self.loss_prime = loss_prime;

    # predict output for given input
    def predict(self, input):
        # sample dimension first
        samples = len(input);
        result = [];

        # run network over all samples
        for i in range(samples):
            # forward propagation
            output = input[i];
            for layer in self.layers:
                # output of layer l is input of layer l+1
                output = layer.forward_propagation(output);
            result.append(output);

        return result;

    # train the network
    def fit(self, x_train, y_train, epochs, learning_rate):
        # sample dimension first
        samples = len(x_train);

        # training loop
        for i in range(epochs):
            err = 0;
            for j in range(samples):
                # forward propagation
                output = x_train[j];
                for layer in self.layers:
                    output = layer.forward_propagation(output);

                # compute loss (for display purpose only)
                err += self.loss(y_train[j], output);

                # backward propagation
                error = self.loss_prime(y_train[j], output);
                # loop from end of network to beginning
                for layer in reversed(self.layers):
                    # backpropagate dE
                    error = layer.backward_propagation(error, learning_rate);

            # calculate average error on all samples
            err /= samples;
            print('epoch %d/%d   error=%f' % (i+1,epochs,err));

构建一个神经网络

最后！咱们可使用咱们的类来建立一个包含任意数量层的神经网络！为了简单起见，我将向你展现如何构建......一个XOR。

from network import Network
from fc_layer import FCLayer
from activation_layer import ActivationLayer
from losses import *
from activations import *
import numpy as np

# training data
x_train = np.array([[[0,0]], [[0,1]], [[1,0]], [[1,1]]]);
y_train = np.array([[[0]], [[1]], [[1]], [[0]]]);

# network
net = Network();
net.add(FCLayer((1,2), (1,3)));
net.add(ActivationLayer((1,3), tanh, tanh_prime));
net.add(FCLayer((1,3), (1,1)));
net.add(ActivationLayer((1,1), tanh, tanh_prime));

# train
net.use(mse, mse_prime);
net.fit(x_train, y_train, epochs=1000, learning_rate=0.1);

# test
out = net.predict(x_train);
print(out);

一样，我认为不须要强调不少事情，只须要仔细训练数据，应该可以先得到样本维度。例如，对于xor问题，样式应为（4,1,2）。

结果

$ python xor.py epoch 1/1000 error=0.322980 epoch 2/1000 error=0.311174 epoch 3/1000 error=0.307195 ... epoch 998/1000 error=0.000243 epoch 999/1000 error=0.000242 epoch 1000/1000 error=0.000242 [array([[ 0.00077435]]), array([[ 0.97760742]]), array([[ 0.97847793]]), array([[-0.00131305]])]

卷积层

这篇文章开始很长，因此我不会描述实现卷积层的全部步骤。可是，这是我作的一个实现：

from layer import Layer
from scipy import signal
import numpy as np

# inherit from base class Layer
# This convolutional layer is always with stride 1
class ConvLayer(Layer):
    # input_shape = (i,j,d)
    # kernel_shape = (m,n)
    # layer_depth = output depth
    def __init__(self, input_shape, kernel_shape, layer_depth):
        self.input_shape = input_shape;
        self.input_depth = input_shape[2];
        self.kernel_shape = kernel_shape;
        self.layer_depth = layer_depth;
        self.output_shape = (input_shape[0]-kernel_shape[0]+1, input_shape[1]-kernel_shape[1]+1, layer_depth);
        self.weights = np.random.rand(kernel_shape[0], kernel_shape[1], self.input_depth, layer_depth) - 0.5;
        self.bias = np.random.rand(layer_depth) - 0.5;

    # returns output for a given input
    def forward_propagation(self, input):
        self.input = input;
        self.output = np.zeros(self.output_shape);

        for k in range(self.layer_depth):
            for d in range(self.input_depth):
                self.output[:,:,k] += signal.correlate2d(self.input[:,:,d], self.weights[:,:,d,k], 'valid') + self.bias[k];

        return self.output;

    # computes dE/dW, dE/dB for a given output_error=dE/dY. Returns input_error=dE/dX.
    def backward_propagation(self, output_error, learning_rate):
        in_error = np.zeros(self.input_shape);
        dWeights = np.zeros((self.kernel_shape[0], self.kernel_shape[1], self.input_depth, self.layer_depth));
        dBias = np.zeros(self.layer_depth);

        for k in range(self.layer_depth):
            for d in range(self.input_depth):
                in_error[:,:,d] += signal.convolve2d(output_error[:,:,k], self.weights[:,:,d,k], 'full');
                dWeights[:,:,d,k] = signal.correlate2d(self.input[:,:,d], output_error[:,:,k], 'valid');
            dBias[k] = self.layer_depth * np.sum(output_error[:,:,k]);

        self.weights -= learning_rate*dWeights;
        self.bias -= learning_rate*dBias;
        return in_error;

它背后的数学实际上并不复杂！这是一篇很好的文章，你能够找到∂E/∂W，∂E/∂B和∂E/∂X的解释和计算。

若是你想验证你的理解是否正确，请尝试本身实现一些网络层，如MaxPooling，Flatten或Dropout

GitHub库

你能够在GitHub库中找到用于该文章的完整代码。

原文连接