Andrew ng 深度学习课程笔记

时间 2019-11-30

标签 andrew 深度学习课程笔记繁體版

原文原文链接

课程一神经网络和深度学习

1. 深度学习概论

1.2 什么是神经网络

从Housing Price Prediction 讲起 => regression 回归能够当作一个简单的单层，一个神经元的神经网络python

1.3 用神经网络进行监督学习

1.4 为何深度学习会兴起

Data
Computation
Algorithms: 好比sigmod -> relu 使得计算gradient descent更快

2. 神经网络基础

2.1 二分分类

some notations ...算法

2.2 logistic 回归

logistic 回归就是一个浅层(shallow, 实际上一个hidden layer也没有，只有一个output layer)神经网络bash

Give\ x,\ want\ \hat y = P(y=1|x);\  (0<=y<=1)

parameters:w\in \mathbb{R},b\in \mathbb{R}

Output:\hat y=\sigma(w^tx+b); find\ w,b

\sigma(z)=\frac{1}{1+e^{-z}}
复制代码

2.3 logistic回归损失函数

使用这个损失函数便于计算gradient descent网络

Loss(Error)\ Function : L(\hat y,y) = - (y\log\hat y + (1-y)\log(1-\hat y)) 

Cost\ Function:  J(w,b) = 1/m *\sum_{i=1}^m  L(\hat y^i,y^i) = -\frac{1}{m}*\sum_{i=1}^m(y^i\log\hat y^i + (1-y^i)\log(1-\hat y^i)) 

复制代码

2.4 梯度降低法

w := w - \alpha \frac{dJ(w,b)}{dw};\  (\alpha:learning\ rate)

b := b - \alpha \frac{dJ(w,b)}{db}
复制代码

2.7 计算图

反向传播：其实有点相似dp算法，后往前算gradient descent, 这样有些算的结果能够复用，计算效率大大提升框架

2.9 logistic回归中的梯度降低

\text {图里面的a是以前的} \hat y
复制代码

分数求导：结果的分子=原式的分子求导乘以原式的分母-原式的分母求导乘以原式的分子，结果的分母=原式的分母的平方。dom

2.10 logistic回归on m个examples

2.11 向量化

向量化计算更高效机器学习

import numpy as np
import time

a = np.random.rand(1000000)
b = np.random.rand(1000000)
tic = time.time()
c = np.dot(a, b)
print("cost " + str((time.time() - tic)*1000) + "ms")
复制代码

2.13 向量化的logistic回归

2.15 python中的广播

2.16 python/numpy中的向量说明

不要使用秩为1的向量，显式使用1*n或者n*1的向量, 使用reshape和assert来确保维度符合预期ide

import numpy as np
a = np.random.randn(5) #do not use 
print("a:",a.shape,"\n", a)
b = np.random.randn(5, 1)
print("b:",b.shape,"\n", b)
c = np.random.randn(1, 5)
print("c:",c.shape,"\n", c)

a = a.reshape(5, 1)
assert(a.shape == (5, 1))
复制代码

3. 浅层神经网络

3.1 神经网络概览

3.2 神经网络表示

3.5 向量化实现的解释

3.6 激活函数

3.7 为何使用非线性的激活函数

若是是线性的通过几层以后仍是线性的，多层就没有意义了函数

3.8 激活函数的导数

3.9 激活函数的导数

3.11 随机初始化

多神经元为什么W不能初始化为0矩阵学习

4. 深层神经网络

4.1 深层神经网络

4.3 核对矩阵的维数

4.7 参数VS超参数

课程二改善深层神经网络：超参数调试、正则化以及优化

1. 深度学习的实用层面

1.1 训练、开发、测试集

1.2 误差、方差

1.4 Regularization

lamda 很大会发生什么：

1.6 Drop Out Regularization

1.8 其余Regularization方法

early stopping

1.9 Normalizing inputs

1.10 vanishing/exploding gradients

1.11 权重初始化

1.13 Gradient Check

1.14 Gradient Check Implementation Notes

2. 优化算法

2.1 Mini-batch gradient descent

batch-size 要适配CPU/GPU memory

2.3 Exponentially weighted averages

移动平都可抚平短时间波动，将长线趋势或周期显现出来。数学上，移动平都可视为一种卷积。

Bias correction

2.6 Gradient Descent with Momentum

2.7 RMSprop

2.8 Adam优化算法

Momentum + RMSprop

2.9 Learning rate decay

逐步减少Learning rate的方式

2.10 局部最优的问题

在高维空间，容易遇到saddle point可是local optima其实不容易遇到

plateaus是个问题，learning会很慢，可是相似adam的方法能减轻这个问题

3. 超参数调试、batch正则化和程序框架

3.1 搜索超参数

Try random values: don't use a grid
Coarse to fine

3.4 Batch Normalization

一个问题，在回归中能够normalization在神经网络中能否作相似的事情

经过lamda和beta能够控制mean和variance

3.6 Batch Normalization为何有效

By normlization values to similar range of values, it speed up learning
Batch normlization reduces the problem of input values(对于每一层) changing
Has a slight regulazation effect (like dropout, it adds some noice to each hidden layer's activations)