深层网络在计算什么?
假设是一个人脸的识别系统,那么神经网络的第一层可能是一些特征的探测器或者是一些边缘的探测器,使用这些边缘特征来寻找之后脸部某一部分的边缘,从而组成面部的不同部分,再将面部的不同部分放在一起探测
假设是一个语音识别系统,需要解决的就是可视化语音,那么神经网络的第一层就是探测波形的特征,从而识别音位,音频、单词、句子
什么是超参数?
比如算法中的 learning rate 𝑎(学习率
)、iterations(梯度下降法循环的数量)、𝐿(隐藏层数目
)、𝑛[𝑙](隐藏层单元数目)、choice of activation function(激活函数的选择)都需要你来设置,这些数字实际上控制了最后的参数𝑊和𝑏的值,所以它们被称作超参数。