cs231n lecture 16 7.1笔记--更好的优化

last time: activation function:sigmoid, tanh, relu, leacky relu, maxout, ELU weight initialization:Xavier初始化,MSRA初始化。初始化过小无法学习,过大梯度消失。 data preprocessing:中心化,归一化。好处是让loss对参数值中的小扰动不那么敏感。 batch normaliz
相关文章
相关标签/搜索