cs231n lecture 16 7.1笔记--更好的优化

时间 2021-01-08

原文原文链接

last time: activation function：sigmoid, tanh, relu, leacky relu, maxout, ELU weight initialization：Xavier初始化，MSRA初始化。初始化过小无法学习，过大梯度消失。 data preprocessing：中心化，归一化。好处是让loss对参数值中的小扰动不那么敏感。 batch normaliz