1. Learning rate不合适,若是太大,会形成不收敛,若是过小,会形成收敛速度很是慢;网络
2. Batch size太大,陷入到局部最优;spa
3. 网络太简单,通常状况下,网络的层数和节点数量越大,拟合能力就越强,若是层数和节点不够多,没法拟合复杂的数据,也会形成不收敛.数据