冻结网络层训练的解释

博客连接:https://zhuanlan.zhihu.com/p/41313280网络

在微调(fine-tuning)中,须要肯定冻结的层数和可训练的层数,主要取决于,数据集类似度和新数据集的大小。原则上,类似度越高,则固定(fix)的层数越多;新数据集越大,不考虑训练时间的成本,则可训练更多的层数。而后可能也要考虑数据集自己的类别间差别度,但上面说的规则基本上仍是成立的。图片

例如,在图片分类的网络中,底层通常是颜色、轮廓、纹理等基础结构,显然大部分问题都由这些相同的基础结构组成,因此能够冻结这些层。层数越高,所具备泛化性越高,例如这些层会包含对鞋子、裙子和眼睛等,具体语义信息,比较敏感的神经元。因此,对于新的数据集,就须要训练这些较高的层。同时,好比一个高层神经元对车的轮胎较为敏感,不等于输入其它图像,就没法激活,于是,普通问题甚至能够只训练最后全链接层。get