转载: dropout为啥要rescale?

传送门1 传送门2 概述 dropout可以让模型训练时,随机让网络的某些节点不工作(输出置零),也不更新权重(但会保存下来,下次训练得要用,只是本次训练不参与bp传播),其他过程不变。 我们通常设定一个dropout radio=p,即每个输出节点以概率p置0(不工作,权重不更新),假设每个输出都是独立的,每个输出都服从二项伯努利分布p(1-p), 那么大约认为训练时,只使用了q= (1-p)比
相关文章
相关标签/搜索