relu不可微为什么可用于深度学习

首先确定relu数学上来讲不可微的,提供伪梯度使其可分,faux gradient是伪梯度,使得在0值不可分; 这里讲到了本质,反馈神经网络正常工作需要的条件就是每一个点提供一个方向,即导数;0值不可微,本质上来说是因为这个地方可画多条切线,但我们需要的只是一条;由于这出现的0值的概率极低,任意选择一个子梯度就OK了,在0处的次微分集合是【0,1】;即选择其中一个就OK了;一般默认是0;
相关文章
相关标签/搜索