Logistic Regression为什么不用Square Error???

当最后求梯度的时候,如果 f w , b ( x n ) = 1 f_{w,b}(x^{n}) = 1 fw,b​(xn)=1的时候,梯度为0,正常。但是当 f w , b ( x n ) = 0 f_{w,b}(x^{n}) = 0 fw,b​(xn)=0时,梯度同样为0,这样就不对了,因为此时的结果是错误的,但是梯度为0却导致学不到任何东西。 如上图所示,黑色的为Cross Entropy,当
相关文章
相关标签/搜索