对比红色圆圈的两个图形
现象:简单的model具有small variance,复杂的model具有large variance
原因:简单的model收到sampled data的影响较小,分之
现象:简单的model具有large bias,复杂的model具有small bias
原因:复杂的model包含的function set可能比较大,因此可能会包含target function,但是复杂的model 会有较大的variance会散布很大,但平均起来bias可能较小
总结到:简单的model有较大的bias,较小variance,反之
判断:如果你的model不能fit训练集,即是bias很大---》underfitting
如果你的model能够fit训练集,但是在测试集上有很大error,即是可能会有较大的variance---》overfiting
针对大bias:从新设计你的model,增加更多输入features或者更加复杂的model
针对大variance:增加更多的数据(自己制作数据,翻转,倾斜图片等等)或者 正则化regularization
训练集交叉验证
直观解释:how surprise it is,即是梯度的反差
更好的解释如下:
why:减少不同feature scaling差异对性能的影响,即是减少不同weight的影响
解决方案:可以对不同维度进行正态化
logistic regression时候:使用cross entropy 在距离target距离远的时候会具有很大的梯度,但是使用square error 时候会得到很小的梯度,导致很难收敛卡翻了
在discriminative中没有做出任何假设,只是单纯的找出我w,b ---》常常比generative比较好,因为大多数generative会有假设
在generative中会对概率分布做出假设,比如假设是不是高斯,伯努利,native 贝叶斯等找出另一组w,b
generative model的优点:适用少数据时,对噪声更加鲁棒,先验概率和分类相关概率可以从不同的来源估计
不能够区分这个二分类问题,因为logistic regression只能画一条boundary
解决方案1:可以使用feature transformation
解决方案1: