Basic concept about gradient descent

1.bias 和 variance的比较

对比红色圆圈的两个图形

现象:简单的model具有small variance,复杂的model具有large variance

原因:简单的model收到sampled data的影响较小,分之

现象:简单的model具有large bias,复杂的model具有small bias

原因:复杂的model包含的function set可能比较大,因此可能会包含target function,但是复杂的model 会有较大的variance会散布很大,但平均起来bias可能较小

总结到:简单的model有较大的bias,较小variance,反之

 

2.underfitting 和overfitting

判断:如果你的model不能fit训练集,即是bias很大---》underfitting

           如果你的model能够fit训练集,但是在测试集上有很大error,即是可能会有较大的variance---》overfiting

针对大bias:从新设计你的model,增加更多输入features或者更加复杂的model

针对大variance:增加更多的数据(自己制作数据,翻转,倾斜图片等等)或者 正则化regularization

训练集交叉验证

3.Adagrad:调整leading rate

直观解释:how surprise it is,即是梯度的反差

更好的解释如下:

4. stochastic gradient descent:即是看到一个sample就update一次参数

5.feature scaling:即使得不同的feature具有相同的scaling

 why:减少不同feature scaling差异对性能的影响,即是减少不同weight的影响

解决方案:可以对不同维度进行正态化

6.cross entropy VS Square error

logistic regression时候:使用cross entropy 在距离target距离远的时候会具有很大的梯度,但是使用square error 时候会得到很小的梯度,导致很难收敛卡翻了

7.discriminative VS generative

在discriminative中没有做出任何假设,只是单纯的找出我w,b  ---》常常比generative比较好,因为大多数generative会有假设

在generative中会对概率分布做出假设,比如假设是不是高斯,伯努利,native 贝叶斯等找出另一组w,b

generative model的优点:适用少数据时,对噪声更加鲁棒,先验概率和分类相关概率可以从不同的来源估计

8.limitation of logistic regression

不能够区分这个二分类问题,因为logistic regression只能画一条boundary

解决方案1:可以使用feature transformation

解决方案1: