机器学习套路三步走

机器学习的套路

  • 1.model如何对现实的场景进行抽象
  • 2.model如何对参数进行求解
  • 3.model的效果如何评价

1.抽象

例如线性回归,就是认为预测变量y和特征X之间存在线性关心,老掉牙的例子就是房价和地区收入,人口密度等等的线性关系
线性回归的数学假设有两个部分:
1. y的预测值是数据特征的线性变换。这里的参数是一组系数。而y的系数和数据特征的线性组合。
2.y的预测值和实际值之间存在一个偏差,这个偏差是符合正太分布的算法

2.参数求解

参数求解每一个模型都不同,通常通用的就是SGD和各类变种
还以上面的线性回归为例,求解的参数就是y=Wx中的W机器学习

3.评价

评价模型的效果好很差,均方偏差,logloss等等
上面的线型模型由于假设预测值和实际值的偏差是符合正太分布,因此通常用均方偏差学习

总结

第一步抽象很重要,第二步做为普通人主要是使用现成的算法进行参数求解,第三步每每已经在实际的生产环境中肯定了模型的评价标准
通常的经验是在用一个模型对数据进行训练的时候,若是训练集上欠拟合,多是模型的表征能力不行对应;若是在测试集上过拟合,那可能就是模型的表征能力太强,噪声都被学习了。至于模型的迭代和改进这又是另外一个问题了。测试

相关文章
相关标签/搜索