近期,数据科学圈出现了很多“数据科学家应最早学习逻辑回归”的声音。做为一名与市场营销人员、销售人员、工程师一块儿工做的“孤立的”统计学家,我深深反对这一说法!算法
有许多工做尤为是生物统计领域都要求从业人员可以掌握并运用逻辑回归的知识。若是你在大学曾学过一些逻辑回归,这会对你颇有帮助,但对于初学者来讲,它并非入门课程。编程
在个人职业生涯中,我能够灵活地选择使用哪些方法和工具,现在许多从业者都处于相似的环境中。工具
所以有必定的概率,初学者在对逻辑回归的原理了解不多的状况下,使用像黑盒工具同样的逻辑回归,而后把本身拉入深坑。学习
下面列出了5条逻辑回归应放在最后学习的理由:优化
存在着上百种不一样类型的逻辑回归,一些适用于分类变量,一些适用于特定的分布(例如泊松分布)。专家在使用时也经常感到困惑,初学者和你的老板更会如此。blog
转换因变量后(一般是比例或二值型因变量,例如本文观点正确/错误),问题就变成了线性回归。虽然纯粹主义者声称实际的逻辑回归模型更精确,然而相较于模型的精确度,数据的质量才是相当重要的。若是数据有20%的噪声,或者理论模型是对实际状况的粗略估计,那么模型精确度高出1%并无实际用处。开发
除非可以妥善处理(例如使用ridge或Lasso回归),不然在噪声、缺失值和脏数据的影响下会致使模型过分拟合及缺少稳健性(使用例如梯度优化等技术的迭代算法)。入门
逻辑回归的系数不容易解释。当你对决策者或者其余部门解释模型时,不多有人可以理解。变量
最好的模型一般会将多种方法混合到一块儿,以便能尽量多的得到/解释差别。在我做为数据科学家长达30年的职业生涯中,从未使用过纯逻辑回归,但我开发出了一项更加稳健且便于使用及编程的混合技术,结果也容易解读。它将“不纯的”逻辑回归和“不纯的”决策树混合在一块儿,效果十分显著,尤为是对于你的“不纯”数据评分时。详情请戳。原理