1)广义线性模型,它构成了大多数监督机器学习方法的基础(包括逻辑回归和Tweedie回归,它归纳了在工业中遇到的大多数计数或连续结果……)html
2)时间序列方法(ARIMA, SSA,基于机器学习的方法)算法
3)结构方程建模(模拟和测试介导途径)网络
4)因子分析法(调查设计与验证的探索和验证)架构
5)功率分析/试验设计(特别是基于仿真的试验设计,以避免分析过分)app
6)非参数检验(从零开始的推导,尤为经过模拟)/MCMC框架
8)贝叶斯方法(Naïve Bayes,贝叶斯模型求平均值,贝叶斯自适应试验...)工具
9)惩罚回归模型(elastic net, LASSO, LARS...),一般给模型增长惩罚因素(SVM, XGBoost...),这对于预测值超过观测值的数据集是有用的(常见于基因组学与社会科学研究)学习
11)马尔可夫链和随机过程(时间序列建模与预测建模的另外一种方法)
12)缺失数据填补方案及其假设(missForest, MICE...)
13)生存分析(很是有助于制造建模和消耗过程)
14)混合建模
15)统计推断与分组测试(A/B测试和在许多交易活动中实施更复杂的设计)
机器学习扩展了许多这样框架,特别是K均值聚类和广义线性建模。在许多行业中一些有用的常见技术(还有一些更模糊的算法,在bootcamps或证书程序中出人意料的有用,但学校里不多教)包括:
1)回归/分类树(用于高精度、可解释性好、计算费用低的广义线性模型的早期推广)
2)维数约简(PCA和多样学习方法如MDS和tSNE)
3)经典前馈神经网络
4)装袋组合(构成了随机森林和KNN回归整合等算法的基础)
7)加速整合(这是梯度提高和XGBoost算法的基础)
8)参数优化或设计项目的优化算法(遗传算法,量子启发进化算法,模拟锻炼,粒子群优化)
9)拓扑数据分析工具,特别适合于小样本大小的无监督学习(持久同调, Morse-Smale聚类, Mapper...)
10)深度学习架构(通常的深度架构)
11) KNN局部建模方法(回归,分类)
12)基于梯度的优化方法
13)网络度量与算法(中央度量法、中间性、多样性、熵、拉普拉斯算子、流行病扩散、谱聚类)
14)深度体系架构中的卷积和汇聚层(专门适用于计算机视觉和图像分类模型)
15)层次聚类(聚类和拓扑数据分析工具相关)
16)贝叶斯网络(路径挖掘)
17)复杂性与动态系统(与微分方程有关,但一般用于模拟没有已知驱动程序的系统)
依靠所选择的行业,可能须要与天然语言处理(NLP)或计算机视觉相关的附加算法。然而,这些是数据科学和机器学习的专门领域,进入这些领域的人一般已是那个特定领域的专家。学术项目以外的一些学习这些方法的资源包括:
Christopher, M. B. (2016).《模式识别与机器学习》,施普林格出版社,纽约。
Friedman, J., Hastie, T., & Tibshirani, R. (2001).《统计学习的要素》(卷1, 337-387页).纽约:统计中的斯普林格级数。
本文由 阿里云云栖社区 组织翻译。 文 章原标题《Key Algorithms and Statistical Models for Aspiring Data Scientists》