使用 Spark ML Pipeline 进行机器学习

时间 2020-01-22

原文原文链接

Spark ML Pipeline 的引入，是受到 scikit-learn 的启发，虽然 MLlib 已经足够简单实用，但若是目标数据集结构复杂，须要屡次处理，或是在学习过程当中，要使用多个转化器 (Transformer) 和预测器 (Estimator)，这种状况下使用 MLlib 将会让程序结构极其复杂。因此，一个可用于构建复杂机器学习工做流应用的新库已经出现了，它就是 Spark 1.2

>>阅读原文<<