利用pyspark.ml训练lightgbm模型的流程

时间 2021-01-07

原文原文链接

在spark上训练模型的优势: (1)机器学习算法一般都有很多个步骤迭代计算的过程，机器学习的计算需要在多次迭代后获得足够小的误差或者足够收敛才会停止，迭代时如果使用一般的Hadoop分布式计算框架，每次计算都要读 / 写磁盘以及任务的启动等工作，这回导致非常大的 I/O 和 CPU 消耗。而 Spark 基于内存的计算模型天生就擅长迭代计算，多个步骤计算直接在内存中完成. (2)从通信的角度讲，