SparkML之推荐算法ALS

参考:
SparkML之推荐算法(一)ALS --有个比较详细的讲解,包含blocks使用。
Spark ALS源码总结算法

//TODO 源码,集群尝试、研究blocks使用原理及做用。
官方解释:numBlocks is the number of blocks used to parallelize computation (set to -1 to auto-configure).
即bloclk用于并行计算。并行计算量的大小。
block设定小值,集群中咱们设置spark.default.parallelism=10 或者blocks=2。大大下降了运算时间,从6min下降到40s。可是这是为何? 由于RDD的lineage?
相关文章
相关标签/搜索