《Spark MLlib 机器学习实战》1——读后总结

《Spark MLlib 机器学习实战》1——读后总结 1 概念 2 安装 3 RDD RDD包含两种基本的类型:Transformation和Action。RDD的执行是延迟执行,只有Action算子才会触发任务的执行。 宽依赖和窄依赖用于切分任务,如果都是窄依赖,那么就可以最大化的利用并行。 常用操作: cache 缓存 cartesian 笛卡尔积 coalesce 重分区 countByV
相关文章
相关标签/搜索