Spark MLlib 学习入门笔记 - RDD基础

RDD(Resilient Distributed Datasets)分布式弹性数据集,将数据分布存储在不同节点的计算机内存中进行存储和处理。RDD的任务被分成两部分:Transformation和Action。Transformation用于对RDD的创建,即一个RDD转换为另一个RDD,Action是数据计算执行部分,如count、reduce、collect等。 Spark文档里有相关的说明
相关文章
相关标签/搜索