【Spark】Spark二:Spark RDD初步

什么是RDD Spark是围绕着RDD(Resilient Distributed Dataset,弹性分布式数据集)建立起来的,也就是说,RDD是Spark框架的核心基石。RDD是一个可容错的数据集,这个数据集合中的数据是可以并行处理的。   RDD的特点: A list of partitions 一系列的分片,比如说64M一片;类似于Hadoop中的split; A function for
相关文章
相关标签/搜索