sparkRDD

基本概念        RDD(Resilient Distributed Dataset),弹性分布式数据集,是Spark数据处理的核心抽象        属性:分区列表、分区函数、RDD依赖、分片函数(只有kv格式数RDD才有,两种函数HashPatitioner和RangePartitioner,不是kv格式的RDD则是none。可选)、数据就近原则(数据在哪里就在哪个节点执行任务或最近的节
相关文章
相关标签/搜索