spark学习笔记

spark学习笔记 1. hadoop四大组件 HDFS :分布式存储系统 MapReduce :分布式计算系统 YARN :资源调度系统 Common :底层支持组件 2. spark RDD Resilient Distributed Dataset :弹性分布式数据集 RDD属性 : (1)partition :分片,数据集的基本组成单位。对于RDD来说,每个分片都会被一个计算任务处理,并决
相关文章
相关标签/搜索