spark-learn-01

spark是基于内存计算的分布式大数据计算框架; spark执行特点 中间结果输出到内存,而非硬盘; 抽象出分布式内存存储结构RDD; RDD支持粗粒度写操作,同时对读操作,能细化到每条记录; 能控制数据在不同节点上的分区,即自定义分区策略; 不同stage之间会shuffle,shuffle是连接有依赖的stage的桥梁,上游stage输出到下游stage必须经过shuffle,shuffle将
相关文章
相关标签/搜索
本站公众号
   欢迎关注本站公众号,获取更多信息