spark partition 和HDFS的block

hdfs-block位于存储空间;spark-partition位于计算空间; hdfs-block的大小是固定的;spark-partition大小是不固定的; hdfs-block是有冗余的、不会轻易丢失;spark-partition(RDD)没有冗余设计、丢失之后重新计算得到; 上图中的每个RDD包含三个partition 注意: textFile方法底层封装的是读取MR读取文件的方式,读
相关文章
相关标签/搜索