Spark中的数据本地性

时间 2020-12-25

原文原文链接

分布式数据并行环境下，保持数据的本地性是非常重要的内容，事关分布式系统性能高下。概念： block ： HDFS的物理空间概念，固定大小，最小是64M，可以是128,256 。。也就是说单个文件大于block的大小，肯定会被切分，被切分的数目大概是：比如文件是250M，block是64M，就会被分为4个block，64+64+64+58，最后一个block没有满，一个block只能有一个文件