《Scala机器学习》一一3.6　运行Hadoop的HDFS

时间 2021-01-08

原文原文链接

3.6　运行Hadoop的HDFS 没有分布式存储的分布式框架是不完整的。HDFS是其中的一种分布式存储。即使Spark在本地模式下运行，它仍然可以在后台使用分布式文件系统。与Spark将计算任务分解成子任务一样，HDFS也会将文件分成块，并将它们存储在集群上。为了实现高可用性（High Availability，HA），HDFS会为每个块存储多个副本，副本数称为复制级别，默认为三个（见图3-5）

>>阅读原文<<

《Scala机器学习》一一3.6 运行Hadoop的HDFS

《Scala机器学习》一一3.6　运行Hadoop的HDFS