地铁译:Spark for python developers --- 搭建Spark虚拟环境2 ...

这一段,主要是 Spark 的基本概念,以及Anaconda的基本组成。 理解Spark Hadoop 随着数据的增长水平扩展,可以运行在普通的硬件上, 所以是低成本的. 数据密集型应用利用可扩展的分布处理框架在大规模商业集群上分析PB级的数据. Hadoop 是第一个map-reduce的开源实现. Hadoop 依赖的分布式存储框架叫做 HDFS(Hadoop Distributed File
相关文章
相关标签/搜索