大数据项目实战必备技能之Spark

时间 2020-05-10

原文原文链接

导读： spark是基于内存计算的大数据并行计算框架，对于spark，Apache spark官方给出的定义：spark 是一个快速和通用的大数据引擎，能够通俗的理解成一个分布式的大数据处理框架，它基于Rdd(弹性分布式数据集)，立足于内存计算，由于是基于内存计算，因此提升了在大数据环境下数据处理的实时性，同时保证了高容错和高可伸缩性，容许用户将spark部署在大量廉价的硬件之上，造成集群，因为s

>>阅读原文<<