[大数据]连载No6之Spark(RDD特性,算子)+第一行代码Hello WordCount

本次总结图如下 什么是spark? 1:快速的通用引擎,处理大规模数据 2:开源分布式计算框架,使数据分析更加快速 3:不但分析程序快速,写程序也快速 Spark RDD(Resilient distributed Dataset) 弹性的分布式数据集 5大特性 1)有一系类分区集合组成 (a list of partitions) 个人理解:计算的数据到达T级别以上时,hadoop会将这些数据切
相关文章
相关标签/搜索