Spark之RDD解析

一、RDD定义 分布式弹性数据集,只读的分区集合,不同分区可以被保存在不同的节点上,从而进行并行计算 二、RDD操作 RDD通常通过Hadoop上的文件,即HDFS文件或者Hive表,来进行创建;有时也可以通过应用程序中的集合来创建. 转换 指定RDD之间的相互依赖关系 粗粒度的数据转换操作 适合对数据集执行相同操作的批处理式应用,而不适合用于需要异步、细粒度状态的应用 比如map、filter、
相关文章
相关标签/搜索