【大数据】SparkCore学习笔记

  第1章 RDD概述 1.1 什么是RDD RDD(Resilient Distributed Dataset)叫作分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它表明一个不可变、可分区、里面的元素可并行计算的集合。html 1.2 RDD的属性   1) 一组分区(Partition),即数据集的基本组成单位;java 2) 一个计算每一个分区的函数;mysql 3) RD
相关文章
相关标签/搜索