初学spark基本操作SparkSession、Dataset<Row>

RDD的具体描述RDD(弹性分布式数据集)是Spark提供的最重要的抽象的概念,它是一种有容错机制的特殊集合,可以分布在集群的节点上,以函数式编操作集合的方式,进行各种并行操作。可以将RDD理解为一个具有容错机制的特殊集合,它提供了一种只读、只能有已存在的RDD变换而来的共享内存,然后将所有数据都加载到内存中,方便进行多次重用。 a.他是分布式的,可以分布在多台机器上,进行计算。  b.他是弹性的
相关文章
相关标签/搜索