Spark学习笔记(二)-弹性分布式数据集RDDs

Spark-弹性分布式数据集RDDs     在阅读不少的Spark简介中,都及多的提到RDDs这个名词。官方文档指出:Spark 核心的概念是 Resilient Distributed Dataset (RDD):一个可并行操做的有容错机制的数据集合。这句话说明RDD的本质是集合,这个集合带有并行操做和容错机制。     官方文档指出有两种方式建立RDD,一种是在你的驱动程序中并行化一个已经存
相关文章
相关标签/搜索