Spark 中RDD和DataSet之间的转换

什么是RDD:Spark提供了一个抽象的弹性分布式数据集,是一个由集群中各个节点以分区的方式排列的集合,用以支持并行计算。RDD在驱动程序调用hadoop的文件系统的时候就建立(其实就是读取文件的时候就建立),或者经过驱动程序中scala集合转化而来,用户也能够用spark将RDD放入缓存中,来为集群中某台机器宕掉后,确保这些RDD数据能够有效的被复用。 总之,RDD能自动从宕机的节点中恢复过来。
相关文章
相关标签/搜索