Spark 中RDD和DataSet之间的转换

时间 2019-12-06

原文原文链接

什么是RDD:Spark提供了一个抽象的弹性分布式数据集，是一个由集群中各个节点以分区的方式排列的集合，用以支持并行计算。RDD在驱动程序调用hadoop的文件系统的时候就建立（其实就是读取文件的时候就建立），或者经过驱动程序中scala集合转化而来，用户也能够用spark将RDD放入缓存中，来为集群中某台机器宕掉后，确保这些RDD数据能够有效的被复用。总之，RDD能自动从宕机的节点中恢复过来。

>>阅读原文<<