RDD是Spark对数据的抽象,本文将介绍它与MapReduce的区别以及它的优点分布式
能够看到一个MapReduce做业处理的结果只能存放在硬盘当中,当另外一个MapReduce做业去读取这个结果时又得从硬盘读取到内存中,这就产生了大量的数据复制,磁盘I/O,数据的序列化操做,这些多余的操做就使得整个计算系统变慢。spa
是一样每次查询数据都须要到磁盘里读取数据ip
能够看到它将一个MapReduce做业的中间结果放到了内存当中,这样别的做业来读取所依赖的结果时速度很快。当内存不够时,它一样会将数据存放到磁盘当中。内存
当不一样的查询都须要一个数据集的时候,直接从内存查询就足够了,当一个数据集被多个做业同时须要时它也支持将数据复制到各个机器上面it
总而言之RDD是一个分布式的(基于HDFS)存储在内存中的数据集,使数据以更少的开销在不一样的做业上共享,提升并行计算的效率class