[1.2]Spark core编程(一)之RDD总论与建立RDD的三种方式

参考 DT大数据梦工厂 Spark官网html 场景 RDD的理解 1、RDD是基于工做集的应用抽象;是分布式、函数式编程的抽象。 MapReduce:基于数据集的处理。二者的共同特征:位置感知(具体数据在哪里)、容错、负载均衡。 基于数据集的处理:从物理存储设备上加载数据,而后操做数据,写入物理存储设备。eg、Hadoop MapReduce 不适应场景: 一、不适合于大量的迭代 二、不适合于交
相关文章
相关标签/搜索