spark和mr的区别

首先最核心的两点:内存和磁盘的区别;job中途失败重新计算的区别。 ---spark最核心的概念是RDD(弹性分布式数据集),它的所有rdd在并行运算过程程中,可以做到数据共享,也就是可以重复使用mr在计算过程中 ---mapr:一次数据过程包含从共享文件系统读取数据、进行计算、完成计算、写入计算结果到共享存储中,在计算过程中,不同计算节点之间保持高度并行,这样的数据流模型使得那些需要反复使用一个
相关文章
相关标签/搜索