Hadoop,Spark,Hive的一些知识复习

时间 2021-01-02

原文原文链接

Hadoop包括两个部分：分布式存储（HDFS)和分布式计算mr Spark与Hadoop最大的区别是mapreduce的job的中间输出结果可以保存在内存中，不需要读写HDFS,是基于内存的迭代计算框架，适用于需要多次操作特定数据集的应用场合。 mapreduce作业运行机制经典的mapreduce（mapreduce1) 客户端，提交mapreduce作业；jobtracker，协调作业的运