Hadoop,Spark,Hive的一些知识复习

Hadoop包括两个部分:分布式存储(HDFS)和分布式计算mr Spark与Hadoop最大的区别是mapreduce的job的中间输出结果可以保存在内存中,不需要读写HDFS,是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。 mapreduce作业运行机制 经典的mapreduce(mapreduce1) 客户端,提交mapreduce作业;jobtracker,协调作业的运
相关文章
相关标签/搜索