BigData————Spark

spark是一个快速的通用的集群计算平台。 特点: 快速:比hadoop快出100倍,hadoop框架mapreduce计算需要落地。map任务结束后将结果输出到磁盘或者hdfs,reduce从hdfs读取数据,计算结果又放到 hdfs上,涉及到i/o。同时shuffle机制也需要i/o,伴随数据迁移。耗费时间。 spark相对而言,将mapreduce的计算过程需要的数据尽量的放到内存,当达到一
相关文章
相关标签/搜索