大数据之Spark

时间 2020-12-25

原文原文链接

背景：由于MapReduce框架仅支持map和reduce两种操作，且迭代计算效率低，不适合交互式处理（数据挖掘），流式处理，不支持函数式编程语言（scala）。之前各种技术框架如，批处理的：HIVE，PIG，Mapreduce。流计算的storm，交互式计算的Impala，而spark是在此基础上的集大成者！统一了框架！特点：高效：基于内存的计算框架，比Mapreduce快10-100倍。