Spark总结

0. Spark 转为大规模数据处理设计的快速通用的计算引擎 基于内存,开源,并行计算 消除了mapreduce大量IO操做和仅支持批处理的缺陷 经过RDD弹性分布式数据集,提供交互式查询功能 基于scala面向函数语言编写,便于操做RDD 可经过YARN管理分配资源,利用HDFS存储数据 使用DAG有向无环图执行引擎,内存/磁盘计算速度均比MR快 支持java,python,scala,R和sp
相关文章
相关标签/搜索