大数据系列之Spark入门简介

定义 分布式批处理系统和分析挖掘引擎。node   特性 一、高效性。Spark基于内存的运算要快100倍以上,基于硬盘的运算也要快10倍以上。Spark实现了高效的DAG(无回路有向图)执行引擎,能够经过基于内存来高效处理数据流。算法 二、易用性。Spark支持Java、Python和Scala的API,还支持超过80种高级算法,使用户能够快速构建不一样的应用。缓存 三、通用性。Spark提供了
相关文章
相关标签/搜索