大数据系列之Spark入门简介

时间 2020-05-18

标签数据系列 spark 入门简介栏目 Spark 繁體版

原文原文链接

定义分布式批处理系统和分析挖掘引擎。node 特性一、高效性。Spark基于内存的运算要快100倍以上，基于硬盘的运算也要快10倍以上。Spark实现了高效的DAG（无回路有向图）执行引擎，能够经过基于内存来高效处理数据流。算法二、易用性。Spark支持Java、Python和Scala的API，还支持超过80种高级算法，使用户能够快速构建不一样的应用。缓存三、通用性。Spark提供了

>>阅读原文<<