Spark入门必读:核心概念介绍及常用RDD操作

导读:Spark是由加州大学伯克利分校AMP实验室开源的分布式大规模数据处理通用引擎,具有高吞吐、低延时、通用易扩展、高容错等特点。Spark内部提供了丰富的开发库,集成了数据分析引擎Spark SQL、图计算框架GraphX、机器学习库MLlib、流计算引擎Spark Streaming。 Spark在函数式编程语言Scala中实现,提供了丰富的开发API,支持Scala、Java、Python
相关文章
相关标签/搜索