spark第一篇:RDD Programming Guide

预览 在高层次上,每一个Spark应用(application)都包含一个驱动程序(driver program),该程序运行用户的主函数(main function),并在集群上执行各种并行操作。 Spark提供的主要抽象是一个弹性分布式数据集(resilient distributed dataset,简称RDD),它是在集群节点间进行分区的元素集合,可以并行操作。RDD是通过Hadoop文件
相关文章
相关标签/搜索