Spark2.1.0文档:Spark编程指南-Spark Programming Guide

1 概述 从一个较高的层次来看,每个 Spark 应用程序由两部分组成:driver program(驱动程序)端运行的 main 函数以及在整个集群中被执行的各类并行操做。Spark 提供的主要抽象是一个弹性分布式数据集(RDD),它是能够被并行处理且跨节点分布的元素的集合。咱们能够经过三种方式获得一个RDDhtml 一、 能够从一个 Hadoop 文件系统(或者任何其它 Hadoop 支持的文
相关文章
相关标签/搜索