理解Spark RDD

RDD是Spark中的一个很基础,很核心的概念,其全称是弹性分布式数据集,这是一种全新的数据抽象模型。在Spark中处理数据,不管是用BDAS(伯克利数据分析栈)中的哪个数据分析模型,最终都会将数据转化成基础的RDDs,将经过各类API定义的操做,解析成对于基础的RDD操做。这样一来经过一个底层的Spark执行引擎就能够知足各类计算模式。这也是Spark设计团队提出“one thing to ru
相关文章
相关标签/搜索