重温大数据---正儿八经Spark再探

连着把这一块改总结的笔记都写了,时间太紧张了,对不住各位了!😂😂😂 Spark RDD 弹性的分布式数据集,可以理解为一个Java类,里面放的都是数据。RDD代表一个不可变的对元素分区的集合。并且RDD可以被并行计算。 Spark RDD特性 分为若干个区 每个分片用一个函数计算 RDD直接是一个依赖关系 对于K-V的RDD可指定一个分区,告诉它如何分片 要运行的计算/执行最好在哪几个机器上
相关文章
相关标签/搜索