spark知识点总结(1)

1.RDD弹性分布式数据集:是抽象出来的概念,元素的集合。是一批节点上一批数据的集合。java 分布式:每一个rdd会把数据分红多个parttioner放在多个节点上。eg:90万条数据放在9个节点上面,每一个   节点9万条数据。mysql 弹性:eg:每一个节点上面个的内存中只能存放5万条数据,那么他会把剩下的4万条存放在磁盘当中。sql RDD提供个高容错性的机制,当一个RDD上面的数据发生
相关文章
相关标签/搜索